Does Richards distribuerade lagring har fel?

3

I säsong 4 av Silicon Valley , i sitt försök att skapa det nya internetet, hittar Richard sätt att lagra stor mängd data på distribuerade enheter som telefoner och till och med smarta kylskåp. Det behöver inte sägas att redundanta kopior av datasegmenten bor på flera enheter. När användaren begär data, skickar servern kanske ett meddelande till vem som är online och vem kan tillhandahålla de datasegment som behövs. Om du inte känner till Richards kod, kan det hända att enheterna börjar direkt sända data.

Kommer det inte att orsaka en extra stor mängd nätverkstrafik, även med Richards komprimeringsalgoritm?

    
uppsättning jujiro 20.08.2018 16:20

2 svar

2

Det beror på ...

Problemet med ett distribuerat lagringssystem skulle inte så mycket gå med i gruppen och begära data. Det skulle vara jämförbart med vilken bandbredd som används för tjänster som bittorrent / dropbox / onedrive / google drive / ... idag. Och användningen av dessa bandbredd är liten jämfört med media streaming-tjänster som netflix / youtube / twitch / ....

Som sagt kan upprätthållandet av hög tillgänglighet och tillförlitlighet av data vara det större problemet. Om du kan lagra data huvudsakligen på "alltid på" -enheter är det ganska enkelt, du väljer några gruppmedlemmar, skar och kopierar data och det kan leva där länge. Bara när en medlem dör, väljer du ett nytt replikeringsmål.

Men de flesta slutanvändare med realistisk appinstallation och lagringskapacitet (det vill säga inte kylskåp) är bärbara datorer, stationära datorer, telefoner, tabletter, spelkonsoler, NAS, .... Bara några av dessa är alltid på, de flesta har den irriterande vanan att vara avstängd eller förlora anslutning regelbundet. Om det här är huvuddelen av din lagringsgrupp / swarm behöver du en ganska hög replikeringsgrad för att täcka en förlust av flera enheter och varje gång denna hastighet dips för låg på grund av många kopplingar behöver du nya replikeringar. Om denna operation blir frekvent kan du ha stor bandbreddsanvändning bara för att behålla svärmen.

Så i det här universum, om företaget kan få massor av lagring på alltid-på-enheter svaret är troligt nej, kommer trafiken inte vara extraordinär. Om de dock huvudsakligen litar på mer flyktiga enheter är svaret troligtvis ja. Eftersom de på den tiden i showen riktar sig mot telefoner tror jag inte att det skulle ha fungerat bra, men vi hittade aldrig.

Men vem vet, kanske bortsett från magiska förlustfria komprimeringsalgoritmer, har kiseldaluniversumet också magisk oändlig (trådlös) bandbredd:).

    
svaret ges 21.08.2018 10:38
1

it is possible that the devices would start streaming the data right away.

Möjligt men högst osannolikt - Jag arbetar inom företagsfördelat lagringsutrymme och medan han teoretiskt kunde göra det är det mycket osannolikt att han skulle. Han ser ut att vara en mycket bra designer / kodare och medan de kunde använda den designfel för berättande / humoristiska skäl i verkligheten skulle han inte göra det och / eller det skulle misslyckas.

I allmänhet, och det här är en mycket generalistisk förklaring, är det sättet som distribueras filsystems arbete att, som du säger, krypteras blocken och distribueras till N + 1 noder och en rekord görs i en distribuerad databas (vanligtvis en minnesnyckel / värde DB istället för en med referensintegritet som SQL) med angivande av inod, blockreferens, krypteringsnyckelreferenser och nodnamn. Denna post replikeras själv bland DB-noder (ofta samma noder som lagringsnoden) för resilience på samma sätt som de faktiska blockdata. På det här sättet när en klient begär en fil (och åtkomstautentisering är godkänd) kan servicekoden (igen vara en kombinerad nod med DB och block) se upp filen inode referens / s, som betjänas av DB nodenätverket, då individuell få förfrågningar görs till blocknoden för de olika blocken och filen monteras sedan i ordning och okrypterad av servicenoden, som sedan tjänar filen till klienten och uppdaterar de olika metadatagränssnitten för att visa att filen lästes. Så väsentligen är varje block typiskt endast en gång läsning (du kan välja en parallellläsning med flera nodar om du vill dra nytta av rasförhållanden) och därför skulle data inte orsaka en översvämning. Är det okej?

    
svaret ges 23.08.2018 17:03