Windows

De big data-abonnementen van Facebook omvatten magazijnen, snellere analyses

How to Use Facebook without Internet

How to Use Facebook without Internet
Anonim

Facebook kan de gegevens die het op zijn één miljard-plus-gebruikers heeft schatten voor zijn advertentieretours, maar de analyse die de site op die gegevens uitvoert, zal naar verwachting het komende jaar vele uitdagingen blijven vormen, aldus een ingenieur.

efficiëntere manieren om het gebruikersgedrag op de site te verwerken, hoe u verschillende soorten gegevens beter kunt bereiken en consolideren in de meerdere datacenters van Facebook, en nieuwe open source softwaresystemen kunt ontwerpen om die gegevens te verwerken, Ra vi Murthy, die de analyse-infrastructuur van Facebook beheert, zei dinsdag.

"Facebook is een gegevensbedrijf en het meest voor de hand liggende ding dat mensen op dat front denken, is advertenties richten," zei hij op een industrieconferentie in San Francisco, tijdens een praat over de back-end infrastructuur van Facebook, data-analyse en open source projecten.

[Lees meer: ​​De beste tv-streamingdiensten]

"Maar het gaat dieper dan dit," zei hij.

Een belangrijk gebied van achter de schermen werken heeft betrekking op de analytische infrastructuur van Facebook, die is ontworpen om de productontwikkeling te versnellen en de gebruikerservaring te verbeteren door een grondige analyse van alle beschikbare gegevens, of het nu gaat om de acties die gebruikers op de site ondernemen, zoals het plaatsen van statusupdates of welke toepassingen die ze op verschillende apparaten gebruiken op Facebook.

Facebook gebruikt momenteel verschillende open source softwaresystemen, bekend als Hadoop, Corona en Prism, om de gegevens te verwerken en te analyseren, waarbij het bedrijf zich zal richten op het maken van sneller en efficiënter in de komende zes tot twaalf maanden, zei Murthy.

Veel van de uitdagingen van het bedrijf zijn gekoppeld aan wat Facebook verwijst naar zijn datawarehouse, dat gegevens uit meerdere bronnen combineert tot een database waarin gebruikersactiviteit kan worden geanalyseerd in totaal, zoals door dagelijks een rapport te geven over het aantal foto's dat is getagd in een bepaald land, of te kijken naar het aantal gebruikers in een bepaald gebied dat betrokken is bij pagina's die hen zijn aangeraden.

De analyse is ontworpen om de gebruikerservaringen te optimaliseren en uit te zoeken wat gebruikers wel en niet leuk vinden, maar het wordt ook steeds meer belastend, omdat Facebook steeds meer gegevens over zijn gebruikers kan raadplegen, zei Murthy. Momenteel neemt het Facebook-magazijn elke dag 500 terabytes aan nieuwe gegevens in, of 500.000 gigabytes. Het magazijn is in de afgelopen vier jaar bijna 4000 keer zo groot geworden, "een voorsprong op de gebruikersgroei van Facebook", aldus Murthy. <> Om dit probleem aan te pakken, heeft Facebook zijn Prism-softwaresysteem ontwikkeld dat is ontworpen om te presteren. sleutelanalysefuncties in alle datacenters van het bedrijf over de hele wereld en de analyses opsplitsen in 'chunks', zei Murthy. Op die manier zal het uitvoeren van een analyse van, bijvoorbeeld, een bepaalde metriek gerelateerd aan de nieuwsfeeds van gebruikers het magazijn niet meer in het algemeen verstoppen.

"We denken er steeds meer over hoe we deze gegevens kunnen vastleggen," zei hij.

Het bedrijf werkt ook aan een systeem dat een heel andere benadering vraagt ​​om het magazijn te doorzoeken om binnen enkele seconden een responstijd te geven, aldus Murthy.

"Kunnen we voorspellen wat het over zes maanden gaat worden?", Zei hij.

Ondertussen is Facebook ook betrokken bij een langetermijninspanning om zijn fysieke servers efficiënter te maken. Het bedrijf begon zijn Open Compute Project in 2011, met het doel om gemodulariseerde servers te ontwerpen die klanten meer controle geven over het netwerk, geheugen, voedingen en andere componenten die hun servers binnengaan. Het werd uitgebreid met ARM-processors in januari.