Hadoop: Cheat Sheet

Så si meg, hva er en Hadoop når den er hjemme? Noen slags dans?
Ikke så mye. Tenk på det som et filsystem for distribuert databehandling og lagring. For det er det det er.

Hva er et filsystem for distribuert databehandling og lagring når det er hjemme?
La meg ta deg tilbake til big data.

Hva er big data?
Du vet alt det du har som passer i fine relasjonsdatabaser?

Ja.
Vel, det er det og mye mer. Det er det og de andre tingene - den ustrukturerte bumfen, som biter og brikker som er lagt ut på blogger eller på sosiale medier, dataene samlet inn fra sensorer, eller fra CCTV-kameraer, eller loggfiler. Kort sagt, det er alt du samler på, men ikke vet hva du skal gjøre med.

Opptak fra CCTV-kameraer er et eksempel på ustrukturerte data. Foto: Shutterstock

Og som navnet big data tilsier, er det mye av det. Takket være alle disse nye systemene og tjenestene som trenger overvåking og de synkende lagringskostnadene, beholder virksomheter mye mer data enn de har gjort tidligere.

Hadoop er et system designet for å hjelpe organisasjoner med å få tak i all den informasjonen og gjøre dem om til informasjon de kan forstå og bruke.

Så hva gjør det egentlig?
Vel, tidligere hvis du hadde behov for å takle en relasjonsdatabase, kan du ha vendt deg til en sentralisert plattform med mye delt lagring og CPU.

Nå for tiden, for å behandle mye ustrukturerte data, trenger du mye beregningsressurs. En måte å få det til er å bruke et distribuert system - for eksempel en mengde vare-servere, hver med sin egen lokale lagring og CPU.

Det er her Hadoop kommer inn, og lar alt det distribuerte handelsstoffet komme sammen for å jobbe med det samme problemet.

En annen nøkkel Hadoop-komponent, Hadoop Distribution File System (HDFS), sikrer at hvert stykke data blir lagret på mer enn en server - praktisk hvis en del av lagringsplassen din går ned, da klyngen kan fortsette å fungere og ingen data vil være tapt.

En annen av kjernekomponentene, rammeverket MapReduce, gjør det mulig for applikasjoner å dele opp prosesseringsarbeidet som må gjøres i mange forskjellige biter og pakke disse bitene ut til alle nodene i klyngen. Deretter samler de opp alle svarene og kombinerer dem tilbake til et enkelt svar.

Ikke sant, hva er dette alt brukes til for øyeblikket?
Listen over Hadoop-brukere leser som en hvem er hvem av techs store navn: Amazon, eBay, Facebook, LinkedIn, Twitter og Yahoo bruker alle Hadoop. Disse selskapene har enorme datamengder om brukerne sine som de regelmessig trenger å analysere. Tenk på de "Mennesker du kanskje kjenner" eller "Mennesker som likte X kjøpte også Y" -funksjoner på Facebook og Amazon, for eksempel - selskaper må skure gjennom enorme logger over brukerens detaljer og oppførsel for relevante resultater, og det er her Hadoop kommer inn.

Hvem eier Hadoop da?
Hadoop er et åpen kildekode-produkt, så ingen eier det som sådan. Det er flere forskjellige distribusjoner, som du kan forvente, men den mest populære - og den som leverandører som IBM og Oracle ruller opp i deres big data-tilbud - er Apache Hadoop.

Naturen til åpen kildedyret er imidlertid at forskjellige distribusjoner av et produkt kan vises. Yahoo, for eksempel, laget sin egen versjon av Hadoop - fantasiløst kalt Yahoo Distribution of Hadoop - men hermetiserte den tidligere i år til fordel for å legge vekten bak Apache Hadoop, og har vært en ...

© Copyright 2020 | mobilegn.com