Hadoop i skyen frigjør deg fra skjemaet

Av Duane Craig

Fiverr er en markedsplass for online tjenester med millioner av brukere i 200 land over hele verden. Hver dag samler selskapet millioner av rader med semistrukturerte og ustrukturerte data som er bosatt i flere kilder som MySQL relasjonsdatabase, mongoDB, Redis og mer. Fiverr bruker også nettbaserte tjenester som Google Analytics. Alle fortalte at de store datakostnadene består av omtrent 80% semistrukturerte trafikkdata og 20% ​​strukturerte data.

Maksimal verdi

Mange bedrifter søker maksimal verdi fra store data, og prøver å prøve en løsning som et standard relasjonsdatabasestyringssystem (RDBMS), noe som er veldig praktisk ettersom det bruker vanlig SQL-språk, noe som gjør det attraktivt for analytikere. Det integreres også godt, og tilbyr rapportering og støttet pakke, oversette og laste bompenger. Så er det prisen. MySQL er for eksempel gratis og åpen kildekode. Men siden Fiverr bruker Agile Development, forklarte Slava Borodovsky, direktør for forretningsinformasjon, at det er veldig vanskelig å bruke en standard relasjonsdatabaseløsning.

"I smidig utvikling er det så mange endringer med et gitt produkt på daglig basis, at bruk av skjemabaserte verktøy ikke er effektiv. Hver gang det er nye parametere i produksjonen, må du endre skjemaet for databasen din. Det er en smertefull prosedyre, spesielt med en stor mengde data, "sa Borodovsky.
Denne utfordringen inspirerte Fiverr til å vurdere en løsning for big dataene som vil støtte et åpent skjema, og dermed tillate det å gjøre endringer i farta. Hadoop ble midtpunktet, men ikke uten noen dyp vurdering av de potensielle problemene som kan oppstå med det. Mens Hadoop for eksempel ble ansett som optimalt for Fievrrs type datamiljø og skala, krever det spesielle ferdigheter og oppmerksomhet, ifølge Borodovsky.
"Det er et kraftig system, men 'vanlige' forretningsintelligenser, som analytikere og til og med utviklere, kan ikke takle det, " sa han. "Det krever spesiell programmeringskunnskap som Java, og en veldig teknisk orientering. Det er noe veldig annerledes enn den vanlige SQL-verdenen. I de fleste tilfeller hvis et selskap ønsker å bruke Hadoop, trenger det å ansette ansatte med spesiell kunnskap og ferdigheter, som også er veldig kostbart. I tillegg til antall ansatte, må de lage et distribuert miljø, som også har ekstra kostnader. "

Fiverr prøvde først å møte utfordringene ved implementering av Hadoop ved å bruke en søyledatabase for å lagre trafikkdata. Imidlertid var det problemer med dette, og selskapet trengte en bedre løsning. Hva om alle fordelene med Hadoop var i skyen, og etterlater de fleste utfordringene bak? Skriv inn Xplenty, eller Hadoop som en tjeneste.

Mer info: Hadoop-suksess krever unngåelse av datafeil

Xplenty

Xplenty's GUI gjør det mulig for brukeren å lage komplekse datastrømmer på bare få minutter

Etter registreringen implementerte Fiverr Xplenty-løsningen på noen få dager, og selskapet begynte å få positive resultater veldig raskt. Xplentys skyarkitektur gjorde det veldig enkelt å implementere Hadoop for BI-behov.

"Den største overraskelsen var hastigheten på implementeringen, " sa Borodovsky. "Det var i gang etter noen dager. Skyinfrastrukturen til Xplenty gjør implementeringsprosessen veldig enkel og krevde bare minimal IT-innsats. Den største utfordringen hadde å gjøre med formatet som vi lagrer dataene våre i, siden den gang Xplenty støttet ikke JSON-formatet. Vi løste imidlertid problemet på en dag eller to. Vi gjorde også små endringer i datafilstrukturen vår ved å dele dem opp i mindre filer for å øke ytelsen. Implementeringsprosessen var veldig gjennomsiktig og lett. "

Selskapet lagrer nå alle sine trafikkdata som tekstfiler i JSON-format og behandler dem med Xplenty. Nå kan Fiverr-analytikere opprette Hadoop-klynger og kjøre kompliserte analytiske oppgaver innen noen få klikk. Det er ikke behov for en teknisk person for å ta seg av Hadoop vedlikehold og optimalisering. Denne løsningen holder Fiverr oppdatert med nye endringer på nettstedet, samtidig som den holder veldig respons på nye beregninger.

Fiverr hadde til hensikt å utvinne sine trafikkdata for å gjøre trakt, konvertering og trendanalyse. Disse komplekse analytiske oppgavene, sammen med klikk-gjennom-analyse, er vanligvis den typen som er stor og semistrukturert, som når den er lagret i JSON-format. Varigheten av disse BI-prosessene fra forretningsforespørsel til analytisk innsikt krympet dramatisk.

Mindre skjemamanipulasjon

Ved bruk av Hadoop trenger Fiverr ikke å endre skjema for database / datavarehus. Dette er vanligvis veldig tidkrevende og involverer IT-ressurser, som altfor ofte kan skape ytterligere flaskehalser i BI-prosessflyten. Selskapet kan nå begynne å bruke nye parametere som ble lagt til i produksjonen rett etter at de ble startet. Som et eksempel siterer Borodovsky prosessen som måler ytelsen til en ny funksjon som ble lagt til produksjonen.

"I den typiske databaseverdenen ville vi trenge å endre strukturen i datavarehuset og legge til flere kolonner i tabeller for å lagre de nye parameterne, " forklarte han. "Da må vi endre ETL-prosessene som vil analysere de nye parameterne og sette dem inn i en tabell. Deretter må vi skrive spørsmål, lage rapporter og analysere funksjonen."

"Denne prosessen varierer vanligvis fra en dag i små selskaper og oppstarter, til et antall dager og til og med uker i store selskaper. Med Xplenty's Hadoop-løsning kan vi hoppe over de to første trinnene. Vi kan lage en ny prosess i Xplenty med et antall klikk og få innsikt veldig raskt. Gjennomsnittlig varighet av en BI-prosess har endret seg og er minst to ganger raskere enn før, med tanke på prosesser som er relatert til trafikkanalyse. "

"Med Xplenty sparer vi tid på å håndtere data, da det ikke er nødvendig å endre skjemaet kontinuerlig. Vi er også uavhengige med tanke på IT, der vi har spart penger på ressurser og kan legge mer vekt på analyse og forretningsinnsikt enn om teknisk vedlikehold av Hadoop. Som med mange ting innen IT, tar det noen ganger litt tid å finne den rette løsningen. Vi møtte Xplenty til rett tid. "
Tilfør øyeblikkelig flere klynknoder for å skalere opp og gi mer datakraft

© Copyright 2020 | mobilegn.com