For dataforskere er de store pengene i åpen kildekode

Big data betyr stor kompensasjon for dataforskere. Men hvilken dataforsker du er, avgjør i stor grad hvor stor lønnsslipp du vil være. Som en ny O'Reilly-undersøkelse avslører, tjener dataforskere som fokuserer på open source-teknologier mer penger enn de som fremdeles arbeider med proprietære teknologier. Jo mer åpen kildekode du kjenner, jo mer penger vil du tjene på big data.

Big data, store penger

Med tanke på interessen for Big Data, er det ikke overraskende at bedrifter er villige til å betale heftige lønninger for å rekruttere topptalenter, særlig gitt vanskeligheter med å skaffe et slikt talent. I 2012 sank NewVantage Partners en relativt liten, men høyt kvalifisert gruppe ledere i store organisasjoner og fant ut at 100 prosent av de spurte i det minste var "noe utfordret" til å rekruttere dataforskere. Hele 40 prosent synes det er “veldig vanskelig” eller “umulig.”

Mot slik knapphet er dataforskere priset til en premie.

I følge Glassdoor-data er medianlønnen for dataforskere i USA 117 500 dollar. Derimot kan en forretningsanalytiker forvente å tjene rundt 61.000 dollar og en dataanalytiker rundt $ 55.000. Gartner-analytiker Svetlana Sicular pirker moro i hele kategorien datavitenskap, og ler at "en dataforsker er 1) en dataanalytiker i California eller 2) en statistiker under 35 år."

Det er et stort prishopp for å polere ens stillingstittel.

Verktøy for datavitenskapshandel

I virkeligheten er det mer å være dataforsker enn bare å oppgradere ens stillingstittel. Som O'Reilly 2013 Data Science Salary Survey antyder, "har big data-feltet ført til ankomsten av nye, komplekse verktøy som relativt få mennesker forstår eller til og med har hørt om." Å kjenne til disse verktøyene er det som gir slike store lønninger.

Men hvilke verktøy en dataforsker behersker viser seg å ha en stor, materiell innvirkning på inntjeningskraften hennes.

Det øverste dataverktøyet er langt på vei SQL, noe som ikke er overraskende: dataanalyse har eksistert lenge før vi ga det en sexy "data science" -merke, og tilgang til data gjennom SQL har lenge vært standarden for dataanalyse. Dette endrer seg ikke over natten.

Data Science Salary Survey 2013 (Kreditt: O'Reilly)

Men når vi har gått utover SQL, forteller den hvor mye av de mest brukte Big Data-verktøyene er åpen kildekode: R, Python, Hadoop og mer. Mer interessant er imidlertid forvekslingen mellom det O'Reilly kaller “Hadoop-gruppen” (oransje) og “SQL / Excel-gruppen” (blå):

Data Science Salary Survey 2013 (Kreditt: O'Reilly)

Datavitere som bruker en gruppe verktøy, bruker ikke den andre: industrien er grovt oppdelt i de to leirene, med den røde gruppen som egentlig danner en periferi rundt Hadoop-gruppen. Som O'Reilly-rapporten antyder, “De to klyngene har ingen verktøy til felles og er ganske fjerne når det gjelder korrelasjon: bare fire positive korrelasjoner eksisterer mellom de to settene (for det meste gjennom Tableau), mens det er hele 51 negative korrelasjoner. ”

Pengene er i åpen

Selv om det er noe interessant som dataforskere deler på partilinjene - Hadoop vs. SQL, åpen vs. lukket - er den mer interessante observasjonen O'Reillys rapport gjør bare hvor mye dette skillet oversetter til lønnsforskjeller.

Jo flere dataverktøy en dataforsker bruker, jo mer stiger lønnen hennes. Når en dataforsker bruker minst 10 verktøy, vokser lønnen hennes betydelig:

Data Science Salary Survey 2013 (Kreditt: O'Reilly)

Interessant nok har de i open source / Hadoop-klyngen en tendens til å bruke langt flere verktøy, og følgelig stå for å tjene betydelig mer penger. Som rapportforfatterne påpeker, "Median grunnlønn stiger generelt med antall verktøy som brukes fra Hadoop-klyngen, fra $ 85 000 for de som ikke bruker slike verktøy til $ 125 000 for de som bruker minst seks." For de i proprietær / SQL-land fører bruk av fem eller flere verktøy fra den proprietære klyngen til et betydelig fall i lønnen.

Selv om det er måter å forklare den tilsynelatende forskjellen i lønn på, konkluderer forfatterne:

"Det virker veldig sannsynlig at å vite hvordan jeg bruker verktøy som R, Python, Hadoop-rammer, D3 og skalerbare maskinlæringsverktøy, kvalifiserer en analytiker til mer betalte stillinger - mer enn å kjenne til SQL, Excel og RDB-plattformer. Vi kan også trekke fra at jo flere verktøy en analytiker vet, jo bedre: Hvis du tenker å lære et verktøy fra Hadoop-klyngen, er det bedre å lære flere. "

Og så gjør de et veldig fortellende poeng:

"Verktøyene i Hadoop-klyngen har en felles funksjon: de gir alle tilgang til store datasett og / eller støtteanalyse av store datasett. Etterspørselen etter analytikere som vet hvordan de skal jobbe med store datasett, vokser, spesielt for de som kan utføre mer avanserte maskinlærings-, grafiske og sanntidsoppgaver på store datasett. Inntil tilførselen av slike analytikere fanger opp, vil lønnen deres naturligvis bli lagt opp. "

Med andre ord, open source-verktøyene kan være bedre egnet for å håndtere store datasett, mens de proprietære verktøyene har en smalere, spørringsbasert verktøy. Videre gir verktøy som Python og R brukeren bred bredde til å forme dataanalyse, i stedet for å leve innenfor de begrensningene som en proprietær leverandør gir.

Hva dette kan bety er at å ta SQL / Excel-ruten er en anstendig måte å plodde sammen med datalyser på gamle skolen, men hvis du virkelig vil gå dypt inn i datavitenskapen og få betalt pent for din innsats, må du virkelig gå åpen med Hadoop, Python, NoSQL og andre ledende open source store dataverktøy.

© Copyright 2020 | mobilegn.com