Datavitenskap: Hvilke teknologier er varme (og hvilke er ikke)?

Bilde: iStockphoto / Peshkova

Mens etterspørselen etter datavitenskap ferdigheter øker, har arten av den etterspørselen holdt seg omtrent konstant, ifølge en Jeff Hale-analyse. Med tanke på hvor raske teknologier i datavitenskapens rom ser ut til å stige og falle (husker du Hadoop?), Kan vi til og med i løpet av et år forvente å se mer varians i teknologipreferanser. I stedet finner vi en (noe) bemerkelsesverdig stase, en som fortsetter å minne oss om: Det er aldri et dårlig tidspunkt å lære Python.

Dataanalyse: En guide for bedriftsledere (gratis PDF)

Det er Pythons verden ...

Fra 10. oktober 2018 trakk Hale datavitenskapelige stillingsoppføringer fra LinkedIn, faktisk, SimplyHired, Monster og AngelList. I 2019, på grunn av vanskeligheten med å skrape LinkedIn-data, fjernet Hale kilden. Hvis du ser på de mest populære datavitenskapsteknologiene som er oppført i stillingsannonser og gjenopptar, og sammenligner 2018 til 2019, er det bemerkelsesverdig hvor mye som ikke har endret seg. Python var og er det mest dominerende programmeringsspråket for datavitenskap, mens R har skled i popularitet det siste året.

Og likevel er det endringer mellom 2018 og 2019. For eksempel eksploderer PyTorch i popularitet, mens mer tradisjonelle, proprietære verktøy som SAS og Matlab fortsetter å avta:

Bilde: Jeff Hale

Hvis du ikke er kjent med PyTorch, vil du snart være det. TensorFlow, utviklet av Google, er ofte i hodet for de som ser på datavitenskapelige rammer, men PyTorch, utviklet av Facebook, er populær av omtrent samme grunn som ikke-relasjonelle databaser som MongoDB har vokst i popularitet: Fleksibilitet.

Som Yashwardhan Jain skriver,

I tillegg er PyTorch som Python ved at det er lettere å lære enn TensorFlow og "å bygge ML-modeller føles mer intuitivt, " ifølge Jain. Fortsatt, som et relativt nytt ML-rammeverk, henger PyTorch TensorFlow når det gjelder fellesskap og andre ressurser.

Python spiser verden: Hvordan en utviklerens sideprosjekt ble det hotteste programmeringsspråket på planeten (cover story PDF) (TechRepublic)

Når vi snakker om fellesskap, er det den andre åpenbare konklusjonen fra Hales funn: Åpen kildekode som helhet er på oppstammen innen datavitenskap. Ja, det er noen få pludde, proprietære verktøy som fortsetter å få et utseende, men open source dominerer topplistene. Enten individuelle prosjekter vokser eller faller i popularitet, går open source som kategori bare fra styrke til styrke.

Så hva bør du gjøre?

Bli smart ... sakte

I stedet for å prøve å mestre listen over teknologier over, er det best ifølge Hale å best "fokusere på å lære en teknologi om gangen." Hvilken rekkefølge anbefaler han?

  1. Python (for generell programmering)

  2. Pandaer (for datamanipulering)

  3. Scikit-learning bibliotek (for å lære ML)

  4. SQL (for spørring)

  5. Tableau (for datavisualisering)

  6. Cloud plattform (for å kjøre modeller / applikasjoner)

  7. TensorFlow (mest populær) eller PyTorch (vokser raskest) (for dyp læring)

Heldigvis er de fleste av disse åpen kildekode og / eller lett tilgjengelige til ingen kostnad. Det er noe av det som gir mest løfte om en datavitenskapelig drevet fremtid: Oppføringskostnadene er relativt lave sammenlignet med hva det var tidligere.

Avsløring: Jeg jobber for AWS, men ingenting her refererer direkte eller indirekte til arbeidet mitt der.

Data, Analytics og AI Nyhetsbrev

Få eksperttips for å mestre grunnleggende grunnleggende analyser av data, og følg med på den siste utviklingen innen kunstig intelligens. Leveres mandager

Registrer deg i dag

© Copyright 2020 | mobilegn.com