Hvordan supercharge dine innsjøer

Bilde: iStock / iSergey

Streamlio-konsernsjef Karthik Ramasamy spurte i mars 2019 om det var på tide å tappe dataljøene. I sitt DATAVERSITY-innlegg skrev Ramasamy at problemer med datasjøer inkluderer prosesskompleksitet, treghet i innhenting av data og krav til IT-talent som tok bort fra andre viktige prosjekter. Alle disse faktorene bidrar til å gjøre flere datasjøer til "datasumper" - uorganisert informasjon om at selskaper ikke lyktes med gruvedrift for innsikt.

Selv om artikler som Ramasamy's ikke er nok til å avskrekke organisasjoner fra å bruke datasjøer i analyse, reiser de imidlertid viktige spørsmål som organisasjoner fortsetter å møte når de prøver å få mest mulig ut av sine innsjøer og analyser.

60 måter å få mest mulig ut av big data-initiativene dine (gratis PDF) (TechRepublic)

Bedrifter ønsker å se datasjøer som inneholder ferske data, innebærer reduserte utgifter til penger og ressurser for å utvikle disse innsjøene, levere raskere tider til markedet for analyse og forretningsinnsikt, og gjøre det mulig for alle - ikke bare dataforskere - å spørre og få verdi fra dataene. Alle disse målene er fremdeles i arbeid for de fleste organisasjoner.

"Arbeidet med å lage en datasjø kan være komplekst og tid- og ressurskrevende, " sier Tomer Shiran, administrerende direktør og grunnlegger av Dremio, som gir en løsning for datamaskin-motorer. "Ofte må IT lage datakubber og datavarehus for data som blir hentet ut med det formål å lage datalagringslager. Denne prosessen kan bestå av flere trinn og kan bli svært kompleks på grunn av det. Underveis er det også potensiell datastyring problemer."

Problemet forverres fordi semistrukturerte eller ustrukturerte data må opprettholdes og oppdateres i disse datasjøene.

Shiran ser å plassere flere datasjøer av både strukturerte og ustrukturerte data direkte i skyer som S3 / AWS og Microsoft Azure som en del av løsningen.

"Skyen er skalerbar, og den lar deg øke eller redusere databehandlingen og serverklyngene dine etter behov, noe som reduserer kostnadene, " sier Shiran.

Dette er et arkitektonisk konsept som selskaper som Dremio stoler på. Disse selskapene leverer kontakter til forskjellige skyer og spørsmotorer som gjør det mulig for organisasjoner å gå direkte til skyen for sine datasjøer - uten å måtte opprette separate datakuber og datavarehus.

Så hvordan fungerer dette? Ved å bruke programvare som leveres med et komplett sett med kontakter til kommersielle skyplattformer, databaser, datavarehus og vanlige dataforespørselsverktøy som SQL, Snowflake og Salesforce, er organisasjoner i stand til å omgå tediet for å måtte utvikle disse grensesnittene selv, i tillegg til egne datakuber og datasjøer. I stedet kan organisasjoner gå inn til skyen, la programvaren gjøre jobben og levere raskere tjenester for datasøk.

"I hovedsak har du en verktøypose med forhåndsutviklede flere kontakter i databaser, spørringsverktøy og skyer som AWS og Azure som gjør det mulig å dra nytte av skyens skalerbare kostnader og ressurser, og som også kan spare din egen IT ressurser og budsjett fordi du ikke trenger å utføre alle mellomliggende oppsettskostnader for spørsmål og tilkoblinger til innsjøer selv, "sa Shiran.

Disse verktøysettene er også i stand til å optimalisere minnet, så de ofte tilgjengelige dataene er i det raskeste minnet - dette øker innhenting av data og reduserer tiden for å markedsføre virksomhetsinnsikt. I tillegg har verktøyene innebygd forutsigbar intelligens for innhenting av data som gjør dem i stand til å vurdere hvilke typer data som er tilgjengelig ofte, slik at data kan tilordnes til hurtigminne, der de kan hentes raskt.

"Det andre elementet vi legger til er semantisk, " sa Shiran. "Med andre ord lager vi brukergrensesnitt som gjør det enkelt for daglige brukere som ønsker å kjøre dataspørsmål å gjøre disse spørsmålene enkelt - uten å måtte be en dataforsker om hjelp."

Kan tilnærminger som dette hjelpe organisasjoner med å optimalisere datasjøene? Potensialet er der, så lenge organisasjoner også gjør disse to tingene.

  1. Vurdere eksisterende dataljøer for effektivitet: Dette kan innebære å bestemme hvilke datasjøer som fungerer og hvilke som er stillestående. For datasjøer som er stillestående eller nærmer seg poenget med ingen avkastning på investeringen, bør det tas beslutninger om hvorvidt de skal renoveres eller bare solnedgang dem og begynne på nytt.
  2. Evaluer skyen og den interne dataarkitekturen: Optimaliseringsverktøy for tilkoblings- og datainnsjøer er bare like effektive som din evne til å forstå datasjøen og spørringsbehovene dine, og hvordan de kobler til nettstedet og skybaserte data. Når du har forstått hvordan data må kobles sammen og hvor de ligger, kan du oppsøke tilkoblingsverktøy som hjelper til med å eliminere det manuelle arbeidet.

Data, Analytics og AI Nyhetsbrev

Få eksperttips for å mestre grunnleggende grunnleggende analyser av data, og følg med på den siste utviklingen innen kunstig intelligens. Leveres mandager

Registrer deg i dag

© Copyright 2020 | mobilegn.com