SQL Server tar en sving mot Kubernetes og big data

Hvordan installere MS SQL på en Ubuntu-server Vil du ikke elske å ha MS SQL-databaseserver kombinert med kraften, påliteligheten og sikkerheten til Linux? Det er lettere enn du trodde. La Jack Wallen vise deg hvordan.

Mer om Windows

  • Slik bruker du God Mode i Windows 10
  • Windows 10 PowerToys: Et jukseark
  • Microsofts største flopper i tiåret
  • 10 triks og finpusse for tilpasning av Windows 10 (gratis PDF)

Opprinnelig var SQL-database-tjenesten på Azure og SQL Server-produktet basert på forskjellige koder. For noen år tilbake forente Microsoft kodebasen slik at applikasjoner ville være kompatible mellom dem. Det SQL-teamet innså var at i stedet for bare å ønske å flytte databaseapplikasjonene sine til skyen, ønsket kundene at det skulle være lettere å administrere kompleksiteten ved å ha flere databaser.

"Det vi så var at selv i skyens tid var det så stor interesse for SQL Server at det var en mulighet til å utvide verdiforslaget om hva SQL Server er, " daglig leder for Azure Data og AI John 'JG' Chirapurath fortalte TechRepublic. Det førte til Polybase-teknologien i SQL Server 2016 ("Polybase lar deg snakke i T-SQL, lingua franca på SQL Server, og spørre om en haug med forskjellige datakilder") og til SQL Server 2017 for Linux, som Chirapurath kaller "en av de mest sædvanlige utgivelsene vi noen gang har hatt av SQL Server og uten tvil den mest vellykkede versjonen vi noensinne har hatt". I løpet av 18 måneder er den lastet ned mer enn 20 millioner ganger - og noe av det volumet er helt nede på hvor enkelt containerstøtten gjør det mulig å distribuere.

PolyBase enables SQL Server 2016 to process Transact-SQL queries that read data from Hadoop. The same query can also access relational tables in SQL Server.

" data-credit="Image: Microsoft" rel="noopener noreferrer nofollow">

PolyBase gjør det mulig for SQL Server 2016 å behandle Transact-SQL-spørringer som leser data fra Hadoop. Den samme spørringen kan også få tilgang til relasjonstabeller i SQL Server.

Bilde: Microsoft

Forenkle Kubernetes for big data

Kunder ønsket SQL Server på Kubernetes, sier Chirapurath, men de ønsket også at det skulle være enklere.

"De fleste bedrifter har tatt i bruk containere som et middel til å i utgangspunktet administrere polyglot-appene og -systemene inne i datasentrene, og i økende grad kobler de det til Kubernetes som et orkestrasjonsrammeverk, " sier Chirapurath.

"En av grunnene til at Kubernetes blir komplisert, er at det er mange utvidelser som folk legger til, så det er borte fra det som var en generell ramme til en 'one size fits all' idé. Kubernetes er mange forskjellige ting, " Chirapurath legger til.

For SQL Server 2019 har klyngeadministratorer en adminportal og et kommandolinjegrensesnitt de kan bruke til å utføre all ledelse.

Det kundene da begynte å be om, var den samme typen hjelp med datasjøene med ustrukturerte data som SQL Server ga dem mellom sky og lokale databaser. "Hjelp oss med vår datasjø og alle ustrukturerte data vi har samlet inn. Hjelp oss med å håndtere all denne kompleksiteten med data vi ser på stedet og i skyen. Gi oss en veldig konsistent måte, der vi kan bruke våre kjente verktøy, kjente ferdigheter, med ting vi allerede satser på. Og veddemålene innebar ting som Spark, HDFS, kanskje Python, R og lignende ting, "sier Chirapurath.

Ansettingssett: Databaseadministrator (TechRepublic Premium)

Når SQL Server 2017 kjørte på containere, kunne Microsoft utvide Polybase slik at du ikke bare kan spørre datakilder som MongoDB og Oracle med SQL Server 2019, men du kan også plassere et HDFS lagringsbasseng i en SQL Server-klynge (kjører på en klynge av Linux-containere) og kjører både SQL Server og Spark i det lagringsbassenget.

"Vi har i det vesentlige tatt åpen kildekodemotor og integrert den tett med SQL-spørringsprosessoren, SQL Server-motoren, " sier Chirapurath. "Nå kan du i det vesentlige legge ned Spark-spørsmål i SQL Server SQL-syntaksutsagn, og du kan direkte spørre om innsjøer. SQL er helt relasjonelt, mens datasjøene dine er fullstendig ustrukturerte - de kan være alle slags data. Nå kan du å lage et datavirtualiseringslag og administrere alle slags data i bedriften, uavhengig av om de kan lagres på SQL Server eller ikke. "

Det gjør det lettere å spørre HDFS, men det forenkler også oppsettet, i stedet for å opprette og administrere separat HDFS-lagring, kan du distribuere en SQL Server-tilgjengelighetsgruppe i Kubernetes med en enkelt kommando og få en klynge på omtrent en halv time. Det unngår også de vanlige sikkerhetsproblemene med å integrere relasjons- og big data-miljøer: SQL Server big data-klynger har en integrert sikkerhetsnivå som dekker SQL Server, Spark og HDFS. SQL Server Machine Learning Services kjører i masterforekomst, og R, Python, Java og machine-learning-score og spådommer kjører innfødt i master-klyngen. Hvis du vil, er det til og med tredjepartsverktøy for å akselerere Spark inne i SQL Server med FPGAer.

Å kjøre Spark betyr at du kan kjøre Spark ML så vel som å bruke R- og Python-støtten lagt til SQL Server 2017, slik at du kan bygge maskinlæringssystemer som fungerer mot både strukturerte og ustrukturerte data. "Du kan lage en maskinlæringspipeline der du kan hente inn ustrukturerte data gjennom Spark-integrasjonen, du kan hente inn relasjonsdata gjennom SQL-spørringsprosessoren, og du kan bruke R og Python til å lage maskinlæringsmodeller direkte inne i SQL Server, "sier Chirapurath.

"Det jeg ser i markedet i dag fra et AI-perspektiv, er at folk nærmer seg kunsten og vitenskapen og håndverket til maskinlæring på to måter, " sier Chirapurath. "En måte er gjennom big data-økosystemet, da de samler inn dataene i Hadoop-verdenen og begynner å bruke Spark for å i utgangspunktet resonnere over disse dataene og deretter begynne å bruke ting som Spark ML. I hovedsak driver de veldig komplisert og kompleks maskinlæring på dataene de har tilgang til. På den andre siden ser jeg mange utviklere som bruker språk som R og Python, til og med ting som Scala, og det er veldig utvikler-sentrisk. Det SQL Server 2019 kan gjøre er å bygge bro mellom disse punktene av utsikt. "

Dataingeniører, dataforskere, DBAs og SQL Server-utviklere kan bruke Azure Data Studio til å administrere databaser og skrive spørsmål og jobbe med begge verktøyene.

Krysser bekkene

Fordelen med å ha R og Python inne i SQL Server-motoren er at du kan gjøre maskinlæring der dataene bor, med mye lavere ventetid enn om dataene ble lagret andre steder. Du får den samme fordelen med SQL Server 2019, i begge retninger. Datavirtualiseringslaget unngår behovet for å flytte petabytes av data ut av en datasjø, noe som ikke er praktisk. "På samme måte er kundene avsky for å flytte data ut av SQL Server for å gjøre en hel datateknisk prosess for å rense dem for å oppnå en AI-oppgave eller en ML-oppgave. Det dette lar deg gjøre, er å bare jobbe med dataene inne i SQL Server, og gifte deg med den i resultatene som er satt for dataene du spør om, ved å bruke Spark fra din datasjø, "sier Chirapurath.

Tidligere, hvis du ønsket å jobbe med strukturerte og ustrukturerte data sammen, så du på en betydelig mengde ETL: Hvis du vil kombinere SQL Server og Spark-data i Azure Data Warehouse, må du bruke Azure Data Factory til å innta og transformere data .

Analytics har presentert virksomheter det Chirapurath kaller et "falskt valg" mellom strukturerte / relasjonelle og ustrukturerte / ikke-relasjonelle data, ved å behandle dem begge som siloer for å håndtere og bruke data av rent historiske grunner.

"Relasjonelle databasesystemer ble født på et tidspunkt da lagring var til en høy pris. På grunn av teknologiinnovasjoner har kostnadene for lagring nesten gått til null, " påpeker Chirapurath. Da IBM PC først dukket opp, kostet en 20 MB harddisk 3-4 000 dollar. "Nå er halvparten av tingene jeg får i innboksen min omtrent 20 MB, " sier han.

De fallende lagringskostnadene, og vanskeligheten med å vite hvilke av dine petabytes med data som er verdt å oppbevare, betyr at problemet ikke lagrer data - det gjør det nyttig. "Det folk gjorde med relasjonsdatabaser var at de skapte svært kuraterte metoder for å lagre data; de var ekstremt hardcore om hva som ble lagret og hva som ble kastet. Den" gyldne posten "alt i hvert system av poster i en organisasjon, var sakrosankt fordi lagring var utrolig dyrt. Det som skjedde i løpet av det siste tiåret, var at det ikke var noen grunn til å kaste bort noe, så de har lagret alt. Vi er i en reddende verden, "sier Chirapurath.

SQL Server 2019 sendes snart og Chirapurath antydet at det kommer flere kunngjøringer for Microsofts databaseverktøy som passer inn i disse markedstrendene hos Ignite, inkludert innsatsen på open source. "Det du ser med SQL Server store dataklynger, med en åpen kildekode-analysemotor, som er Spark, som kommer ved siden av en relasjonsanalysemotor, som er SQL Server, med systemet som kan spørre både relasjonelt og ikke- relasjonsdata, er en indikasjon på hvordan vi mener vi bør samarbeide med kunder for å rive ned de kunstige barrierer. "

Microsoft Weekly Newsletter

Vær din virksomhets Microsoft-innsider ved hjelp av disse Windows- og Office-opplæringsprogrammene og våre eksperters analyser av Microsofts bedriftsprodukter. Leveres mandager og onsdager

Registrer deg i dag

Mer om Microsoft

  • Slik installerer og administrerer du tilleggsprogrammer i Microsoft Outlook (TechRepublic)
  • Problemer med Windows 10-startmenyen? Microsoft undersøker om siste løsning bryter søket (TechRepublic)
  • Power BI og Azure som fremtiden for bedriftsanalyse (TechRepublic)
  • Microsofts Power BI Premium leverer funksjoner og bulkrabatter i bedriften (ZDNet)
  • Oppkjøp av Datazen kan bringe Microsoft Power BI til iOS og Android (TechRepublic)
  • Å bygge en bank som kan overraske og glede med Power BI (TechRepublic Resource Library)
  • Lag datavisualiseringer og analyser med Google Fusion Tables (TechRepublic)
  • Microsoft Office 365: Den smarte personens guide (TechRepublic)

© Copyright 2021 | mobilegn.com