Programmering

Hvordan velge en dataanalyseplattform

Enten du har ansvar innen programvareutvikling, devops, systemer, skyer, testautomatisering, nettstedssikkerhet, ledende scrumteam, infosec eller andre informasjonsteknologiske områder, vil du ha økende muligheter og krav til å jobbe med data, analyse og maskinlæring .

Teknisk søkelys: Analytics

  • Hvordan velge en dataanalyseplattform ()
  • 6 beste fremgangsmåter for visualisering av forretningsdata (Computerworld)
  • Healthcare analytics: 4 suksesshistorier (CIO)
  • SD-WAN og analyse: Et ekteskap laget for den nye normale (Network World)
  • Hvordan beskytte algoritmer som intellektuell eiendom (CSO)

Eksponeringen din for analyse kan komme gjennom IT-data, for eksempel å utvikle beregninger og innsikt fra smidige, devops eller nettstedsberegninger. Det er ingen bedre måte å lære de grunnleggende ferdighetene og verktøyene rundt data, analyse og maskinlæring enn å bruke dem på data du kjenner, og som du kan skaffe deg innsikt for å drive handlinger.

Ting blir litt mer kompliserte når du forgrener deg fra en verden av IT-data og tilbyr tjenester til datavitenskapsteam, statsborger-dataforskere og andre forretningsanalytikere som utfører datavisualiseringer, analyser og maskinlæring.

Først må data lastes inn og renses. Avhengig av datavolum, variasjon og hastighet, vil du sannsynligvis støte på flere back-end-databaser og sky-datateknologier. Til slutt, i løpet av de siste årene, har det som pleide å være et valg mellom verktøy for forretningsinformasjon og datavisualisering, ballonget inn i en kompleks matrise av analyser av plattformer for full livssyklus og maskinlæring.

Betydningen av analyse og maskinlæring øker ITs ansvar på flere områder. For eksempel:

  • IT gir ofte tjenester rundt alle dataintegrasjoner, back-end databaser og analytiske plattformer.
  • Devops-team distribuerer og skalerer ofte datainfrastrukturen for å muliggjøre eksperimentering på maskinlæringsmodeller og støtter deretter databehandling av produksjonsdata.
  • Nettverksdriftsteam oppretter sikre forbindelser mellom SaaS analyseverktøy, multiclouds og datasentre.
  • IT-tjenestestyringsteamene svarer på data- og analysetjenesteforespørsler og hendelser.
  • Infosec fører tilsyn med datasikkerhetsstyring og implementeringer.
  • Utviklere integrerer analyse- og maskinlæringsmodeller i applikasjoner.

Gitt eksplosjonen av analyser, skydataplattformer og maskinlæringsfunksjoner, er her en primer for bedre å forstå analyses livssyklus, fra dataintegrering og rengjøring, til dataops og modelops, til databaser, dataplattformer og analytiske tilbud.

Analytics begynner med dataintegrering og datarensing

Før analytikere, statsborgerdataforskere eller datavitenskapsteam kan utføre analyser, må de nødvendige datakildene være tilgjengelige for dem i deres datavisualiserings- og analyseplattformer.

For å starte kan det være forretningskrav for å integrere data fra flere bedriftssystemer, trekke ut data fra SaaS-applikasjoner eller streame data fra IoT-sensorer og andre sanntids datakilder.

Dette er alle trinnene for å samle inn, laste inn og integrere data for analyse og maskinlæring. Avhengig av kompleksiteten i dataene og datakvalitetsproblemene, er det muligheter for å bli involvert i dataops, datakatalogisering, hoveddatastyring og andre datastyringsinitiativer.

Vi kjenner alle uttrykket "søppel inn, søppel ute." Analytikere må være bekymret for kvaliteten på dataene sine, og dataforskere må være bekymret for skjevheter i maskinlæringsmodellene sine. Også aktualiteten til å integrere nye data er avgjørende for bedrifter som ønsker å bli mer sanntids datadrevet. Av disse grunner er rørledningene som laster inn og behandler data kritisk viktig i analyse og maskinlæring.

Databaser og dataplattformer for alle typer datahåndteringsutfordringer

Lasting og behandling av data er et nødvendig første trinn, men da blir ting mer komplisert når du velger optimale databaser. Dagens valg inkluderer bedriftens datalager, datasjøer, store databehandlingsplattformer og spesialiserte NoSQL-, graf-, nøkkelverdi-, dokument- og søyledatabaser. For å støtte datalagring og analyse i stor skala er det plattformer som Snowflake, Redshift, BigQuery, Vertica og Greenplum. Til slutt er det de store dataplattformene, inkludert Spark og Hadoop.

Store bedrifter vil sannsynligvis ha flere datalagre og bruke skydataplattformer som Cloudera Data Platform eller MapR Data Platform, eller dataarkestreringsplattformer som InfoWorks DataFoundy, for å gjøre alle disse repositoriene tilgjengelige for analyse.

De store offentlige skyene, inkludert AWS, GCP og Azure, har alle datastyringsplattformer og tjenester å sile gjennom. For eksempel er Azure Synapse Analytics Microsofts SQL-datalager i skyen, mens Azure Cosmos DB gir grensesnitt til mange NoSQL-datalagre, inkludert Cassandra (kolonnedata), MongoDB (nøkkelverdi og dokumentdata) og Gremlin (grafdata) .

Datasjøer er populære lastehavner for å sentralisere ustrukturerte data for rask analyse, og man kan velge fra Azure Data Lake, Amazon S3 eller Google Cloud Storage for å tjene det formålet. For behandling av store data har AWS-, GCP- og Azure-skyene også Spark- og Hadoop-tilbud.

Analytics-plattformer retter seg mot maskinlæring og samarbeid

Med data lastet, renset og lagret kan dataforskere og analytikere begynne å utføre analyse og maskinlæring. Organisasjoner har mange alternativer, avhengig av analysetyper, ferdighetene til analytikerteamet som utfører arbeidet og strukturen til de underliggende dataene.

Analytics kan utføres i selvbetjente datavisualiseringsverktøy som Tableau og Microsoft Power BI. Begge disse verktøyene retter seg mot borgerdataforskere og avslører visualiseringer, beregninger og grunnleggende analyse. Disse verktøyene støtter grunnleggende dataintegrering og datarestrukturering, men mer komplekse datakamper skjer ofte før analysetrinnene. Tableau Data Prep og Azure Data Factory er ledsagerverktøyene som hjelper deg med å integrere og transformere data.

Analytics-team som ønsker å automatisere mer enn bare dataintegrasjon og prep, kan se på plattformer som Alteryx Analytics Process Automation. Denne end-to-end, samarbeidsplattformen forbinder utviklere, analytikere, statsborger-dataforskere og dataforskere med arbeidsflytsautomatisering og selvbetjenings databehandling, analyse og maskinlæring.

Alan Jacobson, analytisk og dataansvarlig i Alteryx, forklarer: “Fremveksten av analytisk prosessautomatisering (APA) som en kategori understreker en ny forventning for hver arbeider i en organisasjon om å være dataarbeider. IT-utviklere er ikke noe unntak, og utvidbarheten til Alteryx APA-plattformen er spesielt nyttig for disse kunnskapsarbeiderne. ”

Det er flere verktøy og plattformer som retter seg mot dataforskere som tar sikte på å gjøre dem mer produktive med teknologier som Python og R, mens de forenkler mange av trinnene for drift og infrastruktur. For eksempel er Databricks en datavitenskaplig operativ plattform som gjør det mulig å distribuere algoritmer til Apache Spark og TensorFlow, mens du selv administrerer databehandlingsklyngene på AWS eller Azure-skyen.

Nå kombinerer noen plattformer som SAS Viya dataforberedelse, analyse, prognoser, maskinlæring, tekstanalyse og maskinlæringmodelladministrasjon i en enkelt modellops-plattform. SAS opererer analyser og retter seg mot dataforskere, forretningsanalytikere, utviklere og ledere med en end-to-end samarbeidsplattform.

David Duling, direktør for beslutningsstyringsforskning og -utvikling i SAS, sier: “Vi ser modellops som praksis å lage en repeterbar, kontrollerbar pipeline av operasjoner for å distribuere all analyse, inkludert AI- og ML-modeller, i operasjonelle systemer. Som en del av modellops kan vi bruke moderne devops-metoder for kodeadministrasjon, testing og overvåking. Dette bidrar til å forbedre frekvensen og påliteligheten av distribusjon av modeller, noe som igjen forbedrer smidigheten til forretningsprosesser bygget på disse modellene. ”

Dataiku er en annen plattform som strever for å bringe datapreparasjon, analyse og maskinlæring til voksende datavitenskapsteam og deres samarbeidspartnere. Dataiku har en visuell programmeringsmodell som muliggjør samarbeid og kodebøker for mer avanserte SQL- og Python-utviklere.

Andre analyseplattformer og maskinlæringsplattformer fra ledende programvareleverandører av bedrifter har som mål å bringe analysefunksjoner til datasentre og skydatakilder. For eksempel har Oracle Analytics Cloud og SAP Analytics Cloud begge mål om å sentralisere intelligens og automatisere innsikt for å muliggjøre end-to-end-beslutninger.

Velge en dataanalyseplattform

Å velge dataintegrasjons-, lager- og analyseverktøy pleide å være enklere før fremveksten av stordata, maskinlæring og datastyring. I dag er det en blanding av terminologi, plattformmuligheter, operasjonelle krav, styringsbehov og målrettede brukerpersoner som gjør valg av plattformer mer komplekse, spesielt siden mange leverandører støtter flere bruksparadigmer.

Bedrifter er forskjellige i analytiske krav og behov, men bør søke nye plattformer fra utsiktspunktet til det som allerede er på plass. For eksempel:

  • Bedrifter som har hatt suksess med borgerens datavitenskapsprogrammer og som allerede har datavisualiseringsverktøy på plass, vil kanskje utvide dette programmet med analytisk prosessautomatisering eller dataprepareringsteknologi.
  • Bedrifter som ønsker en verktøykjede som gjør det mulig for dataforskere som jobber i forskjellige deler av virksomheten, kan vurdere end-to-end-analyseplattformer med modellops-muligheter.
  • Organisasjoner med flere, forskjellige back-end dataplattformer kan ha nytte av dataplattformer i skyen for å katalogisere og administrere dem sentralt.
  • Bedrifter som standardiserer alle eller de fleste datafunksjonene på en enkelt offentlig skyleverandør, bør undersøke dataintegrasjonen, datastyringen og dataanalyseplattformene som tilbys.

Med analyse og maskinlæring som en viktig kjernekompetanse, bør teknologer vurdere å utdype forståelsen av de tilgjengelige plattformene og deres evner. Kraften og verdien til analytiske plattformer vil bare øke, og deres innflytelse i hele virksomheten.

$config[zx-auto] not found$config[zx-overlay] not found