Programmering

Dagens datavitenskaplige roller vil ikke eksistere om ti år

I det kommende tiåret vil dataforskeren som vi kjenner den se veldig annerledes ut enn den gjør i dag. Men ikke bekymre deg, ingen forutsier tapte jobber, bare endret arbeidsplasser.

Dataforskere vil ha det bra - ifølge Bureau of Labor Statistics forventes rollen fortsatt å vokse på et klipp som er høyere enn gjennomsnittet gjennom 2029. Men fremskritt innen teknologi vil være drivkraften for et enormt skifte i en datavitenskapers ansvar og i måten virksomheter nærmer seg analytics som en helhet. Og AutoML-verktøy, som hjelper med å automatisere rørledningen for maskinlæring fra rådata til en brukbar modell, vil lede denne revolusjonen.

Om ti år vil dataforskere ha helt forskjellige sett med ferdigheter og verktøy, men deres funksjon vil forbli den samme: å tjene som selvsikker og kompetent teknologiguide som kan gi mening om komplekse data for å løse forretningsproblemer.

AutoML demokratiserer datavitenskap

Inntil nylig var maskinlæringsalgoritmer og prosesser nesten utelukkende domene for mer tradisjonelle datavitenskaplige roller - de med formell utdannelse og avanserte grader, eller som jobber for store teknologibedrifter. Dataforskere har spilt en uvurderlig rolle i alle deler av maskinlæringsutviklingsspekteret. Men med tiden vil deres rolle bli mer samarbeidende og strategisk. Med verktøy som AutoML for å automatisere noen av deres mer akademiske ferdigheter, kan dataforskere fokusere på å veilede organisasjoner mot løsninger på forretningsproblemer via data.

På mange måter er dette fordi AutoML demokratiserer arbeidet med å implementere maskinlæring. Leverandører fra oppstart til skyoverskalere har lansert løsninger som er enkle nok for utviklere å bruke og eksperimentere på uten en stor pedagogisk eller opplevelsesmessig barriere for inngang. På samme måte er noen AutoML-applikasjoner intuitive og enkle nok til at ikke-tekniske arbeidstakere kan prøve hendene på å lage løsninger på problemer i sine egne avdelinger - og skape en "borger-data-forsker" i organisasjoner.

For å utforske mulighetene disse typer verktøy låser opp for både utviklere og dataforskere, må vi først forstå den nåværende tilstanden innen datavitenskap når det gjelder utvikling av maskinlæring. Det er lettest å forstå når det plasseres på en modenhetsskala.

Mindre organisasjoner og bedrifter med mer tradisjonelle roller med ansvar for digital transformasjon (dvs. ikke klassisk utdannede dataforskere) faller vanligvis på denne enden av denne skalaen. Akkurat nå er de de største kundene for out-of-the-box maskinlæringsapplikasjoner, som er mer rettet mot et publikum som ikke er kjent med kompliseringen av maskinlæring.

  • Fordeler: Disse nøkkelferdige applikasjonene pleier å være enkle å implementere, og relativt billige og enkle å distribuere. For mindre selskaper med en veldig spesifikk prosess for å automatisere eller forbedre, er det sannsynligvis flere levedyktige alternativer på markedet. Den lave inngangsbarrieren gjør disse applikasjonene perfekte for dataforskere som går inn i maskinlæring for første gang. Fordi noen av applikasjonene er så intuitive, tillater de til og med ikke-tekniske ansatte en sjanse til å eksperimentere med automatisering og avanserte datafunksjoner - potensielt introdusere en verdifull sandkasse i en organisasjon.
  • Ulemper: Denne klassen av maskinlæringsapplikasjoner er notorisk ufleksibel. Selv om de kan være enkle å implementere, blir de ikke lett tilpasset. Som sådan kan visse nøyaktighetsnivåer være umulige for visse applikasjoner. I tillegg kan disse applikasjonene begrenses sterkt av deres avhengighet av forhåndsøvde modeller og data. 

Eksempler på disse applikasjonene inkluderer Amazon Comprehend, Amazon Lex og Amazon Forecast fra Amazon Web Services og Azure Speech Services og Azure Language Understanding (LUIS) fra Microsoft Azure. Disse verktøyene er ofte tilstrekkelig til at spirende dataforskere kan ta de første trinnene i maskinlæring og innvarsle deres organisasjoner lenger ned i modenhetsspekteret.

Tilpassbare løsninger med AutoML

Organisasjoner med store, men relativt vanlige datasett - tenk kundetransaksjonsdata eller markedsførings-e-beregninger - trenger mer fleksibilitet når de bruker maskinlæring for å løse problemer. Skriv inn AutoML. AutoML tar trinnene i en manuell arbeidsflyt for maskinlæring (dataoppdagelse, utforskende dataanalyse, innstilling av hyperparameter osv.) Og kondenserer dem til en konfigurerbar stabel.

  • Fordeler: AutoML-applikasjoner tillater at flere eksperimenter kjøres på data på et større område. Men den virkelige superkraften til AutoML er tilgjengeligheten - tilpassede konfigurasjoner kan bygges og innganger kan forbedres relativt enkelt. Dessuten er AutoML ikke laget utelukkende med dataforskere som publikum. Utviklere kan også enkelt tukle i sandkassen for å bringe maskinlæringselementer inn i sine egne produkter eller prosjekter.
  • Ulemper: Selv om det kommer nærme, betyr AutoMLs begrensninger at det er vanskelig å perfeksjonere nøyaktighet i utdataene. På grunn av dette holder forskere på kortbærende data ofte på applikasjoner som er bygget med hjelp av AutoML - selv om resultatet er nøyaktig nok til å løse problemet.

Eksempler på disse applikasjonene inkluderer Amazon SageMaker AutoPilot eller Google Cloud AutoML. Dataforskere om et tiår fra nå vil utvilsomt trenge å være kjent med verktøy som disse. Som en utvikler som er dyktig i flere programmeringsspråk, må dataforskere ha dyktighet i flere AutoML-miljøer for å bli ansett som topptalent.

“Håndvalsede” og hjemmelagde maskinlæringsløsninger 

De største bedriftene og Fortune 500-bedriftene er der de fleste avanserte og proprietære maskinlæringsapplikasjoner for tiden utvikles. Datavitenskapsmenn ved disse organisasjonene er en del av store team som perfeksjonerer maskinlæringsalgoritmer ved hjelp av store selskaper, og bygger disse applikasjonene fra grunnen av. Egendefinerte applikasjoner som disse er bare mulig med betydelige ressurser og talent, og derfor er utbyttet og risikoen så stor.

  • Fordeler: Som alle applikasjoner som er bygget fra bunnen av, er tilpasset maskinlæring "topp moderne" og er basert på en dyp forståelse av problemet. Det er også mer nøyaktig - om bare med små marginer - enn AutoML og out-of-the-box maskinlæringsløsninger.
  • Ulemper: Å få en tilpasset maskinlæringsapplikasjon for å nå visse nøyaktighetsterskler kan være ekstremt vanskelig, og krever ofte tunge løft av team av dataforskere. I tillegg er tilpassede maskinlæringsalternativer de mest tidkrevende og dyreste å utvikle.

Et eksempel på en håndrullet maskinlæringsløsning er å starte med en tom Jupyter-notatbok, manuelt importere data, og deretter gjennomføre hvert trinn fra utforskende dataanalyse gjennom modelljustering for hånd. Dette oppnås ofte ved å skrive tilpasset kode ved hjelp av open source maskinlæringsrammer som Scikit-learn, TensorFlow, PyTorch og mange andre. Denne tilnærmingen krever høy grad av både erfaring og intuisjon, men kan gi resultater som ofte overgår både nøkkelferdige maskinlæringstjenester og AutoML.

Verktøy som AutoML vil flytte datavitenskapelige roller og ansvar de neste 10 årene. AutoML tar byrden ved å utvikle maskinlæring fra bunnen av av dataforskere, og legger i stedet mulighetene for maskinlæringsteknologi direkte i hendene på andre problemløsere. Med tiden frigjort for å fokusere på det de vet — dataene og innspillene selv - vil dataforskere om et tiår fra nå tjene som enda mer verdifulle veiledninger for deres organisasjoner.

Eric Miller fungerer som seniordirektør for teknisk strategi i Rackspace, hvor han gir strategisk rådgivningsledelse med en dokumentert oversikt over praksisbygging i Amazon Partner Network (APN) økosystem.Eric er en dyktig teknologileder med 20 års påvist suksess innen enterprise IT, og har ledet flere AWS og løsningsarkitekturinitiativer, inkludert AWS Well Architected Framework (WAF) Assessment Partner Program, Amazon EC2 for Windows Server AWS Service Delivery Program, og et bredt spekter av AWS-omskrivninger for organisasjoner med flere milliarder dollar.

New Tech Forum er et sted for å utforske og diskutere ny teknologi i enestående dybde og bredde. Valget er subjektivt, basert på vårt valg av teknologiene vi mener er viktige og av størst interesse for leserne. godtar ikke markedsføringssikkerhet for publisering og forbeholder seg retten til å redigere alt bidratt innhold. Send alle henvendelser til [email protected].

$config[zx-auto] not found$config[zx-overlay] not found