Programmering

4 grunner til at store dataprosjekter mislykkes - og 4 måter å lykkes på

Big data-prosjekter er, vel, store i størrelse og omfang, ofte veldig ambisiøse, og altfor ofte fullstendige feil. I 2016 estimerte Gartner at 60 prosent av store dataprosjekter mislyktes. Et år senere sa Gartner-analytikeren Nick Heudecker at selskapet hans var "for konservativt" med sitt estimat på 60 prosent og satte feilprosenten nærmere 85 prosent. I dag sier han at ingenting har endret seg.

Gartner er ikke alene om den vurderingen. Mangeårig Microsoft-sjef og (inntil nylig) administrerende direktør for Snowflake Computing, Bob Muglia, sa til analysesiden Datanami: «Jeg kan ikke finne en fornøyd Hadoop-kunde. Det er ganske så enkelt som det. ... Antall kunder som faktisk har lykkes med å temme Hadoop, er sannsynligvis færre enn 20, og det kan være færre enn ti. Det er bare nøtter gitt hvor lenge det produktet, den teknologien har vært i markedet, og hvor mye generell industrienergi har gått i det. Hadoop er selvfølgelig motoren som lanserte big data-manien.

Andre mennesker som er kjent med big data, sier også at problemet fortsatt er reelt, alvorlig og ikke helt teknologisk. Faktisk er teknologi en mindre årsak til svikt i forhold til de virkelige skyldige. Her er de fire viktigste årsakene til at big data-prosjekter mislykkes - og fire viktige måter du kan lykkes på.

Big data problem nr. 1: Dårlig integrasjon

Heudecker sa at det er et stort teknologisk problem bak big data-feil, og det er å integrere siled data fra flere kilder for å få den innsikten bedriftene ønsker. Å bygge forbindelser til tappede, eldre systemer er rett og slett ikke lett. Integrasjonskostnadene er fem til ti ganger kostnadene ved programvare, sa han. “Det største problemet er enkel integrering: Hvordan kobler du flere datakilder sammen for å få et slags resultat? Mye går data lake ruten og tenk at hvis jeg knytter alt til noe magi vil skje. Det er ikke tilfelle, ”sa han.

Siled data er en del av problemet. Klienter har fortalt ham at de hentet data fra registreringssystemer til et felles miljø som en datasjø og ikke kunne finne ut hva verdiene betydde. "Når du trekker data inn i en datasjø, hvordan vet du hva nummer 3 betyr?" Spurte Heudecker.

Fordi de jobber i siloer eller lager datasjøer som bare er datasumpe, skraper de bare overflaten av det de kan oppnå, sa Alan Morrison, en senior stipendiat med PwC. “De forstår ikke alle forholdene i data som må utvinnes eller utledes og gjøres eksplisitte, slik at maskiner tilstrekkelig kan tolke disse dataene. De må lage et kunnskapsgraflag slik at maskiner kan tolke alle forekomstdataene som er kartlagt under. Ellers har du nettopp fått en datasjø som er en datamyr, sa han.

Big data problem nr. 2: udefinerte mål

Du tror de fleste som gjennomfører et stort dataprosjekt faktisk ville ha et mål i tankene, men et overraskende antall gjør det ikke. De lanserer bare prosjektet med målet som en ettertanke.

“Du må ramme problemet godt. Folk tror de kan koble strukturerte og ustrukturerte data og få den innsikten du trenger. Du må definere problemet godt foran. Hva er innsikten du vil få? Det har en klar definisjon av problemet og å definere det godt foran, sier Ray Christopher, produktmarkedsføringsleder hos Talend, et dataintegrasjonsprogramvareselskap.

Joshua Greenbaum, en hovedanalytiker ved Enterprise Application Consulting, sa at en del av det som har bedeviled både big data- og datalagringsprosjekter er de viktigste veiledende kriteriene, er vanligvis akkumulering av store datamengder og ikke løsningen av diskrete forretningsproblemer.

“Hvis du samler store mengder data, får du en datadump. Jeg kaller det en sanitærdeponi. Dumps er ikke et bra sted å finne løsninger, ”sa Greenbaum. "Jeg forteller alltid kundene om å bestemme hvilket diskret forretningsproblem som skal løses først og gå med det, og deretter se på kvaliteten på tilgjengelige data og løse dataproblemet når forretningsproblemet er identifisert."

“Hvorfor mislykkes de fleste store dataprosjekter? Til å begynne med mangler de fleste store dataprosjektledere visjon, sier PwCs Morrison. “Bedrifter er forvirret om store data. De fleste tenker bare på numeriske data eller black box NLP og anerkjennelsesmotorer, og som gjør enkel tekstutvinning og andre typer mønstergjenkjenning. ”

Big data problem nr. 3: Ferdighetsgapet

For ofte tror bedriftene de interne ferdighetene de har bygget for datalagring vil oversette til store data, når det åpenbart ikke er tilfelle. For det første håndterer datalager og big data data på motsatt måte: Datalager lager skjema på skriving, noe som betyr at dataene blir renset, behandlet, strukturert og organisert før de noen gang går inn i datalageret.

I store data akkumuleres data og skjema på lesing brukes, der dataene behandles mens de leses. Så hvis databehandling går bakover fra en metode til en annen, kan du satse på at ferdigheter og verktøy også er det. Og det er bare ett eksempel.

“Ferdigheter vil alltid være en utfordring. Hvis vi snakker om big data om 30 år fremover, vil det fremdeles være en utfordring, sa Heudecker. “Mange mennesker henger hatten på Hadoop. Kundene mine blir utfordret på å finne Hadoop-ressurser. Gnist er litt bedre fordi den stabelen er mindre og lettere å trene opp. Hadoop er dusinvis av programvarekomponenter. ”

Big data problem nr. 4: Teknologigenereringsgapet

Big data-prosjekter henter ofte fra eldre datasiloer og prøver å slå dem sammen med nye datakilder, som sensorer eller webtrafikk eller sosiale medier. Det er ikke helt skylden til bedriften, som samlet inn dataene på en tid før ideen om big data-analyse, men det er likevel et problem.

"Nesten den største ferdigheten som mangler, er ferdigheten til å forstå hvordan man blander disse to interessentene for å få dem til å samarbeide for å løse komplekse problemer," sa konsulent Greenbaum. “Datasiloer kan være en barriere for big data-prosjekter fordi det ikke er noen standard noe. Så når de begynner å se på planlegging, finner de ut at disse systemene ikke er implementert på en måte som gjør at disse dataene vil bli gjenbrukt, ”sa han.

"Med forskjellige arkitekturer må du utføre bearbeiding på en annen måte," sa Christopher fra Talend. “Tekniske ferdigheter og arkitekturforskjeller var en vanlig årsak til at du ikke kan ta dagens verktøy for et lokalt datalager og integrere det med et stort dataprosjekt - fordi disse teknologiene blir for kostbare til å behandle nye data. Så du trenger Hadoopand Spark, og du må lære nye språk. ”

Big data-løsning nr. 1: Planlegg fremover

Det er en gammel klisje, men anvendelig her: Hvis du ikke klarer å planlegge, planlegger du å mislykkes. "Vellykkede selskaper er de som har et resultat," sa Gartners Heudecker. “Velg noe lite og oppnåelig og nytt. Ikke ta et eldre brukstilfelle fordi du får begrensninger. "

"De må tenke på dataene først og modellere organisasjonene sine på en maskinlesbar måte, slik at dataene tjener den organisasjonen," sa PwCs Morrison.

Big data-løsning nr. 2: Arbeid sammen

Alt for ofte blir interessenter utelatt av store dataprosjekter - de menneskene som ville brukt resultatene. Hvis alle interessentene samarbeider, kan de overvinne mange sperringer, sa Heudecker. "Hvis de dyktige menneskene jobber sammen og jobber med forretningssiden for å levere handlingsrike resultater, kan det hjelpe," sa han.

Heudecker bemerket at selskapene som lykkes med big data investerer tungt i de nødvendige ferdighetene. Han ser dette mest i datadrevne selskaper, som finansielle tjenester, Uber, Lyft og Netflix, der selskapets formue er basert på å ha gode, handlingsbare data.

«Gjør det til en lagidrett for å hjelpe deg med å kurere og samle inn data og rense dem. Å gjøre det kan også øke integriteten til dataene, ”sa Christopher Talend.

Big data-løsning nr. 3: Fokus

Folk ser ut til å ha tankegangen om at et big data-prosjekt må være massivt og ambisiøst. Som alt du lærer for første gang, er den beste måten å lykkes på å begynne i det små og deretter gradvis utvide i ambisjon og omfang.

"De burde veldig snevt definere hva de gjør," sa Heudecker. "De bør velge et problemdomene og eie det, som å oppdage svindel, mikrosegmentere kunder eller finne ut hvilket nytt produkt de skal introdusere på en tusenårs-markedsplass."

"På slutten av dagen må du spørre innsikten du vil eller om forretningsprosessen skal digitaliseres," sa Christopher. “Du kaster ikke bare teknologi mot et forretningsproblem; du må definere det foran. Datasjøen er en nødvendighet, men du vil ikke samle inn data hvis den ikke skal brukes av noen i virksomheten. "

I mange tilfeller betyr det også ikke å overoppblåse ditt eget selskap. “I hvert selskap jeg noen gang har studert, er det bare noen få hundre nøkkelkonsepter og forhold som hele virksomheten driver på. Når du forstår det, innser du at alle disse millionene skillene bare er små variasjoner av de få hundre viktige tingene, ”sa PwC’s Morrison. «Du oppdager faktisk at mange av de små variasjonene ikke er variasjoner i det hele tatt. De er egentlig de samme tingene med forskjellige navn, forskjellige strukturer eller forskjellige etiketter, ”la han til.

Big data-løsning nr. 4: Jettison arven

Selv om du kanskje vil bruke disse terabyte med data som er samlet inn og lagret i datalageret ditt, er det faktum at du kanskje blir bedre tjent med å bare fokusere på nylig samlet data i lagringssystemer designet for store data og designet for å være uisolerte.

"Jeg vil absolutt anbefale at du ikke nødvendigvis blir sett på en eksisterende teknologiinfrastruktur bare fordi din bedrift er en lisens for det," sa konsulent Greenbaum. - Ofte kan nye komplekse problemer kreve nye komplekse løsninger. Å falle tilbake på gamle verktøy rundt selskapet i et tiår er ikke den rette veien å gå. Mange selskaper bruker gamle verktøy, og det dreper prosjektet. ”

Morrison o = bemerket, "Bedrifter må slutte å få føttene sammenflettet i sitt eget undertøy og bare jette den eldre arkitekturen som skaper flere siloer." Han sa også at de må slutte å forvente at leverandører skal løse sine komplekse systemproblemer for dem. “I flere tiår ser det ut til at mange antar at de kan kjøpe seg ut av et stort dataproblem. Ethvert stort dataproblem er et systemisk problem. Når det gjelder kompliserte systemendringer, må du bygge deg ut, ”sa han.

$config[zx-auto] not found$config[zx-overlay] not found