Programmering

Hva er big data analytics? Raske svar fra forskjellige datasett

Det er data, og så er det store data. Så, hva er forskjellen?

Big data definert

En tydelig definisjon av big data kan være vanskelig å finne ut, fordi big data kan dekke mange brukssaker. Men generelt refererer begrepet til datasett som er så store i volum og så komplekse at tradisjonelle databehandlingsprogramvareprodukter ikke er i stand til å fange, administrere og behandle dataene innen rimelig tid.

Disse store datasettene kan omfatte strukturerte, ustrukturerte og semistrukturerte data, som hver kan utvinnes for innsikt.

Hvor mye data som faktisk utgjør "stor" er åpen for debatt, men det kan vanligvis være i multipler av petabyte - og for de største prosjektene i exabyteområdet.

Ofte er big data preget av de tre V-ene:

  • en ekstrem volum av data
  • i utlandet variasjon av typer data
  • de hastighet der dataene må behandles og analyseres

Dataene som utgjør store datalagre kan komme fra kilder som inkluderer nettsteder, sosiale medier, stasjonære og mobile apper, vitenskapelige eksperimenter og - i økende grad - sensorer og andre enheter på internett av ting (IoT).

Konseptet med big data kommer med et sett med relaterte komponenter som gjør det mulig for organisasjoner å bruke dataene til praktisk bruk og løse en rekke forretningsproblemer. Disse inkluderer IT-infrastrukturen som trengs for å støtte big data-teknologier, analysene som brukes på dataene; de store dataplattformene som trengs for prosjekter, relaterte ferdighetssett og de faktiske brukssakene som gir mening for big data.

Hva er dataanalyse?

Det som virkelig gir verdi fra alle big data-organisasjonene som samler inn, er analysene som brukes på dataene. Uten analyse, som innebærer å undersøke dataene for å oppdage mønstre, sammenhenger, innsikt og trender, er dataene bare en haug med en og nuller med begrenset forretningsbruk.

Ved å bruke analyser på store data, kan bedrifter se fordeler som økt salg, forbedret kundeservice, større effektivitet og et generelt løft i konkurranseevne.

Dataanalyse innebærer å undersøke datasett for å få innsikt eller trekke konklusjoner om hva de inneholder, for eksempel trender og spådommer om fremtidig aktivitet.

Ved å analysere informasjon ved hjelp av verktøy for store dataanalyser, kan organisasjoner ta bedre informerte forretningsbeslutninger, for eksempel når og hvor de skal kjøre en markedsføringskampanje eller introdusere et nytt produkt eller en ny tjeneste.

Analytics kan referere til grunnleggende applikasjoner for forretningsinformasjon eller mer avansert, prediktiv analyse slik som de som brukes av vitenskapelige organisasjoner. Blant den mest avanserte typen dataanalyse er data mining, der analytikere vurderer store datasett for å identifisere forhold, mønstre og trender.

Dataanalyse kan omfatte utforskende dataanalyse (for å identifisere mønstre og sammenhenger i data) og bekreftende dataanalyse (bruke statistiske teknikker for å finne ut om en antagelse om et bestemt datasett er sant.

Et annet skille er kvantitativ dataanalyse (eller analyse av numeriske data som har kvantifiserbare variabler som kan sammenlignes statistisk) mot kvalitativ dataanalyse (som fokuserer på ikke-numeriske data som video, bilder og tekst).

IT-infrastruktur for å støtte big data

For at konseptet med big data skal fungere, må organisasjoner ha infrastrukturen på plass for å samle og huse dataene, gi tilgang til den og sikre informasjonen mens den er lagret og under transport. Dette krever distribusjon av store dataanalyseverktøy.

På høyt nivå inkluderer disse lagringssystemer og servere designet for big data, programvare for datastyring og integrasjon, forretningsinformasjon og dataanalyseprogramvare og big data-applikasjoner.

Mye av denne infrastrukturen vil sannsynligvis være lokalt, ettersom selskaper ser ut til å fortsette å utnytte investeringene i datasenteret. Men stadig oftere stoler organisasjoner på cloud computing-tjenester for å håndtere mye av deres store datakrav.

Datainnsamling krever kilder for å samle inn dataene. Mange av disse - som webapplikasjoner, sosiale mediekanaler, mobilapper og e-postarkiver - er allerede på plass. Men når IoT blir forankret, kan det hende at selskaper trenger å distribuere sensorer på alle slags enheter, kjøretøy og produkter for å samle inn data, samt nye applikasjoner som genererer brukerdata. (IoT-orientert big data-analyse har sine egne spesialiserte teknikker og verktøy.)

For å lagre alle innkommende data, må organisasjoner ha tilstrekkelig datalagring på plass. Blant lagringsalternativene er tradisjonelle datalagre, datasjøer og skybasert lagring.

Verktøy for sikkerhetsinfrastruktur kan omfatte datakryptering, brukergodkjenning og annen tilgangskontroll, overvåkingssystemer, brannmurer, mobilitetsstyring og andre produkter for å beskytte systemer og data,

Big data teknologier

I tillegg til den foregående IT-infrastrukturen som brukes til data generelt. Det er flere teknologier som er spesifikke for store data som IT-infrastrukturen din skal støtte.

Hadoop økosystem

Hadoop er en av teknologiene som er tettest knyttet til big data. Apache Hadoop-prosjektet utvikler programvare med åpen kildekode for skalerbar, distribuert databehandling.

Hadoop-programvarebiblioteket er et rammeverk som muliggjør distribuert behandling av store datasett på tvers av datamaskiner ved hjelp av enkle programmeringsmodeller. Den er designet for å skalere opp fra en enkelt server til tusenvis, og hver tilbyr lokal beregning og lagring.

Prosjektet inkluderer flere moduler:

  • Hadoop Common, de vanlige verktøyene som støtter andre Hadoop-moduler
  • Hadoop distribuert filsystem, som gir høy gjennomstrømningstilgang til applikasjonsdata
  • Hadoop YARN, et rammeverk for jobbplanlegging og klyngeressursadministrasjon
  • Hadoop MapReduce, et garnbasert system for parallell behandling av store datasett.

Apache Spark

En del av Hadoop-økosystemet, Apache Spark, er et open source cluster-computing-rammeverk som fungerer som en motor for behandling av store data i Hadoop. Spark har blitt et av de viktigste rammeverkene for distribusjon av store data, og kan distribueres på en rekke måter. Det gir innfødte bindinger for Java, Scala, Python (spesielt Anaconda Python distro) og R programmeringsspråk (R er spesielt godt egnet for store data), og den støtter SQL, streaming av data, maskinlæring og grafbehandling.

Datasjøer

Datasjøer er lagringsregister som har ekstremt store mengder rådata i sitt opprinnelige format til dataene er nødvendige av forretningsbrukere. Digital transformasjonstiltak og veksten av IoT hjelper til med å øke veksten i datasjøer. Datasjøer er designet for å gjøre det lettere for brukere å få tilgang til store mengder data når behovet oppstår.

NoSQL-databaser

Konvensjonelle SQL-databaser er designet for pålitelige transaksjoner og ad hoc-spørsmål, men de kommer med begrensninger som stivt skjema som gjør dem mindre egnet for noen typer applikasjoner. NoSQL-databaser adresserer disse begrensningene, og lagrer og administrerer data på måter som gir høy driftshastighet og stor fleksibilitet. Mange ble utviklet av selskaper som søkte bedre måter å lagre innhold eller behandle data på massive nettsteder. I motsetning til SQL-databaser kan mange NoSQL-databaser skaleres horisontalt over hundrevis eller tusenvis av servere.

Databaser i minnet

En in-memory database (IMDB) er et databasestyringssystem som primært er avhengig av hovedminne, i stedet for disk, for datalagring. Databaser i minnet er raskere enn diskoptimaliserte databaser, en viktig faktor for bruk av big data analytics og opprettelse av datalager og data marts.

Big data ferdigheter

Big data og big data analytics krever spesifikke ferdigheter, enten de kommer fra organisasjonen eller gjennom eksterne eksperter.

Mange av disse ferdighetene er relatert til nøkkelkomponentene for stor datateknologi, som Hadoop, Spark, NoSQL-databaser, databaser i minnet og analyseprogramvare.

Andre er spesifikke for fagfelt som datavitenskap, datautvinning, statistisk og kvantitativ analyse, datavisualisering, generell programmering og datastruktur og algoritmer. Det er også et behov for personer med overordnede ledelsesevner å se big data-prosjekter til fullføring.

Gitt hvor vanlige store dataanalyseprosjekter har blitt og mangel på mennesker med denne typen ferdigheter, kan det være en av de største utfordringene for organisasjoner å finne erfarne fagfolk.

Big data analytics bruker saker

Big data og analyse kan brukes på mange forretningsproblemer og brukssaker. Her er noen eksempler:

  • Kundeanalyse. Bedrifter kan undersøke kundedata for å forbedre kundeopplevelsen, forbedre konverteringsfrekvensen og øke oppbevaring.
  • Operasjonell analyse. Forbedring av operasjonell ytelse og bedre bruk av bedriftens eiendeler er målene for mange selskaper. Big data-analyseverktøy kan hjelpe bedrifter med å finne måter å operere mer effektivt og forbedre ytelsen.
  • Forebygging av svindel. Big data-verktøy og analyse kan hjelpe organisasjoner med å identifisere mistenkelig aktivitet og mønstre som kan indikere uredelig atferd og bidra til å redusere risiko.
  • Prisoptimalisering. Bedrifter kan bruke stor dataanalyse for å optimalisere prisene de tar for produkter og tjenester, og bidra til å øke inntektene.