Programmering

Rask data: Neste trinn etter big data

Måten store data blir store på er gjennom en konstant strøm av innkommende data. I miljøer med høyt volum kommer dataene til utrolige priser, men må fremdeles analyseres og lagres.

John Hugg, programvarearkitekt hos VoltDB, foreslår at i stedet for bare å lagre dataene som skal analyseres senere, kanskje vi har nådd det punktet hvor de kan analyseres når de inntas, mens vi fortsatt opprettholder ekstremt høye inntakshastigheter ved hjelp av verktøy som Apache Kafka.

- Paul Venezia

For mindre enn et dusin år siden var det nesten umulig å forestille seg å analysere petabyte av historiske data ved hjelp av råvare. I dag er Hadoop-klynger bygget fra tusenvis av noder nesten vanlig. Open source-teknologier som Hadoop tenkte på nytt hvordan man effektivt kunne behandle petabyte på petabyte med data ved hjelp av råvare og virtualisert maskinvare, noe som gjør denne muligheten tilgjengelig billig for utviklere overalt. Som et resultat dukket feltet med store data opp.

En lignende revolusjon skjer med såkalte raske data. La oss først definere raske data. Big data blir ofte opprettet av data som genereres med utrolige hastigheter, for eksempel klikkstrømdata, økonomiske ticker-data, loggaggregering eller sensordata. Ofte skjer disse hendelsene tusenvis til titusenvis av ganger i sekundet. Ikke rart at denne typen data ofte blir referert til som en "brannslange."

Når vi snakker om brannslanger i store data, måler vi ikke volum i typiske gigabyte, terabyte og petabyte som er kjent for datalager. Vi måler volum når det gjelder tid: antall megabyte per sekund, gigabyte per time eller terabyte per dag. Vi snakker om hastighet så vel som volum, som blir kjernen i forskjellen mellom big data og datalageret. Big data er ikke bare stort; det er også raskt.

Fordelene med big data går tapt hvis ferske, raskt bevegelige data fra brannslangen blir dumpet i HDFS, en analytisk RDBMS eller til og med flate filer, fordi muligheten til å handle eller varsle akkurat nå som ting skjer, er tapt. Brannslangen representerer aktive data, umiddelbar status eller data med løpende formål. Datalageret er derimot en måte å se gjennom historiske data for å forstå fortiden og forutsi fremtiden.

Å handle på data når det kommer har blitt tenkt på som kostbart og upraktisk, om ikke umulig, spesielt på råvare. Akkurat som verdien i big data, blir verdien i raske data låst opp med den reimagined implementeringen av meldingskøer og streaming-systemer som open source Kafka og Storm, og den reimagined implementeringen av databaser med introduksjonen av open source NoSQL og NewSQL-tilbud .

Fange verdi i raske data

For å behandle data som kommer til titusenvis til millioner av hendelser per sekund, trenger du to teknologier: For det første et streaming-system som kan levere hendelser så fort de kommer inn; og for det andre en datalager som er i stand til å behandle hvert element så fort det kommer.

Leverer raske data

Kafka ble designet for å være en meldingskø og for å løse de opplevde problemene med eksisterende teknologi. Det er en slags overkø med ubegrenset skalerbarhet, distribuert distribusjon, multitenans og sterk utholdenhet. En organisasjon kan distribuere en Kafka-klynge for å tilfredsstille alle sine behov for meldingskø. Likevel, i sin kjerne, leverer Kafka meldinger. Det støtter ikke behandling eller spørring av noe slag.

Copyright no.verticalshadows.com 2024

$config[zx-auto] not found$config[zx-overlay] not found