Qubole anmeldelse: Selvbetjening av big data-analyse

Fakturert som en skybasert dataplattform for analyse, AI og maskinlæring, tilbyr Qubole løsninger for kundeengasjement, digital transformasjon, datadrevne produkter, digital markedsføring, modernisering og sikkerhetsintelligens. Det krever rask tid til verdi, støtte for flere skyer, 10 ganger administratorproduktivitet, 1: 200-forhold mellom bruker og bruker og lavere skykostnader.

Hva Qubole faktisk gjør, basert på min korte erfaring med plattformen, er å integrere en rekke open source-verktøy og noen få proprietære verktøy for å skape en skybasert, selvbetjent big data-opplevelse for dataanalytikere, dataingeniører og dataforskere.

Qubole tar deg fra ETL gjennom utforskende dataanalyse og modellbygging til distribusjon av modeller i produksjonsskala. Underveis automatiserer den en rekke skyoperasjoner, som klargjøring og skalering av ressurser, som ellers kan kreve betydelige mengder administratortid. Hvorvidt denne automatiseringen faktisk vil tillate en 10 ganger økning i administratorproduktiviteten eller et forhold mellom operatør og bruker 1: 200 for et bestemt selskap eller brukstilfelle, er ikke klart.

Qubole har en tendens til å slå på begrepet "aktive data." I utgangspunktet har de fleste datasjøer - som i det vesentlige er filbutikker fylt med data fra mange kilder, alt på ett sted, men ikke i en database - en lav prosentandel data som brukes aktivt til analyse. Qubole anslår at de fleste datasjøene er 10% aktive og 90% inaktive, og spår at det kan reversere dette forholdet.

Konkurrenter til Qubole inkluderer Databricks, AWS og Cloudera. Det er en rekke andre produkter som bare konkurrerer med noen av Quboles funksjoner.

Databricks bygger notatbøker, dashboards og jobber på toppen av en klyngebehandler og Spark; Jeg fant det som en nyttig plattform for dataforskere da jeg gjennomgikk den i 2016. Databrikker åpnet nylig sitt Delta Lake-produkt, som gir ACID-transaksjoner, skalerbar metadatahåndtering og enhetlig streaming og batch databehandling til datasjøer for å gjøre dem mer pålitelige. og å hjelpe dem å mate gnistanalyse.

AWS har et bredt spekter av dataprodukter, og faktisk støtter Qubole integrering med mange av dem. Cloudera, som nå inkluderer Hortonworks, tilbyr tjenester for datalager og maskinlæring, samt en datahubtjeneste. Qubole hevder at både Databricks og Cloudera mangler økonomisk styring, men du kan implementere styring selv på single-cloud-nivå, eller ved å bruke et multi-cloud management-produkt.

Hvordan Qubole fungerer

Qubole integrerer alle verktøyene i et skybasert og nettleserbasert miljø. Jeg vil diskutere miljøbitene i neste del av denne artikkelen; i denne delen vil jeg konsentrere meg om verktøyene.

Qubole utfører kostnadskontroll som en del av klyngeadministrasjonen. Du kan spesifisere at klynger bruker en spesifikk blanding av forekomsttyper, inkludert punktforekomster når de er tilgjengelige, og minimum og maksimalt antall noder for autoskalering. Du kan også spesifisere hvor lang tid en klynge vil fortsette å kjøre i fravær av belastning, for å unngå "zombie" -forekomster.

Gnist

I sin artikkel i august, "Hvordan Qubole adresserer Apache Spark-utfordringer", diskuterer Quboles administrerende direktør Ashish Thusoo fordelene og fallgruvene ved Spark, og hvordan Qubole avhjelper vanskeligheter som konfigurasjon, ytelse, kostnader og ressursadministrasjon. Gnist er en nøkkelkomponent i Qubole for dataforskere, som muliggjør enkel og rask datatransformasjon og maskinlæring.

Presto

Presto er en open source distribuert SQL-søkemotor for å kjøre interaktive analytiske spørsmål mot datakilder i alle størrelser, alt fra gigabyte til petabyte. Presto-spørsmål kjører mye raskere enn Hive-spørsmål. Samtidig kan Presto se og bruke Hive-metadata og dataskjemaer.

Hive

Apache Hive er et populært open source-prosjekt i Hadoop-økosystemet som letter lesing, skriving og administrering av store datasett som ligger i distribuert lagring ved hjelp av SQL. Struktur kan projiseres på data som allerede er lagret. Hive-spørringskjøring kjører via Apache Tez, Apache Spark eller MapReduce. Hive på Qubole kan gjøre arbeidsbelastningsbevisst autoskalering og direkte skriving; open source Hive mangler disse skyorienterte optimaliseringene.

Grunnleggerne av Qubole var også skaperne av Apache Hive. De startet Hive på Facebook og åpnet det i 2008.

Kvantum

Quantum er Quboles egen serverløse, autoskalerende, interaktive SQL-søkemotor som støtter både Hive DDL og Presto SQL. Quantum er en pay-as-you-go-tjeneste som er kostnadseffektiv for sporadiske spørringsmønstre som spres over lange perioder, og har en streng modus for å forhindre uventede utgifter. Quantum bruker Presto, og utfyller å ha Presto serverklynger. Kvanteforespørsler er begrenset til 45 minutters kjøretid.

Luftstrøm

Airflow er en Python-basert plattform for å programmere, planlegge og overvåke arbeidsflyter. Arbeidsflytene er dirigert asykliske grafer (DAGer) av oppgaver. Du konfigurerer DAG-ene ved å skrive rørledninger i Python-kode. Qubole tilbyr Airflow som en av sine tjenester; det brukes ofte til ETL.

Den nye QuboleOperator kan brukes akkurat som alle andre eksisterende luftstrømoperatører. Under kjøringen av operatøren i arbeidsflyten vil den sende en kommando til Qubole Data Service og vente til kommandoen er ferdig. Qubole støtter fil- og Hive-bordsensorer som Airflow kan bruke til å programmatisk overvåke arbeidsflyter.

For å se Airflow-brukergrensesnittet, må du først starte en Airflow-klynge, og deretter åpne klyngesiden for å se Airflow-nettstedet.

RubiX

RubiX er Quboles lette cache-rammeverk for data som kan brukes av et stort datasystem som bruker et Hadoop-filsystemgrensesnitt. RubiX er designet for å fungere med skylagringssystemer som Amazon S3 og Azure Blob Storage, og for å cache eksterne filer på en lokal disk. Qubole har gitt ut RubiX til åpen kildekode. Aktivering av RubiX i Qubole er et spørsmål om å merke av i en rute.

Hva gjør Qubole?

Qubole gir en helhetlig plattform for analyse og datavitenskap. Funksjonaliteten er fordelt på et titalls moduler.

Utforsk-modulen lar deg se datatabellene, legge til datalagre og sette opp datautveksling. På AWS kan du se datatilkoblingene dine, S3-skuffene dine og dine Qubole Hive-datalagre.

Modulene Analyse og Workbench lar deg kjøre ad hoc-spørsmål på datasettene dine. Analyser er det gamle grensesnittet, og Workbench er det nye grensesnittet, som fremdeles var i beta da jeg prøvde det. Begge grensesnittene lar deg dra og slippe datafelter til SQL-spørringene dine, og velge motoren du bruker til å kjøre operasjonene: Quantum, Hive, Presto, Spark, en database, et skall eller Hadoop.

Smart Query er en skjemabasert SQL-spørringsbygger for Hive og Presto. Maler lar deg bruke parametriserte SQL-spørsmål på nytt.

Notatbøker er Spark-baserte Zeppelin eller (i beta) Jupyter-notatbøker for datavitenskap. Dashboards gir et grensesnitt for deling av utforskningene dine, uten å gi tilgang til notatbøkene dine.

Planlegger lar deg kjøre spørringer, arbeidsflyter, dataimport og eksport og kommandoer automatisk med intervaller. Dette utfyller ad-hoc-spørsmålene du kan kjøre i modulene Analyser og Arbeidsbenk.

Clusters-modulen lar deg administrere klyngene dine av Hadoop / Hive, Spark, Presto, Airflow og deep learning (beta) servere. Bruk lar deg spore klyngen og spørringsbruken. Kontrollpanelet lar deg konfigurere plattformen, enten for deg selv eller for andre hvis du har tillatelser til systemadministrasjon.

Qubole end-to-end gjennomgang

Jeg gikk gjennom en gjennomgang av å importere en database, lage et Hive-skjema og analysere resultatet med Hive og Presto, og separat i en Spark-notatbok. Jeg så også på en Airflow DAG for den samme prosessen, og på en notatbok for maskinlæring med Spark på et ikke-relatert datasett.

Dyp læring i Qubole

Vi har sett datavitenskap i Qubole opp til nivået med klassisk maskinlæring, men hva med dyp læring? En måte å oppnå dyp læring i Qubole er å sette inn Python-trinn i notatbøkene dine som importerer dype læringsrammer som TensorFlow og bruke dem på datasettene som allerede er utviklet med Spark. En annen er å ringe til Amazon SageMaker fra bærbare datamaskiner eller Airflow, forutsatt at Qubole-installasjonen din kjører på AWS.

Det meste av det du gjør i Qubole krever ikke å kjøre på GPUer, men dyp læring trenger ofte GPUer for å la opplæringen fullføres på en rimelig tid. Amazon SageMaker tar seg av det ved å kjøre de dype læringstrinnene i separate klynger, som du kan konfigurere med så mange noder og GPUer som nødvendig. Qubole tilbyr også Machine Learning-klynger (i beta); på AWS tillater disse akselererte g-type og p-type arbeidstakernoder med Nvidia GPU-er, og på Google Cloud Platform og Microsoft Azure tillater de tilsvarende akselererte arbeidernoder.

Big data verktøysett i skyen

Qubole, en skybasert dataplattform for analyse og maskinlæring, hjelper deg med å importere datasett til en datasjø, bygge skjemaer med Hive og spørre dataene med Hive, Presto, Quantum og Spark. Den bruker både bærbare datamaskiner og Airflow for å konstruere arbeidsflyter. Det kan også ringe til andre tjenester og bruke andre biblioteker, for eksempel Amazon SageMaker-tjenesten og TensorFlow Python-biblioteket for dyp læring.

Qubole hjelper deg med å administrere skyutgiftene dine ved å kontrollere blandingen av forekomster i en klynge, starte og autoskalere klynger etter behov, og slå av klynger automatisk når de ikke er i bruk. Den kjører på AWS, Microsoft Azure, Google Cloud Platform og Oracle Cloud.

Samlet sett er Qubole en veldig god måte å dra nytte av (eller "aktivere") data-innsjøen din, isolerte databaser og big data. Du kan teste Qubole gratis i 14 dager på ditt valg av AWS, Azure eller GCP med eksempeldata. Du kan også arrangere en gratis prøveperiode med full funksjon for opptil fem brukere og en måned ved hjelp av din egen skyinfrastrukturkonto og dine egne data.

—

Koste: Test- og prøvekontoer, gratis. Bedriftsplattform, $ 0,14 per QCU (Qubole Compute Unit) per time.

Plattform: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.