Programmering

Apache Eagle holder øye med bruk av store data

Apache Eagle, opprinnelig utviklet på eBay, deretter donert til Apache Software Foundation, fyller en stor datasikkerhetsnisje som forblir tynt befolket, om ikke bare: Den snuser mulige sikkerhets- og ytelsesproblemer med store datarammer.

For å gjøre dette bruker Eagle andre Apache-kildekomponenter, som Kafka, Spark og Storm, for å generere og analysere maskinlæringsmodeller fra atferdsdataene til store dataklynger.

Ser inn fra innsiden

Data for Eagle kan komme fra aktivitetslogger for forskjellige datakilder (HDFS, Hive, MapR FS, Cassandra) eller fra ytelsesberegninger høstet direkte fra rammer som Spark. Dataene kan deretter ledes av Kafka-streaming-rammeverket til et sanntidsregistreringssystem som er bygget med Apache Storm eller i et modellopplæringssystem bygget på Apache Spark. Førstnevnte er for å generere varsler og rapporter basert på eksisterende policyer; sistnevnte er for å lage maskinlæringsmodeller for å drive nye retningslinjer.

Denne vektleggingen av sanntidsadferd topper listen over "nøkkelegenskaper" i dokumentasjonen for Eagle. Det blir fulgt av "skalerbarhet", "metadata drevet" (som betyr at endringer i policyer blir distribuert automatisk når metadataene endres) og "utvidbarhet." Dette siste betyr at datakildene, varslingssystemene og policy-motorene som brukes av Eagle, leveres av plugins og er ikke begrenset til hva som er i esken.

Fordi Eagle ble satt sammen fra eksisterende deler av Hadoop-verdenen, har den to teoretiske fordeler. En, det er mindre gjenoppfinnelse av hjulet. To, de som allerede har erfaring med brikkene det er snakk om, vil ha et bein oppe.

Hva holder folk på med?

Bortsett fra de ovennevnte brukssakene som å analysere arbeidsytelse og overvåke for avvikende oppførsel, kan Eagle også analysere brukeratferd. Dette handler ikke om å analysere data fra et webapplikasjon for å lære om de offentlige brukerne av appen, men heller brukerne av selve big data-rammeverket - folk som bygger og administrerer Hadoop eller Spark-backenden. Et eksempel på hvordan du kjører en slik analyse er inkludert, og den kan distribueres som den er eller modifiseres.

Eagle lar også tilgang til applikasjonsdata klassifiseres etter følsomhetsnivåer. Bare HDFS-, Hive- og HBase-applikasjoner kan benytte seg av denne funksjonen akkurat nå, men interaksjonen med dem gir en modell for hvordan andre datakilder også kan klassifiseres.

La oss holde dette under kontroll

Fordi rammeverk for store data er raske kreasjoner, har det vært vanskelig å bygge pålitelig sikkerhet rundt dem. Eagles premiss er at den kan gi policybasert analyse og varsling som et mulig supplement til andre prosjekter som Apache Ranger. Ranger tilbyr autentisering og tilgangskontroll på tvers av Hadoop og dets relaterte teknologier; Eagle gir deg en ide om hva folk gjør når de får komme inn.

Det største spørsmålet som svever over Eagles fremtid - ja, selv dette tidlig - er i hvilken grad Hadoop-leverandører elegant vil rulle den inn i sine eksisterende distribusjoner eller bruke sine egne sikkerhetstilbud. Datasikkerhet og styring har lenge vært en av de manglende delene som kommersielle tilbud kan konkurrere på.