Programmering

Hvordan edge analytics vil drive smartere databehandling

Mange brukstilfeller for analyse og maskinlæring kobles til data som er lagret i datalager eller datasjøer, kjører algoritmer på komplette datasett eller et delsett av dataene, og beregner resultater på skyarkitekturer. Denne tilnærmingen fungerer bra når dataene ikke endres ofte. Men hva om dataene endres ofte?

I dag trenger flere bedrifter å behandle data og beregne analyser i sanntid. IoT driver mye av dette paradigmeskiftet ettersom datastreaming fra sensorer krever umiddelbar behandling og analyse for å kontrollere nedstrøms systemer. Sanntidsanalyse er også viktig i mange bransjer, inkludert helsetjenester, finansielle tjenester, produksjon og reklame, hvor små endringer i dataene kan ha betydelig økonomisk, helse-, sikkerhets- og annen forretningsvirkning.

Hvis du er interessert i å aktivere sanntidsanalyse - og i nye teknologier som utnytter en blanding av edge computing, AR / VR, IoT-sensorer i stor skala og maskinlæring i skala - så er det viktig å forstå designhensynet for edge-analyse. Edge computing bruker tilfeller som autonome droner, smarte byer, detaljhandelkjedeadministrasjon og augmented reality-spillnettverk, alle målrettet å distribuere storskala, svært pålitelig kantanalyse.

Edge analytics, streaming analytics og edge computing

Flere forskjellige analyser, maskinlæring og edge computing paradigmer er relatert til edge analytics:

  • Kantanalyse refererer til analyse- og maskinlæringsalgoritmer distribuert til infrastruktur utenfor skyinfrastruktur og "på kanten" i geografisk lokalisert infrastruktur.
  • Streaminganalyse refererer til dataanalyser i sanntid når data blir behandlet. Streaminganalyse kan gjøres i skyen eller på kanten avhengig av brukssaken.
  • Hendelsesbehandling er en måte å behandle data og føre beslutninger i sanntid. Denne behandlingen er en delmengde av streaminganalyse, og utviklere bruker hendelsesdrevne arkitekturer for å identifisere hendelser og utløse handlinger nedstrøms.
  • Edge computing refererer til distribusjon av beregning til edge-enheter og nettverksinfrastruktur.
  • Tåkeberegning er en mer generalisert arkitektur som deler beregning mellom kant-, nærkant- og skydatamiljøer.

Ved utforming av løsninger som krever kantanalyse, må arkitekter ta hensyn til fysiske og strømbegrensninger, nettverkskostnader og pålitelighet, sikkerhetshensyn og behandlingskrav.

Grunner til å distribuere analyser på kanten

Du kan spørre hvorfor du vil distribuere infrastruktur til kanten for analyse? Det er tekniske, kostnads- og overholdelsesmessige hensyn som spiller inn i disse beslutningene.

Applikasjoner som påvirker menneskers sikkerhet og krever spenst i databehandlingsarkitekturen, er et brukstilfelle for kantanalyse. Applikasjoner som krever lav latens mellom datakilder som IoT-sensorer og analytisk databehandlingsinfrastruktur, er en andre brukssak som ofte krever kantanalyse. Eksempler på disse brukssakene inkluderer:

  • Selvkjørende biler, automatiserte maskiner eller annen transport der kontrollsystemer automatiserer hele eller deler av navigasjonen.
  • Smarte bygninger som har sikkerhetskontroller i sanntid og vil unngå å ha avhengighet av nettverk og skyinfrastruktur, slik at folk kan komme inn og ut av bygningen trygt.
  • Smarte byer som sporer offentlig transport, distribuerer smarte målere for fakturering av verktøy og smarte avfallshåndteringsløsninger.

Kostnadshensyn er en viktig faktor i bruk av kantanalyser i produksjonssystemer. Tenk på et sett med kameraer som skanner produserte produkter for mangler mens du er på transportbånd i rask bevegelse. Det kan være mer kostnadseffektivt å distribuere edge-databehandlingsenheter fra fabrikken for å utføre bildebehandlingen, i stedet for å ha høyhastighetsnettverk installert for å overføre videobilder til skyen.

Jeg snakket med Achal Prabhakar, teknisk direktør i Landing AI, et industrielt AI-selskap med løsninger som fokuserer på datasyn. "Produksjonsanlegg er ganske forskjellige fra vanlige analyseprogrammer og krever derfor omtenking av AI inkludert distribusjon," sa Prabhakar til meg. ”Et stort fokusområde for oss er å distribuere komplekse visjoner for dyp læring med kontinuerlig læring direkte på produksjonslinjer ved hjelp av dyktige, men råvareutstyr.”

Distribusjon av analyse til avsidesliggende områder som konstruksjons- og boresteder har også fordeler av å bruke kantanalyse og databehandling. I stedet for å stole på dyre og potensielt upålitelige nettverk for store områder, distribuerer ingeniører kantanalyseinfrastruktur på stedet for å støtte den nødvendige data- og analysebehandlingen. For eksempel distribuerte et olje- og gasselskap en streaminganalyseløsning med en distribuert dataplattform i minnet til kanten og reduserte boretiden med så mye som 20 prosent, fra typiske 15 dager til 12 dager.

Overholdelse og datastyring er en annen grunn til kantanalyse. Distribusjon av lokalisert infrastruktur kan bidra til å oppfylle GDPR-overholdelse og andre datasuverenitetsregler ved å lagre og behandle begrensede data i landene hvor dataene samles inn.

Designe analyser for kanten

Dessverre er det ikke alltid trivielt å ta modeller og annen analyse og distribuere dem til edge computing-infrastruktur. Datakravene for behandling av store datasett gjennom beregningsintensive datamodeller kan kreve ombygging før du kjører og distribuerer dem på edge computing-infrastruktur.

For det første benytter mange utviklere og dataforskere seg nå av de høyere nivå-analytiske plattformene som er tilgjengelige på offentlige og private skyer. IoT og sensorer bruker ofte innebygde applikasjoner skrevet i C / C ++, noe som kan være ukjent og utfordrende terreng for sky-native dataforskere og ingeniører.

Et annet problem kan være selve modellene. Når dataforskere jobber i skyen og skalerer dataressurser på forespørsel til relativt lave kostnader, er de i stand til å utvikle komplekse maskinlæringsmodeller, med mange funksjoner og parametere, for å optimalisere resultatene. Men når du distribuerer modeller til edge-databehandlingsinfrastruktur, kan en altfor kompleks algoritme dramatisk øke kostnadene for infrastruktur, størrelsen på enhetene og strømkravene.

Jeg diskuterte utfordringene med å distribuere AI-modeller til kanten med Marshall Choy, VP for produkt hos SambaNova Systems. "Modellutviklere for kant-AI-applikasjoner fokuserer i økende grad mer på svært detaljerte modeller for å oppnå forbedringer i parameterreduksjon og beregningskrav," bemerket han. "Opplæringskravene til disse mindre, veldig detaljerte modellene er fortsatt skremmende."

En annen betraktning er at distribusjon av et svært pålitelig og sikkert kantanalysesystem krever utforming og implementering av svært feiltolerante arkitekturer, systemer, nettverk, programvare og modeller.

Jeg snakket med Dale Kim, seniordirektør for produktmarkedsføring i Hazelcast, om brukstilfeller og begrensninger når man behandler data på kanten. Han kommenterte at mens utstyrsoptimaliseringer, forebyggende vedlikehold, kvalitetssikringskontroll og kritiske varsler er tilgjengelige på kanten, er det nye utfordringer som begrenset maskinvareplass, begrenset fysisk tilgjengelighet, begrenset båndbredde og større sikkerhetsproblemer.

"Dette betyr at infrastrukturen du er vant til i datasenteret ditt ikke nødvendigvis vil fungere," sa Kim. "Så du må utforske ny teknologi som er designet med tanke på edge computing-arkitekturer."

Den neste grensen innen analyse

De mer vanlige brukssakene for kantanalyse i dag er databehandlingsfunksjoner, inkludert datafiltrering og aggregering. Men ettersom flere selskaper distribuerer IoT-sensorer i stor skala, vil behovet for å anvende algoritmer for analyse, maskinlæring og kunstig intelligens i sanntid kreve flere distribusjoner på kanten.

Mulighetene på kanten gir en veldig spennende fremtid for smart databehandling ettersom sensorer blir billigere, applikasjoner krever mer sanntidsanalyse, og det blir lettere å utvikle optimaliserte, kostnadseffektive algoritmer for kanten.

$config[zx-auto] not found$config[zx-overlay] not found