Programmering

Apache Spark 3.0 legger til Nvidia GPU-støtte for maskinlæring

Apache Spark, rammeverket for stor databehandling i minnet, blir fullstendig GPU-akselerert i sin snart inkarnasjon 3.0-inkarnasjon. Best av alt, dagens Spark-applikasjoner kan dra nytte av GPU-akselerasjonen uten endring; eksisterende Spark APIer fungerer alle som de er.

GPU-akselerasjonskomponentene, levert av Nvidia, er designet for å utfylle alle faser av Spark-applikasjoner, inkludert ETL-operasjoner, maskinlæringstrening og inferensservering.

Nvidias Spark-bidrag trekker på RAPIDS-pakken med GPU-akselerert databehandlingsbibliotek. Mange av RAPIDS interne datastrukturer, som datarammer, utfyller Sparks egne, men å få Spark til å bruke RAPIDS naturlig har tatt nesten fire års arbeid.

Spark 3.0-speedups kommer ikke bare fra GPU-akselerasjon. Spark 3.0 høster også ytelsesgevinster ved å minimere dataflytting til og fra GPUer. Når data må flyttes over en klynge, skifter Unified Communication X-rammeverket dem direkte fra en blokk med GPU-minne til en annen med minimal overhead.

Ifølge Nvidia ga en forhåndsvisning av Spark 3.0 som kjører på Databricks-plattformen en syv ganger ytelsesforbedring når du bruker GPU-akselerasjon, selv om detaljer om arbeidsmengden og datasettet ikke var tilgjengelige.

Det er ikke gitt noen fast dato for generell tilgjengelighet av Spark 3.0. Du kan laste ned forhåndsvisning fra Apache Spark-prosjektnettstedet.