Prosjekt Oxford: Microsoft serverer API-er for intelligente apper

Microsoft i løpet av våren kunngjorde Project Oxford, et sett med SDKer og API-er som lar utviklere bygge "intelligente" applikasjoner uten å måtte lære maskinlæring. Ved å bruke Oxfords ansikts-, tale- og visjons-API-er kan utviklere lage applikasjoner som gjenkjenner ansiktsfunksjoner, analyserer bilder eller utfører tale-til-tekst- eller tekst-til-tale-oversettelser.

I et intervju med redaktør i Large Paul Krill snakket Microsofts Ryan Galgon, senior programleder med ansvar for Project Oxford-plattformen og teknologiene, om målene bak Oxford, og understreket potensialet i tingenes internett.

: Hvem bygger Oxford-applikasjoner? Hvem er Oxford for?

Galgon: Vi har fått mange mennesker til å registrere seg for API-tjenestene. De eksakte tallene [er ikke] noe jeg kan komme inn på, men vi har fått mange Azure-kontoer opprettet, mange påmeldinger via Microsoft Azure Marketplace. Folk sparker dekkene for tjenestene, i tillegg til å nå ut for å gjøre tjenestene høyere. Akkurat nå tilbys de alle som et begrenset gratis nivå på månedlig basis, og vi jobber for å åpne det, ettersom vi har fått tilbakemelding om hvilke endringer utviklere ønsker å gjøre i API-ene og modellene.

Alt på tvers av plattformer, i den forstand at det er et sett med webtjenester som primært er tilgjengelig via et REST API-grensesnitt. Alt som kan kontakte et nettsted kan ringe disse back-end-tjenestene. Vi tilbyr et sett med SDKer, som pakker inn disse REST-samtalene og gjør dem enklere å bruke på klienter som Android og Windows og iOS. Alt som kan foreta en HTTP-nettanrop kan ringe tjenestene.

: Ser du for deg at Oxford primært skal brukes på mobile enheter eller på Windows-stasjonære maskiner?

Galgon: Det vil først og fremst være en blanding av sannsynligvis mobile enheter og IoT-enheter. I den forstand at når folk bruker stasjonære maskiner, de aller fleste bruksområdene jeg ser, sitter du der, du har tastatur og mus og den typen inngang. Men når du har en mobiltelefon, tar du bilder og video og lyd. Det er så mye enklere og naturlig å fange det med en liten enhet. [Prosjekt Oxford-teknologi vil bli brukt] der den dominerende inndatasaken vil være en naturlig data, ikke bare tall, men en slags visuell eller lyddatatype.

: Fortell oss mer om disse API-ene. Hva er noen av tingene utviklere kan gjøre?

Galgon: Fordi vi ønsker å nå så mange utviklere som mulig, har vi virkelig lagt ned mye arbeid i å gjøre dem veldig enkle å bruke, [for] ting som ansiktsgjenkjenning eller datasyn, bildekategorisering. Disse tingene er opplært og modellert, bygget av mennesker med mange års dyp forskningserfaring på disse stedene, og vi vil ikke at utviklere må bli eksperter på datasyn. Vi har virkelig prøvd å si: "Se, vi skal bygge den beste modellen vi kan bygge og gjøre den tilgjengelig for deg og gjøre den tilgjengelig innen tre linjer med kode for deg."

Jeg kan ikke snakke om hvordan eksterne partnere ser på å bruke Oxford API-er, men de viktigste som Microsoft har jobbet med, som du kanskje har sett, den første var How-old.net-siden for å forutsi aldre og kjønn. Så hadde vi TwinsorNot.net, og det ble gitt to bilder, hvor like er disse menneskene? Dette var begge gode eksempler på Face API-ene. Den siste, som brukte Face API og noen Speech APIs, var et Windows 10 IoT-prosjekt som noen få blogginnlegg ble skrevet om hvor du var i stand til å låse opp en dør med ansiktet ditt og snakke med døren - eller låsen, i så fall. Jeg tror det er tre eksempler Microsoft har jobbet med for å vise deg her en type applikasjon som kan bygges og deles med andre.

: Hva får Oxford til å krysse av under disse REST API-ene?

Galgon: Kjernen er maskinlærte modeller som vi bygde for ting som tale til tekst. Enten du får tilgang til den via en REST API - eller med tale-til-tekst, kan du også få tilgang til den via en nettkontaktforbindelse - det magiske eller den kraftige tingen der er denne modellen som kan ta lyd av noen som snakker og et språk at det er i og oversett det til tekstformat. Det er det viktigste som får Oxford til å krysse av under ett.

: Hvorfor er Project Oxford skilt fra Azure Machine Learning-prosjektet?

Galgon: I Azure Machine Learning er en av hovedkomponentene Azure Machine Learning Studio, hvor folk kan komme inn med dataene sine, bygge et eksperiment, trene sin egen modell og deretter være vert for den modellen. Med Oxford er dette en forhåndsbygd modell som Microsoft har, en modell vi skal fortsette å forbedre i fremtiden, og vi lar folk bruke den modellen over disse REST-grensesnittene.

: Hvilken type forretningsbruk bruker du for Project Oxford? Hva er business case for Oxford-applikasjoner?

Galgon: Det er ingen spesifikke partnere jeg virkelig kan snakke om på dette tidspunktet, men jeg tror at en av sakene vi har sett mye interesse for, der jeg personlig ser mange brukssaker, er når det kommer til tingenes internett- tilkoblede enheter. Når jeg ser på hvordan folk ser på å bygge IoT-enheter, har du ikke et tastatur og en mus og ofte til og med en ekte skjerm assosiert med alle disse enhetene, men det er lett å stikke en mikrofon der, og det er ganske enkelt å stikke et kamera der også. Hvis du kombinerer noe som tale-API-ene og LUIS (Language Understanding Intelligent Service), så en enhet som bare har en mikrofon og ingen annen måte å legge inn, kan du nå snakke med den, fortelle det hva du vil gjøre, oversette det til et sett med strukturerte handlinger, og bruk det i bakenden. Det er der jeg tror vi kommer til å se mange brukssaker for Oxford APIer.

: Du nevnte iOS og Android. Hva har blitt tatt opp på disse plattformene?

Galgon: Ved å gjøre API-ene RESTful og tilby disse innpakningene til dem, har vi definitivt sett folk laste ned disse innpakningene og bruke dem. Men på slutten av dagen skjer det tilfeldigvis: "Her er et Java-språkomslag rundt en nettoppringer," "Her er en Objective-C-innpakning rundt et nettanrop." Vi har ikke mye innsikt i hva som er den nøyaktige enheten som ringer.

: Kommer Oxford til å være åpen kildekode?

Galgon: Vi planlegger ikke å åpne kildemodellene, og jeg har ikke noe å dele om det fordi vi fortsetter å oppdatere modellene over tid. SDK-ene som vi tilbyr, siden de er pakket rundt disse REST-samtalene, er kildekoden der og tilgjengelig for nedlasting for alle i dag fra nettstedet. Men igjen, det er en skjult innpakning i ting, og vi har faktisk sett folk i MSDN-fora som har levert kodebiter på forskjellige språk rundt det.

: Hvordan planlegger Microsoft å tjene penger på Oxford?

Galgon: APIene i Marketplace er gratis i dag for begrenset bruk, så du får 5000 API-transaksjoner i måneden. Det er den eneste planen vi har tilgjengelig nå. I fremtiden vil vi lansere betalte planer basert på bruk av API-ene.

: Hva er det neste for Oxford?

Galgon: Hvor vi går herfra er egentlig tre områder. Det første området handler om oppdatering og forbedring av eksisterende modeller. Vi fikk tilbakemeldinger fra utviklere [om hvordan] en av API-ene ikke fungerer bra med visse typer bilder. Vi forbedrer kjernemodellen der.

En av de andre tingene vi vil gjøre er at vi fortsetter å utvide antall funksjoner som returneres fra modellene. I dag gir Face API deg antatt alder og forventet kjønn. Vi har sett mange forespørsler om å kunne gjenkjenne annet innhold i bilder.

Det tredje området er at vi utvider porteføljen av API-er som vi har. Vi har fire i dag, men vi er definitivt ikke ferdige. Vi tror ikke hele plassen vi ønsker å tilby eller verktøyene vi ønsker å tilby er fullstendig ennå. Vi fortsetter å legge til nye API-er som kan håndtere forskjellige datatyper eller kan gi veldig forskjellige typer naturlig dataforståelse enn det vi gir i dag.

Du vil kanskje også like