Car-tech

Systemen voor spraakherkenning moeten slimmer worden, zegt professor

Waarom krijg je stress van thuiszitten? | Erik Scherder

Waarom krijg je stress van thuiszitten? | Erik Scherder
Anonim

Degenen die het praten met de telefoon aan geautomatiseerde spraakherkenningsystemen kan troost schenken aan het feit dat wetenschappers werken om dergelijke systemen levensechter en minder irritant te maken.

"Door consumentenervaring vinden mensen deze systemen erg frustrerend," zei James Allen, de voorzitter van de computerwetenschappen aan de universiteit van Rochester, sprak voor de SpeechTEK-conferentie van 2010, die deze week in New York wordt gehouden. <> De meeste geautomatiseerde spraakherkenningssystemen kunnen begrijpen wat een mens tot 98 procent van de tijd zegt, en toch schrikken mensen nog steeds over het gebruik van geautomatiseerde telefonische helpdesksystemen. De sleutel om deze systemen minder frustrerend te maken zou zijn door hen een dieper inzicht in taal te geven en ze interactiever te maken, aldus Allen.

[Nadere lezing: uw nieuwe pc heeft deze 15 gratis, uitstekende programma's nodig]

Inmiddels bieden de afdelingen klantenservice van de meeste grote organisaties geautomatiseerde telefonische hulpsystemen. Een gebruiker belt het helpnummer en een kunstmatige stem vraagt ​​de beller een reeks vragen. De meeste van deze systemen zijn gebaseerd op raamwerken die in feite grote beslissingsbomen zijn. Met dergelijke systemen, "je komt er niet achter wat de persoon wil, je volgt een script", zei hij.

De systemen zijn eigenlijk een samenstelling van een aantal verschillende technologieën. Een daarvan is spraakherkenning, of de mogelijkheid voor een computer om te begrijpen, of met succes te vertalen in tekst, wat de spreker zegt.

De andere technologie, natuurlijke taalverwerking (NLP), probeert de boodschap van de spreker in een commando om te zetten die de computer kan uitvoeren, of die kunnen worden samengevat voor een menselijke operator.

Er zijn de afgelopen decennia grote vorderingen gemaakt bij zowel stemherkenning als NLP, maar deze hebben blijkbaar vooral frustratie bij hun gebruikers veroorzaakt. "Ik bel alleen de bank als ik een probleem heb en vecht tegen deze systemen. [Ik vraag] wat ik kan beantwoorden om zo snel mogelijk een persoon te bereiken," zei Allen.

Allen's academische onderzoekswerk is bij het vinden van manieren waarop 'we met een machine kunnen praten op dezelfde manier waarop we met een persoon kunnen praten', zei hij.

Gesprekken tussen twee mensen kunnen precies zijn op manieren waarop computers problemen ondervinden bij het matchen. Allen wees op wat vroege werk dat hij deed als een afgestudeerde student, waarin hij gesprekken opgenomen op een informatiebalie van het treinstation. In één interactie loopt een passagier naar het hokje en zegt "8:50 tot Windsor", en de begeleider antwoordt: "Poort 10, 20 minuten te laat". Terwijl de begeleider precies wist welke informatie de ondervraagde persoon zocht, ontdekten geautomatiseerde systemen de eerste verklaring van de passagier.

Zoals Allen het ziet, ontbreken er twee elementen in de moderne systemen: het vermogen om te analyseren wat de spreker zegt en de mogelijkheid om met de spreker te praten om meer te weten te komen over wat de spreker van plan is te zeggen.

"Veel van de standaard NLP is meestal oppervlakkig, we hebben geen technologie die u een betekenis geeft van de zinnen," hij zei. Statistische verwerkingshulpmiddelen en woorddefinitiediensten zoals WordNet kunnen helpen bij het definiëren van een woord, maar ook bij de relaties van een woord, zodat een systeem weet dat bijvoorbeeld een "dochteronderneming" deel uitmaakt van een "bedrijf".

Meer tweerichtingscommunicatie tussen de gebruikers en de computers is ook nodig. Wanneer we het hebben over hun behoeften, kunnen mensen informatie in willekeurige volgorde verstrekken. Het is aan de computer om deze informatie samen te voegen en de gebruiker niet te belasten met vragen waarvan de antwoorden al zijn verstrekt.

"Dit is de toekomst, dit is echt wat u wilt dat systemen doen, en kunnen we een dialoog opbouwen systemen die dit scala aan complexiteit kunnen ondersteunen, "zei hij.

Om dit idee te illustreren, hebben Allen en een team van onderzoekers een programma ontworpen met de naam Cardiac dat de vragen kan nabootsen die een verpleegster zou vragen aan een patiënt met een hartaandoening. Het programma is gemaakt met financiering van de Amerikaanse National Institutes of Health. Met dit systeem zou een gebruiker, zodra een gebruiker informatie levert, er niet nog een keer om vragen, zei Allen. Het systeem zou redeneren over welk materiaal al was geleverd en wat er nog steeds nodig was.

Een ander programma ontworpen door Allen en zijn team, genaamd Plough, kan leren hoe algemene taken op een computer uit te voeren. "Dit is een systeem waarmee je in essentie een dialoog kunt gebruiken om je systeem te leren hoe je dingen voor je kunt doen", bijvoorbeeld. Allen demonstreerden het programma om met een browser restaurants in de buurt te vinden. De gebruiker opent een browser, navigeert naar een restaurantlocatorlocatie, typt het gezochte type restaurant en de locatie in en knipt en plak de resultaten in een lege pagina. De gebruiker beschreef elke stap zoals deze werd uitgevoerd.

Tijdens het proces zou Ploeg elke stap registreren en hoorbaar reageren wanneer de stap wordt begrepen. Later, wanneer de gebruiker een ander restaurant zou willen opzoeken, zou het programma alle bewegingen doorlopen en automatisch een andere lijst met restaurants produceren. Het Amerikaanse Defense Advanced Research Projects Agency heeft de ontwikkeling van dit programma gefinancierd.

Meer gegevens zijn de sleutel voor meer menselijke taalverwerkingssystemen, stemde Microsoft-hoofdwetenschapper voor toespraak Larry Heck in tijdens een andere lezing op de conferentie. "Als u niet over de gegevens beschikt, maakt het niet uit hoe geavanceerd uw algoritmen zijn," zei hij.

Een plaats om meer gegevens te vinden zou zijn in zoekopdrachten van zoekmachines, stelde hij voor. Zoekmachine-services krijgen enorme aantallen zoekopdrachten, die allemaal gekoppeld worden aan antwoorden. "Ik zie zoeken als een nauwe verwant van taalverwerkingstechnologie", zei Heck.

Tegenwoordig worden mensen getraind om hun vragen te structureren als een reeks zoekwoorden. Als gebruikers in plaats daarvan volledige zinnen zouden typen en beschrijven wat ze nodig hebben, zou de resulterende dataset een lange weg kunnen banen om systemen te helpen beter te begrijpen waar mensen naar zoeken.

Heck voorspelde dat als meer mensen spraakgestuurde zoekservices gebruiken van Microsoft en Google zullen ze meer gewend raken aan het structureren van hun vragen als volledige zinnen, wat in de loop van de tijd kan helpen NLP-systemen beter te anticiperen op gebruikersbehoeften.

Joab Jackson dekt bedrijfssoftware en algemeen nieuws voor

Het IDG-nieuws dienst

. Volg Joab op Twitter op @Joab_Jackson. Het e-mailadres van Joab is [email protected]