Voice Interface Services

Voice Interfaces - „Alexa, was kannst du eigentlich?“

Wie funktioniert der Einsatz von Sprache als Schnittstelle zwischen Mensch und Maschine? Wir verraten Insights zur Programmierung und zur Usability von Voice Interface Services und ihrer Einbindung in Seamless Customer Journeys.

Als einer unsere Vorstände vor fast zwei Jahren das amerikanische ECHO nach einer USA-Reise mit ins Büro brachte waren die Reaktionen darauf sehr unterschiedlich. Einige Kollegen versuchten sich sofort in einfachen Dialogen und entlockten der Sprachsteuerungs-Dose emotionslos vorgelesene Witze. Andere machten sich aber auch ernsthafte Sorgen wie die Arbeit bei uns in der Agentur aussehen könnte, wenn sich nichtgrafische Interfaces durchsetzen würden. Wie formuliert man für Alexa den Call to Action und wie sieht UX-Design für Sprachsteuerung aus? Braucht man dann noch Grafiker, UXler, oder Frontend Designer? Heute sehen wir die Dinge wieder ganz anders.

Alexa ist im Kern nicht neu

Alle verwendeten Technologien hat es schon vorher gegeben. Aber Alexa auf der ECHO geht doch einen ganzen Schritt weiter. Es ist logisch und konsequent menschliche Sprache für die Schnittstelle zwischen Mensch und Maschine zu verwenden. Die Verwendung von kryptischen Befehlen, ist hoffentlich bald ein Relikt aus vergangenen Zeiten.

Zum 10. Geburtstag der Webinale haben unsere Kollegen Marcel Naujeck, Senior Software Engineer, und Marcus Person, Managing Director, in einer stark besuchten Session am 30. Mai 2017 über unsere Erfahrungen seit der Markteinführung von Alexa in Deutschland gesprochen. Kaum einer der aktuellen Alexa-Skills ist dafür geeignet, Geld in die Kassen von Händlern und Dienstleistern zu spülen. Einzig Amazon profitiert vom erfolgreichen Absatz von Amazon Echo und Echo Dot.

Ist Alexa wirklich eine Bereicherung und ein relevanter Touchpoint im Connected Commerce?

Um das zu beantworten, müssen wir nur zehn Jahre zurückschauen. Apples iPhone hat aus heutiger Sicht die digitale Welt revolutioniert. Bis wir aber zu so einer intuitiven Nutzung der neuen Möglichkeiten gekommen sind, haben wir unser Fähigkeiten mit Biertrink-App (iBeer) und Laserschwert-Simulationen geübt. Aus heutiger Sicht der totale Quatsch, konnte man damit 2007 eine ganze Partyküche prima unterhalten. Die Nutzung von Smartphones ist aus dem Connected Commerce nun nicht mehr wegzudenken und der verbreitete Ansatz in der Konzeption und Entwicklung ist „Mobile first“. Jeder der Alexa schon einmal benutzt hat kennt die Grenzen in der Bedienung.

Woher kommen Alexas Grenzen und was ist sie technisch gesehen eigentlich?

Alexa ist in erster Linie ein Service um den sich ein Ökosystem aus Hardware gebildet hat. Als "Voiceinterface as a Service" (Alexa Voice Service) kann man Alexa indessen auf jeder beliebigen Hardware ausrollen. Technologisch handelt es sich bei Alexa um einen Bot dem eine „Transcription Engine“ vorgeschaltet und ein „Text2Speech-System“ nachgeschaltet ist. Die Satzanalyse gestaltet sich jedoch wie bei einem normalen Chatbot über Kommunikationsmodelle, bei denen es um die reine Spracherkennung und nicht um das Verständnis geht. Deshalb müssen in solch einem Kommunikationsmodel nach wie vor sehr viele Variationen eines Satzes eingegeben werden.

Kann man Content für die Nutzung auf Alexa sinnvoll aufbereiten?

Alexa fokussiert einen wesentlichen Punkt: Den Nutzen. Ein Skill ohne Nutzen hat keine Chance länger im Gebrauch zu bleiben. Die entsprechende Funktionalität muss dementsprechend schnell und einfach sein, so dass der Nutzer einen sofortigen Mehrwert hat und nicht frustriert oder verärgert wird.
Die Umsetzung der Idee einer natürlichen Kommunikation mit einem Computer ist mit Alexa zwar ein Stück näher gerückt, aber Alexa hat dabei noch sehr viel zu lernen.  Auch wir müssen weiterhin viele Erfahrungen in der Sprachdialogentwicklung sammeln, um uns einer natürlichen Kommunikation zu nähern. Ob „One Shot Model“ oder „Dialog Model“ entscheidet sich je nach Komplexität der Abfragen. Soll der Nutzer geführt werden oder führt der Nutzer?

Welche Fragen sollten man sich vorab stellen?

Aktuell setzen wir erste größere Skills für unsere Kunden um. Dabei konzentrieren wir uns vollkommen auf genau diesen Nutzen und stellen uns die entscheidenden Fragen:

  1. Welches Kommunikationsmodel ist das passende?
  2. Wie komplex ist der Content der zur Verfügung gestellt werden soll?
  3. Wie präsentiere ich Daten in einer Form die für den Nutzer sinnvoll sind?
  4. Wie kann ich den Nutzer führen um ihn vor "Ich habe dich nicht verstanden." zu schützen?“

Weitere Leseempfehlungen zum Thema: