Rocket Labs

Intelligente Sprachassistenten: Die erste Anwendung der Pop Rocket Studios

Intelligente Sprachassistenten gehören zu den wichtigsten Trends des Jahres. Mit ausgesprochenen Worten Geräte steuern, Befehle ausführen oder gar ein Taxi rufen – es gibt viele sinnvolle Einsatzgebiete und Chancen für Unternehmen. Eine Marktübersicht und ein Einblick in die Entwicklung unserer ersten Anwendung für Amazon Alexa.

Sprachassistenten von Apple, Amazon, Google und Microsoft

Mobile Assistenten haben wir den aktuellen Smartphones und Tablets zu verdanken. Mit der Einführung des iPhone 4s Ende 2011 startete Apple die Sprachsteuerung Siri, die zu Beginn keine allzu große Bereicherung darstellte, allerdings enorm schnell „lernte“. Die Spracherkennung und Auswertung der Eingaben erfolgt auf Apples Servern, die Delegierung von Eingaben und Ausgaben verbesserte sich kontinuierlich.

Apple legte vor. (Foto: Apple)

Apple legte vor. (Foto: Apple)

Im Jahr 2017 buhlen diverse Anbieter um die Gunst der Konsumenten. Apples Siri steuert mittlerweile das Smart Home dank Homekit oder das Entertainment-Programm durch Apple TV. Und es wird mehr und mehr zu einer Selbstverständlichkeit für viele Nutzer. In ähnliche Richtungen blicken die Mitbewerber. Amazon baut emsig Alexa aus, das nicht nur in den eigenen Lautsprechern Echo und Echo Dot Verwendung finden soll, sondern genauso in Kühlschränken von LG, Waschmaschinen von Whirpool, Staubsaugerrobotern von Samsung oder gar Autos von Ford. Google integriert seinen Google Assistant, Nachfolger von Google Now, vorrangig in Geräten mit dem Betriebssystem Android, dem Google Home-Lautsprecher oder im Messenger Google Allo. Microsofts Cortana wiederum ist hauptsächlich ein Bestandteil von Windows 10.

Jedes Unternehmen, das solche Sprachassistenten entwickelt und am Markt etablieren möchte, verfolgt eigene Ziele. Amazon hat ganz klar das Smart Home der (nahen) Zukunft im Visier, Google sowie Apple möchten ihre Lösungen in eigene Produkte integrieren und schielen in neue Segmente wie die Automobilbranche. Und Microsoft? Da ist sich der Konzern wohl noch nicht ganz so sicher.

Auch Google hat einen eigenen Assistenten - Google Home. (Foto: Google)

Auch Google hat einen eigenen Assistenten – Google Home. (Foto: Google)

Intelligente Sprachassistenten und ihre Schnittstellen

Wer mit dem Gedanken spielt, frühzeitig Angebote für Sprachassistenten zu entwerfen, beispielsweise für Produkte, Dienstleistungen oder gar für Marketing-Maßnahmen, erhält von den Anbietern geeignete Schnittstellen. Apples Siri wird über das SiriKit angesteuert, um es Entwicklern zu vereinfachen, iOS-Apps mit Sprach-Features zu versehen.

Für Google Assistant bzw. Google Home können sogenannte Actions programmiert werden. Die Direct Actions sind einfache Spracheingaben mit auszuführenden Aktionen. Spannender sind dagegen die Conversation Actions, die „echte“ Unterhaltungen zwischen Mensch und Maschine versprechen, welcher deutlich komplexer ausfallen. Ein entsprechendes Actions SDK mit Zugriff auf optionale Tools (API.AI, Node.js, Web-Simulator etc.) stellt der Software-Riese zur Verfügung.

Passende Schnittstellen bietet jedes Unternehmen. (Foto: Google)

Passende Schnittstellen bietet jedes Unternehmen. (Foto: Google)

Microsoft bietet mit dem Skills Kit eine Möglichkeit an, Cortana um neue Funktionen zu ergänzen. Die Integration von Bots und Diensten soll durch Tools und ausführliche Dokumente mit relativ geringem Aufwand verbunden sein. Vor allem dann, wenn man bereits Skills für Amazon Alexa entworfen hat. Die vorhandene Codebasis kann zum Teil übernommen werden. Das sollte tatsächlich ein Vorteil für Cortana sein, denn gegenwärtig dürfte Alexa gegenüber Microsofts System die größere Verbreitung besitzen. Der Grund ist ein einfacher: Amazon Echo und Echo Dot sind in den USA seit längerer Zeit erhältlich und mittlerweile auch in Deutschland verfügbar. Relativ preisgünstige Lautsprecher bringen nicht nur einen praktischen Mehrwert für Käufer, sondern auch den cleveren Sprachassistenten in die heimischen vier Wände. Und über das Alexa Skills Kit bekommen Entwickler eine Sammlung an APIs, Tools und Dokus sowie Beispiele, um dem Assistenten neue Talente zu spendieren oder mit Smart-Home-Geräten zu verbinden.

Knut’s Seemannsgarn für Amazon Alexa

Knut’s Seemannsgarn war nicht nur unser großes Chatbot-Experiment, die Anwendung für den Facebook Messenger erhielt zusätzlich eine Anbindung an Alexa in Form eines Skills. Die Geschichte des Tages und zufällige Storys, die Nutzer gemeinsam geschrieben haben, liest Alexa auf Wunsch vor.

Bei unserem ersten Alexa Skill lernten wir nicht nur das von Amazon zur Verfügung gestellte Skills Kit kennen, wir erfuhren auch sehr viel über die komplexen Hintergründe, die die Sprachwelt mit sich bringt. Auch das Umdenken war in vielerlei Hinsicht nötig, denn hier geht’s nun einmal nicht um das Erstellen einer App oder Webseite.

Unser Skill bei Amazon. (Foto: Screenshot)

Unser Skill bei Amazon. (Foto: Screenshot)

Vergleichbar mit den Direct Actions und Conversation Actions von Google Assistant wird auch bei Alexa zwischen One-Shot-Models und Dialog-Models unterschieden. Bei erstgenanntem Modell aktiviert man eine Funktion nach der Spracheingabe, bei der zweitgenannten Variante wird erst der Skill gestartet, um danach Befehle bzw. Funktionen ausführen zu können. Amazon stellt im Alexa Skills Kit zwei Frameworks bereit: Eines baut auf Java auf und eines basiert auf Node.js. Das Letztgenannte nutzten wir für unseren Skill Knut’s Seemannsgarn.

Mit „Alexa, Öffne Knuts Seemannsgarn“ ist auch bei unserem Skill eine Konversation möglich, ohne dass stets das Befehlswort „Alexa“ verwendet werden muss, wenn ihr euch Geschichten vorlesen lassen wollt. Auch eine Begrüßung, Verabschiedung und das Nennen der Autoren der Stories fügten wir ein. Und doch stießen wir an die Grenzen von Alexa, die akzeptiert bzw. gewissermaßen umschifft werden mussten. Die Aussprache und Betonung von Alexa ist gerade bei längeren Texten für manche Hörer nicht natürlich genug, was sich bei kontinuierlicher Weiterentwicklung durch Amazon in den kommenden Monaten gewiss ändern wird. In einer frühen Version des Skills stellten wir fest, dass auch Satzzeichen als solche ausgesprochen wurden. Diese Tatsache führte prompt zu zwei negativen Rezensionen des Skills. Sie waren gerechtfertigt, wir besserten direkt nach.

Unser Skill ist eine praktische Erweiterung zu unserem Chatbot, da er Nutzern ergänzende Funktionen serviert und zweifelsohne auch in der Lage ist, zu unterhalten. Sprachassistenten können Mehrwerte schaffen und auf neue Art und Weise Menschen erreichen. Ob’s nur eine „kleinere Spielerei“, eine Anbindung an bestehende Produkte oder eine aufwändiges Dialogsystem sein soll, ist abhängig vom eigenen Anspruch und sicherlich auch, was man Usern anbieten möchte bzw. kann.