Auswahl eines Sprachsteuerungsgeräts

Das System bestimmt, welches sprachgesteuerte Gerät dem Anwender antworten soll (decentralized system). Die Auswahl erfolgt aufgrund des Abstands des Anwenders zum jeweiligen Gerät.

Auswahl eines Sprachsteuerungsgeräts Auswahl eines Sprachsteuerungsgeräts

Technischer Lösungsvorschlag A2017-009
Unternehmenseinheit: Diehl AKO Stiftung & Co. KG

Beschreibung:

Sprachsteuerung der Geräteauswahl über die Reichweite

Das System bestimmt, welches sprachgesteuerte Gerät auf einen Benutzer reagieren soll. Dies wird durch die Nähe des Benutzers zum Gerät bestimmt. Das System ist dezentralisiert, wobei jedes Gerät seine Daten mit allen anderen Geräten teilt und die Daten aller anderen Geräte vergleicht.

Ein Benutzer gibt einen Sprachbefehl in Reichweite mehrerer Sprachsteuerungsgeräte. Alle Geräte in Reichweite werden darauf reagieren, was die Interaktion des Nutzers mit einem einzelnen Gerät stören kann. Außerdem wird dadurch Bandbreite (Senden des Sprachbefehls), Rechenzeit (Verarbeitung des Sprachbefehls) und Energie verschwendet. Für eine Einzelperson ist dies ein vernachlässigbarer Verlust. Für ein Unternehmen, das die Befehle von Millionen von Nutzern verarbeitet, kann diese Verschwendung jedoch erheblich werden. Dieses Problem wird mit der zunehmenden Verbreitung von Sprachsteuerungssystemen zunehmen.

Die sprachgesteuerte Technologie ist relativ neu. Die nachstehenden Patente beschreiben ein ähnliches System, allerdings handelt es sich dabei um ein zentralisiertes System. In diesem System zeichnen alle Geräte den Audiobefehl des Benutzers auf und laden die Daten mit einer Verarbeitungsanforderung zu einem zentralen Server hoch. Jede Anfrage erzeugt eine Sitzung auf dem Server, um die Daten zu verarbeiten, den gewünschten Befehl zu bestimmen und eine Antwort abzuleiten. Stellt das System fest, dass mehrere Sitzungen die gleiche Benutzeranfrage haben, wird eine der Sitzungen für die Antwort ausgewählt. Alle anderen Sitzungen werden dagegen abgebrochen.

Ein Benutzer sagt einen Befehl, der von mehreren Geräten aufgefangen wird. Dies bewirkt, dass die Geräte in den Wachzustand versetzt werden. Jedes Gerät, das sich im Wachzustand befindet, nimmt den Ton des Benutzers auf, der den Befehl spricht. Dann berechnet das Gerät seine Reichweite zum Benutzer, indem es den aufgenommenen Ton analysiert. Die Geräte teilen dann ihre Reichweite mit allen anderen Geräten, die sich im Wake-Status befinden. Die Geräte vergleichen ihre Reichweite mit den Reichweiten der anderen Geräte. Wenn ein Gerät nicht die nächstgelegene Reichweite hat, kehrt es in den Ruhezustand zurück. Das Gerät mit der nächstgelegenen Reichweite setzt die Interaktion mit dem Benutzer fort, indem es eine Anfrage zur Verarbeitung der Audiodaten des Benutzers sendet. Dies bedeutet auch, dass eine fortgesetzte Sitzung oder Unterhaltung mit einem Gerät keine anderen Geräte in Reichweite einbezieht. Bis die Sitzung mit dem interagierenden Gerät beendet ist.

Das vorgeschlagene System ist dezentralisiert. Das bedeutet, dass die Verarbeitung schneller und ohne Abfall für das Unternehmen oder den Nutzer erfolgt.

Für das zentralisierte System, das im zweiten Teil beschrieben wird. Jedes zusätzliche Gerät, das sich in Reichweite des Benutzers befindet, verursacht Verschwendung und Verluste. Wenn sich zum Beispiel zwei Geräte in Reichweite einer Sprachanfrage des Benutzers befinden. Zwei Anfragen (und Datenpakete) werden an den zentralen Server gesendet - eine Anfrage ist Abfall. Beide erstellen Sitzungen und werden verarbeitet, bis festgestellt wird, dass eine davon überflüssig ist. Eine Sitzung verschwendet Computerressourcen und Strom. Der Algorithmus, der in allen Sitzungen läuft, um festzustellen, ob eine Redundanz vorliegt, verschwendet ebenfalls Ressourcen und Energie. Diese Verschwendung wird mit jedem zusätzlichen Gerät in Reichweite des Benutzers multipliziert. Wenn die Anfrage mehrere Hin- und Her-Interaktionen erfordert, wird diese Verschwendung mit jeder Interaktion vervielfacht.

Im dezentralen System gibt es diese Verschwendung nicht.

Problem: Wenn es mehrere sprachgesteuerte Geräte in einem Bereich gibt, welches Gerät antwortet, wenn der Benutzer mit dem Gerät interagiert.

  • Aktuelle sprachgesteuerte Geräte starten eine Interaktion mit dem Benutzer durch die Verwendung eines Weckwortes. Für den Amazon Echo und Amazons Sprachassistentin Alexa lautet das Weckwort "Alexa".
  • Wenn sich mehr als ein Alexa-fähiges Gerät in Hörweite eines Benutzers befindet. Wenn Sie dann das Weckwort "Alexa" sagen, wachen alle Geräte auf, reagieren auf den Benutzer und beginnen mit der Aufnahme.
  • Nicht alle Geräte reagieren auf die gleiche Weise und zur gleichen Zeit. Einige schalten ein Licht ein, andere läuten, und wieder andere geben eine Sprachantwort, bevor sie dem Benutzer zuhören.
  • Im besten Fall haben Sie zwei Geräte, die antworten und die gleichen Informationen liefern. Dies ist für den Benutzer nur lästig. Aber der Dienstanbieter zahlt für die Verarbeitung der von beiden Geräten gesendeten Daten.
  • Wahrscheinlicher ist jedoch, dass die Reaktion des einen Geräts von dem/den anderen aufgezeichnet wird und die Interaktion des Benutzers stört. Außerdem erhöhen sich die Kosten für die Verarbeitung der Interaktion des Nutzers.
  • Dies wird mit der zunehmenden Verwendung solcher Geräte zu einem größeren Problem werden.

Lösung: Entfernung des Benutzers, Weitergabe der Entfernungsdaten an die anderen Geräte und nur das nächstgelegene Gerät antwortet (siehe Zeichnung).

  • Wenn der Benutzer das Weckwort sagt, erfassen alle Geräte, die das Weckwort gehört haben, die Reichweite des Benutzers. Bevor sie dem Benutzer antworten, teilen die Geräte ihre Reichweite zum Benutzer mit den anderen Geräten. Jedes Gerät vergleicht seine Reichweite mit den Reichweiten aller anderen Geräte. Nur das Gerät mit der geringsten Reichweite wird dem Benutzer für die Dauer der Interaktion antworten.
  • Der Standardzustand der Geräte ist der "Leerlaufzustand". In dem sie auf das Weckwort warten.
  • Sobald das Gerät das Weckwort hört, geht es in den "Weckzustand" über. In diesem Zustand berechnet jedes Gerät die Reichweite des Benutzers und teilt sie mit den anderen Geräten.
  • Die Erkennung des Benutzers kann durch die Analyse der Lautstärke des Weckrufs durch jedes Gerät und die Bestimmung des dB-Pegels erfolgen.
  • Eine andere Möglichkeit ist die Aufzeichnung des Zeitpunkts, zu dem das Weckwort erkannt wurde (schwieriger).
  • Dann teilen die Geräte ihre Reichweiteninformationen mit allen anderen Geräten, die sich im "Wachzustand" befinden.
  • Dies kann über WIFI oder über die später beschriebene "Hochfrequenz-Audiokommunikation" erfolgen. Wenn dies über WIFI geschieht, müssen sich die Geräte alle im selben Netzwerk befinden, und sie teilen ihre Entfernungsdaten mit allen Geräten im Netzwerk.
  • Die Geräte vergleichen ihre Entfernungsdaten mit den Daten der anderen Geräte. Wenn ihre Daten nicht die nächstliegenden sind (d. h. den höchsten dB-Pegel oder den niedrigsten Zeitstempel aufweisen), kehrt das Gerät in den Ruhezustand zurück.
  • Das Gerät, das sich am nächsten zum Benutzer befindet, wechselt in den "Interaktionszustand". Dies ist der endgültige Zustand, in dem das Gerät mit dem Benutzer interagiert.

 

Auswahl eines Sprachsteuerungsgeräts Auswahl eines Sprachsteuerungsgeräts
Auswahl eines Sprachsteuerungsgeräts Auswahl eines Sprachsteuerungsgeräts
Auswahl eines Sprachsteuerungsgeräts Auswahl eines Sprachsteuerungsgeräts