Details zur Funktionsweise
Hey Siri: iPhone stellenweise besonders aufmerksam
In dem seit Sommer erreichbaren Forschungs-Blog Apples, dem sogenannten Machine Learning Journal, hat Cupertino jetzt erste Hintergrundinformationen zur Funktionsweise der von iPhone, iPad und Apple Watch genutzten Erkennung der Siri-Aktivierungsphrase „Hey Siri“ gegeben.
Unter der Überschrift „Hey Siri: Voice Trigger for Apple’s Personal Assistant“ geht Apple auf die Energiespar-Mechanismen der Spracherkennung ein, erklärt wie das Unternehmen versucht versehentlichen Aktivierungen entgegenzuwirken und beschreibt, wie die stets aktive Worterkennung unter der Haube arbeitet.
So analysieren Apple Watch und iPhone die Umgebungsgeräusche im Raum 16.000 mal pro Sekunde und prüfen dabei kontinuierlich, ob der Nutzer vielleicht gerade ein “Hey Siri” von sich gegeben hat.
iPhone stellenweise besonders aufmerksam
Die Spracherkennung arbeitet dabei nicht linear, sondern spitz ihre Ohren und lauscht stellenweise besonders angestrengt. So bewertet das iPhone die gerade gehörten Geräusche mit einer Gewichtung, die angibt wie hoch die Wahrscheinlichkeit ist, dass der Nutzer gerade “Hey Siri” gesagt hat.
Eine Gewichtung, die ihr euch wie eine kontinuierliche Punktevergabe vorstellen könnt. Ein Beispiel: 16.000 mal pro Sekunde bewertet das iPhone, ob die gerade gehörten Geräusche ein “Hey Siri” beinhalten könnten und vergibt Punkte von 0-100. Werden mehr als 70 Punkte vergeben wird Siri aktiviert. Werden weniger als 70 Punkte vergeben, bleibt Siri stumm.
Doch Apple hat hier eine Besonderheit implementiert. Wurden weniger als 70 aber mehr als 50 Punkte vergeben, spitzt das iPhone kurz die Ohren. Werden jetzt noch mal mehr als 50 Punkte vergeben wird Siri auch dann aktiviert, wenn die 70 Punkte wieder nicht erreicht wurden.
Apples Ingenieure gehen jetzt einfach davon aus, dass der Nutzer Siri aktivieren wollte, beim ersten Mal nicht die nötigen Punkte bekommen hat und die Aktivierung noch mal versucht hat. Um nun schnell reagieren zu können wird die Messlatte reduziert:
We compare the score with a threshold to decide whether to activate Siri. In fact the threshold is not a fixed value. We built in some flexibility to make it easier to activate Siri in difficult conditions while not significantly increasing the number of false activations. There is a primary, or normal threshold, and a lower threshold that does not normally trigger Siri. If the score exceeds the lower threshold but not the upper threshold, then it may be that we missed a genuine “Hey Siri” event.
When the score is in this range, the system enters a more sensitive state for a few seconds, so that if the user repeats the phrase, even without making more effort, then Siri triggers. This second-chance mechanism improves the usability of the system significantly, without increasing the false alarm rate too much because it is only in this extra-sensitive state for a short time. (We discuss testing and tuning for accuracy later.)
Das komplette Paper könnt ihr hier einsehen.
Und trotzdem geht Siri bei mir ständig an, wenn ich Netflix über das iPhone schaue …
Oh, das kenne ich vom Podcast-Hören. Weder wurde Siri erwähnt, noch isses meine Stimme, aber Siri ist da, um Aufträge entgegenzunehmen. :-/
Mich wundert, dass die ausgegeben Töne nicht gefiltert werden..
Ja wäre ja sinnvoll die Ausgabe mit der Eingabe zu vergleichen um genau dieser scenario zu verhindern.
Das wäre sinnvoll. Jedoch ist die Frage ob und wieviel Akku das verbraten würde
Das macht grundsätzlich Sinn. Jetzt kommt das KOMMA ABER: Energiesparen wenn das iDevice am Strom hängt scheint mir (als Laie) nicht nützlich zu sein. Hier sollte ich beim ersten Mal eine Reaktion bekommen. Ohne am Strom zu hängen drücke ich eh den Homebutton um Siri zu starten.
Berichtigt mich wenn ich da etwas nicht bedenke.
Nichts hiervon dient dem Sparen von Energie. Es geht einfach darum, dass für Hey Siri, wenn das iPhone glaubt, sich aber nicht sicher ist, dass es gerade aufgerufen wurde, für kurze Zeit den Threshold senkt, ab dem Siri aktiviert wird.
Da berichtige ich dich gerne:
Ab dem iPhone 6S geht das auch auf Zuruf, ohne dass das Gerät am Strom hängen muss. Da macht Energiesparen schon Sinn.
Nebenbei finde ich 16.000 mal pro Sekunde ganz schön viel, ist das tatsächlich so?
Und hat schonmal jemand im Alltag bezüglich Akkuverbrauch getestet, wieviel die Deaktivierung von „Hey Siri“ bringt?
Unwesentlich!
Danke!
Am Stromkabel hast Du Recht. Da könnte man evtl. zu Gunsten der Erkennung die „Arbeit“ erhöhen. Muss natürlich abgewogen werden mit dem tatsächlichen Stromverbrauch. Immerhin will man das Gerät ja meist auch wirklich laden wenn es am Kabel hängt und nicht nur die „Hey Siri“ Erkennung verbessern ;)
Aber nicht damit dass man ohne Stromkabel den Button drückt. Mache ich zum Beispiel fast nie.
Dass man Siri auch ohne Button oder Strom aktivieren kann war für mich ein großer Segen.
Bei neueren Geräten (ich glaube ab 6s) funktioniert „Hey Siri“ auch ohne dass das iPhone am Strom hängt. Von daher macht das durchaus Sinn.
Insgesamt funktioniert das ganze aber eher schlecht wie ich finde. Manchmal, wenn ich ganz explizit „hey Siri“ sage, tut sich gar nichts und manchmal springt sie an, obwohl niemand nur etwas ähnliches gesagt hat. Allzu großer Verlass ist also (zumindest bei mir) nicht darauf.
Es kommt halt darauf an wie man es sagt. Man „trainiert“ das hey Siri ja. Man muss es halt relativ ähnlich dazu auch wieder aussprechen.
Krass. Tatsache. Beim ersten Mal versteht mich Siri nicht, aber wenn ich es mit der selben Lautstärke und Tonart wiederhole spring Siri an. Verrückt.
Das ist alles sehr spannend, was Apple da alles beschreibt im Artikel. Nur würde ich Siri endlich zweisprachig ansprechen wollen. Klar, am Steuer ist es sicherlich bequemer, einfach „Hey Siri“ zu sagen, ist für mich aber nicht tragisch den Button drücken zu müssen. In der Familie reden wir zweisprachig, ich selber sogar dreisprachig. Damit erledigt sich für mich die Nutzung von Siri fast komplett. Denn so reibungslos und intuitiv un überhaupt, funktioniert weder Terminerstellung, noch sonst was. Von musikabspielen ganz zu schweigen. 90% der Künstler- oder Bandnamen werden nicht erkannt. Ich glaube auch nicht, das in naher Zukunft Besserung ins Haus steht. Apple ist schwer damit beschäftigt bekloppte Emoji in das Teuerste Smartphone aller Zeiten einzupflanzen. Da bleibt für nichts mehr Zeit.
Ist ja nicht so, dass bei Apple mehrere Teams arbeiten…
Was hätten die Emoji-Designer im Siri-Team zu suchen?
Schön und gut, aber schauen wir mal über den Tellerrand und begutachten die Erkennungsperformance von Alexa. Schauen wir, wie weit man von diesem Gerät entfernt stehen kann, und es funktioniert auf Anhieb. Dass Alexa solche ähnlichen Algos hat falls beim ersten Versuch die Erkennung nicht geklappt hat, liegt ja wohl klar auf der Hand.
Dem gegenüber: Das iPhone liegt neben mir auf dem Tisch, Hey Siri funktioniert nicht. Aber nicht beim zweiten mal. Ein Scheissdreck ist das.
Es gibt zwar schon einen Unterschied zwischen den 7 Mikrofonen eines Echo-Geräts und dem Mikro am iPhone, aber prinzipiell stimme ich mit deiner Aussage völlig überein.
Siri ist ein lächerlicher Witz gegenüber Alexa, sowohl was die Qualität des „Verstehens“ als auch des darauf „reagierens“ angeht. Den Google-Assistant konnte ich leider noch nicht in freier Wildbahn testen, würde mich aber auch mal interessieren.
Wenn Apple da nicht zum Erscheinen des Homepod eine kräftige Schippe drauflegt, ist das Ding unter dem Gesichtspunkt der verbalen Interaktion eine Totgeburt…
Min gewissen Bereichen ist Siri vorne, in anderen (dank Skills) Alexa. Was die Entfernung angeht, müsstest du eher Echo und HomePod vergleichen.
Bei Filmen wo: „Hey“ drin vorkommt, meldet Siri sich schon…
Bei mir ist Siri ganz besonders sensibel im Auto unter der Verwendung von CarPlay und fragt ständig nach…
Mein Siri aktiviert sich seit dem Update auch ständig automatisch durch Videos im Vordergrund
Ich hab keine Ahnung was ich falsch mache, aber Siri hört so gut wie nie auf mich. Allerdings schaue ich mir gern Videos von Phlearn an und Aaron Nace triggert dabei mein Siri fast jedes Mal
Versuch, Siri einfach noch mal neu auf deine Stimme zu trainieren.
Ich kann es nicht nachvollziehen das bei euch Siri so schlecht funktioniert ??? Ich habe Siri (iPhone 7), Alexa und Google Assistent (S6) und nächste Woche kommt mein Google home mini….
Klar ist im freien Raum Alexa 1000x besser als Siri, aber wenn das iPhone auf dem Schreibtisch vor mir liegt oder im Auto in der Dock, kein Carplay ! reagiert Sie zu 99% immer auf „Hey Siri“ und führt meine Befehle aus, egal ob ich eine Termin, Timer oder Smarthome Sachen steuere…..
Diktieren mit dem iPhone ist super geworden ! Aber komischerweise klappt das von 5 Freunden nur bei 1 einem so gut wie bei mir, ka woran das liegt…. Hatte aber von Anfang (iPhone 4) an nie die großen Problem / Fehler mit Siri….
„Ein Beispiel: 16.000 mal pro Sekunde bewertet das iPhone, ob die gerade gehörten Geräusche ein “Hey Siri” beinhalten könnten und vergibt Punkte von 0-100.“
Die Sample Rate ist 16000, nicht die Rate der Bewertung. Die ist entweder 100Hz (sliding window durch die 0.01s frames) oder 5Hz (bereits bewertete Frames werden verworfen), das geht aus dem Text nicht so genau hervor.
Hey Siri am iPhone oder das Siri Befehle versteht, funktioniert eher schlecht (iPhone 6) Diktieren funktioniert dagegen richtig gut (iPhone 6). Siri auf der Apple Watch (1. Generation)? Ein Traum! Ich flüstere und rede flüssig Siri versteht alles.