In Deutschland haben wir uns zu sehr an nervige Roboterstimmen in Hotlines gewöhnt. Die meisten Anrufe verbringen wir damit, uns mit einzelnen Ziffern durch eintönige Menüs zu navigieren - in der ständigen Hoffnung diese unnötige Hürde endlich zu überwinden. Diese hat wenig Nutzen für beide Seiten. Anrufende sind bereits durch die Wartezeiten genervt, während das Unternehmen wertvolle Zeit in Standardanfragen investiert - aber nicht mit VITAS!
Unser Sprachassistent besitzt drei Hauptmerkmale, die Speech Recognition, das Speech Understanding und die Speech Synthesis. Alle drei Funktionen sind essentiell für unseren VITAS Sprachassistenten und funktionieren mithilfe von Künstlicher Intelligenz:
Die Speech Recognition können Sie sich wie ein Ohr des Sprachassistenten vorstellen. Hier arbeitet hauptsächlich die ASR (=Automatic Speech Recognition), welche dafür sorgt, dass die Aussagen der Kund*innen verstanden und interpretiert werden können. Hier werden also aus Audiodateien (Stimme des Anrufenden) Texte.
Das Speech Understanding ist das Gehirn des Sprachassistenten. Mithilfe der NLU (Natural Language Understanding) werden die Aussagen und Absichten des Anrufers oder der Anruferin korrekt verstanden. Diese erkannten Aussagen werden anschließend mithilfe des NLP (Natural Language Processing) maschinell zu natürlicher Sprache in Textform verarbeitet.
Im letzten Schritt kommt erneut KI zum Einsatz. Mit der Speech Synthesis wird dafür gesorgt, dass Text zu Sprache umgewandelt wird (Text To Speech) und Anrufende in Sekundenschnelle die gewünschte Antwort erhalten. Die Schleife schließt sich also, indem das Audio über den SIP-Trunk wieder an den User oder die Userin ausgegeben wird.