top of page

Newsletter comdialog - September Special

Special Insights aus dem September Newsletter. Künstliche Intelligenz (KI) hat zahlreiche Technologien hervorgebracht, die die Art und Weise verändern, wie wir mit Maschinen interagieren. Besonders in der Sprachverarbeitung sind Begriffe wie Natural Language Processing (NLP), Natural Language Understanding (NLU) und Natural Language Generation (NLG) von zentraler Bedeutung. Aber was steckt genau dahinter und wie beeinflussen sie die Funktionsweise von modernen VoiceBots?
 
Natural Language Processing
NLP umfasst Methoden zur Verarbeitung natürlicher Sprache. Dazu gehören Spracherkennung, Textumwandlung und das Analysieren von Bedeutungen in unstrukturierten Daten. Ziel ist es, menschliche Sprache in maschinenlesbare Daten zu überführen.

Natural Language Understanding
NLU ist ein Teilgebiet von NLP und fokussiert sich auf das Verstehen von Texten, die Identifikation von Absichten sowie das Erkennen von Kontexten und Bedeutungen.

Natural Language Generation
NLG generiert Text auf Basis von Daten, um Antworten, Berichte oder andere dynamische Inhalte in einer für den Menschen verständlichen Form zu erstellen.

Large Language Models (LLM)
LLMs wie GPT-4 sind komplexe Modelle, die auf großen Textdatensätzen trainiert werden und Text auf Basis von Kontext und Beziehungen zwischen Wörtern generieren können. Sie sind besonders gut in der Beantwortung von Fragen und der Textanalyse.
 
Conversational AI und Generative AI
Conversational AI kombiniert NLP, NLU und NLG, um menschenähnliche Gespräche zu führen. Generative AI geht einen Schritt weiter und erstellt komplett neue Inhalte, die nicht im ursprünglichen Dialogkontext stehen müssen. 

VoiceBot Workflow - Ein umfassendes Beispiel
Ein VoiceBot verarbeitet eine menschliche Anfrage, indem er eine Reihe von spezifischen Schritten durchläuft. Jede dieser Phasen nutzt verschiedene KI-Modelle, um Sprache zu erkennen, die Absicht des Benutzers zu verstehen, passende Antworten zu generieren und diese auf verständliche Weise wiederzugeben. 

Schritt 1: Spracherkennung (ASR – Automatic Speech Recognition)
ASR wandelt die gesprochene Sprache in Text um. Es analysiert akustische Signale und erstellt eine lesbare Textform, die dann weiterverarbeitet werden kann. Wichtig ist, dass ASR auch in lauten Umgebungen und bei verschiedenen Dialekten präzise funktioniert. Daher werden oft Vorverarbeitungsmodule verwendet, um Störgeräusche zu filtern und die Sprachqualität zu verbessern. 
Ein Benutzer sagt: „Wie hoch ist mein aktueller Stromverbrauch?“ ASR erkennt die Wörter und wandelt die gesprochene Sprache in Text um.

Schritt 2: Sprachverständnis (NLU)
Das NLU-Modul analysiert den durch ASR erzeugten Text, um die Bedeutung der Anfrage zu verstehen. Hier wird der Text in seine grammatikalischen und semantischen Bestandteile zerlegt. In diesem Schritt wird auch die Intent Recognition verwendet, um zu erkennen, was der Benutzer genau wissen möchte (z.B. „Frage nach aktuellem Verbrauch“).
Der VoiceBot erkennt, dass der Benutzer nach dem „aktuellen“ Stromverbrauch fragt, und keine historischen Daten benötigt. Das NLU-Modul leitet daraus ab, dass der Benutzer den aktuellen Stand wissen möchte.

Schritt 3: Kontextspeicherung (LMU – Local Memory Unit)
Das LMU-Modul speichert den Verlauf des aktuellen Gesprächs und vorherige Interaktionen. Dadurch kann der VoiceBot den Kontext von mehrdeutigen oder aufeinander aufbauenden Fragen verstehen. LMU sorgt dafür, dass der Bot frühere Aussagen in die Antwort einbeziehen kann, um eine flüssige Konversation zu gewährleisten. Bei Bedarf kann eine Backend-Verknüpfung erfolgen, um den Verlauf früherer Anfragen zu berücksichtigen und zusätzliche Nutzerdaten zu laden.
Wenn der Benutzer nach dem Stromverbrauch fragt und später: „Wie kann ich meinen Vertrag ändern?“ sagt, erkennt das LMU-Modul den Zusammenhang und integriert die Informationen des vorherigen Dialogs in die neue Anfrage.

Schritt 4: Named Entity Recognition (NER)
NER extrahiert spezifische Begriffe und Informationen aus dem Text, wie z.B. Kundennummern oder Namen, die für die Verarbeitung relevant sind. NER ist oft der Einstiegspunkt für Backend-Abfragen, bei denen der VoiceBot durch die identifizierten Entitäten gezielt Daten aus dem Backend abrufen kann.
Der VoiceBot erkennt in der Anfrage „Ich möchte meine letzte Rechnung von Kundennummer 12345 sehen“ die Entität „Kundennummer 12345“ und speichert diese für den weiteren Ablauf.

Schritt 5: Generierung einer passenden Antwort (NLG – Natural Language Generation und LLM)
Das NLG-Modul erstellt eine Antwort auf Basis der vorhandenen Daten. Es durchsucht das Backend nach den relevanten Informationen und formuliert eine verständliche Antwort. Für komplexere Anfragen, bei denen Kontext oder dynamische Informationen benötigt werden, wird ein LLM-Modul verwendet. Diese Kombination aus NLG und LLM sorgt dafür, dass auch unerwartete oder mehrschichtige Fragen präzise beantwortet werden können.
Der VoiceBot greift auf die Verbrauchsdaten zu und erstellt die Antwort: „Ihr aktueller Stromverbrauch beträgt 453 Kilowattstunden.“

Schritt 6: Wiedergabe der Antwort (TTS – Text-to-Speech)
Das TTS-Modul wandelt den Text in gesprochene Sprache um und gibt die Antwort in einer klaren, natürlichen Stimme wieder. Es gehört zum letzten Schritt, um die generierte Antwort für den Benutzer verständlich auszugeben.
Der VoiceBot gibt die Antwort wieder: „Ihr aktueller Stromverbrauch beträgt vierhundertdreiundfünfzig Kilowattstunden.“
Wenn Sie mehr darüber erfahren möchten, wie diese Technologien optimal in Ihrem Unternehmen eingesetzt werden können, buchen Sie sich gerne über den folgenden Button einen Termin mit unseren Experten und lassen Sie sich beraten!

 

bottom of page