• Zur Hauptnavigation springen
  • Skip to main content
  • Zur Fußzeile springen
Neohelden: Neo, Dein digitaler Assistent für Enterprise

Neohelden: Neo, Dein digitaler Assistent für Enterprise

  • Home
  • Use-Cases
  • Demo vereinbaren
  • Blog

Speech to Text – Spracherkennung – Kommunikationsfreude mit Software und Maschinen

Du bist hier: Startseite / Heldenhafte Tech-News / Speech to Text – Spracherkennung – Kommunikationsfreude mit Software und Maschinen

November 10, 2020 von Dr. Kiryo Abraham

Wer kennt sie nicht, Alexa, Siri & co. Sie sind in aller Munde und auch nicht mehr aus dem alltäglichen Gebrauch wegzudenken. Nicht nur Science-Fiction-begeisterte sind überzeugt von den Sprachassistenten, die uns nicht nur einen Witz erzählen oder Musik abspielen können. Hinter diesen Sprachassistenten verbergen sich Spracherkennungssysteme, die nicht nur für den Einsatz alltäglichen Gebrauchs gedacht sind, sondern sich auch im Berufsleben als nützlich erweisen.

Wir sprechen nicht nur über, sondern auch mit ihnen und das mit Erfolg. Doch welche Technik verbirgt sich hinter all den Geräten mit denen der Mensch spricht? Hinter den Kulissen der angewandten Informatik, den Ingenieurwissenschaften und der Computerlinguistik werden verschiedene Verfahren entwickelt und analysiert. Der Grund hierfür ist es, dem Computer die gesprochene Sprache erfassen zu lassen und zugleich eine automatische Datenerfassung zu ermöglichen. (Quelle)

Wenn Sprache nicht nur von Mensch zu Mensch dient

Tipp, tipp, tipp! Mühselig und zeitaufwändig ist die ständige Nutzung von Tastatur und Maus. Auch wenn es für einige Tastatur-Geübte möglich ist, 200 bis 1.000 Zeichen pro Minute mit der Tastatur zu erfassen, so ist man doch immer noch schneller, wenn man spricht. Ausgehend von einem „durchschnittlichen” Sprecher ist dieser gleichzusetzen mit dem schnellsten Tastatur-Nutzer. In Zahlen ausgedrückt: ein Mensch kann 1.000 bis 4.000 Zeichen pro Minute sprechen, d.h. vier Mal schneller als der Weltrekord im Tippen auf einer Tastatur!

Sprache, in Kombination mit Sprachverarbeitungssystemen, vereinfacht heutzutage die ständige Schreibarbeit am Computer, Notebook, Tablet oder Handy. Um Sprachsysteme zu verstehen, ist es von Bedeutung vorab zu verstehen, wie ein Computer im Zusammenhang mit Sprache funktioniert. Computer basieren auf mathematischen und physikalischen Grundlagen und hierfür sind Schnittstellen zwischen Mensch und Maschine notwendig. Anzumerken ist, dass der Mensch in der Lage ist das Gesprochene zu verstehen, doch das Verständnis einer Maschine unterliegt der „rechnerischen Zerlegung von Ton-Einheiten“.

Die Geschichte von Speech-to-Text: In der Spracherkennung wird bereits seit über 70 Jahren geforscht 

Erst wurden die Zahlen erkannt, dann die Wörter

  • 1877: Alles begann mit Thomas Edison’s Phonograph, welches Ton aufnehmen und wiedergeben konnte.
  • 1952: Spannend wurde es mit „Audrey”, der automatischen Ziffern-Erkennungsmaschine. Audrey, eine Erfindung der Bell Labs, konnte die Grundeinheiten von Sprachlauten erkennen, die als Phoneme bezeichnet werden. (Quelle)
  • 1961: IBM führte „Shoebox” ein, die 16 Wörter auf Englisch verstand und beantwortete.
  • 1971: Das US-Verteidigungsministerium und DARPA entwickeln ein Spracherkennungssystemen an der Universität Carnegie Mellon in Pittsburgh, das in der Lage war 1.000 Wörter zu verstehen, was vergleichbar ist mit einem Vokabelwortschatz eines dreijährigen Kindes. (Quelle)
  • 1980er: In den 80er Jahren des letzten Jahrtausends wurde das „Hidden Markov Model (HMM)“ entwickelt. Es ist eine stochastische Methode, welches erlaubt nicht nur Worte zu verwenden, sondern auch nach Klangmustern zu suchen. Dieses Spracherkennungssystem beruht auf Wahrscheinlichkeitsrechnungen.
  • 1990er: In den 90er Jahren wurden Spracherkennungssysteme durch den PC ermöglicht.

Herausforderungen der Spracherkennungssysteme aus der Vergangenheit:

„Begrenzter Speicher, langsame Rechengeschwindigkeit und extrem teure Geräte sind Merkmale damaliger – im letzten Jahrtausend – Computer und Computersysteme.”


  • 2000er: In den 2000ern erreichte die Spracherkennungstechnologie eine Genauigkeit von ca. 80%. (Quelle)
  • In den letzten Jahren entwickelte sich die Spracherkennungsgenauigkeit immer mehr und aktuell erreicht man hier auch eine hohe Erkennungsgenauigkeit.

Sprachsysteme zur einfachen Interaktion

Die Automatische Spracherkennung ist die automatische Umwandlung menschlicher, gesprochener Sprache in die dazugehörige Wortsequenz in maschinenverarbeitbarer Form. Häufig fälschlicherweise mit der Stimmerkennung (Voice Recognition) gleichgesetzt.

(Quelle: Dozent: Dr. Sebastian Stüker, Karlsruher Institut für Technologie (KIT), Institut für Anthropomatik und Robotik) 

Die Aufgabe von Spracherkennungssystemen ist das Gesprochene aufzunehmen und in eine Textform zu transkribieren. Spracherkennungssysteme haben in unterschiedlicher Weise ihre Einsatzgebiete:

  • Diktiersysteme für spezielle Berufsgruppen (u.a. Ärzte und Rechtsanwälte)
  • Datenbanksuche/-indizierung bei großen Sprachdaten-Archivierungen
  • Dialogsysteme (meist telefonisch) in Form von Ja/Nein- oder Ziffern-Menüführungen, Auskunftssysteme, wie z.B. Fahrplan- oder Kinoauskunft und bei  digitalen Sprachassistenten, wie z.B.  Siri und Alexa
  • Kommando-Systeme beim Radiowecker,  oder bei nicht sicherheitsrelevante Funktionen im Fahrzeug, wie z.B. Telefon, Radio und Navigation

(Quelle)

Speech-to-Text und andere Anwendungsgebiete von Spracherkennungssystemen 

An dieser Stelle möchte ich noch einmal betonen, dass die Erfolge der letzten siebzig Jahre von automatischen Spracherkennungssystemen nicht nur zur Erkennung von Sprache in Text für den Einsatz als Diktiergeräte, in der Industrie (Inventur) und in der Medizin genutzt werden. Auch in verschiedenen Bereichen, wie im Haushalt (Unterhaltungselektronik, Licht), Zahlungsverkehr (Telefonbanking), Behindertenhilfe  (Sprechtraining für Gehörlose, Fahrzeugbedienung, Filmuntertitelung) und zahlreichen weiteren Anwendungsgebieten sind Spracherkennungssysteme nützlich. (Quelle)

Technische Erläuterung von Speech-to-Text

Speech-to-Text is die Umwandlung von analogen Signalen in die digitale Textform.  Spracherkennungssysteme zerlegen dabei Sprachaufnahmen in einzelne Töne.  In der Abbildung wird stark vereinfacht die Spracherkennung und die Ausgabe in Textform dargestellt:

(Quelle)

Bei der Spracherkennung werden nicht Wörter oder ganze Sätze auf einmal erkannt,  sondern es wird ein gewisser Prozess durchlaufen: 

  • Zu Beginn werden die Schallwellen in elektrische Signale umgewandelt bzw. digitalisiert. So werden aus analogen Signalen digitale, verarbeitbare Signale bzw. Bitfolgen. Dabei werden Umgebungsgeräusche gefiltert und die Signale werden in Einzelfrequenzen eingeteilt. Das Ergebnis hieraus ist ein ein Spektrogramm, welches Auskunft über die Intensität der Frequenzen in einem Zeitfenster gibt. Zur eigentlichen Spracherkennung wird ein Merkmalsvektor erstellt, d.h. Es werden wesentliche Merkmale zur Erkennung von Phonemen generiert. 

(Quelle)

  • Die automatischen Spracherkennungssysteme zerlegen das Gesprochene in kurze Tonaufnahmen bzw. Worte und Silben. Diese „Zerlegung” erfolgt in kurzen, zeitlichen Abständen. Mit den kleinen Ton-Segmenten werden demnach ihren Merkmalen untersucht und verglichen. Das bedeutet, dass das Wort, das mit der höchsten Wahrscheinlichkeit mit dem akustischen Signal übereinstimmt, wird als das erkannte Wort gewählt. Die einzelnen Laute werden dabei mithilfe der Hidden-Markov-Methode berechnet, welche die entsprechenden Laute identifiziert, die am besten zum Eingangssignal bzw. dem Gesprochenen passt. In der Erkennung helfen bereits erstellte Datenmengen  sowie phonetische Wörterbücher. 

(Quelle)

Spracherkennung bei digitalen Assistenten: Neo spricht

Sprache ist die Interaktionsform der Zukunft und nimmt immer mehr an Bedeutung in der Softwareentwicklung. Unser KI-Sprachassistenten Neo nutzt ebenso eine automatische Spracherkennung, die bei verschiedenen Einsatzgebieten Vorteile mit sich bringt und teilweise auch erforderlich ist.

Vor allem in Einsatzszenarien, in denen die Hände für die Bearbeitung der Aufgaben notwendig sind, wie beispielsweise in der Instandhaltung, bei der Inbetriebnahme, in der Wartung, der Inspektion und bei vielen weiteren Anwendungsfällen, ist die Nutzung von Neo mithilfe der Spracherkennung vorteilhaft:

  • Dadurch kann der Mitarbeiter mit den Händen arbeiten und gleichzeitig per Sprache  “hands-free” Informationen abrufen, dokumentieren oder sonstige Aktivitäten steuern.
  • Zudem kann der Mitarbeiter unterwegs adhoc Informationen, Berichte oder Kennzahlen per Sprache abfragen und der Nutzer kann weiterhin seine Aufmerksamkeit und Augen der Straße widmen.

Sollte die Interaktion per Sprache auch in Deinen Use-Cases interessant sein, kannst Du Dich gerne bei uns melden. Sofern Du jedoch eher schreiben statt reden willst oder in einem Großraumbüro sitzt und das Sprechen Deine Kollegen stören, dann kannst Du Dich gerne dennoch melden: Mit Neo kannst Du auch einfach nur chatten und Neo assistiert Dir auch ohne einen „Mucks” zu geben. 😉

Heldenhafte Tech-News

Über Dr. Kiryo Abraham

Kiryo ist Mitgründer und CEO bei Neohelden.

Footer

msg systems ag Logo

Neohelden ist eine Marke der msg-Gruppe

Neohelden
msg systems ag
Robert-Bürkle-Straße 1
85737 Ismaning

hello (ät) neohelden.com

Home

Impressum

Nach oben

Copyright © 2022 msg systems ag

  • Facebook
  • GitHub
  • Instagram
  • LinkedIn
  • RSS
  • Twitter
  • xing
  • YouTube