Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben ist eine der größten Herausforderungen in der Forschung an Künstlicher Intelligenz (KI). Forscherinnen und Forschern des Karlsruher Instituts für Technologie (KIT) ist es nun erstmals gelungen, mit einem Computersystem die Erkennungsgenauigkeit des Menschen beim Erkennen solcher spontan gesprochener Sprache zu übertreffen – und dies mit nur minimaler Verzögerung zum Sprechen. Darüber berichten sie auf der Internet-Plattform ArXiv.org.
„Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Hesitationen wie ‚äh‘ oder ‚hm‘, Lacher und Huster“, sagt Alex Waibel, Professor für Informatik am KIT. „Oft werden Worte zudem noch undeutlich ausgesprochen.“ So sei es schon für Menschen schwierig, einen akkuraten Mitschrieb eines informellen Dialogs anzufertigen. „Einer KI fiel dies bislang noch schwerer“, so der Spracherkennungs-Experte. Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma KITES, einer Ausgründung aus dem KIT, hat nun weltweit erstmals ein Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme.
Waibel hat bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz. „Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei um die 5,5 Prozent. Unser System erreicht nun 5,0 Prozent.“ Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.
Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forscher-Gemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit Spontansprache zu erkennen herankommt oder diese übertrifft.
Inhalte oder Zusammenhänge verstehen könne ein Erkennungs-System alleine aber noch nicht, so Waibel. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“ Dialog-, Übersetzungs- und weitere KI Module können nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.
Details zum KIT-Zentrum Information · Systeme · Technologien (in englischer Sprache): http://www.kcist.kit.edu
Weitere Materialien: Link zum Paper: https://arxiv.org/abs/2010.03449
Als „Die Forschungsuniversität in der Helmholtz-Gemeinschaft“ schafft und vermittelt das KIT Wissen für Gesellschaft und Umwelt. Ziel ist es, zu den globalen Herausforderungen maßgebliche Beiträge in den Feldern Energie, Mobilität und Information zu leisten. Dazu arbeiten rund 10 000 Mitarbeiterinnen und Mitarbeiter auf einer breiten disziplinären Basis in Natur-, Ingenieur-, Wirtschafts- sowie Geistes- und Sozialwissenschaften zusammen. Seine 22 800 Studierenden bereitet das KIT durch ein forschungsorientiertes universitäres Studium auf verantwortungsvolle Aufgaben in Gesellschaft, Wirtschaft und Wissenschaft vor. Die Innovationstätigkeit am KIT schlägt die Brücke zwischen Erkenntnis und Anwendung zum gesellschaftlichen Nutzen, wirtschaftlichen Wohlstand und Erhalt unserer natürlichen Lebensgrundlagen. Das KIT ist eine der deutschen Exzellenzuniversitäten.