Entschlüsselung von Sprache aus Gehirnaktivität: Ein bemerkenswerter Durchbruch

Die Sprachproduktion ist ein komplexes neurologisches Phänomen, das Forscher seit Jahren vor Rätsel gestellt hat. Das komplexe Zusammenspiel zwischen den neuralen Regionen, die die präzisen Muskelbewegungen im Mund, Kiefer und Zunge steuern, und den Regionen, die die auditive Rückmeldung der eigenen Stimme verarbeiten, hat lange Zeit ein kniffliges Rätsel dargestellt. Dieses Rätsel zu lösen, ist von entscheidender Bedeutung für die Weiterentwicklung von spracherzeugenden Prothesen für Personen, die ihre Fähigkeit zu sprechen verloren haben.

Ein Forschungsteam der New York University (NYU), unter der gemeinsamen Leitung von Adeen Flinker, Professorin für Biomedizintechnik an der NYU Tandon und für Neurologie an der NYU Grossman School of Medicine, sowie Yao Wang, Professor für Biomedizintechnik und Elektrotechnik an der NYU Tandon und Mitglied von NYU WIRELESS, hat signifikante Fortschritte bei der Entschlüsselung dieses neuronalen Rätsels erzielt. Ihr Ziel ist es, eine Sprachrekonstruktionstechnologie zu entwickeln, die Menschen, die ihre Fähigkeit zu sprechen verloren haben, wieder eine Stimme gibt.

Das NYU-Forschungsteam hat das Potenzial komplexer neuronaler Netzwerke genutzt, um Sprache aus Gehirnaufzeichnungen zu rekonstruieren und die neuronalen Mechanismen, die der menschlichen Sprache zugrunde liegen, zu beleuchten. Ihre bahnbrechenden Erkenntnisse wurden in einem neuen Artikel in den Proceedings of the National Academy of Sciences (PNAS) veröffentlicht.

Die menschliche Sprachproduktion umfasst komplexe neuronale Prozesse, die die vorausschauende Steuerung von Motorbefehlen und die Rückmeldung von selbst produzierter Sprache umfassen. Diese Prozesse erfordern die gleichzeitige Aktivierung mehrerer Gehirnnetzwerke und machen es daher schwierig, den zeitlichen Ablauf und den Umfang der kortikalen Rekrutierung für die Motorsteuerung im Vergleich zur sensorischen Verarbeitung während der Sprachproduktion zu unterscheiden.

In ihrer jüngsten Forschung haben die NYU-Wissenschaftler diese komplexen Prozesse erfolgreich voneinander getrennt. Sie verwendeten eine innovative Deep-Learning-Architektur für Aufzeichnungen von Neurooperationen und nutzten einen regelbasierten differenzierbaren Sprachsynthesizer, um Sprachparameter aus kortikalen Signalen zu dekodieren. Die von ihnen implementierten neuronalen Netzwerkarchitekturen können zwischen kausalen (die aktuellen und vergangenen neuronale Signale verwenden, um die aktuelle Sprache zu dekodieren), antikausalen (die gegenwärtige und zukünftige neuronale Signale verwenden) und einer Kombination aus beiden (nichtkausalen) zeitlichen Konvolutionen unterscheiden, was es ihnen ermöglichte, die Beiträge der vorausschauenden und rückwärtigen Verarbeitung in der Sprachproduktion akribisch zu analysieren.

Dr. Flinker erklärt:

Dieser Ansatz ermöglichte es uns, die Verarbeitung von vorausschauenden und rückwärtigen neuronalen Signalen zu trennen, die gleichzeitig auftreten, während wir sprechen und das Feedback unserer eigenen Stimme wahrnehmen.”

Bemerkenswerterweise dekodierte dieser innovative Ansatz nicht nur interpretierbare Sprachparameter, sondern gab auch Einblicke in die zeitlichen rezeptiven Felder der für die Sprachproduktion aktivierten kortikalen Regionen. Im Gegensatz zu vorherrschenden Vorstellungen, die rückwärtige und vorausschauende kortikale Netzwerke voneinander trennen, zeigten die Analysen der Forscher eine nuancierte Architektur aus gemischter rückwärtiger und vorausschauender Verarbeitung, die sich über frontale und temporale Cortexareale erstreckt. Dieser neue Blickwinkel, kombiniert mit außergewöhnlicher Sprachdekodierungsleistung, stellt einen bedeutenden Fortschritt in unserem Verständnis der komplexen neuronalen Mechanismen der Sprachproduktion dar.

Das NYU-Forschungsteam hat diese neue Sichtweise genutzt, um die Entwicklung von Prothesen zu informieren, die die Hirnaktivität lesen und direkt in Sprache übersetzen können. Ihr Prototyp unterscheidet sich von anderen dadurch, dass er die Stimme des Patienten rekonstruieren kann, selbst mit einer geringen Anzahl von Aufnahmen. Diese Technologie bietet Menschen, die ihre Stimme verloren haben, nicht nur die Möglichkeit, sie wiederzuerlangen, sondern sie genau zu rekonstruieren. Dies wird durch ein tiefes neuronales Netzwerk ermöglicht, das einen latenten auditiven Raum berücksichtigt und mit nur wenigen Beispielen einer individuellen Stimme trainiert werden kann, wie beispielsweise einem YouTube-Video oder einer Zoom-Aufnahme.

Um die notwendigen Daten zu sammeln, wandten sich die Forscher an Patienten mit therapieresistenter Epilepsie, die derzeit nicht medikamentös behandelt werden kann. Diese Patienten hatten ein Raster aus subduralen EEG-Elektroden in ihrem Gehirn für eine Woche implantiert, um ihren Zustand zu überwachen, und stimmten der zusätzlichen Platzierung von 64 kleineren Elektroden zwischen den regulären klinischen Elektroden zu. Diese unschätzbaren Einblicke in die Gehirnaktivität während der Sprachproduktion ebneten den Weg für diese wegweisende Forschung.

Diese Studie wurde durch Zuschüsse der National Science Foundation (NSF) und des National Institutes of Health (NIH) ermöglicht. Anschließend erhielten die Forscher zusätzliche Mittel, um unser Verständnis der Neurobiologie der Sprache zu vertiefen und innovative klinische Anwendungen für Sprache und Sprachentwicklung zu entwickeln.

In einer Welt, in der Stimme und Kommunikation von höchster Bedeutung sind, eröffnet diese wegweisende Forschung Türen zu verbesserten sprachlichen Prothesen und zur Steigerung der Kommunikation für Menschen mit Sprachstörungen. Die Pionierarbeit des NYU-Forschungsteams verspricht, das Feld der Sprachrekonstruktion zu revolutionieren und neuen Hoffnungsträgern zu helfen, die ihre Fähigkeit zu sprechen verloren haben.