The Lingua House: 从思想到文字：AI将无声之言转化为有形之文字

摘要：一项新的人工智能系统——语义解码器，可以将大脑活动转化为连续的文本。这一系统可以革命性地改变因中风等疾病而无法讲话的人们的交流方式。

这种非侵入性的方法利用fMRI扫描仪数据，将思想转化为文本，无需任何手术植入物。虽然并非完美，但这一AI系统成功捕捉到了一个人思想的本质，成功率达到了一半以上。

关键事实：

语义解码器AI由德克萨斯大学的研究人员开发。

它基于Transformer模型，类似于Open AI的ChatGPT和Google的Bard。

该系统具有与更轻便的脑成像系统（如近红外光谱仪）结合使用的潜在价值。

一种名为“语义解码器”的新型人工智能系统可以将一个人的大脑活动（听故事或默想讲故事）转化为连续的文本。

德克萨斯大学的研究人员开发的这一系统可能会帮助那些虽然有意识但由于中风等原因无法说话的人重新进行双向交流。

这项发表在《自然·神经科学》杂志上的研究是由计算机科学博士生Jerry Tang和德州大学神经科学和计算机科学助理教授Alex Huth领导的。

这项工作在某种程度上依赖于Transformer模型，类似于Open AI的ChatGPT和Google的Bard。

与其他正在开发的语言解码系统不同，这一系统不需要受试者接受手术植入物，使得整个过程不存在任何侵入性。参与者也不需要仅使用预定词汇列表中的单词。

在对解码器进行了广泛的培训后，使用fMRI扫描仪测量大脑活动，参与者在后来听新故事或默想讲故事时，机器可以仅通过大脑活动生成相应的文本。

“对于非入侵性方法来说，这是一次真正的飞跃，比以前通常的单个词或短语要好得多。”Huth说道，“我们使模型能够使用连续语言，解码将长时间段内发生的复杂思想。”

结果不是逐字逐句的记录。相反，研究人员设计了这个系统来捕捉话语或思想说的要点，虽然不完美。在解码器被训练来监测参与者大脑活动的情况下，有一半的时间，机器会产生与原始语言意图非常接近（有时非常精确）的文本。

例如，在实验中，参与者听到一个说“我还没有拿到驾照”的人，他们的想法被翻译成“她甚至还没有开始学开车”。听到“我不知道该尖叫、哭还是逃跑，她最后说了句‘离我远点儿！’”，被解码成“开始尖叫和哭泣，然后她只是说了一句‘我告诉过你离我远点儿！’”。

从之前在本网站上发表的早期预印版本开始，研究人员就解决了有关技术潜在滥用的问题。这篇论文描述了解码过程仅对愿意主动参与训练解码器的合作者起作用。

解码器没有受过训练的个体结果是难以理解的，而如果曾经接受过训练的参与者后来抵制——例如，思考其他想法——结果也是无法使用的。

Tang表示：“我们非常认真地对待可能被用于恶意用途的担忧，并努力避免出现这种情况。我们希望确保人们只在需要时使用这种技术，并且它能够帮助他们。”

除了要求受试者听或想故事外，研究人员还要求受试者在扫描仪中观看四个短片。语义解码器能够使用他们的大脑活动准确地描述视频中的某些事件。

目前，由于其依赖于fMRI机器进行扫描，该系统在实验室外的使用不实际。但研究人员认为，这项工作可以转移到其他更便携的脑成像系统，例如功能性近红外光谱仪（fNIRS）。

“fNIRS测量大脑在不同时间点的血流量的大小，这与fMRI所测量的信号类型完全相同，” Huth说道，“因此，我们具体采用的方法应该适用于fNIRS，”尽管他指出，fNIRS的分辨率比较低。

这项工作得到了白厅基金会、阿尔弗雷德·P·斯隆基金会和Burroughs Wellcome基金会的支持。

这项研究的其他合著者是Huth实验室的前研究助理Amanda LeBel和德州大学计算机科学研究生Shailee Jain。

Alexander Huth和Jerry Tang已经就这项工作提交了一份与之相应的PCT专利申请。

原文链接：https://neurosciencenews.com/thoight-text-ai-decoder-23437/

The Lingua House