AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊_全国资讯网

AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊


AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊

  2024-11-25 13:08:14     简体|繁體
http://vip.993113.com/1039419.html

因渐冻症(ALS)等病症而无法言语或打字的人群不容忽视,他们在日常沟通交流中面临着巨大障碍,急需有效的辅助手段来打破沟通壁垒。

尽管辅助性/替代性沟通(AAC)设备及眼动打字技术虽能提供一定支持,但频繁的按键操作极易导致眼疲劳和时间成本,严重阻碍了运动障碍患者进行自然流畅的对话以及充分表达自我,进而影响生活质量。

为解决这一问题,来自谷歌的研究团队及其合作者开发了一个由大语言模型(LLM)驱动的用户界面(UI)——SpeakFaster。

据介绍,SpeakFaster利用经过微调的LLM和会话语境,能以极高的准确率将高度缩略的英文文本(仅为单词首字母,必要时还会添加字母和单词)扩展为所需的完整短语,帮助ALS患者眼动打字按键次数减少了57%,文本输入速度比baseline提高了29-60%。

视频|SpeakFasterUI的截屏显示。该界面允许用户输入缩写文本,并使用对话上下文以完整句子形式建议答复。

相关研究论文以“UsinglargelanguagemodelstoacceleratecommunicationforeyegazetypinguserswithALS”为题,已发表在Nature子刊NatureCommunications上。

这些结果表明,通过大幅提高文本输入速度并减少身体压力,SpeakFaster可以帮助严重运动障碍患者更准确、更高效地交流,使他们能够更充分地参与对话,从而提高独立性、社会参与度、自我表达能力和生活质量。

让渐冻症患者更好地沟通

SpeakFaster提供了一种基于人工智能(AI)的方法,将LLM与专为缩写文本输入而设计的UI结合。

具体而言,研究团队首先对SpeakFaster的UI进行了设计,从而确保其允许轻松输入和优化缩写,保证用户始终能够传达他们想要的信息,即使初始预测不是他们想要的。

他们此前证明,经过微调的LaMDA(64B参数)可以将单词首字母形式的缩写(例如“ishpitb”)扩展为完整短语(例如“Isawhimplayinthebed”),在提供对话上下文(即另一位说话者的轮次)时,准确率高达77%。无法找到精确匹配的情况往往发生在更长、更复杂的短语上。

图|SpeakFasterUI中缩写文本输入的主要交互途径:仅首字母路径。

虽然很有希望,但实际的解决方案需要确保用户在初始缩写扩展(AE)失败的情况下能够随后输入任何任意的短语,即用户在UI中永远不会遇到“死胡同”。因此,他们开发了一个UI和两个底层微调的LLM,作为完整、实用的解决方案。

其中,KeywordAE能够扩展混合首字母和完整或部分拼写单词的缩写。KeywordAE模型还能够扩展仅由首字母组成的缩写,因此提供了此前他们工作功能的超集。

图|KeywordAEUI途径。

FillMask则能够在周围单词的上下文中提供以给定首字母开头的备选单词。两个模型均使用从四个公共英语对话数据集中合成的大约180万个独特的三元组{上下文、缩写、完整短语}进行微调。

图|FillMaskUI路径。

为了形成通往微调LLM的通道,他们还设计了一个具有三个路径的UI,即Initials-onlyAE、KeywordAE和FillMask,以支持完整的缩写文本输入体验。

Initials-onlyAE是SpeakFasterUI中所有短语输入工作流程的共同起点。在三个路径中,它涉及的按键和眼动点击次数最少,仅首字母路径就足以满足简短和可预测的短语。当用户输入缩写时,UI在每个按键后自动触发对KeywordAELLM的调用,包括用户键入的缩写以及所有之前的对话轮次作为LLM的输入。每个调用返回基于对话上下文和缩写的top-5最有可能的选项,这些选项在UI中呈现给用户浏览和选择。

如果通过仅首字母路径没有找到预期短语,那么SpeakFasterUI提供了两种替代UI路径来帮助用户找到预期短语。

第一种替代UI路径是KeywordAE,允许用户拼写多个单词。每次按键后都会自动触发对KeywordAE的调用,而每次调用后,UI将呈现KeywordAELLM返回的最新top-5短语扩展。

第二种替代UI路径是FillMask,这是从找不到精确预期短语的失败中恢复的另一种方法。与KeywordAE不同,FillMask仅适用于扩展中的非常少(通常是单个单词)单词不正确的情况。

KeywordAE和FillMask是两种替代交互模式,用于从通过仅首字母路径无法获得预期短语中恢复。在当前研究中,SpeakFasterUI允许用户在使用KeywordAE模式后使用FillMask模式,这对于在难以预测的短语中找到正确的单词很有用。

图|由KeywordAE和FillMask辅助的短语输入模拟策略。

这样一来,当使用SpeakFaster时,用户首先输入他们想要的短语中单词的首字母。然后,经过微调的LLM会预测整个短语,并根据这些首字母和对话上下文显示最可能的短语。如果所需短语不在选项中,用户可以通过拼出关键词或选择替代词来优化预测。这种方法大大减少了所需的按键次数,从而加快了沟通速度。

之后,为评估SpeakFasterUI界面节省用户操作动作的大致上限,研究团队开展了模拟实验。他们使用TurkDialogues语料库,模拟了三种不同的用户交互策略:

策略1:使用首字母缩写进行AE,如果失败则使用KeywordAE进行迭代拼写,直到找到匹配的短语。

策略2:与Strategy1相同,但每当最佳匹配短语候选词中只剩下一个错误单词时,就使用FillMask进行替换。

策略2A:Strategy2的变体,更积极地使用FillMask,即在最佳选项中剩下两个或更少的错误单词时立即使用。

与Gboard的预测baseline相比,SpeakFaster在三种策略下都实现了显著的按键节省。在Strategy2下,使用KeywordAEv2模型,SpeakFaster实现了0.657的按键节省率(KSR),比Gboard的KSR(0.482)高出36%。这表明,利用LLM的上下文感知能力和FillMask的词替换功能,可以在很大程度上提高文本输入效率。

模拟结果还表明,SpeakFaster在提供5个最佳短语选项的情况下表现最佳,并且对话上下文对于LLM的预测能力至关重要。

图|模拟实验结果表明,SpeakFasterUI可大幅节省按键。

除了模拟实验外,研究团队还进行了用户研究,从而测试SpeakFaster的有效性。

研究团队测量了动作节省(与要输入的完整字符集相比节省的按键次数)、实用性(每分钟的打字速度)和SpeakFasterUI的可学习性(人们需要多少练习才能习惯使用该系统)这三个指标以评估SpeakFaster界面。

在运动节省指标方面,与传统baseline相比,SpeakFaster为ALS眼动用户和非AAC参与者提供了大量按键动作节省。对于非AAC用户,SpeakFaster在脚本场景中可实现56%的按键节省,在非脚本场景中可实现45%的按键节省。对于ALS眼动用户,SpeakFaster还在脚本阶段显著节省了按键。

图|左图:非AAC用户的KSR。右图:ALS眼动用户的KSR。橙色和紫色条显示使用SpeakFaster系统时的KSR,蓝色和绿色条显示使用baseline智能键盘时的KSR。

在实用性指标方面,对于非AAC用户来说,整体文本输入速度与传统打字速度相当。然而,在针对一位ALS眼动用户的实验室研究显示,SpeakFaster使脚本阶段的打字速度提高了61.3%,非脚本阶段的打字速度提高了46.4%。

图|左图:对于非AAC用户,脚本阶段和非脚本阶段的整体文本输入速度没有出现显著变化。右图:对于ALS眼动用户,SpeakFaster显著提高了脚本阶段和非脚本阶段的速度。

除了节省动作和提升打字速度外,学习曲线和所引入的认知负荷也是评估打字系统和UI的关键指标。虽然与非AAC用户相比,ALS眼动用户在使用SpeakFaster时最初的学习曲线略慢,但只需15个练习对话,ALS眼动用户就能达到舒适的打字速度。

图|通过为非AAC用户提供6个练习对话和为ALS眼动用户提供15个练习对话,参与者能够学习SpeakFaster系统达到每分钟20-30个单词的舒适打字速度(显示在y轴上)。

虽然各项实验表明SpeakFaster帮助严重运动障碍患者实习高效交流方面具有独特优势,但目前该研究还存在有模型语言单一、短语长度受限、服务成本高昂以及研究样本量较少等局限。

AI正在改善残障人士生活

SpeakFaster并非首个致力于改善残障人士生活的AI项目。

2019年,BrightSign推出了一款基于AI的智能手套。该手套内置预定义手语库,能将手势转化为语音,结合机器学习算法,可让让听力或语言障碍者双向交流、独立与他人直接沟通,行动受限者如中风患者或听力丧失老人也可使用。

2021年,加州大学旧金山分校ChangLab团队首次用脑机接口帮助一位瘫痪超过15年的失语男子BRAVO1恢复了“说话”能力。该研究通过在被试者大脑内植入电极的深度神经读取技术帮助被试者实现脑与设备的信息交换,从而恢复其与世界沟通的能力。()

2024年,OpenAI推出了VoiceEngine模型的小规模预览成果。该模型使用文本输入和单个15秒音频样本来生成与原始说话者非常相似的自然语音,已经帮助一名因血管性脑肿瘤而失去流利语言能力的年轻患者恢复声音。

2024年,北卡罗来纳州立大学与北卡罗来纳大学教堂山分校的苏浩教授团队提出了一种在计算机仿真环境中通过强化学习来让机器人学习控制策略的新方法,有望极大地提高老年人,行动障碍人士和残疾人的生活质量。

相信在不久的将来,AI将进一步改善残障人士的生活。

对此,你怎么看?欢迎在评论区留言。

来源:头条娱乐

分享到:

  • 上一篇
    下一篇

  • 全国资讯网

    全国资讯网(第一时间发布热点话题娱乐平台)
    vip.993113.com

    全国资讯网,分享全球新闻、热点资讯的实事报道门户,即时提供实用的致富创业项目、资讯新闻、金融投资、竞技游戏、健康教育、电商直播、微商指南、生活常识、公正的项目评鉴,实用性佳、内容社区。