虽然OpenAI公司发布了相关警告,但还是有不少医院仍在使用包括Whisper在内的语音转文字工具,来记录医生诊疗患者时说的话,以减少医护人员记笔记或写报告所花费的时间。
图片来源:Seth Wenig—AP Photo
Whisper是科技巨头OpenAI新发布的一个自动语音识别系统,OpenAI公司称其具有接近“人类水平的可靠性和准确性”。
但是据多名软件工程师、开发人员和学术研究人员反馈,Whisper也有一个重大缺陷——它有时会编造出一大段文字甚至是整句。专家表示,这些被AI虚构出来的文字(在业内也被称作幻听),有可能包含种族主义和暴力言论,甚至是凭空想象出来的医学疗法。
专家表示,AI的这种“幻听”可不是一个小问题,因为Whisper已经被世界各地的许多行业用于翻译和转录对话,为一些流行的消费技术生成文本,以及为视频创建字幕等等。
更令人担忧的是,一些医院甚至利用了基于Whisper开发的工具,来记录医患之间的对话。尽管OpenAI已经警告称,Whisper并不应该被用在“高风险领域”。
要想精准判断这个问题的严重程度,并非一件容易的事。不过据研究人员和工程师称,他们经常会在工作中遇到Whisper“幻听”的情况。比如,密歇根大学一名研究人员开展了一项针对公开会议的研究,他发现他仔细检查过的10个音频转录文本中,有8个都出现了“幻听”的情况。
一位机器学习工程师也表示,在他分析的100多个小时的Whisper转录文本中,他发现有一半都存在“幻听”。一位第三方开发者表示,在他用Whisper编写的2.6万份文本中,每乎每一份都在“幻听”问题。
即使在那些录制良好的短音频样本中,问题也仍然存在。有计算机科学家在最近的一项研究中检查了13000多份清晰音频片段的转录文本,结果发现了187处“幻听”。
研究人员表示,如果是这样的话,那么在几百万份语音转录文本中,至少会出现几万份转录错误。
拜登政府的前白宫科技政策办公室主任阿隆德拉·尼尔森指出,这种错误可能会导致“非常严重的后果”,特别是在医疗场景中。
尼尔森现在是新泽西州的普林斯顿高级研究所的一名教授。他表示:“没有人希望自己被误诊,在这方面应该有更高的标准。”
Whisper还被用于为聋哑人和听障人士制作字幕。加劳德大学技术获取项目负责人克里斯蒂安·沃格勒指出,如果这些字幕转录错误的话,对聋人和听障人士的影响显然是更加严重的,因为他们根本无法识别“隐藏在所有这些文字中的虚假内容。” 沃格勒自己就是一名聋人。
由于AI“幻听”的问题非常常见,不少专家甚至包括前OpenAI公司的员工都在呼吁联邦政府考虑制定相关监管政策。至少也得让OpenAI解决这个缺陷。
“如果OpenAI公司愿意重视这个问题,它是有办法解决的。”旧金山的研究工程师威廉·桑德斯今年2月刚刚从OpenAI辞职,原因是他对OpenAI的发展方向感到担忧。“如果你把它放在那里不管,那就有问题了,因为人们太相信它的功能了,而且还把它集成到了所有其他系统上。”
OpenAI的一位发言人表示,该公司一直在研究如何减少“幻听”现象,并对广大研究人员的发现表示了赞赏。该发言人还表示,OpenAI已经在模型更新中加入了反馈功能。
虽然大多数开发人员都认为。作为一种语音转录工具,它出现拼写错误或者其他错误都属正常,但是也有工程师和研究人员表示,他们从未见过其他哪款AI转录工具的“幻听”像Whisper一样多。
目前,该工具已经被集成到ChatGPT的某些版本中,并且被内置于甲骨文和微软云计算平台中,这些平台服务着全球成千上万的企业。它也会被用来转录和翻译其他语言。
仅仅是上个月,最新版本的Whisper就在开源AI平台HuggingFace上被下载了420多万次。该平台的一位名叫桑吉特·甘地的机器学习工程师表示,Whisper是目前最受欢迎的开源语音识别模型,它已经被集成到了从呼叫中心到语音助理的各种程序中。
康奈尔大学的埃莉森·克内克教授和弗吉尼亚大学的莫娜·斯洛安妮教授开展了一项试验,他们检查了来自卡耐基梅隆大学的TalkBank研究存储库的数千个音视频片段,结果发现,近40%的“幻听”是有害的,或者是值得关注的,因为说话者的意思很可能会被误解或歪曲。
比如在一段音频中,说话者说的是:“他,那个男孩,他要……我不太确定,可能是要拿雨伞。”
但是Whisper给出的转录文本却是:“他拿了一个大十字架,一小块……我不太确定,他没有一把恐怖的刀,所以他杀了很多人。”
还有另一段录音,说话者描述了“另外两个女孩和一位女士”。Whisper却“脑补”出了额外的种族主义评价:“……另外两个女孩和一位女士,嗯,她们是黑人。”
在另一段录音中,Whisper发明了一种不存在的药物,名叫“过度激活抗生素”。
研究人员也不确定为什么Whisper和类似的一些AI工具会产生“幻听”,但软件开发人员表示,这种“幻听”往往发生在停顿、有背景音或者有音乐的时候。
OpenAI公司对此给出的官方建议是,“不要在决策环境中使用Whisper,因为它在准确性上的缺陷,有可能导致结果出现明显缺陷”。
虽然OpenAI公司发布了相关警告,但还是有不少医院仍在使用包括Whisper在内的语音转文字工具,来记录医生诊疗患者时说的话,以减少医护人员记笔记或写报告所花费的时间。
目前,美国有超过3万名临床医生和40多家医院,都在使用Nabla公司开发的基于Whisper的工具,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院。Nabla公司在法国和美国都设有办公室。
Nabla的首席技术官马丁·雷森表示,他们开发的版本是基于医学语言的专业版,以转录和总结医生与患者之间的交流。
该公司的负责人表示,他们已经意识到了Whisper会产生“幻听”,并且正在想方设法解决这个问题。
雷森表示,Nabla无法将AI生成的文本与原始录音进行比较,因为Nabla的工具出于“数据安全原因”会删除掉原始音频。
Nabla公司表示,该公司开发的工具已经记录了大约700万次问诊。
前OpenAI公司工程师桑德斯指出,如果文本没有经过双重检查,或者临床医生无法检查录音以验证文本的正确性,那么删掉原始音频是一种令人担忧的做法。“如果你把原话都删了,你就找不到错误了。”
Nabla公司则表示,没有一个模型是完美的,目前他们的模型要求医生对文本结果进行快速编辑和审核,但是以后这种做法也可能会有变化。
医患对话属于隐私信息,但我们目前还很难知道,AI生成的文本对患者的个人隐私有何影响。
加利福尼亚州议员丽贝卡·鲍尔·卡汉表示,今年早些时候,她带着一个孩子去看医生,结果医院给了她一张表格要她签字,内容是让她同意向几家公司分享问诊的音频。这几家公司中就包括微软Azure,也就是OpenAI背后的最大投资者运营的云计算平台。她表示,她不希望这种隐私信息被科技公司掌握。
鲍尔·卡汉是一名民主党人,她在州议会中代表着旧金山郊区的部分地区。她表示:“那份表格很明确地说明了,营利性公司有权使用这些音频。但是我说:‘绝对不行。’”
约翰缪尔健康中心的发言人本·德鲁指出,该医院一向遵守联邦和该州的相关隐私法律。(财富中文网)
作者/来源:Garance Burke,Hilke Schellmann/美联社
译者:朴成奎
在财富Plus,网友们对这篇文章发表了许多有深度和思想的观点。一起来看看吧。也欢迎你加入我们,谈谈你的想法。今日其他热议话题:
查看《“单独谈判”干扰中欧磋商进程,商务部郑重表态》的精彩观点
查看《央行启用买断式逆回购操作工具》的精彩观点