ѶƼ

每10份音频就有8份被“胡编”？ OpenAI语音转录工具被曝存重大缺陷

(财联社）生成式人工智能领域的领军者OpenAI，曾吹嘘其人工智能转录工具Whisper具有接近 “人类水平的稳定性和准确性”。
然而，随着该转录工具在各行各业被越来越多地普及使用，其问题似乎也正开始凸显——根据业内媒体对十多位软件工程师、开发人员和学术研究人员的采访，如今Whisper所存在的一个重大缺陷已愈发不容忽视：它很容易会编造大段文字，甚至是整段句子。
这些业内专家表示，一些编造出的文字——在行业内被称为“幻觉”，可能包括种族言论、暴力措辞，乃至完全杜撰出的医疗建议。
专家们越来越担心这种“胡编乱造”可能造成严重后果，因为Whisper当前正被全球多个行业用于翻译和转录采访内容、生成文本以及为视频制作字幕。虽然OpenAI曾警告不应在“高风险领域”使用该工具，但目前一些美国医疗中心都正开始使用基于Whisper的工具，来记录患者与医生间的对话。
经常使用Whisper的研究人员和工程师表示，他们在工作中经常会遇到该工具出现“幻觉”。密歇根大学的一名研究人员在研究公共会议的转录准确率时发现，他所审核的每十份音频转录中，便有八份存在“幻觉”。
一位机器学习工程师则称，在他分析的100多个小时的Whisper转录中，他最初发现大约有一半存在“幻觉”。第三位开发人员指出，在他用Whisper创建的26000份记录中，几乎每一份都发现了胡编乱造的现象。
即使是在那些录制良好的简短音频样本里，问题也依然存在。在最近的一项研究中，计算机科学家们在审查的超过13000个清晰音频片段中发现有187个存在“幻觉”问题。
研究人员表示，这种趋势将导致在数百万段录音中出现数以万计的错误转录。
曾在拜登政府领导白宫科技政策办公室工作的Alondra Nelson表示，这种错误可能会造成“非常严重的后果”，尤其是在医院里。
目前，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统，已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。
Nabla公司的首席技术官Martin Raison表示，该工具根据医学语言进行了微调，以转录和总结医生与病人间的互动。该工具转录的就诊记录目前已多达约700万次。该公司官员还指出，他们知道Whisper会产生幻觉，并正在努力解决这个问题。
目前担任普林斯顿高等研究院教授的Nelson表示，“没有人希望出现误诊。(该领域)应该有更高的标准。”
目前，Whisper还被用于为聋人和听力障碍者制作字幕——这是一个特别容易因出现错误转录而陷入困境的人群，因为聋人和听力障碍者完全无法识别“隐藏在所有文本中”的编造内容。
这种幻觉在Whisper中的普遍存在，已促使众多专家、倡导者和OpenAI前员工呼吁美国政府考虑制定人工智能法规。他们指出，OpenAI至少需要解决这一缺陷。今年2月因担心公司的发展方向而从OpenAI辞职的工程师William Saunders就表示，如果OpenAI愿意优先解决这个问题，这个问题似乎是可以解决的。而如果你长期把它放在那里，而人们对它的功能过于自信，并把它集成到所有这些其他系统中，那就有麻烦了。
虽然大多数开发人员都认为转录工具不可避免会拼错单词或出现其他错误，但不少工程师和研究人员表示，他们从未见过其他人工智能转录工具像Whisper一样容易产生幻觉。
目前，该工具已被集成到OpenAI旗舰聊天机器人ChatGPT的某些版本中，同时也是甲骨文和微软云计算平台的内置产品，为全球数千家公司提供服务。它还可用于将文本转录和翻译成多种语言。