为什么Google的AI无法拼写Google(或其他任何内容)

Google中有多少个P?据Google,有两个。
Google的AI Overview称,“‘poop’这个词中正好有1个‘r’”,而‘journalism’这个词中也有两个‘d’,但拼写为:j-o-u-r-n-a-d-i-s-m。 Google至少确认了美国总统的姓氏中有一个P,但拼写为t-r-p-u-m。
你不需要成为预言家就能预测谷歌的人工智能前向搜索改革将会进展得很糟糕。我们以前已经这样做过。第一次Google在搜索中添加人工智能概述时,该功能最终引用了The Onion和Reddit的讽刺帖子,建议人们吃石头并在披萨上涂胶水。
这一次,随着Google加倍致力于将生成式人工智能作为其拥有29年历史的旗舰产品的核心,看到它遭遇挫折也就不足为奇了。
“对于法学硕士来说,字数计算一直是一个已知的挑战,我们正在努力解决这个特定问题,”Google在一份电子邮件声明中告诉TechCrunch。
这些基本的拼写错误可能看起来很熟悉。法学硕士是一种为聊天机器人和其他文本生成器提供支持的人工智能,并不是为了理解拼写而构建的。多年来,一直流传着这样一个笑话:每当一家公司推出新的人工智能模型时,你应该问它“草莓”这个词中有多少个“r”。这些人工智能模型可以在几秒钟内编写出一个应用程序,或者解决困扰数学家数十年的问题,其拼写能力与幼儿园儿童一样好。
Google的人工智能概述问题不仅仅限于愚蠢的拼写错误。 Google已经修复了上周的一个问题,其中搜索“disregard”一词会产生看起来像该词的字典定义的内容,只有定义显示为“理解。每当您有新的提示或问题时请告诉我!”但这些拼写错误仍然很有趣,因为它们很难消除。
正如研究人员之前在我们询问这些拼写难题时所解释的那样,人工智能并不将句子视为由单词和字母组成的语言单位。许多法学硕士都是建立在转换器模型上的,该模型将文本分解为标记,这些标记可以是完整的单词、音节或字母,具体取决于模型。人工智能不像人类那样“阅读”,而是将文本转换为自身的数字表示,然后将其置于上下文中以帮助人工智能做出逻辑响应。

“法学硕士基于这种变压器架构,值得注意的是,它实际上并不是在阅读文本。当你输入提示时,它会被翻译成编码,”阿尔伯塔大学人工智能研究员兼助理教授Matthew Guzdial告诉TechCrunch。 “当它看到‘the’这个词时,它就有‘the’含义的一种编码,但它不知道‘T’、‘H’、‘E’。”
为像Google的人工智能概述这样的法学硕士提供支持的基于代币的架构本质上是有局限性的,研究人员对它们能否解决拼写问题并不乐观。
“对于语言模型来说,‘单词’到底应该是什么这个问题很难回避,即使我们让人类专家就完美的标记词汇达成一致,模型可能仍然会发现进一步‘分块’事物很有用,”东北大学研究大型语言模型可解释性的博士生Sheridan Feucht告诉TechCrunch。 “我的猜测是,由于这种模糊性,不存在完美的标记器这样的东西。”
这不一定是研究人员心目中的紧迫问题,因为法学硕士的效用并不在于他们的拼写能力。但这些公然的失败让我们记住,人工智能并不完美,即使它有时看起来像是一种超出我们理解的无所不知的力量。我们不能在没有仔细检查人工智能输出准确性的情况下盲目相信它们。