用英语训练的大型语言模型被发现可以在内部使用该语言甚至对于其他语言的提示也是如此
洛桑联邦理工学院的研究人员表明,主要在英语文本上训练的大型语言模型似乎在内部使用英语,即使是在用另一种语言提示时也是如此。随着人工智能越来越多地影响我们的生活,这可能会对语言和文化偏见产生重要影响。
包括OpenAI的ChatGPT和Google的Gemini在内的大型语言模型(LLM)席卷了全世界,它们以看似自然的语音来理解和响应用户的能力令人惊讶。
虽然可以用任何语言与这些法学硕士进行交互,但他们主要接受了数千亿个英语文本参数的训练,并且一些人假设他们用英语进行大部分内部处理,然后翻译成目标语言在最后一刻。然而,到目前为止,几乎没有证据表明这一点。
测试骆驼
洛桑联邦理工学院计算机与通信科学学院数据科学实验室(DLAB)的研究人员研究了Llama-2(大型语言模型元人工智能)开源法学硕士,试图确定在计算链的哪些阶段使用了哪些语言。
“大型语言模型经过训练来预测下一个单词。它们本质上是通过将每个单词与数字向量(基本上是多维数据点)相匹配来实现这一点。例如,单词“the”总是会在完全相同的固定位置找到。数字坐标”,DLAB负责人RobertWest教授解释道。
“这些模型将80层相同的计算块链接在一起,每个计算块将表示一个单词的一个向量转换为另一个向量。在这80个转换序列的最后,得出的是代表下一个单词的向量。计算数量是通过计算块的层数来确定的——计算越多,你的模型就越强大,下一个单词就越有可能是正确的。”
正如他们的论文“LlamasWorkinEnglish?”中所解释的那样OntheLatentLanguageofMultilingualTransformers,可在预印本服务器arXiv上找到,而不是让模型完成80层的计算,而是每次尝试预测下一个单词West时,他的团队都会强迫模型在每个单词后回答他们能够看到模型此时会预测哪个单词。他们设置了各种任务,例如要求模型将一系列法语单词翻译成中文。
“我们给它一个法语单词,然后是中文翻译,另一个法语单词和中文翻译,等等,这样模型就知道它应该将法语单词翻译成中文。理想情况下,模型应该给出100%的概率中文单词,但是当我们强迫它在最后一层之前进行预测时,我们发现大多数时候它预测了法语单词的英文翻译,尽管英语在这个任务中没有出现在任何地方。只有在最后四层才出现从五个层面来看,汉语实际上比英语更有可能,”韦斯特说。
从文字到概念
一个简单的假设是,该模型将整个输入翻译成英语,并在最后翻译成目标语言,但在分析数据时,研究人员提出了一个更有趣的理论。
在计算的第一阶段,任何一个词都不存在概率,他们认为该模型涉及修复输入问题。
在英语占主导地位的第二阶段,研究人员认为该模型处于某种抽象语义空间中,在该空间中,它不是推理单个单词,而是推理其他类型的表示形式,这些表示形式更多地涉及概念、跨语言的通用性,并且更多地是一种模型世界。这很重要,因为为了很好地预测下一个单词,模型需要对世界有很多了解,而实现这一点的一种方法是拥有这种概念的表示。
“我们的理论是,这种用概念来表示世界的方式偏向英语,这很有意义,因为这些模型看到了大约90%的英语训练数据。它们将输入单词从浅层单词空间映射到更深层次的含义空间概念的集合,其中存在这些概念在世界上如何相互关联的表示,并且这些概念的表示方式类似于英语单词,而不是实际输入语言中的相应单词,”韦斯特说。
单一文化和偏见
英国的主导地位引发的一个关键问题是“这重要吗”?研究人员相信确实如此。大量研究表明,语言中存在的结构塑造了我们构建现实的方式,并且我们使用的词语与我们如何看待世界密切相关。韦斯特建议,我们需要开始研究语言模型的心理学,将它们视为人类,并用不同的语言进行询问、行为测试并评估偏见。
“我认为这项研究确实触动了人们的神经,因为人们越来越担心潜在的单一文化的此类问题。鉴于这些模型在英语中更好,许多研究人员现在正在探索的事情是提供英语内容和翻译回所需的语言。从工程角度来看,这可能可行,但我建议我们失去很多细微差别,因为你无法用英语表达的内容将不会被表达,”韦斯特总结道。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
风行T5 EVO是东风风行推出的一款紧凑型SUV,凭借其时尚的外观设计、丰富的配置以及相对亲民的价格,在市场上...浏览全文>>
-
关于2022款迈腾GTE的具体价格,不同地区和经销商可能会有不同的优惠政策。一般来说,迈腾GTE的官方指导价大约...浏览全文>>
-
英菲尼迪QX60 2024款作为一款豪华中大型SUV,凭借其精致的设计、宽敞的空间以及丰富的配置,吸引了不少消费者...浏览全文>>
-
如果您正在寻找一款高性价比、配置丰富的车型,理想MEGA 2025款确实是一个值得考虑的选择。以下是一些关于这...浏览全文>>
-
好的,我明白了!您提到的是关于2025款星际新车的报价信息,最低售价为 8 28万元起,并且现车供应充足。如果...浏览全文>>
-
根据您提供的信息,帝豪L HiP(插电混动版)的最低售价为8 98万元起。目前该车型现车充足,适合有意向购买插...浏览全文>>
-
根据目前的市场反馈和行业动态,启腾EX80的价格走势表现出一定的下行趋势。近期,各大经销商纷纷加大了优惠力...浏览全文>>
-
抱歉,我无法提供2025款捷途X95的具体价格信息,因为这款车尚未发布,而且价格通常取决于地区、配置和市场情况...浏览全文>>
-
在山东济南购买大众CC的价格会因车型、配置、市场活动以及经销商的不同而有所差异。以下是一些关于大众CC的购...浏览全文>>
-
东风风神E60是一款性价比非常高的纯电动车型,其在价格与配置之间找到了一个较为理想的平衡点。以下从价格、配...浏览全文>>
- 风行T5 EVO多少钱?购车攻略全解析
- 广东东莞迈腾GTE多少钱 2022款落地价实惠,配置丰富,不容错过
- 英菲尼迪QX60 2024新款价格大公开,买车不花冤枉钱
- 帝豪L HiP价格,最低售价8.98万起,现车充足
- 山东济南大众CC多少钱?买车攻略一网打尽
- 卫士价格,最低售价60.80万起现在该入手吗?
- 济南ID.4 X多少钱?购车攻略助你轻松入手
- 宝马i5最新价格2025款实惠,配置丰富,不容错过
- 雷克萨斯NX新车报价2025款大揭秘,买车前必看
- 风行S50EV落地价限时特惠,最低售价15.29万起,错过不再有
- 远程FX 2021新款价格,各配置车型售价全展示,超值机会
- 山东济南大众ID.3新车报价2025款,换代前的购车良机,不容错过
- SRM鑫源新能源T3L EV落地价实惠,配置丰富,不容错过
- 江豚E5最新价格2025款,最低售价5.69万起,价格再创新低
- 河南郑州T-ROC探歌落地价大起底,买车超详细
- 示界06落地价实惠,配置丰富,不容错过
- 郑州威然新车报价2024款大公开,买车不花冤枉钱
- 奇骏多少钱?如何挑选性价比高的车
- 跨越星V7 EV新款价格2025款多少钱?选车秘籍全攻略
- 新海狮落地价,最低售价9.18万起现在该入手吗?