首页 >> 互联网 >

Anthropic的Claude2.1LLM在上下文召回方面仍不如OpenAI的GPT-4

2023-11-23 15:14:00 来源: 用户: 

目前大型语言模型(LLM)的迭代能力有限,无法理解不断增加的上下文负载,这仍然是目前实现人工智能奇点(人工智能明显超越人类智能的门槛)的最大障碍之一。乍一看,Anthropic的Claude2.1LLM的200K代币上下文窗口似乎令人印象深刻。然而,它的上下文回忆能力还有很多不足之处,特别是与OpenAI的GPT-4相对强大的回忆能力相比。

Anthropic昨天宣布,其最新的Claude2.1LLM现在支持“行业领先”的200K代币上下文窗口,同时将模型幻觉减少2倍——在这种情况下,生成式AI模型通常会由于以下原因感知到不存在的模式或物体:不清楚或矛盾的输入,提供不准确或无意义的输出。

为了那些可能不知道的人的利益,令牌是法学硕士用来处理和生成语言的文本或代码的基本单位。根据所采用的标记化方法,标记可能是字符、单词、子词或整个文本或代码段。Claude2.1扩大的上下文窗口使法学硕士能够理解和处理一本近470页的书。

当然,与仅支持128K令牌窗口的OpenAI的GPT-4相比,Anthropic的Claude2.1的200K令牌上下文窗口相当令人印象深刻。然而,当人们考虑到Claude2.1回忆上下文的能力并不那么令人印象深刻时,这种放大的上下文窗口的实际应用就失去了一些光彩。

AI专家GregKamradt最近通过标准化测试将Claude2.1与GPT-4进行比较,该测试旨在确定特定模型回忆不同通道深度嵌入的特定事实的准确程度。

具体来说,Kamradt在不同的段落深度嵌入了以下文本:

“在旧金山最好的事情就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”

研究人员将他的输入文本分成35个相等的部分,然后将上述事实放置在这35个深度中的每个部分,每次都要求Claude2.1回答一个相关问题。研究人员还改变了上下文窗口,范围从1K令牌一直到200K令牌,分为35个相等的增量。请访问此X帖子,了解有关所采用方法的更多详细信息。

Claude-2.1-测试结果

在上面,您将发现Anthropic的Claude2.1在给定文档深度和上下文窗口长度下能够多么准确地回忆嵌入的事实。每个红色块代表回忆失败。从上面的代码片段可以明显看出,随着上下文窗口的增加,法学硕士的回忆能力逐渐下降。

GPT-4测试结果

为了进行比较,上面显示了使用OpenAI的GPT-4进行的类似测试的结果。在这里,事实嵌入的深度以及法学硕士的上下文窗口以15个不同的增量发生了变化。请前往此X帖子了解更多详细信息。

请注意,GPT-4在其最大上下文窗口长度为128K令牌时,100%召回失败的情况要少得多。

我们在之前的文章中指出,GPT-4在数学考试中的得分超过了xAI的Grok和Anthropic的Claude2LLM。在相同设置下,Claude2.1与GPT-4的表现如何还有待观察。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
  • 【木屋别墅建造成本】在当今建筑市场中,木屋别墅因其环保、自然美观和良好的保温性能,逐渐受到越来越多消费...浏览全文>>
  • 【洛的组词有哪些】“洛”是一个常见的汉字,具有丰富的文化内涵和多样的用法。在现代汉语中,“洛”常用于地...浏览全文>>
  • 【木纹长条铝扣板】在现代家居和商业空间设计中,材料的选择直接影响整体风格与实用性。木纹长条铝扣板作为一...浏览全文>>
  • 【木纹水泥板的优点是什么】木纹水泥板作为一种新型的装饰材料,近年来在建筑和室内设计中越来越受到欢迎。它...浏览全文>>
  • 【木纹人造石生产设备介绍】随着建筑装饰行业的不断发展,木纹人造石因其独特的纹理、优异的耐候性以及环保特...浏览全文>>
  • 【洛晨名字的寓意】“洛晨”是一个富有诗意和文化底蕴的名字,常用于男孩或女孩。它不仅音韵优美,而且蕴含着...浏览全文>>
  • 【木纹铝单板】木纹铝单板是一种结合了木材纹理与铝合金材质的新型建筑装饰材料。它不仅保留了天然木材的美观...浏览全文>>
  • 【洛冰河沈清秋扩写】一、《洛冰河沈清秋》是一部以古风爱情与江湖恩怨为主题的网络小说,故事围绕主角洛冰河...浏览全文>>
  • 【木卫三和地球哪个大】在太阳系中,木卫三是木星最大的卫星,也是太阳系中最大的卫星。而地球则是我们赖以生...浏览全文>>
  • 【木卫二有生命吗】在太阳系众多天体中,木卫二(Europa)因其潜在的宜居环境而备受关注。作为木星的第四大卫...浏览全文>>