NASA与IBM合作开发用于高级科学研究的INDUS大型语言模型
通过《太空法案协议》与私人非联邦合作伙伴的合作是NASA跨部门实施和先进概念团队(IMPACT)工作的关键组成部分。与国际商业机器公司(IBM)的合作开发了INDUS,这是一套全面的大型语言模型(LLM),专门针对地球科学、生物和物理科学、太阳物理学、行星科学和天体物理学领域,并使用从各种数据源中提取的精选科学语料库进行训练。
INDUS包含两种类型的模型:编码器和句子转换器。编码器将自然语言文本转换为LLM可以处理的数字编码。INDUS编码器在包含天体物理学、行星科学、地球科学、太阳物理学、生物和物理科学数据的600亿个标记语料库上进行训练。其由IMPACT-IBM协作团队开发的自定义标记器通过识别生物标记和磷酸化等科学术语改进了通用标记器。
INDUS包含的50,000个词汇中有一半以上是用于训练的特定科学领域所独有的。INDUS编码器模型用于对大约2.68亿个文本对(包括标题/摘要和问题/答案)微调句子转换器模型。
通过为INDUS提供领域特定词汇表,IMPACT-IBM团队在生物医学任务基准、科学问答基准和地球科学实体识别测试中取得了优于开放的非领域特定LLM的卓越表现。通过针对各种语言任务和检索增强生成进行设计,INDUS能够处理研究人员的问题、检索相关文档并生成问题的答案。对于延迟敏感的应用程序,该团队开发了更小、更快的编码器和句子转换器模型版本。
验证测试表明,INDUS擅长从科学语料库中检索相关段落,以回答NASA整理的约400个问题的测试集。IBM研究员BishwaranjanBhattacharjee对整体方法进行了评论:“我们不仅拥有自定义词汇表,还拥有用于训练编码器模型的大型专业语料库和良好的训练策略,从而实现了卓越的性能。对于较小、更快的版本,我们使用神经架构搜索来获得模型架构,并使用知识提炼来对其进行训练,并对较大的模型进行监督。”
INDUS还使用NASA生物和物理科学(BPS)部门的数据进行了评估。NASABPS开放科学项目经理SylvainCostes博士讨论了整合INDUS的好处,“将INDUS与开放科学数据存储库(OSDR)应用程序编程接口(API)集成使我们能够开发和试用聊天机器人,该聊天机器人提供更直观的搜索功能来浏览单个数据集。我们目前正在探索如何利用INDUS来改进OSDR的内部管理数据系统,以提高我们管理团队的工作效率并减少每天所需的手动工作量。”
在美国宇航局戈达德地球科学数据和信息服务中心(GES-DISC),INDUS模型使用来自领域专家的标记数据进行微调,将特别引用GES-DISC数据的出版物分类到应用研究领域。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【木地板材料】木地板是一种广泛应用于家居和商业空间的地面装饰材料,因其自然美观、耐用性强、环保性好等特...浏览全文>>
-
【木地板安装】木地板安装是一项需要细致规划和专业操作的工程,无论是新房装修还是旧房翻新,选择合适的木地...浏览全文>>
-
【木的组词怎么写】在汉语学习中,词语的积累和运用是非常重要的部分。对于“木”这个字来说,它不仅是常见的...浏览全文>>
-
【木的象形字有哪些字】在汉字的发展过程中,许多字最初都是通过象形的方式创造出来的,用来表示具体的事物。...浏览全文>>
-
【木岛法子介绍】木岛法子(Kazuko Kikuchi)是日本著名演员、模特及艺人,以其在影视作品中的出色表现和独特...浏览全文>>
-
【木代尔是什么面料】“木代尔是什么面料”是许多消费者在选购衣物时常常会提出的问题。木代尔是一种天然纤维...浏览全文>>
-
【木代尔和莫代尔哪种面料好】在选择衣物面料时,很多人会遇到“木代尔”和“莫代尔”这两个名称,容易混淆它...浏览全文>>
-
【萝卜的营养价值】萝卜是一种常见的根茎类蔬菜,不仅味道清脆爽口,还具有丰富的营养价值。无论是生吃、炒食...浏览全文>>
-
【萝卜的药用功效和作用】萝卜,作为日常生活中常见的蔬菜之一,不仅味道清脆、营养丰富,还具有多种药用价值...浏览全文>>
-
【萝卜的家常做法】萝卜是一种非常常见的蔬菜,不仅价格实惠,而且营养丰富,适合多种烹饪方式。无论是炖、炒...浏览全文>>