在部署之前评估通用人工智能模型可靠性的新技术
基础模型是大规模深度学习模型,已在大量通用、未标记的数据上进行了预训练。它们可应用于各种任务,例如生成图像或回答客户问题。
但这些模型是 ChatGPT 和 DALL-E 等强大人工智能工具的支柱,它们可能会提供错误或误导性的信息。在安全攸关的情况下,例如行人接近自动驾驶汽车,这些错误可能会造成严重后果。
为了帮助防止此类错误,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员开发了一种技术,用于在将基础模型部署到特定任务之前评估其可靠性。
他们通过训练一组彼此略有不同的基础模型来实现这一点。然后他们使用他们的算法来评估每个模型学习到的关于同一测试数据点的表示的一致性。如果表示一致,则意味着该模型是可靠的。
当他们将他们的技术与最先进的基线方法进行比较时,发现他们的技术在各种分类任务中能够更好地捕捉基础模型的可靠性。
有人可以使用这种技术来决定是否应在特定环境中应用模型,而无需在真实数据集上进行测试。当数据集可能因隐私问题而无法访问时,例如在医疗保健环境中,这可能特别有用。此外,该技术还可用于根据可靠性得分对模型进行排名,使用户能够选择最适合其任务的模型。
“所有模型都可能出错,但知道何时出错的模型更有用。量化这些基础模型的不确定性或可靠性的问题变得更加困难,因为它们的抽象表示难以比较。我们的方法可以让你量化表示模型对任何给定输入数据的可靠性,”资深作者 Navid Azizan 说,他是麻省理工学院机械工程系和数据、系统和社会研究所 (IDSS) 的 Esther and Harold E. Edgerton 助理教授,也是信息和决策系统实验室 (LIDS) 的成员。
与他一起撰写了一篇关于这项工作的论文的主要作者是 LIDS 研究生 Young-Jin Park、麻省理工学院-IBM Watson AI 实验室的研究科学家 Hao Wang 和 Netflix 高级研究科学家 Shervin Ardeshir。该论文将在 7 月 15 日至 19 日在巴塞罗那举行的人工智能不确定性会议 ( UAI 2024 ) 上发表,并在arXiv预印本服务器上提供。
计算共识
传统的机器学习模型经过训练可以执行特定任务。这些模型通常根据输入做出具体预测。例如,模型可能会告诉您某张图片中是否包含猫或狗。在这种情况下,评估可靠性可能只是查看最终预测以查看模型是否正确。
但基础模型则不同。该模型使用通用数据进行预训练,其创建者并不知道它将应用于哪些下游任务。用户在模型经过训练后,可将其调整到特定任务。
与传统的机器学习模型不同,基础模型不会给出“猫”或“狗”标签等具体输出。相反,它们会根据输入数据点生成抽象表示。
为了评估基础模型的可靠性,研究人员采用了集成方法,训练了几个具有许多共同属性但彼此略有不同的模型。
“我们的想法就像计算共识一样。如果所有这些基础模型都为我们数据集中的任何数据提供一致的表示,那么我们可以说这个模型是可靠的,”Park 说。
但他们遇到了一个问题:如何比较抽象的表现形式?
“这些模型只是输出一个由一些数字组成的向量,因此我们无法轻松地比较它们,”他补充道。
他们使用“邻里一致性”的思想解决了这个问题。
研究人员准备了一组可靠的参考点,用于在模型集合上进行测试。然后,针对每个模型,他们调查位于该模型测试点表示附近的参考点。
通过观察邻近点的一致性,他们可以估计模型的可靠性。
对齐表示
基础模型将数据点映射到所谓的表示空间中。可以将此空间视为一个球体。每个模型都将相似的数据点映射到其球体的同一部分,因此猫的图像放在一个地方,狗的图像放在另一个地方。
但是每个模型都会在自己的范围内以不同的方式映射动物,因此虽然猫可能被归类在一个范围的南极附近,但另一个模型可能会将猫映射到北半球的某个地方。
研究人员使用邻近点作为锚点来对齐这些球体,以便使这些表示具有可比性。如果某个数据点的邻居在多个表示中保持一致,那么人们应该对该点的模型输出的可靠性充满信心。
当他们在广泛的分类任务上测试这种方法时,他们发现它比基线更加一致。此外,它不会因具有挑战性的测试点而失败,而其他方法则不会。
此外,他们的方法可用于评估任何输入数据的可靠性,因此可以评估模型对特定类型的个体(例如具有某些特征的患者)的效果。
王说:“即使所有模型的整体表现都很平均,但从个人的角度来看,你还是会选择最适合自己的模型。”
然而,一个限制在于,他们必须训练一组大型基础模型,这在计算上非常昂贵。未来,他们计划找到更有效的方法来构建多个模型,或许可以通过对单个模型进行小幅扰动来实现。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
风行T5 EVO是东风风行推出的一款紧凑型SUV,凭借其时尚的外观设计、丰富的配置以及相对亲民的价格,在市场上...浏览全文>>
-
关于2022款迈腾GTE的具体价格,不同地区和经销商可能会有不同的优惠政策。一般来说,迈腾GTE的官方指导价大约...浏览全文>>
-
英菲尼迪QX60 2024款作为一款豪华中大型SUV,凭借其精致的设计、宽敞的空间以及丰富的配置,吸引了不少消费者...浏览全文>>
-
如果您正在寻找一款高性价比、配置丰富的车型,理想MEGA 2025款确实是一个值得考虑的选择。以下是一些关于这...浏览全文>>
-
好的,我明白了!您提到的是关于2025款星际新车的报价信息,最低售价为 8 28万元起,并且现车供应充足。如果...浏览全文>>
-
根据您提供的信息,帝豪L HiP(插电混动版)的最低售价为8 98万元起。目前该车型现车充足,适合有意向购买插...浏览全文>>
-
根据目前的市场反馈和行业动态,启腾EX80的价格走势表现出一定的下行趋势。近期,各大经销商纷纷加大了优惠力...浏览全文>>
-
抱歉,我无法提供2025款捷途X95的具体价格信息,因为这款车尚未发布,而且价格通常取决于地区、配置和市场情况...浏览全文>>
-
在山东济南购买大众CC的价格会因车型、配置、市场活动以及经销商的不同而有所差异。以下是一些关于大众CC的购...浏览全文>>
-
东风风神E60是一款性价比非常高的纯电动车型,其在价格与配置之间找到了一个较为理想的平衡点。以下从价格、配...浏览全文>>
- 风行T5 EVO多少钱?购车攻略全解析
- 广东东莞迈腾GTE多少钱 2022款落地价实惠,配置丰富,不容错过
- 英菲尼迪QX60 2024新款价格大公开,买车不花冤枉钱
- 帝豪L HiP价格,最低售价8.98万起,现车充足
- 山东济南大众CC多少钱?买车攻略一网打尽
- 卫士价格,最低售价60.80万起现在该入手吗?
- 济南ID.4 X多少钱?购车攻略助你轻松入手
- 宝马i5最新价格2025款实惠,配置丰富,不容错过
- 雷克萨斯NX新车报价2025款大揭秘,买车前必看
- 风行S50EV落地价限时特惠,最低售价15.29万起,错过不再有
- 远程FX 2021新款价格,各配置车型售价全展示,超值机会
- 山东济南大众ID.3新车报价2025款,换代前的购车良机,不容错过
- SRM鑫源新能源T3L EV落地价实惠,配置丰富,不容错过
- 江豚E5最新价格2025款,最低售价5.69万起,价格再创新低
- 河南郑州T-ROC探歌落地价大起底,买车超详细
- 示界06落地价实惠,配置丰富,不容错过
- 郑州威然新车报价2024款大公开,买车不花冤枉钱
- 奇骏多少钱?如何挑选性价比高的车
- 跨越星V7 EV新款价格2025款多少钱?选车秘籍全攻略
- 新海狮落地价,最低售价9.18万起现在该入手吗?