AI模型预部署的可靠性评估

基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。 但是,作...

基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。

但是,作为ChatGPT和DALL-E等强大人工智能工具的支柱,这些模型可能会提供不正确或误导性的信息。在安全关键的情况下,比如行人接近自动驾驶汽车,这些错误可能会造成严重后果。

为了防止此类错误,麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员开发了一种技术,可以在将基础模型部署到特定任务之前评估其可靠性。

他们通过训练一组彼此略有不同的基础模型来做到这一点。然后,他们使用他们的算法来评估每个模型对相同测试数据点学习的表示的一致性。如果表示是一致的,就意味着模型是可靠的。

当他们将他们的技术与最先进的基线方法进行比较时,它在捕获各种分类任务的基础模型的可靠性方面表现得更好。

有人可以使用这种技术来决定一个模型是否应该应用于特定的环境,而不需要在现实世界的数据集上进行测试。当数据集可能由于隐私问题而无法访问时,例如在医疗保健环境中,这可能特别有用。此外,该技术可用于基于可靠性分数对模型进行排序,使用户能够为其任务选择最佳模型。

“所有模型都可能出错,但知道自己什么时候出错的模型更有用。对于这些基础模型来说,量化不确定性或可靠性的问题变得更加困难,因为它们的抽象表示难以比较。我们的方法可以让你量化表示模型对于任何给定输入数据的可靠性,”资深作者Navid Azizan说,他是麻省理工学院机械工程系和数据、系统和社会研究所(IDSS)的Esther和Harold E. Edgerton助理教授,也是信息和决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park (LIDS研究生)一起撰写了一篇关于这项工作的论文;麻省理工学院- ibm沃森人工智能实验室的研究科学家王浩;以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将在人工智能不确定性会议上发表。

统计共识

传统的机器学习模型被训练来执行特定的任务。这些模型通常根据输入做出具体的预测。例如,模型可能会告诉你某张图片中是猫还是狗。在这种情况下,评估可靠性可能只是查看最终预测,看看模型是否正确。

但基金会的模式是不同的。该模型使用一般数据进行预训练,其创建者并不知道该模型将应用于的所有下游任务。用户在训练完成后就可以让它适应自己的特定任务。

与传统的机器学习模型不同,基础模型不会给出像“猫”或“狗”标签这样的具体输出。相反,它们基于输入数据点生成抽象表示。

为了评估基础模型的可靠性,研究人员使用了一种集成方法,通过训练几个模型,这些模型具有许多相同的特性,但彼此之间略有不同。

“我们的想法就像计算共识。如果所有这些基础模型对我们数据集中的任何数据都给出了一致的表示,那么我们可以说这个模型是可靠的,”Park说。

但他们遇到了一个问题:他们如何比较抽象的表示?

他补充说:“这些模型只是输出一个矢量,由一些数字组成,所以我们不能轻易地比较它们。”

他们用一种叫做邻域一致性的想法解决了这个问题。

对于他们的方法,研究人员准备了一组可靠的参考点来测试模型的集合。然后,对于每个模型,他们调查位于该模型表示的测试点附近的参考点。

通过观察相邻点的一致性,他们可以估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以把这个空间看成一个球体。每个模型都将相似的数据点映射到其球体的同一部分,因此猫的图像放在一个地方,狗的图像放在另一个地方。

但是每个模型会在自己的领域内绘制不同的动物地图,所以当猫可能被分组在一个球体的南极附近时,另一个模型可以在北半球的某个地方绘制猫的地图。

研究人员使用像锚一样的邻近点来对齐这些球体,这样它们就可以使表征具有可比性。如果一个数据点的邻居在多个表示中是一致的,那么应该对该点的模型输出的可靠性有信心。

当他们在大范围的分类任务中测试这种方法时,他们发现它比基线更加一致。另外,它不会因为挑战测试点而导致其他方法失败。

此外,他们的方法可用于评估任何输入数据的可靠性,因此人们可以评估模型对特定类型的个体(例如具有某些特征的患者)的效果如何。

王说:“即使所有型号的整体性能都是平均水平,从个人的角度来看,你也会更喜欢最适合自己的型号。”

然而,一个限制来自于它们必须训练一个大型基础模型的集合,这在计算上是昂贵的。在未来,他们计划找到更有效的方法来建立多个模型,也许是通过使用单个模型的小扰动。

这项工作部分由麻省理工学院- ibm沃森人工智能实验室、MathWorks和亚马逊资助。

本文来自作者[凡白]投稿,不代表品品号立场,如若转载,请注明出处:https://pplogos.com/zlan/202508-5274.html

(13)

文章推荐

  • 必看教程“老胡麻将开挂神器”(真的有挂)

    家好,今天小编来为大家解答老胡麻将开挂神器有没有挂这个问题咨询软件客服可以免费测试,老胡麻将开挂神器的挂在哪里买很多人还不知道,现在让我们一起来看看吧!一、老胡麻将开挂神器记牌器怎么全显示你需要获得记牌器才能全部显示,否则只显示前面几张牌的数据。如下图所

    2025年08月14日
    0
  • “是失败还是欺诈?伊朗导弹攻击与以色列入侵黎巴嫩对拜登外交的影响”

    周二,伊朗向以色列发射了180枚导弹,几小时后,拜登政府认为这一行动“无效”,并誓言要承担后果,尽管美国继续坚持避免爆发更广泛的地区战争。但在过去一年里,美国在加沙和黎巴嫩继续全力支持以色列,并支持削弱真主党的领导结构,这无意中激怒了伊朗。加沙和黎巴嫩有数万人丧生

    2025年08月14日
    0
  • 重磅揭秘“同城跑胡子作弊网址”太坑人了,真的有挂

    家好,今天小编来为大家解答同城跑胡子作弊网址有没有挂这个问题咨询软件客服可以免费测试直接加QQ群了解详细,同城跑胡子作弊网址的挂在哪里买很多人还不知道,现在让我们一起来看看吧!一、同城跑胡子作弊网址记牌器怎么全显示你需要获得记牌器才能全部显示,否则只显示

    2025年08月14日
    0
  • 以色列承诺对哈马斯的报复将对未来几代人产生深远影响

    周二,以色列对加沙城进行了无情的轰炸,并发誓要对哈马斯激进组织进行报复,这将“影响……几代人”。这场战争是在哈马斯武装分子星期六冲进以色列后开始的,几十年来第一次在街头发生枪战。这场战争已经造成至少1600人死亡。在大规模动员预备役人员之后,人们

    2025年08月14日
    0
  • 给大家通报一下“明星麻将有没有挂”(必胜开挂神器)

    您好:明星麻将有没有挂“这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【

    2025年08月14日
    0
  • 小学成功抵御学生面临的“可怕行为”挑战

      在罗托鲁瓦的一所小学校内,发现了人类粪便、毒品用具和卫生巾后,该校反对在附近建设高层建筑的计划,并庆祝他们的胜利。罗托鲁瓦基督复临安息日会学校将这些问题归咎于邻近一家作为紧急住房的汽车旅馆的居民,涉及到一名男子在公共场合的不当行为以及儿童遭到辱骂的事件。

    2025年08月14日
    0
  • 今日热议“微乐陕西三代必赢辅助器免费安装”附开挂脚本详细步

    微乐陕西三代必赢辅助器免费安装是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便

    2025年08月14日
    0
  • 德勤:马来西亚IPO持续吸引投资者,资金募集不断

        路透吉隆坡8月10日电---德勤东南亚年中IPO报告称,包括马来西亚在内的东南亚地区的首次公开募股(IPO)正在增加,该地区的积极增长前景使其成为投资者的最爱。  德勤马来西亚破坏性事件咨询主管WongKarChoon表示,优秀的科技公司将继续获

    2025年08月14日
    0
  • 分享一款“多乐跑得私人房间作弊”确实果然有挂

    多乐跑得私人房间作弊是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加入我们(QQ群聊)免费测试,先看效果下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己

    2025年08月14日
    0
  • 以色列引发爆炸,黎巴嫩数千人受伤,至少8人遇难

    周二在黎巴嫩,据称以色列遥控引爆了全国各地的寻呼机,造成数千平民受伤,至少8人死亡。来自路透社,“寻呼机爆炸导致真主党战士死亡,黎巴嫩数千人受伤”:安全部门消息人士和黎巴嫩卫生部长称,周二,黎巴嫩境内用于通讯的传呼机发生爆炸,造成至少8人死亡,2750人受伤,

    2025年08月14日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • 凡白
    凡白 2025年08月10日

    我是品品号的签约作者“凡白”!

  • 凡白
    凡白 2025年08月10日

    希望本篇文章《AI模型预部署的可靠性评估》能对你有所帮助!

  • 凡白
    凡白 2025年08月10日

    本站[品品号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 凡白
    凡白 2025年08月10日

    本文概览:基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。 但是,作...

    联系我们

    邮件:品品号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们