缓解人工智能幻觉:两个大脑胜过一个大脑

   随着生成式人工智能(genAI)继续被公众和各种企业广泛使用,它的采用有时会受到错误、版权侵权问题和直接幻觉的困扰,从而削弱了对其准确性的信任。...

  

随着生成式人工智能(genAI)继续被公众和各种企业广泛使用,它的采用有时会受到错误、版权侵权问题和直接幻觉的困扰,从而削弱了对其准确性的信任。

斯坦福大学的一项研究发现,基因在回答法律问题时出错的概率为75%。“例如,”该研究发现,“在一项衡量两个不同(法院)案件之间的先例关系的任务中,大多数法学硕士的表现并不比随机猜测更好。”

问题在于,基因人工智能技术背后的大型语言模型(llm),如OpenAI的GPT-4、meta的Llama 2和谷歌的PaLM 2,不仅具有非特定参数的无定形,而且还由天生有偏见的易犯错的人类训练。

法学硕士被描述为随机鹦鹉——随着他们的规模越来越大,他们的猜想或随机答案也变得越来越随机。这些“下一个单词预测引擎”继续鹦鹉学语,但没有逻辑框架。

减少幻觉和其他基因相关错误的一种方法是检索增强生成或“RAG”——一种创建更定制的基因模型的方法,可以更准确、更具体地响应查询。

但是RAG并没有清理基因的混乱,因为它的推理仍然没有逻辑规则。

换句话说,genAI的自然语言处理对于可靠的结论(输出)没有透明的推理规则。一些人认为,我们需要的是一种“正式语言”或一系列陈述——规则或护栏——以确保在通往genAI提供的最终答案的每一步都得出可靠的结论。自然语言处理缺乏精确语义的形式系统,产生的意义是主观的,缺乏坚实的基础。

但是通过监测和评估,基因人工智能可以产生更准确的反应。

“简单地说,这类似于2+2 = 4的直接协议。元素认知公司的创始人兼首席执行官大卫·费鲁奇在最近的一篇博客文章中写道:“最后的答案是4。

费鲁奇是一名计算机科学家,曾担任IBM沃森超级计算机的首席研究员,这台自然语言处理器赢得了电视智力竞赛节目《危险边缘!》在2011年。

基因人工智能最近出现了一个严重偏离轨道的例子,涉及谷歌(Google)的新Gemini工具,该工具接受用户的文本提示,并创建明显偏向某种社会政治观点的图像。用户文本提示要求纳粹生成黑人和亚洲纳粹的图像。当被要求画一幅教皇的画时,双子座的回应是画了一位亚洲女性教皇和一位黑人教皇。

谷歌被迫将该平台下线以解决这些问题。但双子座的问题并不是唯一的。

元素认知发展了一种叫做“神经符号推理器”的东西。这台名为Braid的推理机根据费鲁奇公司员工的采访,为它从法学硕士课程中读取的语言建立了一个逻辑模型。

“我们采访业务分析师,然后说,‘让我确保我理解你的问题。让我们来看看对你来说很重要的各种业务规则、关系约束和授权。”“然后你最终得到...(910 chars omitted)...。IDC人工智能和自动化实践研究总监Kathy Lang表示,各种机器学习平台(如datarrobot)也正在进入人工智能监控领域。

到目前为止,监控基因人工智能输出通常需要人工参与,尤其是在企业部署中。虽然在可预见的未来可能会出现这种情况,但监测和评估技术可以大大减少人工智能错误的数量。

“你可以让人类判断法学硕士的输出和反应,然后将反馈纳入模型,但这种做法是不可扩展的。你也可以使用其他法学硕士的评价函数来判断其他法学硕士的产出。”“这肯定会成为一种趋势。”

Lang将LLM监控软件归入大型语言模型操作(LLMOps)的范畴,LLMOps通常评估和调试基于LLM的应用程序。更一般地说,它被称为基础模型操作,或FMOps。

“FMOps……明确用于自动化和简化基因生命周期,”Lang说。“基因ai模型的主观性需要一些新的FMOps工具、流程和最佳实践。FMOps的功能包括测试、评估、跟踪和比较基础模型;用新数据调整和调整它们;开发定制衍生模型;调试和优化性能;以及在生产环境中部署和监控基于fm的应用程序。

“这实际上是法学硕士的机器学习操作……重点关注新的工具集、架构原则和最佳实践,以实现基于llm的应用程序的生命周期。”

例如,alize的Phoenix工具使用一个LLM来评估另一个LLM的相关性、毒性和响应的质量。该工具使用“trace”来记录LLM请求(由应用程序或最终用户发出)通过多个步骤传播时所采取的路径。附带的OpenInference规范使用遥测数据来理解llm的执行和周围的应用程序上下文。简而言之,可以找出LLM工作流中断的位置,或者排除与检索和工具执行相关的问题。

高德纳研究公司(Gartner Research)杰出的副总裁分析师Avivah Litan表示,法学硕士监测和评估技术以不同的方式发挥作用。她说,有些人会检查数据的来源,并试图检查法学硕士回应的来源,“如果他们找不到,就会认为这是幻觉。”

其他技术会寻找输入和输出嵌入之间的矛盾,如果它们不匹配或“加起来”,就会被标记为幻觉。否则,它将被清除为适当的响应。

其他供应商的技术寻找“异常值”或不寻常的响应。

与谷歌搜索的操作方式相同,数据库中的信息被转换为数字数据,这种做法被称为“嵌入”。例如,一个地区的一家酒店可能会因为它的价格、设施和位置而被赋予五位数的名称。如果你在谷歌上搜索某个地区价格和设施相似的酒店,搜索引擎会反馈给你所有价格和设施相似的酒店。

以同样的方式,法学硕士评估软件寻找与嵌入相似的答案——或者最接近于查询的数据。“如果它远离嵌入,那么这表明它是一个异常值,然后你可以查找为什么它是一个异常值。然后你可以确定这不是一个正确的数据来源,”Litan说。“谷歌喜欢这种方法,因为他们拥有所有的搜索数据和搜索功能。”

法学硕士评估工具可以最大限度地减少幻觉和错误输出的另一种方法是寻找给出的响应的来源。如果没有可信的来源,那就说明这是幻觉。

Lang说:“所有主要的云供应商也在研究类似的技术,以帮助调整和评估LLM应用程序。”

本文来自作者[admin]投稿,不代表qnwor号立场,如若转载,请注明出处:https://wap.qnwor.cn/zsfx/202507-1971.html

(14)

文章推荐

  • 王薇薇分享了青春之泉的配方,其中包括伏特加、麦当劳等

    著名时装设计师王薇薇(VeraWang)在74岁的时候看起来如此年轻,这让很多人感到震惊。当被问及她是怎么做到这么漂亮的时候,她给出了一个不同寻常的清单,包括伏特加、努力工作、麦当劳、唐恩都乐、据采访这位著名设计师的《第六页》报道,他是快餐的忠实粉丝,“我确实吃麦当劳,绝对的,

    2025年06月18日
    14
  • 沙特阿拉伯、俄罗斯将自愿减产延长至年底,市场跳涨

        迪拜,9月5日——沙特阿拉伯和俄罗斯今天表示,他们将自愿减产协议延长至今年年底,尽管石油市场反弹,分析师预计第四季度供应紧张。消息传出后,油价大幅上涨,布伦特原油价格自去年11月以来首次突破每桶90美元(合419令吉),尽管伊朗和委内瑞拉的石油出口稳步增长,因为市场

    2025年06月21日
    11
  • 莫斯科向基辅发射了75架无人机

      军方官员表示,周六上午,俄罗斯对乌克兰发起了自入侵以来最为猛烈的无人机攻击,主要目标是乌克兰首都。乌克兰空军司令尼古拉·奥列什丘克(MykolaOleshchuk)在他的Telegram频道上指出:“基辅是主要目标。”基辅武装部队透露,俄

    2025年06月24日
    12
  • 露西·博蒙特在震惊地宣布乔恩·理查森离婚后,对自己的事业造成了打击

    据报道,喜剧演员露西·博蒙特的《Hullraisers》在播出两季后被砍。这些报道是在她与丈夫乔恩·理查森震惊分手后发布的。2024年4月12日,两人分享了他们的大新闻。在一份令人震惊的声明中,就在她解释了与另一半合作的唯一缺点几天后,这对夫妇说:“经过9年的婚姻,

    2025年06月25日
    12
  • 专家指出,巴基斯坦各州国庆庆祝活动中采用不同主题和标志违背了联邦制原则

    吉隆坡,8月19日——由民族联盟党青年领袖AhmadFadhliShaari提出的在国家联盟党统治的四个州使用不同主题和标志庆祝国庆日的建议被视为背叛了该国实行的联邦制原则。马来人统治者协会主席MujibuAbdMuis说,考虑到国庆日庆祝活动是一个全国性的

    2025年07月28日
    13
  • 玩家必备攻略“山西微乐麻将挂试用一天”(确实有挂)

    山西微乐麻将挂试用一天是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成

    2025年07月28日
    10
  • 因多起火灾,I-70在来福枪附近双向封闭,交通部门建议绕行

      交通部建议预计会有延误,并绕道进入美国6号高速公路。驾车者可以在交通部网站上了解最新情况。“司机们可以走前面的路绕行。工作人员正在处理高速公路附近的火灾,”加菲尔德县警长沃尔特·斯托告诉《丹佛公报》新闻合作伙伴9News。“火势不会蔓延到危险的程度。他们所做的唯一一件事就是空投水,以

    2025年07月29日
    14
  • 查到实测辅助“手机打牌怀疑开挂怎么查记录呢”(确实有挂)

    手机打牌怀疑开挂怎么查记录呢是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可

    2025年07月30日
    11
  • 分享实测攻略“河南朋友局辅助器”附开挂脚本详细

    河南朋友局辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出手机

    2025年08月01日
    8
  • 今日教程“牌乐门有没有挂吗”爆光开挂猫腻

    牌乐门有没有挂吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出手机

    2025年08月01日
    12

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年07月18日

    我是qnwor号的签约作者“admin”!

  • admin
    admin 2025年07月18日

    希望本篇文章《缓解人工智能幻觉:两个大脑胜过一个大脑》能对你有所帮助!

  • admin
    admin 2025年07月18日

    本站[qnwor号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年07月18日

    本文概览:   随着生成式人工智能(genAI)继续被公众和各种企业广泛使用,它的采用有时会受到错误、版权侵权问题和直接幻觉的困扰,从而削弱了对其准确性的信任。...

    联系我们

    邮件:qnwor号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们