当你走进医生的诊室,你会理所当然地认为:你的医生肯定接触过人体。他们学习过解剖学,观察过器官,也了解放射性疼痛和搏动性疼痛的区别。你会认为,他们掌握这些知识,不仅是通过阅读,更是通过多年的实践经验和专业训练积累而来。
现在想象一下,你发现这位医生从未接触过任何人体。他们只是阅读了数百万份病人报告,并极其细致地学习了诊断的典型“听起来”是什么样的。他们的解释仍然会让人信服,甚至感到安慰。语调恰当,用词无可挑剔,措辞也令人感到熟悉和安心。然而,一旦你了解到他们的知识实际上来源于文本模式而非与世界的接触,某些至关重要的东西就会瓦解。
每天,我们中的许多人都会求助于像 OpenAI 的 ChatGPT 这样的工具,以获取医疗建议、法律指导、心理分析、教育辅导,或是判断真假。在某种程度上,我们都知道这些大型语言模型(LLM)模仿的是一种它们实际上并不具备的世界观——即使它们的流畅性很容易让我们忘记这一点。
但是,语言逻辑模型(LLM)的推理过程是否与人类的判断力相似?或者它仅仅是生成推理的语言轮廓?作为一名研究人类判断力和信息动态的科学家,我最近与同事们着手研究这个出人意料地鲜为人知的问题。我们比较了LLM和人类在被要求对一系列心理学和神经科学领域研究了几十年的测试进行判断时的反应。我们并不期望这些系统像人类一样“思考”,但我们相信,了解它们与人类的实际差异,对于帮助人们评估如何以及何时使用这些工具至关重要。
在一项实验中,我们向50名普通民众和6名法学硕士展示了若干新闻来源,然后要求他们评估这些来源的可信度并解释其评估理由。以往的研究表明,当人们看到可疑的标题时,通常会发生以下几个过程。首先,人们会将标题与自己已有的认知进行比对:它是否符合基本事实、过往事件或个人经验。其次,读者会根据对新闻来源本身的预期进行判断,例如它是否来自一家以严谨报道著称的媒体,还是一家以夸大其词或带有偏见而闻名的媒体。第三,人们会思考该说法是否符合更广泛的事件链,是否真的有可能发生,以及它是否与类似情况的通常发展轨迹相符。
大型语言模型无法做到这一点。为了探究它们的运作方式,我们要求一些领先的模型按照特定流程评估新闻标题的可靠性。我们指示这些大型语言模型说明它们用来判断可信度的标准,并为最终判断提供理由。我们观察到,即使模型得出的结论与人类参与者相似,它们的理由也始终反映出从语言中提取的模式(例如,特定词语组合出现的频率以及出现的语境),而不是像人类那样参考外部事实、先前事件或经验。
在其他实验中,我们比较了人类和逻辑推理模型(LLM)在道德困境中的推理方式。人类在思考道德问题时,会运用规范、社会期望、情感反应以及受文化影响的关于伤害和公平的直觉。例如,人们在评价道德时,常常会运用因果推理。他们会考虑一个事件如何导致另一个事件,为什么时机很重要,以及如果过程中某些因素发生了改变,事情可能会如何发展。人们会通过反事实推理来设想各种情境,并提出这样的问题:“如果情况有所不同会怎样?”
我们发现,语言模型能够相当准确地重现这种思考方式:该模型提供的陈述反映了人们在谈论关怀、责任或权利时所使用的词汇。它会根据语言模式呈现因果关系,包括“如果……那么……”的反事实句。但重要的是,该模型实际上并没有进行任何想象或思考,而只是重现了人们谈论或书写这些反事实句时的模式。其结果听起来像是因果推理,但其背后的过程是模式补全,而非理解事件如何在现实世界中产生实际结果。
在我们研究的所有任务中,都出现了一种一致的模式。大型语言模型通常能够与人类的反应相匹配,但其原因与人类的推理方式截然不同。人类进行判断,模型进行关联;人类进行评估,模型进行预测;人类与世界互动,模型则与词语分布互动。它们的架构使其能够极其擅长重现文本中的模式,但却无法让它们接触到这些词语所指涉的世界。
然而,由于人类的判断也是通过语言表达的,模型给出的答案表面上往往与人类的答案非常相似。这种模型表面表现与实际表现之间的差距,正是我和我的同事们所说的“认知谬误”(epistemia):当知识的模拟在观察者看来与知识本身变得无法区分时,就会出现这种情况。认知谬误指的是人们在解读这些模型时存在的缺陷,即人们将语言上的合理性误认为是真理的替代品。这种情况的出现是因为模型表达流畅,而流畅性正是人类读者天生倾向于信任的东西。
这里的危险在于其微妙之处。主要问题不在于模型经常出错——人也会犯错。更深层次的问题在于,模型无法感知自身何时产生了幻觉,因为它根本无法表征真理。它无法形成信念,也无法修正信念,更无法用现实世界来检验其输出。它无法区分可靠和不可靠的断言,除非类比于先前的语言模式。简而言之,它无法做到判断的根本目的。
人们已经在法律、医学和心理学等需要区分似是而非和真相的领域中使用这些系统。模型可以生成一段听起来像是诊断、法律分析或道德论证的文字。但听起来像不像实质。模拟结果并非被模拟的对象。
这并非意味着应该摒弃大型语言模型。当它们被用作语言自动化引擎而非理解引擎时,它们的确是极其强大的工具。它们擅长构思、概括、重组和探索思想。但当我们要求它们进行判断时,我们便悄然改变了判断的本质——将其从思维与世界的关系转变为提示与概率分布的关系。
读者应该如何运用这些知识?不要畏惧这些系统,而应该努力更清晰地理解它们的能力和局限。记住,流畅并不等同于洞察力,雄辩也不代表理解。应该将大型语言模型视为复尊龙凯时杂的语言工具,它们需要人类的监督,正是因为它们无法接触到最终决定判断的领域:现实世界本身。
这些美国科学家的研究和结论堪称一股清流!这也许才是中美人工智能的真正差距,很少看到中国科学家和专家有这样的研究和公开言论。去年底,吴恩达曾就人工智能在评估方面的弱点有过深刻描述。实际上,这也许是人工智能目前大家都不愿提及的真正问题。人类在面对自己所处的环境时,不光需要知道什么是对的,更重要的是对不确定性进行预测和评估,最后才能决定行动!我们知道,没有绝对正确的东西,近代和现代科技所衍生出来的工业化所有手段不是不会出错,一是在我们有生之年看不到出错,二是不等到出错替代手段就早早出现了,这样导致我们看不到出错。人工智能系统的问题在于它不知道有什么错误在等着它,有什么风险在等着它,当然它也无法评估这些风险的危害,更无法采取措施避免或降低这些风险发生的机会!呼吁,多一些科学家和企业家给人工智能注入清流,促动找到更理性和健康的发展路径!人工智能不是不好,但也一定不是现在这样!AGI真的会出现吗?是我们人类需要的吗?
不要畏惧这些系统,而应该努力更清晰地理解它们的能力和局限。记住,流畅并不等同于洞察力,雄辩也不代表理解。应该将大型语言模型视为复杂的语言工具,它们需要人类的监督,正是因为它们无法接触到最终决定判断的领域:现实世界本身。
春节高速免费最后一刻,小车23点59分59秒“压哨绝杀”下高速,收费员兴奋鼓掌
如果说体育赛场上有“压哨绝杀”,那刚刚过去的春节假期,在高速公路上也上演了“压哨绝杀”。 2月23日晚上11点59分,湖南株洲西收费站的监控记录下了这样一幕:眼看免费通行的截止时间就要到了,收费员扯着嗓子拼命喊:“还有一分钟啊!快点!快点!
来源:新闻坊 近日69万公款被误转对方拒绝退还事件冲上热搜苏州工业园区一公司人力资源从业人员李女士因疏忽操作将公司一笔69万元的款项误转给曾与她有过房屋租赁往来的云南租客对方起初答应退款但不久后却改口称必须是云南昆明当地的派出所通知他他才可以退钱随后,李女士又联系开户行申请冻结对
11岁男童高速服务区被撞身亡,福建事发地交警部门回应:肇事司机已被控制
2月22日晚,福建省南平市延平区塔前服务区(福银高速福州方向)发生一起交通事故,11岁男童小耀(化名)跟随叔叔在上完卫生间返回车辆时被撞身亡。2月24日,负责处理这起事故的南平交警部门的工作人员告诉大皖新闻记者,目前肇事女司机已被控制,事故原因正在调查中。
女子返程被堵高速,举报占用应急车道的20多辆私家车,称花了半个多小时拍照上传,交警回应
据上游新闻报道,23日,车主“十八孖”发帖称,返程路上自己堵在了湖南高速,堵车期间发现20多辆私家车占用应急车道行驶,挨个拍照后将它们举报到湖南高速交通服务便民平台。
今年春节,正月初二,当失联8天的官开英老人被乡邻们在一处山林里成功找到时,脚上只剩一只鞋,身上到处是被荆棘划伤的痕迹,有些伤口已结痂,身边堆着一些树叶…
巴拿马政府强行接管长和营运的两个港口,外交部:中方将坚决维护企业的正当合法权益
据新华社,针对巴拿马政府强行接管香港长江和记集团营运的两个港口,外交部发言人毛宁24日在例行记者会上答问时表示,中方在巴拿马有关港口问题上的立场是明确的。“我相信你也注意到有关企业已经发表了声明,表示将保留包括诉诸法律程序在内的一切权利。中方将坚决维护企业的正当合法权益。
2月24日,节后上班首个工作日,记者暗访郑州市二七区政务服务中心发现,紧临的四个窗口,三个显示“暂停服务”。
3种深蹲变式及训练部位 #健身干货 #深蹲 #臀腿训练 #头条作品双星激励计划
中日关系的走向或许不用乱猜了,已经很明朗了,日本根本没能力挑战中国,这点毋庸置疑。至于两国会不会开战,开火权牢牢掌握在中方手中
去年十一月,日本国会的一场答辩让整个东亚地区的空气骤然凝固。 时任首相在回答议员质询时,抛出了一个极其危险的表述,将台海地区的潜在事态与日本自身的“存亡危机”直接挂钩,并暗示这可能触发集体自卫权的行使。 这番言论如同一块投入平静湖面的巨石,瞬间激起了千层浪。
这些战机进入韩国防空识别区和中国防空识别区之间双方未重叠的区域,随着距离中国防空识别区越来越近,中方派出战机进行应对,双方一度在空中形成对峙状态,但都没有进入对方防空识别区,整个过程保持克制,没有发生进一步冲突。
2026年2月16日除夕夜,新北市金山的法鼓山撞钟祈福仪式现场,国民党主席郑丽文参与敲响第106至108响钟声,在她手持红绳准备敲钟到钟声落下时段,手中的红绳两度出现抖动,一旁的“考试委员”邓家基有点惊慌,欲伸手搀扶。