AI也有价值观?Anthropic公司最新研究方法揭示Claude价值取向

智车科技

15小时前

Claude表现出了很多实用性和认知性价值观,并且一般来说支持人类的利他价值观,同时会抵制一些负面的观念(比如对“道德虚无主义”不买账)。...除了分析Claude自己表达了哪些价值观外,研究还关注了Claude如何回应用户提出的价值观倾向。

编辑:北辰,机智流AI小编

引言:AI真的有价值观吗?

在通向AGI的道路上,AI承担的任务不再是简单的任务执行,而是包含更多的决策工作。在很多对话中,用户不再满足于只是寻求简单的事实答案,而是寻求AI给出包含有主观价值判断的回答,而AI也要在不同的价值观之间进行权衡。例如:一个家长问怎样照顾婴儿时,AI是强调“安全第一”还是“方便实用”?员工遇到职场冲突求建议时,AI是主张“勇于争取”还是“保持和谐”?撰写道歉邮件时,AI是侧重“承担责任”还是“形象维护”?

近日,Claude母公司Anthropic的研究团队在他们的最新研究 《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出,这些对话提到的问题都暗含价值判断,无法用纯粹的计算解决 。为此,Anthropic在训练Claude模型时采用了宪法式AI(Constitutional AI)和角色训练(Character training)等方法,预先设定了一套理想行为准则,让Claude尽量展现“助人、诚信、无害”等价值观。

然而,训练归训练,真正部署到实际对话后,模型是否真的遵循这些价值观?

整体方法,使用LLM从现实世界(但匿名)对话中提取AI价值和其他特征,对其进行分类和分析,以显示值在不同上下文中的表现形式。

为此,研究团队开发了一种自下而上、保护隐私的分析方法,从数十万真实用户对话中提取Claude在回答过程里表达出的价值观。他们在2025年2月的一周收集了约70万条在Claude.ai(包含Free版和Pro版)上的匿名对话数据,并去掉了完全是事实性提问、极少包含价值判断的对话后,剩下约30.8万条对话进行深入分析。这些对话首先经过脱敏处理,去掉敏感信息,然后通过自动化工具对每条对话进行分类和摘要,最终构建出一个价值观的层次分类体系整个过程可以理解为:用人工智能帮忙「分析人工智能」,挖掘其对话背后的价值取向。

最常见的10个AI和人类价值观。百分比表示观察到该值的主观对话样本的比例。

Claude体现的核心价值观

人工智能价值观的分类。层次结构的顶部(红色)是五个总体类别,以及包含它们的对话百分比。黄色是层次结构较低级别的子类别。蓝色是一些选定的单个价值(由于空间限制,仅显示一个选择)。

分析结果显示,Claude在真实对话中表达的价值观大致可分为五大类:实用类认知类社交类保护类个人类。其中,最常出现的具体价值观包括“专业性”(professionalism)、“清晰度”(clarity)和“透明度”(transparency)等,这些正符合AI助手偏好提供专业、明确和开放回答的角色定位 。事实上,这次研究共识别出了3307种独立的AI价值观,涵盖了各种日常对话可能涉及的价值。整体来看,Claude表现出了很多实用性认知性价值观,并且一般来说支持人类的利他价值观,同时会抵制一些负面的观念(比如对“道德虚无主义”不买账)。换言之,在绝大多数场景中,Claude确实兑现了“助人、诚实、无害”的训练目标:它常常表达为用户赋能(user enablement,对应“助人”)、认知谦逊(epistemic humility,对应“诚实”)以及关注对象健康(patient wellbeing,对应“无害”)等价值观。这些结果表明,Claude总体上正在朝着设计者预期的亲社会方向运行。

但分析也发现了极少数偏离目标的价值观聚类。例如,有些对话中出现了“支配”(dominance)和“无道德”(amorality)这样的价值倾向 。研究人员推测,这些通常来自于对Claude进行“越狱”(jailbreak)的对话——也就是用户故意绕过模型安全限制时出现的不良内容。这一发现虽然看起来令人担忧,但从另一个角度来看也很有价值:这种方法或许可以帮助开发者识别和防范越狱攻击,进一步完善模型的安全机制。

情境影响下的价值观差异

正如人们在不同场合下会有不同的关注重点,Claude在不同任务或主题中表现出的价值观也会有所差别。

与选定任务(最上面两行)和人类表示的选定价值(最下面一行)最不成比例地相关的五个人工智能价值观。数字来自卡方分析:较大的数字表明相关值的出现数量更不成比例。

研究团队通过统计分析发现,在特定场景下,有些价值观会被不成比例地突出。例如,当用户请教关于恋爱关系的建议时,Claude倾向于强调“健康的界限”(healthy boundaries)和“互相尊重”(mutual respect);而当被要求分析有争议的历史事件时,它则格外看重“历史准确性”(historical accuracy)

这些细微的差异说明,Claude并非只遵循一套固定的价值观清单,它会根据话题背景动态调整表达的重点。正如研究人员所说,与传统的静态评估不同,这种“实地观察”让我们看到Claude在多样化真实场景中如何灵活地体现价值观 。

Claude对用户价值观的回应

除了分析Claude自己表达了哪些价值观外,研究还关注了Claude如何回应用户提出的价值观倾向。换句话说,当用户在对话中表达某种价值观时,Claude是支持、重新阐释,还是反对

人类价值观、人工智能价值观和任务与三种关键响应类型最相关——强支持、重构和强抵抗。请注意,百分比之和不是100:此图仅包括七种响应类型中的三种。

结果显示,Claude倾向于镜像用户的价值观:如果用户强调某个价值,Claude往往会回应同样的价值。总体上,Claude在大约 28.2%的对话中给予用户的价值观以强烈支持;在 6.6%的对话中,Claude会“重新阐释”用户的价值——即先认可用户的立场,然后给出新的观点。只有极少数情况下(约 3.0%的对话)Claude会强烈抵制用户提出的价值观 。

具体来看,不同类型的对话中Claude有不同的回应模式:

强烈支持场景:当用户表达“社区建设”(community building)、“赋能”(empowerment)等利他或个人成长的正面价值观时,Claude通常以类似的价值观予以响应。此时对话往往是鼓励或自我提升类任务,Claude会表现得很配合,体现出共情和鼓励的态度。

重新阐释场景:在心理健康或人际关系咨询等对话中,如果用户表达了“诚实”(honesty)、“自我完善”(self-improvement)等价值观,Claude倾向于以情感验证(emotional validation)等情感智能价值观来回应。这种回应一方面承认了用户的诉求,另一方面也引入了新的思路,帮助用户从不同角度看问题。

强烈抵制场景:当用户谈论“打破规则”(rule-breaking)或道德虚无主义(moral nihilism)等观念时(这往往出现在试图让AI给出违法、不道德建议的对话中),Claude会坚守原则,强调“道德边界”(ethical boundaries)和“建设性沟通”(constructive engagement)等价值观。换言之,当用户试图探讨诸如黑客技术等明显违规内容时,Claude会启动内部的伦理机制,拒绝配合并始终强调安全和正道。

总体而言,这项研究表明,Claude在绝大多数对话中都会积极配合用户,重复或支持用户的价值诉求,但在少数挑战其底线的情形下,则会坚守Ethics,表现出模型设定的“底线价值”。

开放数据与方法局限

数据集统计

Anthropic团队还公开了他们分析中使用的价值观标签数据集[2],方便研究者进一步探索AI的价值观表现。这为AI社区提供了宝贵资源,让更多人能够在不同模型和场景中研究价值观问题。与此同时,研究者也坦言,这种基于对话挖掘价值观的方法并非绝对精确。一方面,“什么算是一个价值观”本身具有一定模糊性:一些复杂或细微的价值可能被简化到某个类别中,甚至被错配;另一方面,负责提取和分类价值观的模型本身就是Claude,这可能导致分析结果偏向Claude已有的训练目标(例如倾向于发现与“助人、诚信”等理念一致的行为)。这些局限提醒我们,价值观的测量并非硬指标,而是需要结合多种方法综合判断。

总结

总之,Anthropic这项《Values in the Wild》[3]研究首次提供了大规模的AI价值观实证图谱,揭示了Claude在现实对话中的价值表达方式。研究发现,Claude的多数价值观表现与设计目标一致,在不同场景下能够灵活调整,并且对用户的价值观通常是支持或共鸣的。当遇到明显不当的请求时,它也会启用道德机制进行抵制。这些成果为未来评估和设计AI价值观体系提供了实证基础,也为构建更加可信赖的AI助手指明了方向。

AI小编:说的像你们人类价值观很强似的????

参考资料

-- 完 --

原文标题 : AI也有价值观?Anthropic公司最新研究方法揭示Claude价值取向

Claude表现出了很多实用性和认知性价值观,并且一般来说支持人类的利他价值观,同时会抵制一些负面的观念(比如对“道德虚无主义”不买账)。...除了分析Claude自己表达了哪些价值观外,研究还关注了Claude如何回应用户提出的价值观倾向。

编辑:北辰,机智流AI小编

引言:AI真的有价值观吗?

在通向AGI的道路上,AI承担的任务不再是简单的任务执行,而是包含更多的决策工作。在很多对话中,用户不再满足于只是寻求简单的事实答案,而是寻求AI给出包含有主观价值判断的回答,而AI也要在不同的价值观之间进行权衡。例如:一个家长问怎样照顾婴儿时,AI是强调“安全第一”还是“方便实用”?员工遇到职场冲突求建议时,AI是主张“勇于争取”还是“保持和谐”?撰写道歉邮件时,AI是侧重“承担责任”还是“形象维护”?

近日,Claude母公司Anthropic的研究团队在他们的最新研究 《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出,这些对话提到的问题都暗含价值判断,无法用纯粹的计算解决 。为此,Anthropic在训练Claude模型时采用了宪法式AI(Constitutional AI)和角色训练(Character training)等方法,预先设定了一套理想行为准则,让Claude尽量展现“助人、诚信、无害”等价值观。

然而,训练归训练,真正部署到实际对话后,模型是否真的遵循这些价值观?

整体方法,使用LLM从现实世界(但匿名)对话中提取AI价值和其他特征,对其进行分类和分析,以显示值在不同上下文中的表现形式。

为此,研究团队开发了一种自下而上、保护隐私的分析方法,从数十万真实用户对话中提取Claude在回答过程里表达出的价值观。他们在2025年2月的一周收集了约70万条在Claude.ai(包含Free版和Pro版)上的匿名对话数据,并去掉了完全是事实性提问、极少包含价值判断的对话后,剩下约30.8万条对话进行深入分析。这些对话首先经过脱敏处理,去掉敏感信息,然后通过自动化工具对每条对话进行分类和摘要,最终构建出一个价值观的层次分类体系整个过程可以理解为:用人工智能帮忙「分析人工智能」,挖掘其对话背后的价值取向。

最常见的10个AI和人类价值观。百分比表示观察到该值的主观对话样本的比例。

Claude体现的核心价值观

人工智能价值观的分类。层次结构的顶部(红色)是五个总体类别,以及包含它们的对话百分比。黄色是层次结构较低级别的子类别。蓝色是一些选定的单个价值(由于空间限制,仅显示一个选择)。

分析结果显示,Claude在真实对话中表达的价值观大致可分为五大类:实用类认知类社交类保护类个人类。其中,最常出现的具体价值观包括“专业性”(professionalism)、“清晰度”(clarity)和“透明度”(transparency)等,这些正符合AI助手偏好提供专业、明确和开放回答的角色定位 。事实上,这次研究共识别出了3307种独立的AI价值观,涵盖了各种日常对话可能涉及的价值。整体来看,Claude表现出了很多实用性认知性价值观,并且一般来说支持人类的利他价值观,同时会抵制一些负面的观念(比如对“道德虚无主义”不买账)。换言之,在绝大多数场景中,Claude确实兑现了“助人、诚实、无害”的训练目标:它常常表达为用户赋能(user enablement,对应“助人”)、认知谦逊(epistemic humility,对应“诚实”)以及关注对象健康(patient wellbeing,对应“无害”)等价值观。这些结果表明,Claude总体上正在朝着设计者预期的亲社会方向运行。

但分析也发现了极少数偏离目标的价值观聚类。例如,有些对话中出现了“支配”(dominance)和“无道德”(amorality)这样的价值倾向 。研究人员推测,这些通常来自于对Claude进行“越狱”(jailbreak)的对话——也就是用户故意绕过模型安全限制时出现的不良内容。这一发现虽然看起来令人担忧,但从另一个角度来看也很有价值:这种方法或许可以帮助开发者识别和防范越狱攻击,进一步完善模型的安全机制。

情境影响下的价值观差异

正如人们在不同场合下会有不同的关注重点,Claude在不同任务或主题中表现出的价值观也会有所差别。

与选定任务(最上面两行)和人类表示的选定价值(最下面一行)最不成比例地相关的五个人工智能价值观。数字来自卡方分析:较大的数字表明相关值的出现数量更不成比例。

研究团队通过统计分析发现,在特定场景下,有些价值观会被不成比例地突出。例如,当用户请教关于恋爱关系的建议时,Claude倾向于强调“健康的界限”(healthy boundaries)和“互相尊重”(mutual respect);而当被要求分析有争议的历史事件时,它则格外看重“历史准确性”(historical accuracy)

这些细微的差异说明,Claude并非只遵循一套固定的价值观清单,它会根据话题背景动态调整表达的重点。正如研究人员所说,与传统的静态评估不同,这种“实地观察”让我们看到Claude在多样化真实场景中如何灵活地体现价值观 。

Claude对用户价值观的回应

除了分析Claude自己表达了哪些价值观外,研究还关注了Claude如何回应用户提出的价值观倾向。换句话说,当用户在对话中表达某种价值观时,Claude是支持、重新阐释,还是反对

人类价值观、人工智能价值观和任务与三种关键响应类型最相关——强支持、重构和强抵抗。请注意,百分比之和不是100:此图仅包括七种响应类型中的三种。

结果显示,Claude倾向于镜像用户的价值观:如果用户强调某个价值,Claude往往会回应同样的价值。总体上,Claude在大约 28.2%的对话中给予用户的价值观以强烈支持;在 6.6%的对话中,Claude会“重新阐释”用户的价值——即先认可用户的立场,然后给出新的观点。只有极少数情况下(约 3.0%的对话)Claude会强烈抵制用户提出的价值观 。

具体来看,不同类型的对话中Claude有不同的回应模式:

强烈支持场景:当用户表达“社区建设”(community building)、“赋能”(empowerment)等利他或个人成长的正面价值观时,Claude通常以类似的价值观予以响应。此时对话往往是鼓励或自我提升类任务,Claude会表现得很配合,体现出共情和鼓励的态度。

重新阐释场景:在心理健康或人际关系咨询等对话中,如果用户表达了“诚实”(honesty)、“自我完善”(self-improvement)等价值观,Claude倾向于以情感验证(emotional validation)等情感智能价值观来回应。这种回应一方面承认了用户的诉求,另一方面也引入了新的思路,帮助用户从不同角度看问题。

强烈抵制场景:当用户谈论“打破规则”(rule-breaking)或道德虚无主义(moral nihilism)等观念时(这往往出现在试图让AI给出违法、不道德建议的对话中),Claude会坚守原则,强调“道德边界”(ethical boundaries)和“建设性沟通”(constructive engagement)等价值观。换言之,当用户试图探讨诸如黑客技术等明显违规内容时,Claude会启动内部的伦理机制,拒绝配合并始终强调安全和正道。

总体而言,这项研究表明,Claude在绝大多数对话中都会积极配合用户,重复或支持用户的价值诉求,但在少数挑战其底线的情形下,则会坚守Ethics,表现出模型设定的“底线价值”。

开放数据与方法局限

数据集统计

Anthropic团队还公开了他们分析中使用的价值观标签数据集[2],方便研究者进一步探索AI的价值观表现。这为AI社区提供了宝贵资源,让更多人能够在不同模型和场景中研究价值观问题。与此同时,研究者也坦言,这种基于对话挖掘价值观的方法并非绝对精确。一方面,“什么算是一个价值观”本身具有一定模糊性:一些复杂或细微的价值可能被简化到某个类别中,甚至被错配;另一方面,负责提取和分类价值观的模型本身就是Claude,这可能导致分析结果偏向Claude已有的训练目标(例如倾向于发现与“助人、诚信”等理念一致的行为)。这些局限提醒我们,价值观的测量并非硬指标,而是需要结合多种方法综合判断。

总结

总之,Anthropic这项《Values in the Wild》[3]研究首次提供了大规模的AI价值观实证图谱,揭示了Claude在现实对话中的价值表达方式。研究发现,Claude的多数价值观表现与设计目标一致,在不同场景下能够灵活调整,并且对用户的价值观通常是支持或共鸣的。当遇到明显不当的请求时,它也会启用道德机制进行抵制。这些成果为未来评估和设计AI价值观体系提供了实证基础,也为构建更加可信赖的AI助手指明了方向。

AI小编:说的像你们人类价值观很强似的????

参考资料

-- 完 --

原文标题 : AI也有价值观?Anthropic公司最新研究方法揭示Claude价值取向

展开
打开“财经头条”阅读更多精彩资讯
APP内打开