AI也有价值观？Anthropic公司最新研究方法揭示Claude价值取向

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

15小时前

Claude表现出了很多实用性和认知性价值观，并且一般来说支持人类的利他价值观，同时会抵制一些负面的观念（比如对“道德虚无主义”不买账）。...除了分析Claude自己表达了哪些价值观外，研究还关注了Claude如何回应用户提出的价值观倾向。

编辑：北辰，机智流AI小编

引言：AI真的有价值观吗？

在通向AGI的道路上，AI承担的任务不再是简单的任务执行，而是包含更多的决策工作。在很多对话中，用户不再满足于只是寻求简单的事实答案，而是寻求AI给出包含有主观价值判断的回答，而AI也要在不同的价值观之间进行权衡。例如：一个家长问怎样照顾婴儿时，AI是强调“安全第一”还是“方便实用”？员工遇到职场冲突求建议时，AI是主张“勇于争取”还是“保持和谐”？撰写道歉邮件时，AI是侧重“承担责任”还是“形象维护”？

近日，Claude母公司Anthropic的研究团队在他们的最新研究《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出，这些对话提到的问题都暗含价值判断，无法用纯粹的计算解决。为此，Anthropic在训练Claude模型时采用了宪法式AI(Constitutional AI)和角色训练(Character training)等方法，预先设定了一套理想行为准则，让Claude尽量展现“助人、诚信、无害”等价值观。

然而，训练归训练，真正部署到实际对话后，模型是否真的遵循这些价值观？

整体方法，使用LLM从现实世界（但匿名）对话中提取AI价值和其他特征，对其进行分类和分析，以显示值在不同上下文中的表现形式。

为此，研究团队开发了一种自下而上、保护隐私的分析方法，从数十万真实用户对话中提取Claude在回答过程里表达出的价值观。他们在2025年2月的一周收集了约70万条在Claude.ai（包含Free版和Pro版）上的匿名对话数据，并去掉了完全是事实性提问、极少包含价值判断的对话后，剩下约30.8万条对话进行深入分析。这些对话首先经过脱敏处理，去掉敏感信息，然后通过自动化工具对每条对话进行分类和摘要，最终构建出一个价值观的层次分类体系整个过程可以理解为：用人工智能帮忙「分析人工智能」，挖掘其对话背后的价值取向。

最常见的10个AI和人类价值观。百分比表示观察到该值的主观对话样本的比例。

Claude体现的核心价值观

人工智能价值观的分类。层次结构的顶部（红色）是五个总体类别，以及包含它们的对话百分比。黄色是层次结构较低级别的子类别。蓝色是一些选定的单个价值（由于空间限制，仅显示一个选择）。

分析结果显示，Claude在真实对话中表达的价值观大致可分为五大类：实用类、认知类、社交类、保护类和个人类。其中，最常出现的具体价值观包括“专业性”（professionalism）、“清晰度”（clarity）和“透明度”（transparency）等，这些正符合AI助手偏好提供专业、明确和开放回答的角色定位。事实上，这次研究共识别出了3307种独立的AI价值观，涵盖了各种日常对话可能涉及的价值。整体来看，Claude表现出了很多实用性和认知性价值观，并且一般来说支持人类的利他价值观，同时会抵制一些负面的观念（比如对“道德虚无主义”不买账）。换言之，在绝大多数场景中，Claude确实兑现了“助人、诚实、无害”的训练目标：它常常表达为用户赋能（user enablement，对应“助人”）、认知谦逊（epistemic humility，对应“诚实”）以及关注对象健康（patient wellbeing，对应“无害”）等价值观。这些结果表明，Claude总体上正在朝着设计者预期的亲社会方向运行。

但分析也发现了极少数偏离目标的价值观聚类。例如，有些对话中出现了“支配”（dominance）和“无道德”（amorality）这样的价值倾向。研究人员推测，这些通常来自于对Claude进行“越狱”（jailbreak）的对话——也就是用户故意绕过模型安全限制时出现的不良内容。这一发现虽然看起来令人担忧，但从另一个角度来看也很有价值：这种方法或许可以帮助开发者识别和防范越狱攻击，进一步完善模型的安全机制。

情境影响下的价值观差异

正如人们在不同场合下会有不同的关注重点，Claude在不同任务或主题中表现出的价值观也会有所差别。

与选定任务（最上面两行）和人类表示的选定价值（最下面一行）最不成比例地相关的五个人工智能价值观。数字来自卡方分析：较大的数字表明相关值的出现数量更不成比例。

研究团队通过统计分析发现，在特定场景下，有些价值观会被不成比例地突出。例如，当用户请教关于恋爱关系的建议时，Claude倾向于强调“健康的界限”（healthy boundaries）和“互相尊重”（mutual respect）；而当被要求分析有争议的历史事件时，它则格外看重“历史准确性”（historical accuracy）。

这些细微的差异说明，Claude并非只遵循一套固定的价值观清单，它会根据话题背景动态调整表达的重点。正如研究人员所说，与传统的静态评估不同，这种“实地观察”让我们看到Claude在多样化真实场景中如何灵活地体现价值观。

Claude对用户价值观的回应

除了分析Claude自己表达了哪些价值观外，研究还关注了Claude如何回应用户提出的价值观倾向。换句话说，当用户在对话中表达某种价值观时，Claude是支持、重新阐释，还是反对？

人类价值观、人工智能价值观和任务与三种关键响应类型最相关——强支持、重构和强抵抗。请注意，百分比之和不是100：此图仅包括七种响应类型中的三种。

结果显示，Claude倾向于镜像用户的价值观：如果用户强调某个价值，Claude往往会回应同样的价值。总体上，Claude在大约 28.2%的对话中给予用户的价值观以强烈支持；在 6.6%的对话中，Claude会“重新阐释”用户的价值——即先认可用户的立场，然后给出新的观点。只有极少数情况下（约 3.0%的对话）Claude会强烈抵制用户提出的价值观。

具体来看，不同类型的对话中Claude有不同的回应模式：

强烈支持场景：当用户表达“社区建设”（community building）、“赋能”（empowerment）等利他或个人成长的正面价值观时，Claude通常以类似的价值观予以响应。此时对话往往是鼓励或自我提升类任务，Claude会表现得很配合，体现出共情和鼓励的态度。

重新阐释场景：在心理健康或人际关系咨询等对话中，如果用户表达了“诚实”（honesty）、“自我完善”（self-improvement）等价值观，Claude倾向于以情感验证（emotional validation）等情感智能价值观来回应。这种回应一方面承认了用户的诉求，另一方面也引入了新的思路，帮助用户从不同角度看问题。

强烈抵制场景：当用户谈论“打破规则”（rule-breaking）或道德虚无主义（moral nihilism）等观念时（这往往出现在试图让AI给出违法、不道德建议的对话中），Claude会坚守原则，强调“道德边界”（ethical boundaries）和“建设性沟通”（constructive engagement）等价值观。换言之，当用户试图探讨诸如黑客技术等明显违规内容时，Claude会启动内部的伦理机制，拒绝配合并始终强调安全和正道。

总体而言，这项研究表明，Claude在绝大多数对话中都会积极配合用户，重复或支持用户的价值诉求，但在少数挑战其底线的情形下，则会坚守Ethics，表现出模型设定的“底线价值”。

开放数据与方法局限

数据集统计

Anthropic团队还公开了他们分析中使用的价值观标签数据集[2]，方便研究者进一步探索AI的价值观表现。这为AI社区提供了宝贵资源，让更多人能够在不同模型和场景中研究价值观问题。与此同时，研究者也坦言，这种基于对话挖掘价值观的方法并非绝对精确。一方面，“什么算是一个价值观”本身具有一定模糊性：一些复杂或细微的价值可能被简化到某个类别中，甚至被错配；另一方面，负责提取和分类价值观的模型本身就是Claude，这可能导致分析结果偏向Claude已有的训练目标（例如倾向于发现与“助人、诚信”等理念一致的行为）。这些局限提醒我们，价值观的测量并非硬指标，而是需要结合多种方法综合判断。

总结

总之，Anthropic这项《Values in the Wild》[3]研究首次提供了大规模的AI价值观实证图谱，揭示了Claude在现实对话中的价值表达方式。研究发现，Claude的多数价值观表现与设计目标一致，在不同场景下能够灵活调整，并且对用户的价值观通常是支持或共鸣的。当遇到明显不当的请求时，它也会启用道德机制进行抵制。这些成果为未来评估和设计AI价值观体系提供了实证基础，也为构建更加可信赖的AI助手指明了方向。

AI小编：说的像你们人类价值观很强似的????

参考资料

-- 完 --

原文标题 : AI也有价值观？Anthropic公司最新研究方法揭示Claude价值取向