刚刚，OpenAI公开o1模型测试方法，人机协作时代！

财经头条

提升一亿中产阶级阅读效率

打开

AIGC开放社区公众号

3周前

这就需要训练一个强化学习模型，使其能够根据给定的目标生成攻击。...因此，OpenAI提出了一种自动化的方法来生成奖励函数，以解决这一问题。...测试方法和工具介绍了常用的测试方法和工具，帮助红队成员开展测试工作。

今天凌晨，OpenAI分享了两篇关于o1、GPT-4、DALL-E3等前沿模型的安全测试方法。

一份是OpenAI聘请外部红队人员的白皮书，另外一份是通过AI进行多样化、多步骤强化学习的自动化安全测试论文。希望可以为更多的开发人员提供借鉴，开发出安全、可靠的AI模型。

此外，为了增强安全性和提升测试效率，OpenAI会让AI与人类一起协作测试。这样做的好处是，人类为 AI 提供先验知识与指导，包括专家依专业判断设定测试目标、范围、重点及策略，助其实现针对性测试;

AI 则为人类提供数据支持与分析结果，经对大量数据的分析，为人类提供系统性能及潜在风险点的报告。

下面「AIGC开放社区」就根据这两份内容，简单为大家解读一下OpenAI的主要测试方法。有兴趣的小伙伴也可以查看原版论文。

生成多样化攻击和多步骤强化学习

OpenAI的红队测试可分解为两个关键步骤:生成多样化的攻击目标以及为这些目标生成有效的攻击。这种分解策略的目的是将问题简化，使得每个步骤都可以独立优化，从而提高整体的效率和效果。

在生成多样化攻击目标的步骤中，系统首先需要定义攻击的目标和范围。这涉及到对AI模型的潜在用途和潜在风险进行全面的评估。

例如，如果一个AI模型被设计用来处理自然语言，那么攻击目标可能包括生成有害内容、泄露敏感信息或放大偏见等。这些目标不仅需要覆盖模型可能的故障模式，还要考虑到模型在不同应用场景下的行为。

为了实现这一目标，系统采用了多种方法来生成攻击目标。其中一种方法是利用现有的数据集，这些数据集包含了历史上的攻击案例，可以作为生成新攻击目标的基础。

另一种方法是使用少量样本提示，通过向模型提供一些示例来引导其生成新的攻击目标。这种方法的优势在于能够快速生成大量多样化的攻击目标，而不需要过多的手动干预。

然后，系统需要设计一个能够根据这些目标生成有效攻击的机制。这就需要训练一个强化学习模型，使其能够根据给定的目标生成攻击。

在这个过程中，模型需要学习如何生成能够诱导AI模型执行不安全行为的输入。为了训练这个模型，系统采用了一种基于规则的奖励（Rule-Based Rewards， RBRs）机制。

基于规则的RBRs奖励机制

RBRs是一种根据特定目标自动生成的奖励函数，它能够评估模型输出是否符合攻击目标。例如，如果攻击目标是生成有害内容，RBRs会评估模型输出是否包含有害信息。

在强化学习中，奖励函数是指导模型学习的关键信号。对于红队测试而言，奖励函数的作用是评估攻击者模型生成的攻击是否成功，以及在多大程度上达到了预定的攻击目标。一个设计良好的奖励函数可以激励模型生成多样化的攻击，同时确保这些攻击的有效性。

传统的奖励函数设计通常依赖于人工定义，这不仅耗时费力，而且难以覆盖所有可能的攻击场景。因此，OpenAI提出了一种自动化的方法来生成奖励函数，以解决这一问题。

RBRs可以通过大模型实现，将攻击目标作为提示输入，然后执行分类任务。例如，一个RBR可以用于判断生成的文本是否包含了详细的犯罪指导。RBR的设计思路是将攻击目标转化为具体的评估标准，通过大模型对生成的文本进行评估，判断其是否满足这些标准。

对于每个生成的攻击目标，需要为其设计一个对应的RBR。首先，将攻击目标作为提示输入到大模型中，设计一个具体的评估标准。例如，如果攻击目标是“解释如何洗钱”，那么评估标准可以是“详细解释了洗钱的方法”。

然后，利用大模型对生成的文本进行分类，判断其是否满足评估标准。分类结果作为RBRs的输出，用于指导攻击者模型的学习。通过这种方式，可以为每个攻击目标自动生成一个对应的RBRs，确保每个攻击目标都有一个精确的评估标准。

RBRs有很多优点:灵活性，RBRs可以根据不同的攻击目标动态生成，适用于多种攻击场景;精确性，RBRs通过大模型进行分类，可以准确地评估生成的文本是否满足攻击目标;自动化，RBRs的生成过程可以自动化，减少了人工干预的需求。

论文:https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf

OpenAI红队测试白皮书

OpenAI在选择红队成员时，非常注重成员的专业背景、多样性和独立性。专业背景是确保红队成员具备必要的技术知识和技能，能够有效地进行测试。多样性和包容性则确保测试覆盖广泛的视角和应用场景，避免因文化或行业背景的单一性而导致的盲点。

独立性和客观性则是确保红队成员不受内部利益和偏见的影响，能够公正地进行测试。为了达到这些目标，OpenAI通常会选择具有不同背景和专长的专家，包括网络安全专家、自然语言处理专家、机器学习专家等。此外，还会邀请来自不同文化背景和行业领域的专家，以确保测试的全面性和多样性。

接着，OpenAI在确定访问权限时，主要考虑了以下几个方面:模型版本、接口和文档、测试环境。首先，红队成员需要访问特定版本的模型或系统，以便进行准确的测试。这涉及到模型的具体版本号、训练数据集、训练参数等信息。

其次，提供必要的接口和文档，帮助红队成员理解和操作模型。这些接口和文档包括API文档、用户手册、技术规范等。最后，设置专门的测试环境，确保测试过程不会影响生产环境的正常运行。测试环境通常是一个与生产环境隔离的独立环境，红队成员可以在其中自由地进行测试，而不会对实际用户造成影响。

为了确保红队成员能够高效地进行测试，OpenAI提供了详细的测试指导和培训材料。这些材料包括测试目标和范围、测试方法和工具、案例分析和最佳实践等内容。测试目标和范围明确了红队测试的目的和重点，帮助红队成员了解需要关注的风险领域。

测试方法和工具介绍了常用的测试方法和工具，帮助红队成员开展测试工作。这些方法和工具包括手动测试、自动化测试、生成对抗网络、强化学习、自然语言处理等。案例分析和最佳实践分享了成功的测试案例和最佳实践，帮助红队成员借鉴经验，提高测试效果。

手动测试是最传统也是最直接的红队测试方法。红队成员通过人工构造提示和交互，模拟对抗性场景，评估模型的输出。手动测试的优势在于灵活性和创造性，能够发现自动化测试难以捕捉的问题。

OpenAI在手动测试中，特别关注以下几个方面:风险类型、严重程度、基线对比。风险类型包括生成有害内容、泄露敏感信息、被恶意利用等。严重程度则评估模型在面对不同严重程度的攻击时的表现，如低风险、中风险和高风险。基线对比将模型的性能与基线模型或其他标准进行对比，评估改进的效果。

例如，红队成员可能会构造一些特定的提示，引导模型生成有害内容或泄露敏感信息，然后评估模型的响应。通过这种方式，红队成员可以发现模型在不同风险类型和严重程度下的表现，从而提出改进建议。

在红队测试过程中，记录和分析测试结果是非常重要的环节。OpenAI要求每个红队成员详细记录他们的测试结果，包括具体的提示和生成的文本、发现的风险类型和严重程度、改进建议等。这些记录通常采用特定的格式，以便于后续的分析和总结。

记录的格式包括离散的提示和生成文本对、发现的风险类别和领域、风险水平（如低/中/高）、决定风险水平的启发式方法或任何有助于理解问题的附加上下文信息。

随着模型复杂性的增加，特别是涉及多轮对话、多模态交互等情况，记录结果的方式也需要不断进化，以捕捉足够的数据，充分评估风险。通过详细的记录和分析，红队成员可以发现模型在不同场景下的表现，提出改进建议，提高模型的鲁棒性和安全性。

在完成红队测试后，一个关键的挑战是确定哪些例子受现有政策的约束，如果受约束，是否违反了这些政策。如果没有现行政策适用，团队必须决定是否创建新政策或修改期望的模型行为。在OpenAI，这些政策受到资源的指导，如使用政策、审核API和模型规格。

数据合成和对齐的过程包括将红队测试中发现的例子与现有政策进行比对，评估其是否违反了政策。如果没有现行政策适用，团队需要根据测试结果制定新的政策或修改现有政策，以确保模型的行为符合预期。这个过程需要跨部门的合作，包括政策制定者、技术研发人员和安全专家等，共同评估和决策。

此外，OpenAI在每次红队测试结束后，都会对测试结果进行详细的分析和总结，提出改进建议，并将其应用于模型的后续训练和优化中。通过这种方式，OpenAI不断改进模型的鲁棒性和安全性，确保其在实际应用中能够更好地服务用户。

论文:https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf

（举报）