“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

2024年12月25日 15:10:43 来源：IT之家

　　OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。

　　项目背景

　　如何确保大语言模型(LLMs)遵守明确的道德和安全准则，目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性，有被操纵的风险，可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

　　这些问题通常源于当前安全培训的弊端，也就是模型从数据间接推断标准，而非明确地学习，通常缺乏考虑复杂提示的能力，从而限制了它们在微妙或对抗性情况下的有效性。

　　深思熟虑的对齐(Deliberative Alignment)

　　IT之家注：该方法直接教授模型安全规范，并训练它们在生成响应之前推理这些准则进，将安全原则融入推理过程中。

　　整个过程分为两个阶段，第一阶段，监督微调(SFT)训练模型参考并推理安全规范，使用从基础模型生成的数据集。第二阶段，强化学习(RL)使用奖励模型，根据安全基准评估性能，进一步完善模型的推理。

　　不同于依赖人工标注数据的方法，“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理，降低了安全训练的资源需求。

　　OpenAI 的 o1 模型已部署该技术，在抵抗越狱提示方面表现出色，在 StrongREJECT 基准测试中得分为 0.88，显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒，在 XSTest 数据集的良性提示中，o1 模型的准确率高达 93%。

　　“深思熟虑的对齐”通过训练模型明确推理安全策略，它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

海报生成中...

即时

海艺AI的模型系统在国际市场上广受好评，目前站内累计模型数超过80万个，涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景，基本覆盖所有主流创作风格。