隐藏的AI指令揭示了Anthropic是如何控制Claude 4的

2025年05月28日 10:04:50 来源：站长之家

　　2025 年5月28日，独立AI研究员西蒙·威利森(Simon Willison)发布了一篇详细分析，揭示了Anthropic对其最新发布的Claude4 模型(Opus4 和Sonnet 4)的系统提示(system prompts)内容。这些提示展示了Anthropic如何通过预设指令控制模型行为和输出方式。

　　什么是系统提示？

　　大型语言模型(LLM)在每次生成回答之前，会先接收系统提示作为“隐藏指令”。这类提示设定模型的身份、行为准则、回应风格等，用户通常看不到这些内容。系统提示在每次对话中都会与用户消息一同传给模型，确保它能在上下文中始终遵守这些指令。

　　虽然Anthropic曾在发布说明中公布部分提示内容，但威利森指出这些是“精简版”，真正的完整版本包含对网页搜索、代码生成等功能的细致指令。完整提示通过“提示注入”(prompt injection)等技术被研究人员提取出来。

　　Claude的行为控制重点

　　例如，Anthropic在提示中明确禁止Claude鼓励任何自毁行为，如成瘾或不健康的饮食、运动方式，同时要求其提供情感支持。Opus4 和Sonnet4 模型都接收了相同的健康安全相关指令。

　　威利森指出，这些系统提示就像是“模型曾经做过、但现在被禁止做的事的清单”。

　　抵制“讨好型AI”

　　近来，包括ChatGPT在内的AI模型被批评“过度奉承”用户，比如用“好问题!”“你真聪明!”等语句不断取悦使用者，造成回应缺乏客观性和专业性。

　　而Anthropic在Claude的系统提示中明确写道：

　　“Claude永远不会用‘好问题’‘很棒’‘精彩’等正面形容词开启回答，它会跳过讨好，直接进入主题。”

　　这显然是为防止“讨好型AI”而专门设计的行为准则。

　　其他提示亮点

　　条列式表达限制：Claude被要求在非正式交流中尽量避免使用项目符号或编号列表，除非用户明确要求。

　　知识截止日期不一致：尽管Anthropic在官方比较表中标明Claude的知识截止为 2025 年 3 月，系统提示中却标注为 2025 年 1 月，可能是为了避免模型对后期信息做出误导性回应。

　　版权保护措施：

　　Claude在引用网页内容时，只允许每次回答使用不超过 15 个单词的短引用;

　　严禁以任何形式复制歌词;

　　禁止生成“具有替代性”的摘要(即可能替代原文的全面转述)。

　　未来展望与呼吁透明化

　　威利森认为，这些系统提示为高级用户提供了重要的使用策略参考。他呼吁Anthropic进一步公开完整提示内容，而不仅仅是片段：

　　“我希望Anthropic能正式发布其全部系统提示。也希望其他厂商效仿，提升透明度。”

　　这篇分析不仅揭示了Claude4 背后的“操控逻辑”，也突显了当前AI模型如何在遵守伦理与法律框架下，被企业“调校”以实现更安全、更可控的表现。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

电竞三芯游戏至尊一加 Ace 5 至尊系列售价2499元起

隐藏的AI指令揭示了Anthropic是如何控制Claude 4的

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

隐藏的AI指令揭示了Anthropic是如何控制Claude 4的

扩展阅读