• 隐藏的AI指令揭示了Anthropic是如何控制Claude 4的

    2025年05月28日 10:04:50   来源:站长之家

      2025 年5月28日,独立AI研究员西蒙·威利森(Simon Willison)发布了一篇详细分析,揭示了Anthropic对其最 新发布的Claude4 模型(Opus4 和Sonnet 4)的系统提示(system prompts)内容。这些提示展示了Anthropic如何通过预设指令控制模型行为和输出方式。

      什么是系统提示?

      大型语言模型(LLM)在每次生成回答之前,会先接收系统提示作为“隐藏指令”。这类提示设定模型的身份、行为准则、回应风格等,用户通常看不到这些内容。系统提示在每次对话中都会与用户消息一同传给模型,确保它能在上下文中始终遵守这些指令。

      虽然Anthropic曾在发布说明中公布部分提示内容,但威利森指出这些是“精简版”,真正的完整版本包含对网页搜索、代码生成等功能的细致指令。完整提示通过“提示注入”(prompt injection)等技术被研究人员提取出来。

      Claude的行为控制重点

      例如,Anthropic在提示中明确禁止Claude鼓励任何自毁行为,如成瘾或不健康的饮食、运动方式,同时要求其提供情感支持。Opus4 和Sonnet4 模型都接收了相同的健康安全相关指令。

      威利森指出,这些系统提示就像是“模型曾经做过、但现在被禁止做的事的清单”。

      抵制“讨好型AI”

      近来,包括ChatGPT在内的AI模型被批评“过度奉承”用户,比如用“好问题!”“你真聪明!”等语句不断取悦使用者,造成回应缺乏客观性和专业性。

      而Anthropic在Claude的系统提示中明确写道:

      “Claude永远不会用‘好问题’‘很棒’‘精彩’等正面形容词开启回答,它会跳过讨好,直接进入主题。”

      这显然是为防止“讨好型AI”而专门设计的行为准则。

      其他提示亮点

      条列式表达限制:Claude被要求在非正式交流中尽量避免使用项目符号或编号列表,除非用户明确要求。

      知识截止日期不一致:尽管Anthropic在官方比较表中标明Claude的知识截止为 2025 年 3 月,系统提示中却标注为 2025 年 1 月,可能是为了避免模型对后期信息做出误导性回应。

      版权保护措施:

      Claude在引用网页内容时,只允许每次回答使用不超过 15 个单词的短引用;

      严禁以任何形式复制歌词;

      禁止生成“具有替代性”的摘要(即可能替代原文的全面转述)。

      未来展望与呼吁透明化

      威利森认为,这些系统提示为高 级用户提供了重要的使用策略参考。他呼吁Anthropic进一步公开完整提示内容,而不仅仅是片段:

      “我希望Anthropic能正式发布其全部系统提示。也希望其他厂商效仿,提升透明度。”

      这篇分析不仅揭示了Claude4 背后的“操控逻辑”,也突显了当前AI模型如何在遵守伦理与法律框架下,被企业“调校”以实现更安全、更可控的表现。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。