Claude 系列:为什么一群逃出 OpenAI 的人,造出了最受开发者喜爱的模型?
"我们不追求 AGI at all costs,我们追求 safe AGI。"——Anthropic 从第一天起就把这句话挂在嘴边。2021 年,一群对 OpenAI 商业化方向不满的研究员(包括 GPT-3 论文的第一作者和多位核心技术骨干)出走创立了 Anthropic。当时很多人觉得这不过是又一家人 AI 安全公司,能在巨头的阴影下活下来就不错了。
四年后,Claude 成了开发者圈子里口碑最好的模型。尤其在代码领域,"Claude 写代码比 GPT 好"几乎成了某种共识。
这不是偶然的。Anthropic 走的是一条与 OpenAI 完全不同但同样有效的路。
Constitutional AI:不是"别做坏事",而是"学会为什么不能做"
大多数 AI 安全方法(包括 OpenAI 的 RLHF)的核心逻辑是:让人类标注员标注哪些回答是安全的/不安全的,然后训练模型模仿"安全"的回答。问题是人类标注本身就有偏见、不一致、且成本高昂。
Anthropic 的方法是 Constitutional AI(宪法式 AI):给模型一套"宪法原则"(基于《世界人权宣言》、苹果的服务条款、DeepMind 的 Sparrow 规则等),让模型自己审查自己的输出,自我修正。训练流程大致是:①模型生成回答 → ②模型根据宪法原则评判自己的回答 → ③用评判结果反馈训练。
这有什么好处?首先,不需要大量人工标注;其次,模型学到的是"原则"而不只是"案例模式",泛化能力更强;第三,整个过程透明可审计——你可以看到模型用了宪法的哪条原则来修正自己。
说句实话,我觉得 Constitutional AI 被低估了。它的效果在实际使用中非常明显——Claude 拒绝回答有害请求的方式不是生硬的"我不能回答这个问题",而更像是一个理性的朋友说"这么做可能不太好,因为……然后我们来想想更好的办法"。这种细腻感,是纯 RLHF 很难做到的。
Claude 3.5 Sonnet:那个被开发者封神的"甜点"模型
2024 年 6 月 Claude 3.5 Sonnet 发布时,我周围几乎所有程序员朋友都在同一周内从 ChatGPT 切换了过去。为什么?因为它的代码生成能力确实高出一档。
在 SWE-bench 实测中,Claude 3.5 Sonnet 达到了 49%(当时 GPT-4o 约为 33%),在 HumanEval 上超过 92%。但真正让人信服的不是跑分,是实际体验——Claude 3.5 Sonnet 写的代码更"稳妥":错误检查更全面,命名更规范,注释更清晰(不像 GPT 有时会过度自信地给出一段"看着对但藏了 bug"的代码)。很多开发者反馈,"Claude 写的代码基本不需要改就能跑,GPT 写的往往需要改一两处"。
200K token 上下文(约 15 万英文字)是另一个杀手锏。意味着你可以把整个中型项目的源码一次性丢进去让它全量分析,而不是一段段地喂。对于代码审查、系统重构、跨文件 debug 这种场景,长上下文的优势是碾压级的。
Anthropic 给 Claude 3.5 Sonnet 定价 $3/$15,比那时的 GPT-4o 的 $5/$15 在输入端更便宜,输出端持平。再加上它的实际表现更好,性价比优势很明显。
Claude 4 代:从追赶者到领跑者?
2025 年 5 月 Claude 4(Opus/Sonnet/Haiku)发布。Opus 4 是 Anthropic 的最强模型,但定价$15/$75,主要面向极致精度的场景。真正有趣的还是 Sonnet 4,$3/$15,保持了甜点定位,推理和代码能力相比 3.5 全面提升。
到 2025 年底和 2026 年,Anthropic 加快了迭代节奏:Opus 4.1、Opus 4.5、Opus 4.6、Opus 4.7 相继发布。最新的 Claude Opus 4.7("Next Opus")把所有 Claude 模型都拉到了 1M token 上下文,引入了 Adaptive Thinking(自适应推理——模型自己判断何时深度思考、何时快速回复),定价 $5/$25。
Claude Sonnet 4.6($3/$15)和 Haiku 4.5($1/$5)保持了完整的产品梯队。值得注意的是,Claude 4 代开始全面支持 Extended Thinking(扩展推理),可以展示完整的内部思维链——这在技术上和 OpenAI 的 o1 系列是同源思路,但 Anthropic 的实现允许用户自行控制推理深度。
Computer Use:AI 真的能操控电脑了
2024 年 10 月 Anthropic 推出的 Computer Use 功能,我觉得是整个 AI 行业 2024 年最大胆的产品实验之一。简单说,Claude 可以像人一样看屏幕截图,然后移动鼠标、点击按钮、输入文字——真正操控电脑桌面。
怎么做到的呢?Anthropic 给 Claude 增加了一个特殊的工具:截取屏幕像素,分析图像内容,输出精确的像素坐标和操作指令(如 click(x=342, y=568))。在演示中,Claude 能根据用户的自然语言指令,打开浏览器搜索信息、填写表格、甚至调试代码——全程自主操作 GUI。
最真实的用例?有开发者用它来自动完成一些无聊的重复性工作:爬取网页数据(当没有 API 的时候)、自动配置开发环境、测试 Web 应用的 UI。但老实说,目前它仍然很慢(每一步都要截图-分析-操作-等待),出错率也不低。这是一个方向性的突破而不是成熟的产品——但它展示的未来图景是清晰的:AI 不再只是通过 API 交互,而是能像人类一样在我们的操作系统里"生活和工作"。
Artifacts:一个小创新,大改变
可能很多人没太注意 Artifacts 这个功能,但我觉得它是 Anthropic 最聪明的产品设计之一。当 Claude 生成的回答包含可以被渲染的内容(代码、HTML、图表、SVG、React 组件),Claude 会自动在一个右侧的预览窗口中展示渲染后的效果。
这意味着什么?你在和 Claude 聊天时,它不只是回复文本,而是直接给你一个看得见、跑得动、可以迭代修改的东西。做网页设计——描述需求,Claude 生成代码,右侧即时预览,不满意就在聊天里继续改。做数据分析——Claude 生成图表,直接显示,你可以要求它调整颜色、增加标注、改变图表类型。
相比 ChatGPT 之前在 "Advanced Data Analysis" 里跑 Python 代码然后在聊天里嵌入图片的方式,Artifacts 的体验流畅太多了。它本质上是把"上下文感知的 IDE"融入了聊天对话。我身边很多做前端的朋友已经把 Artifacts 当做快速原型工具在用。
为什么开发者偏爱 Claude?
这是个有趣的问题。GPT-5 的功能比 Claude 多——DALL-E 图像生成、Web Search、Code Interpreter、GPTs 商店、语音模式;GPT-5.5 的跑分在不少基准上也高于 Claude。但你去开发者论坛(V2EX、知乎、Hacker News、微博)看,推荐 Claude 的声音远多于 GPT。
我的观察是几个原因:
第一,代码质量的主观感知。Claude 生成的代码更"工业级"——有适当的错误处理、边界条件检查、清晰的命名和结构。GPT 的代码更像"聪明的实习生写的"——功能对但不够稳健。这是训练数据和训练哲学导致的差异,Anthropic 可能更强调代码的可靠性和可维护性,而不仅仅是"能通过测试"。
第二,长上下文的表现。在 1M token 的语境中,Claude 对关键信息的"回忆"和"关联"能力似乎更稳定。虽然 GPT-5.5 也支持 1M,但实测中有用户反馈 Claude 在长文档 QA 中的准确率更高。
第三,产品体验。Claude.ai 的界面更简洁,Artifacts 的交互更自然。ChatGPT 功能太多反而有时候让人觉得"臃肿"。简单、专注、好用的产品更有生命力。
第四,信任感。Anthropic 一贯的安全优先叙事,让它在合规要求严格的行业(金融、医疗、法律)中更有优势。
当然,Claude 不是完美的。API 的价格在过去一年逆势上涨(从 Claude 3.5 Sonnet 的 $3/$15 到 Opus 4.7 的 $5/$25),OpenAI 则在持续降低。而且 Claude 的 API 并发限制更严格,高流量场景下体验不如 OpenAI。多模态能力上(图像生成、语音交互)也远不如 GPT 丰富。
安全与能力的永恒博弈
Anthropic 面临的核心矛盾是:既要安全,又要能力。过于保守的过滤会让 Claude 变得过于谨慎甚至"扫兴"——很多用户抱怨早期 Claude 对正常请求的过度拒绝。但放开限制又可能导致滥用。
Anthropic 的策略是"阶段性对齐":每个新模型都经过比上一代更严格的安全测试和红队攻击,然后根据实际反馈逐步调整过滤强度。这种渐进式放开的做法比一开始就设高墙要好——Claude 3.5 之后的版本在"过度拒绝"问题上明显改善。
我的建议
- 写代码的日常主力,选 Claude Sonnet 4.6($3/$15),代码质量、长上下文、Artifacts 体验综合最佳
- 复杂项目、需要极端精度:Claude Opus 4.7($5/$25),1M 上下文 + Adaptive Thinking
- 高并发、低延迟:Claude Haiku 4.5($1/$5),性价比不错
- 自动化操作 Agent:Computer Use 功能独一无二,但预期要接受较高的出错率和较慢的速度
- 如果你做的是需要合规的企业应用:Claude 的安全架构和宪法 AI 可能是决策加分项
- 如果你需要完整的多模态体验(图像生成、TTS、语音对话):GPT-5 生态仍然更全
Claude 的成功证明了一件事:AI 竞争不只有"跑分"一个维度。安全、可控、产品体验、开发者关系——这些"软实力"同样能建立深厚壁垒。Anthropic 从 OpenAI 的阴影中走出来,靠的不仅是技术,更是对"AI 应该怎样服务人类"这个问题的不同回答。