Claude 系列：为什么一群逃出 OpenAI 的人，造出了最受开发者喜爱的模型？

"我们不追求 AGI at all costs，我们追求 safe AGI。"——Anthropic 从第一天起就把这句话挂在嘴边。2021 年，一群对 OpenAI 商业化方向不满的研究员（包括 GPT-3 论文的第一作者和多位核心技术骨干）出走创立了 Anthropic。当时很多人觉得这不过是又一家人 AI 安全公司，能在巨头的阴影下活下来就不错了。

四年后，Claude 成了开发者圈子里口碑最好的模型。尤其在代码领域，"Claude 写代码比 GPT 好"几乎成了某种共识。

这不是偶然的。Anthropic 走的是一条与 OpenAI 完全不同但同样有效的路。

Constitutional AI：不是"别做坏事"，而是"学会为什么不能做"

大多数 AI 安全方法（包括 OpenAI 的 RLHF）的核心逻辑是：让人类标注员标注哪些回答是安全的/不安全的，然后训练模型模仿"安全"的回答。问题是人类标注本身就有偏见、不一致、且成本高昂。

Anthropic 的方法是 Constitutional AI（宪法式 AI）：给模型一套"宪法原则"（基于《世界人权宣言》、苹果的服务条款、DeepMind 的 Sparrow 规则等），让模型自己审查自己的输出，自我修正。训练流程大致是：①模型生成回答 → ②模型根据宪法原则评判自己的回答 → ③用评判结果反馈训练。

这有什么好处？首先，不需要大量人工标注；其次，模型学到的是"原则"而不只是"案例模式"，泛化能力更强；第三，整个过程透明可审计——你可以看到模型用了宪法的哪条原则来修正自己。

说句实话，我觉得 Constitutional AI 被低估了。它的效果在实际使用中非常明显——Claude 拒绝回答有害请求的方式不是生硬的"我不能回答这个问题"，而更像是一个理性的朋友说"这么做可能不太好，因为……然后我们来想想更好的办法"。这种细腻感，是纯 RLHF 很难做到的。

Claude 3.5 Sonnet：那个被开发者封神的"甜点"模型

2024 年 6 月 Claude 3.5 Sonnet 发布时，我周围几乎所有程序员朋友都在同一周内从 ChatGPT 切换了过去。为什么？因为它的代码生成能力确实高出一档。

在 SWE-bench 实测中，Claude 3.5 Sonnet 达到了 49%（当时 GPT-4o 约为 33%），在 HumanEval 上超过 92%。但真正让人信服的不是跑分，是实际体验——Claude 3.5 Sonnet 写的代码更"稳妥"：错误检查更全面，命名更规范，注释更清晰（不像 GPT 有时会过度自信地给出一段"看着对但藏了 bug"的代码）。很多开发者反馈，"Claude 写的代码基本不需要改就能跑，GPT 写的往往需要改一两处"。

200K token 上下文（约 15 万英文字）是另一个杀手锏。意味着你可以把整个中型项目的源码一次性丢进去让它全量分析，而不是一段段地喂。对于代码审查、系统重构、跨文件 debug 这种场景，长上下文的优势是碾压级的。

Anthropic 给 Claude 3.5 Sonnet 定价 $3/$15，比那时的 GPT-4o 的 $5/$15 在输入端更便宜，输出端持平。再加上它的实际表现更好，性价比优势很明显。

Claude 4 代：从追赶者到领跑者？

2025 年 5 月 Claude 4（Opus/Sonnet/Haiku）发布。Opus 4 是 Anthropic 的最强模型，但定价$15/$75，主要面向极致精度的场景。真正有趣的还是 Sonnet 4，$3/$15，保持了甜点定位，推理和代码能力相比 3.5 全面提升。

到 2025 年底和 2026 年，Anthropic 加快了迭代节奏：Opus 4.1、Opus 4.5、Opus 4.6、Opus 4.7 相继发布。最新的 Claude Opus 4.7（"Next Opus"）把所有 Claude 模型都拉到了 1M token 上下文，引入了 Adaptive Thinking（自适应推理——模型自己判断何时深度思考、何时快速回复），定价 $5/$25。

Claude Sonnet 4.6（$3/$15）和 Haiku 4.5（$1/$5）保持了完整的产品梯队。值得注意的是，Claude 4 代开始全面支持 Extended Thinking（扩展推理），可以展示完整的内部思维链——这在技术上和 OpenAI 的 o1 系列是同源思路，但 Anthropic 的实现允许用户自行控制推理深度。

Computer Use：AI 真的能操控电脑了

2024 年 10 月 Anthropic 推出的 Computer Use 功能，我觉得是整个 AI 行业 2024 年最大胆的产品实验之一。简单说，Claude 可以像人一样看屏幕截图，然后移动鼠标、点击按钮、输入文字——真正操控电脑桌面。

怎么做到的呢？Anthropic 给 Claude 增加了一个特殊的工具：截取屏幕像素，分析图像内容，输出精确的像素坐标和操作指令（如 click(x=342, y=568)）。在演示中，Claude 能根据用户的自然语言指令，打开浏览器搜索信息、填写表格、甚至调试代码——全程自主操作 GUI。

最真实的用例？有开发者用它来自动完成一些无聊的重复性工作：爬取网页数据（当没有 API 的时候）、自动配置开发环境、测试 Web 应用的 UI。但老实说，目前它仍然很慢（每一步都要截图-分析-操作-等待），出错率也不低。这是一个方向性的突破而不是成熟的产品——但它展示的未来图景是清晰的：AI 不再只是通过 API 交互，而是能像人类一样在我们的操作系统里"生活和工作"。

Artifacts：一个小创新，大改变

可能很多人没太注意 Artifacts 这个功能，但我觉得它是 Anthropic 最聪明的产品设计之一。当 Claude 生成的回答包含可以被渲染的内容（代码、HTML、图表、SVG、React 组件），Claude 会自动在一个右侧的预览窗口中展示渲染后的效果。

这意味着什么？你在和 Claude 聊天时，它不只是回复文本，而是直接给你一个看得见、跑得动、可以迭代修改的东西。做网页设计——描述需求，Claude 生成代码，右侧即时预览，不满意就在聊天里继续改。做数据分析——Claude 生成图表，直接显示，你可以要求它调整颜色、增加标注、改变图表类型。

相比 ChatGPT 之前在 "Advanced Data Analysis" 里跑 Python 代码然后在聊天里嵌入图片的方式，Artifacts 的体验流畅太多了。它本质上是把"上下文感知的 IDE"融入了聊天对话。我身边很多做前端的朋友已经把 Artifacts 当做快速原型工具在用。

为什么开发者偏爱 Claude？

这是个有趣的问题。GPT-5 的功能比 Claude 多——DALL-E 图像生成、Web Search、Code Interpreter、GPTs 商店、语音模式；GPT-5.5 的跑分在不少基准上也高于 Claude。但你去开发者论坛（V2EX、知乎、Hacker News、微博）看，推荐 Claude 的声音远多于 GPT。

我的观察是几个原因：

第一，代码质量的主观感知。Claude 生成的代码更"工业级"——有适当的错误处理、边界条件检查、清晰的命名和结构。GPT 的代码更像"聪明的实习生写的"——功能对但不够稳健。这是训练数据和训练哲学导致的差异，Anthropic 可能更强调代码的可靠性和可维护性，而不仅仅是"能通过测试"。

第二，长上下文的表现。在 1M token 的语境中，Claude 对关键信息的"回忆"和"关联"能力似乎更稳定。虽然 GPT-5.5 也支持 1M，但实测中有用户反馈 Claude 在长文档 QA 中的准确率更高。

第三，产品体验。Claude.ai 的界面更简洁，Artifacts 的交互更自然。ChatGPT 功能太多反而有时候让人觉得"臃肿"。简单、专注、好用的产品更有生命力。

第四，信任感。Anthropic 一贯的安全优先叙事，让它在合规要求严格的行业（金融、医疗、法律）中更有优势。

当然，Claude 不是完美的。API 的价格在过去一年逆势上涨（从 Claude 3.5 Sonnet 的 $3/$15 到 Opus 4.7 的 $5/$25），OpenAI 则在持续降低。而且 Claude 的 API 并发限制更严格，高流量场景下体验不如 OpenAI。多模态能力上（图像生成、语音交互）也远不如 GPT 丰富。

安全与能力的永恒博弈

Anthropic 面临的核心矛盾是：既要安全，又要能力。过于保守的过滤会让 Claude 变得过于谨慎甚至"扫兴"——很多用户抱怨早期 Claude 对正常请求的过度拒绝。但放开限制又可能导致滥用。

Anthropic 的策略是"阶段性对齐"：每个新模型都经过比上一代更严格的安全测试和红队攻击，然后根据实际反馈逐步调整过滤强度。这种渐进式放开的做法比一开始就设高墙要好——Claude 3.5 之后的版本在"过度拒绝"问题上明显改善。

我的建议

写代码的日常主力，选 Claude Sonnet 4.6（$3/$15），代码质量、长上下文、Artifacts 体验综合最佳
复杂项目、需要极端精度：Claude Opus 4.7（$5/$25），1M 上下文 + Adaptive Thinking
高并发、低延迟：Claude Haiku 4.5（$1/$5），性价比不错
自动化操作 Agent：Computer Use 功能独一无二，但预期要接受较高的出错率和较慢的速度
如果你做的是需要合规的企业应用：Claude 的安全架构和宪法 AI 可能是决策加分项
如果你需要完整的多模态体验（图像生成、TTS、语音对话）：GPT-5 生态仍然更全

Claude 的成功证明了一件事：AI 竞争不只有"跑分"一个维度。安全、可控、产品体验、开发者关系——这些"软实力"同样能建立深厚壁垒。Anthropic 从 OpenAI 的阴影中走出来，靠的不仅是技术，更是对"AI 应该怎样服务人类"这个问题的不同回答。

Claude 系列：为什么一群逃出 OpenAI 的人，造出了最受开发者喜爱的模型？ ​

Constitutional AI：不是"别做坏事"，而是"学会为什么不能做" ​

Claude 3.5 Sonnet：那个被开发者封神的"甜点"模型 ​

Claude 4 代：从追赶者到领跑者？ ​

Computer Use：AI 真的能操控电脑了 ​

Artifacts：一个小创新，大改变 ​

为什么开发者偏爱 Claude？ ​

安全与能力的永恒博弈 ​

我的建议 ​