GPT 系列：一部 AI 进化的加速史，从震惊世界到无处不在

2020 年 6 月，当 OpenAI 扔出 GPT-3 那篇论文时，大多数人还没意识到这意味着什么。1750 亿参数，Few-shot 学习能力，不需要微调就能翻译、做阅读理解、写文章——这在当时简直是魔法。说实话，回头看那会儿的 GPT-3 其实挺笨的，经常胡说八道，逻辑一塌糊涂。但它的意义不在于好用，而在于证明了一件事：把模型做大，真的会涌现出意料之外的能力。那个"量变引起质变"的瞬间，是整个 AI 行业的肾上腺素注射。

GPT-3：那个让世界闭嘴惊艳的笨拙巨人

GPT-3 最震撼的不是它的技术细节（架构上就是 GPT-2 的同款放大版，175B 参数，96 层 Transformer），而是它对科技圈心理预期的爆破。在它之前，大部分人对语言模型的理解是"能做分类、能做翻译、能做简单问答"。GPT-3 直接告诉你——它可以帮你写代码、写诗、写剧本、做算术、甚至扮演心理咨询师。你只需要给它几个例子（Few-shot），它就能模仿。

但真正用过 GPT-3 的人都知道，它是个"看上去很美，用起来很累"的东西。输出不可控，推理漏洞百出，经常自信满满地胡说。那时候用 GPT-3 做产品的公司，光是在 prompt engineering 上就要花掉半条命。2020 到 2021 年间，OpenAI 陷入了真正的尴尬：技术够震撼，但商业化遥遥无期。

ChatGPT：一个"意外"改变了世界

2022 年 11 月 30 日，OpenAI 上线了一个叫 ChatGPT 的对话产品，底层是 GPT-3.5——一个在 GPT-3 基础上用 RLHF（人类反馈强化学习）做指令微调的版本。Sam Altman 后来承认，发布时他们自己都没想到会这么火。5 天 100 万用户，2 个月 1 亿月活——史上增长最快的消费级产品。

为什么是 ChatGPT 而不是 GPT-3 的 API？因为 RLHF 这个魔法让模型学会了"好好说话"。GPT-3 的回答像是从概率分布里采样，而 ChatGPT 的回答开始有了"助手"的样子——它会说"抱歉我不能做那个"，会承认自己不知道，会纠正用户的错误。对话界面降低了所有门槛，你不需要是程序员，不需要写 prompt，直接打字聊天就行。

我觉得 ChatGPT 真正的意义，是把 AI 从"开发者的玩具"变成了"所有人的工具"。我妈不关心什么是 Transformer，但她能用 ChatGPT 查菜谱、写邮件、辅导孙子作业。这种普惠性，是 GPT-3 永远做不到的。

GPT-4：多模态的不是图片，而是野心

2023 年 3 月 GPT-4 发布时，OpenAI 自豪地宣布它通过了美国律师资格考试（BAR）并超过 90% 的人类考生，SAT 数学 700+ 分，在 MMLU 上达到 86.4%（GPT-3.5 是 70%）。更重要的是，GPT-4 第一次引入了视觉理解——它能看懂图片、图表、手写笔记，甚至能识别梗图里的笑点。

GPT-4 的推理能力相比前代是质的飞跃。复杂逻辑题、多步推导、代码调试，GPT-4 表现出了一种接近于"理解"而非"匹配"的能力。不过说实话，GPT-4 最大的问题就是慢且贵——初始定价 $30/百万输入 token，$60/百万输出 token，比 GPT-3.5 贵了 10-30 倍。做产品的开发者一边惊叹它的能力，一边肉疼账单。

2023 年底的 OpenAI DevDay 上，GPT-4 Turbo（128K 上下文，知识截止 2023 年 4 月，价格降到 $10/$30）和 Assistants API 一起推出，才算真正打开了开发者生态。GPTs Store 一度被宣传为"AI 时代的 App Store"，不过后来雷声大雨点小——这个我后面再说。

GPT-4o：O 代表什么？Omni，一切统一

2024 年 5 月 GPT-4o（o 代表 omni，"全能"）发布时，最让我兴奋的不是它比 GPT-4 Turbo 快了 2 倍、便宜了 50%，而是它的技术哲学转变。之前的 GPT-4 处理多模态的流程是这样的：语音转文字 → GPT-4 处理文本 → 文字转语音输出。三个模型串行，延迟 2.8 秒（GPT-3.5）到 5.4 秒（GPT-4）。

GPT-4o 直接把文本、图像、音频塞进同一个 Transformer。端到端的多模态理解，语音延迟降到了 232 毫秒，接近人类对话的反应速度。这意味着什么？意味着它不只是在"听"你说了什么词，而是在理解语气、节奏、停顿、情绪——它能听出你是高兴还是沮丧，能笑着回应笑话，能在适当的时候插话。

说实话，统一架构的意义被很多人低估了。之前的"串行管线"就像你把图像描述成文字再给盲人听——信息在转换中有大量损失。GPT-4o 的端到端理解，让它能直接捕捉那些"看不见但听得见"的信息。这也是为什么 GPT-4o 的语音模式如此自然——它不是"语音助手"，而是"会说话的 AI"。定价也大幅降到 $2.5/$10，后来又推出 GPT-4o mini 仅 $0.15/$0.60——基本白送级别。

o1/o3：会"思考"的模型，推理范式的颠覆

2024 年 9 月 o1-preview 发布时，很多人没看懂。为什么一个回答要等几秒甚至几十秒？为什么明明问题不难它还在"思考"？但看懂的人被深深震撼了——这是一种与 GPT 系列完全不同的范式。

传统的 LLM 训练是：给定问题，直接预测答案。GPT-4 再厉害也只是"条件反射"——看到问题，下一秒就开始输出。o1 的训练方式不同：给定问题，先让模型生成内部思维链（Chain-of-Thought），然后再输出答案。强化学习引导模型学会"自我纠错、尝试不同路径、回过头检查"。在 AIME 2024 数学竞赛中，o1 的正确率达到 83.3%（GPT-4o 是 13.4%）；在博士级科学问题 GPQA Diamond 上达到 78%。

这是推理范式的根本转变。不再是"条件概率生成"，而是"深度探索推理"。一个直观的比方：GPT-4 像是一个读了很多书但答完不检查的学生，o1 像是一个会把解题过程写在草稿纸上、反复验算的学霸。代价就是慢——o1 的回答可能要几秒到几分钟不等，且价格昂贵（o1 定价 $15/$60）。

o3 在 2025 发布的基准上更进一步，在 ARC-AGI 抽象推理测试上达到了 87.5%（人类基线 85%），在 FrontierMath 上达到 25%（此前最好的模型不到 2%）。2026 年，OpenAI 已经将推理能力整合到了 GPT-5 系列中——GPT-5.5 是目前的旗舰，支持推理强度调节（low/medium/high/xhigh），1M 上下文窗口，128K 最大输出，$5/$30 每百万 token。这个价格相比当年 GPT-4 的 $30/$60 已经温柔太多了。

争议、混乱与 Open

OpenAI 的故事不只是技术。2023 年 11 月，Sam Altman 被董事会解雇然后又光速复职——那场 5 天的宫斗大戏，暴露了 OpenAI 治理结构的深层矛盾。"非营利董事会控制营利实体"这个结构，在商业化压力面前脆得像苏打饼干。Mira Murati、Ilya Sutskever 等核心人物相继离职，GPT-5 发布推迟，Sora 的"red teaming"先放预告再慢慢发——OpenAI 的 2024 年，就是在"技术领先但组织混乱"的撕裂中度过的。

闭源争议是另一个老生常谈。OpenAI 最初叫"Open"，但 GPT-3 之后的所有核心模型都没有开源。有些人觉得这背离了初心，有些人觉得在 AGI 门槛上开源无异于玩火——两边都有道理。我只想说，OpenAI 用 API 定价的持续下探（从 $60 到 $10 再到 $3）回应了一部分质疑：不开源，但让更多人用得起。

我的实际体验与选型建议

作为一个日常重度使用 AI 写代码的人，我的体感是这样的：

GPT-5.5 在日常代码辅助上已经非常可靠。复杂重构、架构建议、debug——大部分时候一次就对了。但实话实说，在长时间对话中它偶尔会"忘记"之前的上下文（哪怕在 1M 窗口内），这是大模型注意力机制的固有问题。

相比 Claude Opus 4.7，GPT-5.5 的代码风格更"直接"，有时候会跳过边缘情况。Claude 则更"周到"，会主动提醒你潜在问题。写作能力上，GPT 偏向清晰结构化，Claude 更细腻有文采——看你需要什么。

如果你预算有限，GPT-5.4 mini（$0.75/$4.50）其实已经比当年的 GPT-4 强了——AI 能力的下渗速度真的惊人。

我的建议：

复杂推理和代码主力用 GPT-5.5，预算紧用 GPT-5.4
简单任务、高并发用 GPT-5.4 mini，性价比碾压
深度数学推导用推理模式开满（xhigh effort）
语音交互场景 GPT-Realtime-2 是目前的 SOTA
OpenAI 的好处是生态最全——API、ChatGPT、Assistants、DALL-E、Sora——一家搞定几乎所有需求
但如果你是追求极致代码助理体验，"开源 + Claude"的组合可能更适合——Claude Code 在复杂项目上的表现，我个人的评价是比 Codex 领先半步

GPT 系列的故事是一个"从小众震惊到大众日常"的缩影。从 2020 年的逆天论文，到 2022 年的全球现象，到 2024-2025 年的推理范式和统一多模态——这条路走了 5 年，但每一步都在重新定义"可能"的边界。OpenAI 也许不再是唯一的选择，但它仍然是最重要的坐标。

GPT 系列：一部 AI 进化的加速史，从震惊世界到无处不在 ​

GPT-3：那个让世界闭嘴惊艳的笨拙巨人 ​

ChatGPT：一个"意外"改变了世界 ​

GPT-4：多模态的不是图片，而是野心 ​

GPT-4o：O 代表什么？Omni，一切统一 ​

o1/o3：会"思考"的模型，推理范式的颠覆 ​

争议、混乱与 Open ​

我的实际体验与选型建议 ​