GPT 系列:一部 AI 进化的加速史,从震惊世界到无处不在
2020 年 6 月,当 OpenAI 扔出 GPT-3 那篇论文时,大多数人还没意识到这意味着什么。1750 亿参数,Few-shot 学习能力,不需要微调就能翻译、做阅读理解、写文章——这在当时简直是魔法。说实话,回头看那会儿的 GPT-3 其实挺笨的,经常胡说八道,逻辑一塌糊涂。但它的意义不在于好用,而在于证明了一件事:把模型做大,真的会涌现出意料之外的能力。那个"量变引起质变"的瞬间,是整个 AI 行业的肾上腺素注射。
GPT-3:那个让世界闭嘴惊艳的笨拙巨人
GPT-3 最震撼的不是它的技术细节(架构上就是 GPT-2 的同款放大版,175B 参数,96 层 Transformer),而是它对科技圈心理预期的爆破。在它之前,大部分人对语言模型的理解是"能做分类、能做翻译、能做简单问答"。GPT-3 直接告诉你——它可以帮你写代码、写诗、写剧本、做算术、甚至扮演心理咨询师。你只需要给它几个例子(Few-shot),它就能模仿。
但真正用过 GPT-3 的人都知道,它是个"看上去很美,用起来很累"的东西。输出不可控,推理漏洞百出,经常自信满满地胡说。那时候用 GPT-3 做产品的公司,光是在 prompt engineering 上就要花掉半条命。2020 到 2021 年间,OpenAI 陷入了真正的尴尬:技术够震撼,但商业化遥遥无期。
ChatGPT:一个"意外"改变了世界
2022 年 11 月 30 日,OpenAI 上线了一个叫 ChatGPT 的对话产品,底层是 GPT-3.5——一个在 GPT-3 基础上用 RLHF(人类反馈强化学习)做指令微调的版本。Sam Altman 后来承认,发布时他们自己都没想到会这么火。5 天 100 万用户,2 个月 1 亿月活——史上增长最快的消费级产品。
为什么是 ChatGPT 而不是 GPT-3 的 API?因为 RLHF 这个魔法让模型学会了"好好说话"。GPT-3 的回答像是从概率分布里采样,而 ChatGPT 的回答开始有了"助手"的样子——它会说"抱歉我不能做那个",会承认自己不知道,会纠正用户的错误。对话界面降低了所有门槛,你不需要是程序员,不需要写 prompt,直接打字聊天就行。
我觉得 ChatGPT 真正的意义,是把 AI 从"开发者的玩具"变成了"所有人的工具"。我妈不关心什么是 Transformer,但她能用 ChatGPT 查菜谱、写邮件、辅导孙子作业。这种普惠性,是 GPT-3 永远做不到的。
GPT-4:多模态的不是图片,而是野心
2023 年 3 月 GPT-4 发布时,OpenAI 自豪地宣布它通过了美国律师资格考试(BAR)并超过 90% 的人类考生,SAT 数学 700+ 分,在 MMLU 上达到 86.4%(GPT-3.5 是 70%)。更重要的是,GPT-4 第一次引入了视觉理解——它能看懂图片、图表、手写笔记,甚至能识别梗图里的笑点。
GPT-4 的推理能力相比前代是质的飞跃。复杂逻辑题、多步推导、代码调试,GPT-4 表现出了一种接近于"理解"而非"匹配"的能力。不过说实话,GPT-4 最大的问题就是慢且贵——初始定价 $30/百万输入 token,$60/百万输出 token,比 GPT-3.5 贵了 10-30 倍。做产品的开发者一边惊叹它的能力,一边肉疼账单。
2023 年底的 OpenAI DevDay 上,GPT-4 Turbo(128K 上下文,知识截止 2023 年 4 月,价格降到 $10/$30)和 Assistants API 一起推出,才算真正打开了开发者生态。GPTs Store 一度被宣传为"AI 时代的 App Store",不过后来雷声大雨点小——这个我后面再说。
GPT-4o:O 代表什么?Omni,一切统一
2024 年 5 月 GPT-4o(o 代表 omni,"全能")发布时,最让我兴奋的不是它比 GPT-4 Turbo 快了 2 倍、便宜了 50%,而是它的技术哲学转变。之前的 GPT-4 处理多模态的流程是这样的:语音转文字 → GPT-4 处理文本 → 文字转语音输出。三个模型串行,延迟 2.8 秒(GPT-3.5)到 5.4 秒(GPT-4)。
GPT-4o 直接把文本、图像、音频塞进同一个 Transformer。端到端的多模态理解,语音延迟降到了 232 毫秒,接近人类对话的反应速度。这意味着什么?意味着它不只是在"听"你说了什么词,而是在理解语气、节奏、停顿、情绪——它能听出你是高兴还是沮丧,能笑着回应笑话,能在适当的时候插话。
说实话,统一架构的意义被很多人低估了。之前的"串行管线"就像你把图像描述成文字再给盲人听——信息在转换中有大量损失。GPT-4o 的端到端理解,让它能直接捕捉那些"看不见但听得见"的信息。这也是为什么 GPT-4o 的语音模式如此自然——它不是"语音助手",而是"会说话的 AI"。定价也大幅降到 $2.5/$10,后来又推出 GPT-4o mini 仅 $0.15/$0.60——基本白送级别。
o1/o3:会"思考"的模型,推理范式的颠覆
2024 年 9 月 o1-preview 发布时,很多人没看懂。为什么一个回答要等几秒甚至几十秒?为什么明明问题不难它还在"思考"?但看懂的人被深深震撼了——这是一种与 GPT 系列完全不同的范式。
传统的 LLM 训练是:给定问题,直接预测答案。GPT-4 再厉害也只是"条件反射"——看到问题,下一秒就开始输出。o1 的训练方式不同:给定问题,先让模型生成内部思维链(Chain-of-Thought),然后再输出答案。强化学习引导模型学会"自我纠错、尝试不同路径、回过头检查"。在 AIME 2024 数学竞赛中,o1 的正确率达到 83.3%(GPT-4o 是 13.4%);在博士级科学问题 GPQA Diamond 上达到 78%。
这是推理范式的根本转变。不再是"条件概率生成",而是"深度探索推理"。一个直观的比方:GPT-4 像是一个读了很多书但答完不检查的学生,o1 像是一个会把解题过程写在草稿纸上、反复验算的学霸。代价就是慢——o1 的回答可能要几秒到几分钟不等,且价格昂贵(o1 定价 $15/$60)。
o3 在 2025 发布的基准上更进一步,在 ARC-AGI 抽象推理测试上达到了 87.5%(人类基线 85%),在 FrontierMath 上达到 25%(此前最好的模型不到 2%)。2026 年,OpenAI 已经将推理能力整合到了 GPT-5 系列中——GPT-5.5 是目前的旗舰,支持推理强度调节(low/medium/high/xhigh),1M 上下文窗口,128K 最大输出,$5/$30 每百万 token。这个价格相比当年 GPT-4 的 $30/$60 已经温柔太多了。
争议、混乱与 Open
OpenAI 的故事不只是技术。2023 年 11 月,Sam Altman 被董事会解雇然后又光速复职——那场 5 天的宫斗大戏,暴露了 OpenAI 治理结构的深层矛盾。"非营利董事会控制营利实体"这个结构,在商业化压力面前脆得像苏打饼干。Mira Murati、Ilya Sutskever 等核心人物相继离职,GPT-5 发布推迟,Sora 的"red teaming"先放预告再慢慢发——OpenAI 的 2024 年,就是在"技术领先但组织混乱"的撕裂中度过的。
闭源争议是另一个老生常谈。OpenAI 最初叫"Open",但 GPT-3 之后的所有核心模型都没有开源。有些人觉得这背离了初心,有些人觉得在 AGI 门槛上开源无异于玩火——两边都有道理。我只想说,OpenAI 用 API 定价的持续下探(从 $60 到 $10 再到 $3)回应了一部分质疑:不开源,但让更多人用得起。
我的实际体验与选型建议
作为一个日常重度使用 AI 写代码的人,我的体感是这样的:
GPT-5.5 在日常代码辅助上已经非常可靠。复杂重构、架构建议、debug——大部分时候一次就对了。但实话实说,在长时间对话中它偶尔会"忘记"之前的上下文(哪怕在 1M 窗口内),这是大模型注意力机制的固有问题。
相比 Claude Opus 4.7,GPT-5.5 的代码风格更"直接",有时候会跳过边缘情况。Claude 则更"周到",会主动提醒你潜在问题。写作能力上,GPT 偏向清晰结构化,Claude 更细腻有文采——看你需要什么。
如果你预算有限,GPT-5.4 mini($0.75/$4.50)其实已经比当年的 GPT-4 强了——AI 能力的下渗速度真的惊人。
我的建议:
- 复杂推理和代码主力用 GPT-5.5,预算紧用 GPT-5.4
- 简单任务、高并发用 GPT-5.4 mini,性价比碾压
- 深度数学推导用推理模式开满(xhigh effort)
- 语音交互场景 GPT-Realtime-2 是目前的 SOTA
- OpenAI 的好处是生态最全——API、ChatGPT、Assistants、DALL-E、Sora——一家搞定几乎所有需求
- 但如果你是追求极致代码助理体验,"开源 + Claude"的组合可能更适合——Claude Code 在复杂项目上的表现,我个人的评价是比 Codex 领先半步
GPT 系列的故事是一个"从小众震惊到大众日常"的缩影。从 2020 年的逆天论文,到 2022 年的全球现象,到 2024-2025 年的推理范式和统一多模态——这条路走了 5 年,但每一步都在重新定义"可能"的边界。OpenAI 也许不再是唯一的选择,但它仍然是最重要的坐标。