GPT-5 的雏形；OpenAI如何研发Agent；中国大厂投更多算力｜AI月报

2025 年 2 月的全球 AI 重大趋势。

文丨贺乾明

2025 年 2 月的 AI 月报，你会看到：

硅谷巨头的新共识：推理能力是大模型的一部分

OpenAI 和 Manus 的 Agent 开发经验

DeepSeek 推动中国大公司加大算力投入，阿里、字节两家加起来，今年就超过 2000 亿

3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司

OpenAI 时薪 100 美元招专家生产数据提高模型能力

这一期月报中，我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和洞察。

晚点 AI 月报，每月选取最值得你知道的 AI 信号。

以下是我们第 4 期 AI 月报，欢迎大家在留言区补充我们没有提到的重大趋势。

技术丨GPT-5 雏形出现，行业新共识诞生

DeepSeek 带来的冲击波继续扩散，全球大模型公司陷入混战：不论是马斯克用超过 10 万张 GPU 训练的 Grok 3，还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5，或是 Anthropic 融合推理（reasoning）能力的最新模型 Claude 3.7 Sonnet，都没有带动大模型能力大幅提升。

发布 GPT-4.5 前，OpenAI 给出模型能力继续提升的路径：把基础模型（如 GPT-4.5）和推理模型 o3 融合在一起发布 GPT-5，有点像 Claude 3.7 的做法。

这是大模型行业头部公司的新共识。从 OpenAI 跳槽到 Google 的开发者关系负责人洛根·基尔帕特里克（Logan Kilpatrick）说：“这一直是 Gemini 的计划，确保推理能力是基础模型的一部分，而不是一个支线任务，因此开发了 Gemini 2.0 Flash Thinking。”

OpenAI 认为，无监督学习（unsupervised learning）和推理（reasoning），代表智能的两个轴 [1]：

无监督学习，用更多数据、更多算力等提高世界模型（world model）的准确性和直觉，GPT‑3.5、GPT‑4、GPT‑4.5 推动该范式的发展。
推理，让模型回答之前先思考，生成一系列思维链，从而能解决复杂的理工科或逻辑问题。o1 和 o3‑mini 等模型推动该范式的发展。

“我们发现这两种范式互补，并认为它们之间存在反馈循环。”OpenAI 首席研究官陈信翰（Mark Chen）参与播客节目时说，“知识是推理的基础。模型不能从零开始学习推理。”

但这类模型在投入使用时会面临麻烦：不是所有问题，都需要用领先模型解决，列如总结一段文本，能在手机上部署的模型没比 GPT-4o 差多少。

OpenAI 准备做一个自动识别用户提出的问题、判断用什么模式回答问题的系统，但会给免费用户和付费用户分层 [2]：

免费用户用标准智能模式与 GPT-5 聊天交流。
每月花 20 美元的用户可以用更高智能模式的 GPT-5。
每月花 200 美元的用户可以用最高智能模式的 GPT-5。

斯坦福大学计算机科学助理教授珀西·梁（Percy Liang）在社交媒体上评论 [3]：

从产品的角度来看，这样做超级合理。不过，从研究人员和开发人员的角度来看，将所有内容都封装起来，会让我们越来越难理解底层的运作机制。我们过去拥有一个对应自回归概率模型的端点（endpoint），能直接处理 token；但目前，我们将只有一个神秘的 “黑盒子”。

一位中国大模型公司研究员说：

这也是我们正在做的方向。（大模型公司）基本最后都会走 system1（GPT-4o 类模型）跟 system2 （o1 或 R1 类模型）结合的路线。目前大家都是摸着石头过河。

应用丨Deep Research 成为热门 Agent

知名分析师的使用经验：每月花 200 美元雇了一名员工

Deep Research 成为大模型 Agent 时代的热门应用。OpenAI 介绍，只需提供一个提示，它就会调用模型查找、分析和综合数百个在线资源（搜索、解释和分析互联网上大量的文本、图像和 PDF 文件，根据遇到的信息灵活调整策略），生成一份研究员水平报告。

知名分析师本·汤普森（Ben Thompson）[4] 用 Deep Research 写苹果财报分析后评论：“感觉有点像 AGI”“像是每月花 200 美元的惊人低价雇了一名员工”。他分享了理由和使用技巧：

给 Deep Research 充分的提示信息，列如告知它重点关注“服务收入如何影响利润率”，比只让它“分析苹果最新财报”得到的反馈更好。
给 Deep Research 充分的提示信息，让它就不算熟悉的公司高管列如 ServiceNow 的 CEO 写采访提纲，虽然问题普通，但可以节省时间。
给 Deep Research 提供超级充分的信息，分析一个行业的参与者、供应链、客户等，它能给出充分的回答，但也会遗漏最重大的参与者。
Deep Research 存在的问题是：话题越热门，最有可能被低质量信息（无论是人生成还是 AI 生成）污染，它就越没有价值。反过来，话题越准确、越冷门，Deep Research 的价值就越高。
Deep Research 极有可能成为有史以来最高效的搜索引擎，但如果关键信息不在互联网上，它无法给出真正有价值的报告。

OpenAI 开发 Deep Research 的经验：强化学习是关键

去年 12 月，Google 就发布基于 Gemini 1.5 模型的 Deep Research 功能；OpenAI 刚推出一天，开源社区 HuggingFace 就提供了开源复现版本；之后不久，大模型搜索应用 Perplexity 推出类似的功能。

但最受关注的还是 OpenAI 版本的 Deep Research——哪怕每个月要付 200 美元才能自由使用。

“归根结底，在于如何开发模型、是否努力构建数据集。”OpenAI 负责开发 Deep Research 的乔什·托宾（Josh Tobin）说。

他和另一位 Deep Research 的开发者伊萨·福尔福德（Isa Fulford）参与红杉资本的播客节目，分享了 OpenAI 开发 Deep Research 的经验 [5]：

Deep Research 的新颖之处在于端到端训练，让模型学习如何针对搜索到的内容作反应，而不是事先编排好规则，让模型一步步执行。这是 AI 领域反复上演的教训：研究者总以为自己编写代码，能比模型自己训练更机智，但用上强化学习的模型能提出更好的解决方案。
想要实现这一点，需要大规模、高质量的数据集。投入模型的数据质量，很可能是决定模型质量的最大因素。OpenAI 的研究者投入大量精力制作了复杂的示例，列如搜索有效信息的数据，用它微调了 o3 模型（目前 o3 并没有开放）。
在模型的基础上用强化学习调优，很可能是开发强劲 Agent 的关键。目前行业有了用海量数据训练的大模型，能遵循指令完成特定任务，可以定义“奖励函数”的实用场景，用强化学习得到更好结果的时机已经成熟。

本期月报发布前，中国创业公司发布的 Agent 应用 Manus 引发关注。Manus AI 的联合创始人、首席科学家季逸超分享了他们开发 Agent 的经验：

我们坚信并践行 less structure，more intelligence 的哲学：当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实，那么 computer use、deep research、coding agent 等概念就从产品特性变为了自然涌现的能力。技术之外，回归第一性原理也让我们对产品形态有了全新的思考：

AI 浏览器不是在浏览器里加 AI，而是做给 AI 用的浏览器；AI 搜索不是从索引召回再总结，而是让 AI 以用户的权限去获取信息；操作 GUI 不是抢夺用户设备的控制权，而是让 AI 有自己的虚拟机；编写代码不是最终目的，而是解决各种问题的通用媒介；生成网站的难点不是搭建框架，而是让内容言之有物；Attention 不是 all you need，解放用户的 attention 才能重新定义 DAU。

投资了多家大模型创业公司的真格基金管理合伙人戴雨森说：

模型的推理能力、编程能力、工具使用能力提升，解锁了 Agent 。没有推理能力，无法很好地计划，无法消化海量信息。没有编程能力，无法用 Python 等工具处理文件、数据等任务。而工具方面，浏览器只是一个最基本的工具，后来还会有其他的软件。

这些能力的共同进步，到达临界点后，能够把一个 Agent 产品做出来。当然，这些能力还有许多的提升空间，所以目前还是超级早期的阶段。再过半个月、半年、一年，产品能力可能又会变得不一样。

以前人类用的所有工具都需要 Attention，即需要人给予注意力，关照工作的进度，“ Attention is all you need；而 AI 技术进步，大家会做出来不需要 Attention 就能主动完成复杂任务的工具，这会解锁人类的潜能。

基建｜DeepSeek 成为算力投资关键变量

DeepSeek 推动中国公司扩大算力投入，阿里计划三年投 3800 亿元

DeepSeek 让大量原本处于观望状态的行业、公司接受大模型，带动中国的算力投资：

2 月 24 日，阿里宣布计划未来三年将投入至少 3800 亿元（530亿美元），用于建设云计算和 AI 基础设施。
此前有媒体报道称，字节今年的资本开支预计达到 200 亿美元，同样用于 AI 基建。
腾讯 CEO 马化腾在 1 月员工年会上说，腾讯会持续投入资源储备算力，推动旗下各业务线接入大模型。我们了解到，DeepSeek 之后，腾讯采购英伟达 GPU 的计划比去年大幅增长。

DeepSeek 模型的特点是低成本、高效率，但大规模投入使用仍需要大量的算力，主要有两个因素：

DeepSeek 的 V3、R1 模型参数达到 6710 亿，需要多张 GPU 才能部署下。硅基流动创始人袁进辉曾说，他从 DeepSeek 创始人梁文峰那里得到的提议是：部署 V3 模型（R1 是在 V3 基础上后训练来的模型），用 10 台 H800 推理速度会很慢，想流畅最少 20 台 H800，最好是 80 台——每个月要投入五六百万。
如果部署完整版的 DeepSeek-R1 模型，会有“思考”过程，消耗算力会大幅增长。英伟达 CEO 黄仁勋近期说，由于采用逐步思考“如何最佳回答”问题的推理方法，下一代大模型解决任务需要的算力，比旧模型多 100 倍。

已经投资了两年的微软说：算力中心存在过度建设

微软上个月叫停在建的威斯康星州数据中心后，2 月又撤销一批美国数据中心的租约。一个可能的因素是，微软不再是 OpenAI 唯一算力供应商，OpenAI 正在加大甲骨文算力的用量。

微软 CEO 萨提亚·纳德拉（Satya Nadella）在一档播客节目说 [6]：（算力）会有过度建设，微软 “超级高兴在 2027 年、2028 年租赁大量的算力”，由于 “建设的唯一结果是价格会下降。”

英伟达陷入震荡，反弹的股价又跌了回去

英伟达的股价在 2 月走过一个倒 U 型曲线，前 20 天上涨 17%，基本回到 DeepSeek 冲击前的水平；随后又开始下跌，到 3 月初降了近 20%。

美国芯片出口禁令还可能扩大，英伟达难从中国大公司扩大算力投资中获得尽可能多的收入。黄仁勋说，到今年 1 月，英伟达来自中国的收入已经降低到 15%，比没有禁令时期少了一半。
美国大客户们今年持续扩大投入，它们需要英伟达，但掌控用户使用场景的大公司几乎都在自研 AI 芯片；另一方面，有大公司有了后撤迹象。

投融资丨3 家 AI 公司卖了超 1 亿美元，23 家 AI 公司融资超过 5000 万美元

3 笔金额超过 1 亿美元的并购案，有一笔投资人回报丰厚，有一笔投资人亏损：

Voyage AI 被数据库软件公司 MongoDB 收购，总价 2.2 亿美元的现金和股票。Voyage AI 成立于 2023 年 11 月，主要优化大模型使用 RAG（检索增强生成）时的表现，主要目标是大模型的幻觉。成立以来，Voyage AI 共融资 2800 万美元。创始人是清华大学姚班毕业生马腾宇。
Humane 被惠普收购大部分股权，总价 1.16 亿美元。Humane 成立于 2018 年，开发 AI 硬件 AI Pin，售价 499 美元，但市场表现糟糕。成立以来，Humane 融资 2.5 亿美元，估值一度达到 8.5 亿美元。
Kinara 被恩智浦半导体收购，总价 3.07 亿美元。Kinara 成立于 2013 年，专注于设计用于终端的 AI 芯片。2021 年，Kinara 在 B 轮融资 2500 万美元。

基础模型：两家 OpenAI 系公司寻求高估值融资

2 月，我们只关注到一家研发基础模型的公司宣布完成超 5000 万美元融资：

Latent Labs 获得 5000 万美元融资。它成立于 2023 年，目标是开发模型，把生物系统转变成类似计算机软件一样可控、可设计的系统（making biology programmable），创始人曾在 Google DeepMind 参与开发 AlphaFold。

但还有两家 OpenAI 系基础模型公司正在寻求高估值融资，尽管它们没有产品、没有收入：

OpenAI 原首席科学家伊尔亚·苏茨克维（Ilya Sutskever）创办的 Safe Superintelligence 正在以 300 亿美元融资。
OpenAI 原 CTO 米拉·穆拉蒂（Mira Murati）创办的 Thinking Machines Lab，正在以 90 亿美元的估值融资 10 亿美元。

基础设施：英伟达是大赢家；还有两家量子计算公司融资

英伟达投资的 GPU 算力租赁公司 CoreWeave 在近期递交招股书，预期集资 40 亿美元，估值约 350 亿美元。2 月还有英伟达支持的另外两家 GPU 算力租赁公司宣布获得大额融资：

Together AI 融资 3.05 亿美元，估值达到 33 亿美元。它成立于 2023 年。
Lambda Labs 融资 4.8 亿美元，估值达到 25 亿美元。它成立于 2012 年。

其他获得超过 5000 万美元的融资的 AI 基础设施公司有：

EnCharge AI 融资 1 亿美元。它成立于 2022 年，主要开发用于笔记本电脑、台式机、手机和可穿戴设备等设备中模拟存储芯片，他们认为可以加速 AI 处理、降低成本。
Dream 融资 1 亿美元，估值达到 11 亿美元。它成立于 2023 年，主要开发提高 AI 网络安全的技术。
Baseten 融资 7500 万美元，估值达到 8.25 亿美元。它成立于 2019 年，主要基于公共云提供 AI 模型部署服务。

2 月还有两家量子计算公司获得超过 5000 万美元融资：

QuEra Computing 融资超过 2.3 亿美元。它成立于 2018 年，主要使用 “中性原子”（理论上比其他量子计算系统更容易扩大规模、降低错误率）开发量子计算机。
Quantum Machines 融资 1.7 亿美元。它成立于 2018 年，主要开发量子计算机控制系统，已经与英伟达等 10 多家开发量子计算硬件的公司合作。

应用：主要是前 ChatGPT 时代成立的公司拿到融资

跟前两个月类似，获得超过 5000 万美元融资的 AI 应用公司，基本都在 2023 年之前成立，2023 年及之后成立的公司有两家：

Genspark 融资 1 亿美元，估值达到 5.3 亿美元。它成立于 2023 年，主要开发 AI 搜索引擎，创始人是百度旗下智能硬件公司小度的原 CEO 景鲲、原 CTO 朱凯华。
Eudia 融资 1.05 亿美元。它成立于 2023 年，主要开发帮律师提效的 AI 应用，列如分析合同、整理资料等。

其他共识都瞄准特定行业或应用场景，大模型到来前就积累了大量客户：

Abridge 融资 2.5 亿美元。它成立于 2018 年，用 AI 把患者与临床医生之间的对话转化为结构化的临床笔记，整合到电子健康记录系统中。
Harrison.ai 融资 1.12 亿美元。它成立于 2018 年，主要提供识别分析 X 光片、CT 扫描影像、病理切片的 AI 软件。
OpenEvidence 融资 7500 万美元，估值达到 10 亿美元。它成立于 2021 年，仅使用同行评审的医学期刊数据训练了对话机器人，协助医生下判断。
Tines 融资 1.25 亿美元，估值 11.3 亿美元。它成立于 2018 年，主要用 AI 技术开发简化网络安全等工作的软件。
Semgrep 融资 1 亿美元。它成立于 2017 年，主要开发分析编程代码的产品，帮开发者找安全漏洞和 bug。
Hightouch 融资 8000 万美元，估值达到 12 亿美元。它成立于 2018 年，为企业提供管理客户数据做个性化营销的产品。
Augury 融资 7500 万美元，估值超过 10 亿美元。它成立于 2011 年，提供利用 IoT（物联网）和 AI 技术检测工厂机器故障的软件。
Luminance 融资 7500 万美元。它成立于 2015 年，主要为法律行业提供 AI 软件，用于自动管理、分析合同等。
Sardine 融资 7000 万美元，估值达到 6.6 亿美元。它成立于 2020 年，为金融机构和企业提供 AI 反诈产品，跟马斯克的 X 达成了合作。
Sanas 融资 6500 万美元，估值超过 5 亿美元。它成立于 2020 年，主要开发将用户口音转换为标准口音，如美国英语或英国英语的技术，主要应用场景是呼叫中心。
SpotDraft 融资 5400 万美元。它成立于 2017 年，开发利用 AI 技术的合同管理软件，追踪合同创建、审查、签署和存储等过程。
Saronic 融资 6 亿美元，估值 40 亿美元。它成立于 2022 年，主要开发自动驾驶的军用舰艇。
Apptronik 融资 3.5 亿美元。它成立于 2016 年，开发人形机器人。去年 Apptronik 与 Google DeepMind 建立了合作。

GPT-5 的雏形；OpenAI如何研发Agent；中国大厂投更多算力｜AI月报

Apptronik 开发的人形机器人。

最后丨OpenAI 提升模型能力的一个方法：时薪 100 美元找人写数据

大模型的能力无法沿着过往 Scaling Laws 提升的桎梏，是领先的大模型已经吞掉几乎所有公开、优质的数据。

为了解决这个问题，大模型公司尝试用 AI 生成数据。列如 DeepSeek 训练 R1 模型时，就训练了 “专家模型” 生成数学、编程等领域的问题。OpenAI 也在利用 o 系列模型生成用于训练 GPT-4.5 的数据。

也有公司花重金雇专家撰写数据。2 月，有媒体报道了 OpenAI 用人生产数据的情况 [7]：

OpenAI 付 100 美元时薪，找了至少 300 名资深程序员或博士，回答医学、法律、计算机科学、物理学等领域的问题，并详细解释为何要如此回答，平均一个问题耗费 2 个小时。
其中一个问题是：请总结截至 2024 年 8 月前可用的湿实验方法，用于并行评估人类非编码调控 DNA 序列（如启动子和增强子）中多种不同变异对基因表达的影响。针对每种方法，请说明基因表达的测量方式及变异的识别策略，描述各方法中引入变异的相关技术，并分析其核心优势与局限性。最后，假设预算低于 5 万美元，提议哪种方法最适合用于在数百个不同调控元件中测试数千个与冠状动脉疾病（CAD）相关的 SNP。
这些造价高昂的数据，主要用在模型的 “后训练” 阶段，让经过海量数据训练的模型更好的回答特定领域的问题。
OpenAI 的价格并不是最高的。数据公司 Labelbox 近期完成的一个项目，时薪 200 美元雇会计师，让他们根据股票表现等数据，修正大模型分析特定公司前景的报告。

在 AI 领域存在一个定律：数据质量决定模型能力。模型算法随着开源和人才流动在行业中扩散，数据在竞争中的重大程度越来越高。

“真正在意软件的人，应该自己造硬件。” 计算机科学家艾伦·凯（Alan Kay）的这句名言，在大模型时代也有了新的变体：真正在意 AI 的人，应该重点关注数据。

[1] OpenAI 分享如何提升大模型能力

https://openai.com/index/introducing-gpt-4-5/

[2] 阿尔特曼谈论 GPT-5 的规划

https://x.com/sama/status/1889755723078443244

[3] 斯坦福大学计算机科学助理教授珀西·梁评论 GPT-5 规划

https://x.com/percyliang/status/1890107330320347623

[4] 分析师本·汤普森使用 Deep Research 的体验

https://stratechery.com/2025/deep-research-and-knowledge-value/

[5]OpenAI 研究者分享开发 Deep Research 的经验

https://www.sequoiacap.com/podcast/training-data-deep-research/