2025AI现场:我们这一年的目击与狂想

  公司新闻     |      2025-11-01 21:28

  本周的十字路口,我们和庄明浩(「屠龙之术」主播)一起,复盘 2025 年的 AI 和科技行业的大事件,以及身处其中的我们的一些记忆与感受。

  这一年,我们既是目击者,见证着技术的快速迭代、产品以前所未有的方式颠覆日常;同时,我们也被卷入了一场关于未来的集体狂想,在创新的巨浪和无尽的可能性面前,时而兴奋,时而迷茫。

  我们从明浩提出的年度关键词“拐点”聊起,复盘了从年初的DeepSeek R1到最近的 Sora 2 的各种模型大战、Manus引爆的“Agent 元年”;探讨了开源生态和人才流向;并最终将目光投向资本市场——我们该如何理解这场关乎未来的集体狂想?

  “我们不知不觉地走到了很多事情的极限里面,技术也好,产品也好,钱也好。”

  向下的拐点:泡沫何时破裂?我们是否已在不知不觉中触碰到技术和增长的极限?

  Sam Altman 重新定义“图灵时刻”:为什么 AGI 可能不会“翻天覆地”,而是“轻轻迈过”?

  头部模型厂商的生存法则:Anthropic 做深 B 端,xAI 走野路子,微软为何被迫自研模型?

  在纯 Chatbot 战场,战役已经打完了吗?ChatGPT 8 亿周活的背后,是护城河还是增长极限?

  中国厂商的共识与武器:为什么“开源”成了对抗美国 AI 趋势的唯一手段?

  DeepSeek V3.2 的发布意味着什么?为什么我们今年可能等不到 V4 和 R2 了?

  多模态战场为何比语言模型竞争更激烈?美图、营销视频 Agent... 场景和商业化路径无比清晰。

  OpenAl 的产品心法:为什么是 Sora 2 走入了千家万户,而不是技术同样领先的其他产品?

  这个世界真的不需要一个“AI 抖音”吗?或许 OpenAl 的目的根本不是做抖音。

  Google 回来了!世界模型 Genie 会是通向 AGI 的另一条路,甚至是“世界的子宫”吗?

  为什么 Agent 将在 L3 阶段停留很久?因为它第一次将 AI 能力从“语言”延伸到了“行为”。

  Manus 的历史意义:它让用户第一次知道了 Agent 该长什么样,心智定义价值千金。

  Agent 创业公司如何活下去?当通用 Agent 成为巨头显学,垂直领域的法律、金融、营销反而异常繁荣

  注意力经济的挤压效应:当主流赛道挤满人,为什么连“AI 动态漫”这种天花板有限的赛道都能拿到钱?

  为什么说真正的“手机助理”,Siri 做不到,但今天的端侧 Agent 可以?

  鸿蒙 HMAF 框架的启示:当 OS 不再自己做一切,而是将意图下发给 APP 的原生 Agent,会为开发者带来什么新机会?

  从“头部模型一定是闭源”到“2026 年开源模型会登顶”,Sam Altman 的观点为何发生转变?

  开源如何商业化?DeepSeek 的 API 照样卖钱,且成本比 OpenAI 低几十倍。

  开源如何成为一种“武器”?在争夺欧洲、东南亚、中东等中间地带时,开源天然地拥有信任优势。

  本地部署的需求有多旺盛?一款内存和显存超大的笔记本电脑,因为适合本地部署大模型而被迅速抢购一空。

  开发者有哪些新的“生态位”可以抢占?鸿蒙开发者凭借数款小应用月入 7 万。

  “当年大家认为 AI 是一个技术、一个产业,今天 AI 就是市场本身。”

  Sam Altman 的“终局思维”:当一家公司试图将未来五年的增长预期全部打包,会发生什么?

  另一面,中国创投圈“我们太过熟悉的移动互联网增长叙事,在今天不能复制。”

  投资人如何寻找信心?当 AI 纯软件的故事讲不通时,大家开始集体投向大疆、石头、追觅背景的硬件创始人。

  有趣的信号:除了英伟达,今年标普 500 涨得最好的竟是希捷和西部数据这两家硬盘公司。

  泡沫警报:当 AI 巨头开始依赖债务融资,令人想起“次贷危机”的幽灵是否正在靠近?

  本周的「十字路口」,嘉宾是老朋友庄明浩。今天我们会和明浩一起复盘 2025 年的科技大事件,以及 AI 的一些时代回忆,也会聊聊我们身处其中的感受。

  说实话,在准备这一期播客的时候,我的感受其实就是一个字——快。无论是技术迭代、产品更新,还是全球格局的变化,都感觉 2025 年像是按下了八倍速。去年大家常说「AI 一年,人间十年」,这句话虽然现在少有人提,但这种感受依然存在。

  明浩一直在记录这个时代,一直在做 PPT,我自己给他起了个外号——「AI 时代的司马迁」。我们第一个问题就是想问问这位「司马迁」:你觉得未来的人们会如何聊起这一年?这会是泡沫之年、转折之年,还是别的关键词?

  我想到一个非常贴切的词——拐点。拐点的好处是它既可以向上拐,也可以向下拐。

  如果向上拐,比如最近大家讨论的数据中心建设问题,按照预期,2026 年就是要爆的那一年,这是向上拐的可能性。但也有另一种探讨:泡沫会不会破裂?如果真的进入破裂状态,可能在 2025 年底就会往下走。到了年底,你会发现我们不知不觉走到了很多事情的极限里——无论是技术、产品、资本,还是更大的层面。可以说,AI 已经走到了人类的一个极限。

  我们今天会分几个部分来复盘 2025,因为这一年发生的事情太多,不可能全部覆盖,所以很多内容会带上我们自己的感受。也许有些事件对我们个人冲击更大,但也可能有人会觉得,「这么大的事你们竟然没提到」。这在所难免。

  我们先聊大模型、多模态和 Agent。今年年初的一个特别大事件就是 DeepSeek 发布了 R1。当时几乎是山呼海啸般的全球刷屏。直到今天,我仍然觉得它对我们的生活和工作都产生了巨大影响。

  R1 正式发布时间我没记错的话是一月二十几号,就在春节假期前两天。当时中国最受关注的人是冯骥——《黑神话:悟空》的创始人。他发了一条微博,说这可能是「国运级别的代表」,引发了新一轮的讨论。那几天,美国几乎所有主流财经科技媒体都在报道 DeepSeek。

  与此同时,美国已经开始建立关于新一轮 AI 的基础设施投资叙事,新闻上频繁出现「十亿美金、百亿美金」的体量。而 DeepSeek R1 的论文中提到,它最后一次训练成本只有约百万美元量级。这种强烈的对比引发了大量讨论。

  从投资角度看,当时美国的「七姐妹」以及 NVIDIA 的股价都有巨大跌幅,因为大家开始怀疑原有的叙事——似乎有别的方式可以解决问题。当然,在那之后又出现新的趋势。就像当年的煤炭行业一样,更多的资源开采带来了更多机会。虽然会有短期震荡,但长期增长依旧存在。直到今天,这个叙事仍在延续。

  从 DeepSeek R1 开始,我们看到了中美在大模型领域的竞争——包括技术路线、开源与闭源之争,以及产品落地的规模问题。

  业内常用从 L1 到 L5 的实施路径:L1 是大家熟悉的 Chatbot,L2 是推理。O1 模型在 2024 年 9 月发布,当时各大头部厂商都在复现 R1 或 O1。O1 是推理模型的代表,而在 R1 发布后两三个月,也就是 2025 年一季度,几乎所有头部厂商都推出了自己的推理模型。直到今天,各家仍在更新 Base Model 和推理模型。

  所以如果我们在 2025 年底回头看,R1 基本确定了这一年的竞争路径。后面的事情更多是工程优化和改进。

  那一轮破圈的当然还有生成图片的 GPT-4o 模型,但它也引发了版权等问题,和今天 Sora 2 遭遇的情况很像。如果只看OpenAI的技术路线 年时大家对 GPT-5 抱有极高期待,认为它会是跨越 AGI 临界点的里程碑。但今年我们等到了 GPT-5,却发现它并没有达到那种预期。

  我前几天听 Sam Altman 在 a16z 播客上说,我们经历的很多变化可能不会再像以前那样剧烈。哪怕 GPT-3.5 出现 ChatGPT 时,某种意义上已经跨越了图灵测试,但现实并没有「翻天覆地」。两年多过去,我们只是轻轻地迈过去,然后继续往前走。

  现在我们也很难界定 AGI 到底是什么。从 2022 年 11 月 ChatGPT 发布到现在两年半、快三年,悲观点讲其实整体还是在线性轨道上前进。今年各家厂商的模型也在持续更新。Google 的进展非常快——无论是 Gemini 系列还是 Veo 3 等视觉模型,都表现强势。

  对,Claude 也一直在坚定做自己的事,尤其在 2025 年更有节奏感。从市场经济角度看,它是创意公司里的第二名,第二名就必须和第一名有所区隔。虽然底层模型差距不大,但在场景选择上,Claude 越来越清晰,重点聚焦在 toB、Coding 等场景上。它的增长曲线甚至比 OpenAI 还快,当然体量更小。

  今年 xAI 的 Grok 系列更新也有特色,比如和 X(原 Twitter)的合作,以及虚拟陪伴类应用。

  包括现在 Sora 2 出来之后,X 他们也很快推出自己的视频模型,而且路线很「野」。因为它几乎可以生成任何人的照片,完全不尊重隐私。

  对。这背后其实不仅是技术问题,也是商业问题。微软在 8 月底发布了自己的模型。由于和 OpenAI 的复杂关系,微软不得不自己做模型。这大概是美国几家核心厂商的格局——OpenAI、Google、Anthropic、xAI,还有 Meta。Meta 今年声音不多,主要在疯狂招聘。

  开源生态的建立,可能是中国在寻找不同于美国 AI 发展路径时的唯一手段。开源最头部的两家是 DeepSeek 和通义千问,这两家几乎并驾齐驱,增长迅猛。

  今年 DeepSeek V3.2 是一个重要标志。它意味着我们今年可能等不到 V4。DeepSeek V3 是去年年底发布的基础模型,之后通过强化学习得到 R1,V3.1 持续更新后,大家以为下一个会是 V4,但结果出了 V3.2。于是大家推测,今年可能等不到 R2。

  而千问的故事则与阿里整体的 AI 战略紧密相连,涉及开发投入、语言模型、多模态和编程等全面覆盖。此外,Kimi 和智谱也调整了策略,分别发布了 Kimi K2 和 GLM 4.5/4.6,在 Coding、Agent、开源领域都有新探索。

  欧洲那边还有一家叫 Mistral 的公司,在自然语言模型领域表现突出。这些构成了当下主流的大模型格局。当然,这里我们还没展开多模态、Coding 和 Agent 的部分。

  完美体育 365官网登录入口

  我觉得 R1 肯定会被记住,推动模型的这个节点肯定会被记住,Agent 的代表也会被记住。多模态方面,如果只选一个,我认为会是 Google 的 Veo 3,它是第一个从无声视频走到有声视频的模型,这是一个巨大的跨越。

  如果再往后看,今年世界模型的发展也在加速,参与的厂商越来越多。目前它还处于偏 Demo 阶段,还没有到更值得深入探讨的阶段。但如果硬要预判,可能 2025 年底或 2026 年初会迎来一个重要节点。

  对,其实就像 Sam 提到的,最近的发布多是渐进式的改动。很多更新,尤其是大语言模型的更新,已经让大家不再那么兴奋了。在这样的背景下,如果现在又出现一个「世界第一」的模型,明浩,你会怎么看?

  首先要看它在哪个榜单上拿到「世界第一」。现在有几个不同的评判体系:有盲测、有打分、有题库测试等。在不同的标准下结果不同。所以确实,现在无论对大众还是从业者而言,拿下一个所谓的第一或 SOTA,刺激性已经非常有限。这类新闻更多是「向上管理」。

  今年语音模型的竞争也异常激烈,我们自己也在做语音业务,能感受到这种程度。语音原本是一个偏边缘的战场,但它的好处是投入量级小。对一些刚进入战场、想建立声望或影响力的厂商来说,语音是一个性价比高的选择。除了语音场景本身越来越多,性价比也是关键考量。所以今年回看各家 PR 的好文章,语音厂商往往不是最大玩家,但他们仍然将 AI 视为重要战略。

  他们内部通常设有类似 AI Lab 的部门,虽然成立较晚,但公司愿意投入。为了证明部门存在的意义,就必须在短期内找到突破口,而语音领域看起来正是那个机会。

  现在技术领先的窗口期越来越短。大家都说,今年 AI 厂商十一假期都没过好。在你看来,现在用户选择付费 Chatbot 的意愿主要来自哪里?

  这取决于使用习惯、付费意愿以及对品牌的认知。这一年大家不断强调上下文记忆长度的提升,这些积累是否能形成飞轮效应?我认为已经开始发挥作用。

  回到纯 Chatbot 战场,实质上这场战役已经结束,ChatGPT 赢了。即便过去两个季度 Google Gemini 增长不错,也只是从零点几个百分点涨到几个百分点。ChatGPT 的用户占据了大部分市场,它公布的最新周活跃用户是 8 亿。如果看 Sam 公布的数据曲线,会发现增长非常惊人。大约一年前,这个数字只有几亿,不到一年翻倍。

  今年年初,媒体记者问 Sam:你是更想要最顶尖的 AGI 技术,还是 10 亿用户的平台?他回答「都想要」,但显然更偏后者。我们可以看到,很多事情都触碰到了极限。用户量已经到了天花板,融资等环节也都遇到瓶颈。纯 Chatbot 战场上,ChatGPT 已建立强大的品牌认知,并且在不断加强记忆和理解能力。

  我看到一篇文章写得很好:OpenAI 正在做的是当年 Meta 和 Google 没做到,但微信做到的「大一统」。在中国,我们称之为 「All in One」 策略。这次 OpenAI 发布会上,Sam 介绍 ChatGPT 时提到,它可以直接在对话框中调用 Spotify、Zillow(房产信息)、Canva(设计)、Figma(UI 设计)等服务,这其实就是一种「小程序」体系。

  从产品角度看,OpenAI 并未放弃成为 「All in One」 平台的可能。

  我觉得这背后还是 Sam Altman 和 Anthropic 的 Dario Amodei 背景不同所带来的差异。最终体现在战略选择和核心竞争力上,OpenAI 仍然是一家非常有产品力和战略力的公司。

  最近大家都在讨论 Sora 2,但其实很多人已经忘了四周前刚发布的 ChatGPT Pulse。Pulse 是一个在增强用户粘性上的重要产品,它让记忆功能被更好利用,帮助用户从周活跃(WAU)向日活跃(DAU)转化。从产品实现上看,Pulse 表现非常自然流畅。

  这也解释了为什么现在二级市场上「OpenAI 点哪,股价涨哪」。背后反映出一个问题:为什么是 OpenAI,而不是 Google 或 Anthropic?这其中仍然体现了 Sam Altman 的战略判断力和舆论营造能力。他非常擅长将这些能力转化为公司优势。

  当然,这种「一荣俱荣、一损俱损」的模式,也意味着未来泡沫可能会破灭。但如果真有那一天,OpenAI 也很可能是最后留下的那一个。

  很多人忘了,Sam 原本是个投资人。前段时间他上 a16z 播客时也提到,自己不擅长管理,更擅长投资。在 OpenAI 内部,他其实也像是在做投资:扶持、孵化、支持有潜力的团队,让他们成长壮大。这与早期投资非常相似。

  Sam 原来是 Y Combinator(YC)的合伙人,不是传统美元基金那种 VC,比如 Benchmark 或 Sequoia。他是 YC 的合伙人。在掌管 OpenAI 之前,他最出名的是在 YC 的创业课。我大学学的是技术经济与管理,也叫创业管理。我曾建议导师让研究生第一课直接看 Sam 在 YC 的课程视频,那已经是创业教育的顶点。只是如今很多人都忘了这件事。

  我们从 DeepSeek R1 聊起,现在回头再看 R1。当时有个评价说「中国人很会花小钱办大事」。R1 发布时,Sam Altman 因刚签了一个巨大的合同——「星际之门计划」(Stargate Project)——被不少人嘲讽。那个合同金额是 5000 亿美元。

  大家当时都说:「你看,DeepSeek 就干出来了。美国人只会烧钱。」 这也是当时 OpenAI 股价下跌的重要原因。但回头看,几个月甚至大半年过去了,现在你觉得「花小钱办大事」这个逻辑还成立吗?美国似乎仍在疯狂「氪金」,而且越来越多。

  虽然我不是搞技术的,但从过去几年的发展来看,大模型的研发越来越偏向工程问题。它的关键在于取舍和策略选择,而不是 0 到 1 的突破。在这种情况下,美国的方式是「氪金堆叠」,中国则更多通过「弯道超车」或「取巧」的方式推进。但两条路线正在逐渐融合。我们这边找到新方法,那边会学习;那边通过堆钱取得突破,我们也会尝试。随着尝试增多,成本自然也在上升。

  过去一年 DeepSeek 虽然不太对外表达,但你看像千问的逻辑,已经更接近美国那套思路。吴妈(吴泳铭)讲的更多是 CAPEX(资本性支出,Capital Expenditure)的投入。虽然千问也有一些「奇技淫巧」,但总体叙事融合了两种逻辑。谁对谁错?没有绝对答案,彼此学习、模仿、演进。

  不过有一点明确:算法、数据、算力三者中,只有算力可以靠堆钱解决。算法尤其难,数据次之。

  有人说,没有哪家公司是因为给天才员工开高薪而破产的。我们不知不觉在很多事情上走到极限后,会发现,也许有别的方式可以用更少的钱做到一样的事。

  扎克伯格已经认识到这一点。Meta 每年投入几百亿美元,这场「军备竞赛」可能还会持续几年。虽然他们现金充裕,但即使把硅谷的人才都挖光,也无法只靠砸钱取胜。

  所以他的策略转变是有原因的。比如 Mira Murati 在 Thinking Machine 的联合创始人直接去了 Meta。那家公司估值已达 120 亿美元,他至少持有 10%,身价十几亿美元。而 Sam 给出的报价是 35 亿美元,显然更高。

  太夸张了。后面我们也会再聊聊中美之间的竞争。我觉得美国现在在这方面投入的资金确实更多。

  上个季度,广密和小珺的对谈里提到得很清楚:美国的金融资本加上犹太人的金融智慧,再加上华人的工程师,是这轮 AI 浪潮的最大代表。这两者绑在一起,就能解释当下 AI 行业的所有现象。至少在美国,一切都显而易见。

  我们刚才聊了大语言模型,现在想谈谈多模态这个战场。今年 Google 先发布了 Veo 3,随后 OpenAI 推出了 Sora 2,在模型进展和产品化两个方向上都取得了令人振奋的突破。与此同时,几乎所有有实力的厂商都在投入这一领域。

  我比较想讨论的是,在如此红海的激烈、同质化的竞争中,决定胜负的关键因素究竟是什么?

  现在谈多模态,其实图片和视频已经无法分开。而在这个战场上,中美之间的竞争比纯语言模型更激烈。中国厂商在这一阶段展现出非常强的能力。像抖音、快手,以及一些初创公司如 Vidu、PixVerse,都在这一板块上形成了齐头并进的态势。比如 Veo 3 刚推出声画同步功能,不到三个月,可灵和字节的模型就跟上了。只要方向被定义清楚,无论是产品边界还是技术路线,中美双方都会迅速跟进。

  当 Sora 2 发布后,大家立即开始讨论国产同类产品何时出现,大概两个月就能看到雏形。由于这一板块的落地场景非常明确,它会第一时间渗透到产业链中。语言模型还需要面对法律、金融、HR 等复杂的行业验证,而图像和视频的应用则更直接、更具商业化潜力。看看美图过去一年的股价就能感受到这一趋势。如今大量公司都在做视频营销的 AI Agent,这些场景已经非常成熟,不再需要额外论证。一旦模型的可控性或成本到达某个节点,就能立刻形成渗透和扩散。

  从整体来看,这已经是一场体系化的竞争。中美在资源禀赋上也存在差异。中国的短视频生态极其丰富,从电商、营销到工具化的结合都更紧密。这轮关于图像与视频的工具化迭代,也延续了移动互联网时代的逻辑。回想 App Store 上线那天起,摄影类 App 一直是竞争最激烈的品类,连续多年都有摄影相关 App 入选年度最佳。

  是的,直到今天还在打。也正因为这个赛道的刚性需求极强,场景又多,所以厂商真正的挑战在于「到底要做什么」。技术演进本身确实存在难度,但更关键的是如何落地。是做 toB 还是 toC?

  在 Sora 2 出现之后,一些人认为它像是「AI 抖音」,但也有人从正面解读——它其实是在用当下大众已经熟悉的交互形态,让 AI 加成成为一种自然体验。OpenAI 用看似简单的实现路径,在短时间内打包出一个边界清晰的产品,这其实非常难。加功能容易,但在合适的边界内取舍、打磨、包装,这对产品经理的洞察力、用户理解和交互设计能力都是极高要求。

  确实如此,非常佩服 OpenAI。其实做到这种模型能力的公司不止他们。比如我们刚才没有提到的 MiniMax,他们在半年前推出了「海螺视频模型」,当时有个非常出圈的爆款——小猫们去参加奥林匹克的跳水运动,体操动作的还原度世界领先。但那么多厂商做出了顶级视频模型后,真正让 AI 模型走进千家万户的,只有 Sora 2。它让 AI 彻底走出了圈内。

  是的,不过也有人认为,这部分是因为它出自 OpenAI。其实一些第三方厂商早就做过类似尝试,可能更多在图像领域,而非视频。但因为他们不是 OpenAI,也不是头部公司,所以得不到同等关注。

  之前多模态领域的「六小龙」之一「阶跃」,除了做模型项目外,还开发了一个图片社区叫「狸谱」。这个团队后来虽然解散了,但早期的数据表现其实不错——留存、活跃度都不差。只是因为各种原因没能继续下去,这并不代表当时没人尝试,只是那个时期人们的乐观程度还不够。现在 Sora 2 出现后,这个乐观值可能从三十分升到了六十分。

  对,当时像「捏TA」「狸谱」这些项目都还停留在二次元圈层,并没有真正泛化。大家一方面看不太懂,另一方面也觉得天花板有限。

  没错。所以当 Sora 2 出现后,我的评价其实很简单。很多媒体标题都是「我们真的需要一个 AI 抖音吗?」我认为这个问题没错。我们已经有一个成熟的抖音体系,从内容、生态、留存、交互到商业化,它已经无比完善,世界上确实不需要再有一个「AI 版抖音」。

  但对 OpenAI 来说,Sora 2 是必要的。它需要一个独立产品,把技术真正产品化,并以合适的边界落地。这不仅是技术问题,更是组织机制和产品体系的建设。它需要一整套从技术到产品的运转流程——SOP、组织架构、团队协作,这些才是对 OpenAI 真正重要的。

  我看到那篇文章标题写着「这个世界不再需要一个 AI 抖音」的时候,我第一反应就是,其实 OpenAI 根本没打算做 AI 抖音吧?这个命题本身就是外界强加给它的。

  那天 Sam 提到,OpenAI 正在变得越来越复杂。它现在内部其实像是三四家公司并行存在:一家是产品公司,一家是技术实验室,一家是技术基础设施公司,还有可能正在孵化的硬件相关业务。它已经不是原来那种单纯的创业公司了,如今估值 5000 亿美金,至少有四个清晰的实体,以及潜在的新业务。最近 Sam 在忙的正是那家基础设施公司,它现在的能力足以满足 OpenAI 自身的需求,但如果真投入上万亿美金,这家公司的能力甚至可能溢出,支撑其他企业。

  你们有没有看到那天 OpenAI 发布会之后,X 上很多知名公司都在晒他们收到的那枚像奖章一样的纪念徽章?像 Figma 等公司都在发帖炫耀。

  对,就是「使用了多少 Token」的那个徽章。他们真的太会做营销了。还记得去年我们本来想做一期节目,聊 Sam Altman 被骂是「营销狗」的时候,我们其实就想讨论——如何向 Sam Altman 学营销。

  我觉得 Sora 2 的视频本身就是一次极有分寸的传播尝试。它既不越界,也不花哨,但充分利用了公司已有的传播资源。尤其是以创始人作为 IP,这点很像 Elon Musk——你们随便怎么恶搞我无所谓。

  而且这种方式强化了品牌绑定。每一次用户与 Sam 或 OpenAI 的互动,都会加深他们之间的情感连接。

  是的,聊到这里我们已经谈了很久 OpenAI。其实不知不觉间,这个世界依然在被它影响。无论外界经历多少质疑、争议或短暂的悲观情绪,仍然不得不佩服他们的节奏感和创造力。

  不过我也想聊聊 Google。今年,Alice 他们的播客也做了一个同题选题,讲的是「Google DeepMind 的触底反弹」。他们采访了 DeepMind 的高管,提到无论是 Nano Banana 还是 Veo 3,Google 的回归信号都很明显。尤其是世界模型的部分——他们发布了Genie,我当时看到真的有种「全身通电」的感觉,太厉害了。只是 Genie 离商业化还有点远,所以后续的讨论不多。但我很想听听明浩,你怎么看这条世界模型的路线?

  这个问题如果往前推一点,其实已经接近哲学层面。自从自然语言模型出现后,很多科技人甚至哲学家都认为,当机器掌握语言这一人类独有能力时,超级智能就来了。这是一类观点。

  语言模型的底层逻辑认为,语言是人类文明的核心结构,一切智慧与创造都建立其上。可随后出现了一个分支——Coding。有人认为编程语言只是语言的子集,也有人认为它是通往新世界的独立入口。

  再往后是多模态。大家发现语言再强,也无法完整表达感官世界——尤其是视觉。于是多模态模型从语音、图像、视频、3D,再到今天的视觉模型,逐渐汇合为我们所说的「世界模型」。

  DeepMind 的高管在采访中提到,他们认为世界模型是通向 AGI 的另一条主路径。如果用「打德州扑克」的比喻,语言模型是一桌主局,而世界模型是另一桌主局。DeepMind 把世界模型形容为「世界的子宫」——一个能自洽运行的生成系统。如果这个系统能够在现实物理规则下生成世界,并且生成速度快于人类想象的速度,那它就真正孕育出一种新的智能形态。

  当然,这是一种极度理想化的技术愿景,但 DeepMind 一直在朝这个方向努力。其实在语言模型爆发之前,他们就在做这件事。

  没错,李飞飞也是同样的逻辑。她的创业公司也在做世界模型。所以很多人认为,如果世界模型真能成为另一条主路径,那它有可能以不同的方式实现 AGI。从长期看,这种理想状态确实令人震撼。

  上一代 AI 公司主要解决视觉问题,而视觉本身的商业场景(图片、视频等)已经巨大到无需再开辟新领域。因此,当世界模型与游戏、视频等现有场景结合时,几乎可以瞬间嵌入应用链条。只是目前技术尚未达到临界点——还没有迎来类似 GPT-3.5 那样的爆发时刻。

  腾讯混元在做。他们最近刚发布了 0.1 版本,还非常早期,只能把一张照片转化为可互动的 3D 形态。画面质量和像素清晰度都还很初级。不过逻辑是一致的:图片和视频的竞争已经白热化,而 3D 和世界模型的空间还很大。这块的主力玩家会是游戏公司,因为它们有天然的需求场景。

  那天我听到一个数据挺有意思的。拓竹现在有自己的平台,用户可以在上面生成 3D 模型并打印出来,他们能调用混元、Mast 以及其他多家模型,目前在混元和 Mast 上的调用量都排在头部。

  他们的主要客户一类是游戏公司,另一类是 3D 打印用户。可见多模态创业仍然是一个非常热门的赛道。今年我们也看到像 Higgsfield 这样的公司出现,Hix AI 的创始人也还做了 Pollo AI,他们的数据和收入都增长很快。

  前段时间我和红杉投的一家公司聊过,他们刚上线一个视频工具产品。我问他们差异化是什么,因为前面已经有很多类似的产品,比如 VEED 等,他回答说差异化没那么重要,这个市场太大了。

  他举了个例子:TikTok 全球每天新增 100 万用户,其中 12% 的人会点中间那个加号,也就是每天大约有 12 万新的视频创作者,无论他们多草根,都需要视频工具。目前在视频工具领域,ARR 超过 2,000 万美金的公司已经有 20 家,很多我们都没听过,可能只解决某个具体问题,或者聚焦在某个国家。可见多模态依旧是一个非常有潜力的领域。

  在复盘 2025 时,除了 DeepSeek R1,我们不得不提到另一个属于所有中国人的记忆——Manus 的发布。「Agent」 成为了年度关键词。十字路口今年的开年播客题目就是「Agent 元年」,那期我们和雨森聊时还挺冒险的,因为如果这一年不算元年,我们就要被「打脸」。但还好,Agent 的发展确实如预期。

  如今讨论也越来越多,比如:Agent 应该是通用的还是垂直的?ChatGPT 会不会吃掉所有 Agent 公司?这些问题都很典型。想听听明浩你怎么看。

  我还是从 L1 到 L5 的模型分级讲起。L3 对应的是 Agent。当所有人都实现了 L2,也就是具备了形成语言理解和生成的能力后,下一步自然就会走向 L3。L1 到 L2 解决的还是语言问题,但 L3 开始涉及「行为」——不只是对话,而是让模型真正去执行任务。无论是在计算机、网页还是数据库中,它都需要「行动」。这让事情变得更复杂。

  所以尽管我们称今年是 Agent 元年,但它可能会持续很多年,就像 VR 或自动驾驶一样,未来五年可能都还在「Agent 元年」阶段。

  因为 Agent 虽然是一个阶段性节点,但内部还有许多层级与细分阶段,不同层级对应不同的体验与需求。我们也因此看到新的分化——通用 Agent 与垂直 Agent 各有路径。某些垂直场景可能更容易实现理想化的 Agent 落地。

  Agent 的出现给了非模型公司一个全新的落地范式。以前,想在 AI 领域创业的人面对模型厂商的垄断往往无从下手,只能「套壳」。套壳并非贬义,而是因为他们能做的太有限。但今天,Agent 的生态正快速扩大,复杂且多样。如果类比互联网早期阶段,如今的 Agent 领域连「协议」都还未标准化。大公司们都在争夺协议制定权——无论是 Claude、Google 还是 OpenAI。

  一旦某种事实标准形成,协议就会确立。接着,当从语言走向行为时,我们需要搭建大量「脚手架」(Infra)以兼容现有的互联网体系。问题在于:是继续用浏览器,还是走纯 API?是构建在旧系统上,还是重建一套?这些选择决定了公司间的差异。

  于是就出现了各种不同类型的公司:做协议层的、做 Infra 实施工具的、做底层基础设施的,甚至还有专注记忆系统的。整个生态因为这一转向而极度庞杂。

  说到 memory infra,这确实是个关键点。我们之前采访 MeMU 时就注意到,围绕「记忆」的 Infra 已经多到让人眼花缭乱。我后来又和 MemoBase 的创始人聊了一次,他帮我梳理了整个技术图谱。听完我才意识到,不同公司走的路线完全不同。他说现在根本没有统一的技术标准,每个人都在用自己的方法。

  我们自己也在做相关的探索。因为我们的主业是社交,而在 AI 社交中,记忆系统极其重要——无论是个体记忆,还是人与人之间的互动记忆。

  我们的技术负责人对此一直很头疼:到底要自研,还是用开源方案,或者选择成熟的 API 厂商?连这个选择都难以下定论。

  赵纯想前段时间在我们北京场的 AI 开放麦上来分享过,当时也在十字路口讲了 10 分钟。他的主题是一个新项目——一个 IM 产品。但那次分享的重点并不是这个 IM,而是他为了这个 IM 自研的记忆系统。因为他认为市面上现有的记忆系统都不够好,要么不稳定,要么不适配他的场景,所以决定自己做。

  是的,这只是 「memory」 这一项。我记得前段时间蚂蚁开源曾发过一张巨大的生态图,涵盖了 Agent 框架、Agent Memory、Agent Infra 等板块。这一年来,整个开源生态中涨得最快的几个方向,几乎都和这些模块相关。

  因为大家确实已经走到这一步了——要把 Agent 做起来,就必须解决这些底层问题。现在很多创业者都面临同样的困境:生态太新,没有成熟的标准和工具,最后只能自己搭。这就像一座冰山,我们看到的只是上面那一小块 「Agent」 的形态,而下面那一整块巨大的系统支撑才是真正的难点。

  说到这,我有个好奇的问题。你们有没有这种感觉——OpenAI 虽然也在谈 Agent,但他们后期表现得非常克制。

  我觉得是因为在他们的决策体系中,Agent 不是最优先级的方向。他们还是更接近传统互联网产品经理的思路,关注「需求实现」和「产品形态」。而如今大家谈的 Agent,在一定程度上被狭义化了——比如它的交互方式、输出结果、按钮样式、UI 设计等,几乎被过去一年的想象框住了。

  OpenAI 也在做调整,比如推出自己的 Agent,把原来的 Operator 改成了现在的形态,又做了 Deep Search 的融合。其实他们一开始也没完全想清楚 Agent 应该长什么样,但从 3 月份 Manus 发布之后,这个雏形就逐渐清晰了。

  我觉得 Manus 最大的意义在于,它让用户第一次「看到」了一个 Agent 应该是什么样的产品。不管是交互逻辑、界面设计,还是整体体验,它都提供了一个具象的参考。

  在这个阶段,占据「心智代名词」的红利非常大。所以 Manus 能做到最近公布 9,000 万美金的 ARR,其实并不意外。当然,后来很多人也调侃,说自己三天就能复刻一个 Manus。但不可否认,一个真正成功的产品绝不仅靠技术本身,它更是一种综合能力的体现——包括时机、细节打磨,以及品牌塑造。

  对,这就又回到那个问题——Chatbot 的品牌之战其实已经结束了,但 Agent 的品牌之战还在进行。只是 Manus 占了一个很强的先机,而且占得很稳。

  如果大家还有印象,GPT-5 是在 8 月份发布的,Claude 那个版本也是。8 月是美国几家头部厂商集中发版的月份,而 7 月几乎成了中国厂商最密集的开源月——每天都有新模型上线。那是一个真正的「疯狂七月」。

  Minimax 当时甚至搞了一个「发布周」,连续七天每天都上新。智谱、Kimi 等国内厂商也都在那段时间集中发力。所以七八月份的注意力确实又回到了「纯模型竞争」。很多公司开始推产品、拉用户、做实施;Infra 公司也趁机融资扩张,甚至转向别的方向。

  确关注度不如 Manus 发布时那种刷屏级的热度。但你要说它「凉了」,我觉得完全没有。因为之后 Manus 很快公布了 9,000 万美金 ARR,并提出了「RRR」(Realized Recurring Revenue)这个概念(其实只是普及一个更科学的收入指标)。而 9,000 万美金的体量,已经超过了我们熟知的大多数高速成长公司。

  就在上周,a16z Speedrun 举办了 005 Demo Day,58 家创业公司在 LA 各自展示两分钟。很多到场的人都在 Twitter 和即刻上说,这场的质量甚至高于 YC 的 Demo Day。我也觉得可能确实如此——a16z 更有钱,也能吸引更成熟的创业者。

  当时我朋友在现场录了音,我让 Gemini 听完录音后帮我总结,这些公司大致分成三类:第一类是Agent as a Service——他们在各个垂直领域解决具体问题。所以说,Agent 绝对没凉,它只是进入了一个更深、更碎片化的阶段,不再靠刷屏存在感,而是已经渗透进各种创业场景中。

  同一时间,a16z 还发布了一个半年榜单——和一家支付数据厂商联合推出的初创公司收入榜。榜单统计了这些初创公司把钱花在了哪些 AI 公司上。其中有四家中国公司入选:剪映、可灵、Manus 和 Genspark。

  回顾来看,从 2012 年 Siri 发布以来,手机基本都有语音助手,但和今天的 Agent 相比,仍存在代际差别。

  是的,这其实是一脉相承的演化。首先,语音模型的能力显著增强了;其次,这一轮语音模型的进展是「端到端」的。如果大家还有印象,GPT 某个版本最令人震撼的演示就是语音对话、打电话的那一幕,那体现了端到端语音模型的强大能力。

  如果把整个互联网生态看作一个完整系统,那么在这个系统中,已有的应用提供了成熟的场景和体验,手机厂商拥有用户识别与场景落地的能力。因此,他们不会也不可能亲自完成所有功能,而是选择与已有成熟场景的服务方合作。

  就像 OpenAI 的 ChatGPT 会与外部厂商合作一样,逻辑完全相同。在中国语境下,这种生态合作的优势更加明显。因为中国的移动互联网生态非常成熟,应用的场景覆盖面极广,只要前端需求分析做得好,就一定有优质服务方来提供解决方案。

  而这些服务的实现方式可能是 Agent,也可能是搜索或传统列表,但核心在于:整个生态的形成,正是建立在中国移动互联网丰富的既有基础之上。

  今年有一个明显的变化——过去两年,AI 正在加速在设备终端落地。再加上 Agent 的快速发展,设备厂商普遍认为结合 Agent 的能力是未来的重要方向,也纷纷押注这一趋势。

  我们前面已经讨论了大模型、多模态以及 Agent,这些都构成了一个相当丰富的体系。接下来我们聊聊生态,首先是「开源生态」。

  今年开源已经成为中国从上到下的共识与国家级策略。最近上海还出台政策,鼓励企业不仅要做开源产品,还要建设开源社区。政策甚至提供最高 500 万现金奖励,授予在开源领域具有足够影响力和流量的项目。这一系列变化的前提,显然是DeepSeek R1的成功。它让大家看到,中国公司在全球竞争中,开源是一条可行且有竞争力的道路。

  其实早在去年,就有记者问过 Sam Altman 对「开源」和「闭源」的看法。当时他的回答是,最领先的模型一定是闭源的,因为这需要巨大的资金与资源投入。但随着 DeepSeek R1 的崛起,这个观点开始被动摇。如今业内普遍认为,开源模型的能力正在迅速追赶,未来顶级模型中必然会出现开源模型。

  甚至在前几天发布的 「State of AI Report」中就有预测:到 2026 年,一定会有一个开源模型在一段时间内登上全球第一。此外,GPT-5 发布后,其部分模型也开源了,OpenAI 也不得不参与到开源体系中。当开源模型的基础能力足够强时,开源与闭源之间的性能差距已不再显著。而在成本巨大差异的情况下,开源在开发者生态和应用端的扩展性上更具优势。

  现在评估一个模型是否有意义,不仅仅看 Benchmark 分数,更重要的是:有多少人使用、它的算力消耗、覆盖的厂商数量,以及它在生态中的渗透程度。因为即便模型再强大,如果没人使用,也没有意义。从这个角度来看,开源为模型厂商提供了另一种路径,可以获得认可、积累关注,并在社区协作中不断改进模型。

  过去大家认为开源「不挣钱」,是理想化的技术浪漫,但现在开源与商业化并不矛盾。以 DeepSeek 为例,它虽然开源,但其 API 同样收费。B 端企业若要访问其 API,需要付费使用。虽然 DeepSeek 的 API 成本可能只有 OpenAI 的几十倍甚至上百倍差距,但只要它的成本结构可控,它就能通过这种方式建立独立的商业模式。更重要的是,开源社区的存在让更多开发者和厂商能够共同改进模型。理论上,使用得越多,模型改进得也越快。

  从更宏观的角度看,如今全球 AI 的竞争,本质上是中美两国的竞争。除了中美本土的对抗,更大的问题是:其他国家如何选择?他们总需要模型,那么是选择 OpenAI,还是中国公司的,亦或自建?例如日本、非洲国家、东南亚、中东地区都会面临这样的决策。因此,开源在某种意义上,也成为一种具有战略意义的「软性武器」。

  没错。开源模型往往更容易获得全球范围内的好感。它让更多人能以更低成本在本地部署模型,从而更快获得用户。同时,它也天然解决了「信任」问题——很多人担心数据被泄露或滥用,而开源模型让这一切变得透明、可验证。

  比如最近「双十一」,我在选购笔记本电脑时注意到,有一个型号几乎瞬间售罄。原因在于,它特别适合本地部署大模型——内存和显存都很大,但价格相对低廉。对从事大模型研究的人来说,这种设备是「刚需」。

  你刚提到的「营销」这一点我非常同意。像 DeepSeek 梁文锋,他从不接受媒体采访,但他有自己与技术世界沟通的方式。

  他们发的论文会让人对技术发展产生乐观和信心。在这个世界有各种不可抗力因素导致沟通受限的情况下,仍然存在一个可以通过独特语言和方式沟通的世界。

  我记得当时 DeepSeek 发出后,我看了 Lex Fridman 的五小时播客,他非常客观、平静地分析为什么 R1 做得好,基本没有政治偏见。你会觉得技术世界的人仍然相信,只要产品足够好,就能被客观评估和认可。

  今年在应用层你看到哪些值得注意的突破?除了我们前面聊到的 Agent,还有哪些你觉得是年度科技记忆中的关键词或应用?

  Coding 肯定绕不开,尤其是 AI Coding。今年在前端、后端、数据库等细分领域进展都很多。

  另一个是垂直领域的 Agent 发展很快。通用 Agent 成为显学,无论大模型厂商还是初创公司都在做。但在垂直板块,比如法律行业,今年有几家公司融了很多钱。这些公司需要大量垂直行业信息和工作流,以满足隐私和数据安全要求。不止一两家,可能有五六家甚至七八家公司在这个领域融资和发展不错。

  金融领域也类似,分为一级、二级、保险、银行等。营销板块一直是竞争最激烈的领域,包括线上、线下、搜索引擎、视频、图片、文字、邮件等。虽然这些公司规模不大,但发展非常繁荣。

  我觉得还有一个不在主流讨论范围内、但一直在发展的板块——社交与陪伴。a16z 最新榜单中,Web 端前 50 有 10 家,App 端有 12 或 13 家,但几乎没人讨论。可能因为社交已经经历了多个代际,从 1.0 到 2.0 加入互动与沉浸体验,再到 3.0 场景化打造,如今还在进一步演化。

  从今年 Q3 开始,国内一级市场上有几家做 AI 动态漫(即 AI 动画或动态漫画)的公司融资很多。动漫这个板块天花板很明显,上一代移动互联网创业时大家已经尝试过,但几乎没有成果。AI 的加持带来了更多可能,但即使推到极致,也不会有巨大突破。只是因为图像生成、推理模型的进步、可用性提升,加上动漫平台内容需求、出海故事、短剧加持,这个板块被「挤」出来,获得了超出预期的关注。

  这也反映出资本市场的动态——当一线赛道被挤满后,创业者、VC、投资人都需要新的「二级牌桌」。一级牌桌已经容不下这么多人了。

  没有,我们也投了一家。只是它的市场关注周期不会太长,被认可的时间窗口有限,所以要抓紧时间。

  Cursor 或类似 Cursor 的应用,可能有两个维度。一个是 Coding,这个大家都有;但另一个是能像它那样真正定义一个范式或品类,我觉得挺难的。

  主要是因为,中国在移动互联网时代,纯 toC 产品的设计、运营能力可能比美国更成熟,所以大家会期待纯 toC 应用的爆发。但截至目前,我们还没看到这个结论被验证。

  看榜单仍然是我们之前提到的那些应用。即使出现一些「新」名字,仔细看其实 90% 是传统 App,只加了 10% 的 AI 功能,却被归入「AI 应用榜单」前列。这种情况让人难以认同,因为这些公司很多都成立多年,并不算新。

  对,那可能是美国的趋势。但在中国我们没法照搬,因为我们没有办法讲 ARR。那我们能评判什么?无非就是用户量。可在当下的中国移动互联网市场,即使把 Web 端算上,要做到高用户量太难了。这不是 AI 的问题,而是整个行业的问题。

  Quick Mobile 的上半年统计把所有 AI 应用分为三类:独立 App、Web、插件。其中独立 App 和 Web 应用中有四分之三用户量负增长,只有四分之一在增长。而插件中约有三分之二在增长。

  但问题是,谁愿意只做插件?现实就是如此。为什么插件增长?因为在当前中国的移动互联网体系下,所有入口位置都已被占满,就像关键词一样。你不做插件,想单独开辟新战场太难了。

  回到我们之前提到的几家公司,比如做 AI 图片社区,他们都拿到了融资,有的拿了两三轮甚至三四轮。创始人都很优秀,也在做正确的事。但即便如此,也很难在短时间内实现用户数据的爆发式增长。这种超级爆发的趋势在今天几乎不可能出现了。当年移动互联网爆发时期,新应用一周就能有上百万日活的情况,如今几乎不会再有。即使出现,也像流星一样稍纵即逝。

  现在美国有很多夸张的融资故事,几乎每周都会出现一家没听说过的公司就能融到五千万美元。这些公司很多是 toB 的。但在中国,这种情况很难发生。一方面是因为中小企业的付费意愿、能力、意识不足;另一方面是因为我们的移动互联网太成熟了。

  移动互联网如今是一个充满「城堡」的地方——微信是一个城堡,抖音是一个城堡,小红书也是一个城堡。而在美国,Web 端更开放,鼓励各种工具互相协作,实现 1+12 的效果。这种差异在创业生态和机会选择上反映得很明显。我觉得我们现在更加被动。

  确实,原来那套我们熟悉的趋势如今太难复现了。我们需要新的趋势,但又不能完全照搬美国的模式,因为底层基础不同。那我们的趋势该是什么样?这不仅是创业者的问题,也是投资人的问题——我们该投什么?

  对当下的美元基金 VC 而言,AI 美元投资确实非常难做。大模型项目投出后,跟几轮就结束了,只能等待结果。大家都说 AI 应用看中国公司,但如果是出海团队,又会面临各种复杂问题。如果投纯国内团队,又要问:你期待的是什么?期待的退出方式是什么?这些问题几乎无解。

  完美体育 365官网登录入口

  当然,我现在不做纯 VC,可以轻松地讲这些。但换位思考,这些问题确实让投资工作难以开展。所以只能先放下这些无解的问题,专注看创始人的背景和方向,认真交流,判断是否值得相信,然后再决定投资。别想太多,因为想也想不清楚。

  前几天我见了一位基金的管理合伙人,问他怎么看当前的美元 VC 环境。大家普遍觉得不好做,他说自己问了一个问题:是否还相信 VC 的底层叙事——科技公司需要耐心资本在早期阶段帮助它们实现从 0 到 1 的建设。如果还相信,就继续做。

  这让我想到昨天刚公布的诺贝尔经济学奖,其中一位得主的研究指出,真正推动经济高速增长的是「破坏式创新」。这种创新与 VC 的发展逻辑是紧密绑定的。

  如果你相信这一底层逻辑,当然仍然需要 VC 的存在。但问题在于,这是一种过于理想化、终极化的答案。逻辑没错,但落实到现实执行层,尤其在国内,会受到太多限制与掣肘。投资人只能在有限的空间里辗转寻找解法。

  这也是如今许多仍然相信技术、相信产品、相信创新会改变世界的投资人内心反复权衡的天平。

  是的,AI 硬件确实很热。我们可以看到融资创始人的背景变化。最早是字节等大厂的产品经理出来拿到融资;再早一些是科研背景的人,比如实验室老师或研究员。

  但后来大家发现,这两类创始人的项目效果都有限。于是投资开始转向行业型创始人——比如来自大疆、追觅、石头科技、影石等公司的创业者。

  没错,逻辑很清楚:投资人已经投完了自己熟悉圈层的人。为什么投硬件?因为相比纯软件项目,硬件更具象、更可见,有实体、有收入模型,投资人会更有安全感。再加上中国在供应链上的优势,更容易产生落地成果。

  但即使这样,很多项目最后还是不尽如人意。于是又出现了新一轮逻辑——去找那些让投资人「更信任、睡得着觉」的创始人背景。这套逻辑听起来都对,但换个角度看,我们其实是在「站着说话不腰疼」。身处战场的创业者或投资人并不能靠总结规律生存,他们必须在不确定中做决策。

  Vince 两个月前来过中国,他见了我们刚才提到的公司中的好几家,对中国很感兴趣,安排了一次非常密集的行程。

  这种乐观其实也带有一点哲学意味——物极必反。当一个领域极端到某种程度,总会出现新的平衡点。就像游戏投资。中国的游戏投资在 2015 年后基本就不属于 VC 的领域了。但过去两年,海外 VC 开始重新关注中国早期游戏团队。要知道,中国的游戏团队几乎十年没在 VC 射程内了。

  他们不是先考虑退出,而是从成本角度出发。相较海外团队,中国游戏团队在成本上便宜得多——而且是「全方位的便宜」。与此同时,海外游戏并购一直非常活跃。于是他们把两边优势结合:在中国低成本做内容,再在海外通过并购实现变现。这是中国 VC 很难做到的。

  其实我觉得像刚才说 Vince 来中国,包括海外 VC 看中国的情况,这个世界其实非常关注中国。

  我们刚才聊了很多一级市场的内容,而最近二级市场可能才是更受关注、登上新闻头条的地方。比如 OpenAI 和 AMD 的新闻一出,AMD 这样庞大的公司股价涨了 40%;就在我们录播客的前一天,OpenAI 和博通(Broadcom)的合作新闻发布,博通的股价也直接上涨 10%。

  所以在二级市场,其实正在发生很多故事,充满了乐观的情绪。想听听明浩,你过去一年和很多二级市场分析师、投资经理沟通频繁,你会怎么回顾这一年?

  我还是想从自己做的内容来看。我今年截至目前一共做了 6 个报告,第 7 个正在准备中。

  前面包括去年的年终总结、DeepSeek、Manus、Agent 的分析,以及今年 Q2、Q3 的市场总结。我在做第四个报告时才开始提到「是不是泡沫」,到第五个版本时已有两页分析「泡沫」,到了 9 月的 Q3 报告,就有六页都在讨论「是不是泡沫」。这个比例的变化说明,关于泡沫的讨论在持续升温。

  Q2 时有些声音开始觉得市场不太对劲;Q3 时我引用最多的是硅谷银行的报告,它做了很多定性与定量分析,包括和 2020 年互联网泡沫的曲线对比。当时硅谷银行就已经在研究,现在看来这些分析方式被越来越多人采用。

  我仍然认为,我们真的在不知不觉中走到了一个极限。比如最头部的「七姐妹」科技公司中,有几家的市值已达三四万亿美元,每年的经营现金流达千亿美元的量级。而 OpenAI 的估值是 5000 亿美元。这些数字摆在那,意味着他们能做的事情太多了。

  市场已经不满足于单纯靠散户推动股价上涨,这个游戏不够刺激了。与此同时,OpenAI 也走到了一个新节点。我觉得 Sam 在某个时刻顿悟了:原来 OpenAI 在资本层的操作主要是融资、卖老股、拉估值,同时用这些资金或股份去投资初创公司,比如最近收购了苹果前设计师创办的公司。虽然估值每 6 到 9 个月翻倍、每轮融资两三百亿美元,已经刷新历史记录,但整体还算在可控的、可被线性归纳的范围内,至少有人买单、合同签好。

  但 Sam 似乎意识到另一种路径。他最近常被比喻为「天云纵」——类似 Google 拥有云、模型、产品和 Infra。如果未来 AI 无所不包,那么 Google 值 3 万亿美元,OpenAI 应该值多少?未来的增长预期能打多久?以前是半年或一年,现在变成五年。所以最近签的合同几乎全是 5 年或 10 年期。

  可这很讽刺——技术进展是按「年」来推进的。我们看过无数分析师、银行、券商的技术报告,没有人写 5 年期的预测。但现在 Sam 说要把未来五年的预期全部押在这件事情上。OpenAI 估值已达 5000 亿美元,这个量级放在全球也屈指可数。即便还未上市,它依然可以影响整个市场。所以我们最近一个月看到的各种新闻,正是这种估值预期下的结果。

  早在 2024 年,Sam 曾说过要把这件事做到 7 万亿美元的规模。这数字当时让人觉得疯了——那时 OpenAI 估值才 1800 亿美元。7 万亿几乎超出所有人的理解范围。但如今,当我们把 OpenAI、NVIDIA、微软、Google、Oracle 的未来五年预期加总时,万亿美元的量级已经被公开讨论。

  是不是能到 7 万亿没人知道,但至少「万亿级」的讨论已出现。所有故事、所有预期都被压在未来五年内。谁被投资,谁就要把自己的五年预期也打满。而市场格局又如此激烈,没有人能缺席。AI 不再只是技术或产业,它已经变成了市场本身。

  今天的 AI,不只是一个行业,而是整个系统本身。「too big to fail」已经不足以形容它,它的生态极其复杂,所有人都被卷入其中,规模大到理性评估已无意义。我不断强调:我们可能已经走到了一个所有人都没有意识到的极限。

  截至今天,全球所有上市公司中,IPO 融资额最高的也不过 250 亿美元左右。

  是沙特阿美,那可是世界纪录,已经比 OpenAI,甚至比很多云计算公司的单轮融资都小了。如果今天 OpenAI 上市,它的体量会有多大?需要融多少钱?整个股市恐怕都要被撕开一个口子。

  我那天还看到一个有趣的数据:在 Web 时代,烧钱最多的上市公司是亚马逊,上市前烧了 20 亿美元;到了移动互联网时代,最「烧钱」的是 Uber,烧了大约 400 亿美元,是亚马逊的 20 倍。那是否意味着 OpenAI 要烧到 Uber 的 20 倍,也就是 8,000 亿美元才能上市?

  现在看来,这个数字并非天方夜谭,它很可能就是事实。它被定在了这个位置上,不管出于什么原因,这个时代走到这里,带着美国巨大的技术势能、硅谷趋势和金融趋势,滚到这个阶段——只能继续往前走,别无选择。

  接着说,现在无数人都在拿这件事做对比:与当年的互联网泡沫、铁路泡沫相比。当然,现在没人再提郁金香或比特币了,那不是一回事。我们讨论的是那些真正意义上的工业革命式的历史变革。

  最近讨论最热的比喻是互联网。当年互联网泡沫破裂,纳斯达克的 dot-com 公司几乎全线崩塌,但底层的光纤基础设施留下来了,为之后二十年的互联网发展打下了地基。可现实是——当年铺设光纤的公司几乎全都死了。那是不是意味着今天这些建设数据中心的公司,也可能会死?

  未来当然可能更好,但这里存在关键差异:光纤铺在那儿,十五年、二十年还能用;而今天投入的数据中心 GPU,三年就折旧完,再过两年可能就淘汰。折旧周期带来的压力极大。

  更大的问题是:整个产业的巨额资本投入,建立在头部公司强大的营收能力之上。像 Meta、Google、NVIDIA、微软这样的公司,每年能赚上千亿美元,投入千亿也没问题。但除了这几家,体系内的其他公司几乎都快撑不住了。做云服务的公司、甚至马斯克的 xAI,现在都需要新的资金来源,已经开始使用债务融资。

  分析泡沫时,如果是股权泡沫还好,但债务泡沫就麻烦得多。次贷危机就是因为债是刚性的,一旦还不上就崩盘。所以当我们把那几家巨头剔除后,底层的风险系数其实非常高。像 CoreWeave 这样的公司,资产负债表已经相当难看。它原本是做矿场起家的,用高杠杆的古典金融逻辑经营。虽然这种模式在 Web3 世界不算罕见,但确实在蔓延成一个趋势。

  还有一个更有意思的信号。截止 2025 年 10 月中,标普 500 涨幅最高的两家公司——既不是 GE 或通用能源公司,也不是什么金矿公司,而是两家硬盘厂商:希捷(Seagate)和西部数据(Western Digital)。

  为什么?因为大家意识到数据中心建设的狂潮已经来了。第一波受益的是英伟达(NVIDIA),然后是云计算公司,接着变压器、冷却、电力等板块都被炒了一遍。最后大家发现,还需要硬盘,需要存储。但硬盘又受制于闪存颗粒的供应。这也是为什么 Sam Altman 最近跑去韩国和日本,拜访 SK 和三星——为了确保存储供应。

  回到刚才那句话,我们真的已经不知不觉走到了许多领域的极限。电力、冷却早已讨论无数次,如今连存储都成了限制。而这又是一个几乎被垄断的行业。

  所以你会发现,当所有因素叠加在一起时,已经很难区分是谁的原因、哪家公司的责任。它更像是一场巨大的「共谋」——不是主动的,而是被推着滚到这一步。等我们意识到时,已经没有退路,只能继续向前。这就是整个故事。

  前面我们其实提了很多关于欧美在 2025 年硬件算力方面的进展,但与此同时,国内这几年在相关领域也有大量投入与显著成果。相信行业里的人都还记得,今年夏天的世界人工智能大会和世界机器人大会有多火爆——几乎是一票难求。

  我补充一个细节:在查资料时,我让 AI 帮我总结算力方面的进展,结果几个报告都提到同一点——「东数西算」工程在 2025 年建成了一个超过 300 亿 FLOPS 的智能算力网络。这个工程是 2022 年启动的国家级项目,核心思路是将东部地区的数据处理需求转移到西部,以实现全国算力资源的优化配置。

  至于 300 亿 FLOPS 是什么概念?AI 给我的解释很形象:如果你的手机每秒能完成 100 次计算,那么 300 亿 FLOPS 就相当于300 万亿台手机同时工作一秒钟。换句话说,这样的算力足以支撑超大规模的 AI 模型,处理海量的城市数据,并同时为数十亿用户提供互联网服务。

  另一大热门领域自然是机器人,也就是大家常说的「具身智能」。中国在过去 12 年一直是全球最大的工业机器人市场。9 月份发布的《世界机器人报告》提到,中国在工业机器人的新安装量和在运营存量上,依然位居全球第一(基于 2024 年数据),而 2025 年预计会更进一步。

  报告中还有一个关键数据:到 2024 年,中国本土制造商的销量首次超过外国供应商,市场份额从十年前的 28% 提升到 57%,几乎翻了一倍。这意味着中国不仅是最大市场,也在制造端实现了质的突破。

  我记得我们之前有期播客采访维他动力联创赵哲伦,他正好在北京参加今年的 WRC 世界机器人大会。他提到,当晚要去「机器人运动会」,并分享了一些非常生动的观察。我印象很深——他说,这个「机器人运动会」就像汽车文化里的 F1,它的意义不仅是竞技,更是为整个产业培育文化土壤。这种文化的建立,可能会对未来产业生态产生深远影响。

  他还提到一个细节:在大会现场,很多小孩和机器人互动。他当时感叹——我们这一代是伴随电脑和手机长大的,而现在的孩子,可能会成为伴随机器人成长的一代人。

  从更长远的时间视角来看,这或许正是一个新的时代开端。也呼应了我们之前问明浩的那个问题——「有哪些事是十年后回头看,仍然会觉得对今年印象深刻的?」

  我们从一开始聊大模型、多模态、Agent,到后来讲二级市场,一开始聊的是创业、机会、技术产品,最后其实变成了一个很有历史纵深的话题长河。

  哈哈哈,这是很有意思的一期节目。谢谢明浩,感谢!也期待明年这个时候我们再来复盘。