80: OpenAI o1 来了！与硅流袁进辉聊 o1 新范式和开发者生态

晚点聊 LateTalk

Indhold leveret af 晚点 LatePost. Alt podcastindhold inklusive episoder, grafik og podcastbeskrivelser uploades og leveres direkte af 晚点 LatePost eller deres podcastplatformspartner. Hvis du mener, at nogen bruger dit ophavsretligt beskyttede værk uden din tilladelse, kan du følge processen beskrevet her https://da.player.fm/legal.

2M ago 1:40:19

MP3•Episode hjem

GPU 算力总消耗会提升，但暂时有冗余；AI 应用开发热情未冷却，只是不被 VC 关注。

今天的节目是一期加更，我们在 OpenAI 最新模型 o1 发布后的第二天，邀请了硅基流动创始人袁进辉与我们讨论了 o1 这一新进展，也分享了今年 1 月至今，袁进辉观察到的 AI 开发者社区的变化。

上次袁进辉做客《晚点聊》是今年 1 月，那时他刚开始新一次创业没多久，选择做服务 AI 开发者的推理（inference，即大模型的使用）加速和优化。

OpenAI o1 的一个重要新特性，正是从扩大 train-time compute 的规模到扩大 test-time compute（见下图，来自 OpenAI 官方博客），即通过在推理阶段分配更多计算资源提升模型效果——也有人称之为从 train scaling laws 到 inference scaling laws。

英伟达 AI 科学家 Jim Fan 说，这可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws（原版 Scaling Laws 上的一个优化）以来，大模型研究中最重要的一张图。

总结而言，o1 打破了一个预期：过去在大语言模型范式下，模型在解决推理逻辑问题时遇到了瓶颈。而 o1 通过强化学习（Reinforcement Learing，也被简称为 RL）、思维链（chain of thought）和测试时间计算（test-time compute）显著提高了模型的逻辑推理能力，所以在科学、数学和编程等需要更多逻辑能力的任务上表现大幅提升。

这期播客里，袁进辉比较通俗地解释了强化学习、思维链，还有 test-time compute 是怎么发挥作用的。我们也讨论了 o1 的这些新技术特性对算力消耗量，行业应用还有其它 AI 公司的动作可能有什么影响。

节目后半部分，我们进一步讨论了 AI 开发者生态这一年的变化。与很多人的观点不同，袁进辉说，在应用开发端，他没有感到 AI 热潮的冷却，只是现在涌现出的很多开发者是小微企业甚至是个人开发者，他们不在传统 VC 的视野里。所以一方面，创投市场会觉得 AI 应用的爆发不如预期，另一方面，实际调用量也在快速增长。

他还分享了一些一手数据：比如硅基流动自己的客户，调用最多的开源模型，国外是 Meta 的 Llama，中国则有阿里巴巴的通义千问和幻方的 DeepSeek，千问的优势是不同规模的模型版本齐全，而 DeepSeek 则在编程能力上突出。

时间线传送：
·o1 的“Wow”在于突破了大模型方法下的推理能力瓶颈
02:56 o1 发布，兑现了之前已被逐步释放的高预期
03:57 模型三重能力：语言、常识、推理，前两者之前已做得比较好，o1 提升了第三点
05:25 “弱智吧”是大模型试金石？
06:35 同样使用强化学习，AlphaGeometry 关注度为何没有 o1 高？——强化学习本身不新了，Alpha 家族的 Wow 时刻已经发生，o1 的进展是打破了大语言模型推理弱的预期
10:28 o1 新方法：强化学习、思维链、test-time compute
11:06 强化学习和思维链，都是在解决数据问题
11:34 强化学习可以补充专业数据，它更适合规则清晰、反馈清晰的领域
16:50 思维链（chain of thought）是在补充抽象层次较高的宏观数据
23:09 强化学习和思维链可以正交，比如可以通过强化学习也生成一系诶思维链分步骤数据
25:07 列出思维链：最初是人写，现在可能是用规则，更优雅是靠模型
29:19 test-time compute，这不是直接补充数据缺陷，而是原本做一次的推理（inference）变成做 N 次，就像人的“深思琢磨”
31:18 强化学习、思维链、放更多资源给推理，每一个单独看都不是石破天惊的 idea，但 OpenAI 做了很好的组合
34:36 “2022 年以来大模型领域最重要的一张图”，揭示 inference scaling law

·总算力需求会提升，短期有冗余，o1 不改变训基础模型公司减少的趋势
36:49 o1 新范式意味着需要更多 GPU 吗？对英伟达的影响？
38:51 猜想，预训练和强化学习的具体结合方式
40:56 算力需求也和参数规模相关，推理核心本身的参数可能不会特别大
43:32 从 API 收费看，目前 o1 推理成本可能是 4o 的几十倍
47:05 o1 最适合用在哪儿？Agent 可能能跑通了
48:45 程序员是最适合的 Agent 吗？辅助程序员在 o1 前就在发生
50:13 脑洞：o1 这类模型继续发展，能解决黎曼猜想吗？
54:28 目前 o1 很慢，但有优化空间，一个技术应用的规律是：效果在早期更重要，之后缩短计算时间、降低计算成本几乎是确定性的
58:15 为什么目前 API 调用对速率有限制，且不支持一些功能？
01:00:14 当前可做的推理优化：并行部分思维链计算，减少不必要的思维链过程
01:04:20 新变化也让一些工作可能没必要了，比如复杂的 prompt 工程
01:06:06 o1 对中国的影响：总体不改变训基础模型的公司变少的趋势
01:10:48 去年至今，GPU 算力价格已在下降，训练需求减少，推理需求增长暂时不会弥补，短时间 GPU 有冗余

·AI 应用开发需求未冷却，只是更分散、更小微、个人化
01:13:13 供给端有调整，但在技术应用端，“我没有感到变冷”
01:15:13 更多个人开发者和小微企业做探索，更多其他行业来尝试，因为不需要完整 AI 班子了
01:18:33 应用未冷却和 VC 市场觉得应用没爆发不矛盾，因为对 VC 还太小
01:19:52 硅基流动推出云服务后增长很快。“如果每天和开发者打交道，不会觉得行业停滞或在变冷”
01:20:31 一些增长快的产品例子，捏他
01:21:38 云服务带来便捷的例子：Koji 十分钟写完 emoji AI 翻译器
01:24:20 继续坚定出海，目前硅流海外客户更多
01:26:32 硅流平台被调用最多的开源模型：通义、DeepSeek、Llama
01:27:39 “需求在这边时，谁都来帮你的忙”
01:29:27 硅流平台上的客户，每天调用数亿到 10 亿 token 的是有的
01:30:22 叶军分享的钉钉 AI 付费的启发：用户现在为小功能付费，而不是复杂大应用
01:32:46 从苹果手机可能是入口，到“巨头递减”
01:38:02 我们看到大模型的“瓦特蒸汽机”了吗？

相关链接：
本期播客文字整理版

袁进辉上次做客晚点聊：《58：光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？》

硅基流动云平台 SiliconCloud
https://siliconflow.cn/zh-cn/siliconcloud

《OpenAI 再次给大模型 “泡沫” 续命》（《晚点 LatePost》关于 OpenAI o1 的文章）

“蹭下热度谈谈 OpenAI 的价值”（播客中提到的中科院张俊林微博）

登场人物：
袁进辉，硅基流动创始人。联系可加微信：SiliconFlow01
程曼祺，晚点科技报道负责人。即刻：程曼祺_火柴Q
贺乾明，晚点科技报道作者。即刻：我是 chiming

剪辑：甜食

90 episoder

#晚点 LatePost #Latepost #晚点聊 #LateTalk