阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车

今年的 AI 圈，有点像 2008 年的智能手机市场，所有人都知道触摸屏是未来，但厂商们都在做「带触摸屏的诺基亚」。

Agent 时代已经来了，这是共识。而怎么做一个好用的 Agent 模型？按照惯性思维，或许还是一样，更多的参数，更深更广的网络结构，还有更大的数据集。

300B 不够就 1T，1T 不够就 10T。仿佛只要把模型做得足够大，Agent 能力就会自然涌现，就像只要把诺基亚的屏幕做得足够大，iPhone 就会自己出现一样。

大参数模型确实带来了更博学的知识面和更稳健的底座，但这种一味在上一代模型上「优化」的方法，显然不能让我们手里的 Agent 更好用，Agent 时代需要 Agentic 的模型。

那有没有一条更高效的、真正颠覆性思维的路线，不靠堆参数，靠架构优化；不需要云端服务器独占，本地也能跑；既是全能选手的同时，又有定向优化。

▲模型参数规模与智能对比图，Step 3.5 Flash 总参数在图中最少，但智能得分排名第二

2 月 2 日，阶跃星辰发布并开源了最新基座模型 Step 3.5 Flash，这是一个让 Agent 更高效的底层支撑模型，采用稀疏 MoE 架构，总计 1960 亿参数，但每个 token 仅激活约 110 亿个参数。

这是大模型行业里一个十分反常识的数据，在一众卷向万亿参数的竞争对手面前。似乎显得有些「掉队」。然而就是这个看似「掉队」的选择，可能藏着 Agent 时代最大的秘密。

L3 时代的模型，不能再沿着 L1 的梯子爬

如果这放在半年前，阶跃星辰可能还在做着另一件事。

阶跃星辰联合创始人兼 CTO 朱亦博在最新的博客中提到，Step 2 模型时代，他们也曾是 Scaling Law（规模定律）的忠实信徒。和当时所有的模型厂商一样，他们认真地爬着那座名为参数的梯子，设计了比 DeepSeek V3 还要大的参数量，甚至比对方早训练了好几个月。

结果是，虽然跑分一度辉煌，但在 DeepSeek R1 的推理范式面前，传统的堆料逻辑还是遭遇了降维打击。

原因很简单，DeepSeek R1 是一个时代的跨越，从 L1 的 Chatbot 到 L2 的 Reasoner，继续用 Chatbot 的思维去做推理模型，不一定会失败，但注定要碰壁。

这不仅是阶跃星辰的复盘，更是整个行业的缩影。痛定思痛后，他们发现了一个被忽略的真相：L1 时代的 Chatbot（聊天机器人）和 L3 时代的 Agent（智能体），需要的是两种不同的模型。

▲OpenAI 的五级框架，从第一级的聊天机器人，到推理、智能体、创新者和第五级的组织体

按照 OpenAI 的五级架构，我们正在经历从 L2 Reasoner（推理）迈入 L3 Agent（智能体）的跨越。

L1 Chatbot 时代：核心需求是对话流畅度，模型只要能快速响应、自然表达就够了。我们需要的可能是一个会背百科全书的「文科生」，它足够博学，能随口复刻鲁迅风。此时，每秒 20-30 个 token 的输出速度，刚好适配人类的阅读习惯。

L2 Reasoner 时代：长思维链出现，我们需要模型展现完整的深度思考。看着长长的思考过程，我们觉得它聪明，甚至愿意为了更准确的结果等待数十秒。

L3 Agent 时代：特征彻底变了。工作场景的上下文常驻 32K-128K 区间，我们不再逐字阅读输出，只盯着「什么时候能交付结果」。

在这种场景下，继续沿用 L2 时代的重型参数模型，打个比方可以说是，带着鳌太线的装备去爬佘山「沪太线」，虽然储备充足，但效率变低，且算力代价极其昂贵。

Agent 在某种程度上，甚至可以说不再是给用户看的，而是给任务用的。它需要长上下文的高效运行，能轻松处理几十万 token 的代码库；以及速度的提升，这能直接决定用户体验；而核心还是规划和工具调用。

如果继续用 L1 时代的重型模型去跑 L3 的任务，就像开着法拉利去送外卖——不仅贵，而且在拥堵的「长上下文」路况里，根本跑不起来。

这也解释了为什么阶跃敢于反其道而行，掏出 Step 3.5 Flash这个「新物种」，专注于「快」与「强逻辑」。这种取舍乍看之下与行业格格不入，却有了更多的可能性。

天下武功，唯快不破：Agent 时代的「暴力美学」

Agent 时代，「快」不再是一种锦上添花，直接是模型生死线。

朱亦博指出了一个极易被忽视的细节，在 Chatbot 时代，模型输出只要快过人类阅读速度（20-30 tokens/s）就够了，再快我们也读不过来。但在 Agent 时代，这个标准完全失效。

为什么？因为用户根本不想看过程。当 AI 帮我们写代码、查资料、订机票时，我们不会盯着屏幕看它一个字一个字往外蹦，我们只想要结果。

在这个阶段，速度不再是体验，而是生产力本身，直接决定了任务交付的效率。

为了实现这种极致的「快」，阶跃星辰在技术路线上做了一次豪赌。

▲Step 3.5 Flash 整体架构，Step 3.5 Flash 是一款采用稀疏混合专家（MoE）架构的大语言模型，其架构由模型-系统协同设计定义，并且将推理成本和速度作为核心架构约束。

在同行都在盲目跟风 Linear Attention（线性注意力机制）时，Step 3.5 Flash 坚持选择了 SWA（滑动窗口注意力）架构。这种混合注意力布局，一方面能更快的处理 Token 计算，另一方面也解决了长上下文处理的二次瓶颈。

简单来说，它不是死记硬背 256K 的全文，而是像人类一样，有重点、有节奏地分配注意力。这让它在处理海量数据时，不仅不降智，还能大幅降低算力开销。

看起来是一种「逆行」，其实正是 Agent 时代「以巧见大」的精算。因为在当前的硬件条件下，SWA 对投机采样（Speculative Sampling）最为友好。这种技术上的取舍，直接将单请求代码类任务的推理速度干到了最高 350 tokens/s。

快如闪电的「瞬杀」，是直接将 AI 从「玩具」变成生产力工具的决定性瞬间。在 Step 3.5 Flash 发布首日，就登上 OpenRouter Fastest Models 榜单。

▲根据 OpenRouter 最新发布的 Fastest Models 排名显示， Step 3.5 Flash 的生成速率达到 167 Tokens/s，位列全球最快模型之列。

拒绝「背题家」，高智商才是第一生产力

跑得快不能以「降智」为代价，衡量一个模型适不适合做 Agent，「高智商」也是必不可少。

无论是我们用户还是大多数模型厂，普遍的共识都是：参数越大，能力越强。但 Step 3.5 Flash 在数学领域的屠榜表现，用合适尺寸 + 极致后训练，也得到了不输大参数模型的效果。

在 AIME 2025（美国数学邀请赛）中，它拿下了 97.3 分；在 IMOAnswerBench（国际数学奥林匹克题基准）中斩获 85.4 分；在 HMMT 2025（哈佛 – 麻省理工数学竞赛）中更是飙到了 96.2 分。

这是什么概念？这些分数均为国内顶级开源模型第一。

如果开启并行协同推理（PaCoRe）模式，它的得分甚至逼近满分。这种「智商溢出」的现象背后，藏着一个极其隐晦但精准的行业真相：过去的模型像是个「背题家」，靠死记硬背海量数据来蒙混过关；而 Step 3.5 Flash 是个真正的「解题家」。

▲PaCoRe（Parallel Coordinated Reasoning）的推理流程。每一轮启动广泛的并行探索，将生成的轨迹压缩成紧凑的信息，并将这些信息与问题一起传递，以协调下一轮。重复此过程

阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车
阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车
阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车
阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车