·

半全场滚球

半全场滚球

滚球(中国)官方网站 多轮Agent蒸馏终于不翻车!港汉文x通义新步骤得手率暴涨18点,查验还快32%

发布日期:2026-05-09 06:38 来源:未知 作者:admin 浏览次数:

把苍劲模子的手艺"蒸馏"给小模子,听起来很好意思——

但放到多轮对话 Agent 场景里,成果频频一塌辩白。

为什么?

香港汉文大学迷惑阿里通义奇迹群给出了谜底,并提倡了一种名为 TCOD(Temporal Curriculum On-Policy Distillation)的查验步骤。

上图(左)示意在多轮 Agent 的 OPD 查验中,跟着交互轮次的增多,教练模子对学生生成文书中各 token 的概率分拨合手续缩小,标明每轮的 KL 散度连接攀升,最终导致监督信号失效。(右)示意原始 OPD 使用好意思满轨迹进行查验,因此包含了总计积存的纰缪;而 TCOD-F2B/B2F 则通过课程学习,从短轨迹逐渐扩张至长轨迹,有用藏匿了纰缪轮次的贬抑。)

团队发现失效的根柢原因在于轨迹级 KL 不踏实性,每一轮纰缪连接积存,把学生模子推到老诚模子从未见过的情景区域,老诚的监督信号因此透顶失效。

而 TCOD 用课程学习的想路,让学生模子从短轨迹开头、按次渐进地学习好意思满轨迹,一举惩处了多轮 Agent 蒸馏的踏实性难题。

TCOD 只需对现存 OPD 代码作念少许转变

On-Policy Distillation(OPD)还是在 SFT 和 RL 之后,成为了第三种有用的 post-training 查验面貌。

关系词 OPD 天然在数学推理等单轮任务上很好用,但放到 ALFWorld、WebShop 这类多轮交互任务里,径直翻车:

小模子:KL 散度飙升 + 得手率坍塌到接近 0

大一丝的模子:天然最终约束,但开动 KL 极高,查验极不踏实

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 败露,在总计这个词查验经由中 KL 散度合手续攀升,同期任务完成率出现坍塌。 ( c ) 展示了 OPD 查验中开动 KL 与约束后 KL 之间的雄壮差距。 ( d ) 揭示了背后的根柢原因:KL 散度随交互轮次的增多而增大,AG中国手机官方网页版标明纰缪沿轨迹标的连接积存放大。 )

那 TCOD 是如何惩处的呢?

中枢想路很通俗:别一开头就让学生颓唐走好意思满条轨迹,用课程学习,从短到长冉冉来。

具体有两种变体:

F2B(前向到后向):先让学生崇拜前几步,再逐渐禁受后续步骤

B2F(后向到前向):先让老诚素养到接近异常的情景,学生只崇拜临了几步,再逐渐上前延迟

两种面貌只需对现存 OPD 代码作念少许转变。

KL 崩溃被透顶压制,小模子径直"满血回生"

团队在三个难度递加的多轮 Agent 基准上考据了 TCOD 的成果,包括 ALFWorld(具身导航)、WebShop(电商购物)以及 ScienceWorld(科学推理)。

在这些基准上,TCOD 得手率最高晋升了 18 个百分点,同期把平均步履步数也一并压了下来。

最值得关切的,滚球(中国)官方网站是小模子的"死而复生"。

以Qwen3-1.7B为例,用 Vanilla OPD 查验后,模子在三个基准上的平均得手率仅有0.17%。

这果真是满盈崩溃、毫无可用性。

但换上 TCOD 之后,袪除个 1.7B 小模子的平均得手爽径直拉升至18% 以上,晋升幅度超越 18 个百分点。

这意味着,TCOD 把一个"废了"的模子再行训活了。

关于更大的模子,TCOD 则是诚心诚意。

以Qwen2.5-3B学生模子为例,在 ALFWorld 的 Valid Unseen 测试集上,Vanilla OPD 得手率为60.45%,而 TCOD-F2B 的得手率为79.19%,晋升了 18.74 个点。

不仅如斯,TCOD 还把完成任务所需的平均步履步数压缩了 2.97 步,推理效用和任务性能同步晋升。

TCOD 与 OPD 在 ALFWorld 上的查验动态对比

上图 ( a ) ( b ) 辨认展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的手脚 teacher 模子时的得手率与 KL 散度变化弧线。TCOD 在总计这个词查验经由中恒久保合手更高的得手率,同期 KL 散度也愈加空闲可控。

TCOD 与 OPD 在 ALFWorld 上的查验动态对比

上图 ( a ) ( b ) 辨认展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的手脚 teacher 模子时的查验经由中的平均步履步数与上风函数的变化弧线。

商酌东说念主员还有利构建了一个Hard 测试集——

121 个教练模子 pass@10 采样一都失败的任务,教练自己得手率仅 6.61%。

截止,Qwen2.5-7B 学生模子在 TCOD-B2F 的查验下,Hard 集得手率达到 20.66%,比教练超越整整 14 个点。

让模子学会"从短到长、按次渐进"地走轨迹,不仅能学会老诚会的,还能泛化到老诚根柢不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及清贫集性能对比

另外,商酌东说念主员还测试了查验效用。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总查验时刻。

原因也很径直:课程学习早期只走短轨迹,rollout 更短、数据网罗更快,省下来的忖度量独特可不雅。

团队还进一步考据了超参鲁棒性,发现课程扩张速度 η 在 {2,4,6} 之间变动,得手率波动不超越 2%,果真不需要调参就能径直用。

TCOD 展现出的这种"按次渐进"格式,让 AI 更接近东说念主类学习的面貌。

也即是先在通俗场景里站稳脚跟,再逐渐挑战复杂任务,而不是一开头就被扔进深水区。

改日,这类时序课程机制很可能成为查验长程 Agent 的标配组件。

论文:https://arxiv.org/pdf/2604.24005

GitHub:https://github.com/kokolerk/TCOD

ModelScope:https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face:https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「谨防心」

接待在褒贬区留住你的意见!

—  完  —

咱们正在招聘又名眼疾手快、关切 AI 的学术裁剪实习生  � �

感兴致的小伙伴接待关切 � �  了解笃定

� � 点亮星标 � �

科技前沿阐扬逐日见滚球(中国)官方网站

星空体育(中国)官方网站