文章导读

[简讯]小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

liyer 2025年6月20日 1

6月19日,小红书技术团队发文称,深度思考模型通过Test-Time Scaling（测试时扩展）大幅提升了模型推理能力,但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式；在不影响最终效果的前提下,实现动态CoT能力,大幅降低平均思考长度。实验证明,这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象:即在相同任务下,越聪明（参数量大）的模型,需要的思考长度越短；这与当前深度思考模型表现相违背,却十分符合人类的认知。

来源: 网友推荐、互联网筛选整理；由猫眼艺术字提供API数据中转支持。

查看评论列表

暂无评论

Hello! 欢迎来到猫眼博客！

加载中

[简讯]小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

评论（0）

发表评论取消回复

插入代码

Hello! 欢迎来到猫眼博客！

加载中

[简讯]小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

评论（0）

发表评论 取消回复

插入代码

发表评论取消回复