当前位置：翡翠原石网 > 知识储备≠模型能力deepmind强化学习微调大幅缩小「知行差距」

知识储备≠模型能力deepmind强化学习微调大幅缩小「知行差距」

时间：2025-10-23 08:36:39 编辑：翡翠原石网访问：191

知识储备≠模型能力！deepmind强化学习微调：大幅缩小「知行差距」，实验表明，RLFT可增加模型探索性，缩小知行差距，但探索策略仍有改进空间。大...结果发现，RLFT通过增加探索性并缩小「知行差距」来增强LMs的决策能力，尽管...