Meta 公司近日发布了一种全新的后训练方式 CGPO,该方法旨在解决强化学习中的多任务优化问题,包括奖励欺骗和极端多目标优化。通过引入混合评审机制和三种约束优化器,CGPO 能够有效解决这些问题,并在多任务学习中取得更好的效果。
在多任务环境下,CGPO 通过“奖励模型-多任务判定器 (MoJs) 优化器”的组合,为每个任务提供量身定制的对齐指导,从而更好地适应每个任务的独特特性。实验结果表明,CGPO 在多个基准测试中持续提升,尤其在 ARC Challenge、HumanEval、MBPP 等任务上表现出色。
CGPO 框架的提出,为强化学习与人类反馈在多任务学习中的应用提供了革命性的新思路。随着研究的深入,未来我们有望看到更多基于 CGPO 的自动化优化方法,进一步提升多任务学习的表现。