cjzdaily

复旦大学的这篇论文通过强化学习的视角，提出一个分析框架：

- 策略初始化
- 奖励设计
- 搜索
- 学习

希望复现 OpenAI 的 o1 模型的推理能力。论文认为，现有开源 o1 项目均可视为该路线图的变体或组成部分，这四个部分是构建具有类 o1 推理模型的关键。

https://t.co/b5mMBgpsK8