cjzdaily
14:08 · Jan 4, 2025 · Sat
https://x.com/bluebird0605/status/1875412954696577431?s=12
X (formerly Twitter)
未完成 (@bluebird0605) on X
复旦大学的这篇论文通过强化学习的视角,提出一个分析框架:
- 策略初始化
- 奖励设计
- 搜索
- 学习
希望复现 OpenAI 的 o1 模型的推理能力。论文认为,现有开源 o1 项目均可视为该路线图的变体或组成部分,这四个部分是构建具有类 o1 推理模型的关键。
https://t.co/b5mMBgpsK8
Home
Powered by
BroadcastChannel
&
Sepia