帖文详情
avatar
@indigo11@x.good.news
OpenAI 对研究团队的一个小采访,o1 🍓是一个全新的系列,被定义为"推理模型”,这些系列的新特点: - 注重思考过程:”推理模型"会在回答问题之前进行更多思考,采取了用思考时间转更好的结果的策略; - 自生成思维链:团队使用强化学习(RL)训练模型生成和完善自己的思维链,而不仅仅依赖人类编写的思路链; - 能自我反思:o1 能够质疑自己、反思错误,展现出更复杂的推理过程; 当团队在强化学习中投入更多计算资源来训练生成连贯的思维链时,模型生成比人类编写的思维链更好的推理,特别是在数学问题上,模型开始展现出自我质疑和反思的能力,这让团队意识到他们发现了一些新颖而强大的东西!
查看详情
0
0
0
@indigo11@x.good.news
0/478
加载中