indigo11@x.good.news 的帖文详情

@indigo11@x.good.news

OpenAI 对研究团队的一个小采访，o1 🍓是一个全新的系列，被定义为"推理模型”，这些系列的新特点： - 注重思考过程：”推理模型"会在回答问题之前进行更多思考，采取了用思考时间转更好的结果的策略； - 自生成思维链：团队使用强化学习(RL)训练模型生成和完善自己的思维链，而不仅仅依赖人类编写的思路链； - 能自我反思：o1 能够质疑自己、反思错误，展现出更复杂的推理过程；当团队在强化学习中投入更多计算资源来训练生成连贯的思维链时，模型生成比人类编写的思维链更好的推理，特别是在数学问题上，模型开始展现出自我质疑和反思的能力，这让团队意识到他们发现了一些新颖而强大的东西！

查看详情

@indigo11@x.good.news

0/478