oran_ge@x.good.news 的帖文详情

@oran_ge@x.good.news

很多人说 o1 不就是个 CoT+强化学习吗？经过我的实际体感测试，这个还真不止是 CoT 能搞定的东西。强化学习有个前提，就是模型原来试了一万次，有一次成功了。 - 模型原来做不到的事情，尝试一万次没有一次成功，那强化也没用 - 模型通过 CoT 尝试了一万次没有一次成功，那强化也没用 - 模型通过一些 Prompt 提示或引入其他因素进行思考，在一万次里有几次成功了，强化学习才开始有用 - 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了最后推荐三个可以关注的信息： 1. 关于 CoT，360 做了一个简单可视化的版本，全程思考都暴露出来，可以自己感受下 CoT 的思维方式和局限，看看哪些问题 4o 无法解决，可以通过 Cot 解决t.co/WP89YZ27Eh 2. 关于 Agent，可以参考赛博禅心这篇文章，内含代码，可以测试有哪些4o无法解决的问题，可以通过 Agent 形式解决 t.co/qcHQXuvO8u 3.关于开源版的🍓模型，千问团队率先放出卫星，下周大的就要来？ t.co/kbUsUpsGsW

查看详情

@oran_ge@x.good.news

0/479