帖文详情
avatar
@oran_ge@x.good.news
很多人说 o1 不就是个 CoT+强化学习吗?经过我的实际体感测试,这个还真不止是 CoT 能搞定的东西。 强化学习有个前提,就是模型原来试了一万次,有一次成功了。 - 模型原来做不到的事情,尝试一万次没有一次成功,那强化也没用 - 模型通过 CoT 尝试了一万次没有一次成功,那强化也没用 - 模型通过一些 Prompt 提示或引入其他因素进行思考,在一万次里有几次成功了,强化学习才开始有用 - 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了 最后推荐三个可以关注的信息: 1. 关于 CoT,360 做了一个简单可视化的版本,全程思考都暴露出来,可以自己感受下 CoT 的思维方式和局限,看看哪些问题 4o 无法解决,可以通过 Cot 解决t.co/WP89YZ27Eh 2. 关于 Agent,可以参考赛博禅心这篇文章,内含代码,可以测试有哪些4o无法解决的问题,可以通过 Agent 形式解决 t.co/qcHQXuvO8u 3.关于开源版的🍓模型,千问团队率先放出卫星,下周大的就要来? t.co/kbUsUpsGsW
查看详情
0
0
0
@oran_ge@x.good.news
0/479
加载中