帖文详情
avatar
@TaNGSoFT@x.good.news
为什么这种数字神经网络的构建在next token prediction之上的推理学习需要过程监督与奖励反馈?我理解为赋予数字智能学习动机与动力。 人类智能在进化过程中,在最初的很长一段时间也是不断的重复trial and error,大脑出现新皮质层后才开始对环境进行实用主义的建模预测。底层一直是下一秒生存确定性的追求驱动的。 而这些数字神经网络有数字化文本构建的数字世界模型,没有类似自我驱动的动机。
查看详情
0
0
0
@TaNGSoFT@x.good.news
0/478
加载中