为什么这种数字神经网络的构建在next token prediction之上的推理学习需要过程监督与奖励反馈？我理解为赋予数字智能学习动机与动力。人类智能在进化过程中，在最初的很长一段时间也是不断的重复trial and error，大脑出现新皮质层后才开始对环境进行实用主义的建模预测。底层一直是下一秒生存确定性的追求驱动的。而这些数字神经网络有数字化文本构建的数字世界模型，没有类似自我驱

@TaNGSoFT@x.good.news

为什么这种数字神经网络的构建在next token prediction之上的推理学习需要过程监督与奖励反馈？我理解为赋予数字智能学习动机与动力。人类智能在进化过程中，在最初的很长一段时间也是不断的重复trial and error，大脑出现新皮质层后才开始对环境进行实用主义的建模预测。底层一直是下一秒生存确定性的追求驱动的。而这些数字神经网络有数字化文本构建的数字世界模型，没有类似自我驱动的动机。

查看详情

@TaNGSoFT@x.good.news

0/478