帖文详情
avatar
@TaNGSoFT@x.good.news
数字神经网络操纵进入下一个阶段: 通过next token prediction我们让这些数字神经网络压缩(pretraining)了人类语言文本精华(token stream),给予他们文本表征的世界模型,并塑造了这些模型的会话能力。 正如人类理性源自在这个不确定性的世界环境里寻求一点点生存的确定性(next second prediction to pursuit survival certainty ), 接下来就是赋予这些模型的推理思考能力。人类的理性思考经过了漫长的生存适应进化,而这些文本世界模型从next token prediction迭代到reasoning,需要我们设计一个怎样的奖励模型来塑造他们的理性行为呢?
查看详情
0
0
0
@TaNGSoFT@x.good.news
0/478
加载中