帖文详情
avatar
@leeoxiang@x.good.news
面壁的这个多模态8B 大模型确实不错,扔一个视频进去,三分钟的视频 十几秒理解完: 1、处理速度能到实时 2、每条抽取一帧的方式进行处理 3、没有对音频处理,加上音频的理解效果应该更好。 t.co/L2s8n0VHA3
查看详情
0
0
0
@leeoxiang@x.good.news
0/477
加载中