面壁的这个多模态8B 大模型确实不错，扔一个视频进去，三分钟的视频十几秒理解完： 1、处理速度能到实时 2、每条抽取一帧的方式进行处理 3、没有对音频处理，加上音频的理解效果应该更好。 t.co/L2s8n0VHA3

@leeoxiang@x.good.news

@leeoxiang@x.good.news

0/477