Llama 3.1 是一个多模态大模型，支持图片、音频、视频输入。但看起来多模态部分评分并不太高，图片和视频部分相比 gpt-4o 有一些差距，音频理解部分对比 whisper 有不小差距。多模态部分看起来还不是 Llama 3.1 的重心。

@leeoxiang@x.good.news

@leeoxiang@x.good.news

0/477