帖文详情
avatar
@leeoxiang@x.good.news
Llama 3.1 是一个多模态大模型,支持图片、音频、视频输入。但看起来多模态部分评分并不太高,图片和视频部分相比 gpt-4o 有一些差距,音频理解部分对比 whisper 有不小差距。 多模态部分看起来还不是 Llama 3.1 的重心。
查看详情
0
0
0
@leeoxiang@x.good.news
0/477
加载中