暴击专家模型Meta最新多模态大模型I

编辑：桃子拉燕

Mta简直杀疯了！多模态「千脑智能」ImagBind来了，能够像人的感官一样，从多种维度理解世界。

前段时间，带着开源LLaMA杀疯的Mta，让谷歌都后背发凉。

今天，Mta又丢下了重量级炸弹：

拥有「多种感官」的多模态AI模型ImagBind，能够将文本、音频、视觉、热量（红外），还有IMU数据，嵌入到一个向量空间中。

这么说吧，ImagBind就像「千脑智能」一样，能够调动6种不同的感知区域进行联动交流。

再直观点，能够听声音「脑补」，给它一个企鹅的音频，直接就能出图。看来，文生图要被颠覆了......

甚至，给一个鸽子图，外加一个摩托音频，能够检索出一张摩托和鸽子的图片。

这还不算啥，ImagBind还可以进行跨模态检索，如火车喇叭音频，文本、深度、图片视频。

正如论文所说「OnEmbddingSpacToBindThmAll」，Mta这次可是发力要搞模型元宇宙。

把不同模态数据串联在一个嵌入空间（EmbddingSpac），让其从多维度理解世界。

论文

下一篇文章：没有了