暴击专家模型Meta最新多模态大模型I

北京中科医院坑 http://www.bdfyy999.com/m/

编辑:桃子拉燕

Mta简直杀疯了!多模态「千脑智能」ImagBind来了,能够像人的感官一样,从多种维度理解世界。

前段时间,带着开源LLaMA杀疯的Mta,让谷歌都后背发凉。

今天,Mta又丢下了重量级炸弹:

拥有「多种感官」的多模态AI模型ImagBind,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。

这么说吧,ImagBind就像「千脑智能」一样,能够调动6种不同的感知区域进行联动交流。

再直观点,能够听声音「脑补」,给它一个企鹅的音频,直接就能出图。看来,文生图要被颠覆了......

甚至,给一个鸽子图,外加一个摩托音频,能够检索出一张摩托和鸽子的图片。

这还不算啥,ImagBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片视频。

正如论文所说「OnEmbddingSpacToBindThmAll」,Mta这次可是发力要搞模型元宇宙。

把不同模态数据串联在一个嵌入空间(EmbddingSpac),让其从多维度理解世界。

论文

转载请注明:http://www.mengdejiexix.com/lxjj/13012.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

    当前时间: