暴击专家模型Meta最新多模态大模型I
北京中科医院坑 http://www.bdfyy999.com/m/
上一篇文章: 一组极罕见的图片方形海星铁树开花及无 下一篇文章: 没有了
编辑:桃子拉燕
Mta简直杀疯了!多模态「千脑智能」ImagBind来了,能够像人的感官一样,从多种维度理解世界。
前段时间,带着开源LLaMA杀疯的Mta,让谷歌都后背发凉。
今天,Mta又丢下了重量级炸弹:
拥有「多种感官」的多模态AI模型ImagBind,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。
这么说吧,ImagBind就像「千脑智能」一样,能够调动6种不同的感知区域进行联动交流。
再直观点,能够听声音「脑补」,给它一个企鹅的音频,直接就能出图。看来,文生图要被颠覆了......
甚至,给一个鸽子图,外加一个摩托音频,能够检索出一张摩托和鸽子的图片。
这还不算啥,ImagBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片视频。
正如论文所说「OnEmbddingSpacToBindThmAll」,Mta这次可是发力要搞模型元宇宙。
把不同模态数据串联在一个嵌入空间(EmbddingSpac),让其从多维度理解世界。
论文
转载请注明:http://www.mengdejiexix.com/lxjj/13012.html