Meta 开源人工智能模型AI ImageBind，可生成多感官内容

Facebook 母公司 Meta 旗下的AI 部门近日正式发布了旗下的开源 AI 人工智能模式 ImageBind！

根据介绍，它是一种 Multimodal 多模态 AI 模型，能够同时处理六种不同的数据类型，包括图像、视频、音频、文本、深度、热度和惯性测量单元（IMU）。

多模态 AI 模型是指能够结合多种数据类型的 AI 模型，它们可以在不同的感官之间建立联系，从而实现更丰富和更自然的人机交互。

例如，AI图像生成器如DALL-E、Stable Diffusion 和 Midjourney 都是基于多模态 AI 模型的，它们可以根据用户输入的文本生成相应的图片。

ImageBind 是目前第一个能够将六种数据类型绑定在一个单一的嵌入空间的AI模型，它不需要显式的监督，也就是说，它不需要人为地给出每种数据类型之间的对应关系，而是通过自我学习来发现它们之间的内在联系。

ImageBind 的嵌入空间是一个高维的数学空间，其中每个点都代表了一种或多种数据类型的信息。ImageBind 可以将任何一种或多种数据类型的输入映射到这个空间中，并在空间中进行各种操作，如搜索、比较、组合和生成。

ImageBind 还可以升级现有的 AI 模型，使其支持来自任何六种模态之一的输入。这意味着，用户可以用音频来搜索图片，用文本来生成视频，用深度信息来修改热度图像等等。

ImageBind 在跨模态的零样本和少样本识别任务上达到了新的最佳性能，甚至超过了之前专门针对这些模态训练的模型。

零样本和少样本识别任务是指让 AI 模型识别没有见过或只见过很少次数的数据类型或类别。例如，让一个只见过猫和狗图片的AI模型识别出老虎或狮子。ImageBind可以利用它在不同模态之间建立的联系来完成这样的任务。

Meta AI已经将ImageBind开源，并提供了一个在线演示，让用户可以体验 ImageBind 在图像、音频和文本模态上的能力。

用户可以上传自己的图片、音频或文本，并看到ImageBind如何将它们映射到嵌入空间中，并进行跨模态搜索、算术和生成等操作。

Meta AI表示，ImageBind是一个研究项目，目前还没有直接的消费者或实际应用，但它展示了未来AI系统可能具备的创造多感官体验的潜力，并表明Meta AI仍然愿意分享AI研究成果，在这个领域保持开放和透明。

有兴趣了解更多的童鞋们可以浏览 Meta ImageBind 展示网站：点我

更多消息请守住 Mdroid。

来源：Meta

关于我们