微软发布Visual ChatGPT,AI对话可生成图像!

微软发布Visual ChatGPT

微软发布Visual ChatGPT,AI对话可生成图像!

走在 AI 生成系统前端的领头羊 Microsoft 微软再次发布重磅模型,这次是 Visual ChatGPT!

这几个月大火的大型语言模型(LLM)和 AI 绘图两大 AI 领域偶读取得了令人难以置信的进展,不过这两个系统到目前为止交集点不多。

即使是强大的ChatGPT,也存在短板。由于它只是用单一语言模式进行训练,所以它对视觉信息的处理能力非常有限。

相比之下,视觉基础模型(VFM,Visual Foundation Models)在计算机视觉方面具有巨大的潜力,因此能够理解和生成复杂的图像。

例如,BLIP 模型是理解和提供图像描述的专家;而备受瞩目的Stable Diffusion则可以根据文本提示生成图像。

然而,由于VFM模型对输入 – 输出格式的严格要求和固定限制,使得它在人机交互方面不如会话语言模型灵活。

对此,Visual ChatGPT 应运而生。

微软发布Visual ChatGPT

Visual ChatGPT 是一个由微软亚洲研究院的研究者提出的系统,它能够在对话系统中生成和理解图片,并回答相关问题。

他们将 ChatGPT 和多个 SOTA 视觉基础模型结合起来,实现了这一目标。为了让其他人能够复现他们的研究,他们已经把代码全部开源了。

他们没有重新训练一个全新的多模态 ChatGPT,而是在 ChatGPT 的基础上构建了 Visual ChatGPT,并利用了各种 VFM。

微软发布Visual ChatGPT

为了让 ChatGPT 和这些 VFM 能够协调工作,该研究设计了一个 Prompt Manager,它具有以下功能:

  1. 清楚地告诉 ChatGPT 每个 VFM 的作用并规定输入输出格式;
  2. 把不同类型的视觉信息,比如 png 图像、深度图像和 mask 矩阵,转换成语言格式以便 ChatGPT 理解;
  3. 处理不同 VFM 之间的历史、优先级和冲突问题。

在 Prompt Manager 的协助下,ChatGPT 可以使用这些 VFM,并根据它们的反馈进行迭代调整,直到满足用户的需求或达到结束条件。

微软发布Visual ChatGPT,AI对话可生成图像! 1

想要了解更多关于 Visual ChatGPT ,可以参考以下连接:

论文地址:https://arxiv.org/pdf/2303.04671.pdf

项目地址:https://github.com/microsoft/visual-chatgpt

更多消息请守住 Mdroid

关注Mdroid中文科技网: