一个令人惊艳的ChatGPT项目,开源了!

128次阅读

最近在 GitHub 上发现了一个爆火的开源项目。

好家伙,凑近一看,居然还是由微软开源,并且和最近炙手可热的 ChatGPT 息息相关。

项目的名字叫做:Visual ChatGPT。

https://github.com/microsoft/visual-chatgpt

这个项目最早是 3 月上旬微软开源的,项目宣布开源后仅用了短短一周,就斩获了 2w+ star。

到现在为止,距离当初项目开源大约过去了 3 周多,仓库 star 数则来到了 28k+,亦可谓是火箭式上涨(doge)。

众所周知,ChatGPT 自 2022 年 11 月推出以来,持续走红。

ChatGPT 具备强大的会话能力,可以理解文字、聊天、写小说、解答问题、编写代码 … 但是目前还并不能直接处理或生成图像。

而 Visual ChatGPT 这个项目则可以把 ChatGPT 和一系列视觉基础模型(VFM,Visual Foundation Model)给联系起来,以便实现在 ChatGPT 聊天的过程中来发送和接收图像,也使得 ChatGPT 能够处理更为复杂的视觉任务。

讲白了,就是通过 Visual ChatGPT,可以把一系列视觉基础模型给接入 ChatGPT,使得 ChatGPT 能胜任更为复杂的视觉处理任务。

Visual ChatGPT 的整体技术架构图如上所示,我们可以清楚地看到 ChatGPT 和视觉基础模型(VFM,Visual Foundation Model)分别位于其中的位置。

一方面,ChatGPT(或 LLM) 作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能理解。另一方面,基础视觉模型 VFM 则通过提供特定领域的深入知识来充当领域专家,它们通过交互管理模块(Prompt Manger)进行连接和适配。

这样聊可能比较抽象,我们可以拿官方给的一个例子来进行说明:

1、首先是用户:输入一张黄色的向日葵图片,并且要求 ChatGPT 根据该图像预测深度来生成一朵红花,然后再一步一步将其做成卡通画。

2、接着是交互管理模块(Prompt Manger)发挥作用,在它的协调和控制下,VFM 模块开始发挥作用:

  • 首先需要运用深度估计模型来预测并生成图像的深度信息;

  • 然后需要运用深度图像模型来生成对应空间深度的红花图像;

  • 最后运用 Stable Diffusion 的风格迁移模型来完成图像风格的变换。

3、最后 Visual ChatGPT 系统再将最终结果返回给用户,完成本次对话。

说到这里,有兴趣的小伙伴可以可以看看微软给出的一篇有关 Visual ChatGPT 的论文。

https://arxiv.org/pdf/2303.04671.pdf
https://arxiv.org/pdf/2303.04671.pdf

里面关于这部分的流程解释得非常详细,而且还给出了多轮对话的案例、以及实验结果,有兴趣的小伙伴可以看看。

好了,今天的分享就到这里了,感谢大家的收看,我们下篇见。

原文链接:https://www.bilibili.com/read/cv22819603/

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-16发表,共计1194字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。