最近在 GitHub 上发现了一个爆火的开源项目。
好家伙,凑近一看,居然还是由微软开源,并且和最近炙手可热的 ChatGPT 息息相关。
项目的名字叫做:Visual ChatGPT。
https://github.com/microsoft/visual-chatgpt
![一个令人惊艳的ChatGPT项目,开源了!插图](http://i0.hdslb.com/bfs/article/db1c04d260914850dbd1836cd22452a6296349fb.png)
这个项目最早是 3 月上旬微软开源的,项目宣布开源后仅用了短短一周,就斩获了 2w+ star。
![一个令人惊艳的ChatGPT项目,开源了!插图1](http://i0.hdslb.com/bfs/article/6ac42c1f1aabd2ba14b859d9b345d9e27a671f5b.png)
到现在为止,距离当初项目开源大约过去了 3 周多,仓库 star 数则来到了 28k+,亦可谓是火箭式上涨(doge)。
众所周知,ChatGPT 自 2022 年 11 月推出以来,持续走红。
![一个令人惊艳的ChatGPT项目,开源了!插图2](http://i0.hdslb.com/bfs/article/6d53e8dc8c3ee7d7609dd77b9c303da9bf24625e.jpg)
ChatGPT 具备强大的会话能力,可以理解文字、聊天、写小说、解答问题、编写代码 … 但是目前还并不能直接处理或生成图像。
而 Visual ChatGPT 这个项目则可以把 ChatGPT 和一系列视觉基础模型(VFM,Visual Foundation Model)给联系起来,以便实现在 ChatGPT 聊天的过程中来发送和接收图像,也使得 ChatGPT 能够处理更为复杂的视觉任务。
![一个令人惊艳的ChatGPT项目,开源了!插图3](http://i0.hdslb.com/bfs/article/641215a8ecec05369864d76097d3c781fbceb9b1.gif)
讲白了,就是通过 Visual ChatGPT,可以把一系列视觉基础模型给接入 ChatGPT,使得 ChatGPT 能胜任更为复杂的视觉处理任务。
![一个令人惊艳的ChatGPT项目,开源了!插图4](http://i0.hdslb.com/bfs/article/635f28f080513371ed06b3a2eed70f0c09570961.jpg)
Visual ChatGPT 的整体技术架构图如上所示,我们可以清楚地看到 ChatGPT 和视觉基础模型(VFM,Visual Foundation Model)分别位于其中的位置。
一方面,ChatGPT(或 LLM) 作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能理解。另一方面,基础视觉模型 VFM 则通过提供特定领域的深入知识来充当领域专家,它们通过交互管理模块(Prompt Manger)进行连接和适配。
这样聊可能比较抽象,我们可以拿官方给的一个例子来进行说明:
![一个令人惊艳的ChatGPT项目,开源了!插图5](http://i0.hdslb.com/bfs/article/21b6c858ba803b242fd433be400380122caafe47.png)
1、首先是用户:输入一张黄色的向日葵图片,并且要求 ChatGPT 根据该图像预测深度来生成一朵红花,然后再一步一步将其做成卡通画。
2、接着是交互管理模块(Prompt Manger)发挥作用,在它的协调和控制下,VFM 模块开始发挥作用:
-
首先需要运用深度估计模型来预测并生成图像的深度信息;
-
然后需要运用深度图像模型来生成对应空间深度的红花图像;
-
最后运用 Stable Diffusion 的风格迁移模型来完成图像风格的变换。
3、最后 Visual ChatGPT 系统再将最终结果返回给用户,完成本次对话。
说到这里,有兴趣的小伙伴可以可以看看微软给出的一篇有关 Visual ChatGPT 的论文。
![一个令人惊艳的ChatGPT项目,开源了!插图6 https://arxiv.org/pdf/2303.04671.pdf](http://i0.hdslb.com/bfs/article/6654aa68dc7be304128d00a430d994d15986f92b.png)
里面关于这部分的流程解释得非常详细,而且还给出了多轮对话的案例、以及实验结果,有兴趣的小伙伴可以看看。
好了,今天的分享就到这里了,感谢大家的收看,我们下篇见。
原文链接:https://www.bilibili.com/read/cv22819603/