淘优惠

淘优惠

鏈哄櫒瑙嗚鍦╟hatgpt涓殑搴旂敤 寰蒋瑙嗚鐗坈hatgpt濡備綍浣跨敤

双十一活动 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


【【微信】】 将 【【微信】】 和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。

近年来,大型语言模型(LLM)取得了令人难以置信的进展,尤其是去年 11 月 30 日,OpenAI 重磅推出的聊天对话模型 【【微信】】,短短三个月席卷社会各个领域。【【微信】】 会的东西五花八门,能陪你聊天、编写代码、修改 bug、解答问题……

但即便是非常强大的 【【微信】】 也存在短板,由于它是用单一语言模态训练而成,因此其处理视觉信息的能力非常有限,相比较而言,视觉基础模型(VFM,【【微信】】ls)在计算机视觉方面潜力巨大,因而能够理解和生成复杂的图像。例如,BLIP 模型是理解和提供图像描述的专家;大热的 Stable Diffusion 可以基于文本提示合成图像。然而由于 VFM 模型对输入 - 输出格式的苛求和固定限制,使得其在人机交互方面不如会话语言模型灵活。

我们不禁会问,能否构建一个同时支持图像理解和生成的类似 【【微信】】 的系统?一个直观的想法是训练多模态对话模型。然而,建立这样一个系统会消耗大量的数据和计算资源。此外,另一个挑战是,如果我们想整合语言和图像以外的模态,比如视频或语音,该怎么办?每次涉及新的模态或功能时,是否有必要训练一个全新的多模态模型?

来自微软亚洲研究院的研究者提出了一个名为 【【微信】】 的系统来回答上述问题,他们将 【【微信】】 和多个 SOTA 视觉基础模型连接,实现在对话系统中理解和生成图片。为了方便复现,该研究已经将代码完全开源。

论文地址:【【网址】】/pdf/2303.04671.pdf

项目地址:【【网址】】/microsoft/【【微信】】

他们不是从头开始训练一个新的多模态 【【微信】】,而是直接基于 【【微信】】 构建 【【微信】】,并结合了各种 VFM。为了弥合 【【微信】】 和这些 VFM 之间的差距,该研究提出了一个 Prompt Manager,其支持以下功能:

1)明确告诉 【【微信】】 每个 VFM 的功能并指定输入输出格式;?

2) 将不同的视觉信息,例如 png 图像、深度图像和 mask 矩阵,转换为语言格式以帮助 【【微信】】 理解;?

3) 处理不同 VFM 的历史、优先级和冲突。

在 Prompt Manager 的帮助下,【【微信】】 可以利用这些 VFM,并以迭代的方式接收它们的反馈,直到满足用户的需求或达到结束条件。

总结而言,本文贡献如下:?

  • 提出 【【微信】】,打开了 【【微信】】 和 VFM 连接的大门,使 【【微信】】 能够处理复杂的视觉任务;
  • 设计了一个 Prompt Manager,其中涉及 22 个不同的 VFM,并定义了它们之间的内在关联,以便更好地交互和组合;
  • 进行了大量的零样本实验,并展示了大量的案例来验证 【【微信】】 的理解和生成能力。

如图 1 所示,用户上传了一张黄色花朵的图像,并输入一条复杂的语言指令「请根据该图像生成的深度图在生成一朵红色花朵,然后逐步将其制作成卡通图片。」在 Prompt Manager 帮助下,【【微信】】 启动了和 VFM 相关的执行链。

其执行过程是这样的,首先是深度估计模型,用来检测图像深度信息;然后是深度 - 图像模型,用来生成具有深度信息的红花图像;最后利用基于 Stable Diffusion 的风格迁移 VFM 将该图像风格转换为卡通图像。

在上述 pipeline 中,Prompt Manager 作为 【【微信】】 的调度器,提供可视化格式的类型并记录信息转换的过程。最后,当 【【微信】】 从 Prompt Manager 获得卡通提示时,它将结束执行 pipeline 并显示最终结果。

在接下来的示例中,用户输入提示:你能帮我生成一张猫的图像吗?收到指示后,【【微信】】 生成一张正在看书的猫的图像。

你还可以要求 【【微信】】 将图像中的猫换成狗,然后把书删除:

你甚至还能要求 【【微信】】 生成 canny 边缘检测,然后基于此生成另一张图像:

接下来我们看看该研究是如何实现的。

方法:【【微信】】

下图为 【【微信】】 概览。左边进行了三轮对话,中间是 【【微信】】 如何迭代调用 【【微信】】ls 并提供答案的流程图。右侧展示了第二次 QA 的详细过程。

系统原则 prompt 管理?

【【微信】】 是一个集成了不同 VFM 来理解视觉信息并生成相应答案的系统。因此,【【微信】】 需要定制一些系统原则,并将其转化为 【【微信】】 可以理解的 prompt。这些 prompt 有多种用途,包括:

  • 【【微信】】 本身的用途:【【微信】】 旨在协助完成一系列与文本和视觉相关的任务,例如 VQA、图像生成和编辑;
  • VFM 的可访问性:【【微信】】 可以访问 VFM 列表来解决各种 VL( 【【微信】】 ) 任务。使用哪种基础模型完全由 【【微信】】 模型本身决定,因此 【【微信】】 可以轻松支持新的 VFM 和 VL 任务;
  • 文件名敏感度:【【微信】】 根据文件名访问图像文件,使用精确的文件名以避免歧义至关重要,因为一轮对话可能包含多个图像及其不同的更新版本,滥用文件名会导致混淆图片。因此,【【微信】】 被设计为严格使用文件名,确保它检索和操作正确的图像文件;
  • Chain-of-Thought:如上图 1 所示生成卡通图片的过程,涉及深度估计、深度到图像和风格转换的 VFM,这种看似简单的命令可能需要多个 VFM,为了通过将查询分解为子问题来解决更具挑战性的查询,【【微信】】 引入了 CoT 以帮助决定、利用和调度多个 VFM;
  • 推理格式的严谨性:【【微信】】 必须遵循严格的推理格式。因此,该研究使用精细的正则表达式匹配算法解析中间推理结果,并为 【【微信】】 模型构建合理的输入格式,以帮助其确定下一次执行,例如触发新的 VFM 或返回最终响应;
  • 可靠性作为一种语言模型,【【微信】】 可能会伪造假图像文件名或事实,这会使系统不可靠。为了处理此类问题,该研究对 prompt 进行了设计,要求 【【微信】】 忠于视觉基础模型的输出,而不是伪造图像内容或文件名。此外,多个 VFM 的协作可以提高系统可靠性,因此本文构建的 prompt 将引导 【【微信】】 优先利用 VFM,而不是根据对话历史生成结果。

下表为 【【微信】】 支持的 22 种基础模型:

基础模型的 prompt 管理?

【【微信】】 配备了多个 VFM 来处理各种 VL 任务。由于这些不同的 VFM 可能有一些相似之处,例如,图像中对象的替换可以被视为生成新图像,图像到文本(I2T)任务和图像问答(VQA)任务都可以理解为根据提供的图像给出响应,区分它们至关重要。如图 3 所示,Prompt Manager 具体定义了以下几个方面来帮助 【【微信】】 准确理解和处理 VL 任务:

  • 名称:名称 prompt 为每个 VFM 提供了整体功能的抽象,例如回答关于图像的问题,它不仅有助于 【【微信】】 简明扼要地理解 VFM 的用途,而且名称还是 VFM 的入口。
  • 用法:用法 prompt 描述了应该使用 VFM 的特定场景。例如,Pix2Pix 模型适用于改变图像的风格。提供此信息有助于 【【微信】】 做出将哪个 VFM 用于特定任务的明智决策。
  • 输入 / 输出:输入和输出 prompt 概述了每个 VFM 所需的输入和输出格式,因为格式可能有很大差异,并且为 【【微信】】 正确执行 VFM 提供明确的指导至关重要。
  • 示例(可选):示例 prompt 是可选的,但它可以帮助 【【微信】】 更好地理解如何在特定的输入模板下使用特定的 VFM 以及处理更复杂的查询。

用户查询的 prompt 管理?

【【微信】】 支持多种用户查询,包括语言或图像,简单或复杂的查询,以及多张图片的引用。Prompt Manager 从以下两个方面处理用户查询:

生成唯一的文件名。【【微信】】 可以处理两种类型的图像相关查询:涉及新上传图像的查询和涉及引用现有图像的查询。对于新上传的图像,【【微信】】 会生成一个具有通用唯一标识符 (UUID) 的唯一文件名,并添加一个前缀字符串「image」来表示相对目录,例如「image/{uuid}.png」。虽然新上传的图像不会被输入 【【微信】】,但会生成一个虚假的对话历史记录,其中包含一个说明图像文件名的问题和一个表明图像已收到的答案。这个虚假的对话历史有助于以下对话。对于涉及引用现有图像的查询,【【微信】】 会忽略文件名检查。这种方法已被证明是有益的,因为 【【微信】】 能够理解用户查询的模糊匹配,前提是它不会导致歧义,例如 UUID 名称。

确保正确触发 VFM。为了保证 【【微信】】 的 VFM 成功触发,该研究在?

后面附加了一个后缀提示,这个提示有两个目的:1)提示 【【微信】】 使用基础模型,而不是仅仅依靠它的想象;2) 鼓励 【【微信】】 提供由基础模型生成的特定输出,而不是通用响应。

基础模型输出的 prompt 管理

对于来自不同 VFM?

的中间输出,【【微信】】 将隐式汇总并将它们提供给 【【微信】】 进行后续交互,即调用其他 VFM 进行进一步操作,直到达到结束条件或将结果反馈给 【【微信】】 用户。内部步骤可以拆解为生成链式文件名、调用 VFM、询问用户更多细节以确定用户命令。

实验及结果

多轮对话完整案例

图 4 为 【【微信】】 进行的 16 轮多模态对话案例。在本例中,用户同时询问文本和图像问题,【【微信】】 能够以文本和图像的方式给出响应。

Prompt Manager 案例研究

系统原则 prompt 管理分析研究如图 5 所示:为了验证系统原则 prompt 的有效性,该研究从中删除了不同的部分来比较模型性能。结果显示每次移除都会导致不同的容量退化。

图 6 为基础模型 prompt 管理的案例分析。前面也提到 VFM 的名称非常重要,需要明确定义。当名称缺失或模糊时,【【微信】】 会进行多次猜测,直到找到现有的 VFM,或遇到错误终止,如左上角所示。此外,VFM 应清楚地描述在特定的场景下所使用的模型,以避免错误的响应,右上图显示风格迁移被错误地处理成替换。还有一点需要注意的是,输入输出格式的 prompt 要准确,避免参数错误,如左下图。示例 prompt 可以帮助模型处理复杂的用法,但它是可选的,如右下图所示,虽然本文删除了示例 prompt,但 【【微信】】 还可以总结对话历史和人类意图以使用正确的 VFM。

图 7 上半部分分析了用户查询 prompt 管理的案例研究,图 7 底部分析了模型输出的 prompt 管理案例。

了解更多内容,请参考原论文。


要闻:ChatGPT与人类未来:AI茧房、安全漏洞与未知的2023/3/12 7:11:45

要闻快讯,要闻的意思,要闻解放日报,要闻速递
OpenAI做了谷歌不敢也不想做的事,那就是:还在研究阶段就对外公开了ChatGPT。这引发了巨大的争议,关于诈,关于作弊,关于人类未来的教育、认知的获取,以及未来大量工作被取代。说话,ChatGPT的到来让我对人类的未来,更迷茫了。chatgpt入口的相关资讯可以到我们网站了解一下,从专业角度出发为您解答相关问题,给您优质的服务!https://www.【【微信】】.com这里先澄清一下,如今人们对AI在未来能做的事、行为和发展的认知还非常有限,所以今天我们讲的东西和判断可能是稍显主观的。但是希望带给大家一些思考和探讨的空间。首先,我们来聊聊ChatGPT对人类认知的影响和潜在的AI茧房。01 人类认知与AI茧房我先问大家几个比较直观的问题:当你有一个能几秒内给你答案的聊天机器人的时候,你还会思考,这个答案是怎么得出来的吗当你习惯了被告知一个事件有12345点,你还会去想,它是否还会有678910点重要的角度吗当你不用学外语就能写出一篇没有语法错误的情书,你还会为了追那个异国的女孩而去了解她的语言她的她的信仰她的文化吗当你认为ChatGPT背后的大语言人工智能模型看上去“所不知”的时候,你知道它其给你的只是,全人类在互联网上信息的平均知识吗这些问题在我和创新工场的AI工程院执行院长王咏刚的聊天中,都略有涉及到。王咏刚老师在朋友圈中写到:“悲观情况是:因为人类的极度懒惰,互联网被AI生成的、错误率普遍高于人类知识工作者的“灌水内容”占领,我们的孩子成为“迷失的一代”。”王咏刚:现在的 AI 比较大的问题是他在做的事情是模型拟合的事情。论是比较早的自然语言处理的古老古典、已经被淘汰的算法,还是今天在ChatGPT里面我们看到的这种比较新的算法,它的核心任务仍然是对人类自然语言语料数据去做模型匹配、模式拟合。基于这种拟合,它的输出造成了它这种拟合必须是在它学习过的这种数据,或者学习过的这种数据的规律,根据一定的数学逻辑、甚至非确定逻辑来去做它的输出。所以这一点上带来几个问题,不可预测性一定会永远存在,模型输出的一定的随机性一定会永远存在。在这种情况下带来的比较大的问题就是比较高层的判断或者评论,大概会带来一个比较大的问题是什么今天如果你把 AI 作为一个知识处理机或者知识宣讲机,这件事情是有一定的疑问的。因为当 AI 去输出知识的时候,它输出的是什么知识,这个知识很可能是它在模型拟合的时候,非常大的概率拟合的,是全人类在互联网上这些信息的平均知识。这些平均知识,就看你需要什么了。如果你需要的只是一个日常的、非常初步的,满足生活要求的知识,比如水什么时候结冰,汽车什么情况下不打滑,我觉得 AI 未来可以解决得非常好,对于日常来讲。但是如果你把它想放在跟教育相关的、跟人类的知识进步相关的事情上,这件事会有很多的问号在里面。像我们去请一个保姆给我们的孩子去一起去生活,我们觉得他可以,保姆可以帮我们孩子解决很多生活中的问题。但是如果我们为了孩子的学习,请一位老师,我们会对老师有更严格的要求。我觉得这件事就是我所担心的事情。一旦我们把 AI 当做我们的下一代成长的一个老师,这个趋势太明显了,比如今天基于 GPT 的 API 来去开发各种教育工具、各种的这种知识处理工具的人,都是直接就冲上去就做了,很多事情都可以解决了。但是这种解决有可能是低层面的。AI有两种情况,一种情况是它去用模式匹配得到的人类的平均知识告诉我们的小朋友,而不会让小朋友得到一个有这种人类严格挑选或者严格的这样的一个逻辑,构成的这样一个教育体系;另一种情况是今天的 AI 还会大量的在或是人类要求,或是它自主激活的这种叫做创造性的东西,这种创造性要打引号,这种创造性可能在非常多的场合是好的,但是在一旦把我们把它用于这种知识传承和知识教育,今天或者可见的未来,我是看不到这种东西在替代人类老师或者人类这样一个思维逻辑的一种可能性。这样当人类的这种懒惰也好,或者人类的这种叫做取巧也好,一旦进入了教育领域,我不用想象,今天很多人都已经在做了大量的把 AI 生成的东西开始补充进教育的这种内容体系。对学生来讲,我可以用ChatGPT 来写作业,对于老师来讲,我可以用ChatGPT 来布置作业,我可以省下非常多的这种思考时间。对一个老师觉得,本来老师觉得可能有一个东西我没有讲透,我可能要去通过查维基百科、以前的书,我把它梳理好一个完整的知识体系,我给到学生讲一个完整知识体系。但是现在好了,我可以用 ChatGPT 来去直接告诉学生完整的讲述逻辑。但是这个讲述逻辑一定是人类平均水平的,它很难到达一个叫做人类让学生或者让人类进步的这样一个水平。因为因为很简单,全互联网的 data 里面所谓代表这种比较高水平data,它是个小概率的这种东西。未来如何让ChatGPT拟合这种比较精准的data这是 data 输入的一方面,另一方面非常简单。你即便拟合了这样一个比较精准data, AI 仍然有不确定性,仍然有它创造的空间。像今天ChatGPT 有大量的这种,我告诉他某一个概念,他就开始自由发挥这种事情,这个事情以后是非常恐怖的。这个发挥你只能以后限制他、去不断地去纠正他。但是你说是不是可以完全杜绝他我觉得在今天的 AI 算法的根本上不太容易。所以这是我会非常担心。刚才说的,还是因为懒惰说老师因为不想去花时间去研究一个东西。那因为牟利那就更可怕了。大量的人会发现我在分分钟利用 AI 不要成本地产出大量的垃圾内容,灌到本来我们已经被碎片化信息充斥的社交网站上。本来今天的十几岁小朋友都在某些互社交网站上,天天沉浸在一些碎片化的知识里面。有一些博主随便讲一讲,似是而非的为什么火箭飞那么,为什么什么星球跟什么星球什么关系,他似是而非的讲几句话之后,可能小朋友看了热闹开心就行了,他学不到更深的知识。但是未来这种事情,如果因为逐利,这种事情只会越来越重,只会越来越多。大量 AI 创造的碎片化、不严谨,甚至是故意瞎说的知识充斥互联网,充斥小朋友能接触的这种叫做信息茧房的话,这个茧房就是 AI 茧房了。这个恐怖的事情对我来说,如果我有机会,可能我会尽各种的努力去避免这件事情。陈茜:对,其我觉得现在这件事情的趋势已经很明显了。比如我们放一些长视频,有完整的逻辑来推导到一个过程,但是很多人看不下去。就说两分钟能说清楚的事情,为什么你要花 20 分钟或者你直接跟我说结论就好了,我觉得现在很多人就越来越着急,大家的注意力越来越短。我觉得这个情况我还蛮担心,会越来越糟的。王咏刚:因为本来一些很有追求的老师质疑的自媒体、科普人、那些所谓给孩子讲东西的人,比较重要的一点就是你们在抄近道,你们在直接给孩子一个看上去特别甜的糖,但是你从来不告诉特别甜糖背后的所谓苦的逻辑。所谓这种复杂的逻辑。因为你们要去赚流量、要通过流量去赚钱。这件事今天到来了之后,他已经没有办法批评谁了,因为这些东西超近道的东西会充斥着网络,而且这超近道作者都不是人了,这件事就会很可怕。如今,我们用搜索引擎的时候,是一个主动寻找答案的过程,其中我们会阅读到通向答案的逻辑、佐证、正面的反面的例子、争议,以及除了答案本身之外的其它额外信息,这些信息构建成为了我们对这个事件的知识认知。但如果你只想或者只需要知道答案,那这些搭建起来的知识认知可能也就不存在了。就像刚才王咏刚老师说的,ChatGPT比较开始冲击的就是我们的教育体系。自去年底OpenAI开放ChatGPT之后,【【网址】】的数据就显示,美国89%的学生已经在作业里面使用ChatGPT了,48%的学生在考试或测验中使用过ChatGPT,而53%的学生使用ChatGPT来写论文。我没有办法想象,当ChatGPT的技术更成熟更普及之后,“获知结论”的成本速下降、变得比方便的时候,人类懒惰的本性会将我们进化到什么地方,“思考”这件事情的成本会变得有多高。并且,ChatGPT背后的安全隐患,不仅仅在对人们的认知建立上,以及抄袭作弊上,还有诈成本的迅速下降。02 解决安全漏洞:能用AI打败AI吗我前几天看到一个很有意思的评论说,“未来绝大部分人担心的不是被ChatGPT 替代,而是跟不上别人使用ChatGPT的能力”。其这不仅仅是使用ChatGPT的能力,更重要的是:使用AI的能力,识别AI的能力,以及用AI打败AI的能力。ChatGPT普及之后,其比较直接的危害之一就是诈成本的下降以及术的一个提升,举个例子:在ChatGPT之前,社会上的诈手法就已经很多了。邮件,短信,打电话,可以说是全方位轰炸。但是还好,一般子的文化程度不高,所以写出来的内容还是比较容易甄别的。比如说,比较近我们公司邮箱收到这样一封自称来自Netflix团队发来的合作邮件,那么这一看就很像钓鱼邮件对吧首先,邮箱不是Netflix的公司邮箱,这种后缀一般都有问题,其次,整个排版非常的不专业,还有就是各种标点符号、落款都不专业。但比较容易暴露的就是表达和语法错误,这一看就是一个英文很差的人写的。比如说这句话we look forward to discuss the details with you. 我忘了是初中还是高中学的这个用法,但是,但凡有能达到英文职场水平的都知道,look forward to后面应该加【【微信】】. 等等,通篇都是这样的英文错误。