chatgpt能看图吗 自己如何给chatgpt发图片
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
机器之心报道
编辑:张倩
从室温超导聊到《最后的晚餐》,这个能用图片聊天的类 ChatGPT 应用有点意思。
能用图片聊天的「ChatGPT」你用过吗?由于 OpenAI 目前给出的对话框只支持文字输入,所以在 ChatGPT 上,我们是无法体验到这种乐趣的。
但是,一个名为「元乘象 Chatlmg」的国产 AI 模型弥补了这一遗憾。它不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。
但受限于算力,目前该应用为邀请制访问方式。机器之心在获得邀请码后体验了一把。
元乘象初体验
给「元乘象 Chatlmg」一张「搭载火箭升空的大脑」的图像,它不仅能解读出图片的内容,还能给图片取标题并判断该场景在现实中是否合理。
甚至,它还能根据图片编个故事,而且编的故事往往比较积极、阳光:
可以想象一下,如果不知道这幅画的名字,我们要怎么才能得到这些答案?首先,我们要把图片输入搜索引擎,从而根据匹配结果得到画的名字,然后再拿着这个名字去搜想知道的信息。而且这些信息可能以大篇幅的形式弹出,需要你自己去找感兴趣的段落。而借助「元乘象 Chatlmg」,我们只需要上传图片、提问题就可以了。
而且,「元乘象 Chatlmg」的这些能力不止可以用来闲聊,还可以用来写搭配建议、商品文案、旅游宣传词…… 这些都是可以商业变现的场景。
虽然结果可能不能直接拿来用,但用作参考还是很实用的。
当然,如果你对结果不满意,还可以要求「元乘象 Chatlmg」重写,完整体验做甲方的感觉。
此外,我们还在测试过程中发现了一些有趣的现象。比如,如果「元乘象 Chatlmg」仅根据图像和文字线索回答不出你的问题,它会让你帮忙提供更多信息。在增加信息之后,它有可能给出正确答案。
除了解读图像内容,「元乘象 Chatlmg」在纯文字的聊天方面表现也很优秀。
背后的技术与团队
如今,大模型在 NLP 任务中取得了成功的应用。但真实世界的数据模态是多样的。在通用人工智能的发展过程中,多模态感知极为重要的一环,也是解锁大模型技术应用的关键。
据机器之心了解,「元乘象 Chatlmg」就是搭载了自研的百亿级别参数多模态大模型,从而能让我们像体验的那样能感知图片并进行对话。
简单介绍来说,目前元乘象 Chatlmg 大模型参数规模大概 150 亿;数据方面目前主要是图文对数据、VQA 数据等。而在训练过程中,该模型放开尽量少的可学习参数,从而保证在有限算力上的高效训练。
未来,除了当下的图文互动外,该模型还将集成图片生成的能力并加入视频、音频等多种模态,甚至与数字人等技术结合,开发出更生动立体的形象。
顺便透露一下,这个好玩的应用来自中国人民大学高瓴人工智能学院教授卢志武带领的团队。卢志武教授曾主导设计了首个公开的中文通用图文预训练模型文澜 BriVL,并发表于 【【微信】】。该模型经过 6.5 亿弱相关中文图文对的预训练,学习到独特的中文语义理解能力并能很好地将中文语义与视觉信息联系起来,尤其擅长读取中文独有的含蓄语义与图片中的抽象概念。
价值连城
快手“2023?增量效应”磁力大会在北京召开,聚焦释放商业新增量、全面增效客户价值两大方向,探索生意的确定性增长路径。快手高 级副总裁、商业化业务负责人王剑伟在会上表示, 2023 年,快手磁力引擎将通过商业流量扩容、商业流量提效、高价值流量产品化三大举措促进内容与商业的融合,提升快手流量对商业客户的价值。他在此次大会的圆桌论坛中指出, 2023 年品牌和更多广告主会在新的经济环境下重构经营策略,一方面重新注重品宣和内容在整体经营中的价值,通过品效销一体协同来取得结果,另一方面大家会把关注点从过去一段时间单纯关注数量转向提质增效,不管是营销的质量还是整体经营的质量。