淘优惠

淘优惠

ai智能图像分析 ai识别长大后的样子

热门文章 0
ai智能图像识别,ai智能图像识别app,ai智能的图片,ai智能图像识别原理

人工智能的世界到底是什么样子的?

几十年来,研究人员一直对此感到困惑,但近年来,这个问题变得愈加紧迫。机器视觉系统正被越来越多地应用于生活的各个领域,从医疗保健到自动驾驶。

但通过机器的眼睛“看”世界,仍然是一个不小的挑战,比如我们该怎么理解为什么它把有些人归为行人,而把有些人归为路标。如果我们无法做到这一点,就有可能会造成严重的,甚至是致命的后果。比如前段时间已经发生的,自动驾驶汽车撞上行人致死的事件。

虽然,神经网络在识别图像中的物体等任务上取得了巨大的成功,但它们是如何做到的在很大程度上仍是一个谜。它们的内部工作方式被屏蔽,隐藏在层层计算中,不让人看到,使得人类很难诊断错误或偏差。

来自谷歌和非盈利实验室open Ai的新研究希望通过绘制系统来了解世界的视觉数据,进一步撬开人工智能视觉的黑匣子。

这种被称为“激活图集”的方法,可以让研究人员分析出各个算法的工作原理,不仅能揭示它们识别的抽象形状、颜色和模式,还揭示了它们如何结合这些元素来识别特定的对象、动物和场景。

这项工作的主要研究者,谷歌的Shan Carter说,如果以前的研究就像在算法的视觉字母表中显示单个字母,那么激活图集提供了一个更接近整个词典的东西,它显示出字母是如何组合成实际单词的。卡特说:“例如,在像‘鲨鱼’这样的图像中,会由很多激活码构成,比如‘牙齿’和‘水’。”

虽然这不一定是一个巨大的突破,但它是在被称为“功能可视化”的更广泛的研究领域向前迈出的一步。佐治亚理工大学的博士生Ramprasaath Selvaraju表示,这项研究“非常吸引人”,并结合了许多现有的想法,创造了一个新的极其有用的工具。

Selvaraju说,这样的工作将有很多用途,帮助我们建立更高效和先进的算法,并通过让研究人员深入研究来提高安全性和消除偏差。“由于神经网络固有的复杂性,它们有时缺乏可解释性,”但他说,在未来,当网络被广泛用于自动驾驶汽车和引导机器人时,这将是必不可少的一步。Open Ai的Chris Olah也参与了这个项目,他说:“这有点像制作显微镜。至少,这是我们所设想的。”

要了解激活图集和其他功能可视化工具的工作原理,首先需要了解一点人工智能系统如何识别对象。实现这一点的基本方法是使用神经网络:一种与人脑大致相似的计算结构(尽管它在复杂程度上落后了一个光年)。

每一个神经网络内部都是人工神经元层,它们像网一样连接在一起。就像你大脑中的细胞一样,这些细胞会响应刺激,这一过程称成为激活。重要的是,它们不仅可以启动或关闭,它们可以在一个频谱上注册,给每个激活一个特定的值或“权重”。

要把神经网络变成有用的东西,你必须给它大量的训练数据。这意味着数十万甚至数百万张图像,每一张都标有特定的类别。在谷歌和Openai的研究人员为这项工作测试的过程中,这些图像涉及面广泛:从羊毛到温莎领带,从安全带到空间加热器。

当它输入这些数据时,神经网络中的不同神经元会响应每个图像而亮起。此模式连接到图像的标签。一旦经过训练后,您就可以向网络展示一张以前它从未见过的图片,并且神经元将激活,将输入内容与特定类别相匹配。恭喜你!刚刚成功训练了机器学习视觉算法。

这让研究人员可以观察到网络的一些情况,通过在不同信息层之间切换,他们可以看到网络是如何从构建到最终决策的,从形状和纹理等基本视觉概念开始到具体的对象。

例如,Olah注意到,狗的品种在很大程度上是以耳朵的下垂程度来区分的。图集还展示了网络是如何联系不同的物体和想法的,比如说,把狗耳朵放在离猫耳朵不太远的地方,看随着层级的发展,这些区别是如何变得清晰的。

该研究还发现了一些惊喜,例如,Olah拍摄了一张鱼鳍的照片,一条鱼鳍划过了汹涌的海水,那么它到底是属于灰鲸还是大白鲨?作为一个没有钓鱼经验的人,我不会冒险猜测,但是作为曾经看到过大量鲨鱼和鲸鱼鳍的神经网络不应该有问题。

然后Olah展示了在神经网络的特定层面上与两只动物相关的图集图像,但其中一个鲨鱼图像特别奇怪。如果你仔细一看,你可能会看到一排排洁白的牙齿和牙龈,样子却同棒球的接缝十分相似。

事实证明,他们研究的神经网络也有这样的视觉隐喻的天赋,这可以作为愚弄系统的廉价技巧。通过改变鱼鳍照片,比如说,在一个角落放置一个棒球邮票图像,Carter和Olah发现可以很容易地说服神经网络鲸鱼实际上是一条鲨鱼。

Olah说,这种方法不太可能被网络破坏者所使用,因为其实有更简单更微妙的方式来制造混乱。比如他们可以自动生成所谓的对抗性补丁,使网络混淆,把猫当作是一碗鳄梨酱,甚至导致自动驾驶汽车误读停止标志。

但令人兴奋的是,有了这个工具,人类可以充分了解网络的内部深度,使得它最终帮助我们识别混淆或偏差,并及时纠正。

但是错误也是时有发生的,比如说,把不同种族的人类识别成大猩猩而非人。有了这样的可视化工具,研究人员可以查看是什么外来信息或视觉相似性导致了错误的发生。

也就是说,试图预测神经网络的内核是存在风险的。“人们常常担心你可能在欺骗你自己,”奥拉说,风险在于我们可能试图强加我们熟悉的视觉概念或寻找有意义的简单解释。

这就是包括人工智能先驱Hinton在内的一些人物一直反对人类解释AI运作规律的原因之一,正如人类无法解释他们的大脑如何做出决定一样,计算机也是同样。他最近在接受WIRED采访时说道:“如果你非要要求他们解释所做的决定,你就会强迫他们编造一个故事。”

虽然争议不断,但“激活图集”的研究者们始终认为:每一代新工具的研发都在让我们更接近这些在网络中发生事情的真相。


chatgpt 应用了哪些人工智能技术 chatgpt人工智能有多厉害

chatgpt官网,chatgpt怎么用,chatgpt中文,chatgpt概念股

古希腊神话中,一位名叫赫尔墨斯的神,会充当人神之间的信使,穿着带有双翼的飞鞋,行走在神明与人类之间。

根据《荷马史诗》的记载:“在天神中,赫尔墨斯是最喜欢引导凡人前行的。”这句话用来形容 OpenAI 与 AI 的关系,虽不中亦不远矣。

上一周,OpenAI 打造的 ChatGPT 出尽风头,成为国内外 AI 领域的头号热门话题。关于 ChatGPT 的对话能力,大家可能已经通过很多文章感受过了。简单总结,就是对答如流,无所不能,可替程序员写代码,可替商务人士出方案,还能替作家编故事。一度让久违的 “谷歌已死”“XX 职业又要被 AI 取代了”之类的 AI 威胁论说辞,开始大量出现了。

关于 ChatGPT 的神奇之处,看多了也有点审美疲劳了,冷静下来思考一下:

为什么同样是 AIGC,问答、对话这类 NLP 领域应用更容易引起轰动,激发人们对通用人工智能的希望?

为什么同样是预训练模型,相比 BERT、GPT3 等前辈,ChatGPT 的对话能力产生了质的飞跃?

为什么同样是做 AI,OpenAI 要死磕 NLP,从 GPT1 到 ChatGPT 不断迭代?

OpenAI 的 CEO、联合创始人 Sam Altman 曾说过一句话:“Trust the exponential,Flat looking backwards,vertical looking forwards”,相信指数的力量,平行地向后看,垂直地向前看。ChatGPT 出现代表着,AI 似乎已经站到了指数级飞跃的关键点上。但起飞的 ChatGPT,并不是一蹴而就的。

从 GPT 到 ChatGPT,恰好代表了 OpenAI 在大模型领域切实走过的历程,从中可以看到,OpenAI 在 AI 大模型竞争中,已经探索出了一条属于自己的道路,就如同赫尔墨斯一样,成为引领 AI 技术前进的使者。

如果 OpenAI 是传递 AI 前沿进展的赫尔墨斯,ChatGPT 就是那双带着双翼的金丝鞋。我们既要关注 ChatGPT 这双鞋究竟有多神奇,更有必要搞懂,OpenAI 选择的这条大模型道路有何玄机。

今天,中国科技企业与研究机构都在积极投布局大模型,求术不如问道,我们不妨从 GPT 这一系列模型的演变历程,望向 OpenAI 关于 AI 与大模型的战略思考与发展脉络。

OpenAI 在博客中写道,ChatGPT 是从 GPT3.5 系列中的模型进行微调而诞生的。

正如名称中所暗示的那样,GPT- 3.5 是 OpenAI 设计的一系列 NLP 模型中的第四个,此前还出现了 GPT – 1、GPT – 2 和 GPT – 3。

在 GPT 出现之前,NLP 模型主要是基于针对特定任务的大量标注数据进行训练。这会导致一些限制:

大规模高质量的标注数据不易获得;

模型仅限于所接受的训练,泛化能力不足;

无法执行开箱即用的任务,限制了模型的落地应用。

为了克服这些问题,OpenAI 走上了预训练大模型的道路。从 GPT1 到 ChatGPT,就是一个预训练模型越来越大、效果越来越强的过程。当然,OpenAI 的实现方式并不只是“大力出奇迹”那么简单。

第一代:从有监督到无监督 GPT-1。2018 年,OpenAI 推出了第一代生成式预训练模型 GPT-1,此前,NLP 任务需要通过大规模数据集来进行有监督的学习,需要成本高昂的数据标注工作,GPT-1 的关键特征是:半监督学习。先用无监督学习的预训练,在 8 个 GPU 上花费 了 1 个月的时间,从大量未标注数据中增强 AI 系统的语言能力,获得大量知识,然后进行有监督的微调,与大型数据集集成来提高系统在 NLP 任务中的性能。

GPT-1 的效果明显,只需要极少的微调,就可以增强 NLP 模型的能力,减少对资源和数据的需求。同时,GPT-1 也存在明显的问题,一是数据局限性,GPT-1 是在互联网上的书籍和文本上训练的,对世界的认识不够完整和准确;二是泛化性依然不足,在一些任务上性能表现就会下降。

第二代:更大更高更强的 GPT-2。2019 年推出的 GPT-2,与 GPT-1 并没有本质上的不同(注意这一点),架构相同,使用了更大的数据集 WebText,大约有 40 GB 的文本数据、800 万个文档,并为模型添加了更多参数(达到惊人的 15 亿个参数),来提高模型的准确性,可以说是加强版或臃肿版的 GPT-1。

GPT-2 的出现,进一步证明了无监督学习的价值,以及预训练模型在下游 NLP 任务中的广泛成功,已经开始达到图灵测试的要求,有研究表示,GPT-2 生成的文本几乎与《纽约时报》的真实文章(83%)一样令人信服。

(GPT-2 表现)

第三代:跨越式进步的 GPT-3。2020 年,GPT-3 的这次迭代,出现了重大的飞跃,成为与 GPT-2 迥然不同的物种。

首先,GPT-3 的体量空前庞大,拥有超过 1750 亿个参数,是 GPT-2 的 117 倍;其次,GPT-3 不需要微调,它可以识别到数据中隐藏的含义,并运用此前训练获得的知识,来执行下游任务。这意味着,哪怕从来没有接触过的示例,GPT-3 就能理解并提供不错的表现。因此,GPT-3 也在商业应用上表现出了极高的稳定性和实用性,通过云上的 API 访问来实现商业化。这种入得了实验室、下得了车间的能力,使得 GPT-3 成为 2020 年 AI 领域最惊艳的模型之一。

当然,GPT-3 也并不完美。正如联合创始人 Sam Altman 所说,GPT-3 的水平仍处于早期阶段,有时候也会犯非常愚蠢的错误,我们距离真正的人工智能世界还有很长的距离。另外,GPT-3 API 的很多基础模型非常庞大,需要大量的专业知识和性能优异的机器,这使得中小企业或个人开发者使用起来比较困难。

第四代:基于理解而生成的 ChatGPT。终于在 2022 年,OpenAI 的预训练语言模型之路,又出现了颠覆式的迭代,产生了技术路线上的又一次方向性变化:基于人工标注数据 + 强化学习的推理和生成。

前面提到,一开始预训练模型的出现,是为了减少监督学习对高质量标注数据的依赖。而 ChatGPT 在 GPT -3.5 大规模语言模型的基础上,又开始依托大量人工标注数据(据说 OpenAI 找了 40 个博士来标数据),这怎么又走回监督学习的“老路”了呢?

原因是,GPT 3.5 虽然很强,但无法理解人类指令的含义(比如写一段博文、改一段代码),无法判断输入,自然也就很难给出高质量的输出答案。所以 OpenAI 通过专业的标注人员(据说是 40 个博士)来写词条,给出相应指令 / 问题的高质量答案,在基于这些数据来调整 GPT -3.5 的参数,从而让 GPT -3.5 具备了理解人类指令的能力。

在人工标注训练数据的基础上,再使用强化学习来增强预训练模型的能力。强化学习,简单理解就是做对了奖励、做错了惩罚,不断根据系统的打分来更新参数,从而产生越来越高质量的回答。所以这几天很多人在互动中发现,ChatGPT 会承认错误、会修改自己的答复,这正是因为它具备从人类的反馈中强化学习并重新思考的能力。

因为 ChatGPT 具备了理解能力,所以才被看作是通向通用人工智能 AGI 的路径。

当然,ChatGPT 也并不是完美进化体。OpenAI 的官网明确提示,ChatGPT“可能偶尔会生成不正确的信息”,并且“对 2021 年之后的世界和事件的了解有限”。一些比较难的知识,比如“红楼梦讲了什么”,ChatGPT 会一本正经地胡说八道。

从 GPT 模型的演进和迭代中,可以看到 OpenAI 是不断朝着自然语言理解这一目标前进,用更大的模型、更先进的架构,最终为通用人工智能找到了一条路径。

从 GPT-1 到 ChatGPT 的纵向演变,会看到 OpenAI 对大模型的独特理解与技术脉络 ―― 通过模型预训练提升 NLP 指标,抵达强人工智能。NLP 领域究竟特殊在哪里,值得 OpenAI 如此执着?

前文中不难看出,OpenAI 对于文本生成模型的执着,因为做够得久、投入够多,所以能够做得更好,是非常有长期战略定力的。

与之相比,和 GPT-1 同年推出的预训练模型,还有谷歌发布的 BERT,但后者在火爆一段时间之后影响力明显减弱;而 NLP 问答领域一向由 Meta 引领,Meta AI 的 OPT 模型和 GPT-3 达到了同等的参数量,但效果就不如 OpenAI。同期选手中,OpenAI 对于语言模型的用心显然是更多的。

一方面是资源投入,无论是越来越大的模型,需要消耗庞大的算力资源,ChatGPT 所需要的高质量标注数据,依靠博士级别的专业人士来完成,比起将数据标注任务分发给众包平台,显然会消耗更多的人力和财力。

另一方面,是技术投入,大规模预训练、增强学习等技术都用在提升 NLP 对话系统在开放通用领域上的理解和推理能力。NLP 是认知智能,要提升就必须解决知识依赖,而知识又是非常离散且难以表示的,要解决带标数据不足、常识知识不足等问题,是非常具有技术挑战的。多年前 IBM 的 Frederick Jelinek 就说过:“每当我开除一个语言学家,语音识别系统的性能就会改善一些。”颇有种“解决不了问题,就解决提出问题的人”的既视感。所以也可以说,OpenAI 选择了一条更难走的路,去解决真正困难的问题。

此外,聚焦 NLP 领域也意味着 OpenAI 会承担隐形的机会成本。

今年 AIGC(AI 生成内容)在资本市场和应用市场都有很大的进展,与 AI 作画、音视频生成、AlphaFold2 所解决的蛋白质结构预测等生成任务相比,NLP 任务都是直接用词汇和符号来表达概念,此类模型通过“API + 云服务”来完成商业化服务,无论是云资源的消耗量还是接口调用服务收费,所获得的收益也是远不及图像音视频或科学计算的。拿同样的精力做十个八个 Dalle 模型,肯定能赚得更多。

科技博主王咏刚在博客中分享了一个故事,称与 OpenAI 的两位联合创始人交流,发现这二人甚至不知道 AIGC 是什么意思!

说到这里,或许可以得出结论,OpenAI 作为一个旨在“实现安全的通用人工智能 (AGI)”的公司,就是在不计投入、不计商业回报,专心致志地通过过预训练大模型来提升 NLP 任务的各项指标,从而接近 AGI 的愿景。

为什么 OpenAI 能够走出这条引领潮流的大模型差异化之路呢?

一方面是 NLP 的特殊之处。

NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。通用人工智能必须具备认知智能,这也是目前制约人工智能取得更大突破和更广泛应用的关键瓶颈,而 NLP 正是认知智能的核心。Geoffrey Hinton、Yann LeCun 都曾说过类似的观点,深度学习的下一个大的进展,应该是让神经网络真正理解文档的内容。

也就是说,当 AI 能理解自然语言了,AGI 可能就实现了。

另外,OpenAI 的运行模式也起到了关键的影响。

突破性创新早期需要大量的投入,大模型的开发需要大量的基础设施投入,而 ChatGPT 的对话系统短期内很难靠调用量的规模化来摊平研发成本。因此,OpenAI 是一个非营利性研究机构,没有迫切的商业化压力,因此可以更专注于 NLP 领域的基础研究,这是商业型 AI 公司所很难实现的。

2011 年,自然语言领域的泰斗肯尼斯?丘吉 (Kenneth Church) 发表了一篇长文《钟摆摆得太远》(A Pendulum Swung Too Far),其中提到:我们这一代学者赶上了经验主义的黄金时代,把唾手可得的低枝果实采摘下来,留给下一代的都是“难啃的硬骨头”。

深度学习是经验主义的一个新高峰,而这个领域的低枝果实也总有摘完的一天,近年来有大量 AI 科学家发出警告,深度学习面临很多局限性,单纯用深度学习很难解决一些复杂任务,或许不用太久,基础性突破就会成为 AI 产业的重要支撑。

GPT 的演进也说明了,AI 的突破需要循序渐进、从小到大地一步步实现,今天,每家 AI 企业和研究机构都在做大模型,相比 CV 计算机视觉、数字人、元宇宙等 AI 应用,NLP 要显得暗淡很多。而如果一窝蜂去摘容易的果实,最终会制约 AI 深入产业的脚步。

ChatGPT 的出现提醒我们,唯有啃下基础领域的硬骨头,才能真正为 AI 带来质变。

本文来自微信公众号:脑极体 (ID:unity007),作者:藏狐


高中政治:老师说一轮复习不要忽略了选择题,拿满分也是可以得天下的

高中政治一轮课堂讲义,政治高三一轮怎么记笔记
就在前段时间,我国发出了一个重磅消息,让全世界都感到震惊,那就是我国宣布引雷实验成功,这一项技术只有我国拥有,要知道雷电的高流电压是非常大的,其它国家都避雷,只有我国反其道而行,并且我国还打算把它变成生活用电,这样的话,每一年我国能够节省不少的能源,那我国究竟是怎样做到的?众所周知,雷电的威力是非常巨大的,并且雷电产生的温度也很高,根据相关科学数据显示,雷电产生的温度最高能够达到8426.6摄氏度,这是一个什么概念?要知道太阳的表面温度都只有它的二分之一这么高,人类想要研究明白雷电也非常的困难,因为雷电来