淘优惠

淘优惠

chatgpt引发的大模型时代变革 chatgpt神经元

双十一活动 0
chatgpt官网,chatgpt怎么用,chatgpt中文,chatgpt使用
出chatgpt独享账号!内含5美元!仅需38元/个!独享永久使用!点击购买! 问:我要写一篇文章来介绍ChatGPT这种基于GPT模型的智能对话机器人,题目是揭秘ChatGPT――从人工神经元到大语言模型,你来写个开头第一段。ChatGPT:近年来,机器学习和人工智能技术取得了飞快的发展,其中之一是自然语言处理(NLP)技术。自然语言处理技术利用神经网络模型,可以帮助机器理解和生成自然语言文本。ChatGPT是一种基于GPT(Generati【【微信】】rmer)模型的智能对话机器人,它可以实现更真实的自然语言交互。本文将介绍ChatGPT的工作原理,从人工神经元到大规模语言模型,探索智能对话机器人背后的技术细节。

上面这段对话,是我和最近大火的ChatGPT之间的一个对话。管中窥豹,可见ChatGPT准确的理解能力,丰富的知识储备,和超乎一般人类的语言组织能力。让人不禁发问,强人工智能真的到来了吗?ChatGPT为什么如此智能?

问:什么是ChatGPT?ChatGPT:ChatGPT是一个由OpenAI训练的大型语言模型,它可以用自然语言理解和生成人类语言的能力与人类进行对话。ChatGPT是基于GPT(Generati【【微信】】rmer)模型架构构建的,它通过大量的自然语言文本训练得到广泛的语言知识,并可以根据上下文和语境来生成自然流畅的文本回复。ChatGPT被广泛用于各种自然语言处理任务,如问答系统、文本生成、机器翻译等,并且被许多公司和组织用于构建智能聊天机器人和虚拟助手等应用。

这里提到了大型语言模型和Transformer。Transformer是一种用来构建语言模型的神经网络模型。我们回到上个世纪中叶,从头了解神经网络模型的发展历程。

直接跳到下篇从Transformer开始的传送门:揭秘ChatGPT:从人工神经元到大语言模型(二) - 知乎 (zhihu.com)

人工神经元模型(1957, Rosenblatt)问:人工神经元的感知机模型最早是由谁提出来的?ChatGPT:感知机模型最早由罗森布拉特(Frank Rosenblatt)在1957年提出。罗森布拉特是一位神经生理学家和计算机科学家,他早期的研究工作主要集中在神经元的功能和神经网络的计算模型方面。罗森布拉特的感知机模型基于神经元的结构和功能,用于解决二元分类问题。它由多个输入信号、一个加权和以及一个阈值函数组成,输入信号通过加权和的运算后,与阈值进行比较,产生输出信号。这种简单的模型可以对输入的数据进行线性分类,从而对一些简单的问题进行处理。感知机模型的提出,标志着人工智能领域中神经网络的开始,为后来的神经网络算法的发展奠定了基础。Frank Rosenblatt 在1957年的论文中设计的人工神经元(感知机)的连接单元和响应单元

Frank Rosenblatt 在1957年发表了感知机的论文[1]。这是用来模拟生物神经元信息处理功能的第一个模型,掀起了神经网络模型的第一次热潮。当时计算机刚刚出现,并不是现代意义上的基于大规模集成电路、用高级计算机语言编程的计算机。感知机是以模拟电路的形式设计出来的。它可以对输入做出反应,通过反复刺激可以强化某种输入输出的组合,从而实现学习的能力。当时《纽约时报》报道称,感知器将能够行走、说话、读写、自我复制,并具有自我意识。这个言过其实、夸大其词的报道反映出人们当时高涨的热情和期待。半个世纪过去了,我们终于实现了能够像人一样行走、说话和读写的智能机器,然而,自我复制和自我意识看起来还有很远的距离。

当时,人工智能学者们很快冷静下来,随后进行了数学论证,发现人工神经元只能处理线性分类问题,也就是说,输入输出之间的关系只能单调的正相关或者负相关,这极大的限制了人工神经元的功能,大量现实问题都是非线性的,无法被人工神经元学习和处理。虽然研究发现将多层神经元进行叠加连接可以处理非线性问题,但是由于没有找到合适的学习算法,研究进入低谷期。这个低谷期持续了近30年,这一时期占统治地位的是以规则和形式逻辑推理为基础的专家系统,也就是人工智能早期的符号主义这个分支,以神经元模型为代表的联结主义式微。

反向传播算法(1986, Hinton)问:反向传播算法是谁发明的?ChatGPT:反向传播算法由Geoffrey Hinton、Da【【微信】】和Ronald Williams于1986年发明。

Geoffrey Hinton带领的研究团队在1986年发表了反向传播算法,解决了多层神经网络的训练问题[2]。这个算法是深度学习中关键的梯度下降优化器的前身,也是梯度下降法在多层前馈神经网络这个特殊结构上的表达形式,稍加推广,就可以适用于各种不同的网络结构。它可以看作在高维空间中沿着崎岖不平的山路寻找下山路径的过程,山的高低起伏代表着神经网络的误差,不同位置代表着模型参数的不同取值,要找到误差最小的模型参数,就要找到山谷的最低点。

梯度下降示意图(https://easyai.tech/en/ai-definition/gradient-descent/)

由于在深度学习和人工智能领域杰出的贡献,Hinton和Yoshua 【【微信】】ann LeCun三人一起获得了2018年的图灵奖。其中,LeCun 在1989年提出了卷积神经网络模型 (CNN, Con【【微信】】ork)[3],这项工作奠定了深度学习在图像处理领域的基础。Hinton 团队2012年发表的 AlexNet[4] 使用 GPU 训练了一个由多层 CNN 组成的深度神经网络用于图像分类,该模型成为了开启图像处理的深度学习时代的里程碑。

Hinton在31岁取得博士学位,39岁发表了反向传播算法。由于90年代计算机算力不足,神经网络模型并没有机会进入主流,一些对算力和数据量要求不高的算法,比如支持向量机占据着主导地位。然而 Hinton 始终坚守着神经网络这个方向,在65岁指导学生完成了具有里程碑意义的AlexNet。当然,这也得益于游戏和视频动画产业推动GPU算力的不断提升,以及互联网兴起后不断积累的数据。

神经语言模型(2003, Bengio)语言模型描述了单词组成合理句子的概率(图自Bengio 2003)

Yoshua Bengio 在2003年发表的模型是第一个显著优于传统n-gram方法的神经网络语言模型[5]。当时采用了两个数据集,Brown数据集包含大约118万词,词汇表大小是16383;AP News数据集稍大一些,含有1400万词,词汇表大小为17964。这个数据规模跟现在的模型比显得非常小,但是用当时的CPU也要训练很长时间。论文报告说,在AP News数据集上,采用40个CPU训练5轮,花了三周时间。

语言模型,描述了在自然语言中词汇组成合理句子的概率关系,简单来说,就是给出一个由词汇组成的序列,评估它是不是一个合理的句子。比如,小朋友咿呀学语的时候说出的话,是合理句子的概率就很低:P(咿呀呀)=0.01;而正确的句子概率就很高:P(山东省会是济南)=0.99。通常这个问题可以稍加简化,变成预测一个不完整的句子中下一个词是什么的概率,比如P(下一个|山东省会)=0.13,虽然看起来不怎么对,但是也有一定概率出现,比如说,知乎推了一个热门问题:“山东省会是下一个东北吗”。

传统方法用n-gram来描述自然语言模型,n就代表着上文的长度,受限于统计的复杂度,n通常只有3左右,显然3个词能够带来的上下文语义信息太过于单薄了。Bengio的方法采用了三层神经网络来描述下一个词的概率,使得采用更长的上文作为语境信息成为可能。

Word2Vec 词嵌入模型(2013, Tomas Mikolov)

【【微信】】 模型[6][7]真正启动了自然语言处理 (NLP) 的深度学习时代。Mikolov 最初在微软研究院发表了这项工作,后来到 【【微信】】 后发表了同样的工作。在 【【微信】】 发表的论文作者列表最后,我们看到了 Jeffrey Dean,他是著名的 Map-Reduce [8]的作者,提出了分布式数据处理的基本框架,开启了整个“大数据”时代。他也是最早投入到“大型语言模型”(LLM, large language model) [9]的研究者之一,他在 2007 年的工作中,将 Map-Reduce 用于处理机器翻译所需的n-gram自然语言模型,使模型能够利用的数据集达到了2万亿 (2 trillion) token (自然语言模型中对“词”的抽象表示)。然而,单纯增大数据量并不能直接带来相应的性能提升,模型的表达力也是一个关键的因素,n-gram模型显然不能承载足够的表达能力。

【【微信】】 实际上是若干个构造稍有差异的模型的集合,论文采用的 【【微信】】 News 数据集包含60亿 (6B) 词,在一个叫做DistBelief的框架上进行并发训练,模型训练耗时分别是180个CPU 14天(NNLM),140个CPU 2天(CBOW),125个CPU 2.5天(Skip-gram)。模型可以将词映射到向量,论文中分别尝试了20到600不等的向量长度。论文得出了一个非常有趣的结论,这些向量之间的加减法计算,可以映射出词和词之间的语义关系,也就是所谓的 linguistic regularity。

词的语义关系可以表达为向量计算

【【微信】】 因此也称为“词嵌入”(embedding),把词嵌入到带有语义信息的高维空间中成为可能,进一步的,把短语和句子嵌入到高维空间中成为可能。这为神经网络处理自然语言奠定了非常坚实的基础,因为神经网络最擅长的就是对高维空间中的数据点进行各种操作。

Mikolov 论文中展示了更多的具有向量计算关系的词Seq2Seq 模型(2014, 【【微信】】)

Seq2seq[10] 采用了由 LSTM (Long Short Term Memory) [11]组成的循环神经网络 (RNN, Recursi【【微信】】) 。循环神经网络可以把这一轮的输出作为下一轮的输入,采用这种方式网络就有了一定的“记忆力”,能够把一部分“记忆”信息不断的传递下去。我们可以把一句话中的词逐个输入到循环神经网络中,让它不断修正输出结果,使得最终的输出结果指向这句话在语义空间中的位置。这样就实现了从“词嵌入”到“句子嵌入”的跃迁。实验表明,相似语义的句子在语义空间中的位置也是相近的。

相似的句子在语义空间中映射到相近的位置

这个把句子嵌入到向量空间的过程,成为“编码”。编码器是 Seq2seq 的前半段,后半段就是“解码”,把语义空间中的一个点,重新展开为自然语言的一句话。编码器和解码器组合在一起,就实现了从“序列”到“序列”的变换,利用这个变换,可以完成机器翻译、语音到文字、文字到语音等各种自然语言任务。单独使用编码器或者解码器,也可以完成很多其他任务。

编码器、解码器组合实现的任务编码器+解码器机器翻译、问答系统、文本和语音之间的转换编码器+分类器智能客服(识别用户意图)、识别垃圾邮件、识别电信*编码器+图像生成网络根据文字描述生成图片图像识别网络+解码器根据图片生成文字描述Seq2seq模型中的编码器和解码器

Seq2seq采用的训练数据包含3.48亿法语单词和3.04亿英语单词,网络包含4层LSTM,共1000个单元,句子表示为8000个实数,模型的参数规模为3.84亿(384M),训练在8个GPU的机器上运行了10天。

一切看起来似乎已经很完美了,各种任务都可以完成用编码器和解码器完成。然而,循环神经网络面临这两个困难:(1)所有的信息都要嵌入到一个向量里面,一个向量能够承载的信息太有限了,网络的记忆力总不是那么好,很难处理自然语言中距离较长的以来关系,比如代词的指代关系、连接词表达的不同句子之间的关系;(2)循环神经网络的计算过程是序列化的,无法充分发挥GPU并行计算的能力。

Transformer 你只需要注意力(2017, 【【微信】】)

这篇论文很像标题党:Attention is all you need[12],但是不得不说,它确实引起了一场大变革。

Transformer 网络的编码器和解码器结构示意图

Transformer 网络的结构图从此开始出现在各种论文里,包括现在火热的 GPT。它给了处理序列数据一个全新的方案,不需要循环神经网络,可以并行计算。很多后续的工作受到了它的启发,在生命科学和药物研发领域引起新一轮风暴的 AlphaFold 也是基于 Transformer的,甚至在图像处理的领域,Transformer 也开始撼动卷积神经网络 (CNN) 占据了近三十年的核心地位。

未完待续,下篇请见:揭秘ChatGPT:从人工神经元到大语言模型(二) - 知乎 (zhihu.com)

插个广告:《机器学习入门:数学原理解析及算法实践》(董政)【摘要 书评 试读】- 京东图书 (jd.com)

参考^【【淘密令】】. The perceptronCa perci【【微信】】tomation. Report 85-460-1 Cornell Aeronautical Laboratory, Ithaca, Tech. Rep., 1957^Da【【微信】】, Geoffrey E Hinton, and Ronald J Williams. Learning representations by back-propagating errors. nature, 323(6088):533C 536, 1986^ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1(4):541C551, Winter 1989^Krizhevsky, Alex; 【【微信】】, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep con【【微信】】orks" (PDF). Communications of the ACM. 60 (6): 84C90. doi:10.1145/3065386^【【微信】】, Ducharme R, 【【微信】】. A neural probabilistic language model[J]. Ad【【微信】】ation processing systems, 2000, 13.^Mikolov T, Chen K, 【【微信】】, et al. Efficient estimation of word representations in 【【微信】】[J]. arXiv preprint arXiv:1301.3781, 2013.^Mikolov T, Yih W, 【【微信】】. Linguistic regularities in continuous space word representations[C]//Proceedings of the 2013 conference of the north american chapter of the association for computational linguistics: Human language technologies. 2013: 746-751.^Dean, Jeffrey, and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.^Brants T, Popat A C, Xu P, et al. Large language models in machine translation[J]. 2007.^【【微信】】 I, 【【微信】】, Le Q V. Sequence to sequence learning with neural networks[J]. Ad【【微信】】ation processing systems, 2014, 27.^Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735. ^【【微信】】, Ashish, et al. "Attention is all you need." Ad【【微信】】ation processing systems 30 (2017).
【本文地址】

投资者提问:贵司说即将推出ChatGPT,请问是哪方面内容的ChatGPT...

投资者提问多久回答,投资者提问平台,投资者提问:自有品牌,投资者提问:未来

董秘回答(蓝色光标SZ300058):

您好,蓝色光标旗下蓝标传媒已正式宣布与微软广告达成战略合作,并成为其官方代理商;同时,公司将与微软开展基于【【微信】】的技术产品合作,通过敏锐地洞察与过硬的实力使更多出海客户享受到AI发展的红利。出海客户有望通过集成在New Bing中的ChatGPT功能,与海外消费者进行更好的互动。出海企业打开新数字营销的魔盒后,可以更快的享受AI带来的营销效率升级、虚实结合的内容拓展与实时交互的新型体验,从而将传媒时代推向智媒时代。AIGC的兴起亦会加速元宇宙使用场景的落地。蓝标传媒将在国际元宇宙团队设立“出海AIGC中心”,加速AIGC赋能各项出海服务的业务需求,帮助客户Think with AI, Win with AI ! 未来,蓝标将与微软在AIGC领域不断碰撞出新的火花,突破各类营销圈层,赋能科技智媒深入人心。谢谢!