#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世 、今生)
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世、今生)
- 目录
- 0、 前言
- 1、什么是GPT
- 2、GPT之技术演进时间线
- 3、GPT之T-Transformer(2017)
- 3.1、重点在好,还是重点在人?
- 3.2、对不起,你是个好人
- 3.3、回归正题,Transfomer是什么
- 3.4、论文中对attention和Transfomer的价值描述
- 3.5、Transformer机制的深远意义
- 4、GPT(Generative Pre-Training)-2018年6月
- 4.1、GPT模型的核心主张1-预训练(pre-training)
- 4.2、GPT模型的核心主张2-生成式(Generative)
- 4.3、GPT相比原版Transfomer的模型改进
- 4.4、GPT模型的训练规模
- 5、GPT-2(2019年2月)
- 5.1、GPT-2模型相比GPT-1的核心变化
- 5.2、为什么这么调整?试图解决zero-shot问题
- 5.3、multitask多任务如何理解?
- 5.4、GPT-2的数据和训练规模
- 6、GPT-3(2020年5月)
- 6.1、GPT-3的突破式效果进展
- 6.2、GPT-3相比GPT-2的核心变化
- 6.3、GPT-3的训练规模
- 7、Instruction GPT(2022年2月)
- 7.1、Instruction GPT相比GPT-3的核心变化
- 7.2、Insctruction GPT的核心训练步骤
- 7.3、Instruction GPT的训练规模
- 8、ChatGPT(2022年11月)
- 8.1、ChatGPT和Instruction GPT
- 8.2、【重要,建议浏览下面推荐的视频】从人的直观理解上,补充解释一下ChatGPT的核心原理
- 9、小结
- 10、未来将来(GPT-4 or ?)
- 部分参考资料
11月30日,OpenAI推出了一个名为ChatGPT的AI聊天机器人,可以供公众免费测试,短短几天就火爆全网。
从头条、公众号上多个宣传来看,它既能写代码、查BUG,还能写小说、写游戏策划,包括向学校写申请书等,貌似无所不能。
本着科(好)学(奇)的精神,抽了一些时间对ChatGPT进行了了测试验证,并且 **梳理了一下ChatGPT为什么能这么"强"**。
最终,关于ChatGPT本次会分为两篇:
AI-001-火爆全网的聊天机器人ChatGPT能做什么
《AI-002-理解ChatGPT的技术逻辑及演进》
由于笔者并没有专业学过AI,同时精力受限,所以 短时间内就不会再有AI-003类似更深入到技术的篇章了,了解 001、002就已经超出普通吃瓜群众的范畴了。
本篇会有较多技术名词,我会尽量降低其理解难度。
同时,由于非AI专业出身,如有错漏、敬请指出。
致谢:非常感谢X同学、Z同学两位大牛的审稿,尤其感谢X同学的专业性堪误
里面有两个词,一个是,指的是可以对话聊天。另外一个词,就是。
- 阅 读 推 荐 -这些报道,向世界传播了12·13历史真相!“CPU 大冤种 栓Q”:2022年“十大网络流行语”“十大网络热议语”发布 12月初,人工智能实验室OpenAI发布了一款名为ChatGPT的自然语言生成式模型,由于它能接住并解答网友的许多刁钻问题,一经问世就迅速引发关注,上线5天后,其体验用户已经突破100万。12月4日,马斯克在咨询该聊天机器人关于推特经营的建议并收到精准回复后直言其“好得吓人,我们距离强大到危险的人工智能更近了”。 12月8日,新京报记者体验了ChatGPT。记者发现,相比市面上其他聊天机器人,ChatGPT的功能更加多样,例如它可以按照要求写诗、写讲话稿、新闻稿甚至写代码。此外,该聊天机器人的回答更为严谨,面对许多高难度问题,ChatGPT会老老实实回答“缺乏资料”或者“我只是一个语言模型”。 东吴证券发布研报称,从受众和技术上看,ChatGPT在AI文字交互模型领域十分突出。与此前的模型相比,ChatGPT亮点主要包括:全面免费开发,用户只需输入文字,就可免费调用完成各种事情(如数学计算、debug、写信、生活问题解答等),实感体验为广泛讨论创造土壤;新增代码理解和生成能力,彰显技术实力的同时也拓宽了应用场景;加入道德原则。RLHF(一种通过人类反馈来强化学习的新技术)训练方式使ChatGPT能够识别恶意信息,识别后拒绝给出有效回答;支持连续对话等,“总体上,ChatGPT对话效果令人满意,新鲜感与实用价值使其快速走红。” ChatGPT:让你的聊天更有智慧 读研的时候,方向是自然语言处理,毕业论文课题是问答系统。问答系统研究的终点是:只要输入想问的问题,系统直接给出想要的答案。工业界最相关的就是搜索引擎和智能客服,前者给出最相关的网址or网页地址列表,相关度越高,排序越靠前;后者给出最相关的预置答案。二者本质上都属于文本匹配和排序,即时当时最火的深度学习模型,也是在这个框架内。其最大的亮点是文本的向量化表示(representation),在高维空间中,语义越相近的文本对应的向量,其空间距离越近。这种end2end的可快速工程化的方法,效果超越传统的基于文本特征的pipeline,后者要想得到好的效果,需要投入巨大的工程量,进一步限制了其应用范围。从海量的文本中直接给出用户想要的答案,对于这个课题,我当时的观点是也许是在未来的某个时间能实现,起码十年内不会。当前的研究策略始终没有逃离符号建模的范畴,即NLP的研究都是围绕文本字符展开。但人类语言不只是文字,还包含了人类的思维和认知。人类的思维和认知本质是什么,尚无统一结论,更遑论对其数学建模。直到月初的ChatGpt横空出世,让我再次人类的智慧充满敬畏,因为ChatGpt的表现直逼问答系统和搜索引擎的终点。 今天看了外网的一篇博客,写的很不错,有缘的朋友不妨一读。这里共享下链接: 作者首先生动的解释两个概念capability和alignment。在机器学习中,实现特定task的数学建模是围绕目标函数objective function展开的,如分类问题和对比学习中的损失函数――softmax、cross-entropy loss和triplet loss等,对这些函数最小化的求解,决定了模型的capability。虽然这些策略在很多机器学习任务上取得了很好的效果,但在语言理解依然捉襟见肘。因为优化objective function,仅仅是数学上的、是我们对研究对象的抽象建模,并一定能很好的实现我们面临的目标,比如广泛存在的泛化问题――模型在训练集的精度很高,测试集上表现却很差。alignment指的就是这种gap,即优化目标函数能否达到我们任务的最终预期。 现在各种SOAT的大模型(LLM,Large Language Model),虽然在文本表征(text representation)的效果惊人,尤其是文本生成堪称惊艳。但其本质依然是基于统计机器学习,即通过最大似然概率对上下文中的词与词之间的约束建模。LLM可以生成很流畅和符合语法的句子甚至文章,从而表现出来的一种“智能”,但很多结果违反基本逻辑和常识,这也是当前的研究无法脱离文字符号建模范畴的必然结果。 直到ChatGpt的出现,再次在NLP领域掀起一股热潮,甚至“火出圈”。ChatGpt在Gpt3.5为基础,主要是利用其强大的文本生成能力,同时创造性地引入了强化学习――RLHF(Reinforcement learning with human feedback)。强化学习的优势在于可以根据系统反馈不断调整和优化。ChatGpt的每次迭代训练,都需要人工对ChatGpt的输出进行打分排序,下次训练以此为基础,重新“拟合”这个人工反馈结果。过程重复很多次后,模型的输出结果越来越好。整个过程像极了人类自己的学习过程:学习-考试-反思-考试-更好的成绩。ChatGpt将人的认知和思维方式融入到模型的训练迭代中,而不是仅仅采用优化目标函数的策略,最终实现了模型的alignment。 笔者从事呼叫中心方面的工作,内容之一是客服问答机器人。ChatGpt的出现,像极了在漫无边际又乏味的茫茫黑夜中做着繁复工作中的我看到了远方的曙光,它也许正是多年前求学时的梦想。说完感慨,回首2022,展望2023。未来1-2年,中文领域一定会出现类ChatGpt的模型,这将对呼叫中心的建设和运行模式进行极大的颠覆。从坐席与用户的对话记录中提取数据,训练基于RLHF的模型,将极大提升客服机器人的能力,同时带来更加自然良好的体验,而不是现在这种类搜索体验的割裂感。坐席人工费用是呼叫中心最大的成本,占比90%以上。基于类ChatGpt的模型应用在呼叫中心,将极大压缩坐席人工费用成本。但也可能要面临新出现的成本:ChatGpt的数据质量要求很高,需要专门的数据标注团队,而不是简单外包。引入类ChatGpt的模型呼叫中心厂商,同时需要调整优化坐席的工作流程,将坐席融入到类ChatGpt模型的训练过程中,实现低成本的模型迭代。当前国内呼叫中心市场规模高达数千亿人民币,高技术壁垒和低成本运作的新一代呼叫中心,必将成为各大厂商的必争之地。