国内有没有类似chatgpt的产品 openai创始人谈chatgpt
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
信创 人工智能等
603598.SH 引力传媒:数字营销+元宇宙+电子商务
002512.SZ 达华智能:数字经济+人工智能+移动支付+卫星导航
003004.SZ 声迅股份:数字经济+人工智能+安防
002103.SZ 广博股份:数字经济+广告营销+虚拟现实+创投
002117.SZ 东港股份:数据确权+数字经济+Web3.0+机器人
002235.SZ 安妮股份:数据确权+数字经济+NFT+Web3.0
002369.SZ 卓翼科技:元宇宙+消费电子+机器人
002717.SZ 岭南股份:与腾讯合作+元宇宙+数据确权+人工智能
002368.SZ 太极股份:信创+数字经济+数字乡村+国资云
002354.SZ 天娱数科:信创+数字经济+ChatGPT+虚拟现实
688228.SH 开普云:信创+人工智能+元宇宙
002642.SZ 荣联科技:信创+ChatGPT+人工智能+数字乡村
002855.SZ 捷荣技术:虚拟现实+消费电子+VR设备
002877.SZ 智能自控:人工智能+智能制造+智能控制阀
603660.SH 苏州科达:人工智能+信创+虚拟现实
002835.SZ 同为股份:人工智能+数据安全+数字经济+安防
300071.SZ 福石控股:ChatGPT+数字经济+Web3.0+广告营销
002362.SZ 汉王科技:ChatGPT+人机交互+数字经济+计算机视觉
688327.SH 云从科技:ChatGPT+AIGC+人工智能+次新股
000711.SZ 京蓝科技:大数据+区块链+环保+乡村振兴
002947.SZ 恒铭达:消费电子+虚拟现实+苹果
002241.SZ 歌尔股份:消费电子+苹果+虚拟现实+机器人
002347.SZ 泰尔股份:机器人+人工智能+锂电池+军工
军工
002190.SZ 成飞集成:成飞+军工+汽车零部件+国企改革
300114.SZ 中航电测:复牌+收购成飞+军工+中字头
其他
002806.SZ 华锋股份:新能源汽车+汽车热管理+储能+有色铝
000812.SZ 陕西金叶:烟草+教育+创投+年报预增
601059.SH 信达证券:新股上市+证券
002842.SZ 翔鹭钨业:小金属+钨+稀缺资源
603059.SH 倍加洁:收购+个护用品+跨境电商
300848.SZ 美瑞新材:聚氨酯新材料+可降解塑料
603500.SH 祥和实业:轨交设备+高铁+互联网金融
002995.SZ 天地在线:广告营销+Web3.0+文化传媒+预制菜
002167.SZ 东方锆业:固态电池+锆产品+稀土永磁+锂电池
003042.SZ 中农联合:供销社+农药+乡村振兴
002613.SZ 北玻股份:低辐射玻璃+光伏+装配式建筑
600819.SH 耀皮玻璃:TCO玻璃+航空玻璃+汽车玻璃+低辐射玻璃
603255.SH 鼎际得:POE胶膜+烯烃高效能催化剂+次新股
600936.SH 广西广电:电视广播+数字乡村+大数据
全面注册制对大盘指数的影响 股市早评注册制
影响大盘指数,大盘买指数怎么开通,大盘真正指数,大盘指数有用吗「全面注册制 券商+成长」
2月1日晚间证监会发布消息称,就全面实行股票发行注册制主要制度规则,向社会公开征求意见。证监会也对全面注册制后的主板交易制度作出明示:一是新股上市前5个交易日不设涨跌幅限制。二是优化盘中临时停牌制度。三是新股上市首日即可纳入融资融券标的,优化转融通机制,扩大融券券源范围。
我们此前多次强调过全面注册制落地的可能性,并建议关注券商股。这是由于在A股市场,改革都是利好,前有股权分置,后有全面注册制。A股在2005年迎来股权分置改革后,股份流通问题开始得到解决,此后A股迎来了史上最大的一波牛市,大盘创下6124点的最高点。因此此次全面注册制的到来,代表着国内资本市场再次向前迈进了一大步,其对资本市场的重要程度并不亚于此前的股权分置改革。
在A股的历史上,改革都是利好,而选在当前经济的复苏上行周期内实现全面注册制,我们认为这其中也是经过了一定的考量。自去年以来,我们便反复强调过,内需的提振、消费的复苏中有重要的一环无法绕过,即居民需要出现新的“财富效应”,因为从当前居民的超储率来看,居民的消费能力仍有一定的保障,但居民的消费意愿却持续处于低位,这其中最主要的原因就是,此前作为居民主要“财富效应”来源的房地产已经难以承担继续贡献“财富效应”的责任,而A股自2015年的大牛市以来,始终未再走出一波像样的“牛市”,一直在4000点下方反复震荡。
但在全面注册制的实施下,资本市场将迎来重大利好,真正实现资源配置功能,推动经济加速转型,A股有望走出类似于2007年的大牛市,而在市场持续上行的行情之下,系统性行情与结构性行情齐飞,同时在北上资金的大幅买入之下,市场的赚钱效应也将大幅释放。而在市场赚钱效应大幅释放的情况下,A股有望成为居民新的“财富效应”,在居民有了新的“财富效应”后,春节期间所谓的“报复性”消费将有望成为常态,消费意愿有望得到长足的补充。
从历史上看,A股在2月的表现也一般较强,近十年来,大盘在2月的上涨概率为70%,上涨均值为1.39,上涨中位值为1.02;上证50指数的上涨概率为60%,上涨均值0.24,上涨中位值为0.37;创业板上涨概率为60%,上涨均值为3.41,上涨中位值1.17;国证2000指数上涨概率80%,上涨均值4.22,上涨中位值3.13。从分类指数上来看,权重蓝筹板块走弱,中小市值成长板块明显较强。
从近5年来的走势来看,大盘在2月的表现更强,上涨概率高达80%,上涨均值也高达3.04,而这其中,中小市值的成长板块的走强更加明显,国证2000指数的上涨概率高达100%, 上涨均值为6.66,上涨中位值为2.38。
我们认为,全面注册制的实施之下叠加历史行情的一般规律,再加上当前外资的持续买入,2月的A股走强是大概率事件,同时从结构上来看,全面注册制的到来本身就利好券商,而同时作为牛市启动信号的券商也不会缺席;另一方面,年初宽裕的流动性叠加增量资金的持续入场,市场的风险偏好有较高保障,成长板块的优势地位仍将维持。因此综合来看,我们预计,券商+成长将是2月A股的主线行情所在。
昨北上资金净流入69.74亿,其中沪市净流入31.02亿,深市净流入38.72亿,北上资金连续第16个交易日保持净流入,按照此前惯例,美联储议息会议前夕,市场的风险偏好都较低,外资一般在操作上都较为谨慎,但当前外资对A股的买入既无惧大盘的下跌,也无惧美联储加息的操作,说明当前A股在外资预期中走强的确定性甚至超过美联储将维持较低幅度加息,在外资拥有如此信心的情况下,国内投资者也应对A股报以更大的信心。操作上,轻指数、重个股,逢低关注券商、新能源、社服、文化娱乐、物联网、输变电设备等,并在低位股中挖掘投资机会,回避节前涨幅过高股及垃圾股。
「北向资金引导A股行情」
A股一月上证指数单边上涨到3300点附近,月内基本上以上涨为主,行情在犹豫中展开。1月3日最低3073点,在外资持续买入后,随后开启反弹。成交量看,1月30日创下月内成交量的高点10625亿,1月18日成交金额最低6361亿,日平均交易量7872亿规模,比12月的7800亿日均量略有增加。上证指数突破3250点,已经站上12月高点3226,从短线反弹逐步走出反转,继续上行上证指数3300点附近将面临7-9月密集成交区压力。
回顾2022年,以上证指数为例,年初3700点,年末不足3100点,全年市场震荡下行,可以说2022年市场行情不好,梳理一下主要利空因素,首先外部因素,去年2月开始俄乌地缘政治冲突开启,基本贯彻全年,对有产品、资源和能源等主要大宗商品都有冲击,间接影响全球市场;其次,2022年是美联储加息年,历史上2012年和2018年也是美联储加息年,市场基本表现单边下行;最后看一下国内因素,新冠疫情对于2022年经济影响巨大,一季度GDP同比增速4.8%、二季度GDP增速2.5%、三季度3%,全年GDP同比增速3%,距离年初确定的5%的增速水平落后比较大。GDP中12月基建投资11.52%略有回落、房地产投资11月增速-8.3%继续回落、社零12月数据-1.8%跌幅收窄、出口数据从年初的24%的同比增速下滑到7%。国内疫情管控政策自12月初有所调整,多地疫情高峰已过,对经济复苏不确定性逐步出清。
比较好的是,虽然2022全年俄乌地缘政治冲突持续,但边际影响递减;美联储22年在连续4次大幅加息75个基点后,12月加息50个基点,按照历史数据推测,2023年一季度2次加息各25个基点后将停止加息进程,市场提前会进入交易降息预期。国内方面,进入2月初,机构观点普遍偏向积极,已经具备市场继续反弹的动能,负面干扰因素逐步出清,沪指又进入3250-3300点区间,个股仍具备较好的性价比。进入2023年,国内经济复苏预期下,北向资金持续大额买入,截止2月1日北向买入金额累计1500亿,已经超过2022年全年买入金额的1.5倍,北向资金的持续坚决买入,引领A股市场上涨。
后续更多的是结构性行情,轻指数重个股。国务院联防联控机制发布进一步优化防疫防控工作的20条后,短期疫情冲击逐步恢复正常,有望恢复经济活力,利好资本市场,后续更多政策依然可期。北向资金持续买入,内资春节后3个交易日中2天成交金额超万亿,内资已经开始参与,跨年度行情已在途中。
后续我们将继续观察多方动能,本周四美联储将公布2月议息结果,不确定性变成确定性。短期,市场反弹已经超过200点,场内获利盘和前期套牢盘都有落袋为安的冲动,股指上涨过程中,关注场内多空资金的进出情况。目前需要控制好仓位在5成左右, 2023年度行情依然可期。
你与"股神"的距离,其实就差一个「小方理财」!
扫描二维码关注"方正证券小方理财"
让炒股变得更简单!
了解一下什么是chatgpt 百度推出类似chatgpt的产品
了解一下什么意思,了解一下什么是新冠病毒,了解一下什么是二进制计数法,了解一下什么是三A法则* 导读OpenAI近期发布聊天机器人模型ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。为什么有如此高的评价?理论支撑是什么?背后的技术原理是什么?待解决的问题和方案有哪些?资本怎么看待这件事?本文的目标是将这些问题详细的给大家讲清楚。1 ChatGPT是什么?ChatGPT本质是一个应用在对话场景的语言模型,基于GPT3.5通过人类反馈的强化学习微调而来,能够回答后续问题、承认错误、质疑不正确的前提以及拒绝不适当的请求。首先让我们今天的主角ChatGPT来亲自介绍自己。1.1 让ChatGPT介绍自己ChatGPT是什么?既然ChatGPT是语言模型,语言模型是什么?通过强化学习训练,强化学习又是什么?
1.2 全球范围的兴起和爆发OpenAI 11月30号发布,首先在北美、欧洲等已经引发了热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己极具创意的与ChatGPT交流的成果。ChatGPT在大量网友的疯狂测试中表现出各种惊人的能力,如流畅对答、写代码、写剧本、纠错等,甚至让记者编辑、程序员等从业者都感受到了威胁,更不乏其将取代谷歌搜索引擎之说。继AlphaGo击败李世石、AI绘画大火之后,ChatGPT成为又一新晋网红。下面是谷歌全球指数,我们可以看到火爆的程度。
国内对比各大平台,最先火起来是在微信上,通过微信指数我们可以看到,97.48%来自于公众号,开始于科技圈,迅速拓展到投资圈等。我最先了解到ChatGPT相关信息的也是在关注的科技公众号上,随后看到各大公众号出现关于介绍ChatGPT各种震惊体关键词地震、杀疯了、毁灭人类等。随后各行各业都参与进来有趣的整活,问数学题,问历史,还有写小说,写日报,写代码找BUG......
1.3 背后的金主OpenAIOpenAI是一个人工智能研究实验室,目的是促进和发展友好的人工智能,使人类整体受益。OpenAI原是非营利机构,但为了更好地实现产研结合,2019年3月成立OpenAI LP子公司,目的为营利所用。2019年7月微软投资双方将携手合作,2020年6月宣布了GPT-3语言模型,刷新了人们对AI的认知。GPT系列语言模型让我们不断对通用人工智能(AGI)充满了期待。OpenAI目标之初就很远大,解决通用人工智能问题,主要涉及强化学习和生成模型。强化学习最早被认为是实现人类通用智能重要手段,2016年DeepMind开发的AlphaGo Zero 使用强化学习训练,让人类围棋的历史经验成为了「Zero」,标志着人类向通用型的人工智能迈出了重要一步。2019年OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。OpenAI在强化学习有很多深入的研究,Dactyl也是一款OpenAI通过强化强化学习训练能够高精度操纵物体的机器人手,OpenAI Gym是一款用于研发和比较强化学习算法的工具包,所以ChatGPT中使用强化学习也是顺理成章。生成模型方面,为我们熟知的是GPT-3,这是一个强大的语言模型能够生成人类一样流畅的语言。DellE 2是最近很火的AI绘画根据文本描述生成图片。Codex是和微软合作通过github代码训练而来,可以生成代码和Debug,已经商业化。作为OpenAI曾经的创始人伊隆・马斯克也发表了对ChatGPT的评价!
看看ChatGPT是怎么介绍自家公司的?
2 ChatGPT一些有趣的体验作为一个聊天机器人,我们体验发现相比传统的机器人在连贯性问答中更加流畅自然。微信上已经有很多的小程序可以体验,或者直接讲ChatGPT接入了微信中,下面体验一下已经接入到企业微信的ChatGPT。1)公司一向注重价值观,第一道题回答对一半,公司规定应第一时间退回,特殊情况无法退回,无论价值多少都需要进行申报,所以ChatGPT应该入职不了我司。第二道经典问题的回答还蛮符合公司正直的价值观的,哈哈。
2)公司协会活动总又人放鸽子,我来问问ChatGPT这些人啥心态。看到帮忙想的理由和放鸽子的人说的一样,我有点怀疑他们的心态了。
3)职场工具人看看能不能通过ChatGPT代劳,可以看到文案写作还是不错的。回答的这个提纲有一点小问题但不影响大局。讲故事编剧本也是不错的,先帮中国足球写好参加世界杯的文案,就是不知道能不能用的上了。
4)身边同事很重视娃的教育,那么从娃娃抓起先看看ChatGPT能不能带娃学习。文化常识题回答正确,数学题这推理能力,我担心娃考不上初中,可以用但是家长给把把关啊!同时也考察了一下他脑筋急转弯怎么样,这个傻瓜没答对。
5)号称编程神器可写代码、修bug,考察一下Leetcode中等难度的都没问题。虽然它自谦不会编程,但根据测试和网友的验证能力确实强。
6)考察一下互联网知识储备,挑战失败!如ChatGPT自己所述,他还有很多局限性比如给出看起来没问题其实挺离谱的答案,例如回答自己公司的成果还夹杂私人感情,把竞争对手DeepMind的AlphaGo功劳都据为己有。
做一个小节,其实网上有特别多有趣的案例,这里篇幅有限只是简单了列举几个。通过体验结合网友的反馈,ChatGPT的确掌握了一些知识体系和回答技巧。我们看到相比传统的聊天机器人,ChatGPT在连贯性问答中更加流畅自然,什么话都能接住。除了好玩的聊天神器外还有很多实用的价值,比如解答专业概念、编程类问题、从日常邮件、写请假条、广告文案等等,都可以通过ChatGPT代劳。看完这些有趣的案例,那么ChatGPT究竟如何实现的,我们接下来将讲解关于ChatGPT的哪些技术原理。3 ChatGPT之前技术沿袭ChatGPT是基于GPT3.5语言模型,人类反馈的强化学习微调而来。本节将对涉及语言模型和强化学习两个重要技术做一个科普,已经熟悉的可直接跳过本节。3.1 语言模型的技术演进语言模型通俗讲是判断这句话是否通顺、正确。数学函数表达为给定前N个词,预测第N+1 个词概率,将概率序列分解成条件概率乘积的形式,这个函数就可以实现语言模型去生成句子。那么是什么样的语言模型如此强大,本小节梳理了深度学习开始的语言模型演技过程,如下图所示:
第一次开始用神经网络做语言模型是2003年Bengio提出的NNLM的网络结构,随着图像领域预训练的取得的突破迅速迁移到NLP领域,有了我们熟知的word2vec,通常做NLP任务句子中每个单词Onehot形式输入,使用预训练好的word embedding初始化网络的第一层,进行下游任务。word2vec的弊端是word embedding静态的,后续代表性工作中ELMo通过采用双层双向LSTM实现了根据当前上下文对Word Embedding动态调整。ELMo非常明显的缺点在特征抽取器LSTM结构带来的,17年Google在机器翻译Transformer取得了效果的突破,NLP各种任务开始验证Transformer特征提取的能力比LSTM强很多。自此NLP开启了Transformer时代。2018年OpenAI采用Transformer Decoder结构在大规模语料上训练 GPT1模型横扫了各项NLP任务,自此迈入大规模预训练时代NLP任务标准的预训练+微调范式。由于GPT采用Decoder的单向结构天然缺陷是无法感知上下文,Google很快提出了Encoder结构的Bert模型可以感知上下文效果上也明显有提升。随后2019年OpenAI提出了GPT2,GPT2拥有和GPT1一样的模型结构,但得益于更高的数据质量和更大的数据规模有了惊人的生成能力。同年Google采用了Encoder-Decoder结构,提出了T5模型。从此大规模预训练语言模型兵分三路,开始了一系列延续的工作。2020年OpenAI提出GPT3将GPT模型提升到全新的高度,其训练参数达到了1750亿,自此超大模型时代开启。技术路线上摒弃了之前预训练+微调的范式,通过输入自然语言当作指示生成答案,开始了NLP任务新的范式预训练+提示学习。由于GPT3可以产生通顺的句子但是准确性等问题一直存在,出现WebGPT、InstructGPT、ChatGPT等后续优化的工作,实现了模型可以理解人类指令的含义,会甄别高水准答案,质疑错误问题和拒绝不适当的请求。3.2 深度强化学习技术演进深度强化学习(deep reinforcement learning,DRL)是强化学习一个分支,基于深度学习强大的感知能力来处理复杂的、高维的环境特征,并结合强化学习的思想与环境进行交互,完成决策过程。DRL在游戏场景这种封闭、静态和确定性环境可以达到甚至超越人类的决策水平。比较著名的事件是2017年DeepMind 根据深度学习和策略搜索的 AlphaGo 击败了围棋世界冠军李世石。2018 年OpenAI 团队基于多智能体 DRL推出的OpenAI Five 在Dota2游戏中击败了人类玩家。DRL算法主要分为以下两类:值函数算法:值函数算法通过迭代更新值函数来间接得到智能体的策略,智能体的最优策略通过最优值函数得到。基于值函数的 DRL 算法采用深度神经网络对值函数或者动作值函数进行近似,通过时间差分学习或者 Q 学习的方式分别对值函数或者动作值函数进行更新。代表性的是2015 年 DeepMind 团队提出深度Q网络(DQN),及其后的各种变种DDQN、Dueling DQN、分布式DQN等。策略梯度算法:策略梯度算法直接采用函数近似的方法建立策略网络,通过策略网络选取动作得到奖励值,并沿梯度方向对策略网络参数进行优化,得到优化的策略最大化奖励值。可以用来处理连续动作。在实际应用中流行的做法是将值函数算法和策略梯度算法结合得到的执行器?评价器(AC)结构。代表性工作有策略梯度算法、AC 算法以及各种变种DDPG、A3C、PPO等。ChatGPT使用的就是策略梯度算法PPO。4 ChatGPT背后的技术原理ChatGPT整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型,让模型一方面学习人的指令,另一方面学习回答的好不好。本节首先阐述ChatGPT提升的效果及背后对应的技术,然后介绍ChatGPT的整体训练流程,其次介绍提升涉及几个技术细节。4.1 核心提升了什么?ChatGPT在对话场景核心提升了以下三方面:1)更好的理解用户的提问,提升模型和人类意图的一致性,同时具备连续多轮对话能力。2)大幅提升结果的准确性,主要表现在回答的更加的全面,同时可以承认错误、发现无法回答的问题。3)具备识别非法和偏见的机制,针对不合理提问提示并拒绝回答。ChatGPT的提升主要涉及以下三方面技术:1)性能强大的预训练语言模型GPT3.5,使得模型具备了博学的基础。2)webGPT等工作验证了监督学习信号可大幅提升模型准确性。3)InstructGPT等工作引入强化学习验证了对齐模型和用户意图的能力。4.1 整体技术流程ChatGPT的训练过程分为微调GPT3.5模型、训练回报模型、强化学习来增强微调模型三步:
第一步:微调GPT3.5模型。让GPT 3.5在对话场景初步具备理解人类的的意图,从用户的prompt集合中采样,人工标注prompt对应的答案,然后将标注好的prompt和对应的答案去Fine-tune GPT3.5,经过微调的模型具备了一定理解人类意图的能力。第二步:训练回报模型。第一步微调的模型显然不够好,至少他不知道自己答的好不好,这一步通过人工标注数据训练一个回报模型,让回报模型来帮助评估回答的好不好。具体做法是采样用户提交的prompt,先通过第一步微调的模型生成n个不同的答案,比如A、B、C、D。接下来人工对A、B、C、D按照相关性、有害性等标准标准并进行综合打分。有了这个人工标准数据,采取pair-wise 损失函数来训练回报模型RM。这一步实现了模型判别答案的好坏。第三步:强化学习来增强微调模型。使用第一步微调GPT3.5模型初始化PPO模型,采样一批和前面用户提交prompt不同的集合,使用PPO模型生成答案,使用第二步回报模型对答案打分。通过产生的策略梯度去更新PPO模型。这一步利用强化学习来鼓励PPO模型生成更符合RM模型判别高质量的答案。通过第二和第三步的迭代训练并相互促进,使得PPO模型能力越来越强。4.3 主要涉及的技术细节4.3.1 GPT3.5理解能力提升ChatGPT是在GPT3.5模型技术上进行微调的,这里对GPT-3.5在GPT3基础上做的工作进行梳理,官方列举了以下GPT-3.5系列几个型号:code-davinci-002 是一个基础模型,对于纯代码补全任务。这也是ChatGPT具备超强代码生成能力的原因。text-davinci-002 是在code-davinci-002基础上训练的InstructGPT模型,训练策略是instructGPT+FeedRM。text-davinci-003 是基于text-davinci-002模型的增强版本,训练策略是instructGPT+PPO。根据如下图官方发布的模型时间线和文档,我们可以了解到ChatGPT是在text-davinci-003 基础上微调而来,这也是ChatGPT模型性能如此强大的核心要素。因为GPT-3.5系列模型是在2021年第四季度之前的文本和代码样本上训练,所以我们体验ChatGPT时候同样无法回答训练样本日期之后的问题。
4.3.2 监督信号提升效果显著GPT3之前在预训练+微调已经是NLP任务中标准范式,GPT3模型的训练是纯自监督学习并以API的形式发布,用户不具备微调的能力,官方也是主打预训练+提示学习的能力。Prompt方法本质是挖掘语言模型本身具备的知识,恰当的提示去激发语言模型的补全能力。监督信号微调可以理解为改变了语言模型的理解能力,InstructGPT的工作可以理解为对GPT3-SFT做了数据增强提升,使得模型在理解人类指令方面更出色。但这并不影响监督信号对最终效果的价值。在InstructGPT的工作中,我们可以看到GPT3-SFT和InstructGPT在毒性、幻觉、理解客户能力上,监督学习微调已经和强化学习对比有很大的竞争力,甚至在幻觉角度比基于强化学习的InstructGPT提升很明显。
4.3.3 人类反馈强化微调效果ChatGPT通过人类反馈强化学习(RLHF)来让模型理解人类的指令。人类反馈强化学习(RLHF)是DeepMind早期提出的,使用少量的人类反馈来解决现代RL任务。RLHF的思想在很多工作中都有体现,例如OpenAI的webGPT、DeepMind中Sparrow等都通过人类的反馈进一步提升大模型的效果。RLHF整个训练过程如下图所示:
目标是实现后空翻的任务,智能体Agent在环境中随机行动,每隔一段时间,两个行为的视频片段给一个人,人判断两个视频哪个更接近目标。通过人的反馈数据,学习一个最能解释人类判断的奖励模型Reward Model,然后使用RL来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈,实现了进一步完善它对目标的理解。智能体Agent从人类反馈中学习最终在许多环境中有时甚至是超过人类的表现。4.4 行动驱动的大语言模型尽管学术界一直无法真正定义AGI,今年大型语言模型(LLM)的表现让我们对通用人工智能有了期待,通过OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未来应该是行动驱动的,一个行动驱动的LLM看起来很像AGI,如下图所示:
模型的行为就像一个智能体Agent选择行动。在中间,我们有开箱即用的基础模型LLM。用户通过Prompt询问模型结果。左边是外部可利用的资源,这些可以是任何将文本作为输入并提供文本作为输出的函数,包括搜索、数据库、代码解释器和与人聊天等,它可以增强模型的能力。右边是我们有任务导向的训练,如instruction tuning、RLHF等。instruction tuning相对好实现,RLHF需要调整PPO算法相对较难。整体上RL利用使用日志等专有数据,通过创建强大的反馈回路,训练模型使其更加符合任务需求并迭代优化。5 总结与展望5.1 技术创新:待解决问题和改进ChatGPT一个问题是只能回答2021年前的问题。模型无法获取近期的知识,将ChatGPT+webGPT结合是一个可以想到的方案。DeepMind提出的Sparrow就是一个参考,Sparrow model针对对话内容模型生成结果并判断是否搜索互联网,以提供更多的正确参考答案,用强化学习算法去优化Sparrow的输出结果。整体流程如下图所示:
5.2 技术应用:能否取代搜索引擎应该不会取代,根据目前体验的效果,距离搜索引擎还有很长的路要走,主要基于几个方面。首先ChatGPT本质是语言模型,当前的训练技术模型不具备或者说很弱的推理能力,一些推理问题比如小学生问题完败。根据当前体验看擅长创作类文案,其他问题经常出现一些事实错误情况。而搜索引擎技术的核心索引、检索和排序是给到用户Top相关性内容,用户自主多了一层推理、对比筛选、总结。其次目前的ChatGPT不能够回答21年之后的问题,新知识的获取是通过增加标注数据实现。如果要支持获取社会热点新闻等,就需要改变底层技术方案。尽管这个问题WebGPT、Spa