淘优惠

淘优惠

杭州限行规定调整方案意见征求稿 杭州限行措施将调整几号开始

热门文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

杭州限行规定调整方案意见书,杭州限行措施调整,杭州限行新制度,杭州限行新方案

图片来源:杭州网

ChatGPT有何风险?

据中国邮电报报道,ChatGPT的强大功能也隐含不少法律风险。北京盈科(上海)律师事务所互联网法律事务部主任谢连杰接受采访时表示,ChatGPT对信息、数据来源无法进行事实核查,可能存在个人数据与商业秘密泄露和提供虚假信息两大隐患。

ChatGPT依托海量数据库信息存在,其中包括大量的互联网用户自行输入的信息,因此当用户输入个人数据或商业秘密等信息时,ChatGPT可能将其纳入自身的语料库而产生泄露的风险。虽然ChatGPT承诺删除所有个人身份信息,但未说明删除方式,在其不能对信息与数据来源进行事实核查的情况下,这类信息仍然有泄露风险。他表示,人工智能生成的信息并不总是准确的。“ChatGPT常常出现‘一本正经地胡说八道’的情况,需要一定的专业知识才能辨别真伪;也可能有不法分子恶意‘训练’人工智能,使其提供诈骗信息、钓鱼网站等内容,损害公民人身和财产安全。”

图片来源:视觉中国 VCG41N1188747468

泰和泰(重庆)律师事务所高级合伙人朱杰认为,ChatGPT在建立语料库、生成文本时,如果使用并非公开的开源代码、使用开源代码商用未办理许可证或者未按照许可证的要求实施,可能会导致侵权。朱杰解释说,这类人工智能主要是通过挖掘人类日常交流以及文本来进行统计分析,因此,对于一些受著作权保护的文本、视频、代码等,如果没有经过权利主体的授权,直接复制到自己的数据库中,并在此基础上修改、拼凑,极有可能侵害他人的著作权。

此外,据中青报报道,华中科技大学法学院副教授滕锐在接受中青报・中青网记者采访时表示,ChatGPT是大量不同的数据集群训练出来的语言模型,目前其背后仍是“黑盒”结构,即无法确切对其内在的算法逻辑进行分解,所以不能确保使用ChatGPT过程中,其所输出的内容不会产生攻击伤害用户的表述。

如果ChatGPT的回复是错误或虚假信息,会具有极大的误导性,有潜在法律风险。”在他看来,ChatGPT难免存在一些侵犯用户隐私的内容。

北京京师(上海)律师事务所高级合伙人李阳律师分析,ChatGPT这类的AI软件没有独立人格,不具备我国著作权法规范中“作者”的主体资格。AI软件有可能使用未经授权的作品作为素材,只要是网络上公开的数据和信息,就有可能成为被AI学习的数据,除了主动询问软件开发者,基本没有其他有效方式可以阻止。

李阳认为,作者很难查清楚自己的作品是否被AI用来“学习”了,“权利人如果要进行维权,在当前法律体系下难度很大”。

“任何一项新数字技术出现时,年轻人的反应最敏锐,对新事物的接受能力也很强。他们不仅仅是消费者,也有可能是未来新技术的创造者。”武汉大学法学院教授孙晋提醒,年轻人也要注意,网络不是法外之地,利用新技术时,不要触碰道德和法律底线。

每日经济新闻综合浙江之声、杭州网、中国邮电报、央广网、中青报

每日经济新闻

发布于:四川省

半个柚子的小说全部作品


柚子阅读小说app是自带2000书源的去广告追书神器,收录全网小说资源,自定义书源畅快追书无障碍。柚子阅读小说完结追书软件完全免费,没有广告弹窗,个性化推荐小说给用户,让你畅游书海,有需要的朋友快来下载柚子阅读小说app吧!

柚子阅读小说app是一款可以阅读全网小说的阅读平台,各种类型的小说应有尽有,看书更加轻松。

1、海量小说资源尽在掌握,给用户优质的阅读体验。

2、书源丰富,自由切换,搜书更加快捷,没有断章的问题。

3、小说资源光速更新,让你可以第一时间畅快追书。

4、各种类型的小说资源全都有,你想看的全都有。

1、男频、女频一键切换,个性化推荐小说资源,任你畅读。

2、有多种舒适的阅读模式,用户可以自由切换,保证阅读流畅。

3、用户可以自定义设置阅读界面,还有自动翻页功能。

4、完结小说阅读无需付费,各种精彩的小说尽在掌握。

柚子阅读小说app可以自由添加你感兴趣的书源,轻松获取你想看的小说,随时随地畅快追书,有需要的朋友快来下载柚子阅读小说app吧!


法宝重磅 | ChatGPT来了,法宝人工智能研究院告诉你真相


原标题:法宝重磅 | ChatGPT来了,法宝人工智能研究院告诉你真相

作者:韩庐山 李原 杨灵敏

导语

ChatGPT爆火,真那么神?法律人会失业吗?法宝人工智能研究院对此进行了深入研究,来让他们为大家揭秘一下真相吧。

01

ChatGPT遵循了什么原理

牛顿三大定律告诉了我们这个世界的万事万物之间互相作用的原理,它表明了至繁的现象可以用至简的规则来表达。当牛顿三大定律出现之前,我们对这个世界的理解是非常困惑的。当你理解了这些原理,你就拥有了运用各种来自于你自己和外界的力来改变事物发展走向的能力。与此相同,如果你懂天道和人道将会横行江湖,如果你在某个领域里练就了自己的绝活将会使职业长盛不衰。实质上,ChatGPT也是遵循了这样的原理才能够火爆出圈。

关于生物智能是怎么产生的,也是一个非常让人困惑的问题。这么繁复多样的智能看上去就如同世间万物的运动轨迹一样让人不可琢磨,但其内在是否也存在着牛顿三定律这样至简的规则。OpenAI的GPT系列的研究似乎触及到了这个问题的本质。大家可能知道,我们人类的大脑具有一千亿左右的神经元,这些神经元之间有高达100兆的神经突触连接。但大脑从婴儿时期开始是如何和外界交互而获取至高的智能的呢?

OpenAI的GPT研究工作展示出了一个非常有趣的假设。就是人的大脑不间断的对下一个时间点将要发生的图像、声音、事情进行一个预测,然后将预测的结果和实际发生的情况进行对比,发现不同,然后从不同中进行学习,修正自己的神经元之间的突触,使得自己在将来可以预测的更加准确。预测的越准确说明认知水平就越高,也就说明大脑这个模型越智能。

正是因为我们大脑有预测,有和实际发生情况的对比,我们才能随时地感知到周围环境的不同。也许有人会说,这是大脑对过往事情的记忆,而不是预测。但是周围的环境是随时发生变化的,正如同,人不可能两次趟过同一条河流,不存在两片完全一样的叶子,这种由即时的环境引发的高级的联想记忆功能正是预测。Francois Chollet,著名的深度学习框架Keras的发明者,就认为深度学习的预测实际上就是一种高级联想记忆。

生物的大脑从最初始的生命体开始可能就遵循着这样规则,因为大脑对周围环境预测的越准确,其生存的可能性就越大。

OpenAI的GPT-3(ChatGPT的基座模型)其实也就是做了上面我们所说的这件事情。GPT-3的模型拥有1750亿个参数,相当于1750亿个神经元突触连接(比起我们大脑的100兆还是少了很多)。不像人脑一样,GPT-3无法获得图像和声音信息,它所拥有的只是文本,巨量的文本,大约50TB。而它所做的唯一一件事情就是根据以前所看到的字,不断的预测下一个字。实际上,更准确的一种说法,是预测下一个可能出现的所有的字的分布概率。只有预测的分布概率和实际统计的分布概率一致的时候,模型总体预测的准确率才会最高。

就是通过这件简单的训练任务,GPT-3达到了惊人的智能水平。深度学习的祖师爷Geoffrey Hinton就此评论说”生命、宇宙、所有事情的答案就在这4.398 trillion的参数里面”。这件事OpenAI做之前是没有任何人想到会是这样的结果,完完全全是一件非常不可思议的事情,超出任何专家学者的想象。

OpenAI做的这件事情就好比是哥伦布发现了新大陆。虽然船和指南针不是哥伦布发明的,但新大陆是哥伦布历时两个多月的艰苦航行才找到的。而这件事情的发现很可能敲开了真正通向人工智能的大门。

从表象上看,ChatGPT的智能和人类有很多相似的地方。ChatGPT有着非常强的自然语言理解能力,给人的感觉就像一个人类助手一样。你可以用自然语言和它交流,给它布置非常灵活的任务。而这是以前所有的人工智能技术所不具备的。但它的记忆力并不是特别强,比如你问它“刑法的第130条是什么?”,它很可能答不上来。就像我们人类一样这时也需要查阅法典。

当然,中文知识记忆力弱也是因为ChatGPT用到的中文语料确实不多,中国并不包含在openAI目前的服务国家之列。据说ChatGPT查英文法律法规还是可以的,但是到案例这个层次也不行。你可能会好奇,为什么ChatGPT用到的中文语料不多,但在中文对话的表现上还能这么优秀,远胜国内的一些大模型。这是因为ChatGPT把英文语料上习来的智能迁移到了中文上面。

GPT-3用预测下一个字的方式来表达智能,可以根据上段文本生成下段文本,但是我们人类跟它交流起来并不是很方便。所以OpenAI将它进化为ChatGPT,其实上也就是提供了一个人机交互的接口。以下我们简单的介绍一下ChatGPT是如何从GPT-3训练过来的。我们可以关注一下OpenAI是如何高效使用人工标注,尽量的降低标注成本。

ChatGPT训练的第一步是从成千上万的问题中,由人工标记出一些问题,并写出参考答案给AI,然后我们用这些标注好的问答数据集去微调GPT-3模型,这个步骤叫做“收集示例数据,训练一个有监督的模型”。在这个步骤里面有一件很重要的工作,就是标注人员不仅要给出问题的答案,还要给出答案内在的原因。这样就使得问题的回答具备了可解释性。另外一方面,这种训练方式也会加强模型对于因果关系的理解,进一步提高模型的智能。

第二步叫做“收集比较数据,训练一个奖励模型”。通过第一步的训练,模型可以按照人类的示范返回像模像样的结果。这时我们开始让人类标注员从模型生成的候选答案中选择哪个答案是最好的。选择答案比第一步中的手动生成参考答案要容易很多。通过人类标注员的选择数据,我们训练出一个能够自动判断哪个答案更好的奖励模型。

而第三步就是给它更多的新问题,然后重复前两步,回答问题、自我评分,用强化学习的方式不断优化模型回答问题的能力。这就是“根据奖励模型,对有监督模型进行持续的强化学习”。

这样便诞生了我们所熟知的ChatGPT。整个过程看起来很简单,但OpenAI确实是这场技术大变革的领导者。且不说超大模型有超强智能这条路基本上是OpenAI一家探索出来的,通过有监督的方式来释放生成式大模型的智能能力这条路也是OpenAI率先干起来的。

02

为什么只有ChatGPT火出圈

从整个行业来看,许多大厂都在积极从事大模型的研究工作。Google的PaLM规模为5400亿参数,DeepMind的Gopher模型为2800亿参数,Meta的OPT-175B模型为1750亿参数,甚至半导体巨头英伟达也宣布了5300亿参数的Megatron-Turing NLG模型。

咱们国内也有中文巨型模型,比如清华&智谱的GLM规模为1300亿参数,华为的“盘古”规模为2000亿参数,百度的“文心”规模为2600亿规模,浪潮的“源1.0”规模为2450亿参数。

那么为什么只有ChatGPT火出圈了呢?仔细研究发现,ChatGPT既是技术与资本共同作用的结果,也是OpenAI始终坚定地把LLM(大型语言模型)看做是通往AGI(通用人工智能)的一条必由之路的信念有关。

首先,技术上不是突发事件,2020年GPT3已经产生了非常令人震惊的结果,当时出于成本与一定的用户体验原因没有急迫商业化。只有少数的用户可以体验到GPT-3。进化后的GPT3.5,即ChatGPT的基座模型,相比之前的模型理解能力更强,更加善解人意,通过多轮对话能够理解很复杂的、非标准的NLP问题,规避了有毒问题和答案,比如种族歧视、自动判决、预测股票、战争等。

其次,ChatGPT是资本开始强势介入NLP的里程碑,OpenAI推出ChatGPT的原因主要有两点:一是OpenAI钱烧不动需要融资了;二是RLHF(从人类反馈中进行强化学习)的训练方式依赖人类反馈,大家都去用有助于积累语料。但OpenAI也未料想到chatGPT会引发业界乃至全世界这么大的轰动。这主要是因为所有的用户都可以免费注册了,切身体验到这个新的技术,从而产生了各种各样实际的应用。

从研究“道义”的角度讲,大模型就是为了以无监督方式解放人类标注工作。但是OpenAI从前身InstructGPT开始,就开始引入了标注团队,利用人工标注+RLHF提高模型的可用性,方法论方面走了回头路,打了以google为首的整个业界一个措手不及,毕竟引入人工标注优化模型是圈子里都认定可行的。

但是从另一个层面来看,完全无监督的情况下,大模型的发展已经到了硬件指数级增换来模型线性指标提升的状态,边际收益开始降低,模型再大,美国人无法承受。从目前文献可知,chatGPT相对与GPT3的进化更多是巧妙利用了人工标注,而非深刻模型本身的架构突破。

最后,在OpenAI眼中,未来的AGI(通用人工智能)应该长这个样子:有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它应该能听懂人类的命令,以便于人类使用。OpenAI的理念比较超前,对自我定位从一开始就定得比较高,始终坚定不移地探索上述方式是否可以实现AGI。

OpenAI之所以能作出ChatGPT,胜在一个是定位比较高,另一个是不受外界干扰,态度上坚定不移。例如Bert证明了双向纯编码器架构语言模型对于很多NLU(自然语言理解)任务,效果比自回归这种单向语言模型效果更好。尽管如此,GPT 2.0并没有因此切换到双向语言模型这条路上,仍然走文本生成的路,

03

ChatGPT给大模型领域带来的影响

ChatGPT全球火爆,上线2个月活跃用户“狂飙”破亿,谷歌、苹果、微软等巨头看到了从1到100、1000、10000的放大窗口,提供商业服务的前景都打开了,这些巨头纷纷跟进,加码注资开展大模型训练,可以说ChatGPT在商业上是个大的里程碑。

在NLP领域,预计对99%的从业者来说,是没有机会和能力做这个事情的。要做这个事情,对研究机构的财力及投入意愿、工程能力、技术热情,都有极高的要求,缺一不可。能做这事情的机构,粗估下来,国外不超过10家,国内2023年也不会超过10家。当然,考虑到成本问题,未来也许会出现“股份制大模型”,就是有能力的几家机构合作,群策群力,一起来共建超级大模型的现象。

目前,在国外,DeepMind在2022年底已经推出大模型Chinchilla,打造了聊天机器人Sparrow;OpenAI核心成员创业公司Anthropic正在内测其大模型Claude,效果可能优于ChatGPT;Google已于今年2月份开始内测Bard(基于LaMBDA模型)服务;公共组织LAION AI众筹了免费开源项目Open Assistant正在开发;Facebook系列的Meta AI团队在今年上半年可能推出OPT系列新模型;微软在其必应、云服务及Office全家桶产品中都开始整合ChatGPT,其中Bing new已开始内测。

在国内,百度的文心一言(ERNIE BOT)预计3月内测,会对公众开放;元语智能的ChatYuan模型及api均已发布;阿里达摩院的大模型开始内部测试,会与钉钉进行深度整合,但还没有命名;腾讯、字节、华为这些头部大厂最有可能开始自研,但目前还没有确切消息。

04

法律科技公司该如何利用大模型

超大模型解决的任务范畴是常规问题用范式直接提问,非常规问题直接多轮提问得到答案,在标注上无需任何标注即可得到可接受的结果。小模型处理常规NLP问题,如分类打标签、信息抽取、阅读理解等,需要通过标注+训练的过程,非常规问题需要精巧的设计。那么法律科技公司该如何利用大模型呢?这要从大模型的劣势和如何改进说起。

首先,通用的大模型虽然容量巨大,包罗万象,但是单个模型也不可能无限大,存储所有的世界知识。大模型通过阅读大量语料,已经学会了说“人话”,有可能生成变造的内容,相当自信地“满嘴跑火车”,例如,你问它“张三以非法为目的圈了好多钱,他犯了什么罪,触犯了哪些法律?”,ChatGPT就会根据自己拥有的语料给出“张三可能涉嫌非法占有罪,触犯了中国刑法中第258条规定的犯罪行为”这样的答案,捏造罪名和引用法条都不对的错误答案。

所以chatGPT这样的模型需要具备查阅数据库和检索搜索引擎的能力。在第一节中,我们说过了chatGPT有很高的语言理解能力,相当于人类助手。我们可以直接通过和它对话的方式布置各种复杂任务(即prompt工程)。将来,我们可以让它在自己缺乏相应知识的时候通过调用各种API来获取知识,从而正确的回答知识性问题。Yann LeCun领导的Meta AI正在从事这方面的研究工作。

其次,大模型面临具体任务指标偏低的情况,理论上来说,大模型通用性强,但在训练语料充足的情况下,专业任务上效果不一定好过预训练+微调,而且大模型的训练成本极高,其中GPT-3训练一次的费用是