淘优惠

淘优惠

ChatGPT背后的数字安全威胁

热门文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

chatgpt是什么意思,chatgpt怎么下载,chatgpt中文,chatgpt api

2个月用户破亿迅速爆火的ChatGPT,让普通人拥抱人工智能变得不再遥不可及。已经成为互联网领域发展20年来,增长速度最快的一款2C的消费类应用程序。

你只要给ChatGPT发提示(问题)就可以生成任意主题的文本内容,可以写诗歌,小说散文,段子,甚至写论文,做方案PPT等等,也可以让ChatGPT写代码进行编程,甚至生成恶意软件和链接。

现在可进入公众号“行研社”免费体验和ChatGPT对话啦~

ChatGPT的“入侵”已经引起了各行各业对内容抄袭的担忧,及网络数据安全的提防意识的提高。 虽然AI技术是中立的,但并不能成为规避责任与义务的理由。

教育界和学术界已最先做出反击。目前已有数千种科学期刊明令禁止或限制投稿人使用 ChatGPT 撰写或编辑论文,包括知名学术期刊《科学》,《自然》等都更新了编辑规则。美国一些大学也通过网络禁止接入ChatGPT,甚至要取消回家作业。

其实AI伦理风险也一直被广泛关注,即指AI可能会生产违反常规、违背法律和道德的内容,或帮助人类以作弊等形式完成违反常规、违背法律和道德。ChatGPT涉及的网络数据安全合规主要涉及数据获取,及恶意滥用所产生的问题。

曾参与过行研社数据安全研讨会的专家,北京师范大学互联网发展研究院院长助理吴沈括教授认为ChatGPT在实际应用层面将面临三种风险:

第一种是在更巨量数据汇聚的过程中,可能会产生法律和安全风险; 第二种是在模型和算法设计的过程中,可能产生伦理和违法风险; 第三种是在实际应用过程中,可能被用于违法犯罪行为,进而带来社会风险。

知识产权

目前最大的争议是ChatGPT的“文本数据挖掘”是否需要相应的知识产权授权?ChatGPT通过互联网抓取信息进行深度学习,而大多数网站都有防止第三方收集信息的网站隐私政策条款。从法律角度来看,国内的文本数据挖掘理论上需要相应的知识产权授权。并且,目前国内外大部分国家的知识产权法律下,仅有自然人可以享有著作权。这意味这如果AI利用真人的作品拼接出的创作,有可能存在侵权。因此,我国也已出台了对AI深度合成技术的一些规范要求。

图片:OpenAI DALL・E 2代 文本生成模型作品

数据合规

生成式AI技术的商业化趋势已经到来,众多公司正在应用到自身的产品和服务中去。通过在线服务、智能客服,融入各类产品文本理解分析,多模态检索等等,全面提升自身产品和服务的AI化。因此,网络数据安全问题也开始被重视。

ChatGPT可能导致一些敏感数据泄露风险。本月开始微软和亚马逊于已宣布禁止公司员工向ChatGPT分享。微软内部的工程师也警告不要将敏感数据发送给OpenAI终端,因为OpenAI可能会将其用于未来模型的训练。

ChatGPT的虚假信息回复问题。作为基于语言模型的人工智能工具,ChatGPT也会编造一些看似正确的答案,即“一本正经的胡说八道”。这样的虚假回复在商业化中会造成严重后果,甚至有法律风险。

企业数字安全风险

行研社APP平台的数字化转型行业圈汇聚了国内网络数字安全领域顶级专家团队。下面是在数字化转型行业圈的行研会上,专家对企业在数字化转型中遇到的各类数据安全、数据合规问题进行的深入讲解。

更多行研社专家观点,请关注行研社视频号

随着我国《网络安全法》《数据安全法》《个人信息保护法》等法律的发布,政府与企业对数据安全保护的要求逐步提升,具备数据安全相关法律法规、数据安全治理、风险评估等方面知识储备和专业技能的复合型专业人才成为稀缺资源,逐步成为企业争先挖掘的重点目标。

中国网络安全审查技术与认证中心数据合规官(CCRC-DCO)认证培训(4个全天线上)即日启动报名。

数据合规官(CCRC-DCO)证书的颁发单位是中国网络安全审查技术与认证中心(英文缩写为CCRC,原为中国信息安全认证中心)。中心于2006年由中央机构编制委员会办公室批准成立,为国家市场监督管理总局直属事业单位。

现为行研社APP平台的粉丝和用户们争取到特惠福利:通过行研社申请报名数据合规官培训即可获得优惠价格,下方扫码预约!


chatgpt怎么下载和使用 如何下载chatgpt苹果版

chat 下载,chat软件下载,chat下载手机版

ChatGPT是一个会话聊天机器人。它由Elon Musk创立的独立研究机构OpenAI开发。那么,ChatGPT能用手机登录吗?自然是可以的,手机通过邮箱注册之后可以登录ChatGPT。本文,小编就为大家介绍一下手机是如何登录ChatGPT的。

1、打开ChatGPT入口,国内直接打开会提示Notavailable。

2、打开ChatGPT官网入口网址chat.openai.com,使用邮箱注册之后登录。

3、完成ChatGPT注册登录并绑定手机号之后就可以使用。


chatgpt 会开源吗 ChatGPT能取代程序员吗

chatgpt,chatgpt中文,chatgpt账号,chatgpt api

一场还不入局就会被淘汰的游戏,已经在全球拉开帷幕。

去年底,自ChatGPT这个略显拗口的名字在全球引爆对话式风潮,微软、亚马逊、谷歌等大厂入局其中的消息,就像接连丢进水中的石子,不断在科技领域激起浪花。

其中,微软作为ChatGPT背后母公司的投资人最早押下重注,于本周宣布在所有产品线内集成ChatGPT能力。而当ChatGPT将取代搜索引擎的论调甚嚣尘上,谷歌也坐不住了,于北京时间2月7日宣布将推出自己的对话式机器人"Bard"(吟游诗人)。

就在同天,百度官宣将基于自家的文心大模型,推出类ChatGPT的产品"文心一言"。当日下午,国内搜索引擎市场的第二名360紧随其后,披露自家已在内部使用这类产品,同样计划尽快推出类ChatGPT的Demo版产品。消息发出两小时后,其股价应声涨停。

新消息还在持续。北京时间2月8日凌晨,微软在媒体发布会上宣布开放ChatGPT支持的搜索引擎Bing。

而在官宣消息纷飞的背后,不难发现几乎每个追赶ChatGPT的大厂,都在提及"大模型"的概念。

百度在短短数行的官宣中,专门花去一段介绍自家的AI四层架构布局,并重点提及文心大模型。谷歌CEO桑达尔・皮查伊也表示,自家的AI对话式机器人"Bard"(吟游诗人),由大模型LaMDA提供支持。

360的披露十分坦率,表示自家布局ChatGPT类产品的优势在于数据和语料,在预训练大模型方面还存在短板。

ChatGPT和大模型是一体两面的关系。表面看,ChatGPT是一个具备聊天、咨询、撰写诗词作文等能力的对话式机器人。但本质上,它是基于AI大模型而产生的应用――如果没有大模型的能力支撑,如今引爆全球的ChatGPT或将不会诞生。

一. 爆火背后:由大模型打开的ChatGPT魔盒

ChatGPT能达到如今"上知天文、下知地理"的效果,离不开基于海量数据而生的大模型――是大模型,让它理解并使用人类语言,并近乎真实地进行对话和互动。

海量数据是大模型的基础。顾名思义,这是一种通过亿级的语料或者图像进行知识抽取、学习,进而产生的亿级参数模型。而ChatGPT,是OpenAI GPT-3模型的升级。在参数量上,GPT-3模型拥有1750亿参数。

这带来超乎想象的突破――基于大量文本数据(包括网页、书籍、新闻等等),ChatGPT获得了对不同类型的话题进行回答的能力。再加上学习方法的差异性,ChatGPT能够发散式地解答问题。

大模型不是新鲜事物,在2015年左右业内已有讨论。但在大模型出现的背后,其实蕴藏着一场人工智能落地模式的变革。

作为人工智能最重要的组成部分之一,机器学习的落地长期依赖数据模型。它需要大量的数据来训练模型,以便让计算机系统得以从数据中进行学习。

简单从效果总结,当数据量越大,机器学习得以学习的基础越多,让效果更精准、更智能的可能性就越高。

这也意味着,在数据量不够大的过去,机器学习的发展会受到阻碍。而伴随着PC和移动互联的进展,机器学习生存的基础――数据量也呈几何式增长。由此产生的一个现象是,从1950年到2018年,模型参数增长了7个数量级。而在2018年之后的4年内,模型参数增长了5个数量级,从数亿个达到超千亿水平。

也就是说,当数据量充足,机器学习就具备进一步升级的可能,而这个可能性在2018年已经存在。

但是,仅有数据还不够,伴随着数据使用而来的,还有递增的成本――机器学习环节中使用的数据量越大,所需的数据标注、数据清洗、人工调参等成本也就越高。高质量的标注数据难以获得,让整件事的投入产出比打了折。

为了解决这个问题,机器学习的落地方式也发生变化。

如今,机器学习主要分为监督学习、无监督学习和半监督学习三种学习方法。大模型,与无监督学习、半监督学习息息相关。

早前,构建机器学习的主流方法是监督学习。也就是先收集数据,再通过强人工干预/监督的方式,喂给模型一套经过人工校验的输入和输出组合,让模型通过模仿,完成学习。

“在完成标注、清洗环节后,我会给机器输入一组数据,并反馈学习结果的正确或者错误,让它找到参数之间的关联并进行优化。”一位曾参与过算法调优的产品经理表示。

而无监督学习不需要打标,而且在训练数据中,只给定输入,没有人工给出正确的输出,目的是让模型开放式地、自己学习数据之间的关系。

半监督学习则处于两者之间。在这种学习方式中,模型会尝试从未标记的数据中提取信息来改进它的预测能力,同时也会使用已标记的数据来验证它的预测结果。

也就是说,相比过去的监督学习,无监督学习和半监督学习节省了更多成本,降低了对高质量标注数据的依赖。

“如果没有无监督学习,大模型很可能是训练不出来的。”一位横跨学术、商业两界的AI专家不久前告诉36氪。

当然,ChatGPT能横空出世,降低成本并不是最重要的。

在监督学习的模式下,人工"调教"的数据经常来自于一些属于属于特定领域、整体数量不大的数据集。这会导致,一旦某个领域的模型要应用到其他领域,就会出现难以适应的情况,也就是所谓的"模型泛化能力不佳"。

举个例子,在问答数据集上表现不错的模型,用到阅读理解上很可能产生不尽如人意的结果。

而大模型的诞生,能够相对解决"泛化能力"不佳的问题,也就是变得更通用。

这背后也是因为,大模型基于互联网公开的海量数据进行训练,没有以特定的小数量数据作为基础。这种方式,更可能训练出一套适用多个场景的通用基础模型――这同样是ChatGPT能回答各种五花八门问题的重要原因。

总而言之,大模型的落地是机器学习的一个里程碑,也是打开ChatGPT魔盒的关键钥匙。

二. GPT系列:落地大模型的"自我革命"

回顾ChatGPT的迭代,可以看到一部大模型自我升级的历史。在这个过程里,OpenAI至少进行了三次技术路线的"自我革命"。

前文提到,ChatGPT基于OpenAI的第三代大模型GPT-3升级而来,也就是在GPT3.5上进行微调而诞生。

从名称也能看出,OpenAI此前还发布了GPT-1、GPT-2和GPT-3。这几代GPT的落地方式不尽相同。

第一代生成式预训练模型GPT-1于2018年被推出。GPT-1的学习方式是半监督学习,也就是先用无监督学习的方式,在8个GPU上花费1个月从大量未标注数据中学习,然后再进行有监督的微调。

这样做的好处是,只需要少量微调,就可以增强模型的能力,减少对资源和数据的需求。

但问题在于,GPT-1的数据较少,和如今的动辄千亿对比,当时1亿多的参数量似乎少的可怜。这使得,GPT-1模型整体对世界的认识不够全面和准确,并且泛化性依然不足,在一些任务中的性能表现不佳。

在GPT-1推出一年后,GPT-2正式面世。这一代的GPT在底层架构上和"前辈"没有差别,但在数据集方面,GPT-2有着40GB的文本数据、800万个文档,参数量也大幅突破到了15亿个。

有研究显示,参数量爆发的GPT-2,生成的文本几乎与《纽约时报》的真实文章一样令人信服。这也让更多人意识到无监督学习下,大模型的价值所在。

伴随着每年一更新的频率,2020年,GPT-3如约而至。这次的GPT-3,在模型参数上达到了1750亿个,类型上也包含了更多的主题文本。相对GPT-2,这次的新版本已经可以完成答题、写论文、文本摘要、语言翻译和生成计算机代码等任务。

需要指出的是,此时的GPT-3依然走的是无监督学习、大参数量的路线,而到了2022年,情况发生了不小的变化。

这一年,在GPT-3的基础上,OpenAI推出了InstructGPT。OpenAI表示,InstructGPT 是 GPT3 的微调版本,在效果上降低了有害的、不真实的和有偏差的输入。而ChatGPT与InstructGPT除却训练模型的数据量不同,并无太大差异。

问题来了,为什么InstructGPT和ChatGPT可以进一步提升智能性,优化人们的交互体感?

背后原因在于,OpenAI在2022年发布的这两个模型,从技术路线上又开始看重人工标注数据和强化学习――也就是从人类反馈(RLHF) 中强化学习。据介绍,这一次OpenAI使用一小部分人工标记的数据来构建奖励模型。

粗看下来,无监督学习下的大模型路线特点在于数据量大,和降低数据标注和人工依赖――这是GPT-2和GPT-3的核心。

而InstructGPT和ChatGPT的路线,则像是阶段性重回了人工路线。

这种变化看似剧烈,但其实是为了让AI产品更好用而产生的调整。拆解背后逻辑,ChatGPT的训练离不开GPT-3.5的大模型基础,但其中引入的人工标注数据和强化学习,则可以让大模型更理解信息的含义,并进行自我判断――也就是更贴近理想中的人工智能效果。

也就是说,之前的无监督学习给定输入,不给出正确的输出,让模型得以在海量数据的基础上"自由发展",具备人工智能的基本素质。

但此时加入人类对大模型学习结果的反馈,会让模型更理解输入自身的信息和自身输出的信息,变得更好用。落在具体场景中,经过人类反馈的ChatGPT,可以提升判断用户提问意图(即输入)和自身答案质量(即输出)的能力。

为了达成更好的效果,有信息显示,OpenAI招聘了40个博士来进行人工反馈工作。

对人工智能中的人力工作先抛弃再捡回,这看似前后矛盾的做法,也得到不少行业人士肯定。

比如,京东集团副总裁、IEEE Fellow何晓冬不久前对媒体表示,相较之前大量使用无监督深度学习算法,ChatGPT模型背后的算法和训练过程更加新颖。如果没有人的数据甄选,模型参数即便大十几倍,也很难达到如今效果。

“在某种意义上,这其实是对过去一味追求(参数)大和追求无监督学习的一个路线修正。”何晓冬总结。

当然,即使重新重视人工反馈,也不意味着OpenAI完全放弃此前的坚持。有分析指出,ChatGPT的训练主要分为了三个阶段,前两个阶段人工反馈非常重要,但在最后一公里上,ChatGPT只需要学习在第二阶段训练好的反馈模型,并不需要强人工参与。

无论是 GPT-1、2、3还是InstructGPT和ChatGPT,OpenAI这五年的模型迭代之路似乎也是一场自我改革。

这同样说明,把某类技术推演到极致,并不是这家公司的坚持――不论是无监督学习、自监督学习还是半监督学习,从来不是为了炼就大模型,而是想让AI更智能。

三. 大厂收割大模型,但"炼"模型不是终点

即便大模型的能力随着ChatGPT的爆红而走向台前,但业界的争议依旧无法掩饰。

从商业模式来看,当大模型变得更通用,更多企业可以依赖大模型的基础,进行更偏自身业务属性的微调。这样做在理论上的好处是,不少企业可以省去很多训练模型的成本,而推出大模型的公司,可以向前者收取调取大模型的费用。

但36氪发现,这一思路当前也在被一些产业人士"吐槽"。

一家AIGC公司的创始人告诉36氪,这件事不仅是钱和成本的问题,重点是调用第三方大模型存在很多限制,会对自家业务造成影响。

"比如,你很难针对一些应用场景来做优化。"他举例,如果想做声音模拟和形象模拟的综合型需求,需要模型提供方提供综合能力,而一旦有一个技术点不到位,就会导致产品效果不佳。

吐槽效果之外,36氪还了解到业内有公司在通过算法优化的方式,期望降低大模型落地的成本。

但本质上,大模型无疑是一个天生适合巨头的生意――这从其成本投入上可见一斑。

从流程上拆解,构建一个大模型至少需要足够的数据处理、计算和网络能力。

拿流程上游的数据处理来说,无监督学习能解决一部分数据标注的成本,但此前的数据收集、数据清洗成本依然难以降低。而且这些工作经常需要依赖人工,难以完全工具化,

再看计算和网络,大模型的训练任务场景动辄需要几百甚至几千张GPU卡的算力。这意味着在算力之外,当服务器节点众多,跨服务器通信需求大,网络带宽性能亦成为GPU集群瓶颈,高性能计算网络也随之成为一个话题。

具体的数字更具说服力。有报道指出,Stability AI此前仅计算就需要花费约2000万美元。而如果仅拿大模型去做微调和推理,本地也需要好几千GB的内存。潞晨科技创始人尤洋也曾提及,想把大模型部署到生产线,若一个企业从零开始自己做会需要70人左右的人力。而在欧美地区光是养活70个人,成本就需要2000万美金。

大厂对大模型的高价入场券并不讳言。去年年底,一位国内头部互联网公司的数据部门负责人对36氪直言,如果中型公司想要复刻大模型之路,在他看来是一个十分不经济、不理性的行为。他进一步表示,就算是这家市值早超百亿美元的公司,做大模型的初衷也是为服务自身内部的业务――也就是让需要AI能力的各业务部门拥有统一的能力支撑,避免多重内耗。

所以,大厂收割底层大模型,中小公司选取更适合自己业务特点的大模型,并基于此建立起行业应用,是相对合理的路线。换言之,AI领域会重现国内云计算的格局。

大厂热情勃发,带来另一个有趣现象,就是自2020年起,中国的大模型数量骤增。根据统计,仅在2020年到2021年,中国大模型数量就从2个增至21个,和美国量级同等,大幅领先于其他国家。

来源:IDC

即便剔除大厂的劲头,这一现象的出现也有着国情合理性。首先,大模型底层更依赖工程能力,再加上中国作为人口和移动互联大国,数据量天然众多。这两个前提,让中国天生具备打造大模型的优势。

然而不论是国内还是国外,大模型都同时面临着一个灵魂拷问――当数据量越叠越大,底层算力又无法承载时,大模型之路是否还能走通?这一问题对中国来说更需重视,毕竟国内对底层硬件能力的突破,还处于漫漫征途中。

或许对中国的从业者而言,这次ChatGPT的爆红只是一个表面现象,更深的启示在于看到OpenAI对大模型落地的"自我迭代"。

毕竟,这家公司已用至少五年的自我博弈过程告诉所有人,一味"炼"就大模型不是目的,让AI真正可用好用,才是终章。

参考文献:

《透过ChatGPT的进化足迹,OpenAI传达了哪些信号?》,脑极体

《百度类ChatGPT产品将在3月完成内测 业内人士:谨慎乐观》,财联社

《ChatGPT爆火,揭秘AI大模型背后的高性能计算网络》,InfoQ