chatgpt是否开源 chatgpt如何开发出来的

双十一活动 2023-03-19 04:19:38 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

chatgpt,chatgpt国内能用吗,chatgpt怎么读,chatgpt使用

#科技之巅#

机器之心报道

编辑：张倩

【【淘密令】】是一个类 ChatGPT 开源工具包，内含一个 20B 参数量的大模型，而且该模型在 4300 万条指令上进行了微调。

2023 年，聊天机器人领域似乎只剩下两个阵营：「OpenAI 的 ChatGPT」和「其他」。

ChatGPT 功能强大，但 OpenAI 不太可能将其开源。「其他」阵营表现欠佳，但不少人都在做开源方面的努力，比如前段时间Meta 开源的 LLaMA。

除此之外，一个名为 EleutherAI 的开源 AI 研究团队也一直在贡献开源大模型成果。自 2020 年 7 月成立以来，该团队先后开源了基于 GPT-3 的、包含 60 亿参数的 NLP 模型 GPT-J，类 GPT 的27 亿参数模型 GPT-Neo，以及 200 亿参数的GPT-NeoX-20B。据悉，他们的最终目标是将开源模型的参数规模扩展到 1700 亿左右，就像 GPT-3 一样。

在 ChatGPT 火遍全球之际，EleutherAI 的这些开源成果派上了用场。一家名为【【微信】】的组织表示，他们基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 ――【【淘密令】】。

项目链接：【【网址】】/【【淘密令】】/【【淘密令】】

这个项目提供了一个强大的、开源的基础，可以为各种应用创建专门和通用的聊天机器人。具体来说，它包含：

一个参数量达 20B 的开源模型，该模型基于 EleutherAI 的 GPT-NeoX-20B，在 4300 万条指令上进行了微调；

一个参数量达 60 亿的审核模型（moderation model），可以帮模型过滤不当内容；

一个可扩展的检索系统，可以帮模型检索维基百科等资源库，从而给出最新信息。

根据【【微信】】提供的链接，我们可以粗略看到【【淘密令】】在摘要提取、问答、写作等方面的表现。以下是【【微信】】提供的一些 demo：

想要深入了解【【淘密令】】的读者也可以亲自测试。

测试链接：【【网址】】/spaces/【【淘密令】】/【【淘密令】】

从目前的表现来看，【【淘密令】】可能还不太令人满意。但在此开源项目的基础上，社区有望构建出更加强大的聊天机器人应用。

参数量 20B 的指令调优大模型

GPT-NeoXT-Chat-Base-20B 是构成【【淘密令】】基础的大型语言模型。它基于 EleutherAI 的 GPT-NeoX 模型，并通过专注于对话互动的数据进行了微调。【【微信】】在 Huggingface 上发布了这个模型的预训练权重：【【网址】】/【【淘密令】】/GPT-NeoXT-Chat-Base-20B

【【微信】】的开发者将模型调整的重点放在几个任务上，如多轮对话、问答、分类、提取和总结。他们用 4300 万条高质量指令对模型进行了微调，并与 LAION 和【【微信】】合作，创建了该模型所基于的 OIG-43M 数据集。数据集信息参见：https://laion.ai/blog/oig-dataset/

OIG-43M 数据集示例。

开箱即用的 GPT-NeoXT-Chat-Base-20B 为一系列广泛的自然语言任务提供了一个强大的基础。从质量上看，它在 HELM 基准上的得分比其基础模型 GPT-NeoX 高，特别是在涉及问答、提取和分类的任务上。

在 HELM 上评估 GPT-NeoXT-Chat-Base-20B 并与 GPT-NeoX 进行比较。?表示测试包含微调语料库中的数据。

模型长处

【【淘密令】】有几个任务是开箱即用的，包括：

1、将一份长的文件总结成一句话，并回答与该文件相关的问题，问答可进行多轮；

2、从非结构化文件中提取结构化信息，如下图所示；

3、将一个句子或段落分为不同的类别（比如情绪是积极还是消极）。

利用【【淘密令】】把一段长文字内容转化成图表。

模型短板

【【淘密令】】目前的短板包括：

基于知识的封闭式问答。该聊天机器人可能会给出不正确的结果，需要用户提供反馈；

代码相关任务。由于训练数据中没有足够多的代码，因此该聊天机器人在代码方面表现欠佳；

重复性。该聊天机器人有时会重复自己的回答，用户可以点击刷新，开始新的对话；

上下文切换。该聊天机器人不太擅长转换话题。

创意写作和较长的答案。该聊天机器人不会生成长的、有创意的文本，如论文或故事。

针对特定任务定制聊天机器人

在一般问答任务中，大型语言模型已经显示出令人印象深刻的能力。当为特定的应用进行微调时，它们往往能达到更高的准确率。例如，谷歌的 PaLM 在医学回答上达到了大约 50% 的准确率，但是通过添加指令支持和对医学特定信息的微调，谷歌创造了 Med-PaLM，其准确率达到了 92.6%。同样的方法也可以用于其他任务。

【【淘密令】】提供了一些工具来为专门的应用微调聊天机器人。其开发团队正在与研究小组和公司合作，帮助他们为各种任务创建自定义模型。这些任务包括：

教育助手：在开放的教科书数据集上进行微调，创建一个聊天机器人，通过自然对话帮助各年龄段的学生了解各种主题；

金融问答：微调并利用美国证券交易委员会文件等金融数据的检索，实现金融领域的问答；

客户支持代理：利用知识库数据进行微调，创建聊天机器人，帮助终端用户分辨问题并快速找到答案。

如何进行微调

微调需要的操作包括

准备好你的数据集，使用指定格式的交互示例；

将你的数据集保存为 jsonl 文件，并按照【【淘密令】】的 GitHub 文档对聊天模型进行微调；

不要忘记审核模型！在开始使用你的微调模型之前，请注意审核模型可能需要过滤的域外问题。如果有必要，准备一些调节数据并微调审核模型。

这个过程的文档和源代码可以在【【淘密令】】的 GitHub 链接中找到。由于【【淘密令】】在 Apache-2.0 许可下完全开源，你可以为自己的应用或研究深入调整、修改或检查权重。

用于实时更新答案的可扩展检索系统

【【淘密令】】还包括一个可扩展的检索系统。有了这个检索系统，聊天机器人能够将定期更新的内容或自定义的内容，如来自维基百科的知识、新闻提要或体育比赛成绩纳入回答中。

检索增强系统的工作流程示例。

审核模型在必要时进行干预

【【淘密令】】的最后一个组件是一个由 GPT-JT 微调的 60 亿个参数的审核模型。在聊天应用中，审核模型与主聊天模型同步运行，检查用户话语中是否有任何不适当的内容。基于审核模型的评估，聊天机器人可以将输入的内容限制在经过审核的主题上。当然，这个审核模型只是一个基线，用户可以根据不同的需求进行调整和定制。

在推理过程中，开发者进行了 few-shot 分类，将用户问题分为五类。聊天机器人只在问题落入允许的分类中时才会做出回应。

参考链接：【【网址】】/bl【【淘密令】】

Chat GPT为什么如此吸引人 ChatGPT具有颠覆性吗

6500字阅读大概需要15min

ChatGPT对我们未来生活到底会有哪些影响？

之前也写过一篇关于ChatGPT的文章了，而这篇文章会更倾向于理解ChatGPT的基础原理，以及现在别人都怎样使用它了？

为了让我们都能更好的认识到它的重要性，还有未来会对我们的生活造成什么样的影响？

这样之后我们才能更好的去接受它，并且开始有意识去学会使用它了。

经过这半多个月，断断续续又看了很多关于它的内容。感觉它最近以来都还是一直很火爆，并没有削弱。

其实在ChatGPT之前，谷歌也被爆出来过他们有一个叫LaMDA人工智能，内测的研究员都误以为它好像有人类意识。

但他们好像也不太想公开他们已经拥有这项技术，在后面文章再说一下原因。

当时，那个爆料谷歌有对话型人工智能的工程师，已经被谷歌开除了。

然后在这件事差不多半年后，ChatGPT在2022年的11月30号上线了。

一上线就引起恐慌，其实我在2月中旬也是看到大量的相关信息，会让人觉得难道都要失业了吗？

所以也促使我当时去了解它，然后写了第一篇关于ChatGPT的文章。《ChatGPT：机器人将如何取代人类的工作？》

?GO ON?

ChatGPT对我们生活到底有哪些帮助？

现在感觉得对程序员影响挺大？这段时间也看到很多程序员，去对ChatGPT进行测试。

我在刚开始注意到程序员在测试的时候，还是不停的说会出现错误。

有些人可能只是简单给它一个要求，可能写出来的程序可能还是会有很多问题。

不过过了一段时间再看到的一些测试，有些人还是比较认真的叫它写一个程序，他觉得它还是能特别好的实现他想要的。

然后他测试下来，他觉得只要你给它的要求合理准确，他就能给出你想要的。

如果你给的要求可能本来就不合理，那它可能设计出来的可能就会有些bug。

不过如果有错误的话，你还可以叫它帮你修改错误。

能让我们更方便的和计算机交流

你想要修改成怎样，你就用我们日常交流的语言和它交流就可以了。就不再是只有计算机认识的0和1才能沟通。

在目前来说基本也不存在什么语言障碍，有人说你写错了都没关系，字用不对也都没问题。

我觉得这个说的也没有错，因为它本来就可以根据你上下文的意思，尽可能去给出你想要的答案。

有人说这就是一个奇点了，以前都是在科幻片里看到的，因为本来不是学计算机的，当它能做到这些，还是感觉蛮神奇的。

之前也说到过，只用了2个月，用户就已经超过一个亿了，但到现在可能这个数字还在上升吧。

它的影响力之大，让谷歌都发出红色警报，就是当谷歌的核心业务受到严重威胁的时候，就会发出这个最高级别的code red。

这是谷歌自成立以来，第一次启动了这个红色警报。

虽然【【微信】】就是一个简单的对话框页面，就是只有一个对话的功能。但你什么都可以问它，健康，工作，生活娱乐，经济商业。

只要你问它就能给你回答，在某种程度上，比如，你咨询一些它心理或感情上的问题，可能也能成为你一个很好的心理医生。

或者很多不好和别人说出口的问题，你都可以问题，它也不会厌烦，还会给你反馈回复。

还有它很擅长总结，我现在发现notion也把这个功能引用到它里面了。比如你在一个notion内页面记录了很多东西。

可能自己的思路还有点乱，这时你就可以利用notion的ai去辅助你进行一个总结。

还有你想写一篇文章，这时你可以叫它给你写个大纲，然后再加叫它根据这个大纲再详细展开。

要多少字，然后你也可以给它一个范围，他就可以给你写出来了。

说几秒钟可能有点夸张，但是我用的免费版，可能它会需要点时间搜索，这得看你问的这个问题的复杂程度。

一般30s都会给你一个基本的答案了。

所以就像一开始出来的时候，会有学生用它来写论文。

最早是被斯坦福大学的教授发现的，就是那些平时不来上课的学生，论文都写的比往届的好。

然后在刚开始查重也查不到，后来就再调查才知道他们都用了【【微信】】。

别人觉得它都可以用它来写论文，然后美国有些教授就用它来考试，测试一下它这个能力。

结果，它可以通过MBA结业考试，还有法学的考试。

每个学校的通过率可能都不一样，但可能也不超过10%。

但它还是能通过这些考试，还是能侧面看出来它的确很厉害了！

不过为什么没有发现这些做试卷的不是人，因为它老是很容易在最基础的加减乘除上出现错误。

它就是这么厉害，同时你也无法很直观的肉眼看出来是ai写的。

然后美国高校，还有一些很有权威性的学术期刊杂志，会表示不会让这些ai生成的论文出现在他们的期刊上。

但这时也会有人觉得，很多人写论文可能也是在网上东拼西凑出来的。有必要去紧张它吗？

我感觉这最本质的区别是，一个是我们自己思考了，还有一个就是ai替你思考了。

因为问的一个问题，【【微信】】是直接给你答案了。不需要自己再去知识整理消化了，它帮你消化了。

但你又想了想，目前，它给出的问题也还是需要自己判断的。

从这个角度来看的话，以后我们也可能会更倾向于如何去提高我们的这个判断力。

能让我们的工作变得更高效

当有了这个【【微信】】，就有点像我们拥有了一个智囊团。它会给我们很多的意见，看法。

最后做决定的是我们自己。

所以如果这个工具是未来科技发展的一个趋势的话，那我们还应该去学习怎么使用它。

就像计算机出来后，我们就可以不用敲算盘了，我记得我以前小学的时候还学过算盘的。不知道现在还有没有。

感觉在某种程度上，对教育的有一定的影响。

在我不太了解【【微信】】的时候，其实都也是紧张的。但如果它是以后的一个发展趋势的话，我们接受它会更好。

我们总想身边有一些厉害的MBA或法学毕业的朋友，可能在我们出现问题时，给我们一些意见。

但对于我们普通人可能也不会那么容易，就算去咨询别人，也会需要支付一定的报酬。

但对于现在来说，我们人人都能拥有了，因为是免费就能去使用了。

不过就算它现在Pro版要收费，可能费用跟直接请一个顾问还是便宜很多。

按他们的说法，他们是觉得使用的人太多了，服务器可能有点承受不了，所以想通过收费缓解一下访问量。

然后用这部分的钱扩展服务器，能让更多人免费使用的上它。

它可以用来编程，写论文，MBA或司法考试，医学牌照。

还有进行一定的创作，比如写个几百字小说什么的。可能也就1-2分钟就能写好了。

现在就有一个日本人，用它生成一个故事，然后在借用其他的绘图ai生成一个漫画。

一些漫画家看了都觉得这个要人来制作的话，可能需要一年时间，但他直接把这个时间缩短了10倍，一个半月就做出来了。

漫画就是故事+插画，现在这些都可以用ai来辅助完成了。

他都没有什么制作漫画的经验。但这时只需要他有一个想法就够了。

另外它还能写诗歌，学习外语等等。

虽然说它目前制作出来的成果，可能还达不到非常的优秀，但也是能用的。

【【微信】】日本的负责人也提过，他也非常的好奇那些工匠精神的艺术家是怎样做的。

虽然它现在还达不到，但不知道以后升级到什么程度，是否以后就能做到呢。

其实看到这里，我们都能感受到它能在我们生活中对我们的影响，它已经不是那么的遥远了，就是我们现实生活中就已经使用上了。

ChatGPT撼动了谷歌的蛋糕

可能也理解了谷歌为什么会紧张的发出红色预警了。

因为在这个互联网发展的过程中，谷歌就是最大的一个搜索引擎，因为我之前也了解过搜索引擎。

我差不多在一年前看过一个搜索引擎的使用占比，谷歌就占了90%多。必应占了1-3%，百度好像只占了百分之零点几？

20多年来，你几乎可以说谷歌垄断着搜索的这个部分。我们都会把这个搜索行为成为谷歌。

就像我们说你去百度一下啊。

现在【【微信】】的出现，突然提供了另一种维度的搜索方式。

我们平常的搜索就是在谷歌或百度的那个对话框，输入我们想查找内容的关键字，进行搜索。

这时会搜出很多条相关的内容，然后你就要一个个点进去看，在筛选。

这个过程其实还是非常花时间的，你整个脑袋就一直要在分析，然后整理出你所需要的内容。

甚至查了一通，可能也没有找到合适的。

而【【微信】】就是只要你问它，它就能直接给你答案，就不再需要你自己去筛选和分析了。

有时你会发现它特别的慢，然后就一直loading…其实它就是正在搜索整理信息.

最后它给出的这个答案，你直接去判断就好了。

目前它也正在慢慢去提升它的一个准确度，这就是它需要努力的一个地方了，我们就是等着用就好了。

而谷歌因为搜索出很多东西可能并不是我们想看的。

可能从我们搜索的这个方式和目的，谷歌的这种方式不算最合理。

因为会跳出一堆差不多的内容，然后我们还要去再筛选，不过在这几十年来，我们也没有选择，只能这样去搜索。

奥特曼之前在采访中也说过的一个大概意思：

“谷歌在第一页的搜索结果，它实际是机器学习算法，所以当我们在搜索谷歌，人工智能能决定我们应该看什么？”

现在【【微信】】的出现，就改变了这种搜索的方式了，相对于谷歌的检索方式，就是一个降维打击，会更加的智能了。

对谷歌来说也是一个很大的打击，因为谷歌60-80%的收入都是来自这个广告。一般广告都是在检索出来的前几条。

如果你都不使用这个搜索了，那就没人去投这个广告了，60-80%的收入就没了。

所以谷歌就启动了红色警报。

【【微信】】的创立

而【【微信】】目前的收入来源，主要来自投资商，每天的消耗可能高达100万美金来运行。

目前关键是要获得大量的用户。

【【微信】】的服务是由【【微信】】开发的，2015年在硅谷成立的一家科技公司，一开始它是非盈利的。

后来2019年，【【微信】】也迫于资金的压力，转为收益封顶的营利组织，也不是而不是直接变成营利组织。

现在这家公司的CEO奥特曼，是一个投资家兼程序员，今年才37岁，就投资了很多非常成功的产品。

一开始最早时候的投资人是马斯克，但后来在2019年就退出去了。

微软注资加入【【微信】】

后来2019年微软就向【【微信】】投资了10亿美金，目前微软就占49%的股份，所以公司的运营权还在奥特曼手上。

不过以后75%的利润归微软所有，并且所有的功能只能在微软的产品上使用。

今年1月23号微软又投了100亿美金，微软以前也从来没有在任何产品投过100亿。

要把【【微信】】整个到微软所有的产品中。就比如让office这些产品变得更加智能。

感觉我们现在很少再提起微软了，我们现在可能会更常听到谷歌，亚马逊等。

就在2月7号，微软把【【微信】】加入必应后，bing成为了下载最多的浏览器，以前谷歌的第一从来没有被反超过。

谷歌市值蒸发1000亿美元

然后第二天谷歌就紧急发布，将会在接下来几周内发布一个对话型人工智能“bard”。

其实他们手里一直都有一个人工智能，这个是建立在LaMDA上的，可能算是它的一个优化版。

然后当天40分钟的发布会中，前面还是介绍以前的搜索有多厉害。

然后中间又出现演讲者找不到手机，后面再介绍bard就几分钟就没了。

最后还发布了一个bard内测的视频。

但是就这么一个10s左右的“bard”的对话的演示视频，里面就有1/3 的答案是错的。

可能问题错了也没啥，像ChatGPT也还是会有错误。

所以现在说要不是谷歌没发现，要么是谷歌承认他们这个“bard”就是不行。

不过他们整个40分钟的一个发布会，从侧面会看出谷歌显得非常的仓促，都没有准备好。

所以才引起了投资人的恐慌了，纷纷抛售股票。所以谷歌当天的股价暴跌，瞬间挣发了1000亿美元。

很多投资人担心谷歌会在这个人工智能上输掉，因为未来如果搜索引擎没有需求的了，80%的收入就没了。

Chatgpt为什么这么厉害？

只是这个模型不断的发展，可以让我们都能使用上的地步，也开始发现它的智能。

所以【【微信】】不是一夜造就的，只是在现在对我们产生了巨大的冲击，

文字是【【微信】】的一个强项了，它生成文章的速度很快，网络上也有很多ai生成的文章，我们平时也是很难分辨的。

所以现在也开发了很多ai识别，哪些是ai写的文章，或是ai用户。

不过有些媒体觉得，应该多利用【【微信】】这种工具，可以利用它培养一些ai记者。

这也有很多好处，ai没有政治倾向，会比较客观。而且写稿不花钱，速度还快。

不过就是随着人工智能的训练复杂度越来越大，开发的设计师已经不知道这个人工只智能怎么得出这个结果的。

就是它神经网络的复杂程度，我们已经很难理解了。就像我们人脑的神经网络，就非常的复杂了。

人类的思维复杂度可能还是有限的，但它只是需要芯片，越多它的计算力就越强，可能都可以说没有上限。

我们只知道给它输入什么数据，可能会得出一个什么样的结果，但对它中间这个这个神经网络的复杂度，我们已经很难理解了。

现在会产生一个很现实的问题.

它会造成很多人失业吗？

就是当我们有了他之后，在某种程度上我们是不需要在学习了，他什么都知道，你问他就可以了。

有人说：

“人类如果不需要学习，那么我们就不再需要技能，也就没有工作机会。

就可能你工作也没用，因为你效率比不过他，就比如你是一名记者，你写新闻稿肯定比不过。

然后也有人提出，他觉得程序员以后也可能面临事业，就算现在没失业，过两年风险也很大。

就连搞系统设计的，可能也渐渐不需要了。因为我们是可以直接跟他说自己的要求的，然后它就能给你答案了。”

我感觉一些基础的一些回复问题，我们现在基本上是不需要了。

最近不是说【【微信】】的API开放了吗？

其实这个消息好像没公布前，我就看到有人利用它的key去进行一定的设置，然后实现自动化回复了。

的确是能达得到的，我们只要经过简单的设定，我们就能拥有一个为自动化为我们工作的机器人。

这时我们可能会想，我们要掌握什么样的技能？ai是比不过我们的，然后掌握好这个就不会失业了。

其实你只要想想，现在这个API接口是开放的，我们只要把这个【【微信】】接出来，就像现在有图像处理等等的。

所以就算它今天还不会，但可能明天也是会的，没什么我们可以做的到的，它做不到。

现在它只是一个聊天窗口，就像只拥有一张嘴在回答你的问题，但以后可能拥有身体。

如果就算是设计，当它拥有一个身体，它也可以拿着一支笔再画草图了。

所以从根本上，我们不能考虑要在哪一方面超越它。

它将会成为我们得力的助手

在目前来说，ai只是机械化的完成一件事，他并没有思考为什么要做这件事。

它只是接受我们人类给它的要求，去进行一些操作。

去回答你的问题，帮你写论文，写故事，画个图，它是没有任何目的性的，它只是在帮助你。

从这个角度来看，我们不需要去考虑和人工智能产生竞争，以后还是人与人之间的竞争。

以后竞争的可能不是个人的技术的能力差，而是控制ai的能力差。

ai没有自主目的性，它就是一个工具，就像计算机，刀子啥的。

你说它很锋利，但它只是一个工具，你可能怕的是用刀子的人。

ChatGPT只是短时间的炒作吗？

现在可能会看到有人说“①【【微信】】可能也是突然爆火而已，就像Clubhouse、Web3，又炒作一波。

但也有人说②它并不是一种流行，它是一种技术革新。它是一个奇点，会改变我们的未来，而不是阻碍。”

我更倾向于第二种。所以我们可以越早接受，越早学会使用。

这时可能有些人说“目前对他的生活也没有太多影响”。

其实我已经看到有一些软件已经借助它赚钱了，比如开发一些生成头像的软件，还有很多自动化的一些工具的研发，其实就是利用了它。

不过可能也会有一些职业会失业，每当有一个革新的技术工具出现，可能会有一批人失业。

就像电脑的出现，一些搞计算的就会失业，有一部电影《隐秘的人物》，她们是在NASA 做计算和核实数据的。

当计算机出现后，她们也开始担心自己是否会失业？

不过这些工具某种程度上不是我们的敌人。其实最终还是人和人之间的竞争，不是我们和工具竞争。

还是开头那里所说的：

当我们都能更好的认识到它的重要性，还有未来可能会对我们的生活造成什么样的影响？

这样我们才能更好的去接受它，并且开始有意识去学会使用它了。

这也是我思考的一个过程，希望也会对你有所启发，下期再见！

本文地址： https://www.xxs100.com//show-404744.html