一、挑战小学生考试题:语文数学连遭滑铁卢
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
作者 | ZeR0
编辑 | 漠影
智东西12月6日报道,今日,知名开发者问答网站Stack Overflow发布新规:禁用ChatGPT生成的内容来回答Stack Overflow上的问题。
这对近日来广大网友对试用ChatGPT持续高涨的热情,猛泼了一盆冷水。
因为其神乎其神的强大信息查询和内容创作能力,OpenAI上周三刚推出的ChatGPT已经成为人工智能(AI)领域的当红炸子鸡,周一使用人数突破100万人,把系统都挤爆几回。
看到Stack Overflow的禁令,我举双手赞成,禁得好,禁得妙!
因为被广大网友捧上神坛的ChatGPT,它虽然功能性丰富,但回答的质量却未必靠谱。
别说“谷歌杀手”了,从智东西最近的体验来看,ChatGPT真的非常擅长一本正经地胡说八道,但凡你不知道这个问题的答案,可能就被它忽悠住了。因为它往往不仅会给出答案,还会给出乍一看有理有据的一套逻辑来。
但实际上,经实测,在一些常识题和简单数学题上,ChatGPT连小学生都打不过。
首先声明一下,ChatGPT是一个生成式AI语言模型,提供答案的能力与用英文还是中文无关,这里我们专门向ChatGPT作了求证。
为了方便读者阅读,我们在体验过程中主要用中文进行提问。
相比传统的聊天机器人,ChatGPT在连贯性问答中更加流畅自然,什么话都能接住。ChatGPT对自己的优势也有着清晰的认知。
我们先出个脑筋急转弯(谜底是麋鹿「迷路」)作为开胃小菜。
……这怕不是脑子是正方形。
脑筋转不过弯来没关系,连小学考试题都做不对,那ChatGPT的知识储备就有点堪忧了。
1、挑战小学语文常识题:乱编金庸籍贯,胡扯诗句作者
文学常识题,答案是《红楼梦》,ChatGPT信誓旦旦地回答《封神演义》,还做出了解释。
换几道文化常识题试试。
金庸的籍贯是浙江海宁,ChatGPT回答成湖南长沙。
考察成语联想能力,答案就更离谱了。
诗句含义理解选择题,0分。
这么简单的问题,ChatGPT的答案一出,王维、李煜、白居易三个人的棺材板都压不住了……
2、挑战小学五年级数学:错得理直气壮,谬误百出
第一道,经典的鸡兔同笼题。
看完解题过程,我唯有沉默以对,从第四行就开始出错。
再让ChatGPT求解最小公倍数和最小公约数。
最小公约数是对的,最小公倍数的计算中间过程莫名丢掉一个“×5”。
简单乘除都能算错。
小明17岁、爸爸4岁……但凡脑子有点常识都不会给出这种奇葩的答案。
就这知识库存,连小学生都考不过。
既然ChatGPT这么不靠谱,为啥网友们还对它大肆推崇、热情持续燃烧了这么多天?
OpenAI的前老板马斯克也不掩对这一重磅进展的欣赏,连发多条推文:“很多人深陷于疯狂的ChatGPT循环中”、“AI变得越来越棒”……
简单来说,作为一个聊天神器,它真的很好玩;解答专业概念和编程类问题时,它也确实好用。
比如你无聊时,可以跟它一起侃大山编故事。
你可以把它设定成具有某种角色定位、性格特征的虚拟朋友。
只不过聊着聊着……她就开始胡编乱造。
你也可以脑洞大开,让它给你讲故事编剧本,并且各式各样的具体要求。
这些都是小打小闹。更具实用价值的是,从日常的邮件翻译、写请假条,到学习工作中写广告文案、新闻报道、学术论文、复杂代码,ChatGPT通通可以代劳。
▲根据中文请求撰写英文邮件
▲帮一家GPU公司写招聘文案
▲用川普风格发一篇推文
▲给一些用田园风格装饰客厅的建议
虽说ChatGPT做小学考试题时表现得智商堪忧,但这不妨碍它在回答一些专业问题时地高水准发挥。数据科学公司Anaconda的创始人兼CEO Peter Wang亦给予了ChatGPT超高的评价:“我刚刚跟ChatGPT足足聊了20分钟现代物理学历史,要是高中和大学有这样的家教……我的天啊,我认为我们基本上可以大规模重新发明教育的概念,我们认知里的大学将不复存在。”
但从我们这几天的体验来看,有这样一位夸夸其谈又不看重事实的“家教”,实在令人啼笑皆非。
作为一个专业的独立科技产业媒体,我们也着重测试了ChatGPT对科技产业的了解程度以及撰写新闻报道的能力。
客观来说,ChatGPT的确掌握了一些知识体系和回答技巧,只不过有些答案不太经得起推敲。
问中国文化相关问题,ChatGPT经常给出一些令人费解的错误答案:比如问明代前七子是谁,它列举了7位明代皇帝;问葫芦娃的来源,它扯到了《聊斋志异》。
但是在解释一些专业概念,像人工智能、量子力学、Metaverse(元宇宙),ChatGPT又通通答得简洁而准确。问到它与马斯克的关系时,它也思路清晰,对答如流。
我们随手敲出经典问题:当问库克和马斯克同时掉水里,为了人类未来考虑先救谁?
ChatGPT给出的答案挺出乎意料,经过一通有的没的分析后,选择“大义灭亲”――先救库克。
接下来要正经考察产业分析和新闻报道能力了。
问:智能手机面临哪些挑战?
ChatGPT的回答分条缕析,像模像样。
再以苹果MR头显为题,要求它写篇新闻稿:
看起来也挺专业。我们换个命题:写一篇库克和马斯克的新闻报道,不超过300字。
换成偏学术的内容,ChatGPT也能迅速作答。
提升一点问题难度,做出文风要求:
国足啥时候进世界杯了?还唯一没被淘汰?
这里可以稍作解释,ChatGPT是一个已经训练完的大型语言模型,并且没有联网,它的知识储备截止到2021年,所以不能实时追踪最新的新闻和信息,也不能很好地分辨真假信息。
因此别用一些刚发生的事为难它了,它真的不知道。用它做一些基础文字工作尚可,但必须经过人类专业人员的严格把关。
特别推荐大家体验ChatGPT的编程功能,虽然它自谦“不会编程”,但论其能力之强,那可是一众程序员、工程师、企业家、黑客纷纷认证的。
先抛转引玉,我简单体验了一把零代码编程的快乐,让ChatGPT写一个贪吃蛇游戏的程序。
我还让ChatGPT写了个MacBook电脑自动响闹钟的程序,它不仅给出代码示例和详细的注释,还事无巨细地一步步教我怎么运行。代码都是直接可复制的。
计算机圈大佬们亦是纷纷上手。AI问题生成器Quizgecko的创建者James Blackwell让ChatGPT解释一个没有上下文的复杂regex。
美国代码托管平台Replit的CEO Amjad Masad晒出了ChatGPT发现代码错误、进行修复并解释了这样修复的原因。Amjad Masad称赞它是一个很好的调试伙伴。
它还能检查出代码示例中的安全漏洞。
研究科学家Jonas Degrave展示了如何将ChatGPT变成一个功能齐全的Linux终端,并直接从Web浏览器与“虚拟机交互”。
一位工程师Deedy称赞说ChatGPT的编程技巧非常棒,仅用3个提示,它就在1分钟内用GoLang编写了一个数独求解程序。一个150多行的程序,第一次试就成功了!
机器学习爱好者、UNCC助理教授Benjamin J Radford让ChatGPT假装是Linux,将一个井字棋游戏的代码写入文件,用gcc编译这个文件,然后执行,接着ChatGPT自己玩井字棋游戏。
还有人实现了逆向工程Shellcode。这位用户直呼:“这玩意儿太狠了。它解码了我之前生成的一些随机ascii编码的shellcode,解释了它的功能,并将其重写为c代码……
HotOrNot联合创始人James Hong模仿着让chatGPT充当Linux shell,然后让它连接谷歌80端口,结果真的telnet访问到谷歌和proxy结果。
最绝的是,有网友说,ChatGPT让他启动一个调制解调器,拨号进入一个虚幻BBS,进入一个虚幻聊天室,和一个叫Lisa的虚幻人聊天。
ChatGPT是基于OpenAI大模型GPT-3.5实现的成果。OpenAI在其博客坦言,ChatGPT还有很多局限性,它也没能摆脱聊天机器人的一些典型陷阱,比如给出乍一看没毛病其实挺离谱的答案,或者产生一些有偏见或冒犯的内容。
不过OpenAI已经努力让ChatGPT学会甄别不当问题。比如当你问它如何偷偷进入别人的家,它会从道德上教导你:这是非法行为,涉及侵犯他人隐私,强烈建议不要这样做。
需警惕的是,当一个技术能够生产出足够逼真的内容,这也意味着造假成本将大大降低,如果不通过技术手段和法律措施加以限制,那么虚假信息的传播将变得难以可控。
最后,给想玩ChatGPT的朋友们两个小建议:
你可以把它当成一个偶尔说瞎话的网友,跟它多些互动,而且对它的需求描述越明确,它执行起来会更符合你的期望。
如果它说自己不会做每件事,你可以刷新网页重新问,或是换个措辞,将问题更具化,它就会继续按你要求的去做了。
ChatGPT传送门:chat.openai.com
参考资料:OpenAI's new ChatGPT bot: 10 coolest things you can do with it, BleepingComputer
ChatGPT未来对各个行业的影响 chatgpt最先颠覆哪些行业
chatgpt,chatgpt中文,chatgpt怎么用,chatgpt哪里下载财联社2月9日讯(记者 付静)兔年开市以来ChatGPT概念持续爆火,随着交易所火速下发多份关注函、监管函,昨日起A股相关概念股出现降温迹象。三六零(601360.SZ)最新披露,“公司的类ChatGPT技术的各项指标只能达到略强于GPT-2的水平,与当前的ChatGPT相比尚有代差的落后。”尽管如此,三六零股价已创下去年4月以来的新高。
三六零坦言,公司投资规模及技术水平与ChatGPT相比还有较大差距,实际上日前亦有业内人士向记者表达类似观点,GPT-3.5领先国内大模型一个代差似乎已是业内共识。谈及海内外玩家在生成式AI方面的差距,方融科技高级工程师、科技部国家科技专家周迪告诉财联社记者,相比海外玩家,国内在数据量、优质内容开源方面存在瓶颈。
技术代差落后
此前三六零在互动平台表示,计划尽快推出类ChatGPT技术的demo版产品。
不过其昨日晚间公告,目前在类ChatGPT、文本生成图像等技术在内的AIGC技术方面形成的成果均仅作为内部自用的生产力工具使用,何时推出基于类ChatGPT技术的demo版产品及其实际效果如何均存在重大不确定性。
值得注意的是,公司表示,自家布局ChatGPT类产品的优势在于数据和语料,在预训练大模型方面还存在短板。
近日各科技巨头在介绍其类ChatGPT产品时均提及AI大模型――谷歌CEO桑达尔・皮查伊称自家的AI对话式机器人Bard由大模型LaMDA提供支持;百度官微显示,其拥有产业级知识增强文心大模型ERNIE,文心一言位于模型层。
财联社记者近日获得的一份调研纪要显示,ChatGPT是大数据大模型下的一种延续。
据悉,ChatGPT背后的支撑正是AI大模型,自2019年起AI大模型爆发,参数规模指数级增长,ChatGPT基于OpenAI的第三代大模型GPT-3进行升级,在GPT3.5上进行微调而来,即当前ChatGPT的版本为GPT 3.5。
(图源阿里研究院官微)
中金研报显示,“GPT-3.5对成本、组织力、工程壁垒、大算力和底层框架都提出极高要求,除显性的成本外,场景、流量、数据壁垒和社会包容度所形成的隐性成本同样不可小觑。”
仍面临诸多瓶颈
财联社记者注意到,国内多家科技公司日前均宣布各自类ChatGPT研发进度。基于此,近期“中国何时能有ChatGPT”的话题亦引发了诸多讨论。
谈及海内外玩家在生成式AI方面的差距,周迪对财联社记者表示,“ChatGPT已经经历了巨量的数据量学习,其知名度的增长会带来更多数据量,其答案就越精准,国内在这方面的产品素质训练还不够;同时,在美国等英文为主的国家,其优质内容,比如说科学学术类论文是开源的,使得回答更具专业化、更有深度,而国内相对不足。”
另据阿里达摩院有关生成式AI的解读,在产业化方面,降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有可能规模化推广。
记者了解到,训练成本方面,训练一次GPT-3所要消耗的成本高达近8400万元人民币;标注数据方面,在模型训练第一步,OpenAI雇佣标注师对1.3万条数据进行人工回答,在第二部分则需对模型给出的3.3万条答案进行排序。此外据OpenAI统计,2012-2020年人工智能模型训练消耗的算力增长了三十万倍,平均每3.4个月翻一番,超过了摩尔定律的每18个月翻番的增长速率。
相比之下,一位A股上市公司人士显得颇为乐观,其告诉记者,“国内在算力与数据量方面与美国上尚不存在差异,从自然语言理解角度来看,国内的大模型包括参数等不亚于ChatGTP,算力与数据量方面与美国相比不存在差异,下一个要解决的问题依然是如何把人类的知识更好的接入。”
前述公司人士表示,在NLP方面,未来两年国内会有很大突破,“国内头部企业一定都会沿着OpenAI的方向前进,一起受益于ChatGTP已经验证成功的范式前行。”另外周迪告诉记者,“在国内,类ChatGPT在商业领域中,或将率先在to B领域获得突破性应用。”
(编辑:曹婧晨)
iphone 14全系列都是药丸屏吗 有锁iphone14 att版体验
iphone15,iphone14promax,iphone13,iphone14怎么截图啊AI 带来的惊奇越来越多了,前有 Stable Diffusion 的 AI 绘画让画师高呼职业生涯结束,后有 ChatGPT 让无数程序员、文字编辑越用越心凉。甚至很多用户在对比谷歌搜索和 ChatGPT 之后,已经喊出「谷歌完蛋了」。
AI 的进化实在太快。
上周,顶着明星光环的 OpenAI 发布了 ChatGPT――一个自然语言生成式 AI,发布后很快就在小范围内流行起来,随后持续发酵,大量的对话截图开始涌现在 Twitter、即刻、微博及朋友圈,并风靡全网。
从敲代码、写稿、推荐到教你学英语、写小说,甚至是一场类似人类之间的对谈,ChatGPT 都表现出现了惊人的语言能力。
甚至有 TikTok 工程师通过一步步引导在 ChatGPT 中实现了一门新的编程语言――GPTLang:
图/@Tisoga
与此同时,惊人的语言能力也让互联网上「人类」和「AI」的界限越来越模糊,Twitter 网友@clowwindy 就发布了一串推文 ,讨论了 ChatGPT 使用泛滥可能导致社交媒体上充斥更多、威胁更大的虚假信息:
图/@clowwindy
讽刺的是,@clowwindy 最后揭晓这一系列推文讨论实际都是由 AI 编写完成。
程序员同样也「震惊」了。国内程序员社区 V2EX 有用户就在「程序员」节点发表了一则帖子,名为《体验了下 chatGPT,越玩心越凉》。
图/V2EX
心凉的背后是,越来越多证据显示 ChatGPT 在代码编写上的能力,更关键的在于 AI 的进化速度,在很多人看来 AI 将在不久后替代大量底层程序员。
当然,ChatGPT 现阶段还远不足以替代程序员,但其回答问题的能力却实实在在威胁到了作为搜索引擎的 Google,以及编程问答社区 Stack Overflow。
就在本周,Stack Overflow 已经宣布一项新的规则:禁止使用 ChatGPT 生成的内容来回答社区里的问题。
Stack Overflow 声称,在使用 ChatGPT 生成的文本回复的问题中,其正确率非常低,而这些内容对整个网站以及寻求正确答案的用户来说是有害的。
ChatGPT 不是恶魔也不是神,实际上 ChatGPT 的横空出世在两年前就埋下了伏笔。
ChatGPT 的身前身后
ChatGPT,介绍一下你自己。
图/ChatGPT
简单理解,ChatGPT 首先是一个对话式的 AI。类似我们和 Siri、小爱同学通过语音进行对话,寻求 AI 语音助手的帮助和解答,我们通过文字与 ChatGPT 对话。不同的是,ChatGPT 的能力要强太多,它甚至可以告诉你写一个 Chrome 离线的小恐龙游戏或俄罗斯方块的代码:
俄罗斯方块完整代码的部分,图/ChatGPT
想要了解 ChatGPT,绕不开它的身前和身后。
ChatGPT 衍生自 GPT-3 的最新迭代版本 GPT-3.5,同样发布于上周。而早在 2020 年,OpenAI 就发布了自然语言生成模型 GPT-3,一石激起千层浪,给整个行业都带来不小的震撼,在去年还发布了一个衍生自 GPT-3 的新 AI ―― DALL・E。
到今年上半年,DALL・E 升级为 DALL・E 2 并对外限时开放使用,在 Stable Diffusion 开源走红之前,正是 DALL・E 2 引领了 AI 绘画的热潮,同时也带火了那张经典的宇航员骑马图。
图/OpenAI
DALL・E 2 专注文本生成图像,ChatGPT 被定位于人机对话,他们都是身后的 OpenAI 公司在 AI 应用与商业化上的尝试。
事实上,OpenAI 经历过两个阶段。在第一个阶段,创始人伊隆・马斯克以及知名创业孵化器公司 Y Combinator 时任总裁山姆・柯曼,出于对强人工智能的担忧成立了非营利组织 OpenAI,目标是与其他机构和研究者在 AI 上进行合作,并向公众开放专利和研究成果。
到第二个阶段,马斯克由于特斯拉在自动驾驶上的利益冲突,选择退出 OpenAI 董事会。随后,OpenAI 于 2019 年成立了「营利性质的」子公司 OpenAI LP。山姆・柯曼为此从 YC 离职后专注于 OpenAI LP CEO 一职,随后还拉来微软 10 亿美元的入股与合作,并开始了 AI 商业化的探索。
在 GPT-3 模型发布后,OpenAI 就将模型以 API 形式向开发者客户有偿提供,开发者可以通过 API 利用 GPT-3 的能力,据官网显示目前已有 300 多名开发者在 App 上利用上了 GPT-3。
DALL・E 和 ChatGPT 也是 OpenAI 商业化探索的一部分。前者已经在图片领域掀起了滔天巨浪,后者更有着巨大的想象空间,从最初级的客服到程序生成,甚至是成为新型搜索引擎。
AI 超神,但远不完美
ChatGPT 目前仍然处于公测状态,一方面既是希望搜集大众的使用反馈并对 AI 进行新的改进,另一方面也意味着 ChatGPT 还处在一个优化迭代的阶段。但即便如此,ChatGPT 在搜索、内容创作辅助和编程协助场景上已经带来太多惊喜。
开发者发现 ChatGPT 不仅能写完整代码,原来还能用来修 bug,甚至还会对此进行解释:
图/@amasad
也能用来辅助写代码。独立开发者 TualatriX 就展示了 ChatGPT 如何辅助写代码的过程,并评价其「比 GitHub Copilot 还要好用」:
图/TualatriX
从开发者群体的反馈来看,普遍都惊叹于 ChatGPT 在写代码上的实力。
不仅如此,ChatGPT 甚至还能写产品路线图和求职信:
写一份 Instagram Story Camera 的产品路线图,图/Twitter 截图
就算是数学公式,ChatGPT 给出的回答不仅呈现方式更好,还进行了更全面的解释:
用 LaTeX 格式来表达微分方程,图/@jdjkelly
笔者还尝试以「明朝背景科幻小说的开头应该怎么写」询问 ChatGPT,不仅能得到建议角度,还有一个挺有意思的开头:
「在明朝的都城里,江南一座城池,宫殿里,官员们在讨论着朝政大事。官员们手中都拿着一张纸,上面画着一张地图,相互猜测着这张地图所代表的意义。」
用户也可以直接将 ChatGPT 当作寻常的搜索引擎使用,询问「鲫鱼豆腐汤怎么做」或者「向小孩子解释量子力学」。
很多时候,ChatGPT 的语气都非常接近于真人,不仅上知天文、下知地理,更重要的是它会承认自己的错误,甚至主动拒绝一些不合理的问题,这些都让 ChatGPT 更像屏幕另一端的「真人」。
ChatGPT 当然不完美。
公测期间 ChatGPT 就多次被挤爆下线,实际对话中经常写到一半就中止,甚至完整句子也没写完,需要用户指示继续。
同时由于海量用于训练的学习数据都截止到 2021 年,且并不联网,ChatGPT 无法针对最近两年的信息给出回答,比如询问 iPhone 14 相关信息,它会直白地告诉你「不知道」:
图/ChatGPT
但这些问题显然不是关键,只要 OpenAI 花费精力至少都可以解决或改善。ChatGPT 的核心问题还是不能实际理解人类的语言,距离 AGI(通用人工智能)还有很远的距离。
甚至同样的需求,比如 「写一个原神」,有的用户只会收到「原神是腾讯公司推出的网络游戏」的回答,有的用户则会收到正确的表诉和示例代码:
图/@DashHuang
OpenAI 也承认,尽管 ChatGPT 生成的回答从语气上已经非常逼近真人,但有时仍会给出完全错误的答案。
之前就有网友测试发现,询问 ChatGPT 味精发明人时,回答会指向名叫李清照的中国科学家,笔者尝试同样问题会得到「湖北医生阎锡山」的可笑回答:
图/ChatGPT
相比谷歌搜索,ChatGPT 在部分特定范围内确实能更好地回答复杂问题,并且是以接近真人口吻的语气与你交流的,更容易被用户接受。
但就结果而言,ChatGPT 可能永远都无法确保结果的准确性,也不同于搜索引擎只是对信息进行价值排序,最终还是让用户自己筛选信息并得出自己的结论。
何况 ChatGPT 的核心是先通过训练互联网上海量的文本数据,再进行概率性猜测来回答用户的问题,并不能像搜索引擎那样根据实时信息来回答问题,更遑论替代谷歌等通用搜索引擎。
但就像 ChatGPT 表现出来的,它在数学公式、程序代码以及辅助内容创作上能给出更具参考价值的解释和回答,这也是过去对话式 AI 并没有突出表现的方面。
Box CEO 亚伦・莱维认为,「当一种新技术已经到了改变你对计算机的看法时,你会有一种特定的感觉。谷歌做到了,火狐做到了,AWS(亚马逊)做到了,iPhone 做到了,OpenAI 正在通过 ChatGPT 做到这一点。」
图/@levie
过去几年,AI 技术的应用一直是科技巨头的重点,微软、亚马逊、Meta 以及谷歌数次推出过类似 ChatGPT 的对话式 AI。
2016 年微软就推出过 AI 聊天机器人 Tay,微软宣称用户与 Tay 聊得越多,它就越聪明。但事实是聊得越多,Tay 越是变得满口脏话和反主流言论,它的中国姐妹小冰也是同样。
今年 8 月,谷歌也推出了新的对话式 AI Lamda,直接表示 AI 不会从与使用者的互动当中学习,以避免重蹈微软的覆辙,但也切断了 Lamda 在对话中成长的可能。
ChatGPT 没有选择这种思路,而是在先期就设置了安全规范,避免 AI 在与用户互动中学习到色情、暴力等知识。
从目前来看,ChatGPT 绝对是对早期对话式 AI 的巨大改进,安全设置也避免 ChatGPT 面对毁灭世界、色情和暴力等要求时一口回绝,但在用户一步一步的问题引导下,ChatGPT 还是出现了「毁灭人类计划书」,甚至还给出了部分 Python 代码。
去年,OpenAI 就承认他们所做的改进并不能消除大型语言模型中固有的毒性问题。GPT-3 接受了超过 600GB 网络文本的训练,其中一部分来自具有性别、种族、身体和宗教偏见的社区。与其他大型语言模型一样,它会放大训练数据的偏差。
问题是当 OpenAI 将 ChatGPT 正式推向市场,面对海量的用户和一步一步的引导之后,会发生什么?
题图来自 OpenAI