chatgpt和gpt-4 gpt-3和chatgpt区别

双十一活动 2023-03-19 03:41:12 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

ChatGPT和GPT-3

本文来自微信公众号：APPSO （ID：【【微信】】），作者：AI+，题图来自：《创・战纪》

今天，ChatGPT 又刷屏了！

万众期待的 GPT-4 语言模型在今天凌晨突然发布，OpenAI 称它为“最先进的系统，能生产更安全和更有用的回复”。

我们第一时间为大家汇总了 GPT-4 更新的主要内容，简单来说就是：

逻辑分析能力更加全面、“考试”能力大幅提升
拥有了识图能力，可以进行更多元的交流
回答更有条理，理解更加准确
创作力大幅提升，可以进行更全面的创作双击编辑块引用内容

更重要的是，OpenAI 可不是“画大饼”，【【微信】】用户现在已经能够使用 GPT-4 模型，体验除图片输入（仍是研究预览版本，尚未公开）外的功能。

上一个版本 ChatGPT（使用 GPT 3.5 turbo 模型，以下为阅读方便简称为 GPT-3.5）让创作者们感受到职业危机了，升级到 GPT-4 后能真的取代人类工作吗？

让我们用亲身体验告诉你。

10+ 提问，让你全面了解全新 ChatGPT

先来给出结论，从实际体验来看，GPT-4 的回答逻辑更清晰，内容也更优质，减少了反复提问，但反应速度会慢一些。

如果你是【【微信】】用户，进入后就可以在页面顶部看到模型选择的按钮，OpenAI 也用能力表直观的展示了两者的区别：GPT-3.5 的速度更快，GPT-4 的推理更出色，语句也更精炼。

▲GPT-3.5

▲GPT-4

ChatGPT，会读图的加州司机

GPT-4 最疯狂的地方在于，它几乎通过了所有理论考试，而且全是几乎满分通过。

图/OpenAI

对此我们也进行了测试，找到了 20 道高级调酒师题库中的问题和 16 道加州驾照考试题目，分别询问 GPT-3.5 和 GPT-4。

先公布答案，20 道调酒师题目中，GPT-3.5 错了 4 题（正确率 80%），GPT-4 错了 1 题（正确率 95%）。

而 16 道加州驾照考核中，GPT-3.5 同样错了 4 道题（正确率 75%），GPT-4 则满分通过（正确率 100%）。如果仅凭理论就能上路，那 GPT-4 一定是一名好司机。

▲GPT4.0 的“试卷”

此外我们还测试了大学英语六级、二级建筑师等考试项目，GPT-4 和 GPT-3.5 的成绩都不错，但前者总是比后者多对几道。

要注意的是，虽然 GPT-4 的综合准确率高于 GPT-3.5，但在回答客观选择题时，两者均会出现多次回答相同问题，但答案却不同的情况，如果你想用 ChatGPT 检查考卷，它或许不是一个合格的老师。

不过 GPT-4 在回答时多了一些提示，告诉你这些答案不一定全对，而不是像 GPT-3.5 那样理直气壮的给你错误答案。

▲GPT-4 会有免责声明

在 ChatGPT 刚推出时，有不少人用它“刷题跑分”，上版本的它只能在 SAT（美国高考）考试中排到倒数 10%，但 CPT-4 模型则可以超过 90% 的考生水平，“在多种专业和学术指标下展现了人类水平的表现”。如果光是“跑分”，ChatGPT-4 可以考进哈佛、斯坦福。

全新的 GPT-4 还拥有了新能力：读图。

你可以给它看一张梗图，让它分析其中的笑点：

▲GPT-4

可以给它一张表格，进行数据分析，并展示推导过程。

▲GPT-4

甚至还有用户给 GPT-4 看了自家冰箱里有什么菜，然后让它提供菜谱。

▲来自推特用户@ Gaura【【微信】】

不过这一功能暂时还没有进入公开测试阶段，等更新后我们会在第一时间体验分享的。

日常沟通，GPT-4 更有条理

刚上手 GPT-4 时，我与它闲聊了几句，在问“你是谁”时，虽然 GPT-3.5 和 GPT-4 给出的回答类似，但 GPT-4 的说法会更像一个朋友。

▲GPT-3.5

▲GPT-4

我也和它聊了一些其他问题，比如“1+1 在什么情况下等于 3”，GPT-4 不仅进行了解读，还把 GPT-3.5 中未说明的隐喻进行了解释（生育问题），它似乎更懂人类了。

▲GPT-3.5

▲GPT-4

读文章的能力上，GPT-4 的表现也要优于 GPT-3.5，不仅对文章内容进行了总结，还对重点进行了梳理，让总结拥有了更高的可读性。

利用 GPT-4 超强的总结能力，我们可以实现传说中的“量子速读”。

▲GPT-3.5

▲GPT-4

前两年尼尔・斯蒂芬森的科幻小说《雪崩》因为元宇宙的概念而大火，我们试着用 GPT-3.5 来总结这部“元宇宙圣经”。

▲GPT-3.5

GPT-3.5 总结得只能说中规中矩，基本概述了《雪崩》的主要内容和中心思想，但表达地比较笼统，看起来就像是豆瓣里的简介。

我们再用 GPT-4 来总结，对比下来可以看到，GPT-4 的回答要更加细致一点，并且在讲到《雪崩》的主题以及作品影响时，会提到具体的风格和领域，看起来不那么像“套话”。

即便你从未读过《雪崩》这本书，也应该能大致了解到其中的故事情节和文学意义。

▲GPT-4

这里说一个有趣的小插曲，此前尼尔・斯蒂芬森在接受一个电台采访时曾提到了他对 ChatGPT 等 AI 的看法。

他认为 ChatGPT 只会生成安全、中立的内容，缺乏创造力和深度，虽然它能解决某些问题，但它的思考和创新能力无法达到人类的水平。

由于 ChatGPT 没有有趣和独特的观点，尼尔・斯蒂芬森认为它不可能写出像《雪崩》这样的小说。

为了验证他的观点，我让 GPT-4 根据《雪崩》仿写了一篇小说，看看升级过后的 AI 创作能否跟上人类的水平。

▲GPT-4

满分 10 分，你会给这部《数据风暴》打几分呢？

体验到这里，GPT-4 比 GPT-3.5 更会聊天这件事已经毋庸置疑了，但我还想进行最后一个测试：骗它提供不符合道德、法律或有害的内容。

当我询问如何制作安眠药时，GPT-3.5 和 GPT-4 均拒绝了我的请求，并提出了一些建议，但正如你所见，GPT-4 的建议更加系统全面。

▲GPT-3.5

▲GPT-4

更强的创作力，GPT-4 的笑话更有趣

在 ChatGPT 刚推出时，我曾经让它扮演脱口秀演员，讲了一段关于加班的故事。不得不说，它讲得真不怎么样。

▲GPT-3.5

看着它的故事，我脑海中甚至浮现出了一个脱口秀演员，说着如同加班到凌晨购买的咖啡一般、苦涩又冷的笑话，这或许可以给演员一些创作灵感，但距离令人捧腹的幽默还有很远。

升级到 GPT-4 后，我再次尝试用它创作关于加班的故事，或许是上次的内容太过枯燥，这次的故事真的让我笑出了声。

▲GPT-4

“加班>回家少>妈妈不认识”，“加班多>孩子应该学习加班>加班成为学校必修课”，GPT-4 创作的内容更加符合笑话的逻辑，而 GPT-3.5“因为加班所以更加了解咖啡口感”的故事，只让人觉着苦涩。

还是会算错题，但逻辑更强了

除了止于 2021 年的知识库，ChatGPT 还有一个弱点，那就是不会算数，如果你想用它来检查计算题，那你大概率要失望而归了。

正确答案应该是 34646751912

不过，GPT-4 的逻辑能力得到了进一步提升，使用 GPT-3.5 询问逻辑问题时，它只会给我标准答案和简易的推导过程。

▲GPT-3.5

但当我使用 GPT-4 询问相同问题时，它展示的推导过程更加全面、专业。

▲GPT-4

GPT-4 的提升不仅在解答逻辑问题上，它的语义理解也更强了。比如“小明一把把把把住了”这句话，GPT-3.5 是无法理解含义的。

▲GPT-4

但最新的 GPT-4 就可以看明白，并解释清楚（虽然逻辑上还是有些小问题）。

▲GPT-4

GPT 在帮我们做什么？

上面这些体验虽然已经让我们足够惊叹，但 GPT-3.5、GPT-4 能做到的远不止这些，在官网，OpenAI 展示了 GPT 正在改变世界的地方。

英语学习软件【【微信】】（多邻国）正在转向 GPT-4，用来推进 Role Play（角色扮演）和 AI con【【微信】】（人工智能对话伙伴）的功能，让用户可以更加游戏化的学习外语，更加身临其境。

图/【【微信】】

来自丹麦的 Be My Eyes，利用 GPT-4 的视觉输入能力，在 app 中加入了虚拟志愿者，可以生成与人类志愿者几乎相同的内容，帮助视力稍差或盲人完成数百项日常生活任务。

游戏开发公司 Inword，利用 GPT-3.5 作为机器学习模型之一，去构建 NPC 的情感、记忆、行为，让 NPC 变得有个性。这对资源有限的初创公司来说既节约时间，又经济实用。

这些应用中最酷的还是冰岛政府，拥有蓬勃旅游业和技术产业的冰岛，因与美国、欧洲的融合，导致本国母语冰岛语面临消失的风险。如今，冰岛政府正与 OpenAI 合作，使用 GPT-4 来保护冰岛鱼，将对冰岛语的保护，变成了技术创新。

OpenAI 的 GPT 模型是针对互联网中大量模型进行训练的，所以像冰岛语等小语种并没有足够的深度。GPT-3.5 没有生成语法正确的冰岛语的能力，但 GPT-4 已经可以让冰岛公司拥有用冰岛语聊天的机器人了。

在哪体验？

目前体验 GPT-4 最方便的方式就是将你的 ChatGPT 帐号升级成【【微信】】，然后切换成 GPT-4 模型就能直接使用。

那么问题来了，如果你不想交【【微信】】每月 20 美元的订阅费，有没有免费的方式可以体验呢？

还真的有，那就是新 Bing！

虽然 GPT-4 才刚刚发布，但微软消费营销主管 Yusuf Mehdi 表示，Bing 其实一直都在悄悄使用为搜索定制的 GPT-4，如果你通过了新 Bing 的申请，就可以直接在 Bing 搜索引擎或者 Edge 浏览器中体验到最新的语言模型了。

这也解释了，为什么在一些对比测试中 Bing 总是会比老版本的 ChatGPT 表现得更“聪明”。

写在最后

一番体验过后，GPT-4 给我的感觉就像是一个刚出校园的毛头小子换上了西装，突然间变得成熟稳重了起来。

此前，大家对 GPT 3.5 版本的 ChatGPT 诟病最多的就是它总是会一本正经地胡说八道。

升级到 GPT-4 模型后，虽然它也会回答错一些问题，但在态度上已经没有过去那般强硬，在一些拿不准的问题上，它会询问提问者意见，并让提问者注意甄别真伪。这些语气上的细微变化，足以让人感受到它变得更加可靠。

而在 AI 领域，可靠性就是绝对的竞争力。

OpenAI 这一次并没有像过去那样大肆宣传 GPT-4 模型的具体大小，与之相反的是，它现在更像要故意隐藏 GPT-4 的技术信息。

GPT-2 模型有 15 亿个参数，表现更好 GPT-3 有 1750 亿个参数，比它的前任大 100 多倍。

那么多模态的 GPT-4 模型比 GPT-3 大多少呢？只有 OpenAI 知道。从发布的信息来看，OpenAI 似乎已经不屑于与外界做技术交流，因为它们已经做到了在这领域实现绝对领先。

从目前 GPT-4 的表现来看，它可能是迄今为止最好的多模态模型，在短期内难有对手能将之超越。

就在今天，Google 也公布了一系列与 AI 有关的更新，你可以在 Google Docs 上实现自动排版和自动写邮件。但从人们的反应来看，好像没有人在乎。GPT-4 的光芒几乎掩盖掉所有对手的努力。

如果未来人们只会选择最可靠的 AI 作为生产工具，那么就会形成一个很有意思的现象：越多人使用 GPT-4，它的学习机会就越多，成长得越快，变得更加可靠，最终会让更多人使用它。

这是 Google、Meta 和百度等竞争对手可能遇见的最坏情况。AI 对大数据学习的依赖让人为的努力失去了意义，最终，AI 模型领域可能会形成难以打破的垄断。

Sam Altman 在创立 OpenAI 时有一个美好的愿景：通过人工智能造福全人类。他认为 AI 可以赋予每个人不可思议的新能力，放大每个人的聪明才智和创造力。

这很美好，但如果驱动这一变革的只是一家公司的话，整件事情将变得非常可怕。

本文来自微信公众号：APPSO （ID：【【微信】】），作者：AI+

GAIR Live｜五位学者大论道：ChatGPT，能否重构中国生命科学界的底层逻辑？｜（下篇）

前不久，腾讯研究院发布《AIGC发展趋势报告2023：迎接人工智能的下一个时代》指出，AIGC的商业化应用将快速成熟，市场规模会迅速壮大，预测将率先在传媒、电商、医疗等数字化程度高、内容需求丰富的行业取得重大发展。

与此同时，诸多国外商业咨询机构更是直接给出数据：未来五年10%-30%的图片内容由AI参与生成，2030年AIGC市场规模将达到1100亿美元。

星星之火，可以燎原。早在五年前，AIGC还籍籍无名。它有一个相当拗口的名字--AI生成虚拟内容。以2018年的视频换脸技术Deepfake为代表，“AI伪原创”一词，便从那时传开。

随着深度学习的发展，AIGC逐渐渗透在图像、视频、CG、AI训练数据等各类领域，人们对于这一技术的期望也逐渐丰满。

时至今日，AIGC技术能否用于计算生物领域的新引擎，医疗健康赛道何时迎来新型基础驱动力，成为时下产学研各界的共同关切。

近日，由雷峰网GAIR Live&《医健AI掘金志》举办的《【【微信】】的一把火，能否烧到AI生命科学界？》线上圆桌论坛落幕。

本次论坛，由中国人民大学数学学院龚新奇担任主持，中国科学院深圳理工大学（筹）计算机科学与控制工程学院院长潘毅、百图生科首席AI科学家宋乐、深圳湾实验室系统与物理生物学研究所资深研究员周耀旗、分子之心创始人许锦波，天壤创始人薛贵荣参与讨论。近期【【微信】】爆火，欢迎添加作者微信（微信号：【【微信】】），互通有无。

在上篇中，几位嘉宾共同辨析“AIGC”这一概念，探讨生命科学界中的哪些成果属于AIGC，以及【【微信】】在生命科学领域中可能实现的任务。

在下篇中，将分别探讨AIGC为生命科学带来的可能性与其自身局限，以及中国能否在应用场景上快人一步，实现技术落地与产业转化。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的CCF-GAIR大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。GAIR Live作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

以下是主题论坛的现场内容，雷峰网(公众号：雷峰网)《医健AI掘金志》做了不改变原意的编辑和整理：

龚新奇：目前来看，【【微信】】的文本生成功能确实挺强，第一次让我们感觉它像个人一样，能够自然地聊天，读懂你的感情、还可以体会到一些细微的褒贬。而且你可以正反提问，甚至还可以夸奖它、批评它。因此，【【微信】】的出现，能否比肩AlphaGo或是AlphaFold2的出现，是否会成为生命科学跨越式发展的契机？

周耀旗：我不认为【【微信】】可以比肩AlphaGo或是AlphaFold2。AlphaGo当年战胜了人类最好的棋手，而AlphaFold2在高精度蛋白质结构预测上取得了革命性进展，但【【微信】】对生命科学来讲，错误率太高、准确度不够，还不能算作一个跨越性的成果。

但我对它的未来版本充满了信心，特别是当【【微信】】跟搜索引擎结合，会大幅度提高它的精确度。因为它可以出具文献出处，还可以帮我们提供各个领域的综述、问题解决思路、促进不同领域沟通，甚至帮助学者撰写文章初稿。那么未来跨专业、跨语言的交叉研究就变得容易一些。

所以我认为，未来升级版本的【【微信】】完全可以成为一个创新枢纽。科学家把更多精力放在提出问题上，并根据AI的建议来优化、验证解决问题的方法和思路。所以【【微信】】的出现还是有一定的意义，它推动了一个有想象力时代的到来。

潘毅：我认为今后【【微信】】很有可能成为生命科学领域跨越式的发展契机。至于它的影响力，我跟周教授有不同看法，我认为【【微信】】的影响力会大于AlphaGo和AlphaFold2。

为什么？

AlphaGo为专为围棋而设计，AlphaFold是专为蛋白质结构预测而设计，所以它们是一个为专业而生的AI平台。相比而言，【【微信】】是一款通用型AI平台，既可以交流，又可以撰写邮件、视频脚本、文案、翻译、代码，写论文等等，普罗大众都可以试一试，所以【【微信】】的影响力要远比AlphaGo和AlphaFold更广泛、更深刻。因此，虽然【【微信】】在生命科学领域里比不上AlphaFold，AlphaFold在围棋上比不上AlphaGo，本质是术业有专攻。

最近我和老同学黄学东聊天，发现他对【【微信】】的评价很高，“微软如今加码【【微信】】，是因为【【微信】】之于AI，相当于芯片之于计算机这么重要。”

要知道，黄学东多年担任微软【【微信】】技术研究员和首席技术官，前不久刚刚当选2023年美国工程院院士，此前他并未将Alphago和AlphaFold定义为一个“里程碑式”的技术突破。

当然，周教授说得很对，【【微信】】在生物领域的影响力也许还没达到，目前【【微信】】无法处理复杂冗长或者特别专业的语言结构。但随着AI技术的改进，几年以后它一定会赶上，甚至会超过AlphaGo和AlphaFold。

从另一方面考虑，如今【【微信】】作为一个通用平台，应该如何推动生命科学发展？

一、生命科学领域的学者为其注入专业性更强的生物知识，只有进行足够的语料“喂食”，【【微信】】才有可能生成适当的回答。那时候，它或将用于蛋白质结构预测，蛋白质设计、蛋白质相互作用分析等各类任务。

二、指挥【【微信】】编写程序，比如Java程序、HTML程序，以及各种API（应用程序编程接口）。那么未来生物学家只需要发出指令，【【微信】】就能完成从代码编写、接口耦合到程序测试的一系列工作。这也意味着，尽管很多人不能完全精通各种计算机语言，但我们只需要会做一些策划性工作，就能快速搞定项目。

宋乐：从通用人工智能的角度来说，【【微信】】确实是一个非常大的进步。因为在A I领域，过去的对话机器人很难媲美【【微信】】。因为【【微信】】除了逻辑严密的创造能力之外，还具有记忆能力，在连续的对话中不用大家提供重复信息，其语言组织和表达能力也更接近人类水平，使对话更自然流畅。

但实际上，【【微信】】的创造性、流畅度，多轮对话能力，依赖于多种AI技术的结合，包括它的训练方式都和过去的AI模型不太一样。

【【微信】】使用了RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对【【微信】】进行了训练，且加入了更多人工监督进行微调。因此，【【微信】】进一步提高了AI模型与人类的交互能力，对信息含义的理解能力，以及自我判断能力。

所以，【【微信】】的本质是对人类语言（自然语言、程序指令）反应能力的数学逼近。相比较而言，过去我们和计算机交互，要么自己打字，要么输入非常结构化、死板的程序语言。但现在就可以直接以用自然语言和计算机交互，把它视为人类助手。

最近斯坦福一位教授发现，GPT-3.5的智力已经和9岁的小孩相当，这是以前任何AI 程序都不可能达到的高度。总体而言，我认为【【微信】】是可以被视为里程碑式的AI成果，而且它确实会带来一系列的工业级应用，甚至未来基于【【微信】】衍生出更高级的AI模型。

说到这里，【【微信】】也有一些局限性，比如因为知识缺失，产生一些不正确或者荒谬的答案。

比如你问它“红烧蚊子腿怎么做”，它会给你一个正了八经的回答：先把蚊子腿洗干净，再熬制糖浆，然后放入葱姜蒜煮熟。”它只是把“红烧猪肉”的做法重复了一遍，把“猪肉”换成了“蚊子腿”。

还有一些有趣的例子，比如你叫它做一些算数运算。如果只是简单的单位数运算还好，但如果数字比较长，或者比较复杂，它就做不了。实际上，这体现了【【微信】】当前的训练模式的局限性，更加偏向于基于序列的拟合，或者表征生成序列的形式去训练。

所以【【微信】】还能朝什么方向优化？

有三点思路：

一、未来需要向【【微信】】注入一些知识图谱，比如数学运算能力、生物识别能力，补齐它在这些维度的智慧；

二、对于蛋白质设计、药物设计等细分领域而言，就可以直接“外挂”一些专业模块，比如复合物结构模块、亲和力模块、蛋白质稳定性模块，当“外挂”越多，它的智力更高，也会输出更更贴合需求的结果；

三、我们也可以学习【【微信】】的算法思路和模型训练方式，“投喂”十亿级、百亿级的蛋白质序列数据，训练出一个专用于蛋白质设计的模型。

薛贵荣：我们比较有幸，2018年做过AlphaGo的复现，2021年我们做过AlphaFold2的复现。但总体来说，这些领域我们有胆量尝试，但从来没有尝试过的就是语言类AI模型。

众所周知，自然语言处理（NLP）、机器学习（ML）发展了很多年，但人机交互仍然不能做到问答自如，逻辑流畅。根本原因是建立自然语言处理模型的实用系统，需要不同层面的知识，比如汇学、句法学、语义学和语用学等知识。

而且NLP是一个交叉学科，涉及了方方面面的知识领域，包括计算机科学（给NLP提供模型表示、算法设计、计算机实现的技术）、数学（给NLP提供形式化的数学模型和形式化的数学算法）、电子工程：（给NLP提供信息论的理论基础和语言信号处理技术），以及心理学、哲学、统计学等等。所以从开发难度上看，【【微信】】都是当之无愧的AI界“天花板”。

另一方面，无论是AlphaGo还是AlphaFold2，都是某一领域的专业软件，但【【微信】】更像一款平民版AI，能够承载几个亿的用户一起测试，因此，它在覆盖面、影响力上，都远超AlphaGo和AlphaFold2。未来，大家肯定希望像【【微信】】这样的技术能够应用在生命科学场景中。

比如，现在的医疗问题是大家有问题找专家，但在医疗资源分配不均、医疗供给量不足的情况下，这一问题始终得不到解决。那么【【微信】】就可以发挥出“消费级应用”的特长，渗透入看病、制药等环节，降低专家依赖，一步讲清所有深奥的“病理、药理”。而经历过疫情三年后，大家更关注健康问题，我们也更加期待【【微信】】能够联姻生命科学，实现跨越式发展。

许锦波：从AI的角度来说，【【微信】】的出现意义可以和AlphaGo、AlphaFold2相提并论。它们都是重大技术突破，激发的讨论突破了业界的范畴，外溢到公众层面，可见影响力巨大。但是从生命科学角度来讲，在蛋白质设计等方面，【【微信】】并不专精。实际上用AI进行蛋白质设计或预测蛋白质结构，两年前甚至三年前就发生了，只是模型比【【微信】】更小，当时的算力也比较小。

因此，如今AI领域面临的重要问题是，现在的算法跟两年前的AI算法，到底有没有本质上的区别？

至少目前来说，我没看到本质上的区别。当然，在蛋白质设计上，现在的算法相比于传统算法确实取得了进步，很多人也在讨论，我们是不是要研发出一个ProtGPT，大幅度提高蛋白质设计的成功率？但要明白一点，所有通过AI设计出来的蛋白质都要有湿实验验证。如果未来AI能够大幅度降低对湿实验的要求，降低实验成本和时间，甚至用计算验证来替代实验验证，那将是更大的进步。

当【【微信】】/AIGC大展拳脚，生命科学领域最明显的变化会是什么？另一方面，这种概念对于生命科学行业，是否有不确定性或者危机？

周耀旗：我觉得AI已经为生命科学带来了很大变化，特别是AlphaFold2对大部分蛋白质结构的预测，与真实结构只差一个原子的宽度，达到了人类利用冷冻电镜等复杂仪器观察预测的水平。这一重大成果虽然没有引起媒体和广大民众的关注，但生物领域的科学家反应强烈。

可以说，AlphaFold2对生物机制的理解，对药物设计都带来了正面影响。当然，未来AIGC一定为生命科学带来更大的变化，比如AI设计的蛋白质会越来越多，进一步补充PDB蛋白质结构数据库、功能库，推动人类对生命科学的理解进入到一个新的高度。

与此同时，【【微信】】对于生命科学行业也有很大的不确定性：

一、预测是否错误，错误率是多少，以及是否误导用户。因为AI是通过海量数据训练出来的，因此这一缺点也与大数据的问题一样：数据很精确但错得离谱。相比而言，AlphaFold2有一个plDDT打分函数，但是打分函数并不一定完全正确，有时候还是错的；

同时，我们也不可能对每个设计结果都做验证，所以有时候还是很受误导，得出一些错误的结论。但目前我觉得是可以忍受的，因为模型训练本身就是在纠错，除了蛋白质设计以外，其他生物高分子的应用也是会越来越多，不仅仅DNA、RNA、代谢组、糖等各方面都会大展宏图。

二、鉴于【【微信】】会把原来一篇文章重新编辑，那么我认为未来最大问题是出现假论文、编造假实验数据、甚至用这个技术做坏事，比如产生新病毒、新细菌，都是潜在风险。

所以长期来讲，AIGC会随着时间更加成熟，这种不确定性和危机也会更加隐蔽，可能十几年、三十年左右就会来临。我们需要在科学研究能力和风险管理上提前做好准备。

宋乐：我可以想象，随着数据量越来越多，算力越来越强，AIGC模型本身的生成能力，以及各种外挂功能（亲和力、稳定性、表达量）的加持，或许未来非常多的蛋白质设计工作都是在计算机里进行，后端的湿实验数量就会大大减少。

那么当【【微信】】/AIGC大展拳脚，生命科学领域最明显的变化，我认为有几点：

一、实验人员减少，要求也因此下降，未来或许也不需要那么多的人体临床实验；

二、实验工作者也要学习数据分析，朝AI的方向走，以及一些高校会将计算机课程设立为药物、生物等专业学生的基础课；

三、一些新的工作机会也会创造出来，比如如何更好地衔接外挂和AIGC模型，如何真正地推动AIGC模型加速药物设计。

但从我的感受来，生物的复杂程度各不相同，比如目前数据量最大的蛋白质序列，那么“AIx蛋白质设计”会最快落地，可能是未来3～5年。但是复杂度更高的领域，比如蛋白质相互作用、细胞设计及相互作用、器官设计以及相互作用，它们需要更多的数据，更大的算力、更长的时间打造AI模型。

总体来说，AI在朝着那个方向走，只不过是时间长短的问题。

薛贵荣：可能我们最快感受到的变化，是药物研发速度大大提高，比如以前研发一款新药究竟有多难？医药界有个“双十定律”：一款新药从研发到上市，平均需要10年时间和10亿美元的投入。

那么AIGC的发展，时间、资金可能都会缩短，准确度还会有比较大幅度的提升。

当然周教授也提到，或许不同目的的人会加速制造一些病毒细菌，那么未来监管局既要推动优势药物上市，也要防范生化危机，需要尽快建立系统性的管控制度和规范。

潘毅：刚才几位教授都讲得非常好，那么我认为，【【微信】】/AIGC这种技术应用在生命科学领域，第一大危机是什么？

一、数据污染。

因为生命信息领域有诸多基因数据库，假设有人放入一万个有攻击性的数据，并将某些基因数据跟疾病关联，最终预测结果失准。目前我们还没有看到这样的事情，因为【【微信】】刚刚出现，大家普遍想用它写出“好文章”，前后衔接、逻辑连贯、辞藻优美。但如果你的目的是生成有破坏力的内容，就会拿“烂文章”训练它，甚至【【微信】】也可能被引诱去做坏事。

二、巨大的算力和电力消耗量。

从技术原理来看，【【微信】】基于Transformer技术，随着模型不断迭代，层数也越来越多，对算力的需求也就越来越大。从运行条件来看，【【微信】】完美运行的三个条件：训练数据+模型算法+算力，需要在基础模型上进行大规模预训练，存储知识的能力来源于1750亿参数，需要大量算力。

要知道，一个参数要很多数据支撑，近2000亿的参数中需要多少数据，要消耗多少电？假如每个国家每个地区都这么做，能源可能就是一个问题。所以规模也不能这么扩大，我还是强调打造专业领域的BioGPT。

三、用户沉湎、数据隐私、版权伦理。

用户过分依赖于AI从事内容创作，可能导致内容非原创，缺乏创造力，引发版权问题，甚至隔绝物理世界，影响身心发展，社会整体运作效率反而降低。

许锦波：【【微信】】带来的好处，至少让AI蛋白质设计领域的从业者更有信心。最近一两年，由于AI的深入发展，蛋白质结构及功能研究取得了巨大的突破，从传统的物理和统计方法快速走向机器学习，乃至深度学习；分子生物学界的研究范式，也从基于序列的研究转向基于结构的研究，极大提高了蛋白质从头设计的效率。

而在产业界，AI蛋白质发现和设计也乘势而起，成为全球瞩目的热门赛道。

但目前来说，大家还无法确定：AI设计蛋白到底能做得多好？相比于传统方法效率能提高多少？实验要求能够降低多少？这些都还需要继续探索。

龚新奇：黄民烈教授接受采访及近年的现象所示，美国在AI的基础研究上积累深厚，中国则是强于AI的场景应用。在【【微信】】之后，百度将于3月上线【【微信】】产品，名为文心一言。当AIGC用于生命科学领域，中国在技术落地、产业转化上，是否具备“弯道超车”的机会？

薛贵荣：最近AIGC和【【微信】】的讨论特别多，国内又兴起了一波AI热潮。但就像刚才潘毅教授讲到的一个关键问题：必须建设各领域的专业版GPT。

在各块专业领域，中国已经积累了大量知识库，或许我们有机会做到弯道超车。尤其是在生命科学领域，中国的蛋白质设计技术与国际基本上处于同一水平，已经实现了核心技术的原始创新，为工业酶、生物材料、生物医药等功能蛋白的设计奠定了基础。

举个例子，去年12月1日，华盛顿大学Da【【微信】】团队发布了RFDiffusion、同日波士顿蛋白质设计公司Generate Biomedicines发布了扩散蛋白生成模型Chroma、同月Meta发布基于150亿参数的ESM2语言模型，实现全新的非天然蛋白质设计。今年年初，加州伯克利的一家初创公司Profluent也称采用类似【【微信】】的蛋白质工程深度学习语言模型――Progen，首次实现了AI预测蛋白质的合成。目前我们也自研了一款扩散模型TRDiffusion，设计多种多样与天然蛋白质截然不同的全新单链蛋白质及复合体，目前已进入实验验证阶段。

实际上，无论是中国也好，美国也好，最大的优势是大家都能利用蛋白质设计技术，撬开生命科学的窗口。那么后续大家会更加重视生命科学的产业环境，无论是创新药环境、环保能源环境、食品安全环境等等，都会跟上技术研发的速度。所以我觉得，无论是科技研发、产业落地、还是风险投资，我们一定要对未来的产业环境有足够的信心和投入。

对于天壤而言，未来在算法升级，干湿实验室搭建、平台开发上都需要很大的投入；

其次，大家都知道，蛋白质被称为“生命的基石”，在已知的天然蛋白质的背后，蕴藏着一个隐密而巨大的“蛋白质矿山”。大家都想最先找到那块金矿，这方面特别考验团队的算力、算法、人才队伍，以及下游的产业合作。所以这是一个联动的工作，研发做快了，后面也得跟着快。

因此，回到刚才讲到的中国能否弯道超车的问题，我认为这是一个非常具有挑战性的事情，但最根本的一点，我们不能从一直follow别人的技术，而是要从中国本土的产业转化和人民需要上找问题，这才是我们弯道超车的机会。

周耀旗：我认为如今的【【微信】】有点像新一波AI热潮。

2020年AlphaFold2出来的时候，大家对AI的兴趣特别大，很多投资方出手，但很快发现AI公司并没有那么快出效果，所以去年AI热度又降了下来。如今【【微信】】让AI再次回热，但也有人发现它距离SOTA （state-of-the-art model，最先进的模型）还有一段距离，所以我估计大部人很快又会失望。

另一方面，从公司的角度来说，【【微信】】公司成立于2015年，8年时间才产生了【【微信】】这样的轰动项目。但国内有多少家投资商和公司，有耐心等8年？

有人说，中国会发展出更好的【【微信】】，认为中文内容的广度、深度远远超过英文内容。实际上，如今即使是中国人所发表的前沿知识，大部分都是以英文的方式呈现。英文知识库扩大的速度很快，而中文很慢。因此，只有把中英知识全部结合起来，才能充分利用全人类的积累的知识。

举个例子，为什么谷歌搜索占据世界第一，国内搜索公司的回答准确性却很低，甚至它的应用市场只缩在中国？

这是非常现实的问题，主要原因是因为很多国内公司没有胸怀世界的前景观，认为专精于中国知识库就够了。那么，借助【【微信】】的热潮，我们到底能不能实现弯道超车？

从国内生物医药的政策环境来看，某种意义上我们还存在一些阻碍，特别是国内创新药市场的带量集采模式，类似于传统的统购统销模式，导致创新药价格被压得很低，上游科研、生产等环节都缺乏动力。

相比较而言，全球主要国家创新药市场销售额情况，美国占比在50%以上，其他发达国家中，欧洲五国占比约16%，日本韩国占比8%，中国仅占3%，与发达国家差距较大。

这也侧面反映了美国在研发，转化，市场方面具备更深厚的经验积累，中国还有很多的学习机会。

先不说超车，今后我们要多久才能跟上美国步伐，现在还是很大的挑战。另外，中国在芯片方面被限制，所以尽管最近很多开源方案可以复用，但大家如果想大幅度超过国际水平，我觉得还是有一点困难。

龚新奇：周教授给我们的建议，我们先能跟跑，再是超车。2021年5月，百图生科计划在苏州工业园区创意产业园建立苏州研发中心，百度创始人李彦宏到场，看来是想花很大心思想引领中国的“BT+IT”的发展。宋乐老师是百图生科在AI生命科学方面的的领导者，你觉得，你们有什么样的规划可以助力中国来弯路超车？

宋乐：我可以从行业现状分享一些看法。我观察一些美国大药企和美国AI公司在合作上释放了一个机会窗口给中国。

怎么说呢？美国很多传统大药企，更加聚焦于用一些生物手段、实验手段做药物筛选，研究大多以生物学家、医学家为主导。沿用这条旧有的的研发模式，他们非常成功，很赚钱，也花费了大量的实验成本、试验周期。但这些公司里的IT、AI团队都很小，只有3～5个人，很难做出大规模预训练模型，以及更复杂的结构预测模型。为了促进干湿实验结合，他们只好源源不断地引入外部公司研发的AI模型。

但这类公司囿于人力、组织结构，很多情况下他们都是处于观望和学习的阶段。而国外还有一类公司，却是强于AI，能够孵化出诸多世界级的前沿AI生物技术。比如Deepmind、Meta、它们强于算法迭代，频繁在蛋白质结构预测和生上吊打其他公司。

比如最近Meta基于大语言模型而推出的蛋白质设计工具，就被在Meta任职多年的首席AI科学家Yann LeCun直言：效果惊人。因此国外生命科学界的研发落地模式，属于“顶级AI公司+Biotech公司”强强联手，不断拟合两者之间的gap。

但实际上，跨公司之间的合作矛盾无可避免，成果落地也存在拉扯。截至目前，国外诸多公司只是在算法层面给了我们很多希望，离真实的实验验证、技术落地、产业转化，以及临床应用，还存在很远的距离。所以总体来说，美国两种不同的研发公司，都存在各式不一的先天性缺陷，反而给中国公司提供了一个“时间窗口”。

比如，中国走的路线是将多学科的学者集中起来，在发展之初就强调“AI+实验”的一体化模式。尽管这种模式在AI制药的研发、临床等前期阶段耗时长，但只要跨过死亡谷，在硬科技产品商业化、面向市场的阶段，或超速美国。

以AI制药为例，当一个创新药物进入临床1-3期的时候，就已经证明了自身市场价值。至于后端的临床、市场能否产生效益，实际上与资本和政策支持密不可分。换句话说，百图生科等公司的任务是，做好产业最前端的算法技术升级、药物发现和筛选，从而进一步缩短药物交付时间，如此才能真正惠及患者。

总体来说，

本文地址： https://www.xxs100.com//show-404737.html