chatgpt属于大模型吗 chatgp3 大模型
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
随着以ChatGPT为代表的生成式AI兴起,其背后以大模型为基础的人工智能成为业界投入的方向。
所谓“大模型”,通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。
据腾讯研究院,当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。
相比之下,大模型的改进可以使所有的下游小模型受益,大幅提升人工智能的使用场景和研发效率。
同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。
国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。这一成本于全球科技大企业而言并不便宜,但尚在可接受范围内。
初始投入近十亿美元,单日电费数万美元
国盛证券估算,今年1月平均每天约有1300万独立访客使用ChatGPT,对应芯片需求为3万多片英伟达A100GPU,初始投入成本约为8亿美元,每日电费在5万美元左右:
1)计算假设:
英伟达A100:根据OneFlow报道,目前,NVIDIAA100是AWS最具成本效益的GPU选择。
英伟达DGXA100服务器:单机搭载8片A100GPU,AI算力性能约为5PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。
标准机柜:19英寸、42U。单个DGXA100服务器尺寸约为6U,则标准机柜可放下约7个DGXA100服务器。则,单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。
2)芯片需求量:
每日咨询量:根据Similarweb数据,截至2023年1月底,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。
A100运行小时:假设每个问题平均30字,单个字在A100GPU上约消耗350ms,则一天共需消耗729,167个A100GPU运行小时。
A100需求量:对应每天需要729,167/24=30,382片英伟达A100GPU同时计算,才可满足当前ChatGPT的访问量。
3)运行成本:
初始算力投入:以前述英伟达DGXA100为基础,需要30,382/8=3,798台服务器,对应3,798/7=542个机柜。则,为满足ChatGPT当前千万级用户的咨询量,初始算力投入成本约为542*140=7.59亿美元。
每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考HashrateIndex统计,我们假设美国平均工业电价约为0.08美元/kwh。则,每日电费约为2,369,640*0.08=4.7万美元/日。
训练成本:公有云下,单次百万至千万美元
国盛证券基于参数数量和token数量估算,GPT-3训练一次的成本约为140万美元;对于一些更大的LLM模型采用同样的计算公式,训练成本介于200万美元至1200万美元之间:
1)基于参数数量和token数量,根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元:每个token的训练成本通常约为6N(而推理成本约为2N),其中N是LLM的参数数量;假设在训练过程中,模型的FLOPS利用率为46.2%,与在TPUv4芯片上进行训练的PaLM模型(拥有5400亿参数)一致。
2)对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采用同样的计算公式,可得出,训练成本介于200万美元至1200万美元之间。
国盛证券认为,在公有云上,对于以谷歌等全球科技大企业而言,百万至千万美元级别的训练成本并不便宜,但尚在可接受范围内、并非昂贵。
本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。市场有风险,投资需谨慎,请独立判断和决策。
会“花钱”更会“赚钱”
原标题:《大模型训练一次200-1200万美元!ChatGPT多烧钱?》
阅读原文
太原市委书记谈数字经济 “ChatGPT热”触动产业思维
太原市市委副书记中新社太原2月15日电 (记者 李新锁)“ChatGPT热”席卷全球,在15日下午召开的数字经济发展大会上,山西省委常委、太原市委书记韦韬从“ChatGPT热”谈及太原这座重工业城市的数字经济前景。
当天,山西太原开年首次经济会议围绕数字经济铺开。
韦韬介绍,2022年,太原在中国城市GDP排名中位居第50位,但在“2022数字经济城市发展百强榜”中位列第33位。
经济欠发达,但数字经济后来居上。在韦韬看来,贵州贵阳近年来在数字经济上的抢眼表现,是可供参考的对象之一。
“太原气候适宜,还有稳定的能源和电价优势,同时毗邻京津冀,应用场景广阔。”韦韬说,欠发达地区也可凭借后发优势实现数字经济弯道超车。
韦韬表示,以ChatGPT为代表的数字技术影响深远,而发展数字经济可谓欠发达地区转型升级突破之一。
针对太原对数字经济的渴望,中国科学院院士鄂维南建议当地高校持续培养熟悉、扎根当地实体经济的数字人才,重视年轻人对数字经济的推动力,“地方政府可把数字经济纳入考核指标,同时优化政策反馈机制”。
近年来,包括华为、中电科等一批行业领军企业落户太原。
华为技术有限公司山西公司总经理鲍歌堂表示,华为煤矿军团全球总部落地太原后,已在山西打造了一批智能矿山。
“在人工智能方面,华为将加速布局太原,补齐算力和科研成果转化短板。”鲍歌堂说,企业每年将培养10万名软件开发、人工智能等数字化人才,并推动行业数字化转型。
对于未来,太原制定了到2025年数字经济规模突破2800亿元人民币,年均增速超过15%,能源、制造业等领域数字经济渗透率达全国上游水平的目标。(完)
奇安信:正在基于ChatGPT相关技术等 训练公司专有的类ChatGPT安全大模型
奇安信设备,奇安信ngsoc,奇安信a-team,奇安信icg【奇安信:正在基于ChatGPT相关技术等 训练公司专有的类ChatGPT安全大模型】财联社2月15日电,奇安信在互动平台表示,公司持续关注行业新兴技术的发展及应用,大数据、云计算、人工智能等新技术新场景的快速发展带来更多的安全需求。公司正在基于ChatGPT相关技术和自身积累的海量安全知识和数据,训练奇安信专有的类ChatGPT安全大模型。未来将广泛应用于安全产品开发、威胁检测、漏洞挖掘、安全运营及自动化、攻防对抗等领域,但目前暂时未产生实质性收入。