chatgpt会创造哪些新的就业岗位呢 chatgpt-2 与chatgpt-3 区别
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
来源:中新经纬
猎头明军(化名)最近在为一家位于北京的科技公司招一位类ChatGPT大语言模型NLP(自然语言处理)方向的总工程师,企业方开出的年薪高达300万。
ChatGPT的持续火热,不仅“刺激”了大厂,点燃了创业圈、投资圈,同样引爆了AI(人工智能)人才市场。明军也感叹,“已经好几年没经历这种到处挖人的场面了”。
明军的主要工作是帮一些公司物色人工智能方面的技术人才。他告诉中新经纬记者,最近因为ChatGPT火爆,公司关注度高,相关岗位如自然语言处理招聘需求比较多。
NLP是人工智能领域中的一个重要方向,通俗点讲,NLP就是用人工智能来处理、理解以及运用人类语言,让人类可以与机器无障碍交流。ChatGPT本身就是一款NLP工具。
“目前招的这个总工程师岗就是NLP方向的,做公司ChatGPT项目,职级对标阿里P9(总监),相当于学术带头人级别,要求有较强的管理能力,带10多人团队,年龄不限,薪资还可以再谈。”明军说。
在明军的印象里,AI招聘市场已经好几年没这么热闹了。他说,“2018年前后AI行业也出现过抢人的现象,薪资给的很高,但后来整个行业比较沉寂,抢人的行业也先后变成了元宇宙、芯片,最近ChatGPT受关注很高,感觉AI行业尤其是专业岗位的需求又起来了。”
中新经纬记者以“ChatGPT”为关键词在智联招聘、BOSS直聘等网站检索发现,目前相关招聘岗位以NLP算法工程师为主,月薪在2万元到9万元之间,有公司承诺发放16薪。
以科大讯飞“大模型NLP算法工程师”岗位为例,该岗位更新于2月10日,月薪5万元至8万元,发放14薪,算下来年薪最高可达百万。该岗位要求硕士研究生及以上学历,具有至少3年的机器学习、深度学习相关工作经验等,招聘还提到“具备NLP大模型训练经验者优先,如BERT、GPT-3、ChatGPT等LLM(大预言模型)等相关经验。”
一家机器人公司的“大模型技术专家(ChatGPT方向)”岗位月薪为6万元至9万元,要求有8年及以上NLP相关算法工作经验,熟悉大模型(ChatGPT)最新成果和发展趋势等。
另一家公司的“NLP算法工程师”岗位,月薪为2万元至3万元,要求本科及以上学历,了解并会应用最新业界趋势,如ChatGPT为代表的GPT-3、GPT-3.5等。
智联招聘向中新经纬记者提供的数据显示,春节后复工第二周(2月6日至2月9日),相较于首周(1月28日至1月31日),NLP岗位招聘职位数环比增速为24.1%,该岗位平均招聘薪酬也由首周的19831元上涨至第二周的23351元。据此计算,NLP岗位的平均招聘薪酬在一周内涨幅近18%。
jwview
大厂经历优先
前述招聘“NLP算法工程师”岗位的公司人力资源对中新经纬记者表示,这个招聘他们挂了很久了,了解ChatGPT是刚刚更新的要求。“作为一家创业公司,我们比较看出身,如果有大厂经历,可优先考虑。”该人力资源说。
明军也透露,猎头挖人也会看出身,是否有大厂经历等,但不是决定因素。“主要还是看方向,看匹配度,从大厂、实验室或研究所出来的都行,但整体来说要求较高。”
中新经纬记者梳理招聘信息也发现,相关岗位均要求有一定的工作经验,且对专业能力有比较详细的要求,从这点来说对应届生不算友好。
中国人工智能产业经过数年发展,已经积累了一定的人才基础,但依然面临缺口。
2022年8月脉脉发布的《2022人工智能顶尖人才数据图鉴》显示,人工智能人才缺口依然很大,其中人工智能行业算法方向人才招聘难度最大,热度最高。在AI行业计算机视觉、深度学习、语音识别、自然语言处理四个技术方向上,人才储备量最大的公司是华为,其次是百度、字节跳动和腾讯等互联网头部企业。
另一方面,相比其他行业,AI行业整体薪资也较高。脉脉数据显示,算法工程师平均起薪超过3.2万元,其中近九成为硕博学历。智联招聘的数据也显示,春节后复工第二周,芯片工程师、人工智能工程师的平均招聘月薪均超2万元大关,分别达26330元和24715元,排名前两位。其中,人工智能工程师招聘薪酬环比增长14.5%,排名各职业之首。
据不完全统计,截至目前,中国已经有百度、阿里、腾讯、京东、360、快手等数十家公司官宣布局ChatGPT领域。
ChatGPT火爆,不仅“刺激”了大厂,也点燃了创业和投资圈,其中最受关注的要数前美团联合创始人、已经退休的王慧文宣布自己出资5000万美元投身人工智能领域,打造中国版OpenAI(ChatGPT母公司)。王慧文还称,下轮融资已经有顶级VC(风险投资)认购2.3亿美金。
不过,打造中国版OpenAI或中国版ChatGPT是一个极其烧钱的游戏。公开报道显示,目前OpenAI在用户与ChatGPT的每次交互中花费的计算成本为“个位数美分”,随着使用规模变大,这些计算成本可能将飙升至数百万美元。另一方面,ChatGPT背后的OpenAI仍处于严重亏损之中。
作为OpenAI的投资方,微软公司1月24日宣布,将向其进行一项为期多年、价值数十亿美元的投资。而此前,微软已在2019年和2021年对OpenAI进行了投资,2019年微软对其投资10亿美元。
真金白银的投入,未来回报如何,主要还是看商业模式如何走。而目前,业内人士对这个问题的答案并不明晰。
华兴新经济基金董事总经理邹彦书接受中新经纬记者采访时表示,“对于ChatGPT的商业模式,我们也在探索中,没有确定的答案。”
源码资本合伙人黄云刚认为,在一些领域,AIGC(人工智能生成内容)技术的发展目前已经过了PMF(产品市场匹配)点,多个产品已经证明了这一点。AIGC商业化已经有明确信号,但是不是真的会造就万亿市场仍不确定,具体的模式还需要探索,但潜力很大。
文:常涛 编辑:雷宗润 审校:罗琨
责任编辑:刘万里 SF014
chatgpt 年薪百万问答 chatgpt通过十二万年薪测试
chatgpt,chatgpt国内能用吗,chatgpt怎么读,chatgpt中文猎头明军(化名)最近在为一家位于北京的科技公司招一位类ChatGPT大语言模型NLP(自然语言处理)方向的总工程师,企业方开出的年薪高达300万。
ChatGPT的持续火热,不仅“刺激”了大厂,点燃了创业圈、投资圈,同样引爆了AI(人工智能)人才市场。明军也感叹,“已经好几年没经历这种到处挖人的场面了”。
最高月薪9万
明军的主要工作是帮一些公司物色人工智能方面的技术人才。他告诉中新经纬记者,最近因为ChatGPT火爆,公司关注度高,相关岗位如自然语言处理招聘需求比较多。
NLP是人工智能领域中的一个重要方向,通俗点讲,NLP就是用人工智能来处理、理解以及运用人类语言,让人类可以与机器无障碍交流。ChatGPT本身就是一款NLP工具。
“目前招的这个总工程师岗就是NLP方向的,做公司ChatGPT项目,职级对标阿里P9(总监),相当于学术带头人级别,要求有较强的管理能力,带10多人团队,年龄不限,薪资还可以再谈。”明军说。
在明军的印象里,AI招聘市场已经好几年没这么热闹了。他说,“2018年前后AI行业也出现过抢人的现象,薪资给的很高,但后来整个行业比较沉寂,抢人的行业也先后变成了元宇宙、芯片,最近ChatGPT受关注很高,感觉AI行业尤其是专业岗位的需求又起来了。”
中新经纬记者以“ChatGPT”为关键词在智联招聘、BOSS直聘等网站检索发现,目前相关招聘岗位以NLP算法工程师为主,月薪在2万元到9万元之间,有公司承诺发放16薪。
以科大讯飞“大模型NLP算法工程师”岗位为例,该岗位更新于2月10日,月薪5万元至8万元,发放14薪,算下来年薪最高可达百万。该岗位要求硕士研究生及以上学历,具有至少3年的机器学习、深度学习相关工作经验等,招聘还提到“具备NLP大模型训练经验者优先,如BERT、GPT-3、ChatGPT等LLM(大预言模型)等相关经验。”
一家机器人公司的“大模型技术专家(ChatGPT方向)”岗位月薪为6万元至9万元,要求有8年及以上NLP相关算法工作经验,熟悉大模型(ChatGPT)最新成果和发展趋势等。
另一家公司的“NLP算法工程师”岗位,月薪为2万元至3万元,要求本科及以上学历,了解并会应用最新业界趋势,如ChatGPT为代表的GPT-3、GPT-3.5等。
智联招聘向中新经纬记者提供的数据显示,春节后复工第二周(2月6日至2月9日),相较于首周(1月28日至1月31日),NLP岗位招聘职位数环比增速为24.1%,该岗位平均招聘薪酬也由首周的19831元上涨至第二周的23351元。据此计算,NLP岗位的平均招聘薪酬在一周内涨幅近18%。
大厂经历优先
前述招聘“NLP算法工程师”岗位的公司人力资源对中新经纬记者表示,这个招聘他们挂了很久了,了解ChatGPT是刚刚更新的要求。“作为一家创业公司,我们比较看出身,如果有大厂经历,可优先考虑。”该人力资源说。
明军也透露,猎头挖人也会看出身,是否有大厂经历等,但不是决定因素。“主要还是看方向,看匹配度,从大厂、实验室或研究所出来的都行,但整体来说要求较高。”
中新经纬记者梳理招聘信息也发现,相关岗位均要求有一定的工作经验,且对专业能力有比较详细的要求,从这点来说对应届生不算友好。
中国人工智能产业经过数年发展,已经积累了一定的人才基础,但依然面临缺口。
2022年8月脉脉发布的《2022人工智能顶尖人才数据图鉴》显示,人工智能人才缺口依然很大,其中人工智能行业算法方向人才招聘难度最大,热度最高。在AI行业计算机视觉、深度学习、语音识别、自然语言处理四个技术方向上,人才储备量最大的公司是华为,其次是百度、字节跳动和腾讯等互联网头部企业。
另一方面,相比其他行业,AI行业整体薪资也较高。脉脉数据显示,算法工程师平均起薪超过3.2万元,其中近九成为硕博学历。智联招聘的数据也显示,春节后复工第二周,芯片工程师、人工智能工程师的平均招聘月薪均超2万元大关,分别达26330元和24715元,排名前两位。其中,人工智能工程师招聘薪酬环比增长14.5%,排名各职业之首。
未来回报如何?
据不完全统计,截至目前,中国已经有百度、阿里、腾讯、京东、360、快手等数十家公司官宣布局ChatGPT领域。
ChatGPT火爆,不仅“刺激”了大厂,也点燃了创业和投资圈,其中最受关注的要数前美团联合创始人、已经退休的王慧文宣布自己出资5000万美元投身人工智能领域,打造中国版OpenAI(ChatGPT母公司)。王慧文还称,下轮融资已经有顶级VC(风险投资)认购2.3亿美金。
不过,打造中国版OpenAI或中国版ChatGPT是一个极其烧钱的游戏。公开报道显示,目前OpenAI在用户与ChatGPT的每次交互中花费的计算成本为“个位数美分”,随着使用规模变大,这些计算成本可能将飙升至数百万美元。另一方面,ChatGPT背后的OpenAI仍处于严重亏损之中。
作为OpenAI的投资方,微软公司1月24日宣布,将向其进行一项为期多年、价值数十亿美元的投资。而此前,微软已在2019年和2021年对OpenAI进行了投资,2019年微软对其投资10亿美元。
真金白银的投入,未来回报如何,主要还是看商业模式如何走。而目前,业内人士对这个问题的答案并不明晰。
华兴新经济基金董事总经理邹彦书接受中新经纬记者采访时表示,“对于ChatGPT的商业模式,我们也在探索中,没有确定的答案。”
源码资本合伙人黄云刚认为,在一些领域,AIGC(人工智能生成内容)技术的发展目前已经过了PMF(产品市场匹配)点,多个产品已经证明了这一点。AIGC商业化已经有明确信号,但是不是真的会造就万亿市场仍不确定,具体的模式还需要探索,但潜力很大。
(来源:中新经纬)
知识图谱应用场景分析 不适合构建知识图谱的场景是什么
知识图谱应用实例,知识图谱软件,知识图谱应用领域,知识图谱应用场景近两年来,随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。
知识图谱的表示和本质
正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF[2] 或属性图(property graph)来表示。知识图谱率先由Google提出,以提高其搜索的质量。
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱的作用
为了让用户能够更快更简单的发现新的信息和知识,Google搜索将发布“知识图谱”(Knowledge Graph)――可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。
比如搜索“Amazon”(亚马逊河),一般的搜索结果会给出和Amazon最相关的信息。比如Amazon网站,因为网上关于它的信息最多,但Amazon并不仅仅是一个网站,它还是全球流量最大的Amazon河流。如果在追溯历史,它可能还是希腊女战士一族的代称。而这些结果未来都会在Google搜索的“知识图谱”中展现出来。
不管用户搜索的关键词是代表了地标、名人、城市、球队名、电影、专业词语还是一种菜的做法,Google的“知识图谱”都可以将搜索结果的知识体系完整的呈现出来。
和之前的搜素结果相比,“知识图谱”将在三个方面大幅度提高Google搜索的最终效果:
Google的“知识图谱”不仅仅会从Freebase、维基百科或全球概览中获得专业的信息,同时还通过大规模的信息搜索分析来提高搜索结果的深度和广度。现在Google数据库中包含超过5亿个事物,不同事物之间的关系超过35亿条。同时人们搜索的越多,Google获得的信息也就越多越全面,整个知识图谱也就会达到更好的效果。
知识图谱的构建
- 知识图谱的规模
据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。与此不同的是,百度和搜狗主要针对中文搜索推出知识图谱,其知识库中的知识也主要以中文来描述,其规模略小于Google的。
- 知识图谱的表示
假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。
另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式。
- 知识图谱的存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。
根据DB-Engines Ranking的排名, neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。
当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。
- 知识图谱的数据来源
为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。这些数据普遍质量较高,更新比较慢。而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。
a) 百科类数据
维基百科 ,通过协同编辑,已经成为最大的在线百科全书,其质量与大英百科媲美。可以通过以下方式来从维基百科中获取所需的内容:通过文章页面(Article Page)抽取各种实体;通过重定向页面(Redirect Page)获得这些实体的同义词(又称Synonym);通过去歧义页面(Disambiguation Page)和内链锚文本(Internal Link Anchor Text)获得它们的同音异义词(又称Homonym);通过概念页面(Category Page)获得各种概念以及其上下位(subclass)关系;通过文章页面关联的开放分类抽取实体所对应的类别;通过信息框(Infobox)抽取实体所对应的属性-值对和关系-实体对。类似地,从百度百科和互动百科抽取各种中文知识来弥补维基百科中文数据不足的缺陷。此外,Freebase[5] 是另一个重要的百科类的数据源,其包含超过3900万个实体(其称为Topics)和18亿条事实,规模远大于维基百科。对比之前提及的知识图谱的规模,我们发现仅Freebase一个数据源就构成了Google知识图谱的半壁江山。更为重要的是,维基百科所编辑的是各种词条,这些词条以文章的形式来展现,包含各种半结构化信息,需要通过事先制定的规则来抽取知识;而Freebase则直接编辑知识,包括实体及其包含的属性和关系,以及实体所属的类型等结构化信息。因此,不需要通过任何抽取规则即可获得高质量的知识。虽然开发Freebase的母公司MetaWeb于2010年被Google收购,Freebase还是作为开放的知识管理平台独立运行。所以百度和搜狗也将Freebase加入到其知识图谱中。
b) 结构化数据
除了百科类的数据,各大搜索引擎公司在构建知识图谱时,还考虑其他结构化数据。其中,LOD项目在发布各种语义数据的同时,通过owl:sameAs将新发布的语义数据中涉及的实体和LOD中已有数据源所包含的潜在同一实体进行关联,从而实现了手工的实体对齐(entity alignment)。LOD不仅包括如DBpedia[6] 和YAGO[7] 等通用语义数据集,还包括如MusicBrainz 和DrugBank 等特定领域的知识库。因此,Google等通过整合LOD中的(部分)语义数据提高知识的覆盖率,尤其是垂直领域的各种知识。此外,Web上存在大量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称为Deep Web[10]。它们通过动态网页技术将保存在数据库中的各种领域相关的结构化数据以HTML表格的形式展现给用户。各大搜索引擎公司通过收购这些站点或购买其数据来进一步扩充其知识图谱在特定领域的知识。这样做出于三方面原因:其一、大量爬取这些站点的数据会占据大量带宽,导致这些站点无法被正常访问;其二、爬取全站点数据可能会涉及知识产权纠纷;最后,相比静态网页的爬取,Deep Web爬虫需要通过表单填充(Form Filling)技术来获取相关内容,且解析这些页面中包含的结构化信息需要额外的自动化抽取算法,具体细节在下一节描述。
c) 半结构化数据挖掘AVP
虽然从Deep Web爬取数据并解析其中所包含的结构化信息面临很大的挑战,各大搜索引擎公司仍在这方面投入了大量精力。一方面,Web上存在大量长尾的结构化站点,这些站点提供的数据与最主流的相关领域站点所提供的内容具有很强的互补性,因此对这些长尾站点进行大规模的信息抽取(尤其是实体相关的属性-值对的抽取)对于知识图谱所含内容的扩展是非常有价值的。另一方面,中文百科类的站点(如百度百科等)的结构化程度远不如维基百科,能通过信息框获得AVP的实体非常稀少,大量属性-值对隐含在一些列表或表格中。一个切实可行的做法是构建面向站点的包装器(Site-specific Wrapper)。其背后的基本思想是:一个Deep Web站点中的各种页面由统一的程序动态生成,具有类似的布局和结构。利用这一点,我们仅需从当前待抽取站点采样并标注几个典型详细页面(Detailed Pages),利用这些页面通过模式学习算法(Pattern Learning)自动构建出一个或多个以类Xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化的AVP抽取。对于百科类站点,我们可以将具有相同类别的页面作为某个“虚拟”站点,并使用类似的方法进行实体AVP的抽取。自动学习获得的模式并非完美,可能会遗漏部分重要的属性,也可能产生错误的抽取结果。为了应对这个问题,搜索引擎公司往往通过构建工具来可视化这些模式,并人工调整或新增合适的模式用于抽取。此外,通过人工评估抽取的结果,将那些抽取结果不令人满意的典型页面进行再标注来更新训练样本,从而达到主动学习(Active Learning)的目的。
d) 通过搜索日志进行实体和实体属性等挖掘
搜索日志是搜索引擎公司积累的宝贵财富。一条搜索日志形如<查询,点击的页面链接,时间戳>。通过挖掘搜索日志,我们往往可以发现最新出现的各种实体及其属性,从而保证知识图谱的实时性。这里侧重于从查询的关键词短语和点击的页面所对应的标题中抽取实体及其属性。选择查询作为抽取目标的意义在于其反映了用户最新最广泛的需求,从中能挖掘出用户感兴趣的实体以及实体对应的属性。而选择页面的标题作为抽取目标的意义在于标题往往是对整个页面的摘要,包含最重要的信息。据百度研究者的统计,90%以上的实体可以在网页标题中被找到。为了完成上述抽取任务,一个常用的做法是:针对每个类别,挑选出若干属于该类的实体(及相关属性)作为种子(Seeds),找到包含这些种子的查询和页面标题,形成正则表达式或文法模式。这些模式将被用于抽取查询和页面标题中出现的其他实体及其属性。如果当前抽取所得的实体未被包含在知识图谱中,则该实体成为一个新的候选实体。类似地,如果当前被抽取的属性未出现在知识图谱中,则此属性成为一个新的候选属性。这里,我们仅保留置信度高的实体及其属性,新增的实体和属性将被作为新的种子发现新的模式。此过程不断迭代直到没有新的种子可以加入或所有的模式都已经找到且无法泛化。在决定模式的好坏时,常用的基本原则是尽量多地发现属于当前类别的实体和对应属性,尽量少地抽取出属于其他类别的实体及属性。上述方法被称为基于Bootstrapping的多类别协同模式学习。
- 从抽取图谱到知识图谱
上述所介绍的方法仅仅是从各种类型的数据源抽取构建知识图谱所需的各种候选实体(概念)及其属性关联,形成了一个个孤立的抽取图谱(Extraction Graphs)。为了形成一个真正的知识图谱,我们需要将这些信息孤岛集成在一起。
a) 实体对齐
实体对齐(Object Alignment)旨在发现具有不同ID但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试。各大搜索引擎公司普遍采用的方法是聚类。聚类的关键在于定义合适的相似度度量。这些相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性-值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。在此基础上,为了解决大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被提出将实体分成一个个子集,在这些子集上使用基于更复杂的相似度计算的聚类并行地发现潜在相同的对象。另外,