CN112836057A - 知识图谱的生成方法、装置、终端以及存储介质 - Google Patents
知识图谱的生成方法、装置、终端以及存储介质 Download PDFInfo
- Publication number
- CN112836057A CN112836057A CN201911156483.3A CN201911156483A CN112836057A CN 112836057 A CN112836057 A CN 112836057A CN 201911156483 A CN201911156483 A CN 201911156483A CN 112836057 A CN112836057 A CN 112836057A
- Authority
- CN
- China
- Prior art keywords
- entity
- translation
- target
- name
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013519 translation Methods 0.000 claims abstract description 356
- 238000004590 computer program Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 12
- 235000005770 birds nest Nutrition 0.000 description 11
- 235000005765 wild carrot Nutrition 0.000 description 11
- 238000013507 mapping Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 235000013399 edible fruits Nutrition 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 241000209094 Oryza Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 235000013312 flour Nutrition 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 235000009566 rice Nutrition 0.000 description 5
- 241000207199 Citrus Species 0.000 description 4
- 235000020971 citrus fruits Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 241000675108 Citrus tangerina Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种基于人工智能(Artificial Intelligence,AI)的知识图谱的生成方法、装置、终端以及存储介质,该方法包括:确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系;通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。本申请提供的技术方案能够构建支持多语言的知识图谱,并提高了知识图谱内每个知识节点的联想能力,知识图谱的广度以及深度,从而提高了人工智能输出结果的准确性,提升服务响应质量。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及基于人工智能(ArtificialIntelligence,AI)的知识图谱的生成方法、装置、终端以及存储介质。
背景技术
知识图谱,又称为语义网络,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。伴随着信息化技术的发展,采用知识图谱的方式作为载体将多样知识资源进行汇聚,为人工智能的决策提供知识参考,因此,知识图谱中各个知识资源的深度以及准确度,则直接影响人工智能处理结果的准确性。现有的知识图谱的生成方法,主要是基于单一语言构建,不同语言之间的知识图谱相互独立,从而降低了知识图谱的深度,在使用其他语言作为人工智能的输入时,会大大降低处理结果的准确率,影响服务响应质量。
申请内容
本申请实施例提供了一种知识图谱的生成方法、装置、终端以及存储介质,可以解决现有的知识图谱的生成技术,在处理不同的车辆服务请求时均交由相同的服务器进行处理,容易导致处理逻辑冲突,增加了服务响应的时长以及降低了服务响应的成功率的问题。
第一方面,本申请实施例提供了一种知识图谱的生成方法,包括:
确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系;
通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;
根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
示例性的,根据别名名称对应的共现关系,统计别名名称关联的各个共现实体的出现次数,并基于出现次数选取出高频共现实体,通过基于人工智能的自然语言生成算法(Natural Language Generation,NLG)将别名名称与各个高频共现实体组合,得到源语言语句。
在第一方面的一种可能的实现方式中,所述确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系,包括:
分别获取包含各个所述别名名称的源语言语句;
根据源语言与所述目标语言之间的翻译模型,输出各个所述源语言语句对应的目标语言语句;
分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称;
建立所述别名名称以及所述译名名称之间的所述转译关系。
在第一方面的一种可能的实现方式中,所述分别获取包含各个所述别名名称的源语言语句,包括:
根据所述目标实体的实体类型,获取与所述实体类型关联的语句模板;
将各个所述别名名称导入所述语句模板,生成所述源语言语句。
示例性地,若语句模板的个数为多个,则可以基于随机分配算法,为每个别名名称配置一个语句模板,从而生成了多个源语言语句。
在第一方面的一种可能的实现方式中,所述分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称,包括:
若检测到所述目标语言语句内包含所述目标实体对应的词组,则识别所述目标语言语句为有效语句;
将所述有效语句中与所述目标实体对应的词组识别为所述译名名称。
在第一方面的一种可能的实现方式中,所述通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系,包括:
从所述语料库提取包含所述目标实体的目标文本;
识别所述目标文本内除所述目标实体外的关联实体;
根据所述目标实体在所述目标文本中对应的别名名称,得到所述别名名称与所述关联实体之间的所述共现关系。
在第一方面的一种可能的实现方式中,所述知识图谱的生成方法还包括:
接收基于源语言的待翻译语句,并识别所述待翻译语句包含的所述待翻译实体,以构建所述待翻译语句的实体关系;
在所述知识图谱中提取所述待翻译实体基于所述目标语言对应的转译关系;所述转译关系包含所述待翻译实体的至少一个译名名称;
根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度;
基于所述匹配度,从所有所述译名名称中确定所述待翻译实体的目标译名,并根据所有所述目标译名,输出所述待翻译语句基于目标语言的转译语句。
在第一方面的一种可能的实现方式中,所述根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度包括:
将所述实体关系以及所述译名名称的共现关系导入预设的匹配度计算函数,计算所述匹配度;所述匹配度计算函数具体为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)max simentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述待翻译实体与所述译名名称之间的所述匹配度;Context(E1)为所述待翻译实体E1在所述知识图谱中对应的所述共现关系内包含的关联实体;Context(E2)为所述译名名称E2的所述共现关系内包含的关联实体;ei为所述待翻译实体E1的所述共现关系内第i个关联实体;ej为所述译名名称E2的所述共现关系内第j个所述关联实体;Prop(ei)为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型;Prop(ej)为所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型;ωp为所述实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型的参数值。
在第一方面的一种可能的实现方式中,所述知识图谱的生成方法还包括:
接收用户输入的关键词,并从所述知识图谱中查询所述关键词对应的所述共现关系;
根据所述共现关系输出所述用户的推荐信息。
第二方面,本申请实施例提供了一种知识图谱的生成装置,包括:
转译关系建立单元,用于建立目标实体的多个别名名称基于目标语言的转译关系;
共现关系生成单元,用于通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;
知识图谱构建单元,用于根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
第三方面,本申请实施例提供了一种终端设备,存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述知识图谱的生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述知识图谱的生成方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述知识图谱的生成方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例通过获取目标实体的各个别名名称在其他语言的译名名称,其中目标实体可以识别为一个知识节点,并根据各个别名名称与译名名称之间的对应关系,生成目标实体关于目标语言的转译关系,并通过语料库建立目标实体内各个别名名称的共现关系,以挖掘目标实体的各个别名名称与其他实体之间的关联关系,以扩展知识图谱中每个知识节点的关联深度,根据所有目标实体的转译关系以及共现关系,实现构建支持多语言的知识图谱的目的。与现有的知识图谱技术相比,本申请实施例能够对知识图谱中每个知识节点,即目标实体建立转移关系,以连接不同语种之间知识节点,并通过构建共现关系以扩展每个知识节点的知识深度,不单单局限于目标实体自身属性,提高了每个知识节点的联想能力,知识图谱的广度以及深度,从而提高了人工智能输出结果的准确性,提升服务响应质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例提供的一种知识图谱的生成方法的实现流程图;
图2是本申请一实施例提供的目标实体的转译关系的实体图;
图3是本申请一实施例提供的共现关系的示意图;
图4是本申请第二实施例提供的一种知识图谱的生成方法S101具体实现流程图;
图5是本申请一实施例提供的神经机器翻译模型的结构框图;
图6是本申请第三实施例提供的一种知识图谱的生成方法S1011具体实现流程图;
图7是本申请第四实施例提供的一种知识图谱的生成方法S1013具体实现流程图;
图8是本申请第五实施例提供的一种知识图谱的生成方法S102具体实现流程图;
图9是本申请第六实施例提供的一种知识图谱的生成方法具体实现流程图;
图10是本申请一实施例提供的基于知识图谱的翻译流程图;
图11是本申请一实施例提供的一种基于知识图谱的翻译***的结构示意图;
图12是本申请一实施例提供的一种知识图谱的生成装置内各个单元在响应翻译操作时对应的交互流程图;
图13是本申请第七实施例提供的一种知识图谱的生成方法具体实现流程图;
图14是本申请一实施例提供的一种知识图谱的生成设备的结构框图;
图15是本申请另一实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的知识图谱的生成方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,还可以应用于数据库、服务器以及基于终端人工智能的服务响应***,本申请实施例对终端设备的具体类型不作任何限制。
在本申请实施例中,流程的执行主体为知识图谱的生成装置。作为示例而非限定,知识图谱的生成装置具体可以为一数据库服务器,用于接收用户输入的知识资源或从其他数据库获取得到的知识资源,并基于接收到的所有知识数据生成知识图谱,用于支撑终端人工智能的相关逻辑运算。图1示出了本申请第一实施例提供的知识图谱的生成方法的实现流程图,详述如下:
在S101中,确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系。
在本实施例中,实体,也称为对象,具体可以为一可交互、可操作的客观存在的物体、概念或虚拟对象,举例性地,计算机、手机、服务器等属于客观存在的物体,而数据库、中间件、软件程序等存在于电子信息领域的虚拟对象也可以属于实体。不同的实体根据使用场景的不同,可以存在多个别名名称,上述的别名名称用于指示同一实体对象。举例性地,对于“桔子”这一实体,存在用于指示同一实体的其他别名名称,例如为“柑橘”、“橘子”,即上述“桔子”这一实体存在三个别名名称。生成装置可以通过用户输入、数据库下载、基于语料库的智能学习等方式获取得到各个实体所对应的别名名称,作为另一可行实施例,可以为每个实体建立对应的名称列表,该名称列表内存储有目标实体的别名名称。其中,该名称列表内的所有别名名称具体为基于同一语言下的别名名称,例如上述举例的“柑橘”、“橘子”以及“桔子”,则是基于中文这一语言所对应的别名名称,而对于“桔子”这一实体在英文当中,可以存在有“orange”、“tangerine”以及“citrus”三种不同的说法,并基于“orange”、“tangerine”以及“citrus”三个别名名称,构建“桔子”这一实体关于英文语法的名称列表。生成装置可以将某一语言设置有源语言,并获取基于源语言下各个实体的名称列表,该名称列表内包含有关于上述实体基于源语言的所有别名名称。
在本实施例中,知识图谱的生成装置在建立转移关系时,可以选取与源语言不同的其他语言作为目标语言,并确定各个别名名称在目标语言所对应的译名名称。其中,获取别名名称的译名名称的方法可以为通过预设源语言与目标语言之间的翻译算法,确定别名名称关联的译名名称。
作为本申请另一可选的实施例,知识图谱的生成装置可以获取包含别名名称的多个参考文本,获取各个所述参考文本基于目标语言的译文文本,并从各个译文文本中定位关于别名名称对应的词组,将该词组识别为别名名称的候选译名,并统计各个候选译名在所有译文文本中的出现次数,根据出现次数识别别名名称对应的译名名称,例如选取出现概率大于预设的概率阈值的候选译名作为别名名称的译名名称;又或者选取出现概率最大的一个候选译名作为别名名称对应的译名名称。基于此,一个基于源语言的别名名称在目标语言下可以存在多个译名名称,与之相对应的,不同的别名名称在映射到目标语言时,也可以对应到同一译名名称。生成装置可以以别名名称为节点,为每个别名名称与关联的译名名称建立映射关系,并将所有上述建立的映射关系,构建目标实体的转译关系。
需要说明的是,现有的知识图谱是以实体为粒度进行图谱构建,因此在多语言场景下,知识图谱中的各个节点会将所有语言的别名名称糅合到同一节点内,无法确定不同别名名称相互之间的映射关系,从而在例如翻译或语义分析等场景下,会降低输出结果的准确性。与现有技术不同的是,本申请能够为每个别名名称建立独立的知识节点,并在知识节点记录与其对应的译名名称,构建了译名名称与别名名称之间的映射关系。
举例性地,图2示出了本申请一实施例提供的目标实体的转译关系的实体图。如图2所示,“桔子”这一实体存在中文文法下存在三种不同的别名名称,分别为“桔子”、“橘子”以及“柑橘”,在通过大数据分析,可以确定在大部分的翻译场景下,“桔子”以及“橘子”会被翻译为“orange”,而“柑橘”则存在两个译名名称,则为“tangerine”以及“citrus”,根据各个别名名称之间的对应关系,则可以建立各个别名名称关于中文与英文之间的映射关系,从而将所有映射关系进行汇聚,得到目标实体对应的转译关系。通过图2可清晰地看出,本申请中建立映射关系的对象为别名名称,从而能够准确地获取得到每个别名名称对应的译名名称,特别在翻译场景下,能够大大提高翻译的准确性以及文本的可读性。
在S102中,通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系。
在本实施例中,语料库可以存储于知识图谱的生成装置内,在该情况下,生成装置可以通过本地调用的方式获取语料库内预存的文本数据,通过文本数据生成共现关系;语料库也可以存储于其他的数据库服务器,在该情况下,知识图谱的生成装置可以与语料库服务器建立通信连接,并生成关于目标实体的数据查询指令,将数据查询指令发送给语料库服务器,语料库服务器在接收到该数据查询指令后,可以提取包含目标实体的所有文本数据,并反馈给知识图谱的生成装置。可选地,若文本数据的数据量较大,例如某一文本数据以书本的格式存储于语料库内,即该文本数据包含多个段落,在该情况下,语料库服务器可以从该文本数据中提取包含目标实体的语句或段落反馈给生成装置,而无需将并不包含目标实体的其他段落或语句发送给生成装置,从而提高后续共现关系的建立操作的准确性。
在本实施例中,知识图谱的生成装置通过语料库获取得到包含目标实体的训练语句,并实体标记算法识别出各个训练语句内包含的关联实体,并根据在当前的训练语句中该目标实体所出现的别名名称,建立别名名称与各个关联实体之前的关联关系,从而生成别名名称的共现关系。需要说明的是,在语料库中提取得到的训练语句可以为包含目标实体以各个别名名称出现的语句,因此在提取得到的训练语句中对于目标实体的表述方式不一致,因此在生成共现关系的过程中,可以根据别名名称的不同对各个训练语句划分为不同的语句组,同一语句组内对于目标实体的别名名称一致,继而能够通过该语句组确定该别名名称对应的共现关系。
举例性地,图3示出了本申请一实施例提供的共现关系的示意图。参见图3所示,某一目标实体为“国家体育馆”,该目标实体存在两个别名名称,分别为“国家体育馆”以及“鸟巢”,其中,语料库内存储一训练语句为“鸟巢位于水立方对面,是2008年北京***的体育馆”,通过实体标注算法,可以识别得到该训练语句中除“鸟巢”外的其他实体分别为“水立方”、“体育馆”、“北京”以及“***”,因此,建立“国家体育馆”这一目标实体,关于“鸟巢”这一别名名称与“水立方”、“体育馆”、“北京”以及“***”之间的共现关系。其中,共现关系可以通过图3所示的方式进行标识。
在本实施例中,与S101相同,知识图谱的生成装置在建立共现关系时,也是基于别名名称进行共现关系的构建,即区分不同别名名称的共现关系,通过区分不同别名名称的共现关系,能够确定各个别名名称的常用使用场景以及关联的其他实体对象,在提高翻译操作的准确性的同时,对于信息推荐以及词语联想等领域具有较高的应用价值,从而能够挖掘出各个别名名称的关联实体,提高了知识图谱的深度。
可选地,作为本申请的另一实施例,由于语料库中存在多个训练语句,而在不同的训练语句中,关联实体的出现次数可以为多次,知识图谱的生成装置在建立目标实体与各个关联实体之间的共现关系时,可以统计各个关联实体与目标实体一并出现的语句个数,即为共现次数,并基于共现次数为各个关联对象配置相应的关联权重。继续参见图3所示,作为示例而非限定,可以将共现次数标记在目标实体与关联实体之间的连接线上。
在S103中,根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
在本实施例中,知识图谱的生成装置可以对所有目标实体执行S101以及S102的操作,建立关于各个目标实体的转译关系,以及该目标实体的各个别名名称的共现关系,并在预设的知识图谱中以别名名称为粒度页面上为各个别名名称创建独立的知识节点,将别名名称对应的共现关系以及译名名称添加到该别名名称对应的知识节点内,将各个别名名称对应的知识节点封装到对应的目标实体的知识节点,并在以实体为粒度的页面上创建目标实体对应的知识节点,根据各个目标实体之间的关联关系,构建得到知识图谱。
可选地,知识图谱至少包含两个层级,分别为以实体为粒度的第一图谱层级,以及以别名名称为粒度的第二图谱层级。用户可以在第一图谱层级上点击任一目标实体,则知识图谱会切换至以别名名称为粒度的第二图谱层级,并在第二图谱层级中展示关于该目标识别下各个别名名称的语义网络。
以上可以看出,本申请实施例提供的一种知识图谱的生成方法通过获取目标实体的各个别名名称在其他语言的译名名称,其中目标实体可以识别为一个知识节点,并根据各个别名名称与译名名称之间的对应关系,生成目标实体关于目标语言的转译关系,并通过语料库建立目标实体内各个别名名称的共现关系,以挖掘目标实体的各个别名名称与其他实体之间的关联关系,以扩展知识图谱中每个知识节点的关联深度,根据所有目标实体的转译关系以及共现关系,实现构建支持多语言的知识图谱的目的。与现有的知识图谱技术相比,本申请实施例能够对知识图谱中每个知识节点,即目标实体建立转移关系,以连接不同语种之间知识节点,并通过构建共现关系以扩展每个知识节点的知识深度,不单单局限于目标实体自身属性,提高了每个知识节点的联想能力,知识图谱的广度以及深度,从而提高了人工智能输出结果的准确性,提升服务响应质量。
图4示出了本申请第二实施例提供的一种知识图谱的生成方法S101的具体实现流程图。参见图4,相对于图1所述实施例,本实施例提供的一种知识图谱的生成方法中S101包括:S1011~S1014,具体详述如下:
在S1011中,分别获取包含各个所述别名名称的源语言语句。
在本实施例中,知识图谱的生成装置可以从源语言对应的语料库中分别提取包含各个别名名称的源语言语句,即各个源语言语句记录于历史文本数据内。可选地,生成装置也可以设置有语句模板,将各个别名名称导入到语句模板中,输出各个别名名称对应的源语言语句。
可选地,作为本申请的另一实施例,知识图谱的生成装置可以根据别名名称对应的共现关系,统计别名名称关联的各个共现实体的出现次数,并基于出现次数选取出高频共现实体,通过基于人工智能的自然语言生成算法(Natural Language Generation,NLG)将别名名称与各个高频共现实体组合,得到源语言语句。由于与别名名称一同出现次数较多的高频共现实体,则可以较好地表示该别名名称的常用语境,从而输出的源语言语句能够具有较高的代表性,在后续的翻译过程中,能够确定别名名称在常用语境下的译名名称,从而能够提高转移关系的准确性。
在S1012中,根据源语言与所述目标语言之间的翻译模型,输出各个所述源语言语句对应的目标语言语句。
在本实施例中,知识图谱的生成装置可以选取除源语言外的任一其他语言作为目标语言,并获取源语言与与目标语言之间的翻译模型。该翻译模型可以基于机器翻译(Machine Translation,MT)算法生成得到。其中,MT算法是借助计算机程序或计算机可读指令等自动化手段,将一种自然语言文本(源语言)翻译成另一种自然语言文本(目标语言),而随着人工智能的不断发展,神经机器翻译(Neural Machine Translation,NMT)算法则作为翻译领域的主流翻译手段。NMT可以通过长短期循环神经网络(Long Short-TermMemory-Recurrent Neural Network,LSTM-RNN)的方式进行构建翻译模型,该翻译模型擅长对自然语言建模,把任意长度的句子转化为特定维度的浮点数向量,将文本数据转换为向量数据,方便计算机程序能够“理解”文本中的语义,并基于语义对语句进行翻译。生成装置可以将获取得到的源语言语句导入到翻译模型中,输出与之对应的目标语言语句。
具体地,若知识图谱的生成装置采用NMT模型作为翻译模型,则输出目标语言语句的方式可以为:将源语言语句划分为多个词组,并将各个词组导入NMT模型内的编码模块,得到各个词组对应的编码值,生成关于源语言语句的语句向量,获取目标语言的解码模块,将生成语句向量作为编码模块的输入向量,生成目标语言语句。图5示出了本申请一实施例提供的神经机器翻译模型的结构框图。如图5所示,该NMT模型包括有基于源语言的编码模块Encoder以及基于目标语言的解码模块Decoder,将原目标语言内的各个单词根据词义映射到对应的向量值,并通过解码模块识别该向量值在目标语言中关联的单词,从而完成翻译操作。
在S1013中,分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称。
在本实施例中,知识图谱的生成装置可以通过与目标语言对应的实体标注算法,标记出目标语言语句包含的各个实体对应的词组,并选取与目标实体对应的词组作为别名名称在目标语言下的译名名称。相比于直接将别名名称导入到翻译模型中计算单个名称对应的译名,通过设置特定语言环境下识别别名名称对应的译名名称,译名名称是基于整个语句的语义输出的名称,与上下文以及当前语境相匹配,从而能够提高翻译的准确性,特别当目标实体在目标语言中存在多个译名时,能够准确确定目标实体在当前翻译的别名名称下关联的译名名称。
在S1014中,建立所述别名名称以及所述译名名称之间的所述转译关系。
在本实施例中,知识图谱的生成装置在确定了别名名称关联的译名名称后,可以建立上述两者之间的转译关系。
在本申请实施例中,通过输出包含各个别名名称的源语言语句,能够基于上下文以及实际使用语境确定别名名称对应的译名名称,并建立转译关系,能够提高转译关系的准确性。
图6示出了本申请第三实施例提供的一种知识图谱的生成方法S1011的具体实现流程图。参见图6,相对于图4所述实施例,本实施例提供的一种知识图谱的生成方法中S1011包括:S601~S602,具体详述如下:
进一步地,所述分别获取包含各个所述别名名称的源语言语句,包括:
在S601中,根据所述目标实体的实体类型,获取与所述实体类型关联的语句模板。
在本实施例中,知识图谱的生成装置可以通过手动配置的方式为不同的实体类型配置对应的语句模板,并建立语句模板库。可选地,知识图谱的生成装置可以采用远程监督算法从语料库中识别得到各个训练文本中包含的实体,并确定各个实体的实体类型,选取实体类型相同的多个训练文本,并识别各个训练文本对应的语句结构,选取语句结构出现次数大于预设的出现阈值的语句结构为实体类型对应的常用结构,并基于常用结构生成至少一个关于实体类型的语句模板。
在本实施例中,知识图谱的生成装置根据别名名称关联的目标实体对应的实体类型,从语句模板库中提取与实体类型相匹配的语句模板。该语句模板的数量可以为一个也可以为多个。可选地,若语句模板的数量为多个,且语句模板的数量多于目标实体的别名名称的数量,则可以提取与别名名称的数量匹配的多个语句模板,为每个别名名称配置单独的语句模板,从而能够使得每个别名名称分配得到的语句模板不相同。
在S602中,将各个所述别名名称导入所述语句模板,生成所述源语言语句。
在本实施例中,语句模板中设置有实体类型的导入区域,知识图谱的生成装置可以将别名名称导入到语句模板内预设的导入区域,从而生成一个具有完整意义的语句,即上述的源语言语句。
可选地,若语句模板的个数为单个,则可以将各个别名名称导入到相同的语句模板内,生成了具有别名名称不同而其他内容相同的多个源语言语句。举例性地,一语句模板为“这是一棵[水果类型实体]树”,而目标实体为“桔子”,该目标实体的实体类型为水果类型,即与上述的语句模板相匹配,并且该目标实体具有三个别名名称,分别为“桔子”、“橘子”以及“柑橘”,因而可以将上述三个别名名称分别导入该语句模板内,即导入到[水果类型实体]对应的区域内,得到的“这是一棵[桔子]树”、“这是一棵[橘子]树”以及“这是一棵[柑橘]树”。
可选地,若语句模板的个数为多个,则可以基于随机分配算法,为每个别名名称配置一个语句模板,从而生成了多个源语言语句。举例性地,关于水果类型实体的语句模板的个数为3个,分别为“这是一棵[水果类型实体]树”、“吃点[水果类型实体]”以及“买个[水果类型实体]”,则将“桔子”这一目标实体的三个别名名称分别导入到上述任一语句模板内,则可以得到“这是一棵[橘子]树”、“吃点[柑橘]”以及“买个[桔子]”。
优选地,识别各个语句模板包含的其他实体,并从别名名称对应的共现关系中识别各个其他实体的出现次数,基于上述出现次数计算语句模板与别名名称之间的匹配度,选取匹配度最高的一个语句模板作为别名名称关联的语句模板,将别名名称导入到该语句模板中,生成源语言语句。
可选地,若语句模板的个数为多个,则可以为每个别名名称输出多个源语言语句,即将同一别名名称分别导入各个语句模板内,生成该别名名称的多个源语言语句。举例性地,若语句模板的个数为M个,别名名称的个数为N个,则可以输出M*N个源语言语句。
在本申请实施例中,通过识别目标实体的实体类型,选取与实体类型对应的语句模板,并将别名名称导入语句模板内,生成源语言语句,实现了自动输出基于自然语言生成的多个语句,提高了源语言语句的生成效率。
图7示出了本申请第四实施例提供的一种知识图谱的生成方法S1013的具体实现流程图。参见图7,相对于图4所述实施例,本实施例提供的一种知识图谱的生成方法中S1013包括:S701~S702,具体详述如下:
进一步地,所述分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称,包括:
在S701中,若检测到所述目标语言语句内包含所述目标实体对应的词组,则识别所述目标语言语句为有效语句。
在本实施例中,知识图谱的生成装置在识别译名名称之前,可以对生成的目标语言语句进行过滤,将不包含目标对象的目标语言语句删除,只对包含目标实体的目标语言语句进行译名名称的识别,以提高译名名称识别的准确性。由于在将源语言语句翻译为目标语言语句的过程中,别名名称与语句模板中相邻的字符进行组合,可能会组成新的词语,从而导致源语言语句在翻译的过程中存在歧义,导致在转换为同一向量代码时出错,从而输出的目标语言语句可能存在不包含目标实体的情况。
举例性地,一目标实体的别名名称为“语句”,而将“语句”导入一语句模板中构成了“生成语句”,在对上述词组进行翻译的过程中,可能会将“成语”识别为一个词组,将“语句”这一目标实体拆分,导致了翻译得到的目标语言语句不存在目标实体。
在本实施例中,知识图谱的生成装置可以识别各个目标语言语句中包含的实体,若该目标语言语句中不包含目标实体,则识别该目标语言语句为无效语句;反之,若该目标语言语句中包含目标实体,则识别该目标语言语句为有效语句,并标记出目标实体在目标语言语句中对应的词组。
可选地,知识图谱的生成装置可以识别无效语句对应的源语言语句,并确定该源语言语句所对应的别名名称。若语句模板存在多个,则为上述别名名称通过与上一语句模板不同的其他模板重新生成源语言语句,以重新识别该别名名称对应的译名名称。
在S702中,将所述有效语句中与所述目标实体对应的词组识别为所述译名名称。
在本实施例中,知识图谱的生成装置将目标实体在有效语句中对应的词组作为别名名称的译名名称,并建立别名名称与译名名称之间的映射关系。
在本申请实施例中,通过在识别译名名称之前,对目标语言语句进行有效性的识别,能够使得译名名称的识别操作更为准确,从而提高了转移关系的准确性。
图8示出了本申请第五实施例提供的一种知识图谱的生成方法S102的具体实现流程图。参见图5,相对于图1所述实施例,本实施例提供的一种知识图谱的生成方法中S102包括:S1021~S1023,具体详述如下:
进一步地,所述通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系,包括:
在S1021中,从所述语料库提取包含所述目标实体的目标文本。
在本实施例中,语料库内可以存储从多个不同渠道采集的训练文本。举例性地,该语料库可以接收用户输入的文本数据,例如用户导入的文章、社交应用的交互记录(包括聊天记录以及互动信息),还可以从互联网自动下载文本数据。知识图谱的生成装置在获取得到一个训练文本后,可以识别该训练文本包含的实体,并建立实体与训练文本之间的对应关系,建立实体索引表。知识图谱的生成装置可以基于上述实体索引表从语料库中提取包含目标实体的目标文本。
在S1022中,识别所述目标文本内除所述目标实体外的关联实体。
在本实施例中,知识图谱的生成装置可以通过命名实体识别(Named EntityRecognition,NER)算法定位出目标文本内包含的实体,将除目标实体外的其他实体识别为目标实体的关联实体。
举例性地,某一目标文本具体为“鸟巢位于水立方对面,是2008年北京***的体育馆”,而目标实体为“鸟巢”,通过NER算法可以识别上述目标文本包含的实体为“鸟巢”、“水立方”、“北京”、“***”以及“体育馆”,因此可以确定,除“鸟巢”外的其他识别即为“鸟巢”这一目标实体的关联实体。需要说明的是,关联实体之间的关联关系是双向的,即“水立方”为“鸟巢”的关联实体,而“鸟巢”也为“水立方”的关联实体。
在S1023中,根据所述目标实体在所述目标文本中对应的别名名称,得到所述别名名称与所述关联实体之间的所述共现关系。
在本实施例中,知识图谱的生成装置可以识别目标文本中目标实体基于源语言使用的别名名称,并创建关于别名名称的名称节点,创建关于该别名名称与关联实体的共现关系。若一个别名名称存在多个目标文本,即可以将各个目标文本中记载的所有关联实体均添加到该名称节点对应的共现关系。
在本申请实施例中,通过从语料库中记录有的文本数据,提取包含别名名称的目标文本,并根据目标文本中记录的关联实体,建立别名名称的共现关系,实现了以名称为粒度的共现关系的构建,能够准确识别得到每个别名名称所使用的语境以及场景,从而提高了人工智能服务的响应的准确性。
图9示出了本申请第六实施例提供的一种知识图谱的生成方法的具体实现流程图。参见图9,相对于图1、图4、图6、图7以及图8任一所述实施例,本实施例提供的一种知识图谱的生成方法还包括:S901~S904,具体详述如下:
进一步地,在所述根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱之后,还包括:
在S901中,接收基于源语言的待翻译语句,并识别所述待翻译语句包含的所述待翻译实体,以构建所述待翻译语句的实体关系。
在本实施例中,作为知识图谱的一个应用实例,知识图谱的生成装置在构建得到包含多个目标实体的知识图谱后,可以通过知识图谱来对翻译服务进行技术支撑,从而提高翻译质量。常用的翻译技术为基于LSTM-RNN的NMT模型,该NMT模型可以采用端到端的翻译方案,编码模块-解码模块模型将源语言语句转换为隐状态向量,再使用目标语言的解码模块将隐状态向量转换为基于目标语言的自然语言文本。
举例性地,图10示出了本申请一实施例提供的基于知识图谱的翻译流程图,参见图10所示,在接收到待翻译的文本数据后,首先对文本数据进行预处理操作,即将文本数据导入至翻译预处理模块,识别该文本数据的源语言以及所需翻译至的目标语言。在确定了源语言以及目标语言后,预处理模块将识别得到的上述信息发送至知识图谱模块,以将知识图谱切换至与源语言相应的检测模式,即选取与源语言对应的自然语言理解(NaturalLanguage Understanding,NLU)算法,通过知识图谱模块结合知识数据对文本数据进行NLU分析,标记出文本数据包含的实体,在生成的知识图谱中确定该实体在目标语言内对应的实体名称并返回给预处理模块。预处理模块根据知识图谱模块返回的实体列表,去除文本数据中的实体,替换为约定的特殊字符,该特殊字符可以根据实体类型确定得到,并将替换了特殊字符后的文本数据发送给NMT模块进行标准翻译流程,并获取其翻译结果,结果中会保留替换的特殊字符以确定文本数据中实体和翻译文本中实体的对应关系。最后,将知识图谱返回的实体翻译结果和NMT返回的原文翻译结果合并,即可获得最终的翻译结果。由此可见,若知识图谱中是以实体为粒度进行构建,在获取文本数据内各个实体在目标语言下的翻译译名时,则不会区分不同别名名称对应的译名名称,从而降低了翻译操作的准确性。基于此,本申请是基于别名名称为粒度,构建别名名称与译名名称之间的转译关系,从而可以通过识别在文本数据中该实体所使用的别名名称,并确定在当前文本数据中该别名名称所对应的译名名称,从而使得译名名称与当前的语境以及文法习惯相匹配,使得翻译译文更为准确。
在本实施例中,知识图谱的生成装置可以对待翻译语句进行语义分析,通过NLU算法识别待翻译语句包含的翻译实体,并将识别得到的所有翻译实体构建关于待翻译语句的实体关系。
举例性地,某一待翻译语句为“中国国家大剧院由法国建筑师保罗·安德鲁主持设计,是亚洲最大的剧院综合体”,则通过NLU算法可以识别出翻译实体包括“中国”、“国家大剧院”、“法国”、“建筑师”、“亚洲”、“剧院”以及“综合体”,建立上述各个翻译实体的共现关系,该共现关系即为待翻译语句的实体关系。
在S902中,在所述知识图谱中提取所述待翻译实体基于所述目标语言对应的转译关系;所述转译关系包含所述待翻译实体的至少一个译名名称。
在本实施例中,知识图谱的生成装置在确定待翻译语句内包含的翻译实体后,可以在知识图谱中查询关于各个翻译实体对应的实体节点,并从实体节点中提取对应的转译关系。该转译关系记录有翻译实体的至少一个译名名称。
可选地,若知识图谱中记录有翻译实体关于各个别名名称与译名名称之间的转译关系,知识图谱的生成装置可以识别在待翻译语句中使用的别名名称,并根据别名名称与译名名称之间的转译关系,确定翻译实体在待翻译语句中对应的目标译名,无需执行S903的匹配度计算操作。若知识图谱中并没有记录有翻译实体的各个别名名称与译名名称之间的转译关系,或一个别名名称对应多个译名名称,则执行S903的操作,以确定在待翻译语句中具体使用的译名名称。
在903中,根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度。
在本实施例中,知识图谱的生成装置可以根据实体关系以及与翻译实体对应的各个译名名称的共现关系,确定各个译名名称与当前待翻译语句之间的匹配度。由于在不同的语境下,采用的译名名称不同,因此需要确定在待翻译语句的语境下,各个译名名称与待翻译语句之间的匹配度,从而选取与语境最为契合的译名名称,从而提高翻译操作的准确性。
可选地,计算翻译语句与译名名称之间的匹配度的方式可以为:知识图谱的生成装置可以将译名名称对应的待翻译实体识别为基准实体,并将实体关系中除基准实体外的其他实体识别为参考实体,判断译名名称的共现关系内是否存在参考实体,若存在,则通过共现关系确定该参考实体与译名名称之间共同出现的共现次数,并根据译名名称与所有参考实体之间的共现次数以及存在共现关系的参考实体的实体个数,确定待翻译语句与译名名称之间的匹配度。
进一步地,作为本申请的另一实施例,S903具体可以为:
将所述实体关系以及所述译名名称的共现关系导入预设的匹配度计算函数,计算所述匹配度;所述匹配度计算函数具体为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)max simentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述待翻译实体与所述译名名称之间的所述匹配度;Context(E1)为所述待翻译实体E1在所述知识图谱中对应的所述共现关系内包含的关联实体;Context(E2)为所述译名名称E2的所述共现关系内包含的关联实体;ei为所述待翻译实体E1的所述共现关系内第i个关联实体;ej为所述译名名称E2的所述共现关系内第j个所述关联实体;Prop(ei)为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型;Prop(ej)为所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型;ωp为所述实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型的参数值。
在本实施例中,其中,E1为基于源语言下的待翻译实体,而E2则为基于目标语言关于待翻译实体的译名名称。知识图谱的生成装置可以计算源语言下待翻译实体的共现关系对应的实体集合中每个实体与译名名称的共现关系的各个实体之间的相似度,选取匹配度的最大值作为特征匹配度,将所有特征匹配度进行累加,计算得到的译名名称与待翻译语句中待翻译实体之间的匹配度。
其中,不同实体之间的匹配度计算可以参考simentity(ei,ej)函数,知识图谱的生成装置只对实体类型相同的两个实体计算相互之间的相似度,若实体关系中的其中一个实体与译名名称的共现关系的其中一个实体之间属于不同类型的两个实体,则不会计算上述两个实体之间的相似度,从而能够大大减少大量无效的相似度计算操作。知识图谱的生成装置根据实体类型选取对应的相似度计算模型,即Simlaritytype(p)(ei[p],ej[p]),例如两个实体分别为“老人”以及“teenager”,上述两个实体对应的实体类型为“年龄”,则获取年龄相似度计算模型,来计算上述两个实体之间的相似度。在上述函数中,ei[p]为所述所述第i个待翻译实体的实体类型的参数值;ej[p]为所述第j个所述关联实体的实体类型的参数值,继续以“老人”以及“年轻人”这两个实体作为例子进行说明,“老人”对应的年龄为70岁或以上,则关于实体类型的参数值可以设置为70,而“teenager”对应的年龄为18岁至30岁,则关于实体类型的参数值可以设置为20,将上述两个参数值导入到年龄相似度计算模型,可以计算出两个实体之间的相似度。
在S904中,基于所述匹配度,从所有所述译名名称中确定所述待翻译实体的目标译名,并根据所有所述目标译名,输出所述待翻译语句基于目标语言的转译语句。
在本实施例中,在计算了各个译名名称与待翻译语句之间的匹配度后,可以选取匹配度数值最高的一个译名名称,作为本次翻译操作中待翻译实体对应的目标译名,并将各个译名名称导入到通过NMT算法输出的不包含实体的译名中相应的区域,从而得到待翻译语句在目标语言下的转译语句,完成语句翻译的操作。
可选地,知识图谱的生成装置在确定了待翻译实体在待翻译语句中对应的目标译名后,可以根据待翻译实体在待翻译语句中出现的待翻译别名,建立待翻译别名与目标译名之间的转译关系,并将转译关系添加到知识图谱中,实现了智能学习转译关系。
在本申请实施例中,通过获取待翻译语句的实体关系,并根据实体关系以及各个译名名称的共现关系,确定在当前语境下待翻译实体的译名名称,通过知识图谱以支撑翻译决策,提高了翻译的准确性。
图11示出了本申请一实施例提供的一种基于知识图谱的翻译***的结构示意图。参见图11所示,该基于知识图谱的翻译***包括:翻译服务云服务***111、知识图谱的生成装置112、智能标注服务器113、云数据库服务器114、用户终端115以及第三方应用平台116。
翻译服务云***111,包括有文本检索模块、翻译服务响应模块以及数据接入模块。其中,数据接入模块是用于与各个其他设备进行数据的收发操作,而翻译服务响应模块则用于接收到用户终端发送的翻译服务进行数据封装,得到翻译结果并返回给用户终端,文本检索模块用于提取翻译请求中的文本数据,并对文本数据进行预处理操作。
知识图谱的生成装置112,包括有翻译纠错模块、知识图谱模块、翻译模块以及数据管理模块。其中,翻译纠错模块用于检测翻译请求中携带的待翻译语句是否存在所需纠错的内容,通过术语纠错、人名纠错、整句纠错等对待翻译语句进行纠错处理,并将纠错处理后的待翻译语句发送给翻译模块,通过翻译模块进行翻译操作,其中具体的翻译过程可以参见图10所示的翻译过程,在此不再赘述。数据管理模块可以用于对接收到的数据进行缓存,并将包含用户身份信息的敏感字段进行屏蔽,从而能够保护用户的隐私信息。
智能标注服务器113,包括登录认证模块,网页web模块以及服务器Service模块。通过智能标注服务器的登录认证模块进行身份识别,判断服务请求的有效性,并通过web模块以展示云数据库服务器的数据表,并通过服务器模块以将采集得到的数据更新存储于云数据库服务器的数据。
云数据库服务器114可以包括有基于MySQL框架构建的数据库、基于Hadhoop框架构建的数据库等,云数据库服务器可以用于存储翻译操作所需的云数据,例如从各个渠道学习到的语料、用户终端发起的历史翻译记录以及构建知识图谱所需的知识等。
用户终端115,可以通过内置的应用程序发起服务请求,智能翻译引擎可以确定该服务请求所需使用的翻译渠道,对于语音翻译,则可以通过对应的第三方平台获取对应的翻译单词的语音数据;对于单词文本翻译,则可以通过对应的第三方平台获取对应的单词翻译的翻译数据;对于语句文本翻译,则可以通过智能图谱的生成装置内置的翻译模块输出待翻译语句的转译语句,即与对于翻译请求的类型不同,可以通过智能翻译引擎确定对应的翻译响应路径。
第三方应用平台116,可以包括有多个不同的第三方翻译应用,用于支撑整个翻译***的部分翻译操作,例如单词翻译、单词语音查询等。
以用户发起一语句翻译请求的过程说明翻译***的工作流程。用户终端115通过应用程序接收用户发起的语句翻译请求,继而用户终端115智能翻译引擎确定本次翻译操作所需的翻译渠道,由于本次操作为语句翻译,即需要通过知识图谱的生成装置112以支撑本次的翻译操作,并将携带有渠道标识的语句翻译请求发送给翻译服务云***111。翻译服务云***111通过数据接入模块获取得到语句翻译请求,并将语句翻译请求发送给知识图谱的生成装置112,知识图谱的生成装置112通过翻译纠错模块对语句翻译请求中携带的待翻译语句进行初步纠错操作,并将纠错后的待翻译语句导入到翻译模块的预处理单元,通过预处理单元识别待翻译语句的源语言以及目标语言,并通过知识图谱识别待翻译语句中使用的别名名称,并根据转移关系确定各个别名名称在目标语言下对应的译名名称,将译名名称反馈给翻译单元,通过翻译单元以输出待翻译语句的转译语句,对转译语句进行预处理,并通过数据管理模块返回给翻译服务云***111的数据接入模块,通过翻译服务云***内的翻译服务响应模块进行翻译结果的封装,并将翻译结果返回给用户终端。
图12示示出了本申请一实施例提供的一种知识图谱的生成装置内各个单元在响应翻译操作时对应的交互流程图。该知识图谱的生成装置可以包括有翻译预处理单元、知识图谱服务单元、知识图谱索引单元以及知识图谱图引擎单元。在知识图谱的生成装置在接收到翻译请求后,可以从翻译请求中提取待翻译语句,并将待翻译语句发送给翻译预处理单元,通过翻译预处理单元识别待翻译语句的源语言以及目标语言,将预处理的待翻译语句以及上述两个参数信息发送给知识图谱服务单元,通过知识图谱服务单元选取与源语言对应的NLP模型,并通过NLP模型对待翻译语句进行NER识别,确定该待翻译语句包含的各个待翻译实体,通过各个待翻译实体发送给知识图谱索引单元,通过知识图谱索引单元在知识图谱中定位出各个待翻译实体的实体节点,以及根据知识图谱索引单元确定出各个实体节点关联的名称列表,即获取得到各个待翻译实体基于目标语言的译名名称。知识图谱服务单元向知识图谱图引擎单元发送共现关系查询请求,以确定与各个译名名称存在共现关系的关联实体。知识图谱图引擎单元将查询得到的共现关系返回给知识图谱服务单元,并通过知识图谱服务单元从多个不同别名名称对应的译名名称中,选取出目标译名,根据所有目标译名生成待翻译语句的转译语句并返回给翻译预处理单元,输出翻译结果。
图13示出了本申请第七实施例提供的一种知识图谱的生成方法的具体实现流程图。参见图12,相对于图1、图4、图6、图7以及图8任一所述实施例,本实施例提供的一种知识图谱的生成方法还包括:S1301~S1302,具体详述如下:
进一步地,在所述根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱之后,还包括:
在S1301中,接收用户输入的关键词,并从所述知识图谱中查询所述关键词对应的所述共现关系。
在本实施例中,作为知识图谱的一个应用实例,知识图谱的生成装置在构建得到包含多个目标实体的知识图谱后,可以通过知识图谱来对推荐服务进行技术支撑,由于知识图谱根据语料库确定了目标实体中各个别名名称的共现关系,对知识图谱的深度进行进一步挖掘,在实体的基础上,挖掘不同别名名称的共现关系,从而能够确定不同别名之间的在关联对象之间的差异,从而能够提高推荐信息的精准度。例如,对于“粉”这一实体,具有“米粉”以及“米线”两种不同的别名名称,而不同的别名名称常常搭配的其他实体不同,例如“肥肠米粉”以及“过桥米线”等,对应与别名名称不同的搭配实体,可以识别得到用户关联的口味、饮食习惯等,对于以“实体”为粒度来确定推荐信息而言,通过“别名名称”为粒度建立的共现关系,可挖掘得到的推荐信息的精准度更高。
在本实施例中,知识图谱的生成装置可以接收用户输入的关键词,并识别该关键词中对应的实体,以及该关键词所使用的别名名称,获取该别名名称在知识图谱中关联的知识节点,并从知识节点中提取该别名名称的共现关系。
在S1302中,根据所述共现关系输出所述用户的推荐信息。
在本实施例中,知识图谱的生成装置可以根据共现关系内各个关联实体的共现次数,选取出对应的推荐实体,并基于推荐实体输出推荐信息。该推荐信息可以根据场景的不同,得到不同的推荐结果,例如在搜索场景下,则可以输出该输入的关键词的联想关键词,该联想关键词为共现次数较多实体所对应的关键词,并将包含联想关键词的搜索结果显示在较前的位置,即基于搜索结果内包含的联想关键词的个数以及各个联想关键词与输入的关键词之间的共现次数,确定显示次序,并基于显示次序输出显示结果;例如在产品购买场景下,则可以根据用户输入的关键词,确定关联的产品关键词,并基于产品关键词确定推荐产品,生成产品推荐列表,其中,关联的产品关键词为基于输入的关键词所使用的别名名称所对应的共现关系得到;又例如在用户画像的输出场景下,可以根据用户输入的关键词,从共现关系中识别得到多个共现实体,并根据共现实体以及关键词,输出用户的用户标签。
在本申请实施例中,通过构建以“名称”为粒度的知识图谱,在智能推荐领域能够进一步提高推荐信息的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的知识图谱的生成方法,图14示出了本申请实施例提供的知识图谱的生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图14,该知识图谱的生成装置包括:
转译关系建立单元141,用于建立目标实体的多个别名名称基于目标语言的转译关系;
共现关系生成单元142,用于通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;
知识图谱构建单元143,用于根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
可选地,所述转译关系建立单元141包括:
源语言语句获取单元,用于分别获取包含各个所述别名名称的源语言语句;
目标语言语句获取单元,用于根据源语言与所述目标语言之间的翻译模型,输出各个所述源语言语句对应的目标语言语句;
译名名称识别单元,用于分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称;
转译关系确定单元,用于建立所述别名名称以及所述译名名称之间的所述转译关系。
可选地,所述源语言语句获取单元包括:
语句模板获取单元,用于根据所述目标实体的实体类型,获取与所述实体类型关联的语句模板;
语句模板导入单元,用于将各个所述别名名称导入所述语句模板,生成所述源语言语句。
可选地,所述译名名称识别单元包括:
有效语句选取单元,用于若检测到所述目标语言语句内包含所述目标实体对应的词组,则识别所述目标语言语句为有效语句;
关键词组识别单元,用于将所述有效语句中与所述目标实体对应的词组识别为所述译名名称。
可选地,所述共现关系生成单元142包括:
目标文本提取单元,用于从所述语料库提取包含所述目标实体的目标文本;
关联实体识别单元,用于识别所述目标文本内除所述目标实体外的关联实体;
共现关系建立单元,用于根据所述目标实体在所述目标文本中对应的别名名称,得到所述别名名称与所述关联实体之间的所述共现关系。
可选地,所述知识图谱的生成装置还包括:
待翻译实体识别单元,用于接收基于源语言的待翻译语句,并识别所述待翻译语句包含的所述待翻译实体,以构建所述待翻译语句的实体关系;
转译关系提取单元,用于在所述知识图谱中提取所述待翻译实体基于所述目标语言对应的转译关系;所述转译关系包含所述待翻译实体的至少一个译名名称;
匹配度计算单元用于,根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度;
转译语句输出单元,用于基于所述匹配度,从所有所述译名名称中确定所述待翻译实体的目标译名,并根据所有所述目标译名,输出所述待翻译语句基于目标语言的转译语句。
可选地,所述匹配度计算单元具体用于:
将所述实体关系以及所述译名名称的共现关系导入预设的匹配度计算函数,计算所述匹配度;所述匹配度计算函数具体为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)max simentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述待翻译实体与所述译名名称之间的所述匹配度;Context(E1)为所述待翻译实体E1在所述知识图谱中对应的所述共现关系内包含的关联实体;Context(E2)为所述译名名称E2的所述共现关系内包含的关联实体;ei为所述待翻译实体E1的所述共现关系内第i个关联实体;ej为所述译名名称E2的所述共现关系内第j个所述关联实体;Prop(ei)为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型;Prop(ej)为所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型;ωp为所述实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型的参数值。
可选地,所述知识图谱的生成装置还包括:
关键词接收单元,用于接收用户输入的关键词,并从所述知识图谱中查询所述关键词对应的所述共现关系;
推荐信息输出单元,用于根据所述共现关系输出所述用户的推荐信息。
因此,本申请实施例提供的知识图谱的生成装置同样可以对知识图谱中每个知识节点,即目标实体建立转移关系,以连接不同语种之间知识节点,并通过构建共现关系以扩展每个知识节点的知识深度,不单单局限于目标实体自身属性,提高了每个知识节点的联想能力,知识图谱的广度以及深度,从而提高了人工智能输出结果的准确性,提升服务响应质量。
图15为本申请一实施例提供的终端设备的结构示意图。如图15所示,该实施例的终端设备15包括:至少一个处理器150(图15中仅示出一个)处理器、存储器151以及存储在所述存储器151中并可在所述至少一个处理器150上运行的计算机程序152,所述处理器150执行所述计算机程序152时实现上述任意各个知识图谱的生成方法实施例中的步骤。
所述终端设备15可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器150、存储器151。本领域技术人员可以理解,图15仅仅是终端设备15的举例,并不构成对终端设备15的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器150可以是中央处理单元(Central Processing Unit,CPU),该处理器150还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器151在一些实施例中可以是所述终端设备15的内部存储单元,例如终端设备15的硬盘或内存。所述存储器151在另一些实施例中也可以是所述**装置/终端设备15的外部存储设备,例如所述终端设备15上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器151还可以既包括所述终端设备15的内部存储单元也包括外部存储设备。所述存储器151用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器151还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (11)
1.一种知识图谱的生成方法,其特征在于,包括:
确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系;
通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;
根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
2.根据权利要求1所述的生成方法,其特征在于,所述确定目标实体的各个别名名称在目标语言的译名名称,并根据所述别名名称以及所述译名名称,生成所述目标实体的转译关系,包括:
分别获取包含各个所述别名名称的源语言语句;
根据源语言与所述目标语言之间的翻译模型,输出各个所述源语言语句对应的目标语言语句;
分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称;
建立所述别名名称以及所述译名名称之间的所述转译关系。
3.根据权利要求2所述的生成方法,其特征在于,所述分别获取包含各个所述别名名称的源语言语句,包括:
根据所述目标实体的实体类型,获取与所述实体类型关联的语句模板;
将各个所述别名名称导入所述语句模板,生成所述源语言语句。
4.根据权利要求2所述的生成方法,其特征在于,所述分别从各个所述目标语言语句提取所述别名名称在所述目标语言下的所述译名名称,包括:
若检测到所述目标语言语句内包含所述目标实体对应的词组,则识别所述目标语言语句为有效语句;
将所述有效语句中与所述目标实体对应的词组识别为所述译名名称。
5.根据权利要求1所述的生成方法,其特征在于,所述通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系,包括:
从所述语料库提取包含所述目标实体的目标文本;
识别所述目标文本内除所述目标实体外的关联实体;
根据所述目标实体在所述目标文本中对应的别名名称,得到所述别名名称与所述关联实体之间的所述共现关系。
6.根据权利要求1至5任一项所述的生成方法,其特征在于,在所述根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱之后,还包括:
接收基于源语言的待翻译语句,并识别所述待翻译语句包含的所述待翻译实体,以构建所述待翻译语句的实体关系;
在所述知识图谱中提取所述待翻译实体基于所述目标语言对应的转译关系;所述转译关系包含所述待翻译实体的至少一个译名名称;
根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度;
基于所述匹配度,从所有所述译名名称中确定所述待翻译实体的目标译名,并根据所有所述目标译名,输出所述待翻译语句基于目标语言的转译语句。
7.根据权利要求6所述的生成方法,其特征在于,所述根据所述实体关系以及所述译名名称的共现关系,计算所述待翻译语句与所述译名名称之间的匹配度包括:
将所述实体关系以及所述译名名称的共现关系导入预设的匹配度计算函数,计算所述匹配度;所述匹配度计算函数具体为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)max simentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述待翻译实体与所述译名名称之间的所述匹配度;Context(E1)为所述待翻译实体E1在所述知识图谱中对应的所述共现关系内包含的关联实体;Context(E2)为所述译名名称E2的所述共现关系内包含的关联实体;ei为所述待翻译实体E1的所述共现关系内第i个关联实体;ej为所述译名名称E2的所述共现关系内第j个所述关联实体;Prop(ei)为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型;Prop(ej)为所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型;ωp为所述实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述待翻译实体E1的所述共现关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述译名名称E2的所述共现关系内第j个所述关联实体的实体类型的参数值。
8.根据权利要求1至5任一项所述的生成方法,其特征在于,还包括:
接收用户输入的关键词,并从所述知识图谱中查询所述关键词对应的所述共现关系;
根据所述共现关系输出所述用户的推荐信息。
9.一种知识图谱的生成装置,其特征在于,包括:
转译关系建立单元,用于建立目标实体的多个别名名称基于目标语言的转译关系;
共现关系生成单元,用于通过预设的语料库,分别生成所述目标实体内各个所述别名名称的共现关系;
知识图谱构建单元,用于根据所有所述目标实体对应的所述转译关系以及所述共现关系,构建知识图谱。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911156483.3A CN112836057B (zh) | 2019-11-22 | 2019-11-22 | 知识图谱的生成方法、装置、终端以及存储介质 |
PCT/CN2020/125592 WO2021098491A1 (zh) | 2019-11-22 | 2020-10-30 | 知识图谱的生成方法、装置、终端以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911156483.3A CN112836057B (zh) | 2019-11-22 | 2019-11-22 | 知识图谱的生成方法、装置、终端以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836057A true CN112836057A (zh) | 2021-05-25 |
CN112836057B CN112836057B (zh) | 2024-03-26 |
Family
ID=75921937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911156483.3A Active CN112836057B (zh) | 2019-11-22 | 2019-11-22 | 知识图谱的生成方法、装置、终端以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112836057B (zh) |
WO (1) | WO2021098491A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204651A (zh) * | 2021-05-28 | 2021-08-03 | 华侨大学 | 一种华文教育领域的多源知识图谱融合方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467414A (zh) * | 2023-04-14 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 一种数据验证方法、装置、设备以及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和*** |
CN105677913A (zh) * | 2016-02-29 | 2016-06-15 | 哈尔滨工业大学 | 一种基于机器翻译的中文语义知识库的构建方法 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
US20190188324A1 (en) * | 2017-12-15 | 2019-06-20 | Microsoft Technology Licensing, Llc | Enriching a knowledge graph |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135238B2 (en) * | 2006-03-31 | 2015-09-15 | Google Inc. | Disambiguation of named entities |
JP6655788B2 (ja) * | 2016-02-01 | 2020-02-26 | パナソニックIpマネジメント株式会社 | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム |
-
2019
- 2019-11-22 CN CN201911156483.3A patent/CN112836057B/zh active Active
-
2020
- 2020-10-30 WO PCT/CN2020/125592 patent/WO2021098491A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和*** |
CN105677913A (zh) * | 2016-02-29 | 2016-06-15 | 哈尔滨工业大学 | 一种基于机器翻译的中文语义知识库的构建方法 |
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
US20190188324A1 (en) * | 2017-12-15 | 2019-06-20 | Microsoft Technology Licensing, Llc | Enriching a knowledge graph |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204651A (zh) * | 2021-05-28 | 2021-08-03 | 华侨大学 | 一种华文教育领域的多源知识图谱融合方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021098491A1 (zh) | 2021-05-27 |
CN112836057B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11216504B2 (en) | Document recommendation method and device based on semantic tag | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US10268766B2 (en) | Systems and methods for computation of a semantic representation | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN111831911B (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
CN110209781B (zh) | 一种文本处理方法、装置以及相关设备 | |
CN109670033A (zh) | 内容的检索方法、装置、设备及存储介质 | |
WO2021098491A1 (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN117421413A (zh) | 一种问答对生成方法、装置及电子设备 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN111046662B (zh) | 分词模型的训练方法、装置、***和存储介质 | |
CN113919360A (zh) | 语义理解方法、语音交互方法、装置、设备及存储介质 | |
CN115129976B (zh) | 一种资源召回方法、装置、设备及存储介质 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
CN117743505A (zh) | 查询词改写模型的训练方法、查询方法及相关产品 | |
CN117725165A (zh) | 模型训练方法、搜索方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |