CN113297843B - 指代消解的方法、装置及电子设备 - Google Patents

指代消解的方法、装置及电子设备 Download PDF

Info

Publication number
CN113297843B
CN113297843B CN202010113756.2A CN202010113756A CN113297843B CN 113297843 B CN113297843 B CN 113297843B CN 202010113756 A CN202010113756 A CN 202010113756A CN 113297843 B CN113297843 B CN 113297843B
Authority
CN
China
Prior art keywords
feature
target text
vector
participles
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010113756.2A
Other languages
English (en)
Other versions
CN113297843A (zh
Inventor
刘通
祝官文
孟函可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010113756.2A priority Critical patent/CN113297843B/zh
Priority to PCT/CN2020/124482 priority patent/WO2021169351A1/zh
Publication of CN113297843A publication Critical patent/CN113297843A/zh
Application granted granted Critical
Publication of CN113297843B publication Critical patent/CN113297843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种指代消解的方法及装置,所述方法包括:获取待指代消解的目标文本;获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个目标特征;将所述词义特征和所述目标特征组成输入矩阵;将所述输入矩阵输入神经网络模型,得到指代消解结果。本申请增加了神经网络模型输入数据的信息种类,从而提高了指代消解结果的准确性。

Description

指代消解的方法、装置及电子设备
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种指代消解的方法、装置及电子设备。
背景技术
自然语言是人类智慧的结晶。虽然自然语言处理是人工智能中最为困难的问题之一,但是对自然语言处理的研究一直都是热点。
指代作为一种常见的语言现象,广泛存在于自然语言表达中。然而,指代增加了自然语言处理的难度。指代消解是指明确代词与先行词的指代关系的任务。指代消解对信息抽取、对话***、机器翻译以及机器阅读理解等自然语言处理的应用场景都有极为重要的支撑作用。例如,指代消解用于对话***中,可以将代词替换为所对应的先行词,从而提高对话意图识别与要素抽取的准确性。
指代消解一般来说包括两种:显性代词消解和零代词消解。显性代词消解是指在表达中确定显式代词指向哪个名词短语。零代词消解是针对零指代现象的一类特殊的消解,零代词消解根据上下文关系推断出省略部分,即零代词,指代前文哪个语言学单位。本申请文件所述指代消解均指显性代词消解。
传统的指代消解技术是根据句法分析、词性标注和实体抽取,并结合人工规则集,对代词进行消解,这种方法费时费力,不具有泛化能力。
近年来,随着人工智能和深度学习技术的不断突破,很多自然语言处理任务逐渐采用深度学习架构来处理。与传统技术不同的是,深度学习方法是使用神经网络架构,通过大量语料进行训练,学习到词与词之间的语义相关程度,根据相关程度对代词进行消解。
发明内容
本申请实施例提供了指代消解的方法及装置,可以解决相关技术中指代消解的准确度不够的问题。
第一方面,本申请实施例提供了一种指代消解的方法,该方法包括:获取需要进行指代消解的目标文本后,获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个;再将获取到的不同种类的特征组成输入矩阵后输入神经网络模型,得到指代消解结果。
第一方面的实施例中,输入神经网络模型的信息,除了词义特征外,还增加了词性特征,位置特征和知识特征中的至少一个,增加了神经网络模型输入数据的信息种类,从而提高了指代消解结果的准确度。
在第一方面的一种可能的实现方式中,所述词义特征包括所述目标文本对应的词向量矩阵。
在第一方面的一种可能的实现方式中,所述获取所述目标文本的词义特征,包括:
将每个分词转换成词向量,所述目标文本包括若干个所述分词;
将各个所述分词对应的词向量拼接成词向量矩阵。
在第一方面的一种可能的实现方式中,获取所述目标文本的词性特征,包括:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述词性信息,映射成词性特征。
在第一方面的一种可能的实现方式中,获取所述目标文本的位置特征,包括:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述位置信息,映射成位置特征。
在第一方面的一种可能的实现方式中,获取所述目标文本的知识特征,包括:
获取每个分词对应的知识信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述知识信息,映射成知识特征。
在第一方面的一种可能的实现方式中,所述神经网络模型包括特征抽取器和分类子网络。
所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个所述分词对应的特征向量。
所述分类子网络用于基于所述特征矩阵获得指代消解结果。
作为第一方面的第一个示例,所述分类子网络包括拼接层,全连接神经网络和输出层。
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
作为第一方面的第二个示例,所述分类子网络包括残差连接层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述拼接层用于将每个其余分词对应的编码向量,与代词对应的编码向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第二个示例相比于第一个示例,分类子网络增加了残差连接层,通过残差连接层使神经网络模型更快收敛,提高神经网络模型的训练效率。
作为第一方面的第三个示例,所述分类子网络包括选择层,拼接层,全连接神经网络和输出层。
所述选择层用于从所述特征矩阵中筛选出每个候选先行词对应的特征向量,和代词对应的特征向量。
所述拼接层用于将每个所述候选先行词对应的特征向量,与所述代词对应的特征向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第三个示例相比于第一个示例,分类子网络增加了选择层,通过选择层过滤掉了明显与指代结果不相关的特征向量,保留了相关度高的特征向量。一方面,减少了计算量,提高方案整体效率;另一方面,提高了指代消解结果的准确性。
作为第一方面的第四个示例,所述分类子网络包括残差连接层,选择层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述选择层用于从所述编码矩阵中筛选出每个候选先行词对应的编码向量,和代词对应的编码向量。
所述拼接层用于将每个所述候选先行词对应的编码向量,与所述代词对应的编码向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第二方面,本申请实施例提供了一种指代消解的装置,包括:第一获取模块,第二获取模块,组成模块和消解模块。
其中,所述第一获取模块,用于获取待指代消解的目标文本;
所述第二获取模块,用于获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个目标特征;
所述组成模块,用于将所述词义特征和所述目标特征组成输入矩阵;
所述消解模块,用于将所述输入矩阵输入神经网络模型,得到指代消解结果。
在第二方面的一种可能的实现方式中,所述词义特征包括所述目标文本对应的词向量矩阵。
在第二方面的一种可能的实现方式中,所述第二获取模块包括词义特征获取模块,词性特征获取模块,位置特征获取模块和知识特征获取模块。
所述词义特征获取模块,用于获取所述目标文本的词义特征。
在第二方面的一种可能的实现方式中,所述词义特征获取模块,具体用于:
将每个分词转换成词向量,所述目标文本包括若干个所述分词;
将各个所述分词对应的词向量拼接成词向量矩阵。
所述词性特征获取模块,用于获取所述目标文本的词性特征。
在第二方面的一种可能的实现方式中,,所述词性特征获取模块,具体用于:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述词性信息,映射成词性特征。
所述位置特征获取模块,用于获取所述目标文本的位置特征。
在第二方面的一种可能的实现方式中,所述位置特征获取模块,具体用于:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述位置信息,映射成位置特征。
所述知识特征获取模块,用于获取所述目标文本的知识特征。
在第二方面的一种可能的实现方式中,所述知识特征获取模块,具体用于:
获取每个分词对应的知识信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述知识信息,映射成知识特征。
在第二方面的一种可能的实现方式中,所述神经网络模型包括特征抽取器和分类子网络。
所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个所述分词对应的特征向量。
所述分类子网络用于基于所述特征矩阵获得指代消解结果。
作为第二方面的第一个示例,所述分类子网络包括拼接层,全连接神经网络和输出层。
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
作为第二方面的第二个示例,所述分类子网络包括残差连接层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述拼接层用于将每个其余分词对应的编码向量,与代词对应的编码向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第二个示例相比于第一个示例,分类子网络增加了残差连接层,通过残差连接层使神经网络模型更快收敛,提高神经网络模型的训练效率。
作为第二方面的第三个示例,所述分类子网络包括选择层,拼接层,全连接神经网络和输出层。
所述选择层用于从所述特征矩阵中筛选出每个候选先行词对应的特征向量,和代词对应的特征向量。
所述拼接层用于将每个所述候选先行词对应的特征向量,与所述代词对应的特征向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第三个示例相比于第一个示例,分类子网络增加了选择层,通过选择层过滤掉了明显与指代结果不相关的特征向量,保留了相关度高的特征向量。一方面,减少了计算量,提高方案整体效率;另一方面,提高了指代消解结果的准确性。
作为第二方面的第四个示例,所述分类子网络包括残差连接层,选择层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述选择层用于从所述编码矩阵中筛选出每个候选先行词对应的编码向量,和代词对应的编码向量。
所述拼接层用于将每个所述候选先行词对应的编码向量,与所述代词对应的编码向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,使得所述电子设备实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面和第一方面可能的实现方式中任一所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术提供的一种基于端到端神经网络的指代消解方法的流程示意图;
图2是现有技术提供的一种中文代词消解模型建立方法的流程示意图;
图3是本申请实施例提供的指代消解的方法的一应用场景;
图4是本申请实施例提供的指代消解的方法的另一应用场景;
图5是本申请实施例提供的指代消解的方法所适用于的电子设备的结构示意图;
图6A是本申请一实施例提供的指代消解的方法的一流程示意图;
图6B是本申请一实施例提供的指代消解的方法的另一流程示意图;
图7是本申请一实施例提供的指代消解的方法中使用的映射网络的示意图;
图8是本申请另一实施例提供的指代消解的方法的流程示意图;
图9是本申请另一实施例提供的指代消解的方法的流程示意图;
图10是本申请另一实施例提供的指代消解的方法的流程示意图;
图11是本申请一实施例提供的一种指代消解的装置的结构示意图;
图12是本申请一实施例提供的一种指代消解的装置中第二获取模块的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。
还应当理解,在本申请实施例中,“若干个”和“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
如在本申请说明书和所附权利要求书中所使用的那样,术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
近年来,随着人工智能和深度学习技术的不断突破,很多自然语言处理任务逐渐采用深度学习架构来处理。先通过两个现有技术的例子,对基于深度学习架构的指代消解方法进行举例说明。
第一个例子,为一种基于端到端神经网络的指代消解方法。
如图1所示,第一个例子的技术方案包括以下步骤:
1.在海量数据集上训练得到词向量(embedding),即图1中的特征embedding。
2.通过双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)得到每个词的编码向量。
3.通过注意力机制,将跨度(span)进行级联,得到span的分布式表达。
4.经过全连接神经网络,将所有词语进行配对,计算不同的分布式表达对的得分,若得分超过一定的阈值,则认为具有指代关系。
第一个例子的缺点在于:一方面,输入特征单一,即输入词向量,没有利用到语句的更多信息;另一方面,对语句中的所有词进行配对打分,存在许多无用计算,算力成本高。
第二个例子,为一种中文代词消解模型建立方法。
如图2所示,第二个例子的技术方案主要包括以下步骤:
1.使用word2vec(word to vector)方法在大规模数据集上训练得到词向量(embedding);
2.将词向量作为输入特征,经过长短期记忆网络(Long Short-Term Memory,LSTM),将每个词向量映射到一维数字,组合形成消解向量(或称为句子向量);
3.根据设定阈值,对消解向量进行排序,提取向量中最大元素以及次大元素,其所对应的词语作为具有指代关系的词语对。
第二个例子的缺点在于:一方面,输入LSTM的特征仅仅是使用word2vec得到的词向量,没有利用到语句的更多信息;另一方面,词向量通过LSTM进行编码后,映射成一维数字,丢失了大量信息;再一方面,没有考虑到词向量之间的相互关系。
本申请考虑到现有技术方案的不足,提出一种结合多种信息的神经网络指代消解方法。具体地,基于词语的词向量信息,还有词性信息,位置信息,和知识信息这三种信息中的至少一种,通过神经网络模型进行指代消解,增加了输入数据的信息种类,提高了指代消解结果的准确度。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
先通过两个非限制示例对本申请实施例的应用场景进行举例说明。
图3所示,为本申请实施例提供的指代消解的方法的第一个应用场景示意图。
如图3所示,第一个应用场景为人机对话的应用场景。该应用场景包括用户31和用户设备32。用户设备32部署有人机对话***,例如语音助手等。
用户31通过例如语音输入唤醒词或执行预设用户操作等方式,唤醒用户设备32的语音助手后,语音输入文本。文本包括但不限于关键词、语句等。用户设备32通过语音助手输出与输入文本对应的结果。
作为一非限制性示例,用户31通过唤醒词唤醒用户设备32的语音助手后,语音输入“介绍一下明星A”。用户设备32语音助手的用户界面,显示某一搜索引擎下针对“介绍一下明星A”的搜索结果,或者显示某一应用针对“介绍一下明星A”的搜索结果。例如,用户设备32语音助手的用户界面,显示某一搜索引擎的搜索结果:“明星A是中国著名的歌手。”。
若用户32接着语音输入“他的老婆是谁”,语音助手可以识别用户语音对应的文本为“他的老婆是谁?”。但是语音助手若没有人类的理解能力,就无法确定“他”是指什么,因而无法输出正确的结果。
为了使用户设备32的语音助手理解文本,准确地输出文本对应的结果。本申请实施例提供一种指代消解方法,该方法可以应用于用户设备。本申请实施例可以使用户设备具有对文本进行自然语言处理,以实现指代消解的能力。
用户设备32获取人机对话过程的历史文本构成目标文本。例如,将“明星A是中国著名的歌手。”和“他的老婆是谁?”这两个历史文本组合成目标文本:“明星A是中国著名的歌手。他的老婆是谁?”;又如,将“介绍一下明星A”、“明星A是中国著名的歌手。”和“他的老婆是谁?”这三个历史文本组合成目标文本:“介绍一下明星A。明星A是中国著名的歌手。他的老婆是谁?”。然后,用户设备32针对目标文本进行指代消解,指代消解完成后,电子设备32能知晓用户31输入的文本“他的老婆是谁?”中的“他”指的是“明星A”,从而针对“明星A的老婆是谁?”输出准确的结果。
第一个应用场景中的用户设备包括但不限于手机、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)、智能音箱、电视机顶盒(set top box,STB)或电视等,本申请实施例对用户设备的具体类型不作任何限制。
此外,在其他人机对话的应用场景中,用户在唤醒语音助手后,可以通过语音输入用户指令。用户设备通过语音助手理解用户语音指令后,执行该用户语音指令。
例如,用户唤醒用户设备的语音助手后,用户语音输入“找到李雷的电话号码,帮我给他打个电话”。语音助手可以识别用户语音对应的文本为“找到李雷的电话号码,帮我给他打个电话”。采用本申请的指代消解方法,可以使用户设备具有对文本进行自然语言处理,以实现指代消解的能力。用户设备能知晓用户输入的文本“找到李雷的电话号码,帮我给他打个电话”中的“他”指的是“李雷”,从而针对“找到李雷的电话号码,帮我给李雷打个电话”这一用户指令,做出准确的响应。用户设备的语音助手在联系人列表中查找李雷的电话号码,并进行拨号。
应理解,上述示例仅为示例性描述,并不能解释为对本申请的限制。更一般地,用户设备可以通过理解用户语音指令并响应,本申请对用户语音指令不做具体限定。
接着介绍本申请实施例提供的指代消解的方法的第二个应用场景。
图4所示,为本申请实施例提供的指代消解的方法的第二个应用场景示意图。第二个应用场景为信息抽取***的应用场景。该应用场景包括两个用户设备和一个服务器43。两个用户设备分别为第一用户设备41和第二用户设备42。第一用户设备41和第二用户设备42分别与服务器43通过无线通信网络进行通信。服务器43部署有信息抽取***。
服务器43获取第一用户设备41和/或第二用户设备42发送的文本。对从第一用户设备41或第二用户设备42获取到的文本分别进行信息抽取,获得文本对应的知识表达。
作为一非限制性示例,由于文本中会存在海量的指代表达,从海量数据中构建大规模知识库。例如,服务器43从第一用户设备41获取到文本“名人B生于纽约,他是美国第45任总统。”。
但是服务器43若没有人类的理解能力,就无法确定文本中的“他”是指什么,因而无法获得正确的知识表达结果。
为了使服务器43理解文本,准确地输出文本对应的知识表达结果。本申请实施例提供一种指代消解方法,该方法可以应用于服务器。本申请实施例可以使服务器具有对文本进行自然语言处理,以实现指代消解的能力。服务器43针对文本进行指代消解后,能知晓文本“名人B生于纽约,他是美国第45任总统。”中的“他”指的是“名人B”,从而针对“名人B生于纽约,名人B是美国第45任总统。”输出准确的知识表达结果。
例如,服务器43对文本经过指代消解的处理,抽取出知识表达为:名人B,是,第45任美国总统。应理解,此处示例为三元组的知识表达结构。
第二个应用场景中,服务器包括但不限于独立的服务器、分布式服务器、服务器集群、或云服务器等,本申请实施例对服务器的具体类型不作任何限制。
无线通信网络包括但不限于无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络)、紫蜂协议(ZigBee)、蓝牙(bluetooth,BT)、全球移动通讯***(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division MultipleAccess,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、第五代移动通信网络(5th generation mobilenetworks,5G)和未来采用的通信网络等。
需要说明的是,在其他应用场景中,服务器或用户设备等电子设备还可以对本地存储器中存储的文本进行指代消解。在这些应用场景中,电子设备不需要与其他设备进行交互以获取待进行指代消解的文本。
本申请实施例提供的指代消解方法可以应用于用户终端或服务器等电子设备上,本申请实施例对电子设备的具体类型不作任何限制。
图5示出了电子设备100的结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等***器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括WLAN(如Wi-Fi),BT,全球导航卫星***(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括GSM,GPRS,CDMA,WCDMA,时分码分多址(time-division codedivision multiple access,TD-SCDMA),LTE,BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system,GPS),全球导航卫星***(global navigation satellite system,GLONASS),北斗卫星导航***(beidounavigation satellite system,BDS),准天顶卫星***(quasi-zenith satellitesystem,QZSS)和/或星基增强***(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或M个摄像头193,M为大于1的整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时***多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
接下来介绍本申请实施例提供的一种指代消解方法的实现流程。
图6A和图6B示出了本申请实施例提供的一种指代消解的方法的实现流程图。所述指代消解的方法适用于需要对文本进行指代消解的情形。所述指代消解的方法应用于电子设备,可由配置于电子设备的指代消解的装置执行。所述指代消解的装置可由电子设备的软件、硬件、或软件和硬件的组合实现。作为示例而非限定,该指代消解的方法可以应用于图3所示的用户终端中,还可以应用于图4所示的服务器中,还可以应用于具有图5所示硬件结构的电子设备中。如图6A所示,所述指代消解的方法包括步骤S610至步骤S640,各个步骤的具体实现原理如下。
S610,获取待指代消解的目标文本;
在本申请实施例中,目标文本为待指代消解的对象。例如,句子文本。
目标文本可以为电子设备即时获取到的文本,还可以为与电子设备通信耦合的存储器中存储的文本,还可以为从其他电子设备获取的文本。其中,电子设备通信耦合的存储器包括电子设备的内部存储器或外部存储器。
在本申请实施例的非限制性示例中,目标文本可以是用户通过电子设备的输入单元,例如按键或触摸显示屏即时输入的文本;还可以是用户通过电子设备的音频采集单元,例如麦克风即时采集到的语音数据;还可以是用户通过电子设备的摄像头即时拍摄到的包括文本的图片;还可以是用户通过电子设备的扫描装置即时扫描到的包括文本的图片;还可以是存储在与电子设备通信耦合的存储器中的文本;还可以是电子设备通过有线或无线通信网络从其它电子设备处所获取到的文本等。
需要说明的是,针对包括文本的图片,需要通过启用电子设备的图片识别功能提取图片中的文本作为目标文本。针对语音数据,需要通过启动电子设备的音频转文字功能识别语音数据中的文本作为目标文本。
S620,获取所述目标文本的词义特征,词性特征,位置特征和知识特征;
在本申请实施例中,首先对输入的目标文本进行分词与词性标注。然后获取目标文本的各个分词对应的词义特征,词性特征,位置特征和知识特征。
例如,结合图6B所示,将目标文本进行分词处理,得到目标文本包括的若干个分词。再将各个分词映射为固定长度的四个向量,分别为embedding,词性向量,位置向量,知识向量。Embedding表示分词的词义特征,词性向量表示分词的词性特征,位置向量表示分词的位置特征,知识向量表示分词的知识特征。
又如,在进行分词处理后,可以先去除停用词和/或非特征词等,再得到目标文本包括的若干个分词。
在本申请实施例中,可以通过词向量,或称词嵌入(word embedding)模型将目标文本的分词表达成embedding。创建词嵌入模型的方法包括但不限于Word2Vec、LSA(LatentSemantic Analysis)、Glove(Global Vectors for Word Representation)、fastText、ELMo(Embeddings from Language Models)、GPT(Generative Pre-Training)或BERT(Bidirectional Encoder Representation from Transformers)等。本申请实施例通过词向量模型,把真实世界抽象存在的文本转换成可以进行数学公式操作的向量。将数据处理成可由机器处理的数据,使得本申请能够实施。
以采用Word2Vec方法为例进行说明,在大规模语料上进行预先训练,得到每个词对应的词向量。从而建立了词向量数据库,词向量数据库中存储了各个词与词向量的对应关系。通过查找对应关系,就可以获取到目标文本包括的各分词所对应的词向量。例如,目标文本包括T个分词,每个分词对应一个长度为K的词向量。T和K为大于1的整数。
可选地,获取所述目标文本的词性特征,包括:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述词性信息,映射成词性特征。
其中,在对目标文本进行分词的同时可以进行词性标注,可以获得目标文本包括的分词的词性信息。将每个分词的词性信息映射成词性特征。词性特征可以用词性向量来表示。
作为一非限制性示例,根据词性标注的结果,将名词标识为1;代词标识为2,其他词性的标识为0。不同数字用于区分不同的词性。然后再将词性的标识结果通过映射网络映射成固定长度的词性向量,即映射成词性特征。也就是说,参见图7所示,通过映射网络将一维的词性信息映射成多维的词性向量。可选地,映射网络可以为单层全连接层。
由于通常情况下,代词指代的对象为名词。因而在本示例中,可以将名词标识为1,作为候选先行词,将代词和名词外的词性标识为0。通过这种设置,一方面,减少了计算的复杂度,节省了算力成本。另一方面,降低了相关程度低词性的分词对指代消解结果的影响,进一步提高了结果的准确性。
作为另一非限制性示例,根据词性标注的结果,将不同的词性用不同的数字进行标识。本示例中,不是将代词和名词外的词性均标识为0,而是每种不同的词性用不同的数字进行标识。也就是说,用不同的数字标识不同的词性信息。本示例的其余过程与前一示例类似,此处不再赘述。
作为另一非限制性示例,由于代词通常情况下是用于指代代词前面出现的分词,即代词指代的是先行词。因而,本示例在前两个示例的基础上,将代词之后的分词的词性信息标识为0。通过这种设置,一方面,减少了计算的复杂度,节省了算力成本。另一方面,降低了相关程度低的分词对指代消解结果的影响,进一步提高了结果的准确性。
需要说明的是,此处不同词性对应的数字还可以采用其他数字;词性信息可以为一位数,还可以为二位数,甚至是更多位数;对词性特征或词性向量的长度不作具体限定。应理解,此处三个示例不能解释为对本申请的具体限制。
可选地,获取所述目标文本的位置特征,包括:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述位置信息,映射成位置特征。
在本申请一些实施例中,获取目标文本包括的每个分词的位置信息。位置信息可以用分词与代词之间的距离来表示,此处距离可以为词距,也可以为与词距正相关的量。例如,对各个分词进行排序,以代词为中心,每个分词与代词之间间隔的分词的数量记为距离;又如,对每个分词进行排序,每个分词与代词之间间隔的分词的数量与单个分词所占长度的乘积记为距离。然后,将每个分词的位置信息映射成位置特征。位置特征可以用位置向量来表示。
作为一非限制性示例,以代词为中心,获取各分词与代词之间的距离。例如,每个分词所占长度可以记为1,也可以记为2或其他数字。一个标点符号所占长度可以记为0,也可以记为1或其他数字。然后再将每个分词与代词的距离通过映射网络映射成固定长度的位置向量,即位置特征。也就是说通过映射网络将一维的位置信息映射成多维的位置向量。可选地,映射网络可以为单层全连接层。
在本申请另一些实施例中,在对目标文本进行分词的同时可以进行词性标注,获取目标文本包括的名词的位置信息。位置信息可以用名词与代词之间的距离来表示。然后,将每个名词的位置信息映射成位置特征,即位置向量。应理解,除名词外的其他词性的分词,位置向量为全0向量。
作为一非限制性示例,根据词性标注的结果,以代词为中心,获取每个名词与代词之间的距离。例如,每个分词所占长度可以记为1,也可以记为2或其他数字。一个标点符号所占长度可以记为0,也可以记为1或其他数字。然后再将每个名词与代词的距离通过映射网络映射成固定长度的位置向量,即位置特征。也就是说通过映射网络将一维的位置信息映射成多维的位置向量。可选地,映射网络可以为单层全连接层。
如前所述,由于代词通常情况下是用于指代代词前面出现的分词,即代词指代的是先行词。因而,在本申请另一些实施例中,在前述两种实施例的基础上,将代词之后的分词或名词的位置信息标识为0。
需要说明的是,对每个分词或标点符号所占长度不作具体限定;位置信息还可以为一位数,还可以为二位数,甚至是更多位数;对位置特征或位置向量的长度不作具体限定。应理解,此处两个示例不能解释为对本申请的具体限制。
可选地,获取所述目标文本的知识特征,包括:
获取每个分词对应的知识信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述知识信息,映射成知识特征。
其中,去预先设置的知识库查找名词,确定目标文本包括的各名词的实体结果,然后,将名词的实体结果与该名词后面的代词进行匹配,对不同的匹配结果进行对应的标识,以获得知识信息。然后再将知识信息通过映射网络映射成固定长度的知识向量,即知识特征。可选地,映射网络可以为单层全连接层。
名词的实体结果包括但不限于:人物实体、地点实体、物体实体、动物实体、组织机构、或不存在等等。根据名词的实体结果与代词进行匹配的匹配结果,进行对应的标识,就得到知识信息。匹配结果包括但不限于:匹配成功、不匹配、或其他匹配结果等。其他匹配结果包括无法确定是匹配成功还是不匹配,或者没有返回匹配结果等。知识信息,例如,1表示匹配成功,0表示不匹配或者其他匹配结果。
作为本申请一非限制性示例,若根据词性标注结果确定代词是人称代词,例如:他(们)或她(们)。在知识库中查找名词得到的实体结果是人物实体。此时,确定名词的实体结果与代词匹配成功。把名词的知识信息标注为1。同理,若根据词性标注结果确定代词是指示代词,例如:这里或那里。在知识库中查找名词得到的实体结果是地点实体或组织机构。此时,确定名词的实体结果与代词匹配成功,把名词的知识信息标注为1。同理,若根据词性标注结果确定代词是“它”。在知识库中查找名词得到的实体结果是物体实体或动物实体。此时,确定名词的实体结果与代词匹配成功,把名词的知识信息标注为1。除了匹配成功外的匹配结果,即不匹配或其他匹配结果,知识信息均标识为0。
如前所述,由于代词通常情况下是用于指代代词前面出现的分词,即代词指代的是先行词。因而,在本申请另一些实施例中,在前述两种实施例的基础上,将代词之后的分词或名词的知识信息标识为0。
需要说明的是,对用于标识知识信息的数字不作具体限定;知识信息可以为一位数,还可以为二位数,甚至是更多位数;对知识特征或知识向量的长度不作具体限定。应理解,此处示例不能解释为对本申请的具体限制。
应理解,将词性信息映射成词性特征(词性向量)的映射网络,将位置信息映射成位置特征(位置向量)的映射网络,以及将知识信息映射成知识特征(知识向量)的映射网络,这三个映射网络的结构和/或参数可以相同,也可以不相同,本申请对此不予限制。
S630,将所述词义特征、词性特征、位置特征和知识特征组成输入矩阵;
其中,将目标文本包括的各分词对应的词义特征、词性特征、位置特征和知识特征进行拼接,得到输入矩阵。
需要说明的是,当目标文本包括的分词不足预设最大长度,则需要用0向量补齐。当目标文本包括的分词大于预设最大长度,则需要将超量的分词去除。
例如,可以截取前预设最大长度个分词,也可以截取后预设长度个分词,本申请对此不予限制。
S640,将所述输入矩阵输入神经网络模型,得到指代消解结果。
在本申请实施例中,神经网络模型为训练后的神经网络模型。神经网络模型用于对文本进行指代消解,获得指代消解结果。
特征抽取器和分类子网络均为以人工智能中机器学习技术为基础的神经网络模型。特征抽取器和分类子网络可以一同进行训练,以获得用于指代消解的神经网络模型。
本申请实施例对神经网络模型的结构不作具体限制。例如,卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、BiLSTM或Transfomer网络等。
需要说明的是,当电子设备为用户设备时,神经网络模型的训练过程可以在其他电子设备例如云服务器等实现。当电子设备为服务器时,神经网络模型的训练过程可以在服务器本地实现,还可以在与服务器通信的其他电子设备上实现。当电子设备在本地训练神经网络模型,或者从其他电子设备获取训练后的神经网络模型,并部署经过训练的神经网络模型后,可以在电子设备实现对目标文本的指代消解。
在步骤S640,利用神经网络模型对输入矩阵进行特征提取,获得每个分词对应的特征向量。再将代词对应的特征向量和除代词外的其余各个分词对应的特征向量拼接成匹配向量,每个匹配向量用于表示一组指代关系。最后对各组指代关系进行打分,从而获得各组指代关系的打分结果。每个打分结果与该组指代关系之间的匹配程度正相关,也就是说,打分结果反映了代词与同组的分词之间构成指代关系的匹配程度。神经网络模型可以输出至少一个打分结果。神经网络模型输出的打分结果的数量视神经网络模型的具体结构而定,本申请对此数量不予限定。
在一些实施例中,神经网络模型输出N个打分结果,N为等于或大于1的整数。在一些实施例中,神经网络模型在获取到各组匹配向量的的打分结果后,根据打分结果是否超过预设阈值判断每组的代词与分词是否构成指代关系,最后输出打分结果超过预设阈值的指代关系。在一些实施例中,神经网络模型选择打分最高的一组指代关系作为目标文本的指代消解结果。
在本申请一些实施例中,神经网络模型输出的,各组指代关系的打分之和为1。在本申请一些实施例中,神经网络模型输出的,各组指代关系的打分之和不为1。和值是否为1,视神经网络模型的输出层是否进行归一化而定,本申请对此不予限制。
在图6B所示示例中,神经网络模型包括特征抽取器和分类子网络。
其中,所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个所述分词对应的特征向量。所述分类子网络用于基于所述特征矩阵获得指代消解结果。
在图6B所示示例中,所述分类子网络包括:拼接层、全连接神经网络和输出层。
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。每个打分结果与该匹配向量对应的指代关系之间的匹配程度正相关。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
可选地,在图6A和图6B所示实施例的基础上,在其他一些实施例中,还可以由词义特征和词性特征组成输入矩阵;在其他一些实施例中,还可以由词义特征和位置特征组成输入矩阵;在其他一些实施例中,还可以由词义特征和知识特征组成输入矩阵;在其他一些实施例中,还可以由词义特征、词性特征和位置特征组成输入矩阵等。
更一般地,在本申请实施例中,获取目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征这三个特征中的至少一个目标特征;再将词义特征和目标特征组成输入矩阵;最后基于输入矩阵得到指代消解结果。
在本申请实施例中,除了利用词义特征,还联合了其他特征,例如词性特征、位置特征或知识特征,进行指代消解。由于增加了用于指代消解的信息的种类,提高了指代消解结果的准确度。
可选地,在图6B所示实施例的基础上,在其他一些实施例中,如图8所示,所述分类子网络还可以包括:选择层。也就是说,在这些实施例中,分类子网络包括:选择层,拼接层,全连接神经网络和输出层。
所述选择层用于从特征抽取器输出的特征矩阵中筛选出候选先行词对应的特征向量,和代词对应的特征向量。
在一些实施例中,可以先通过词性信息、位置信息和知识信息中的至少一种信息筛选候选先行词,然后从特征矩阵中筛选候选先行词对应的特征向量。
作为一非限制性示例,如前所述,由于代词通常指代代词前面出现的分词,因而可以利用位置信息筛选出代词前的分词作为候选先行词。
作为另一非限制性示例,如前所述,由于代词通常指代名词,因而可以利用词性信息筛选分词中的名词作为候选先行词。
作为另一非限制性示例,由于代词通常指代知识信息属于实体且与代词匹配的分词,可以利用知识信息筛选属于实体且与代词匹配的分词作为候选先行词。例如,筛选知识信息为1的分词作为候选先行词。
作为一非限制性示例,如前所述,由于代词通常指代代词前面出现的名词,因而可以利用词性信息和位置信息,筛选出代词前的名词作为候选先行词。
作为另一非限制性示例,可以利用词性信息和知识信息,筛选属于实体且与代词匹配的名词作为候选先行词。例如,筛选知识信息为1,且词性信息为1的分词作为候选先行词。
作为另一非限制性示例,可以利用位置信息和知识信息,筛选代词前面的,属于实体且与代词匹配的分词作为候选先行词。
作为另一非限制性示例,可以利用词性信息、位置信息和知识信息,筛选代词前面的,属于实体且与代词匹配的名词作为候选先行词。
在一些实施例中,可以预先设置选择层筛选出的候选先行词的数量,也就是说,可以对后续拼接层的匹配向量的数量进行限制。数量为经验值,需要权衡计算量和结果准确性等实际情况,对此数量不做具体限制。
拼接层用于将每个候选先行词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量。其他层与图6B所示示例相同,请参见前述。
在图6B的示例中,并未设置选择层,需要拼接各个先行词与代词对应的特征向量,以获得匹配向量。而在图8的示例中,通过设置选择层,筛选出候选先行词以及对应的特征向量,在后续的拼接层,只需要拼接候选先行词与代词对应的特征向量,以获得匹配向量。一方面,减少了匹配向量的数量,也就减少了打分的运算复杂度,节约了算力成本,提高了效率。另一方面,由于对各先行词进行筛选,筛选出与指代关系相关度高的候选先行词,过滤掉了不相关的词语,提高了指代消解结果的准确性。
可选地,在图6B或图8所示实施例的基础上,在其他一些实施例中,所述分类子网络还可以包括:残差连接层。此处以在图8所示实施例的基础上增设残差连接层为例,如图9所示,在这些实施例中,分类子网络包括:残差连接层,选择层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。
其中,所述编码矩阵包括各个分词对应的编码向量。
此时,选择层用于从编码矩阵中筛选出候选先行词对应的编码向量,和代词对应的编码向量。
拼接层用于将每个候选先行词对应的编码向量,与代词对应的编码向量进行拼接,获得匹配向量。
在图9的示例中,通过增设残差连接层,使神经网络模型实现更快地收敛,提高神经网络模型训练效率。
接下来以第一个应用场景中的目标文本“介绍一下明星A。明星A是中国著名歌手。他的老婆是谁?”为例,对本申请实施例提供的一种指代消解方法的实现流程做详细介绍,如图10所示。应理解,此处的目标文本的具体内容仅为示例性描述,不能解释为对本申请的具体限制。
如图10所示,对目标文本进行指代消解的过程如下:
第一步,输入层
对目标文本“介绍一下明星A。明星A是中国著名歌手。他的老婆是谁?”进行分词和词性标注,得到目标文本包括的按序排列的16个分词:“介绍”、“一下”、“明星A”、“。”、“明星A”、“是”、“中国”、“著名”、“歌手”、“。”、“他”、“的”、“老婆”、“是”、“谁”和“?”。应理解,此示例未去除非特征词,例如标点符号。在其他示例中,还可以去除停用词等。
通过词向量模型,得到16个分词各自对应的词向量(embedding)。
例如,第i个分词对应的词向量例如ei,i的取值为数值区间[1,16]内的整数。假设词向量的长度为K。将16个分词各自对应的词向量拼接成词向量矩阵,得到E=[e1;e2;e3;...;e16],即E大小为16×K。
根据16个分词各自的词性信息,将各个词性信息通过第一映射网络映射成第一预设长度的词性特征。
例如,假设第一映射网络的映射矩阵为M1,M1大小为1×K,第一预设长度为K。16个分词的词性信息拼接成的矩阵为I1,I1的大小为16×1。通过第一映射网络后,目标文本的词性特征为S=I1·M1,S的大小为16×K。
根据16个分词各自的位置信息,将各个位置信息通过第二映射网络映射成第二预设长度的位置特征。
例如,假设第二映射网络的映射矩阵为M2,M2大小也为1×K,第二预设长度为K。16个分词的位置信息拼接成的矩阵为I2,I2的大小为16×1。通过第二映射网络后,目标文本的位置特征为P=I2·M2,P的大小为16×K。
根据16个分词各自的知识信息,将各个知识信息通过第三映射网络映射成第三预设长度的知识特征。
例如,假设第三映射网络的映射矩阵为M3,M3大小也为1×K,第三预设长度为K。16个分词的位置信息拼接成的矩阵为I3,I3的大小为16×1。通过第三映射网络后,目标文本的知识特征为Q=I3·M3,Q的大小为16×K。
在本示例中,神经网络模型的输入最大长度T刚好为16个分词,不需要对目标文本的分词进行截取或补零。
第二步,通用特征抽取器
将输入矩阵输入特征抽取器进行特征提取,获得特征向量。
特征抽取器采用CNN,RNN,BiLSTM或Transfomer均可,可以根据需要灵活选择,提高本申请的适用性。
例如,输入矩阵为四个矩阵E,S,P和Q进行拼接而成,得到矩阵F1,F1的大小为16×4K。假设特征抽取器为f(x),输入矩阵是F1,输出的特征向量为F2,F2的大小为16×K。
第三步,残差连接层
残差连接层将特征向量与输入特征进行残差连接。
由于通常情况下输入特征F1和输出的特征向量F2维度不相同,需要增加额外的矩阵M4,残差层的输出为编码矩阵F3,F3=g(F2+F1·M4)。其中,g()为激活函数。激活函数例如ReLU函数。
例如,输入矩阵F1的大小为16×4K。输出的特征向量F2的大小为16×K。额外的矩阵M4的大小为4K×K。编码矩阵F3的大小为16×K。编码矩阵的16个分量为分别对应16个分词的编码向量。
在本示例中,神经网络模型包括残差连接层。应理解,在其他示例中,也可以不设置残差连接层。
第四步,选择层
根据词性信息,保留可能成为候选先行词的分词所对应的编码向量,和代词所对应的编码向量。可能成为候选先行词的分词可以包括名词,名词包括人名词,地名词等。
假设经过选择后,最大词数为m。则选择层输出的经过选择后的编码向量为F4,F4的大小为m×K。若根据词性信息筛选出的候选先性词和代词的总数量不足m个,则采用全0向量补充,即补零。若根据词性信息筛选出的候选先性词和代词的总数量超过m个,则采用截取的方式过滤掉超量的候选先行词,例如将距离代词最远的超量候选候选词过滤。
例如,假设选择层筛选出4个分词及对应的编码向量。根据词性信息,刚好筛选出3个候选先行词“明星A”、“中国”和“歌手”,以及1个代词“他”。并根据各个分词的排序,在编码矩阵按照排序筛选这4个分词各自对应的编码向量。
在本示例中,神经网络模型包括选择层。应理解,在其他示例中,也可以不设置选择层。
在本示例中,选择层根据词性信息筛选候选先行词。应理解,在其他示例中,还可以根据词性信息、位置信息和知识信息中的至少一个信息筛选候选先行词。
第五步,拼接层
拼接层将代词对应的编码向量与各个候选先行词对应的编码向量进行拼接,得到匹配向量。每个匹配向量的大小为1×2K。
假设筛选出的m个分词中,代词的数量为1个。该代词对应的编码向量与m-1个候选先行词各自对应的编码向量分别进行拼接,得到m-1个匹配向量,则各个匹配向量拼接成矩阵F5,F5的大小为(m-1)×2K。
例如,假设选择层筛选出4个分词及对应的编码向量。筛选出的3个候选先行词为“明星A”、“中国”和“歌手”,以及1个代词“他”。将代词“他”对应的编码向量分别与候选先行词为“明星A”、“中国”和“歌手”各自对应的编码向量进行拼接。得到3个匹配向量。3个匹配向量分别表示三组指代关系:[他]<->[明星A],[他]<->[中国],和[他]<->[歌手]。
在本示例中,假设筛选出的m个分词中,代词的数量为1个。应理解,在其他示例中,代词的数量还可以为多个。
第六步,全连接神经网络
全连接神经网络对每个匹配向量进行打分,得到每个匹配向量的打分结果。打分结果与该组指代关系之间的匹配程度正相关。也就是说,一组指代关系的打分越高,则表示该组指代关系成立的可能性越大。全连接神经网络可以包括全连接层和激活函数。
例如,全连接神经网络对3个匹配向量进行打分,得到各组指代关系的打分结果。[他]<->[明星A]这组指代关系的打分为0.9,[他]<->[中国]这组指代关系的打分为0.4,和[他]<->[歌手]这组指代关系的打分为0.3。
第七步,输出
输出打分最高的前N个指代关系,作为正确的指代消解结果,即指代匹配结果。通常情况下,选择打分最高的指代关系,作为指代匹配结果。
例如,输出打分最高的指代关系:[他]<->[明星A],作为指代消解结果。也就是说,通过神经网络模型,识别出目标文本中的代词“他”指代的是“明星A”。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的指代消解的方法,图11示出了本申请实施例提供的指代消解的装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图11,指代消解的装置包括:第一获取模块M1101,第二获取模块M1102,组成模块M1103和消解模块M1104。
其中,所述第一获取模块M1101,用于获取待指代消解的目标文本;
所述第二获取模块M1102,用于获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个目标特征;
所述组成模块M1103,用于将所述词义特征和所述目标特征组成输入矩阵;
所述消解模块M1104,用于将所述输入矩阵输入神经网络模型,得到指代消解结果。
可选地,所述词义特征包括所述目标文本对应的词向量矩阵。
可选地,如图12所示,所述第二获取模块M1102包括词义特征获取模块M11021,词性特征获取模块M11022,位置特征获取模块M11023和知识特征获取模块M11024。
所述词义特征获取模块M11021,用于获取所述目标文本的词义特征。
具体地,所述词义特征获取模块M11021,具体用于:
将每个分词转换成词向量,所述目标文本包括若干个所述分词;
将各个所述分词对应的词向量拼接成词向量矩阵。
所述词性特征获取模块M11022,用于获取所述目标文本的词性特征。
具体地,所述词性特征获取模块M11022,具体用于:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述词性信息,映射成词性特征。
所述位置特征获取模块M11023,用于获取所述目标文本的位置特征。
具体地,所述位置特征获取模块M11023,具体用于:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述位置信息,映射成位置特征。
所述知识特征获取模块M11024,用于获取所述目标文本的知识特征。
具体地,所述知识特征获取模块M11024具体用于:
获取每个分词对应的知识信息,所述目标文本包括若干个所述分词;
将每个所述分词对应的所述知识信息,映射成知识特征。
可选地,所述神经网络模型包括特征抽取器和分类子网络。
所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个所述分词对应的特征向量。
所述分类子网络用于基于所述特征矩阵获得指代消解结果。
作为一非限制性示例,所述分类子网络包括拼接层,全连接神经网络和输出层。
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
作为另一非限制性示例,所述分类子网络包括残差连接层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述拼接层用于将每个其余分词对应的编码向量,与代词对应的编码向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
作为另一非限制性示例,所述分类子网络包括选择层,拼接层,全连接神经网络和输出层。
所述选择层用于从所述特征矩阵中筛选出每个候选先行词对应的特征向量,和代词对应的特征向量。
所述拼接层用于将每个所述候选先行词对应的特征向量,与所述代词对应的特征向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
作为另一非限制性示例,所述分类子网络包括残差连接层,选择层,拼接层,全连接神经网络和输出层。
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。所述编码矩阵包括各个所述分词对应的编码向量。
所述选择层用于从所述编码矩阵中筛选出每个候选先行词对应的编码向量,和代词对应的编码向量。
所述拼接层用于将每个所述候选先行词对应的编码向量,与所述代词对应的编码向量进行拼接,获得匹配向量。
所述全连接神经网络用于对每个所述匹配向量进行打分。
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (18)

1.一种指代消解的方法,其特征在于,包括:
获取待指代消解的目标文本;
获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个目标特征;
将所述词义特征和所述目标特征组成输入矩阵;
将所述输入矩阵输入神经网络模型,得到指代消解结果;
其中,获取所述目标文本的知识特征,包括:
获取所述目标文本包括的各名词的实体结果,名词的实体结果包括人物实体、地点实体、物体实体、动物实体、组织实体和不存在;
对于每一个名词,将所述名词的实体结果与所述名词后面的代词进行匹配,并对不同的匹配结果进行对应的标识,得到所述名词的知识信息;
将每一个所述名词的知识信息通过映射网络映射成固定长度的知识特征。
2.如权利要求1所述的方法,其特征在于,所述词义特征包括所述目标文本对应的词向量矩阵。
3.如权利要求1或2所述的方法,其特征在于,所述获取所述目标文本的词义特征,包括:
将每个分词转换成词向量,所述目标文本包括若干个所述分词;
将各个所述分词对应的词向量拼接成词向量矩阵。
4.如权利要求1或2所述的方法,其特征在于,
获取所述目标文本的词性特征,包括:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;以及
将每个所述分词对应的所述词性信息,映射成词性特征;
获取所述目标文本的位置特征,包括:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;以及
将每个所述分词对应的所述位置信息,映射成位置特征。
5.如权利要求1或2所述的方法,其特征在于,所述神经网络模型包括特征抽取器和分类子网络;
所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个分词对应的特征向量;
所述分类子网络用于基于所述特征矩阵获得指代消解结果。
6.如权利要求5所述的方法,其特征在于,所述分类子网络包括拼接层,全连接神经网络和输出层;
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词;
所述全连接神经网络用于对每个所述匹配向量进行打分;
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
7.如权利要求5所述的方法,其特征在于,所述分类子网络包括选择层,拼接层,全连接神经网络和输出层;
所述选择层用于从所述特征矩阵中筛选出每个候选先行词对应的特征向量,和代词对应的特征向量;
所述拼接层用于将每个所述候选先行词对应的特征向量,与所述代词对应的特征向量进行拼接,获得匹配向量;
所述全连接神经网络用于对每个所述匹配向量进行打分;
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
8.如权利要求6或7所述的方法,其特征在于,所述分类子网络还包括残差连接层;
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。
9.一种指代消解的装置,其特征在于,包括:
第一获取模块,用于获取待指代消解的目标文本;
第二获取模块,用于获取所述目标文本的词义特征,获取所述目标文本的词性特征,位置特征和知识特征中的至少一个目标特征;
组成模块,用于将所述词义特征和所述目标特征组成输入矩阵;
消解模块,用于将所述输入矩阵输入神经网络模型,得到指代消解结果;
其中,所述第二获取模块,包括:
知识特征获取模块,用于获取所述目标文本包括的各名词的实体结果,名词的实体结果包括人物实体、地点实体、物体实体、动物实体、组织实体和不存在;对于每一个名词,将所述名词的实体结果与所述名词后面的代词进行匹配,并对不同的匹配结果进行对应的标识,得到所述名词的知识信息;将每一个所述名词的知识信息通过映射网络映射成固定长度的知识特征。
10.如权利要求9所述的装置,其特征在于,所述词义特征包括所述目标文本对应的词向量矩阵。
11.如权利要求9或10所述的装置,其特征在于,所述第二获取模块还包括词义特征获取模块,词性特征获取模块和位置特征获取模块;
所述词义特征获取模块,用于获取所述目标文本的词义特征;
所述词性特征获取模块,用于获取所述目标文本的词性特征;
所述位置特征获取模块,用于获取所述目标文本的位置特征。
12.如权利要求11所述的装置,其特征在于,
所述词义特征获取模块,用于:
将每个分词转换成词向量,所述目标文本包括若干个所述分词;以及
将各个所述分词对应的词向量拼接成词向量矩阵;
所述词性特征获取模块,用于:
获取每个分词对应的词性信息,所述目标文本包括若干个所述分词;以及
将每个所述分词对应的所述词性信息,映射成词性特征;
所述位置特征获取模块,用于:
获取每个分词对应的位置信息,所述目标文本包括若干个所述分词;以及
将每个所述分词对应的所述位置信息,映射成位置特征。
13.如权利要求9或10所述的装置,其特征在于,所述神经网络模型包括特征抽取器和分类子网络;
所述特征抽取器用于提取所述输入矩阵的特征,获得特征矩阵,所述特征矩阵包括各个分词对应的特征向量;
所述分类子网络用于基于所述特征矩阵获得指代消解结果。
14.如权利要求13所述的装置,其特征在于,所述分类子网络包括拼接层,全连接神经网络和输出层;
所述拼接层用于将每个其余分词对应的特征向量,与代词对应的特征向量进行拼接,获得匹配向量;所述其余分词为所述目标文本包括的若干个分词中,除所述代词外的分词;
所述全连接神经网络用于对每个所述匹配向量进行打分;
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
15.如权利要求13所述的装置,其特征在于,所述分类子网络包括选择层,拼接层,全连接神经网络和输出层;
所述选择层用于从所述特征矩阵中筛选出每个候选先行词对应的特征向量,和代词对应的特征向量;
所述拼接层用于将每个所述候选先行词对应的特征向量,与所述代词对应的特征向量进行拼接,获得匹配向量;
所述全连接神经网络用于对每个所述匹配向量进行打分;
所述输出层输出打分最高的匹配向量对应的指代关系,作为指代消解结果。
16.如权利要求14或15所述的装置,其特征在于,所述分类子网络还包括残差连接层;
所述残差连接层用于对所述输入矩阵和所述特征矩阵进行残差连接,得到编码矩阵。
17.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述电子设备实现如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN202010113756.2A 2020-02-24 2020-02-24 指代消解的方法、装置及电子设备 Active CN113297843B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010113756.2A CN113297843B (zh) 2020-02-24 2020-02-24 指代消解的方法、装置及电子设备
PCT/CN2020/124482 WO2021169351A1 (zh) 2020-02-24 2020-10-28 指代消解的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010113756.2A CN113297843B (zh) 2020-02-24 2020-02-24 指代消解的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113297843A CN113297843A (zh) 2021-08-24
CN113297843B true CN113297843B (zh) 2023-01-13

Family

ID=77318561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010113756.2A Active CN113297843B (zh) 2020-02-24 2020-02-24 指代消解的方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN113297843B (zh)
WO (1) WO2021169351A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168738B (zh) * 2021-12-16 2024-06-07 北京感易智能科技有限公司 篇章级事件抽取方法、***和设备
CN113963358B (zh) * 2021-12-20 2022-03-04 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN114494872A (zh) * 2022-01-24 2022-05-13 北京航空航天大学 一种嵌入式轻量化遥感目标检测***
CN116562303B (zh) * 2023-07-04 2023-11-21 之江实验室 一种参考外部知识的指代消解方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446517A (zh) * 2018-10-08 2019-03-08 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
RU2601166C2 (ru) * 2015-03-19 2016-10-27 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение анафоры на основе технологии глубинного анализа
CN107402913B (zh) * 2016-05-20 2020-10-09 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN107766320A (zh) * 2016-08-23 2018-03-06 中兴通讯股份有限公司 一种中文代词消解模型建立方法及装置
JP6727610B2 (ja) * 2016-09-05 2020-07-22 国立研究開発法人情報通信研究機構 文脈解析装置及びそのためのコンピュータプログラム
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
WO2018174815A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
US10366161B2 (en) * 2017-08-02 2019-07-30 International Business Machines Corporation Anaphora resolution for medical text with machine learning and relevance feedback
CN107679041B (zh) * 2017-10-20 2020-12-01 苏州大学 基于卷积神经网络的英文事件同指消解方法及***
CN108595408A (zh) * 2018-03-15 2018-09-28 中山大学 一种基于端到端神经网络的指代消解方法
CN109271529B (zh) * 2018-10-10 2020-09-01 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109885841B (zh) * 2019-03-20 2023-07-11 苏州大学 基于结点表示法的指代消解方法
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110705206B (zh) * 2019-09-23 2021-08-20 腾讯科技(深圳)有限公司 一种文本信息的处理方法及相关装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446517A (zh) * 2018-10-08 2019-03-08 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质

Also Published As

Publication number Publication date
WO2021169351A1 (zh) 2021-09-02
CN113297843A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113297843B (zh) 指代消解的方法、装置及电子设备
CN110111787B (zh) 一种语义解析方法及服务器
CN111669515B (zh) 一种视频生成方法及相关装置
US11636852B2 (en) Human-computer interaction method and electronic device
CN112885328B (zh) 一种文本数据处理方法及装置
WO2021254411A1 (zh) 意图识别方法和电子设备
CN112256868A (zh) 零指代消解方法、训练零指代消解模型的方法及电子设备
CN111625670A (zh) 一种图片分组方法及设备
CN111881315A (zh) 图像信息输入方法、电子设备及计算机可读存储介质
CN115050358A (zh) 一种语音控制命令生成方法及终端
CN114242037A (zh) 一种虚拟人物生成方法及其装置
CN114691839A (zh) 一种意图槽位识别方法
CN111191018B (zh) 对话***的应答方法和装置、电子设备、智能设备
CN114005016A (zh) 一种图像处理方法、电子设备、图像处理***及芯片***
WO2022062884A1 (zh) 文字输入方法、电子设备及计算机可读存储介质
CN114822543A (zh) 唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质
CN111768765B (zh) 语言模型生成方法和电子设备
CN116052648B (zh) 一种语音识别模型的训练方法、使用方法及训练***
CN113380240B (zh) 语音交互方法和电子设备
CN114238554A (zh) 一种文本标注提取方法
CN114528842A (zh) 一种词向量构建方法、装置、设备及计算机可读存储介质
CN114093368A (zh) 跨设备声纹注册方法、电子设备及存储介质
CN112416984A (zh) 一种数据处理方法及其装置
WO2024067630A1 (zh) 一种输入方法、电子设备和存储介质
CN114463762B (zh) 一种数据的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant