CN114417869A

CN114417869A - 实体识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114417869A
Application number: CN202011176742.1A
Authority: CN
Inventors: 韦强申; 经琴; 宋勇
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29

Abstract

本申请实施例提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，涉及文本处理技术领域。该方法包括：获取待处理语句；对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。本申请的实施能够解决针对特定场景下的实体识别准确率较低的问题，提高实体识别准确率。

Description

实体识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及文本处理技术领域，具体而言，本申请涉及一种实体识别方法、装置、电子设备及计算机可读存储介质。

背景技术

命名实体识别是自然语言处理(Natural Language Processing,NLP)任务的基础研究领域，有广泛的应用场景，涵盖了关键词提取、信息检索、信息抽取、事件分析、机器翻译、智能对话等多种应用。命名实体识别一般包括对人名、地名、组织机构名等名词实体的识别，在特定领域内，会定义对应的命名实体。但是，现有的命名实体识别方法针对特定场景下的实体识别准确率较低。

发明内容

本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，可以提高实体识别准确率。所述技术方案包括：

第一方面，本申请实施例提供了一种实体识别方法，该方法包括：获取待处理语句；对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。

第二方面，本申请实施例提供了一种实体识别装置，该装置包括：语句获取模块，用于获取待处理语句；实体获取模块，用于对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；实体识别模块，用于若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：一个或多个计算机程序，其中，所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器调用执行时实现如上述第一方面所述的方法。

本申请实施例提供的一种实体识别方法、装置、电子设备及计算机可读存储介质，通过获取待处理语句，然后对待处理语句进行分析得到待处理语句包含的依存关系，并根据依存关系确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体，若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。由此，本申请实施例可通过对待处理语句进行依存句法分析，根据其中包含的依存关系确定目标实体类型在待处理语句中可能存在的候选位置，再判断候选位置对应的候选实体的词性与预设词性是否匹配，并在匹配时才将候选实体作为目标实体类型对应的目标实体，可以减少将特定实体拆分开的误识别问题的出现，减小识别错误率，从而可提高实体识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请一个实施例提供的实体识别方法的流程示意图。

图2示出了本申请一个示例性实施例提供的依存关系示意图。

图3示出了本申请另一个实施例提供的实体识别方法的流程示意图。

图4示出了本申请一个示例性实施例提供的图3中步骤S220的详细流程示意图。

图5示出了本申请一个示例性实施例提供的状态转移示意图。

图6示出了本申请另一个示例性实施例提供的状态转移示意图。

图7示出了本申请又一个实施例提供的实体识别方法的流程示意图。

图8示出了本申请一个示例性实施例提供的图7中步骤S340的详细流程示意图。

图9示出了本申请一个示例性实施例提供的获取依存关系包含目标实体的概率的方法流程示意图。

图10示出了本申请一个实施例提供的实体识别装置的模块框图。

图11示出了本申请实施例提供的电子设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请实施方式作进一步地详细描述。

目前，命名实体识别技术比较完善，许多新的技术也逐渐被剔除并得到良好应用，针对不同的实体类型也给出了不同的解决方法。现有的实体识别方法，主要包括基于规则匹配的方法、基于特征模板的方法以及基于神经网络的方法。

第一，基于规则匹配的方法，根据中文书写规范，人工定义命名实体的特定场景，例如职业名称(如“医生”、“老师”等)与人名相关，可以作为人名后缀用于识别人名；组织机构后缀(如“公司”、“大学”等)可以用于识别组织机构名；地名标志(如“省”、“市”、“区”等)可以识别相关的地名实体。则基于规则匹配的方法通过定义实体识别规则，将规则与文本进行匹配，实现命名实体识别。该方法利用中文书写规范，可以识别标准的命名实体，识别准确率较高，但是人工定义规则识别实体的范围仍然有限，泛化能力较弱，且需耗费大量的人力成本，识别效率较低。

第二，基于特征模板的方法，首先需由人工对大规模的语料进行标注形成特征模板，然后利用机器学习方法学习出标注模型，从而通过该标注模型对语句中各个词语位置进行标注，实现命名实体抽取，常用的模型包括隐马尔科夫模型(HiddenMarkov Model，HMM)和条件随机场(Conditional Random Field，CRF)模型等。其中，特征模板一般是依据训练语料标注出的实体词在上下文中的位置关系，依据实体词是否满足位置特征，转化为0或1的数值向量，采用CRF训练模型，实现命名实体识别。该方法是在基于规则匹配的方法基础上，采用机器学习方法构建统计模型，实现命名实体识别，从而可减少人工定义规则的成本，提高模型的泛化能力，但是模型训练依赖大量的标注语料，人工标注成本较高，而且特征工程对模型识别的准确率和召回率影响较大，导致可扩展性较差。

第三，基于神经网络的方法，首先利用词嵌入(Word Embedding)形式标识词语，利用神经网络自动提取特征，目前常用的方法包括长短期记忆-条件随机场(Long Short-Term Memory-Conditional Random Field，LSTM-CRF)模型及其改进的算法双向长短期记忆-条件随机场(BiLSTM-CRF)模型，主要采用BIO标注集(B-PER、I-PER代表人名首字、人名非首字，B-LOC、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表组织机构名首字、组织机构非首字，O代表该字不属于命名实体的一部分)，然后构建多层神经网络训练特征，采用CRF模型进行序列标注，预测每个词语的标注结果，通过维特比(Viterbi)算法求解最优路径，实现命名实体识别。该方法是在机器学习方法的基础上，利用神经网络自识别实体特征模板，可以自学习文本内容，构建实体特征，降低特征工程工作量，提高执行效率，但是，神经网络较为复杂，可解释性较差，灵活性差，模型优化也比较复杂。

目前，现有的实体识别方法针对特定场景下名词实体识别的准确率较低，并且一些特定实体例如地名实体等容易在识别时被拆分开。例如，针对文本“用户在山水华府居住手机信号差”，现有的地名实体识别方法识别不到真实地名“山水华府”，而仅识别出“华府”或“山水”，从而导致误识别。

基于上述现有的实体识别方法存在的问题，本申请实施例提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，通过对待处理语句进行依存句法分析，根据其中包含的依存关系确定目标实体类型在待处理语句中可能存在的候选位置，再判断候选位置对应的候选实体的词性与预设词性是否匹配，并在匹配时才将候选实体作为目标实体类型对应的目标实体，可以减少将特定实体拆分开的误识别问题的出现，减小识别错误率，从而可提高实体识别准确率。

下面将通过具体实施例对本申请实施例提供的实体识别方法、装置、电子设备及计算机可读存储介质进行详细说明。

本申请的实体识别方法以及实体识别装置可设置在各种可对文本进行处理的电子设备中，该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动终端(比如手机、个人数字助理(PDA)、媒体播放器等等)、多处理器***、消费型电子设备、小型计算机、大型计算机、包括上述任一***或设备的分布式计算环境，等等。

请参阅图1，图1示出了本申请一个实施例提供的实体识别方法的流程示意图，本申请实施例可应用于上述电子设备。下面针对图1所示的流程进行详细的阐述，该实体识别方法可以包括以下步骤：

S110：获取待处理语句。

电子设备可对原始语句进行切分，获取切分后的子语句，并将子语句作为待处理语句，也可直接获取原始语句作为待处理语句，在此不作限定。需要说明的是，本申请实施例所述的原始语句可以为未进行切分的语句，也可以为未被执行任何处理的语句。另外，原始语句可以是一个句子或多个句子组合成的语句，在此不作限定。

在一些实施方式中，电子设备在对原始语句进行切分时，可先利用分词工具对原始语句进行分词处理，得到词序列w₁,w₂,…,w_n，构建语料词典D，定义原始语句内的标点符号、特殊字符为显示分割符，然后根据显示分割符来切分语句，得到n个短句s₁,s₂,…s_n，然后从n个短句中获取一个或多个短句作为待处理语句。其中，分词工具可以为但不限于为SnowNLP,Thulac,HanLP，本申请实施例对此不作限定。

在一个示例中，针对原始语句“客户反映：自己在山水华府居住，没有信号，要求公司尽快处理，请协助处理。”，电子设备可利用HanLP分词工具，对该原始语句进行分词处理，并依据HanLP分词结果，通过显示分割符切分原始语句，得到5个短句s₁,s₂,…s₅，如下：

s₁:[客户/n,反映/v]

s₂:[自己/rr,在/p,山水/n,华府/n,居住/v]

s₃:[没有/v,信号/n]

s₄:[要求/n,公司/nis,尽快/d,处理/vn]

s₅:[请/v,协助/v,处理/vn]

其中，以短句s₁为例，“客户”、“反映”表示分词结果，“/n”、“/v”表示词性为名词、动词，详细词性标注解释可参照HanLP词性标注对照表，在此不再一一说明。则电子设备可获取上述5个短句中的一个或多个作为待处理语句。

S120：对待处理语句进行分析得到待处理语句包含的依存关系，并根据依存关系确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体。

电子设备可通过依存句法识别算法，对待处理语句进行分析，提取待处理语句中的依存关系。其中，依存关系可包括但不限于核心关系(head，HED)，主谓关系(subject-verb，SBV)，状中结构(adverbial，ADV)，介宾关系(preposition-object，POB)，定中关系(attribute，ATT，定中关系又可称为形容关系，指定语和中心语的关系)。

在一个示例中，以待处理语句为上述示例中的短句s₂为例，对待处理语句进行分析得到的待处理语句所包含的依存关系可如图2所示，图2示出了本申请一个示例性实施例提供的依存关系示意图，其中，Root指代根节点，WP指代标点(punctuation)。如图2所示，短句s₂中包含的依存关系有HED-核心关系，SBV-主谓关系，ADV-状中结构，POB-介宾关系，AIT-定中关系。

电子设备对待处理语句进行分析得到待处理语句包含的依存关系后，可根据依存关系，确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体。

其中，待识别的目标实体类型可根据实际需要设置，例如，目标实体类型可以为地名实体、人名实体等，本申请对此不作限定。需要说明的是，在一些实施例中所提及的地名实体可以为广义的地名实体，即可包括地名实体以及组织机构相关的实体，例如，“北京市”、“北京大学”均可属于本申请实施例后述内容所提及的地名实体。在其他一些实施例中，地名实体也可以仅指狭义的地名实体，则此时不包括组织机构相关的实体。本申请实施例对此不作限定。

在一些实施方式中，可预置有依存关系和依存关系包含实体类型对应的实体的映射关系，从而根据待识别的目标实体类型，可确定对应的依存关系，并根据该依存关系确定目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体。例如，根据依存关系可确定一组词语，该组词语可包括2个词语，则可将位于2个词语在待处理语句中的位置之间的位置确定为候选位置，并获取该候选位置上的词语作为候选位置对应的候选实体。再如，若根据依存关系确定的一组词语是连续的，即中间不包含其它词语或字，可将该组词语作为候选实体，此时该组词语在待处理语句中的位置即为候选位置。需要说明的是，前述仅为2种可能的示例，本申请实施例并不局限于上述两种确定候选位置和候选实体的方式。

在一个示例中，以目标实体类型为地名实体为例，电子设备可预置有可能包含地名实体的依存关系，例如，由于包含介词“在”的句子中，状中结构所包含的词语(即位于状中结构之间的词语)、或有关联的(如定中关系)词组可以提取为地名实体，则电子设备可预置状中结构、定中关系与地名实体的映射关系。当然，根据实际需要，也可预置其它的或者除前述示例外更多的依存关系，在此不作限定。

进一步地，在待处理语句为上述示例中的短句s₂的示例中，电子设备可根据短句s₂中包含的状中结构，将状中结构(“在”-“居住”)之间的位置作为候选位置，获取候选位置上的词语“山水华府”作为候选实体；电子设备也可根据短句s₂中包含的定中关系，获取定中关系对应的词语“山水华府”作为候选实体。需要说明的是，在分词结果中，“山水”、“华府”是2个词语，通过上述方法可将2个词语整体作为候选实体。

S130：若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。

电子设备可预置有预设词性，预设词性与待识别的目标实体类型关联，可根据实际需要进行设置。例如，可根据实际语句中，目标实体类型可能对应的词性来进行设置，将目标实体类型可能对应的词性作为预设词性。以目标实体类型为地名实体为例，通常地名实体对应的词性为名词，则可将名词作为预设词性。其中，名词在一些示例中还可具体包括专有名词、普通名词等，在此不作限定。当然，根据实际需要，预设词性也可包含多个词性，本实施例对其数量不作限定。

则确定候选实体后，电子设备可获取候选位置对应的候选实体的词性，判断候选实体的词性与预设词性是否匹配，若匹配，则可将候选实体确定为目标实体类型对应的目标实体。其中，候选实体可仅包含一个词语，即仅包含分词处理后一个分词结果，此时，若候选实体的词性属于预设词性，则可判定候选实体的词性与预设词性匹配。

另外，候选实体也可包含多个词语，此时，作为一种实施方式，若候选实体的词性与预设词性完全匹配(例如，候选实体所包含的所有词语的词性均属于预设词性)，可判定候选实体的词性与预设词性匹配。作为另一种实施方式，若候选实体的词性与预设词性部分匹配(例如，候选实体所包含的指定数量个词语的词性属于预设词性；再如，候选实体中位于指定位置的词语的词性属于预设词性，如候选实体中最后一个词语若属于预设词性，此情况也属于候选实体的词性与预设词性部分匹配)，也可判定候选实体的词性与预设词性匹配。本申请实施例对此不作限定。

在一个示例中，基于前述示例，以预设词性为名词为例，则根据分词结果，候选实体“山水华府”包括2个词语分别为“山水”、“华府”，该2个词语的词性均为名词，与预设词性匹配，则可将2个词语拼接组合得到的候选实体“山水华府”确定为地名实体，而不会出现将“山水”、“华府”两个词语拆分开作为2个实体，并仅将其中一个词语作为地名实体或无法确定哪个词语为地名实体的误识别。由此，本实施例提供的实体识别方法，可以在分词结果的基础上，根据待处理语句的依存关系，对分词结果进行拼接组合，得到目标实体，从而可针对语句中包含的目标实体类型对应的实体实现准确识别，若目标实体类型为地名实体，则可实现对地名实体的准确识别，相对于现有的实体识别技术，可降低将实体拆分开的误识别率，提高识别准确度。

需要说明的是，本申请实施例中电子设备预置的数据，如依存关系和依存关系包含实体类型对应的实体的映射关系、预设词性等，既可以是预先存储于电子设备本地的数据，也可以是预先存储于服务器的数据，电子设备与该服务器关联，可由该服务器获取相应的数据。

由此，本实施例提供的实体识别方法，通过获取待处理语句，然后对待处理语句进行分析得到待处理语句包含的依存关系，并根据依存关系确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体，若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。由此，本申请实施例可通过对待处理语句进行依存句法分析，根据其中包含的依存关系确定目标实体类型在待处理语句中可能存在的候选位置，再判断候选位置对应的候选实体的词性与预设词性是否匹配，并在匹配时才将候选实体作为目标实体类型对应的目标实体，可以减少将特定实体拆分开的误识别问题的出现，减小识别错误率，从而可提高实体识别准确率。

请参阅图3，其示出了本申请另一个实施例提供的实体识别方法的流程示意图，于本实施例中，该方法可包括：

S210：获取待处理语句。

S220：构建待处理语句的状态机。

其中，状态机可以是有穷状态机(Finite State Machine，FSM)，有穷状态机也可称为有穷自动机(Finite Automaton，FA)，有穷自动机包含一个有限状态的集合，每个状态可迁移到零个或多个状态。有限状态自动机是一种具有离散输入和输出的***的数学模型。在一些实施方式中，状态机还可为具体为确定有穷自动机(Deterministic FiniteAutomaton,DFA)，对于一个给定的属于该状态机的状态和一个属于该状态机字母表Σ的字符，确定有限状态自动机可根据预先给定的状态转移函数转移到下一状态(该状态可以是先前那个状态)。

在一些实施例中，步骤S220可具体包括步骤S221-S222，具体地，请参阅图4，其示出了本申请一个示例性实施例提供的图3中步骤S220的详细流程示意图，步骤S220可包括：

S221：对待处理语句进行分词处理，并得到相应的分词结果。

在一些实施方式中，若步骤S210是通过对原始语句进行分词处理得到的待处理语句，则可从原始语句的分词结果中获取待处理语句的分词结果，并继续执行步骤S222及后续步骤。例如，可从原始语句的分词结果如词序列w₁,w₂,…,w_n中，获取与待处理语句对应的词序列，作为待处理语句的分词结果。

在另一些实施方式中，也可在获取待处理语句后，利用分词工具对待处理语句进行分词处理，并得到相应的分词结果，其中，分词结果可以包括待处理语句被分词处理后得到的一个或多个词语。

S222：根据分词结果构建待处理语句的状态机。

在一些实施方式中，可根据分词结果构建待处理语句的DFA。在一个示例中，DFA的定义可如下公式，并可示意如图5，其中，q₀∈Q为DFA的起始状态，{q₂，q₃}∈F为DFA的终止状态，q₁∈Q为DFA的中间状态，{a，c，d}∈∑为DFA的字母表。

M＝(Q，∑，δ，q₀，F)

其中，M指代状态机，Q指代状态的非空有穷集。

q称为状态机M的一个状态。

其中，∑指代输入字母表，输入字符串都是∑上的字符串，即对待处理语句进行分词处理得到的词语，若针对这些词语组成的词序列，构建语料词典D，则∑＝D。

其中，δ指代状态转移函数，δ：Q×∑，

δ(q，a)＝p表示：状态机M在状态q读入一个字符a，将进入下一个状态p。

其中，q₀(q₀∈Q)是状态机M的转态开始，初始化DFA短句开始进入启动状态。

其中，

是状态机M的终止状态集，

称为状态机M的终止状态。

在一些实施方式中，电子设备可利用HanLP分词工具，对该原始语句进行分词处理，并依据HanLP分词结果，通过显示分割符切分原始语句，得到多个短句如短句s₁，s₂，...s₅。然后根据分词结果，分别构造出短句初始化状态机。

在一个示例中，以待处理语句为短句s₂：[自己/rr，在/p，山水/n，华府/n，居住/v]为例，则根据分词结果，可构建短句s₂的状态机，如图6所示，其中，q₀为该状态机的起始状态，q₅为该状态机的终止状态，q₁，q₂，q₃，q₄为该状态机的中间状态，状态转移的字母表为{自己/rr，在/p，山水/n，华府/n，居住/v}。

S230：对待处理语句进行分析得到待处理语句包含的依存关系。

在一个示例中，以待处理语句为短句s₂为例，可通过依存句法识别算法对待处理语句进行分析，提取待处理语句中每个状态的依存关系如图2所示。其中，字母表中的词语是状态转移函数的输入字符或字符串，状态机经过每个确定词语会进入下一个确定的状态，直到终止状态。

S240：根据依存关系确定状态机的起始位置及终止位置，并将起始位置与终止位置之间的位置作为待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体。

电子设备根据依存关系可以确定状态机的起始位置及终止位置，并将起始位置与终止位置之间的位置作为待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的词语作为候选实体。

由于对于状态机而言，状态转移函数的输入参数包括状态以及在该状态下读入的字符(词语对应的字符)，故状态机的状态在一些实施例中也可以理解为位置，即起始状态同起始位置，终止状态同终止位置。则在一些实施例中，可先根据依存关系确定状态机的起始状态和终止状态，然后将起始状态和终止状态之间的状态所对应的词语作为候选实体。

需要说明的是，根据候选位置所对应的词语的数量不同，候选实体可以包括一个词语，也可包括多个(两个或两个以上的)词语。同理，根据起始状态和终止状态之间的状态所对应的词语的数量不同，候选实体可以包括一个词语，也可包括多个(两个或两个以上的)词语。

另外，在一些实施方式中，若存在多组依存关系，可根据每组依存关系，确定状态机的起始位置及终止位置，则可确定多个候选位置并获取对应的多个候选实体。

在另一些实施方式中，也可仅根据多组依存关系中的一组依存关系来确定状态机的起始位置及终止位置，进而确定候选位置并获取对应的候选实体。其具体实施方式可见后述实施例，在此不作赘述。

S250：若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。

需要说明的是，本实施例中未详细描述的部分可参考前述实施例的相应部分，在此不再赘述。

由此，本实施例提供的实体识别方法，可以基于分词技术基础上，分析待处理语句中的依存关系，构建待处理语句的状态机，根据依存关系自动识别状态机的状态转移过程，具体地，可根据依存关系确定状态机的起始位置和终止位置，然后将起始位置与终止位置之间的位置作为待识别的目标实体类型在待处理语句中的候选位置，获取该候选位置对应的候选实体，如果候选位置对应的候选实体的词性与预设词性匹配，则将候选实体确定为待识别的目标实体，从而提取出其中的目标实体。

在一些实施例中，电子设备可以基于待处理语句中包含的依存关系及依存关系所包含目标实体的概率，来确定状态机的起始位置及终止位置，进而确定候选位置并获取对应的候选实体。具体地，请参阅图7，其示出了本申请又一个实施例提供的实体识别方法的流程示意图，于本实施例中，该方法可包括：

S310：获取待处理语句。

S320：构建待处理语句的状态机。

S330：对待处理语句进行分析得到待处理语句包含的依存关系。

S340：从依存关系中确定目标依存关系。

在一些实施例中，电子设备可按依存关系对应的词语在待处理语句中所处的位置，来确定目标依存关系。在一些实施方式中，电子设备可按依存关系对应的词语在待处理语句中所处的位置的前后关系，来确定目标依存关系。例如，可以将与待处理语句中第一个词语对应的依存关系确定为目标依存关系，以待处理语句为短句s₂:[自己/rr,在/p,山水/n,华府/n,居住/v]为例，可将第一个词语“自己”对应的主谓关系确定为目标依存关系。当然，在其他一些实施方式中，也可根据实际需要，将处于其它位置的词语对应的依存关系，确定为目标依存关系。

进一步地，在一种实施方式中，在返回执行步骤S340时，还可将第二个词语对应的依存关系确定为新的目标依存关系，在下一次返回执行步骤S340时，可将第三个词语对应的依存关系确定为新的目标依存关系，…，以此类推。由此可实现从前往后依次确定目标依存关系，来依次校验相应的候选实体的词性与预设词性是否匹配，从而实现目标实体的识别。当然，也可根据实际需要，从后往前依次确定目标依存关系，在此不作限定。

在另一些实施方式中，电子设备也可根据依存关系对应的词语在待处理语句中所处的位置的内外关系，来确定目标依存关系。例如，可以将待处理语句中最外侧的词语对应的依存关系确定为目标依存关系。

在一个示例中，以待处理语句为短句s₂(s₂:[自己/rr,在/p,山水/n,华府/n,居住/v])为例，则最外侧的词语对应的依存关系为主谓关系(自己/rr->居住/v)，然后由外向内的下一依存关系为介宾关系(在/p,山水/n,华府/n)。

进一步地，在一种实施方式中，在返回执行步骤S340时，还可由外向内的第二个依存关系确定为新的目标依存关系，在下一次电子设备返回执行步骤S340时，可将由外向内的第三个依存关系确定为新的目标依存关系，…，以此类推。由此，可实现从外向内依次确定目标依存关系，来依次校验相应的候选实体的词性与预设词性是否匹配，从而可逐步限缩待校验的候选实体的范围，使得每次待校验的候选实体包含的词语数量逐渐减少，直到锁定到候选实体的词性与预设词性匹配，则将此时的候选实体确定为目标实体，从而完成对目标实体的识别。通过由外向内依次限缩范围，并在每次线索后都判断一次中间的候选实体的词性是否与预设词性匹配，直至匹配时，则可停止限缩，将当前的候选实体确定为目标实体。

在另一些实施例中，为扩展识别规则，还可在状态机和依存句法分析的基础上，基于依存关系及其所包含目标实体的概率来确定目标依存关系。例如，可以将多组依存关系中概率最高的依存关系作为目标依存关系，并根据该目标依存关系来确定状态机的起始位置和终止位置，进而确定候选位置并获取对应的候选实体。

在一些实施方式中，步骤S340可具体包括步骤S341-342，具体地，请参阅图8，其示出了本申请一个示例性实施例提供的图7中步骤S340的详细流程示意图，步骤S340可包括：

S341：基于依存关系与依存关系包含目标实体的概率，将依存关系按其对应概率由高至低排序得到依存关系序列。

其中，依存关系包含目标实体的概率可以是预先设置的，也可针对指定数量的样本语料进行统计分析得到。本实施例对此不作限定。作为一种实施方式，可通过机器学习得到依存关系包含目标实体的概率，具体可见后述实施例。

S342：将位于依存关系序列中第一位的依存关系作为目标依存关系。

在一些实施方式中，可基于依存关系与依存关系包含目标实体的概率，将依存关系按其对应概率由高至低排序得到依存关系序列，由此将包含目标实体的概率最高的依存关系作为目标依存关系。基于此，通过后续步骤则可先根据最有可能包含目标实体的目标依存关系，确定状态机的起始位置及终止位置，可以提高最终识别出待处理语句中的目标实体的效率，即可提高实体识别效率。另外，在一些实施例中，电子设备也可通过其它方式，从依存关系中确定目标依存关系，在此不作限定。例如，可预置有预设依存关系序列，预设依存关系序列可包含一个或多个预设依存关系，则可通过将待处理语句包含的依存关系与预设依存关系序列进行匹配，将匹配到的排序最前的预设依存关系作为目标依存关系。

S350：基于目标依存关系确定状态机的起始位置及终止位置。S360：将起始位置与终止位置之间的位置作为待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体。

S370：判断候选位置对应的候选实体的词性与预设词性是否匹配。

在一些实施例中，若候选位置对应的候选实体的词性与预设词性不匹配，可重复执行步骤S340-S370，直至侯选位置对应的候选实体的词性与预设词性匹配。即若不匹配，可返回执行步骤S340，从待处理语句包含的依存关系确定新的目标依存关系，并基于新的目标依存关系执行后续步骤，直到候选位置对应的候选实体的词性与预设词性匹配。

在另一些实施例中，若候选位置对应的候选实体的词性与预设词性不匹配，也可不返回执行步骤S340，即仅确定一次候选位置和候选实体，若候选位置对应的候选实体的词性与预设词性不匹配，可结束本方法。

在又一些实施例中，若候选位置对应的候选实体的词性与预设词性不完全匹配，可根据该候选实体中与预设词性完全匹配的词语确定目标实体。

在一个示例中，以待处理语句为短句s₂(s₂:[自己/rr,在/p,山水/n,华府/n,居住/v])、目标实体类型是地名实体、预设词性为名词为例，电子设备可选取依存关系中的主谓关系(自己/rr->居住/v)作为目标依存关系，基于主谓关系确定状态机的起始位置及终止位置。具体地，可以根据主语(自己/rr)确定状态机的起始位置、根据谓语(居住/v)确定终止位置，然后取出主语和谓语之间的介宾关系对应的词语(在/p,山水/n,华府/n)作为候选实体。由于地名实体往往是名词，故地名实体的预设词性可为名词，而针对前述候选实体，其除了包含名词外，还包括介词“在”，故可判定候选实体的词性与预设词性不匹配，且属于不完全匹配，此时，可根据候选实体中与名词完全匹配的词语确定目标实体，则可以将其中的名词“山水”、“华府”组成的词语作为目标实体，由此，可将“山水华府”识别为目标实体，而不会将其拆分开，将“山水”或“华府”识别为目标实体而导致误识别。

S380：将候选实体确定为目标实体类型对应的目标实体。

由此，本实施例提供的实体识别方法在状态机原理的基础上，结合分词、依存句法分析，构建自识别状态转移的状态机，实现对目标实体的识别。

另外，在一些实施例中，可通过机器学习得到依存关系包含目标实体的概率。具体地，在步骤S340或步骤S341之前，还可包括步骤S410至S440，如图9所示，得到依存关系包含目标实体的概率的方法可包括：

S410：获取样本语料。

其中，样本语料已被标注出目标实体类型对应的目标实体。

S420：对样本语料的依存关系进行标注。

在一些实施方式中，可对样本语料中包含的依存关系进行标注，针对不同的依存关系可以用不同的数值进行标识。例如，可利用数值标识依存关系，其中，数值0标识其他关系，数值1用于标识核心关系，数值2用于标识主谓关系，数值3用于标识状中结构，数值4用于标识介宾关系，数值5用于标识定中关系等。当然，前述仅为一种标注示例，并不对本实施例构成限定。另外，根据实际需要，也可采用字母或其它字符来对依存关系进行标识或标注，本实施例对此不作限定。

S430：确定样本语料中包含目标实体的依存关系。

根据所标注的依存关系，可确定包含目标实体的依存关系。在一些实施方式中，若依存关系对应的至少一个词语属于目标实体，则可将该依存关系确定为包含目标实体的依存关系。

在另一些实施方式中，若一个依存关系对应至少两个词语，且至少两个词语之间包含至少一个其他词语，此时，若至少一个其他词语属于目标实体，则可将该依存关系确定为包含目标实体的依存关系。在一个示例中，以依存关系对应两个词语(如主谓关系对应主语、谓语这两个词语)为例，则若一个依存关系对应第一词语和第二词语，且第一词语和第二词语之间包含第三词语，可判断该第三词语是否属于目标实体，若属于，则将该依存关系确定为包含目标实体的依存关系。

在又一些实施方式中，前述两种实施方式的前提条件中的任一个成立，则均可将相应的依存关系确定为包含目标实体的依存关系。例如，针对样本语料如“自己在山水华府住”，其分词结果包括[自己/rr,在/p,山水/n,华府/n,住/v]，该样本语料的依存关系包括主谓关系(自己/rr->居住/v)、介宾关系(在/p,山水/n,华府/n)，则若以目标实体类型为地名实体为例，则该样本语料的地名实体对应“山水华府”，由于“山水华府”既存在于主语和谓语之间即被主谓关系包含，又存在于介宾关系中的宾语，则可确定该样本语料中包含地名实体的依存关系有主谓关系和介宾关系。

S440：基于所有样本语料，统计每种依存关系包含目标实体的次数，并根据次数与所有依存关系包含目标实体的总次数之比，得到每种依存关系包含目标实体的概率。

确定所有样本语料中包含目标实体的依存关系后，可统计每种依存关系包含目标实体的次数，并根据次数与所有依存关系包含目标实体的总次数之比，得到每种依存关系包含目标实体的概率。

在一些实施方式中，可以统计其中每种依存关系包含目标实体的次数以及所有次数之和(记为总次数)，将每种依存关系包含目标实体的次数与总次数之比作为每种依存关系包含目标实体的概率。例如，所有样本语料中包含目标实体的依存关系仅有主谓关系、介宾关系，且经统计，主谓关系包含目标实体的次数为2次，介宾关系包含目标实体的次数为3次，则总次数为5次，而主谓关系包含目标实体的概率为2/5＝40％，介宾关系包含目标实体的概率为3/5＝60％。

由此，通过前述方法即可通过机器学习得到依存关系包含目标实体的概率，进一步提高本申请实施例提供的实体识别方法的泛化能力和识别准确率。则在前述实施例到的基础上，可在DFA原理的基础上，结合依存句法与分词结果，对少量的样本语料(文本)进行标注，即可实现目标实体识别。从而，从状态机的状态转移与依存句法分析的角度，将实体识别首先转化为基于依存关系的分类，然后根据依存关系进行拆解，提取目标实体，大大缩减了分析范围，可以在进行少量的文本标注基础上即可解决复杂的问题。

请参照图10，本申请一实施例提供的一种实体识别装置的模块框图，该实体识别装置1000可应用于上述电子设备，该实体识别装置1000具体可以包括：语句获取模块1010、实体获取模块1020以及实体识别模块1030，其中：

语句获取模块1010，用于获取待处理语句；

实体获取模块1020，用于对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；

实体识别模块1030，用于若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。

进一步地，实体获取模块1020包括：状态机构建子模块、依存句法分析子模块以及候选实体获取子模块，其中：

状态机构建子模块，用于构建所述待处理语句的状态机；

依存句法分析子模块，用于对所述待处理语句进行分析得到所述待处理语句包含的依存关系；

候选实体获取子模块，用于根据所述依存关系确定所述状态机的起始位置及终止位置，并将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体。

进一步地，候选实体获取子模块包括：目标关系获取单元、起止位置确定单元、候选实体获取单元以及词性匹配单元，其中：

目标关系获取单元，用于从所述依存关系中确定目标依存关系；

起止位置确定单元，用于基于所述目标依存关系确定所述状态机的起始位置及终止位置；

候选实体获取单元，用于将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；

词性匹配单元，用于若所述候选位置对应的候选实体的词性与预设词性不匹配，重复执行所述从所述依存关系中确定目标依存关系、所述基于所述目标依存关系确定所述状态机的起始位置及终止位置以及所述将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体的步骤，直至所述候选位置对应的候选实体的词性与预设词性匹配。

进一步地，目标关系获取单元包括：概率排序子单元以及目标确定子单元，其中：

概率排序子单元，用于基于所述依存关系与所述依存关系包含目标实体的概率，将所述依存关系按其对应概率由高至低排序得到依存关系序列；

目标确定子单元，用于将位于所述依存关系序列中第一位的依存关系作为目标依存关系。

进一步地，所述从所述依存关系中确定目标依存关系之前，实体识别装置还可包括：样本语料获取模块、依存关系标注模块、依存关系确定模块以及概率统计模块，其中：

样本语料获取模块，用于获取样本语料，所述样本语料已被标注出所述目标实体类型对应的目标实体；

依存关系标注模块，用于对所述样本语料的依存关系进行标注；

依存关系确定模块，用于确定所述样本语料中包含所述目标实体的依存关系；

概率统计模块，用于基于所有样本语料，统计每种依存关系包含所述目标实体的次数，并根据所述次数与所有依存关系包含所述目标实体的总次数之比，得到每种依存关系包含所述目标实体的概率。

需要说明的是，本申请实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过获取待处理语句，然后对待处理语句进行分析得到待处理语句包含的依存关系，并根据依存关系确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体，若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。由此，本申请实施例可通过对待处理语句进行依存句法分析，根据其中包含的依存关系确定目标实体类型在待处理语句中可能存在的候选位置，再判断候选位置对应的候选实体的词性与预设词性是否匹配，并在匹配时才将候选实体作为目标实体类型对应的目标实体，可以减少将特定实体拆分开的误识别问题的出现，减小识别错误率，从而可提高实体识别准确率。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备1100包括：处理器1101和存储器1103。其中，处理器1101和存储器1103相连，如通过总线1102相连。可选地，电子设备1100还可以包括收发器1104。需要说明的是，实际应用中收发器1104不限于一个，该电子设备1100的结构并不构成对本申请实施例的限定。

处理器1101可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(FieldProgrammable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1102可包括一通路，在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示，在图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1103可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储终端，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储终端，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储终端、或者能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

存储器1103用于存储执行本申请方案的计算机计算机程序，并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的计算机计算机程序，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：服务器、台式机、笔记本电脑等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例通过获取待处理语句，然后对待处理语句进行分析得到待处理语句包含的依存关系，并根据依存关系确定待识别的目标实体类型在待处理语句中的候选位置，获取候选位置对应的候选实体，若候选位置对应的候选实体的词性与预设词性匹配，将候选实体确定为目标实体类型对应的目标实体。由此，本申请实施例可通过对待处理语句进行依存句法分析，根据其中包含的依存关系确定目标实体类型在待处理语句中可能存在的候选位置，再判断候选位置对应的候选实体的词性与预设词性是否匹配，并在匹配时才将候选实体作为目标实体类型对应的目标实体，可以减少将特定实体拆分开的误识别问题的出现，减小识别错误率，从而可提高实体识别准确率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种实体识别方法，其特征在于，所述方法包括：

获取待处理语句；

对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；

若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体，包括：

构建所述待处理语句的状态机；

对所述待处理语句进行分析得到所述待处理语句包含的依存关系；

根据所述依存关系确定所述状态机的起始位置及终止位置，并将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体。

3.根据权利要求2所述的方法，其特征在于，所述根据所述依存关系确定所述状态机的起始位置及终止位置，并将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体，包括

从所述依存关系中确定目标依存关系；

基于所述目标依存关系确定所述状态机的起始位置及终止位置；

将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；

若所述候选位置对应的候选实体的词性与预设词性不匹配，重复执行所述从所述依存关系中确定目标依存关系、所述基于所述目标依存关系确定所述状态机的起始位置及终止位置以及所述将所述起始位置与所述终止位置之间的位置作为待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体的步骤，直至所述候选位置对应的候选实体的词性与预设词性匹配。

4.根据权利要求3所述的方法，其特征在于，所述从所述依存关系中确定目标依存关系，包括：

基于所述依存关系与所述依存关系包含目标实体的概率，将所述依存关系按其对应概率由高至低排序得到依存关系序列；

将位于所述依存关系序列中第一位的依存关系作为目标依存关系。

5.根据权利要求4所述的方法，其特征在于，所述从所述依存关系中确定目标依存关系之前，所述方法还包括：

获取样本语料，所述样本语料已被标注出所述目标实体类型对应的目标实体；

对所述样本语料的依存关系进行标注；

确定所述样本语料中包含所述目标实体的依存关系；

基于所有样本语料，统计每种依存关系包含所述目标实体的次数，并根据所述次数与所有依存关系包含所述目标实体的总次数之比，得到每种依存关系包含所述目标实体的概率。

6.根据权利要求2所述的方法，其特征在于，所述构建所述待处理语句的状态机，包括：

对所述待处理语句进行分词处理，并得到相应的分词结果；

根据所述分词结果构建所述待处理语句的状态机。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述目标实体类型为地名实体。

8.一种实体识别装置，其特征在于，所述装置包括：

语句获取模块，用于获取待处理语句；

实体获取模块，用于对所述待处理语句进行分析得到所述待处理语句包含的依存关系，并根据所述依存关系确定待识别的目标实体类型在所述待处理语句中的候选位置，获取所述候选位置对应的候选实体；

实体识别模块，用于若所述候选位置对应的候选实体的词性与预设词性匹配，将所述候选实体确定为所述目标实体类型对应的目标实体。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中，所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行如权利要求1-7中任一项所述的实体识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器调用执行如权利要求1-7中任一项所述的实体识别方法。