CN113673249A - 实体识别方法、装置、设备及存储介质 - Google Patents

实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113673249A
CN113673249A CN202110984162.3A CN202110984162A CN113673249A CN 113673249 A CN113673249 A CN 113673249A CN 202110984162 A CN202110984162 A CN 202110984162A CN 113673249 A CN113673249 A CN 113673249A
Authority
CN
China
Prior art keywords
character
feature
vector
class
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110984162.3A
Other languages
English (en)
Other versions
CN113673249B (zh
Inventor
匡俊
曹雪智
陈凤娇
郭林森
徐灏
谢睿
张富峥
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110984162.3A priority Critical patent/CN113673249B/zh
Publication of CN113673249A publication Critical patent/CN113673249A/zh
Application granted granted Critical
Publication of CN113673249B publication Critical patent/CN113673249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种实体识别方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:对输入文本进行第一特征映射,得到输入文本的初始特征向量;基于知识图谱,获取第一类特征向量和第二类特征向量;其中,第一类特征向量为知识图谱中词语级别知识的特征表示,知识图谱中属于不同类型的同一词语对应不同的特征表示;第二类特征向量为知识图谱中字符级别知识的特征表示,知识图谱中属于不同类型的同一字符对应不同的特征表示;基于输入文本的初始特征向量、第一类特征向量和第二类特征向量,对输入文本进行实体识别。本申请能够避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。

Description

实体识别方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种实体识别方法、装置、设备及存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是人工智能技术领域的一个重要方向。其中,NLP技术涉及实体识别,实体识别是指从非结构化文本中识别出具有特定意义的实体,比如商品名、品牌名和属性名等;而实体识别结果可以应用于下游任务中,比如知识图谱构建和用户意图识别等。
其中,实体识别效果受分词错误和实体类型混淆等因素影响。分词错误是指不能对输入文本进行准确分词,比如将“南京市长江大桥”错分为“南京/市长/江大桥”;实体类型混淆是指当某一词语具有多种含义时不能正确识别其在输入文本中的类型;比如,“草莓”既可以作为商品名,也可以作为属性名,代表一种口味。针对“草莓”的实体类型混淆,即不能正确识别其在输入文本中是作为商品名使用,还是作为属性名使用。
基于以上描述可知,降低分词错误和避免实体类型混淆,是确保实体识别效果的关键所在,为此,如何提高实体识别的准确性,便成为了本领域技术人员的一个研究热点。
发明内容
本申请实施例提供了一种实体识别方法、装置、设备及存储介质,能够避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。所述技术方案如下:
一方面,提供了一种实体识别方法,所述方法包括:
对输入文本进行第一特征映射,得到所述输入文本的初始特征向量;
基于知识图谱,获取第一类特征向量和第二类特征向量;其中,所述第一类特征向量为所述知识图谱中词语级别知识的特征表示,所述知识图谱中属于不同类型的同一词语对应不同的特征表示;所述第二类特征向量为所述知识图谱中字符级别知识的特征表示,所述知识图谱中属于不同类型的同一字符对应不同的特征表示;一个词语包括一个或多个字符;
基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别。
另一方面,提供了一种实体识别装置,所述装置包括:
处理模块,被配置为对输入文本进行第一特征映射,得到所述输入文本的初始特征向量;
获取模块,被配置为基于知识图谱,获取第一类特征向量和第二类特征向量;其中,所述第一类特征向量为所述知识图谱中词语级别知识的特征表示,所述知识图谱中属于不同类型的同一词语对应不同的特征表示;所述第二类特征向量为所述知识图谱中字符级别知识的特征表示,所述知识图谱中属于不同类型的同一字符对应不同的特征表示;一个词语包括一个或多个字符;
识别模块,被配置为基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别。
在一些实施例中,所述获取模块,包括:
第一处理单元,被配置为采用随机游走的方式,将所述知识图谱转化为第一节点序列;所述第一节点序列用于指示词语-词语之间的游走路径,所述第一节点序列中的每个节点用于指示一个词语和所述词语对应的类型;
第二处理单元,被配置为对所述第一节点序列中的每个词语进行字符级别拆分,得到第二节点序列;所述第二节点序列用于指示字符-字符之间的游走路径,所述第二节点序列中的每个节点用于指示一个字符和所述字符对应的类型;
第三处理单元,被配置为基于所述第一节点序列,生成所述第一类特征向量;第四处理单元,被配置为基于所述第二节点序列,生成所述第二类特征向量。
在一些实施例中,所述第三处理单元,被配置为:
基于所述第一节点序列中每个词语对应的不同类型,生成第三节点序列;所述第三节点序列用于指示词语-类型之间的游走路径;
对所述第三节点序列进行第二特征映射,得到所述第一类特征向量。
在一些实施例中,所述第四处理单元,被配置为:
基于所述第二节点序列中每个字符对应的不同类型,生成第四节点序列;所述第四节点序列用于指示字符-类型之间的游走路径;
对所述第四节点序列进行第二特征映射,得到所述第二类特征向量。
在一些实施例中,所述识别模块,包括:
融合单元,被配置为对于所述输入文本中的任意一个字符,融合所述字符的初始特征向量、所述字符对应不同类型的特征表示、所述字符对应的词语特征表示,得到所述字符的最终特征向量;
识别单元,被配置为将所述输入文本中全部字符的最终特征向量输入实体识别模型;基于所述实体识别模型,对所述输入文本进行实体识别;
其中,所述字符对应的词语特征表示是指目标词语对应不同类型的特征表示,所述目标词语是指所述知识图谱中与所述字符匹配的词语。
在一些实施例中,所述目标词语包括以下至少一项:
所述知识图谱中开头位置与所述字符匹配的词语;
所述知识图谱中中间位置与所述字符匹配的词语;
所述知识图谱中结尾位置与所述字符匹配的词语;
所述知识图谱中与所述字符匹配的单字词。
在一些实施例中,所述融合单元,被配置为:
融合所述字符的初始特征向量和所述字符对应不同类型的特征表示,得到第一中间向量;
融合所述字符的初始特征向量和所述字符对应的词语特征表示;基于融合后的特征向量,生成第二中间向量;
对所述字符的初始特征向量、所述第一中间向量和所述第二中间向量进行特征拼接,得到所述字符的最终特征向量。
在一些实施例中,所述实体识别模型包括双向长短记忆网络(Bi-directionalLong-Short Term Memory,Bi-LSTM)和条件随机场(Conditional Random Field,CRF)层;所述识别单元,被配置为:
基于所述双向LSTM,对所述输入文本中每个字符的最终特征向量进行编码,得到所述输入文本中每个字符的隐式向量;
对于所述输入文本中的任意一个字符,融合所述字符的隐式向量和所述字符对应不同类型的特征表示,得到第三中间向量;
对所述字符的隐式向量和所述第三中间向量进行特征拼接,得到所述字符的输出向量;
基于所述CRF层,对所述输入文本中每个字符的输出向量进行解码,得到所述输入文本的实体识别结果;其中,所述实体识别结果中包括分词结果和所述分词结果中每个实体对应的类型。
在一些实施例中,所述融合单元,被配置为:
基于所述字符的初始特征向量和所述字符对应不同类型的特征表示,确定至少一个概率值;根据所述至少一个概率值,获取所述第一中间向量;
其中,所述至少一个概率值用于指示所述字符属于不同类型的概率,且,越符合当前上下文语境的类型对应的概率值越大。
另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的实体识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的实体识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述的实体识别方法。
本申请实施例在实体识别过程中,引入了知识图谱中字符级别知识的特征表示和词语级别知识的特征表示,且上述两类特征表示是与实体类型相关的;即,知识图谱中属于不同类型的同一词语对应不同的特征表示,属于不同类型的同一字符对应不同的特征表示;也即,在实体识别过程中,在基于知识图谱引入词语级别知识的同时,还引入了字符级别知识,并进一步考虑了实体类型,该种实体识别方式能够有效避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的实体识别方法涉及的一种实施环境示意图;
图2是本申请实施例提供的一种实体识别方法的流程图;
图3是本申请实施例提供的另一种实体识别方法的流程图;
图4是本申请实施例提供的一种学习知识向量表示的示意图;
图5是本申请实施例提供的一种实体识别模型的示意图;
图6是本申请实施例提供的一种实体识别装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图;
图8是本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一元素能够被称为第二元素,并且类似地,第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素,并且在某些情况下,可以是单独且不同的元素。
其中,至少一个是指一个或一个以上,例如,至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而多个是指两个或者两个以上,例如,多个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。
下面先对本申请实施例涉及到的一些关键术语或缩略语进行介绍。
知识图谱:将知识以图的形式进行结构化表征,使得人工智能可以处理、理解乃至推理人类知识,从而具备更高级的认知智能。其中,知识图谱以图结构的形式来表示知识,实体(Entity)或概念(Concept)作为节点,边则用于指示节点与节点之间的关系。
实体:从数据处理角度来看,现实世界中客观存在的事物均可称之为实体,换一种表达方式,实体是现实世界中任何可区分、可辨识的事物。例如,实体可以指代人,例如教师、学生等,实体也可以指代物,如书、仓库等。此外,实体除了指代能够触及的客观对象外,还可以指代抽象的事物,例如演出、足球赛等。举例来说,在O2O场景中,商品标题一般是由商家自定义的一段文本,该文本中商品名称、属性和规格等信息都混杂在一起,且包含大量噪音,不利于匹配用户意图。而实体识别可以从商品标题中提取出上述信息,从而更准确地理解用户意图。
下面对本申请实施例提供的实体识别方法的实施环境进行介绍。
本申请实施例提供的实体识别方法应用于计算机设备。该计算机设备既可以表现为终端,也可以表现为服务器。换一种表达方式,该实体识别方法既可以由终端单独执行,也可以由服务器单独执行,还可以由终端和服务器联合执行,本申请在此不做限制。
示例性地,图1是本申请实施例提供的实体识别方法涉及的一种实施环境示意图。该实施环境包括:终端101和服务器102。其中,终端101提供用户输入界面,用户通过终端101提供的用户输入界面,输入文本。而服务器102则负责接收终端101发送的上述文本,并对该文本进行实体识别。
在一些实施例中,终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101以及服务器102通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,终端101泛指多个终端中的一个,本申请实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述实体识别方法的实施环境还包括其他终端。本申请实施例对终端的数量和类型不加以限定。
在一些实施例中,服务器102既可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群。
在一些实施例中,该实体识别方法的应用场景包括但不限于:智能问答过程中的用户意图识别、知识图谱构建、内容推荐等,本申请在此不做限制。
图2是本申请实施例提供的一种实体识别方法的流程图,该实体识别方法的执行主体为计算机设备。参见图2,该实体识别方法包括以下步骤:
201、计算机设备对输入文本进行第一特征映射,得到该输入文本的初始特征向量。
在本申请实施例中,输入文本为待进行实体识别的文本,该文本可以来自用户输入,通过对该文本进行实体识别,能够更好地理解用户意图。
在一些实施例中,对输入文本进行第一特征映射是指,通过语言模型(LanguageModel,LM)对输入文本进行特征映射,示例性地,该语言模型可以是神经网络语言模型,本申请在此不做限制。
需要说明的是,本文将通过语言模型得到的特征向量统称为语言模型向量。
202、计算机设备基于知识图谱,获取第一类特征向量和第二类特征向量;其中,第一类特征向量为该知识图谱中词语级别知识的特征表示,该知识图谱中属于不同类型的同一词语对应不同的特征表示;第二类特征向量为该知识图谱中字符级别知识的特征表示,该知识图谱中属于不同类型的同一字符对应不同的特征表示。
本申请实施例提出一种基于知识图谱增强的实体识别方法,该方法基于知识图谱中的关系信息(也称拓扑结构信息)和实体类型信息,学习知识的特征表示,并将其引入到实体识别过程中,以此来解决分词错误和实体类型混淆等问题,从而确保实体识别效果。即,利用知识图谱中的关系信息和实体类型信息,来缓解由于知识缺失导致的分词错误和实体类型混淆等问题。
在一些实施例中,本申请实施例利用图嵌入的方法从知识图谱中学习知识的特征表示。示例性地,由于中文通常采用字符级别的输入,因此,本申请实施例会从知识图谱中同步学习字符级别知识的特征表示和词语级别知识的特征表示。其中,上述词语级别知识的特征表示,在本文中也称第一类特征向量或词语的知识向量表示;上述字符级别知识的特征表示,在本文中也称第二类特征向量或字符的知识向量表示。
需要说明的第一点是,实体类型包括但不限于:商品“PROD”、品牌“BR”、属性“ATTR或AT”、人物“PER”、位置“LOC”等。一个词语包括一个或多个字符;比如,词语“草莓”包括字符“草”和字符“莓”共两个字符。
需要说明的第二点是,知识图谱中的每个节点用于指示一个实体,以及该实体对应的一种类型。其中,在某一个实体对应N种类型的情况下,知识图谱中包括该实体对应的N个节点。
需要说明的第三点是,由于引入了实体类型信息,因此该知识图谱中属于不同类型的同一词语对应不同的特征表示,以及,该知识图谱中属于不同类型的同一字符对应不同的特征表示。比如词语“草莓”包括多种类型,既可以作为商品名,也可以作为属性名,代表一种口味。那么,同一词语“草莓”在作为商品名和属性名时分别对应两个不同的特征表示,即作为商品名的“草莓”对应一种特征表示,作为商品名的“草莓”对应另一种特征表示。
需要说明的第四点是,上述步骤202也可以在上述步骤201之前执行,本申请在此不做限制。
203、计算机设备基于该输入文本的初始特征向量、第一类特征向量和第二类特征向量,对该输入文本进行实体识别。
在本申请实施例中,在得到该输入文本的初始特征向量、第一类特征向量和第二类特征向量后,基于实体识别模型完成实体识别。
在一些实施例中,该实体识别模型包括双向LSTM和CRF层。其中,CRF层用于约束双向LSTM预测的类型标签的合理性。双向LSTM可以预测出每一个字符属于不同类型标签的概率,然后将概率最大的类型标签作为该字符的最终预测结果。这样在预测时会忽略了类型标签之间的关联性,而在双向LSTM的输出层后加上一个CRF层,使得实体识别模型可以考虑类型标签之间的相关性。
本申请实施例在实体识别过程中,引入了知识图谱中字符级别知识的特征表示和词语级别知识的特征表示,且上述两类特征表示是与实体类型相关的;即,知识图谱中属于不同类型的同一词语对应不同的特征表示,属于不同类型的同一字符对应不同的特征表示;即在实体识别过程中,在基于知识图谱引入词语级别知识的同时,还引入了字符级别知识,并进一步考虑了实体类型,该种实体识别方式能够有效避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。
图3是本申请实施例提供的一种实体识别方法的流程图,该实体识别方法的执行主体为计算机设备。参见图3,该实体识别方法包括以下步骤:
301、计算机设备采用随机游走的方式,将该知识图谱转化为第一节点序列;该第一节点序列用于指示词语-词语之间的游走路径,该第一节点序列中的每个节点用于指示一个词语和该词语对应的类型。
其中,随机游走也称随机漫步,是指基于过去的表现,无法预测将来的发展步骤和方向。接近于布朗运动,是布朗运动理想的数学状态。
在本申请实施例中,随机游走的基本思想是:从知识图谱的一个节点开始遍历该知识图谱。在任意一个节点,遍历者将以概率1-a游走到这个节点的邻居节点,以概率a随机跳跃到知识图谱中的任何一个节点,称a为跳转发生概率,每次游走后得出一个概率分布,该概率分布刻画了知识图谱中每一个节点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。当满足一定前提条件时,这个概率分布会趋于收敛。收敛后,即可以得到一个平稳的概率分布。
本申请实施例通过在知识图谱上进行随机游走,能够得到诸如图4所示的词语-词语之间的游走路径,这个路径在本文中也称为第一节点序列。参见图4,该第一节点序列中的每个节点用于指示一个词语和该词语对应的类型。比如词语“酸奶”的类型为商品。
302、计算机设备对该第一节点序列中的每个词语进行字符级别拆分,得到第二节点序列;该第二节点序列用于指示字符-字符之间的游走路径,该第二节点序列中的每个节点用于指示一个字符和该字符对应的类型。
另外,本申请实施例为了同步学习字符级别知识的特征表示和词语级别知识的特征表示,会对该第一节点序列中的每个词语进行字符级别拆分,即将每个词语的字符拆分开,进而得到字符-字符之间的游走路径。
继续参见图4,字符级别的拆分,会将“二利-酸奶-草莓-冰淇淋”的路径拆分成“二-利-酸-奶-草-莓-冰-淇-淋”的路径。如图4所示,该第二节点序列中的每个节点用于指示一个字符和该字符对应的类型。比如字符“酸”和“奶”的类型为商品。
303、计算机设备基于该第一节点序列,生成该第一类特征向量;以及,基于该第二节点序列,生成该第二类特征向量。
在本申请实施例中,为了在实体识别过程中引入实体类型信息,还会在上述词语-词语之间的游走路径和字符-字符的游走路径基础上,额外再构建两种路径,分别为图4中示出的“词语/类型”路径和“字符/类型”路径。其中,“词语/类型”的路径是根据上述词语-词语之间的游走路径得到的,“字符/类型”的路径根据上述字符-字符之间的游走路径得到的。
在一些实施例中,计算机设备基于该第一节点序列中每个词语对应的不同类型,生成“词语/类型”路径,在本文中也称第三节点序列;其中,该第三节点序列用于指示词语-类型之间的游走路径;示例性地,参见图4,词语“草莓”对应三种类型,分别为品牌、商品和属性,即词语“草莓”-类型之间共包括三种游走路径。
另外,计算机设备基于该第二节点序列中每个字符对应的不同类型,生成“字符/类型”路径,在本文中也称第四节点序列;其中,该第四节点序列用于指示字符-类型之间的游走路径。示例性地,参见图4,字符“莓”对应三种类型,分别为品牌、商品和属性,即字符“莓”-类型之间共包括三种游走路径。
相应地,通过对该第三节点序列进行第二特征映射,得到该第一类特征向量;以及,通过对该第四节点序列进行第二特征映射,得到该第二类特征向量。在一些实施例中,第二特征映射为词向量(word2vec)方法。即,本申请实施例在构造好的“词语/类型”路径和“字符/类型”路径上利用word2vec方法,来得到该第一类特征向量和该第二类特征向量。
上述步骤301-303介绍了学习知识向量表示的过程。在学习到知识向量表示后,可以进行知识增强的实体识别。如图5所示,基于知识图谱增强的实体识别模型可以分为三大部分:融合知识向量表示的输入层(对应图5右侧的
Figure BDA0003230139900000101
Figure BDA0003230139900000102
和编码)、融合知识向量表示的编码层(对应图5右侧的Bi-LSTM)和CRF层(对应图5右侧的解码)。下面通过如下步骤304-305进行详细说明。
304、计算机设备对输入文本进行第一特征映射,得到该输入文本的初始特征向量。
本步骤304可参考上述步骤201,此处不再赘述。
305、计算机设备基于该输入文本的初始特征向量、第一类特征向量和第二类特征向量,对该输入文本进行实体识别。
在本申请实施例中,基于该输入文本的初始特征向量、该第一类特征向量和该第二类特征向量,对该输入文本进行实体识别,包括但不限于如下步骤。
3051、对于该输入文本中的任意一个字符,融合该字符的初始特征向量、该字符对应不同类型的特征表示、该字符对应的词语特征表示,得到该字符的最终特征向量。
其中,该字符对应的词语特征表示是指目标词语对应不同类型的特征表示,该目标词语是指该知识图谱中与该字符匹配的词语。在一些实施例中,该目标词语包括以下至少一项:该知识图谱中开头位置与该字符匹配的词语;该知识图谱中中间位置与该字符匹配的词语;该知识图谱中结尾位置与该字符匹配的词语;该知识图谱中与该字符匹配的单字词。
该步骤即对应上述融合知识向量表示的输入层。
以上述任意一个字符为ci为例,则该字符ci指代输入文本中的第i个字符,i的取值为正整数,该字符ci的初始特征向量在本文中表示为
Figure BDA0003230139900000111
该字符ci的最终特征向量在本文中表示为
Figure BDA0003230139900000112
其中,t∈Tkg,t指代实体类型t,Tkg指代所有实体类型的集合;w∈Wi,Wi指代上述目标词语,即知识图谱中与该字符ci匹配的词语;
Figure BDA0003230139900000113
指代该字符ci对应的词语特征表示;
Figure BDA0003230139900000114
指代该字符ci对应不同类型的特征表示。另外,fI是融合不同向量的函数。
在一些实施例中,步骤3051可进一步细分为如下几个步骤,即融合该字符的初始特征向量、该字符对应不同类型的特征表示、该字符对应的词语特征表示,包括:
3051-1、融合该字符ci的初始特征向量和该字符ci对应不同类型的特征表示,得到第一中间向量。
其中,该步骤可以表示为如下公式:
Figure BDA0003230139900000121
fA是融合语言模型训练和类型敏感的知识向量表示的函数;
Figure BDA0003230139900000122
表示第一中间向量。
3051-2、融合该字符ci的初始特征向量和该字符ci对应的词语特征表示;基于融合后的特征向量,生成第二中间向量。
其中,该步骤可以表示为如下公式:
Figure BDA0003230139900000123
Figure BDA0003230139900000124
Figure BDA0003230139900000125
Figure BDA0003230139900000126
指代上述融合后的特征向量;
Figure BDA0003230139900000127
指代第二中间向量;Bi Mi Ei Si指代前述目标词语,即代表知识图谱中开头位置、中间位置、结尾位置或单字词与字符ci匹配的词语集合;υ(*)指代相应词语集合的向量化表示,m∈{Bi,Mi,Ei,Si}。
在一些实施例中,融合该字符ci的初始特征向量和该字符ci对应不同类型的特征表示,得到第一中间向量,进一步细化为:基于该字符ci的初始特征向量和该字符ci对应不同类型的特征表示,确定至少一个概率值;根据至少一个概率值,获取第一中间向量;其中,至少一个概率值用于指示该字符ci属于不同类型的概率,且,越符合当前上下文语境的类型对应的概率值越大。
换一种表达方式,函数fA基于注意力机制在不同的上下文中选择正确类型的知识;其中,
Figure BDA0003230139900000128
Figure BDA0003230139900000129
Figure BDA00032301399000001210
指代语言模型向量;Ei,t是字符ci对应不同类型的特征表示
Figure BDA00032301399000001211
或字符ci对应的词语特征表示
Figure BDA00032301399000001212
WCA指代将Ei,t映射到隐式空间的权重矩阵,为通过训练得到的参数;
Figure BDA00032301399000001213
指代根据上下文推断字符ci类型为t的概率,其中,越符合当前上下文语境的类型对应的概率越大。
3051-3、对该字符的初始特征向量、该第一中间向量和该第二中间向量进行特征拼接,得到该字符的最终特征向量。
其中,该步骤可以表示为如下公式:
Figure BDA00032301399000001214
其中,[*;*]表示特征连接(也称特征拼接)操作。
3052、将该输入文本中全部字符的最终特征向量输入实体识别模型;基于该实体识别模型对该输入文本进行实体识别。
在一些实施例中,步骤3052可进一步细分为如下几个步骤,即基于该实体识别模型对该输入文本进行实体识别,包括:
3052-1、基于该实体识别模型包括的双向LSTM,对该输入文本中每个字符的最终特征向量进行编码,得到该输入文本中每个字符的隐式向量。
该步骤即对应上述融合知识向量表示的编码层。
在得到融入知识向量表示的输入向量
Figure BDA0003230139900000131
后,本申请实施例继续利用双向LSTM对其进行编码,得到基于上下文的隐式向量。
其中,该步骤可以表示为如下公式:
Figure BDA0003230139900000132
Figure BDA0003230139900000133
指代输入文本中字符c1的最终特征向量,
Figure BDA0003230139900000134
指代输入文本中字符ci+1的最终特征向量,
Figure BDA0003230139900000135
指代输入文本中字符cn的最终特征向量,n为输入文本中包括的字符个数;
Figure BDA0003230139900000136
代输入文本中字符c1的隐式向量,
Figure BDA0003230139900000137
代输入文本中字符ci的隐式向量,
Figure BDA0003230139900000138
代输入文本中字符ci+1的隐式向量,
Figure BDA0003230139900000139
代输入文本中字符cn的隐式向量。
3052-2、对于该输入文本中的任意一个字符,融合该字符的隐式向量和该字符对应不同类型的特征表示,得到第三中间向量。
在本申请实施例中,为了进一步提升知识图谱对实体识别结果的影响,在得到隐式向量后,会再将隐式向量和知识向量表示融合,考虑到实体识别需要判断实体类型,即知识向量表示是类型敏感的,因此在融合知识向量表示和隐式向量时,与融合知识向量表示的输入层类似,基于注意力机制选择当前最合适的类型对应的知识向量表示。
其中,该步骤可以表示为如下公式:
Figure BDA00032301399000001310
其中,
Figure BDA00032301399000001311
指代第三中间向量。
3052-3、对该字符的隐式向量和该第三中间向量进行特征拼接,得到该字符的输出向量。
最后,将
Figure BDA00032301399000001312
和隐式向量
Figure BDA00032301399000001313
结合得到该字符ci最终的输出向量
Figure BDA00032301399000001314
该步骤可以表示为如下公式:
Figure BDA0003230139900000141
3052-4、基于该CRF层,对该输入文本中每个字符的输出向量进行解码,得到该输入文本的实体识别结果。
继续以输入文本中的字符ci为例,则最终的预测结果可以表示为如下公式:
Figure BDA0003230139900000142
其中,yi表示预测的字符ci的类型标签,yi-1表示预测的字符ci-1的类型标签,θ为概率转移矩阵,
Figure BDA0003230139900000143
是一个线性映射矩阵。
需要说明的第一点是,该输入文本的实体识别结果中包括分词结果和该分词结果中每个实体对应的类型。例如,对于输入文本“意大利肉酱面”,其对应的实体识别结果会将该输入文本标注为“意:B-AT大:I-AT利:E-AT肉:B-PROD酱:I-PROD面:E-PROD”,其中,“AT”表示属性、“PROD”表示商品,“B”、“I”和“E”分别表示词语的开头位置、中间位置和结尾位置。例如,“肉:B-PROD”表示该字符为某个商品名开头位置的字符,而“酱:I-PROD”表示该字符为该商品名中间位置的字符。
需要说明的第二点是,下述表1是将不同的实体识别方法在数据集上实验得到的实验结果。其中,KANER表示本申请实施例提供的实体识别方法;R表示引入知识图谱中的关系信息、T表示引入知识图谱中的实体类型信息、A表示使用注意力机制选择合适的实体类型。通过如下的实验结果可知,本申请实施例提供的实体识别方法可以显著提升实体识别效果,并且知识图谱中的关系信息、实体类型信息和注意力机制在实体识别任务中都能起到积极作用。
表1
Figure BDA0003230139900000144
本申请实施例在实体识别过程中,引入了知识图谱中字符级别知识的特征表示和词语级别知识的特征表示,且上述两类特征表示是与实体类型相关的;即,知识图谱中属于不同类型的同一词语对应不同的特征表示,属于不同类型的同一字符对应不同的特征表示;即在实体识别过程中,在基于知识图谱中的拓扑信息引入词语级别知识的同时,还进一步引入了字符级别知识,并基于知识图谱中的实体类型知识进一步考虑了实体类型,该种实体识别方式能够有效避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。
图6是本申请实施例提供的一种实体识别装置的结构示意图。参见图6,该装置包括:
处理模块601,被配置为对输入文本进行第一特征映射,得到所述输入文本的初始特征向量;
获取模块602,被配置为基于知识图谱,获取第一类特征向量和第二类特征向量;其中,所述第一类特征向量为所述知识图谱中词语级别知识的特征表示,所述知识图谱中属于不同类型的同一词语对应不同的特征表示;所述第二类特征向量为所述知识图谱中字符级别知识的特征表示,所述知识图谱中属于不同类型的同一字符对应不同的特征表示;一个词语包括一个或多个字符;
识别模块603,被配置为基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别。
本申请实施例提供的实体识别装置,在实体识别过程中,引入了知识图谱中字符级别知识的特征表示和词语级别知识的特征表示,且上述两类特征表示是与实体类型相关的;即,知识图谱中属于不同类型的同一词语对应不同的特征表示,属于不同类型的同一字符对应不同的特征表示;即在实体识别过程中,在基于知识图谱引入词语级别知识的同时,还引入了字符级别知识,并进一步考虑了实体类型,该种实体识别方式能够有效避免分词错误和实体类型混淆,提升了实体识别的准确率,实体识别效果好。
在一些实施例中,所述获取模块,包括:
第一处理单元,被配置为采用随机游走的方式,将所述知识图谱转化为第一节点序列;所述第一节点序列用于指示词语-词语之间的游走路径,所述第一节点序列中的每个节点用于指示一个词语和所述词语对应的类型;
第二处理单元,被配置为对所述第一节点序列中的每个词语进行字符级别拆分,得到第二节点序列;所述第二节点序列用于指示字符-字符之间的游走路径,所述第二节点序列中的每个节点用于指示一个字符和所述字符对应的类型;
第三处理单元,被配置为基于所述第一节点序列,生成所述第一类特征向量;第四处理单元,被配置为基于所述第二节点序列,生成所述第二类特征向量。
在一些实施例中,所述第三处理单元,被配置为:
基于所述第一节点序列中每个词语对应的不同类型,生成第三节点序列;所述第三节点序列用于指示词语-类型之间的游走路径;
对所述第三节点序列进行第二特征映射,得到所述第一类特征向量。
在一些实施例中,所述第四处理单元,被配置为:
基于所述第二节点序列中每个字符对应的不同类型,生成第四节点序列;所述第四节点序列用于指示字符-类型之间的游走路径;
对所述第四节点序列进行第二特征映射,得到所述第二类特征向量。
在一些实施例中,所述识别模块,包括:
融合单元,被配置为对于所述输入文本中的任意一个字符,融合所述字符的初始特征向量、所述字符对应不同类型的特征表示、所述字符对应的词语特征表示,得到所述字符的最终特征向量;
识别单元,被配置为将所述输入文本中全部字符的最终特征向量输入实体识别模型;基于所述实体识别模型,对所述输入文本进行实体识别;
其中,所述字符对应的词语特征表示是指目标词语对应不同类型的特征表示,所述目标词语是指所述知识图谱中与所述字符匹配的词语。
在一些实施例中,所述目标词语包括以下至少一项:
所述知识图谱中开头位置与所述字符匹配的词语;
所述知识图谱中中间位置与所述字符匹配的词语;
所述知识图谱中结尾位置与所述字符匹配的词语;
所述知识图谱中与所述字符匹配的单字词。
在一些实施例中,所述融合单元,被配置为:
融合所述字符的初始特征向量和所述字符对应不同类型的特征表示,得到第一中间向量;
融合所述字符的初始特征向量和所述字符对应的词语特征表示;基于融合后的特征向量,生成第二中间向量;
对所述字符的初始特征向量、所述第一中间向量和所述第二中间向量进行特征拼接,得到所述字符的最终特征向量。
在一些实施例中,所述识别单元,被配置为:
基于所述双向LSTM,对所述输入文本中每个字符的最终特征向量进行编码,得到所述输入文本中每个字符的隐式向量;
对于所述输入文本中的任意一个字符,融合所述字符的隐式向量和所述字符对应不同类型的特征表示,得到第三中间向量;
对所述字符的隐式向量和所述第三中间向量进行特征拼接,得到所述字符的输出向量;
基于所述CRF层,对所述输入文本中每个字符的输出向量进行解码,得到所述输入文本的实体识别结果;其中,所述实体识别结果中包括分词结果和所述分词结果中每个实体对应的类型。
在一些实施例中,所述融合单元,被配置为:
基于所述字符的初始特征向量和所述字符对应不同类型的特征表示,确定至少一个概率值;根据所述至少一个概率值,获取所述第一中间向量;
其中,所述至少一个概率值用于指示所述字符属于不同类型的概率,且,越符合当前上下文语境的类型对应的概率值越大。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的实体识别装置在进行实体识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的实体识别装置与实体识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7示出了本申请一个示例性实施例提供的计算机设备700的结构框图。该计算机设备700可以表现为终端。通常,计算机设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的实体识别方法。
在一些实施例中,计算机设备700还可选包括有:***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地,***设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
***设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在计算机设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在计算机设备700的不同表面或呈折叠设计;在另一些实施例中,显示屏705可以是柔性显示屏,设置在计算机设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位计算机设备700的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在计算机设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时,可以检测用户对计算机设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在计算机设备700的正面、背面或侧面。当计算机设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8是本申请实施例提供的一种计算机设备800的结构示意图。该计算机800可以表现为服务器。该计算机设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条程序代码,所述至少一条程序代码由所述处理器801加载并执行以实现上述各个方法实施例提供的实体识别方法。当然,该计算机设备800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备800还可以包括其他用于实现设备功能的部件,在此不做赘述。
在一些实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的实体识别方法。例如,所述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一些实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述实体识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种实体识别方法,其特征在于,所述方法包括:
对输入文本进行第一特征映射,得到所述输入文本的初始特征向量;
基于知识图谱,获取第一类特征向量和第二类特征向量;其中,所述第一类特征向量为所述知识图谱中词语级别知识的特征表示,所述知识图谱中属于不同类型的同一词语对应不同的特征表示;所述第二类特征向量为所述知识图谱中字符级别知识的特征表示,所述知识图谱中属于不同类型的同一字符对应不同的特征表示;一个词语包括一个或多个字符;
基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别。
2.根据权利要求1所述的实体识别方法,其特征在于,所述基于知识图谱,获取第一类特征向量和第二类特征向量,包括:
采用随机游走的方式,将所述知识图谱转化为第一节点序列;所述第一节点序列用于指示词语-词语之间的游走路径,所述第一节点序列中的每个节点用于指示一个词语和所述词语对应的类型;
对所述第一节点序列中的每个词语进行字符级别拆分,得到第二节点序列;所述第二节点序列用于指示字符-字符之间的游走路径,所述第二节点序列中的每个节点用于指示一个字符和所述字符对应的类型;
基于所述第一节点序列,生成所述第一类特征向量;
基于所述第二节点序列,生成所述第二类特征向量。
3.根据权利要求2所述的实体识别方法,其特征在于,所述基于所述第一节点序列,生成所述第一类特征向量,包括:
基于所述第一节点序列中每个词语对应的不同类型,生成第三节点序列;所述第三节点序列用于指示词语-类型之间的游走路径;
对所述第三节点序列进行第二特征映射,得到所述第一类特征向量。
4.根据权利要求2所述的实体识别方法,其特征在于,所述基于所述第二节点序列,生成所述第二类特征向量,包括:
基于所述第二节点序列中每个字符对应的不同类型,生成第四节点序列;所述第四节点序列用于指示字符-类型之间的游走路径;
对所述第四节点序列进行第二特征映射,得到所述第二类特征向量。
5.根据权利要求1所述的实体识别方法,其特征在于,所述基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别,包括:
对于所述输入文本中的任意一个字符,融合所述字符的初始特征向量、所述字符对应不同类型的特征表示、所述字符对应的词语特征表示,得到所述字符的最终特征向量;
将所述输入文本中全部字符的最终特征向量输入实体识别模型;基于所述实体识别模型,对所述输入文本进行实体识别;
其中,所述字符对应的词语特征表示是指目标词语对应不同类型的特征表示,所述目标词语是指所述知识图谱中与所述字符匹配的词语。
6.根据权利要求5所述的实体识别方法,其特征在于,所述目标词语包括以下至少一项:
所述知识图谱中开头位置与所述字符匹配的词语;
所述知识图谱中中间位置与所述字符匹配的词语;
所述知识图谱中结尾位置与所述字符匹配的词语;
所述知识图谱中与所述字符匹配的单字词。
7.根据权利要求5所述的实体识别方法,其特征在于,所述融合所述字符的初始特征向量、所述字符对应不同类型的特征表示、所述字符对应的词语特征表示,得到所述字符的最终特征向量,包括:
融合所述字符的初始特征向量和所述字符对应不同类型的特征表示,得到第一中间向量;
融合所述字符的初始特征向量和所述字符对应的词语特征表示;基于融合后的特征向量生成第二中间向量;
对所述字符的初始特征向量、所述第一中间向量和所述第二中间向量进行特征拼接,得到所述字符的最终特征向量。
8.根据权利要求5所述的实体识别方法,其特征在于,所述实体识别模型包括双向长短记忆网络LSTM和条件随机场CRF层;所述基于所述实体识别模型,对所述输入文本进行实体识别,包括:
基于所述双向LSTM,对所述输入文本中每个字符的最终特征向量进行编码,得到所述输入文本中每个字符的隐式向量;
对于所述输入文本中的任意一个字符,融合所述字符的隐式向量和所述字符对应不同类型的特征表示,得到第三中间向量;
对所述字符的隐式向量和所述第三中间向量进行特征拼接,得到所述字符的输出向量;
基于所述CRF层,对所述输入文本中每个字符的输出向量进行解码,得到所述输入文本的实体识别结果;其中,所述实体识别结果中包括分词结果和所述分词结果中每个实体对应的类型。
9.根据权利要求7所述的实体识别方法,其特征在于,所述融合所述字符的初始特征向量和所述字符对应不同类型的特征表示,得到第一中间向量,包括:
基于所述字符的初始特征向量和所述字符对应不同类型的特征表示,确定至少一个概率值;根据所述至少一个概率值,获取所述第一中间向量;
其中,所述至少一个概率值用于指示所述字符属于不同类型的概率,且,越符合当前上下文语境的类型对应的概率值越大。
10.一种实体识别装置,其特征在于,所述装置包括:
处理模块,被配置为对输入文本进行第一特征映射,得到所述输入文本的初始特征向量;
获取模块,被配置为基于知识图谱,获取第一类特征向量和第二类特征向量;其中,所述第一类特征向量为所述知识图谱中词语级别知识的特征表示,所述知识图谱中属于不同类型的同一词语对应不同的特征表示;所述第二类特征向量为所述知识图谱中字符级别知识的特征表示,所述知识图谱中属于不同类型的同一字符对应不同的特征表示;一个词语包括一个或多个字符;
识别模块,被配置为基于所述输入文本的初始特征向量、所述第一类特征向量和所述第二类特征向量,对所述输入文本进行实体识别。
11.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至9中任一项权利要求所述的实体识别方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至9中任一项权利要求所述的实体识别方法。
CN202110984162.3A 2021-08-25 2021-08-25 实体识别方法、装置、设备及存储介质 Active CN113673249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984162.3A CN113673249B (zh) 2021-08-25 2021-08-25 实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984162.3A CN113673249B (zh) 2021-08-25 2021-08-25 实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113673249A true CN113673249A (zh) 2021-11-19
CN113673249B CN113673249B (zh) 2022-08-16

Family

ID=78546326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984162.3A Active CN113673249B (zh) 2021-08-25 2021-08-25 实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113673249B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357177A (zh) * 2021-12-08 2022-04-15 中国长城科技集团股份有限公司 知识超图的生成方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
WO2021068468A1 (zh) * 2019-10-08 2021-04-15 北京百度网讯科技有限公司 知识图谱的向量表示生成方法、装置及设备
CN113255294A (zh) * 2021-07-14 2021-08-13 北京邮电大学 命名实体识别模型训练方法、识别方法及装置
CN113297854A (zh) * 2021-07-27 2021-08-24 平安科技(深圳)有限公司 文本到知识图谱实体的映射方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068468A1 (zh) * 2019-10-08 2021-04-15 北京百度网讯科技有限公司 知识图谱的向量表示生成方法、装置及设备
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN113255294A (zh) * 2021-07-14 2021-08-13 北京邮电大学 命名实体识别模型训练方法、识别方法及装置
CN113297854A (zh) * 2021-07-27 2021-08-24 平安科技(深圳)有限公司 文本到知识图谱实体的映射方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357177A (zh) * 2021-12-08 2022-04-15 中国长城科技集团股份有限公司 知识超图的生成方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN113673249B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN108415705B (zh) 网页生成方法、装置、存储介质及设备
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN112884770B (zh) 图像分割处理方法、装置及计算机设备
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN112733970B (zh) 图像分类模型处理方法、图像分类方法及装置
CN112966124B (zh) 知识图谱对齐模型的训练方法、对齐方法、装置及设备
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN114281956A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN113673249B (zh) 实体识别方法、装置、设备及存储介质
CN111428158B (zh) 推荐位置的方法、装置、电子设备及可读存储介质
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN114691860A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN111353513B (zh) 一种目标人群筛选的方法、装置、终端和存储介质
CN110990549A (zh) 获取答案的方法、装置、电子设备及存储介质
CN112988984B (zh) 特征获取方法、装置、计算机设备及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant