CN114462410A - 实体识别方法、装置、终端及存储介质 - Google Patents

实体识别方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN114462410A
CN114462410A CN202210128678.2A CN202210128678A CN114462410A CN 114462410 A CN114462410 A CN 114462410A CN 202210128678 A CN202210128678 A CN 202210128678A CN 114462410 A CN114462410 A CN 114462410A
Authority
CN
China
Prior art keywords
recognition result
entity
word
determining
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210128678.2A
Other languages
English (en)
Inventor
谭志向
王军伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202210128678.2A priority Critical patent/CN114462410A/zh
Publication of CN114462410A publication Critical patent/CN114462410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本公开是关于一种实体识别方法、装置、终端及存储介质,实体识别方法包括:获取待识别语句;基于设定词典库对待识别语句进行识别,确定第一识别结果;若确定第一识别结果未包括待识别语句的全部实体词,则基于互信息和左右信息熵对待识别语句进行识别,确定待定识别结果;根据第一识别结果和待定识别结果,确定目标识别结果。该方法中,基于设定词典库以及互信息和左右信息熵,进行实体词的识别,不需要准备大量数据进行模型训练或部署,以进行冷启动,难度较低,效率和准确率更好。另外,该方法不仅可应用于智能客服领域,也可应用于其他涉及实体词识别的领域,适用性较广。

Description

实体识别方法、装置、终端及存储介质
技术领域
本公开涉及终端技术领域,尤其涉及一种实体识别方法、装置、终端及存储介质。
背景技术
人工交互的应用场景中,需要先将人的语音转换成文本,然后经过后续处理让机器理解人的意图,最后选择相关的后续策略来应对。其中,语音识别和实体识别(即对实体词的识别)都至关重要,而且实体识别处在语音识别之后。人的口音、年龄、说话习惯、文化程度,以及说话时的环境噪声等复杂原因,不仅对语音识别的准确性影响很大,同样也会严重影响语句中实体词的识别的准确率,目前已经有很多方法优化语音识别,但是实体识别的方法并不多,准确率也较差。
发明内容
为克服相关技术中存在的问题,本公开提供一种实体识别方法、装置、终端及存储介质。
根据本公开实施例的第一方面,提供一种实体识别方法,应用于终端,所述方法包括:
获取待识别语句;
基于设定词典库对所述待识别语句进行识别,确定第一识别结果;
若确定所述第一识别结果未包括所述待识别语句的全部实体词,则基于互信息和左右信息熵对所述待识别语句进行识别,确定待定识别结果;
根据所述第一识别结果和所述待定识别结果,确定目标识别结果。
可选地,所述根据所述第一识别结果和所述待定识别结果,确定目标识别结果,包括:
将所述待定识别结果中,与所述第一识别结果的实体词不同的词,确定为待定实体词;
根据满足第一设定条件的待定实体词,确定第二识别结果;
根据所述第一识别结果和所述第二识别结果,确定所述目标识别结果。
可选地,所述根据满足第一设定条件的待定实体词,确定第二识别结果,包括:
若确定所述待定实体词的第一模型值大于或等于第一阈值,且确定此待定实体词的第二模型值大于或等于第二阈值,则将此待定实体词确定为第二实体词;
将全部第二实体词构成的识别结果,确定为所述第二识别结果。
可选地,所述方法还包括:
若确定所述第一识别结果包括所述待识别语句的全部实体词,则将所述第一识别结果确定为所述目标识别结果。
可选地,所述设定词典库通过以下方式得到:
根据设定领域的语句,确定语句库;
对所述语句库中的语句进行分词处理,确定第一词语库;
基于互信息和左右信息熵对所述语句库的语句进行识别,确定待定词语库;
根据所述第一词语库和所述待定词语库,确定所述设定词典库。
可选地,所述根据所述第一词语库和所述待定词语库,确定所述设定词典库,包括:
将所述待定词语库中,与所述第一词语库的设定词不同的词,确定为待定设定词;
根据满足第二设定条件的待定设定词,确定第二词语库;
根据所述第一词语库和所述第二词语库,确定所述设定词典库。
可选地,所述根据满足第二设定条件的所述待定设定词,确定第二词语库,包括:
若确定所述待定设定词的第一模型值大于或等于第三阈值,且确定此待定设定词的第二模型值大于或等于第四阈值,则将此待定设定词确定为第二设定词;
将全部第二设定词构成的词典库,确定为所述第二词语库。
根据本公开实施例的第二方面,提供一种实体识别装置,应用于终端,所述装置包括:
获取模块,用于获取待识别语句;
确定模块,用于基于设定词典库对所述待识别语句进行识别,确定第一识别结果;
还用于若确定所述第一识别结果未包括所述待识别语句的全部实体词,则基于互信息和左右信息熵对所述待识别语句进行识别,确定待定识别结果;
还用于根据所述第一识别结果和所述待定识别结果,确定目标识别结果。
可选地,所述确定模块,用于:
将所述待定识别结果中,与所述第一识别结果的实体词不同的词,确定为待定实体词;
根据满足第一设定条件的待定实体词,确定第二识别结果;
根据所述第一识别结果和所述第二识别结果,确定所述目标识别结果。
可选地,所述确定模块,用于:
若确定所述待定实体词的第一模型值大于或等于第一阈值,且确定此待定实体词的第二模型值大于或等于第二阈值,则将此待定实体词确定为第二实体词;
将全部第二实体词构成的识别结果,确定为所述第二识别结果。
可选地,所述确定模块,用于:
若确定所述第一识别结果包括所述待识别语句的全部实体词,则将所述第一识别结果确定为所述目标识别结果。
根据本公开实施例的第三方面,提供一种终端,所述终端包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行如第一方面所述的方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得所述终端能够执行如第一方面所述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:该方法中,基于设定词典库以及互信息和左右信息熵,进行实体词的识别,不需要准备大量数据进行模型训练或部署,以进行冷启动,难度较低,效率和准确率更好。另外,该方法不仅可应用于智能客服领域,也可应用于其他涉及实体词识别的领域,适用性较广。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的实体识别方法的流程图。
图2是根据一示例性实施例示出的实体识别装置的框图。
图3是根据一示例性实施例示出的终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,主要通过深度学习方法或拼音纠错方法,或者上述两种方法相结合,来进行实体词的识别(简称实体识别)。深度学习方法需要大量数据进行模型的训练,模型训练耗时长,并且需要针对不同的模型进行模型不同的训练。拼音纠错方法针对一些垂直领域(简称垂域)需要建立专门的词典库,而且该方法的准确率较低。
本公开提供了一种实体识别方法,应用于终端。该方法中,基于设定词典库以及互信息和左右信息熵,进行实体词的识别,不需要准备大量数据进行模型训练或部署,以进行冷启动,难度较低,效率和准确率更好。另外,该方法不仅可应用于智能客服领域,也可应用于其他涉及实体词识别的领域,适用性较广。
在一个示例性实施例中,提供了一种实体识别方法,应用于终端。参考图1所示,该方法包括:
S110、获取待识别语句;
S120、基于设定词典库对待识别语句进行识别,确定第一识别结果;
S130、判断第一识别结果是否包括待识别语句的全部实体词;若确定第一识别结果包括待识别语句的全部实体词,则执行步骤S140;若确定第一识别结果未包括待识别语句的全部实体词,则执行步骤S150和S160;
S140、将第一识别结果确定为目标识别结果;
S150、基于互信息和左右信息熵对待识别语句进行识别,确定待定识别结果;
S160、根据第一识别结果和待定识别结果,确定目标识别结果。
在步骤S110中,待识别语句可以是用户通过手动方式输入的,也可以是用户通过语音方式输入的,也可以是终端识别的非用户的语音,或者终端从其他终端接收的,对此不作限定。需要说明的是,当终端接收到语音信息后,需要通过语音识别将语音信息转换为文本形式的待识别语句,以使得终端获取待识别语句。
在步骤S120中,设定词典库可以是终端出厂前设置的,也可以是终端出厂后设置的,另外,设定词典库设置完成后,后续也可对其进行修改。其中,设定词典库可包括多组设定词对,设定词对可以包括设定词和该设定词的拼音,设定词为实体词。另外,对设定词典库的修改可包括,删除设定词典库中的设定词、在设定词典库增加新的设定词、修改设定词典库中的设定词等等,对此不作限定。
其中,设定词典库可根据实际需要设置,对此不作限定。例如,设定词典库可以是一个或多个(包括两个)垂直领域的设定词构成的词典库,也就是,设定词典库可以用于识别设定的垂直领域的实体词,也可以用于识别广域(即多个垂直领域)的实体词。其中,垂直领域可包括智能客服领域、医疗领域、娱乐领域、教育领域以及体育领域等等。
该步骤中,可通过设定词典库对待识别语句进行实体词的识别,然后由识别出的实体词构成第一识别结果。识别出的实体词在设定词典库中均存在对应的设定词对。示例地,可基于设定词典库使用正则匹配(又称为规则匹配)的方式对待识别语句进行实体识别。
在步骤S130中,从第一识别结果中确定待识别语句中的最后一个实体词,确定此实体词在待识别语句中的位置,然后确定待识别语句的上述实体词后的剩余字的数量,记为剩余字数量。另外,确定第一识别结果中每个实体词包括的字的数量,记为实体词字数量。
若每个实体词对应的实体词字数量均大于剩余字数量,则说明剩余字无法构成实体词,便可确定第一识别结果包括待识别语句的全部实体词。若至少一个实体词对应的实体词字数量小于或等于剩余字数量,则说明剩余字可能构成实体词,便可确定第一识别结果未包括待识别语句的全部实体词。
示例1,
使用词典和正则匹配方式对待识别语句进行实体词识别,确定由实体词A、实体词B和实体词C构成的第一识别结果。然后,确定待识别语句中最后一个实体词为实体词C,然后确定待识别语句中实体词C后剩余字的数量,记为剩余字数量i。另外,确定实体词A的字数量,记为实体词字数量a;确定实体词B的字数量,记为实体词字数量b;确定实体词C的字数量,记为实体词字数量c。将剩余字数量i分别与实体词字数量a、实体词字数量b和实体词字数量c进行比较。若剩余字数量i大于或等于实体词字数量a、实体词字数量b和实体词字数量c任意一个实体词字数量,则确定第一识别结果未包括待识别语句的全部实体词;若剩余字数量i均小于实体词字数量a、实体词字数量b和实体词字数量c,则确定第一识别结果包括待识别语句的全部实体词。
在步骤S140中,由于已确定第一识别结果包括待识别语句的全部实体词,因此,便可直接将第一识别结果确定为实体识别的目标识别结果。也就是,将基于设定词典库得到的识别结果确定为目标识别结果。
在步骤S150中,由于已确定第一识别结果未包括待识别语句的全部实体词,也就是,待识别语句中可能还包括其他实体词,因此,便可基于互信息和左右信息熵对待识别语句进行识别,将识别出的词确定为待定词,然后可将全部待定词构成的识别结果确定为待定识别结果。其中,左右信息熵又可简称为左右熵。
在步骤S160中,可使用待定识别结果对第一识别结果进行修正,并将修正后的识别结果确定为目标识别结果,由于互信息和左右信息熵的实体识别结果较准确,因此,通过待定识别结果对第一识别结果进行修正,可以提高实体识别的可靠性。
该方法中,基于设定词典库以及互信息和左右信息熵,进行实体词的识别,不需要准备大量数据进行模型训练或部署,以进行冷启动,难度较低,效率和准确率更好。另外,该方法不仅可应用于智能客服领域,也可应用于其他涉及实体词识别的领域,适用性较广,进一步提升用户的使用体验。
在一个示例性实施例中,提供了一种实体识别方法,应用于终端。该方法中,根据第一识别结果和待定识别结果,确定目标识别结果,可包括:
S210、将待定识别结果中,与第一识别结果的实体词不同的词,确定为待定实体词;
S230、根据满足第一设定条件的待定实体词,确定第二识别结果;
S240、根据第一识别结果和第二识别结果,确定目标识别结果。
在步骤S210中,待定识别结果包括多个待定词。可比较待定识别结果中的待定词与第一识别结果中的实体词,然后可将与全部实体词均不同的待定词,确定为待定实体词。
在步骤S220中,需要说明的是,使用互信息和左右信息熵对待识别语句进行识别时,可确定每个待定词对应的第一模型值和第二模型值。其中,第一模型值由互信息对应的模型计算得到,第二模型值由左右信息熵对应的模型计算得到。
其中,待定实体词对应的第一模型值越大,说明此待定实体词为实体词的可能性越大;待定实体词对应的第二模型值越大,也说明此待定实体词为实体词的可能性越大。
该步骤中,若确定待定实体词对应的第一模型值大于或等于第一阈值,且确定此待定实体词对应的第二模型值大于或等于第二阈值,便可确定此待定实体词满足第一设定条件,便可将此待定实体词确定为第二实体词。然后将全部第二实体词构成的识别结果,确定为第二识别结果。
其中,第一阈值可以是终端出厂前设置的,也可以是终端出厂后设置的,第一阈值设置完成后,后续也可对其进行修改。第一阈值的具体数值可根据实际需求设置,对此不作限定。例如,第一阈值可大于或等于0.75且小于或等于1。
第二阈值的设置方式可参考第一阈值,第二阈值的具体数值可根据实际需求设置,对此不作限定。例如,第二阈值可大于或等于0.75且小于或等于1。
需要说明的是,第一阈值与第二阈值可以相同,也可以不同,对此不作限定。例如,第一阈值为0.75,第二阈值为0.75。再例如,第一阈值为0.85,第二阈值为0.80。另外,根据统计,第一阈值为0.85且第二阈值为0.80时,本方法的实体识别结果较好。
示例1,
第一阈值为0.85,第二阈值为0.80。
待定识别结果中,与第一识别结果的实体词不同的词可包括,待定实体词D’、待定实体词E’和待定实体词F’。其中,待定实体词D’对应的第一模型值记为mD′1,待定实体词D’对应的第二模型值记为mD′2;待定实体词E’对应的第一模型值记为mE′1,待定实体词E’对应的第二模型值记为mE′2;待定实体词F’对应的第一模型值记为mF′1,待定实体词F’对应的第二模型值记为mF′2
其中,第一模型值mD′1小于0.85,第二模型值mD′2小于0.80,说明待定实体词D’不是实体词。第一模型值mE′1大于或等于0.85,第二模型值mE′2大于或等于0.80,说明待定实体词E’是实体词,便可将待定实体词E’确定为第二实体词E。第一模型值mF′1大于或等于0.85,第二模型值mF′2小于0.80,说明待定实体词F’不是实体词。
由此可知,该示例中,可将待定实体词E’确定为第二实体词E,第二识别结果包括第二实体词E。
在步骤S240中,第一识别结果包括的实体词可记为第一实体词,第二识别结果包括的实体词可记为第二实体词。
在确定了第二识别结果后,便可由第一识别结果中的第一实体词和第二识别结果中的第二实体词构成识别结果,并可将此识别结果确定为目标识别结果,以此来确保实体识别的可靠性。
示例2,
第一识别结果包括第一实体词A、第一实体词B和第一实体词C,其中,确定待识别语句中最后一个实体词为第一实体词C。需要说明的是,此处的最后一个实体词指的是第一识别结果中位于待识别语句中位置最靠后的实体词。
然后确定待识别语句中第一实体词C后剩余字的数量,记为剩余字数量i。另外,确定第一实体词A的字数量,记为实体词字数量a;确定第一实体词B的字数量,记为实体词字数量b;确定第一实体词C的字数量,记为实体词字数量c。将剩余字数量i分别与实体词字数量a、实体词字数量b和实体词字数量c进行比较。
其中,剩余字数量i大于或等于实体词字数量a、实体词字数量b和实体词字数量c任意一个实体词字数量,因此确定第一识别结果未包括待识别语句的全部实体词,然后基于互信息和左右信息熵对待识别语句进行识别,确定待定识别结果。
待定识别结果包括待定实体词A’、待定实体词B’、待定实体词C’、待定实体词D’、待定实体词E’和待定实体词F’。其中,待定实体词A’与第一实体词A相同,待定实体词B’与第一实体词B相同,待定实体词C’与第一实体词C相同,待定实体词D’、待定实体词E’和待定实体词F与上述三个第一实体词(即第一实体词A、第一实体词B和第一实体词C)均不同。
该示例2中,第一阈值为0.85,第二阈值为0.80。,待定实体词D’对应的第一模型值记为mD′1,待定实体词D’对应的第二模型值记为mD′2;待定实体词E’对应的第一模型值记为mE′1,待定实体词E’对应的第二模型值记为mE′2;待定实体词F’对应的第一模型值记为mF′1,待定实体词F’对应的第二模型值记为mF′2
其中,第一模型值mD′1小于0.85,第二模型值mD′2小于0.80,说明待定实体词D’不是实体词。第一模型值mE′1大于或等于0.85,第二模型值mE′2大于或等于0.80,说明待定实体词E’是实体词,便可将待定实体词E’确定为第二实体词E。第一模型值mF′1大于或等于0.85,第二模型值mF′2小于0.80,说明待定实体词F’不是实体词。
由此可知,该示例中,可将待定实体词E’确定为第二实体词E,然后将第二实体词E构成的识别结果,确定为第二识别结果。也就是,第二识别结果包括第二实体词E。
然后将第一识别结果包括的第一实体词A、第一实体词B和第一实体词C,以及第二识别结果包括的第二实体词E,构成新的识别结果,该识别结果确定为目标识别结果。目标识别结果包括第一实体词A、第一实体词B、第一实体词C以及第二实体词E。
该方法中,可通过互信息和左右信息熵的识别结果对第一识别结果进行修订,从而得到更加实体识别更加准确的目标识别结果,提升了用户使用体验。
在一个示例性实施例中,提供了一种实体识别方法,应用于终端。该方法中,设定词典库可通过以下方式得到:
S310、根据设定领域的语句,确定语句库;
S320、对语句库中的语句进行分词处理,确定第一词语库;
S330、基于互信息和左右信息熵对语句库的语句进行识别,确定待定词语库;
S340、根据第一词语库和待定词语库,确定设定词典库。
在步骤S310中,设定领域可以包括至少一个垂直领域,设定领域也可以是广域,即设定领域可不限定于垂直领域。需要说明的是,广域与垂域(即垂直领域)是对应的概念,本方法中,广域指不限定于一个或多个(包括两个)垂直领域的领域,广域可以理解为全域。
其中,当设定领域包括至少一个垂直领域时,设定词典库可以用于识别上述至少一个垂直领域的实体词。当设定领域为广域时,设定词典库可以用于识别广域的实体词,也就是可用于识别任意领域的实体词。其中,垂直领域可包括智能客服领域、医疗领域、娱乐领域、教育领域以及体育领域等等。
该步骤中,可收集大量的设定领域的语句,并由收集到的语句构成语句库。其中,语句库中的语句数量越多,最终确定的设定词典库中的设定词对越丰富,本方法的实体识别结果的可靠性越高。
在步骤S320中,可通过分词工具对语句库中的语句进行分词处理,以确定多个实体词,并将确定出的实体词确定为设定词,然后由全部设定词构成第一词语库。也就是,第一词语库包括多个设定词。其中,分词工具可包括hanLP(Han Language Processing,汉语言处理包)、Jieba(又称结巴分词)或开源的CRF++(其中CRF又称为条件随机场)等等,对此不作限定。
在步骤S330中,可基于互信息与左右信息熵对语句库的语句进行识别,并由识别出的词构成待定词语库。
其中,基于互信息和左右信息熵对语句库的语句进行识别,可参考基于互信息和左右信息熵对待识别语句进行识别的过程,对此不作赘述。
在步骤S340中,可使用待定词语库对第一词语库进行修正,然后对修正后词语库中的设定词进行拼音转换,得到每个设定词对应的拼音,并将每个设定词以及该设定词对应的拼音,确定为一个设定词对。最后,由全部设定词对构成设定词典库。其中,可使用拼音转换工具确定设定词对应的拼音。
其中,由于互信息和左右信息熵的实体识别结果较准确,因此,通过待定词语库对第一词语库进行修正,可以提高设定词典库的可靠性,进而提升本方法的实体识别结果的可靠性。
该方法中,基于分词工具以及互信息和左右信息熵,对语句库中的语句进行识别,自动生成设定词典库,不需要过多的人工参与,节省成本,且可提高构建设定词典库的效率以及设定词典库的可靠性。另外,该方法不仅可应用于构建智能客服领域的设定词典库,也可应用于其他涉及实体词识别的领域的设定词典库,进而扩大本方法的实体识别的适用领域。
在一个示例性实施例中,提供了一种实体识别方法,应用于终端。该方法中,根据第一词语库和待定词语库,确定设定词典库,可包括:
S410、将待定词语库中,与第一词语库的设定词不同的词,确定为待定设定词;
S420、根据满足第二设定条件的待定设定词,确定第二词语库;
S430、根据第一词语库和第二词语库,确定设定词典库。
其中,步骤S410可参考其他实施例中的步骤S210,步骤S420可参考其他实施例中的步骤S220。
在步骤S410中,待定词语库可包括多个待定词。可比较待定词语库中的待定词与第一词语库中的设定词,然后可将与任意设定词均不同的待定词,确定为待定设定词。
在步骤S420中,若确定待定设定词对应的第一模型值大于或等于第三阈值,且确定此待定设定词对应的第二模型值大于或等于第四阈值,便可确定此待定设定词满足第二设定条件,便可将此待定设定词确定为第二设定词。然后将全部第二设定词构成的词语库,确定为第二词语库。
其中,第三阈值与第一阈值可以相同,也可以不同,对此不作限定。第四阈值与第二阈值可以相同,也可以不同,对此不作限定。示例地,第一阈值、第二阈值、第三阈值和第四阈值均可大于或等于0.75且小于或等于1。
例如,第一阈值和第三阈值均为0.85,第二阈值和第四阈值均为0.80。
在步骤S430中,第一词语库包括的设定词可记为第一设定词,第二词语库包括的设定词可记为第二设定词。
在确定了第二词语库后,便可由第一词语库中的第一设定词和第二词语库中的第二设定词构成新的词语库,该词语库可记为目标词语库。然后可使用拼音转换工具对目标词语库中的设定词进行拼音转换,确定每个设定词对应的拼音,并将每个设定词以及该设定词对应的拼音确定为该设定词对应的设定词对,然后由全部设定词对应的设定词对构成设定词典库。也就是,设定词典库包括多个设定词对,以此来确保设定词典库的可靠性,进而提升本方法的实体识别的可靠性。
该方法中,可通过互信息和左右信息熵识别得到的待定词语库对第一词语库进行修订,从而得到可靠性更好的设定词典库,进而提升本方法的实体识别的可靠性,提升用户使用体验。
在一个示例性实施例中,提供一种实体识别装置,应用于终端。该装置用于实施上述的方法,示例地,参考图2所示,该装置可包括获取模块101和确定模块102,该装置在实施上述方法的过程中,
获取模块101,用于获取待识别语句;
确定模块102,用于基于设定词典库对待识别语句进行识别,确定第一识别结果;
还用于若确定第一识别结果未包括待识别语句的全部实体词,则基于互信息和左右信息熵对待识别语句进行识别,确定待定识别结果;
还用于根据第一识别结果和待定识别结果,确定目标识别结果。
在一个示例性实施例中,提供一种实体识别装置,应用于终端。参考图2所示,该装置中,确定模块102,用于:
将待定识别结果中,与第一识别结果的实体词不同的词,确定为待定实体词;
根据满足第一设定条件的待定实体词,确定第二识别结果;
根据第一识别结果和第二识别结果,确定目标识别结果。
在一个示例性实施例中,提供一种实体识别装置,应用于终端。参考图2所示,该装置中,确定模块102,用于:
若确定待定实体词的第一模型值大于或等于第一阈值,且确定此待定实体词的第二模型值大于或等于第二阈值,则将此待定实体词确定为第二实体词;
将全部第二实体词构成的识别结果,确定为第二识别结果。
在一个示例性实施例中,提供一种实体识别装置,应用于终端。参考图2所示,该装置中,确定模块102,用于:
若确定第一识别结果包括待识别语句的全部实体词,则将第一识别结果确定为目标识别结果。
在一个示例性实施例中,提供了一种终端,终端例如为手机、笔记本电脑、平板电脑以及可穿戴设备等。
参考图3所示,终端400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制终端400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在终端400的操作。这些数据的示例包括用于在终端400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为终端400的各种组件提供电力。电源组件406可以包括电源管理***,一个或多个电源,及其他与为终端400生成、管理和分配电力相关联的组件。
多媒体组件408包括在终端400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置相机应用和/或后置相机应用。当终端400处于操作模式,如拍摄模式或视频模式时,前置相机应用和/或后置相机应用可以接收外部的多媒体数据。每个前置相机应用和后置相机应用可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当终端400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为终端400提供各个方面的状态评估。例如,传感器组件414可以检测到终端400的打开/关闭状态,组件的相对定位,例如组件为终端400的显示器和小键盘,传感器组件414还可以检测终端400或终端400一个组件的位置改变,用户与终端400接触的存在或不存在,终端400方位或加速/减速和终端400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于终端400和其他终端之间有线或无线方式的通信。终端700可以接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理终端(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的方法。
在一个示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由终端400的处理器420执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储终端等。当存储介质中的指令由终端的处理器执行时,使得终端能够执行上述实施例中示出的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种实体识别方法,应用于终端,其特征在于,所述方法包括:
获取待识别语句;
基于设定词典库对所述待识别语句进行识别,确定第一识别结果;
若确定所述第一识别结果未包括所述待识别语句的全部实体词,则基于互信息和左右信息熵对所述待识别语句进行识别,确定待定识别结果;
根据所述第一识别结果和所述待定识别结果,确定目标识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一识别结果和所述待定识别结果,确定目标识别结果,包括:
将所述待定识别结果中,与所述第一识别结果的实体词不同的词,确定为待定实体词;
根据满足第一设定条件的待定实体词,确定第二识别结果;
根据所述第一识别结果和所述第二识别结果,确定所述目标识别结果。
3.根据权利要求2所述的方法,其特征在于,所述根据满足第一设定条件的待定实体词,确定第二识别结果,包括:
若确定所述待定实体词的第一模型值大于或等于第一阈值,且确定此待定实体词的第二模型值大于或等于第二阈值,则将此待定实体词确定为第二实体词;
将全部第二实体词构成的识别结果,确定为所述第二识别结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若确定所述第一识别结果包括所述待识别语句的全部实体词,则将所述第一识别结果确定为所述目标识别结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述设定词典库通过以下方式得到:
根据设定领域的语句,确定语句库;
对所述语句库中的语句进行分词处理,确定第一词语库;
基于互信息和左右信息熵对所述语句库的语句进行识别,确定待定词语库;
根据所述第一词语库和所述待定词语库,确定所述设定词典库。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一词语库和所述待定词语库,确定所述设定词典库,包括:
将所述待定词语库中,与所述第一词语库的设定词不同的词,确定为待定设定词;
根据满足第二设定条件的待定设定词,确定第二词语库;
根据所述第一词语库和所述第二词语库,确定所述设定词典库。
7.根据权利要求6所述的方法,其特征在于,所述根据满足第二设定条件的所述待定设定词,确定第二词语库,包括:
若确定所述待定设定词的第一模型值大于或等于第三阈值,且确定此待定设定词的第二模型值大于或等于第四阈值,则将此待定设定词确定为第二设定词;
将全部第二设定词构成的词典库,确定为所述第二词语库。
8.一种实体识别装置,应用于终端,其特征在于,所述装置包括:
获取模块,用于获取待识别语句;
确定模块,用于基于设定词典库对所述待识别语句进行识别,确定第一识别结果;
还用于若确定所述第一识别结果未包括所述待识别语句的全部实体词,则基于互信息和左右信息熵对所述待识别语句进行识别,确定待定识别结果;
还用于根据所述第一识别结果和所述待定识别结果,确定目标识别结果。
9.根据权利要求8所述的装置,其特征在于,所述确定模块,用于:
将所述待定识别结果中,与所述第一识别结果的实体词不同的词,确定为待定实体词;
根据满足第一设定条件的待定实体词,确定第二识别结果;
根据所述第一识别结果和所述第二识别结果,确定所述目标识别结果。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,用于:
若确定所述待定实体词的第一模型值大于或等于第一阈值,且确定此待定实体词的第二模型值大于或等于第二阈值,则将此待定实体词确定为第二实体词;
将全部第二实体词构成的识别结果,确定为所述第二识别结果。
11.根据权利要求8所述的装置,其特征在于,所述确定模块,用于:
若确定所述第一识别结果包括所述待识别语句的全部实体词,则将所述第一识别结果确定为所述目标识别结果。
12.一种终端,其特征在于,所述终端包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1-7中任一项所述的方法。
13.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由终端的处理器执行时,使得所述终端能够执行如权利要求1-7中任一项所述的方法。
CN202210128678.2A 2022-02-11 2022-02-11 实体识别方法、装置、终端及存储介质 Pending CN114462410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210128678.2A CN114462410A (zh) 2022-02-11 2022-02-11 实体识别方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210128678.2A CN114462410A (zh) 2022-02-11 2022-02-11 实体识别方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114462410A true CN114462410A (zh) 2022-05-10

Family

ID=81412676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210128678.2A Pending CN114462410A (zh) 2022-02-11 2022-02-11 实体识别方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114462410A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN115034211B (zh) * 2022-05-19 2023-04-18 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110580290B (zh) 用于文本分类的训练集的优化方法及装置
JP6918181B2 (ja) 機械翻訳モデルのトレーニング方法、装置およびシステム
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN109819288B (zh) 广告投放视频的确定方法、装置、电子设备及存储介质
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN109255128B (zh) 多层级标签的生成方法、装置和存储介质
CN111832316A (zh) 语义识别的方法、装置、电子设备和存储介质
CN110674246A (zh) 问答模型训练方法、自动问答方法及装置
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN111414772B (zh) 一种机器翻译方法、装置及介质
CN111199730B (zh) 语音识别方法、装置、终端及存储介质
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN112035651B (zh) 语句补全方法、装置及计算机可读存储介质
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN110781689B (zh) 信息处理方法、装置及存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112331194A (zh) 一种输入方法、装置和电子设备
CN115547333A (zh) 语言识别模型的生成方法、生成装置、***、设备及介质
CN112863499B (zh) 语音识别方法及装置、存储介质
CN110837741B (zh) 一种机器翻译方法、装置及***
CN113254611A (zh) 提问推荐方法及装置、电子设备及存储介质
CN113420553A (zh) 文本生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination