CN110413983A - 一种识别人名的方法及装置 - Google Patents

一种识别人名的方法及装置 Download PDF

Info

Publication number
CN110413983A
CN110413983A CN201810392724.3A CN201810392724A CN110413983A CN 110413983 A CN110413983 A CN 110413983A CN 201810392724 A CN201810392724 A CN 201810392724A CN 110413983 A CN110413983 A CN 110413983A
Authority
CN
China
Prior art keywords
name
text
participle
possibility
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810392724.3A
Other languages
English (en)
Other versions
CN110413983B (zh
Inventor
何耀
蒋松岐
刘笑逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haima Light Sail Entertainment Technology Co Ltd
Original Assignee
Beijing Haima Light Sail Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haima Light Sail Entertainment Technology Co Ltd filed Critical Beijing Haima Light Sail Entertainment Technology Co Ltd
Priority to CN201810392724.3A priority Critical patent/CN110413983B/zh
Publication of CN110413983A publication Critical patent/CN110413983A/zh
Application granted granted Critical
Publication of CN110413983B publication Critical patent/CN110413983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种识别人名的方法及装置,所述方法包括:从待识别文本中提取与对话文本相邻的旁白文本;对所述旁白文本进行分词,获得至少一个分词;计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;根据所述可能性得分确定所述分词是否为人名。由此可见,本发明实施例提供的识别人名的方法,通过对与对话文本相邻的旁白文本进行识别并分词,计算出各个分词是人名的可能性,从而有效的识别出待识别文本中的人名。

Description

一种识别人名的方法及装置
技术领域
本发明涉及自动识别领域,特别是涉及一种识别人名的方法及装置。
背景技术
随着自动识别技术的发展,许多领域都采用自动识别技术替代传统人工识别。自动识别技术有着效率高、准确性高的优点。
自动识别技术可以应用于对文学作品的情节分析,例如,可以应用于对叙事性文学作品的分析。所谓叙事性文学作品,是指,从事件发生的角度进行故事情节描述的文学作品。对叙事性文学作品进行情节分析,识别其中的人物角色,即识别其中的人名尤为重要,识别了叙事性文学作品中的人名,有助于对叙事性文学进行情节分析。
因此,需要提出一种方法,能够准确有效的识别叙事性文学作品中的人名。
发明内容
本发明所要解决的技术问题是如何准确有效的提取叙事性文学作品中的人名。
第一方面,本发明实施例提供一种识别人名的方法,包括:
从待识别文本中提取与对话文本相邻的旁白文本;
对所述旁白文本进行分词,获得至少一个分词;
计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
根据所述可能性得分确定所述分词是否为人名。
可选的,所述从待识别文本中提取与对话内容相邻的旁白文本,包括:
将待识别文本进行分割,获得多个句子;所述获得的多个句子包括对话句子和非对话句子;
从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,作为与对话内容相邻的旁白文本。
可选的,所述从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,包括:
从所述获得的多个句子中提取出对话句子;
判断所述对话句子的前一个句子是否是以冒号或者逗号结尾,若是,则提取所述对话句子的前一个句子;
以及,
判断所述对话句子的后一个句子是否为非对话句子,如果是,则提取所述对话句子的后一个句子。
可选的,所述从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,包括:
从所述获得的多个句子中提取出非对话句子;
判断所述非对话句子是否是以冒号或者逗号结尾,若是,则提取所述非对话句子。
可选的,所述计算所述分词的可能性得分,包括:
计算所述分词在所述待识别文本中出现的次数;
提取所述分词在其它文本中出现的次数;
根据所述分词在所述待识别文本中出现的次数和所述分词在所述其它文本中出现的次数计算所述分词的可能性得分。
可选的,所述根据所述可能性得分确定所述分词是否为人名,包括:
判断所述可能性得分是否大于第一预设阈值;
如果是,确定所述分词为人名。
可选的,所述方法还包括:
预先获得所述第一预设阈值。
可选的,所述预先获得所述第一预设阈值,包括:
人工标注所述待识别文本中的人名;
预先设置第一预设数目个参考阈值,分别统计各个参考阈值对应的识别的人名;根据所述识别的人名和所述人工标注的待识别文本中的人名,确定各个参考阈值对应的人名识别的正确率和人名识别的召回率;
根据所述参考阈值对应的所述人名识别的正确率和人名识别的召回率,计算所述参考阈值对应的人名识别得分;
将所述人名识别得分最高对应的参考阈值作为所述第一预设阈值。
可选的,所述预先获得所述第一预设阈值,包括:
人工标注所述待识别文本中的人名;
计算所述待识别文本中的人名的可能性得分,获得所述待识别文本中的人名的可能性得分的范围;
根据所述可能性得分的范围确定所述第一预设阈值。
第二方面,本发明实施例提供一种识别人名的装置,包括:
旁白文本提取单元,用于从待识别文本中提取与对话文本相邻的旁白文本;
分词单元,用于对所述旁白文本进行分词,获得至少一个分词;
可能性得分计算单元,用于计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
人名确定单元,用于根据所述可能性得分确定所述分词是否为人名。
可选的,所述旁白文本提取单元,包括:分割子单元和提取子单元。
所述分割子单元,用于将待识别文本进行分割,获得多个句子;所述获得的多个句子包括对话句子和非对话句子;
所述提取子单元,用于从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,作为与对话内容相邻的旁白文本。
可选的,所述提取子单元,具体用于:
从所述获得的多个句子中提取出对话句子;
判断所述对话句子的前一个句子是否是以冒号或者逗号结尾,若是,则提取所述对话句子的前一个句子;
以及,
判断所述对话句子的后一个句子是否为非对话句子,如果是,则提取所述对话句子的后一个句子。
可选的,所述提取子单元,具体用于:
从所述获得的多个句子中提取出非对话句子;
判断所述非对话句子是否是以冒号或者逗号结尾,若是,则提取所述非对话句子。
可选的,所述可能性得分计算单元,包括:第一频率计算子单元、第二频率提取子单元和可能性得分计算子单元。
第一频率计算子单元,用于计算所述分词在所述待识别文本中出现的次数。
第二频率提取子单元,用于提取所述分词在其它文本中出现的次数。
可能性得分计算子单元,用于根据所述分词在所述待识别文本中出现的次数和所述分词在所述其它文本中出现的次数计算所述分词的可能性得分。
可选的,所述人名确定单元,包括:
判断子单元,用于判断所述可能性得分是否大于第一预设阈值;
人名确定子单元,用于当所述可能性得分大于第一预设阈值时,确定所述分词为人名。
可选的,所述装置还包括:第一预设阈值获得单元。
所述第一预设阈值获得单元,用于预先获得所述第一预设阈值。
可选的,所述第一预设阈值获得单元,包括:第一人名标注子单元、统计子单元、正确率和召回率确定子单元、人名识别得分计算子单元和第一预设阈值确定子单元。
所述第一人名标注子单元,用于人工标注所述待识别文本中的人名。
所述统计子单元,用于预先设置第一预设数目个参考阈值,分别统计各个参考阈值对应的识别的人名。
所述正确率和召回率确定子单元,用于根据所述识别的人名和所述人工标注的待识别文本中的人名,确定各个参考阈值对应的人名识别的正确率和人名识别的召回率。
所述人名识别得分计算子单元,用于根据所述参考阈值对应的所述人名识别的正确率和人名识别的召回率计算所述参考阈值对应的人名识别得分。
所述第一预设阈值确定子单元,用于将所述人名识别得分最高对应的参考阈值作为所述第一预设阈值。
可选的,所述第一预设阈值获得单元,包括:第二人名标注子单元、可能性得分范围得到子单元和第一预设阈值获得子单元。
所述第二人名标注子单元,用于人工标注所述待识别文本中的人名;
所述可能性得分范围得到子单元,用于计算所述待识别文本中的人名的可能性得分,获得所述待识别文本中的人名的可能性得分的范围;
所述第一预设阈值获得子单元,用于根据所述可能性得分的范围确定所述第一预设阈值。
第三方面,本发明实施例提供一种识别人名的设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从待识别文本中提取与对话文本相邻的旁白文本;
对所述旁白文本进行分词,获得至少一个分词;
计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
根据所述可能性得分确定所述分词是否为人名。
第四方面,本发明实施例提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述处理器能够执行以上第一方面任意一项所述的识别人名的方法。
与现有技术相比,本发明实施例具有以下优点:
在本发明实施例中,首先,从待识别文本中提取与对话文本相邻的旁白文本,然后对所述旁白文本进行分词,获得至少一个分词。最后,判断所述分词是否为人名。具体地,判断所述分词是否为人名,通过计算所述分词的可能性得分,由于该可能性得分可以标识所述分词是人名的可能性,从而根据所述可能性得分判断所述分词是否为人名。由此可见,本发明实施例提供的识别人名的方法,通过对与对话文本相邻的旁白文本进行识别并分词,计算出各个分词是人名的可能性,从而准确有效的识别出待识别文本中的人名。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别人名的方法的流程示意图;
图2为本发明实施例提供的一种识别人名的方法的流程示意图;
图3为本发明实施例提供的一种识别人名的方法的流程示意图;
图4为本发明实施例提供的一种预先获得第一预设阈值的方法的流程示意图;
图5为本发明实施例提供的另一种预先获得第一预设阈值的方法的流程示意图;
图6为本发明实施例提供的一种识别人名的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的发明人经过研究发现,对叙事性文学作品进行情节分析,识别其中的人物角色,即识别其中的人名尤为重要,识别了其中的人名,有助于对叙事性文学进行情节分析。在实际应用中,可以通过词性标注的方法来识别人名。词性标注可以识别出句子中的名词、动词、形容词以及介词等等词语的词性,进一步地,可以识别出名词中的地名以及人名,从而可以识别出待识别文本中的人名。但是,叙事性文学作品中的人名往往具有罕见的姓氏和名字,而采用词性标注的方法往往只能识别出包括常见姓氏以及常见名字的人名。因此,采用词性标注的方式并不能有效识别叙事性文学作品中的人名。
发明人在研究中还发现,一方面,叙事性文学作品主要由纯旁白和对话组成,而在对话开始之前或者对话结束之后,以及对话进行的过程中均有可能出现旁白,这些旁白中出现人名的可能性比较大。也就是说,与对话相邻的旁白中出现人名的可能性比较大。另一方面,人名与非人名的可能性得分不一样。
鉴于此,在本发明实施例中,首先,从待识别文本中提取与对话文本相邻的旁白文本,然后对所述旁白文本进行分词,获得至少一个分词。最后,判断所述分词是否为人名。具体地,判断所述分词是否为人名,通过计算所述分词的可能性得分,由于该可能性得分可以标识所述分词是人名的可能性,从而根据所述可能性得分判断所述分词是否为人名。由此可见,本发明实施例提供的识别人名的方法,通过对与对话文本相邻的旁白文本进行识别并分词,计算出各个分词是人名的可能性,从而准确有效的识别出待识别文本中的人名。
下面结合附图,详细说明本发明的各种非限制性实施方式。
第一实施例
参见图1,该图为本实施例提供的一种识别人名的方法的流程示意图。
本实施例提供的识别人名的方法,可以通过如下步骤101至步骤104实现。
步骤101:从待识别文本中提取与对话文本相邻的旁白文本。
本实施例提及的待识别文本包括由对话和旁白等内容组成的文本,例如,待识别文本可以为叙事性文学作品。
本实施例中提及的与对话文本相邻的旁白文本,是指,对话文本前一句非对话文本,或者,对话文本后一句非对话文本。
需要说明的是,本实施例中提及的“前一句”和“后一句”用于标识对话文本和与对话文本相邻的旁白文本的位置关系,其中所述的“一句”并不用于限定所述“与对话文本相邻的旁白文本”是一个完整的句子,即并不限定所述“与对话文本相邻的旁白文本”必须以句号结尾。也就是说,本实施例中提及的与对话文本相邻的旁白文本可以是一个完整的句子,也可以不是一个完整的句子。
步骤102:对所述旁白文本进行分词,获得至少一个分词。
需要说明的是,在本实施例中,可以按照一定的窗口大小将所述旁白文本分成多个分词,所述窗口大小是指分词包括的字符的个数,其中,一个字符可以是一个汉字,也可以是一个英文单词,还可以是其他语言中的一个文字等等。例如,待识别文本为中文,窗口大小为1,则将待识别文本分成多个分词,每个分词包括一个汉字。
考虑到待识别文本中的人名可能是两个字的人名,也可能是三个字的人名,还可能是四个字的人名。因此,在本实施例中,可以分别以2、3、4为窗口大小,将所述旁白文本进行分词,获得多个分词,并对该多个分词执行步骤103的操作。
例如,所述旁白文本为“天气很好”,则以2为窗口大小,对该旁白文本进行分词,获得的分词为:“天气、气很、很好”;以3为窗口大小,对该旁白文本进行分词,获得的分词为:“天气很、气很好”;以4为窗口大小,对该旁白文本进行分词,获得的分词为:“天气很好”。进一步地,对分词“天气、气很、很好、天气很、气很好、天气很好”执行步骤103的操作。
步骤103:计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性。
步骤104:根据所述可能性得分确定所述分词是否为人名。
关于步骤103和步骤104,需要说明的是,由于所述可能性得分可以表征所述分词是人名的可能性,因此,可以通过所述分词的可能性得分确定所述分词是否为人名。从而识别出待识别文本中的人名。
步骤104在具体实现时,可以判断所述可能性得分是否大于第一预设阈值,如果是,则确定所述分词为人名。
第一预设阈值是预先确定的。本实施例不具体限定所述第一预设阈值的具体取值,第一预设阈值可以根据待识别文本具体设置。作为一种示例,第一预设阈值可以为15。
可以理解的是,当所述分词的可能性得分大于第一预设阈值时,说明该分词是人名的可能性很大,因此,可以确定该分词为人名。
本实施例提供的识别人名的方法,首先,从待识别文本中提取与对话文本相邻的旁白文本,然后对所述旁白文本进行分词,获得至少一个分词。最后,判断所述分词是否为人名。具体地,判断所述分词是否为人名,通过计算所述分词的可能性得分,由于该可能性得分可以标识所述分词是人名的可能性,从而根据所述可能性得分判断所述分词是否为人名。由此可见,本发明实施例提供的识别人名的方法,通过对与对话文本相邻的旁白文本进行识别并分词,计算出各个分词是人名的可能性,从而准确有效的识别出待识别文本中的人名。
第二实施例
第一实施例提供了一种识别人名的方法,第二实施例将结合附图介绍第一实施例中步骤101的具体实现方式。
参见图2,该图为本实施例提供的提取与对话文本相邻的旁白文本的方法的流程示意图。
本实施例提供的提取与对话文本相邻的旁白文本的方法,可以通过如下步骤201至步骤202来实现。
步骤201:将待识别文本进行分割,获得多个句子,所述获得的多个句子包括对话句子和非对话句子。
由于待识别文本包括对话文本和旁白文本。而对话文本一般会出现在双引号内,并且,在对话结束时,其它标点符号一般会与双引号中的右引号连续出现,例如,出现感叹号右引号,出现句号右引号等等。
因此,在本实施例中,可以利用双引号以及其他标点符号对待识别文本进行分割。具体地,首先,利用句号右引号、感叹号右引号以及问号右引号等连续出现的两个标点符号对待识别文本进行分割,获得第一分割文本。其次,利用左引号对第一分割文本进一步进行分割,获得第二分割文本。可以理解的是,第二分割文本已经将待识别文本中的对话文本分割出来,对于其他非对话文本,利用逗号、句号等标点符号再次进行分割,从而将待识别文本分割成多个句子。
步骤202:从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,作为与对话文本相邻的旁白文本。
将待识别文本分割成多个句子之后,可以根据对话句子和非对话句子的位置关系,提取出与对话句子相邻的旁白句子,从而可以提取出对话文本相邻的旁白文本。
步骤202在具体实现时,可以有多种实现方式。
在一种可能的实现方式中,可以从所述获得的多个句子中提取出对话句子;判断所述对话句子的前一个句子是否是以冒号或者逗号结尾,若是,则提取所述对话句子的前一个句子;以及,判断所述对话句子的后一个句子是否为非对话句子,如果是,则提取所述对话句子的后一个句子。
可以理解的是,若对话句子的前一个句子以冒号或者逗号结尾,则说明该对话句子的前一个句子是与该对话句子相邻的旁白句子。若对话句子的后一个句子是非对话句子,则说明该对话句子的后一个句子是与该对话句子相邻的旁白句子。
在另一种可能的实现方式中,可以从所述获得的多个句子中提取出非对话句子;判断所述非对话句子是否是以冒号或者逗号结尾,若是,则提取所述非对话句子。
可以理解的是,若非对话句子以冒号或者逗号结尾,则说明该非对话句子的后一个句子为对话句子,即,该非对话句子为与对话句子相邻的非对话句子。
本实施例提供的方法,通过标点符号对待识别文本进行分割,获得对话句子和非对话句子,并利用对话句子和非对话句子的位置关系,从而提取出与对话文本相邻的旁白文本。
第三实施例
第一实施例提供了一种识别人名的方法,第三实施例将结合附图介绍第一实施例中步骤103的具体实现方式。
参见图3,该图为本实施例提供的计算分词的可能性得分的方法的流程示意图。
本实施例提供的计算分词的可能性得分的方法,可以通过如下步骤301至步骤303实现。
步骤301:计算所述分词在所述待识别文本中出现的次数。
步骤302:提取所述分词在其它文本中出现的次数。
需要说明的是,所述分词在其它文本中出现的次数是预先计算好并存储在相应的存储空间中的。该存储空间中存储着许多分词在其它文本中出现的次数。因此,可以直接从该存储空间中提取所述分词在其它文本中出现的次数。
本实施例不具体限定所述其它文本所包括的文本数量。例如,所述其它文本可以为10本小说所组成的文本。
可以理解的是,其它文本包括的文本数量不同,对应的分词在其它文本中出现的次数也可以不同,故而,存储空间中存储的分词在其它文本中出现的次数是可以更新的。例如,当文本数量由10本小说所组成的文本变成由20本小说所组成的文本时,则分词在其它文本中出现的次数,可以由该分词在由10本小说所组成的文本中出现的次数,更新为该分词在由20本小说所组成的文本中出现的次数。
步骤303:根据所述分词在所述待识别文本中出现的次数和所述分词在其它文本中出现的次数计算所述分词的可能性得分。
需要说明的是,步骤303的具体实现与词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)算法类似。TF-IDF是一种统计方法,用以评估一个分词对于一份文件的重要程度。分词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在其它文件中出现的频率成反比下降。
在本实施例中,可以计算所述分词在所述待识别文本中出现的次数和所述分词在其它文本中出现的次数的比值,作为所述分词的可能性得分,用于表征所述分词为人名的可能性。
但是,考虑到在实际应用中,当待识别文本中的人名十分罕见时,该人名在其它文本中可能从未出现过,此时,可能性得分公式中的分母为0,计算没有意义,因此,在本实施例中,可能性计算可以采用如下公式:
其中,si表示分词i的可能性得分,fi1表示分词i在待识别文本中出现的次数,fi2表示分词i在其它文本中出现的次数。
本实施例提供的方法,利用TF-IDF算法的思想计算出分词的可能性得分,从而可以根据所述可能性得分判断出所述分词是否为人名。
第四实施例
第一实施例提供了一种识别人名的方法,第一实施例中提及可以通过判断所述分词的可能性得分是否大于第一预设阈值,从而判断所述分词是否为人名。需要说明的是,所述第一预设阈值可以预先获得。
在第一实施例提供的识别人名的方法地基础上,第四实施例将结合附图介绍预先获得第一预设阈值的具体实现方法。
参见图4,该图为本实施例提供的一种预先获得第一预设阈值的方法的流程示意图。
本实施例提供的预先获得第一预设阈值的方法,可以通过如下步骤401至步骤404实现。
步骤401:人工标注所述待识别文本中的人名。
本实施例中提及的人工标注所述待识别文本中的人名是指,采用人工参与的方式,将所述待识别文本中的人名标注出来。
步骤402:预先设置第一预设数目个参考阈值,分别统计各个参考阈值对应的识别的人名。
需要说明的是,本实施例不具体限定第一预设数目的具体取值,第一预设数目可以根据实际情况具体设置。例如,第一预设数目可以为5。
步骤402中提及的统计各个参考阈值对应的识别的人名,是指,分别将各个参考阈值作为第一预设阈值,利用第一实施例中提供的识别人名的方法,进行人名识别,从而统计各个参考阈值对应的识别的人名。
步骤403:根据所述识别的人名和所述人工标注的待识别文本中的人名,确定各个参考阈值对应的人名识别的正确率和人名识别的召回率。
可以理解的是,参考阈值不同,其识别出的人名也不同,并且,其识别出的人名中可能包括正确的人名,也可能包括不正确的人名。
本实施例中提及的参考阈值对应的人名识别的正确率是指,参考阈值对应的正确识别的人名与识别出的人名总数的的比值。
本实施例中提及的参考阈值对应的人名识别的召回率是指,参考阈值对应的正确识别的人名数量与人工标注的待识别文本中的人名数量的比值。
步骤404:根据所述参考阈值对应的所述人名识别的正确率和人名识别的召回率计算所述参考阈值对应的人名识别得分。
可以理解的是,所述人名识别的正确率表征了该参考阈值对应的识别的人名中,正确识别的人名的数量占识别的人名的总数量的比值,表征了该参考阈值对应的人名识别的质量;所述人名识别的召回率表征了该参考阈值对应的识别的人名中,正确识别的数量与人工标注的人名的数量的比值,表征了可以识别出的人名的数量。
可以理解的是,在进行人名识别时,一方面,在进行人名识别时,尽量不要将非人名识别为人名,即所述人名识别的正确率要比较高。另一方面,要尽可能将待识别文本中的人名识别出来,即所述人名识别的召回率要比较高。
在本申请实施例中,可以综合参考阈值对应的人名识别的正确率和人名识别的召回率,计算该参考阈值对应的人名识别得分。该人名识别得分可以看成是人名识别的正确率和人名识别的召回率的加权平衡。具体地,人名识别得分可以通过如下公式获得:
其中,s表示人名识别得分,f1表示人名识别的正确率,f2表示人名识别的召回率。
步骤405:将所述人名识别得分最高对应的参考阈值作为所述第一预设阈值。可以理解的是,人名识别得分越高,该参考阈值对应的人名识别的召回和正确率率可能均比较高,因此识别人名的效果越好。
关于步骤401至步骤405,现举例进行说明。例如,预先设置5个参考阈值,这5个参考阈值分别为12、13、14、15和16。分别对利用第一实施例中的方法进行分词并获得的各个分词的可能性得分,将可能性得分大于12的分词作为人名,统计该人名;相应的,分别将可能性得分大于13、14、15和16的分词作为人名,分别进行统计。分别计算参考阈值12、13、14、15和16对应的人名识别的正确率和人名识别的召回率,从而计算参考阈值12、13、14、15和16对应的人名识别得分。各个参考阈值对应的人名识别得分的如表1所示。其中,人工标注了50个人名。
表1
其中,表1中的“正确识别的人名个数”是指,人工标注的人名被识别出的数量;表1中的“识别输出的总词汇数”是指,识别出的人名的总数量。
从表1可以看出,参考阈值为15时,对应的人名识别得分最高,因此,可以将参考阈值15作为第一预设阈值,从而使得利用第一实施例提供的方法能够准确的识别出待识别文本中的人名。
除了采用图4所示的方法预先获得第一预设阈值之外,本实施例还提供另一种预先获得第一预设阈值的方法。
可参见图5,该图为本实施例提供的另一种预先获得第一预设阈值的方法的流程示意图。
本实施例提供的预先获得第一预设阈值的方法,可以通过如下步骤501至步骤503实现。
步骤501:人工标注所述待识别文本中的人名。
步骤501与步骤401相同,具体描述可以参考步骤401中的描述部分,在此不再赘述。
步骤502:计算所述待识别文本中的人名的可能性得分,获得所述待识别文本中的人名的可能性得分的范围。
步骤503:根据所述可能性得分的范围确定所述第一预设阈值。
需要说明的是,由于人工标注出了待识别文本的所有的人名,因此,可以获得所述待识别文本中的人名的可能性得分的范围。
步骤503在具体实现时,可以将所述可能性得分的范围的下限作为第一预设阈值。例如,所述待识别文本中的人名的可能性得分的范围为从15到21,则可以将范围15到21的下限15作为第一预设阈值。
由于待识别文本中所有的人名的可能性得分均大于或等于15,因此,将15作为第一预设阈值,几乎可以将待识别文本中的人名全部识别出来。
第五实施例
基于以上第一实施例至第四实施例提供的识别人名的方法,本发明还提供一种识别人名的装置,第五实施例将结合附体介绍该装置。
参见图6,该图为本实施例提供的一种识别人名的装置600的结构示意图。所述装置600例如可以具体包括:旁白文本提取单元610、分词单元620、可能性得分计算单元630和人名确定单元640。
所述旁白文本提取单元610,用于从待识别文本中提取与对话文本相邻的旁白文本。
所述分词单元620,用于对所述旁白文本进行分词,获得至少一个分词。
所述可能性得分计算单元630,用于计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性。
所述人名确定单元640,用于根据所述可能性得分确定所述分词是否为人名。
可选的,所述旁白文本提取单元610,包括:分割子单元和提取子单元。
所述分割子单元,用于将待识别文本进行分割,获得多个句子;所述获得的多个句子包括对话句子和非对话句子;
所述提取子单元,用于从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,作为与对话内容相邻的旁白文本。
可选的,所述提取子单元,具体用于:
从所述获得的多个句子中提取出对话句子;
判断所述对话句子的前一个句子是否是以冒号或者逗号结尾,若是,则提取所述对话句子的前一个句子;
以及,
判断所述对话句子的后一个句子是否为非对话句子,如果是,则提取所述对话句子的后一个句子。
可选的,所述提取子单元,具体用于:
从所述获得的多个句子中提取出非对话句子;
判断所述非对话句子是否是以冒号或者逗号结尾,若是,则提取所述非对话句子。
可选的,所述可能性得分计算单元630,包括:第一频率计算子单元、第二频率提取子单元和可能性得分计算子单元。
第一频率计算子单元,用于计算所述分词在所述待识别文本中出现的次数。
第二频率提取子单元,用于提取所述分词在其它文本中出现的次数。
可能性得分计算子单元,用于根据所述分词在所述待识别文本中出现的次数和所述分词在所述其它文本中出现的次数计算所述分词的可能性得分。
可选的,所述人名确定单元640,包括:
判断子单元,用于判断所述可能性得分是否大于第一预设阈值;
人名确定子单元,用于当所述可能性得分大于第一预设阈值时,确定所述分词为人名。
可选的,所述装置还包括:第一预设阈值获得单元。
所述第一预设阈值获得单元,用于预先获得所述第一预设阈值。
可选的,所述第一预设阈值获得单元,包括:第一人名标注子单元、统计子单元、正确率和召回率确定子单元、人名识别得分计算子单元和第一预设阈值确定子单元。
所述第一人名标注子单元,用于人工标注所述待识别文本中的人名。
所述统计子单元,用于预先设置第一预设数目个参考阈值,分别统计各个参考阈值对应的识别的人名。
所述正确率和召回率确定子单元,用于根据所述识别的人名和所述人工标注的待识别文本中的人名,确定各个参考阈值对应的人名识别的正确率和人名识别的召回率。
所述人名识别得分计算子单元,用于根据所述参考阈值对应的所述人名识别的正确率和人名识别的召回率计算所述参考阈值对应的人名识别得分。
所述第一预设阈值确定子单元,用于将所述人名识别得分最高对应的参考阈值作为所述第一预设阈值。
可选的,所述第一预设阈值获得单元,包括:第二人名标注子单元、可能性得分范围得到子单元和第一预设阈值获得子单元。
所述第二人名标注子单元,用于人工标注所述待识别文本中的人名;
所述可能性得分范围得到子单元,用于计算所述待识别文本中的人名的可能性得分,获得所述待识别文本中的人名的可能性得分的范围;
所述第一预设阈值获得子单元,用于根据所述可能性得分的范围确定所述第一预设阈值。
本实施例提供的识别人名的装置是与第一实施例至第四实施例提供的识别人名的方法对应的装置,因此,具体实现部分可以参考第一实施例至第四实施例中的描述,在此不再赘述。
本实施例提供的识别人名的装置,首先,从待识别文本中提取与对话文本相邻的旁白文本,然后对所述旁白文本进行分词,获得至少一个分词。最后,判断所述分词是否为人名。具体地,判断所述分词是否为人名,通过计算所述分词的可能性得分,由于该可能性得分可以标识所述分词是人名的可能性,从而根据所述可能性得分判断所述分词是否为人名。由此可见,本发明实施例提供的识别人名的装置,通过对与对话文本相邻的旁白文本进行识别并分词,计算出各个分词是人名的可能性,从而准确有效的识别出待识别文本中的人名。
基于以上第一实施例至第四实施例提供的识别人名的方法,本发明还提供一种识别人名的设备。该设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从待识别文本中提取与对话文本相邻的旁白文本;
对所述旁白文本进行分词,获得至少一个分词;
计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
根据所述可能性得分确定所述分词是否为人名。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述处理器能够执行如第一实施例至第四实施例所述的识别人名的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种识别人名的方法,其特征在于,包括:
从待识别文本中提取与对话文本相邻的旁白文本;
对所述旁白文本进行分词,获得至少一个分词;
计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
根据所述可能性得分确定所述分词是否为人名。
2.根据权利要求1所述的方法,其特征在于,所述从待识别文本中提取与对话内容相邻的旁白文本,包括:
将待识别文本进行分割,获得多个句子;所述获得的多个句子包括对话句子和非对话句子;
从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,作为与对话内容相邻的旁白文本。
3.根据权利要求2所述的方法,其特征在于,所述从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,包括:
从所述获得的多个句子中提取出对话句子;
判断所述对话句子的前一个句子是否是以冒号或者逗号结尾,若是,则提取所述对话句子的前一个句子;
以及,
判断所述对话句子的后一个句子是否为非对话句子,如果是,则提取所述对话句子的后一个句子。
4.根据权利要求2所述的方法,其特征在于,所述从所述获得的多个句子中提取与所述对话句子相邻的旁白句子,包括:
从所述获得的多个句子中提取出非对话句子;
判断所述非对话句子是否是以冒号或者逗号结尾,若是,则提取所述非对话句子。
5.根据权利要求1所述的方法,其特征在于,所述计算所述分词的可能性得分,包括:
计算所述分词在所述待识别文本中出现的次数;
提取所述分词在其它文本中出现的次数;
根据所述分词在所述待识别文本中出现的次数和所述分词在所述其它文本中出现的次数计算所述分词的可能性得分。
6.根据权利要求1所述的方法,其特征在于,所述根据所述可能性得分确定所述分词是否为人名,包括:
判断所述可能性得分是否大于第一预设阈值;
如果是,确定所述分词为人名。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
预先获得所述第一预设阈值。
8.根据权利要求7所述的方法,其特征在于,所述预先获得所述第一预设阈值,包括:
人工标注所述待识别文本中的人名;
预先设置第一预设数目个参考阈值,分别统计各个参考阈值对应的识别的人名;根据所述识别的人名和所述人工标注的待识别文本中的人名,确定各个参考阈值对应的人名识别的正确率和人名识别的召回率;
根据所述参考阈值对应的所述人名识别的正确率和人名识别的召回率,计算所述参考阈值对应的人名识别得分;
将所述人名识别得分最高对应的参考阈值作为所述第一预设阈值。
9.根据权利要求7所述的方法,其特征在于,所述预先获得所述第一预设阈值,包括:
人工标注所述待识别文本中的人名;
计算所述待识别文本中的人名的可能性得分,获得所述待识别文本中的人名的可能性得分的范围;
根据所述可能性得分的范围确定所述第一预设阈值。
10.一种识别人名的装置,其特征在于,包括:
旁白文本提取单元,用于从待识别文本中提取与对话文本相邻的旁白文本;
分词单元,用于对所述旁白文本进行分词,获得至少一个分词;
可能性得分计算单元,用于计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
人名确定单元,用于根据所述可能性得分确定所述分词是否为人名。
11.一种识别人名的设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从待识别文本中提取与对话文本相邻的旁白文本;
对所述旁白文本进行分词,获得至少一个分词;
计算所述分词的可能性得分,所述可能性得分用于表征所述分词是人名的可能性;
根据所述可能性得分确定所述分词是否为人名。
12.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述处理器能够执行如权利要求1-9中任意一项所述的识别人名的方法。
CN201810392724.3A 2018-04-27 2018-04-27 一种识别人名的方法及装置 Active CN110413983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810392724.3A CN110413983B (zh) 2018-04-27 2018-04-27 一种识别人名的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810392724.3A CN110413983B (zh) 2018-04-27 2018-04-27 一种识别人名的方法及装置

Publications (2)

Publication Number Publication Date
CN110413983A true CN110413983A (zh) 2019-11-05
CN110413983B CN110413983B (zh) 2022-09-27

Family

ID=68346651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810392724.3A Active CN110413983B (zh) 2018-04-27 2018-04-27 一种识别人名的方法及装置

Country Status (1)

Country Link
CN (1) CN110413983B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131871A (zh) * 2020-09-22 2020-12-25 平安国际智慧城市科技股份有限公司 识别中文人名的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104023124A (zh) * 2014-05-14 2014-09-03 上海卓悠网络科技有限公司 自动识别和提取短信中姓名的方法及装置
CN106294321A (zh) * 2016-08-04 2017-01-04 北京智能管家科技有限公司 一种特定领域的对话挖掘方法及装置
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104023124A (zh) * 2014-05-14 2014-09-03 上海卓悠网络科技有限公司 自动识别和提取短信中姓名的方法及装置
CN106294321A (zh) * 2016-08-04 2017-01-04 北京智能管家科技有限公司 一种特定领域的对话挖掘方法及装置
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131871A (zh) * 2020-09-22 2020-12-25 平安国际智慧城市科技股份有限公司 识别中文人名的方法、装置、设备及存储介质
CN112131871B (zh) * 2020-09-22 2023-06-30 平安国际智慧城市科技股份有限公司 识别中文人名的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110413983B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
JP6484333B2 (ja) 記述式問題のための知的採点方法およびシステム
CN107305541B (zh) 语音识别文本分段方法及装置
WO2019214145A1 (zh) 文本情绪分析方法、装置及存储介质
CN107039034B (zh) 一种韵律预测方法及***
CN110377724A (zh) 一种基于数据挖掘的语料库关键词自动抽取算法
WO2017177809A1 (zh) 语言文本的分词方法和***
CN105741831A (zh) 一种基于语法分析的口语评测方法和***
CN105512110B (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN109801628A (zh) 一种语料收集方法、装置及***
CN108090099B (zh) 一种文本处理方法及装置
CN106528538A (zh) 智能识别情绪的方法及装置
CN103559181A (zh) 一种双语语义关系分类模型的建立方法和***
CN108280065B (zh) 一种外文文本评价方法及装置
CN106528694A (zh) 基于人工智能的语义判定处理方法和装置
Sarma et al. Detection of mizo tones
CN105389303B (zh) 一种异源语料自动融合方法
CN105988978B (zh) 确定文本焦点的方法及***
CN104347071A (zh) 生成口语考试参***的方法及***
CN110674722A (zh) 一种试卷拆分方法及其***
CN112989816B (zh) 文本内容质量评估方法及***
CN106126497A (zh) 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN110413983A (zh) 一种识别人名的方法及装置
CN115983251B (zh) 一种基于句用分析的文本主题提取***及方法
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN109460730B (zh) 一种表格换行换页的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant