CN109726400B - 实体词识别结果评价方法、装置、设备及实体词提取*** - Google Patents
实体词识别结果评价方法、装置、设备及实体词提取*** Download PDFInfo
- Publication number
- CN109726400B CN109726400B CN201811644155.3A CN201811644155A CN109726400B CN 109726400 B CN109726400 B CN 109726400B CN 201811644155 A CN201811644155 A CN 201811644155A CN 109726400 B CN109726400 B CN 109726400B
- Authority
- CN
- China
- Prior art keywords
- entity word
- evaluated
- weight
- entity
- word recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 27
- 238000000605 extraction Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 10
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例提供了一种实体词识别结果评价方法、装置、设备及实体词提取***。该方法包括:获取待识别文档集的实体词识别结果,其中,实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果;确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值;基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,第二权值用于评价任一待评价实体词。本实施例的方案,通过第二权值判断实体词识别结果的正确性,有效提升实体词的识别效果。
Description
技术领域
本申请涉及语言处理技术领域,具体而言,本申请涉及一种实体词识别结果评价方法、装置、设备及实体词提取***。
背景技术
随着互联网的普及和移动互联网的崛起,媒体以及自媒体时代的到来,网络内容巨增。在大量的事件报导中,我们无法一次阅读全部的新闻报导内容,也就无法知道事件主要报导的相关人、地点和相关机构,这就需要一个***实时的提取事件的实体词信息以及实体词的评价权值,以辅助阅读者提前预知事件的发展和变化。
实体识别作为自然语言处理的一种重要研究方向,其目的是从文本或文本集中识别表示人名、地名、机构名等词语,可以用于信息提取、信息检索、机器翻译等自然语言处理技术。实体识别主要方法包括基于规则和词典的方法、基于统计的方法及融合方法。基于规则和词典的方法依赖于人工建立的规则和词典,存在代价大、周期长、可移植性差等缺点;基于统计的方法采用机器学习或深度学习的方法,从大规模的语料中学习特征,对语料库依赖较大,而大规模训练和验证语料库比较稀缺。融合方法是指融合规则、词典、机器学习等多种识别方法,充分利用人工经验知识和机器学习的优势,来提高实体识别的效果。
但是,通过现有的实体识别方法所识别出的实体词识别结果中仍可能会存在识别错误,现有技术中无法对实体词识别结果的正确与错误进行判断,导致实体词的识别效果不佳。
发明内容
本申请提供了一种实体词识别结果评价方法、装置、设备及实体词提取***,能够对实体词识别结果的正确与错误进行判断,有利于提高实体词的识别效果,本申请采用的技术方案如下:
第一方面,本申请提供了一种实体词识别结果评价方法,该方法包括:
获取待识别文档集的实体词识别结果,其中,实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果;
确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值;
基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,第二权值用于评价任一待评价实体词。
第二方面,本申请提供了一种实体词提取***,该***包括:
输入模块,用于将待识别文档集存储至Hadoop分布式文件***HDFS中;
提取模块,用于通过Spark Streaming,从HDFS中以离散数据流的形式读取待提取的文本集数据,并执行上述的实体词提取方法,提取得到实体词;
输出模块,用于以离散数据流的形式将提取得到的实体词反馈至对应的话题中,以用于网络发布。
第三方面,本申请提供了一种实体词识别结果评价装置,该装置包括:
实体词识别结果获取模块,用于获取待识别文档集的实体词识别结果,其中,实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果;
第一权值确定模块,用于确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值;
第二权值确定模块,用于基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,第二权值用于评价任一待评价实体词。
第四方面,本申请提供了一种电子设备,该电子设备包括:处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行如本申请的第一方面所示的实体词识别结果评价方法。
第五方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面所示的实体词识别结果评价方法。
本申请实施例提供的技术方案带来的有益效果是:
本实施例提供的方案,通过获取多种实体词识别方法得到的实体词识别结果,确定实体词识别结果中待评价实体词在待识别文档集的第一权值,基于待评价实体词的第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数,确定待评价实体词的第二权值,能够实现通过第二权值判断实体词识别结果的正确性,为确定正确的实体词识别结果,提升实体词识别的准确率提供基础,有效提升实体词的识别效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种实体词识别结果评价方法的流程示意图;
图2为本申请实施例提供的一种对待识别文档集进行处理的设计流程示意图;
图3为本申请实施例提供的一种实体词提取***的结构示意图;
图4为本申请实施例提供的一种基于Hanlp的识别方法进行实体词识别的流程示意图;
图5为本申请实施例提供的一种基于Stanfordcorenlp的识别方法进行实体词识别的流程示意图;
图6为本申请实施例提供的一种基于Ltp的识别方法进行实体词识别的流程示意图;
图7示出了样本数据处理的流程示意图;
图8示出了超参数调试整体流程示意图;
图9为本申请实施例提供的一种实体词识别结果评价装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种实体词识别结果评价方法,如图1所示,该方法主要可以包括:
步骤S110:获取待识别文档集的实体词识别结果,其中,实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果。
本实施例中,可以对待识别文档集通过至少一种实体词识别方法进行识别,并分别获取各实体词识别方法对应的实体词识别结果。
本实施例中的实体词识别方法可以根据需要,在已知的实体词识别方法中进行选取。融合多种实体词识别方法有利于提高实体词识别结果的覆盖率。
步骤S120:确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值;
步骤S130:基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,第二权值用于评价任一待评价实体词。
本申请实施例中,由于各种实体词识别方法的准确率不同,可以将准确率作为确定第二权值的一项参数;由于各种实体词识别方法优缺点不同,可以基于各种实体词识别方法的特点,设定惩罚项系数,并将惩罚项系数作为确定第二权值的一项参数。
本实施例中,通过第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数进行加权计算,确定出的第二权值,可以用于表征待评价实体词的准确性,实现对待评价实体词的评价。
本实施例提供的实体词识别结果评价方法,通过获取多种实体词识别方法得到的实体词识别结果,确定实体词识别结果中待评价实体词在待识别文档集的第一权值,基于待评价实体词的第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数,确定待评价实体词的第二权值,能够实现通过第二权值判断实体词识别结果的正确性,为确定正确的实体词识别结果,提升实体词识别的准确率提供基础,有效提升实体词的识别效果。
本申请实施例的一种可能实现方式中,上述的确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值,可以包括:
基于任一待评价实体词所在的、待识别文档集中各个文章的各个段落的权值系数,以及任一待评价实体词在各个段落中的出现次数,确定任一待评价实体词在待识别文档集的第一权值。
本实施例中,待识别文档集中可以包括多个文章,各文章中可以包括多个段落。
由于待评价实体词所在的段落在整个文章中的重要程度可能不同,可以对不同的段落设置不同的权值系数;基于待评价实体词所在的段落的权值系数以及待评价实体词在各段落中的出现次数来确定待评价实体词在待识别文档集的第一权值。
本申请实施例的一种可能实现方式中,上述的基于任一待评价实体词所在的、待识别文档集中各个文章的各个段落的权值系数,以及任一待评价实体词在各个段落中的出现次数,确定任一待评价实体词在待识别文档集的第一权值,可以包括:
通过以下公式1),确定任一待评价实体词在待识别文档集的第一权值:
其中,s(w)表示任一待评价实体词w在待识别文档集的第一权值;pi表示任一待评价实体词w所在的待识别文档集中任一文章中的第i段落;表示任一待评价实体词w在其所在的任一文章的pi段落中的出现次数;ηi为pi段落的权重系数;m为待识别文档集中任一篇文章中的段落总数;n为待识别文档集中的文章总数。
本实施例中,段落可以为文章中的自然段,一篇文章中的段落可以包括:p1...pi...pm。
相应的,各段落的权值系数为:η1...ηi...ηm;各段落的权值系数可以根据段落的重要程度进行设定,重要程度越高,设置的权值系数越大。
相应的,待评价实体词w在各段落的出现次数为:
通过待评价实体词在各文章的各段落的权值系数以及待评价实体词在各段落的出现次数确定待评价实体词在待识别文档集的第一权值,为确定待评价实体词的第二权值提供基础。
本申请实施例的一种可能实现方式中,上述的基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,可以包括:
通过以下公式2),确定任一待评价实体词的第二权值:
其中,F(w)为任一待评价实体词w的第二权值;l为至少一个实体词识别方法的方法数量;fl为第l个实体词识别方法的准确率;λl为第l个实体词识别方法的惩罚项系数。
本实施例中,实体词识别方法可以根据实际需要进行设置,实体词识别方法的数量可以为通过l表示,各实体词识别方法的准确率为:f1…fl。
由于基于统计的实体词识别方法,统计方法中机器学习方法与深度学习方法对上下文的长短记忆不一样,可以分别设置不同的惩罚项系数。
各实体词识别方法的惩罚项系数为:λ1…λl。
本申请实施例的一种可能实现方式中,上述实体词识别结果评价方法还可以包括:
当归一化处理后的第二权值大于预设阈值时,确定对应的待评价实体词为实体词。
本实施例中,为便于后续处理,可以对第二权值进行归一化得到第三权值。具体而言,可以采用以下公式3),确定任一待评价实体词的第三权值:
其中,Score(w)表示任一待评价实体词w的第三权值,F(w)max表示待评价实体词的第二权值中数值最大的一项。
本实施例中,可以通过设置预设阈值,将归一化处理后的第二权值(即第三权值)大于预设阈值的待评价实体词,确定为正确的识别结果,即直接确定为实体词。
本申请实施例的一种可能实现方式中,上述的实体词识别方法包括以下至少一种:
基于汉语言处理包(Han Language Processing,Hanlp)的识别方法;
基于斯坦福大学核心自然语言处理包(Stanford core Natural LanguageProcessing,Stanfordcorenlp)的识别方法;
基于语言技术平台(Language Technology Platform,Ltp)的识别方法;
基于双向的_长短期记忆_循环神经网络_条件随机场(Bidirectional_LongShort-Term Memory_Recurrent Neural Network_Conditional Random Fields,BI_LSTM_RNN_CRF)的识别方法。BI_LSTM_CR为BI_LSTM_RNN_CRF的简写。
本实施例中,选取的实体词识别方法包可以包括上述的至少一种。图2示出了对待识别文档集进行处理的一个设计流程,其中,文本集即待识别文档集,文本集进入实体识别模块进行实体词识别,并输出实体词识别结果,实体识别模块内包括Hanlp的识别方法、Stanfordcorenlp的识别方法、Ltp的识别方法以及BI_LSTM_CRF的识别方法;融合即将各实体词识别方法对应的实体词识别结果通过上述的评价方法进行评价,实体识别服务是提供的一种实体词提取***,基于对实体词识别结果的评价结果,将实体词进行提取并输出。
本申请实施例还提供了一种实体词提取***,该***包括:
输入模块,用于将待识别文档集存储至Hadoop分布式文件***HDFS中;
提取模块,用于通过Spark Streaming,从HDFS中以离散数据流的形式读取待提取的文本集数据,执行上述的实体词识别结果评价方法,并提取得到实体词;
输出模块,用于以离散数据流的形式将提取得到的实体词反馈至对应的话题中,以用于网络发布。
图3示出了一种实体词提取***的结构示意图,其中,实体词提取***通过zookeeper服务进行管理,输入模块将待识别文档集被实时写入Hadoop分布式文件***(Hadoop Distributed File System,HDFS),提取模块通过Spark Streaming从HDFS中读取离散数据流,执行上述的实体评价方法,对待评价实体词进行实体词权值评价处理,并通过预设阈值,将归一化处理后的第二权值大于预设阈值的待评价实体词,确定为正确的识别结果,即直接确定为实体词。通过输出模块将实体词提取,写入消息队列,具体而言,可以以离散数据流的形式返回到一个kafka话题中,经由网络(web)进行发布。
图4示出了基于Hanlp的识别方法进行实体词识别的流程示意图。
首先,对输入的文本集(即待识别文档集)做全角转半角处理。其次,预加载自定义词典,本实施例中在此处加入分类别的自定义词,主要分为简略词、包含词、新词、部分实体词。其中简略词例如“A股份有限公司”简称“A”、“A公司”;包含词例如“B机械”,如果不定义提取顺序就会只提取“B”,在此我们定义其提取权值例如“B 100”,“B机械1000”,其中100和1000为权值,权值越大越优先提取;新词例为新出现的词语组合。最后,对实体词提取的结果按段落按人名、地名、机构名分别存储在不同的序列中。
图5示出了基于Stanfordcorenlp的识别方法进行实体词识别的流程示意图。
首先,对输入文本数据(即待识别文档集)做全角转半角处理。其次,利用jieba分词器对输入文本数据做精确分词,输入自然语言处理工具包(Natural Language Toolkit,NLTK)加载模型。最后,对实体词提取的结果按段落按人名、地名、机构名分别存储在不同的序列中。
图6示出了基于Ltp的识别方法进行实体词识别的流程示意图。
首先,对输入文本数据(即待识别文档集)做全角转半角处理。其次,预加载自定义词典,此处自定义词典和图4中自定义词典可以为同一个词典,利用中文分词器Ltp的分词接口和词性标注接口,对清洗过的文本数据做分词和词性标注,然后把分词结果和词性标注结果作为实体识别接口的输入。最后,对实体词提取的结果按段落按人名、地名、机构名分别存储在不同的序列中。
在基于BI_LSTM_CRF的识别方法进行实体词识别时,利用双向循环神经网络结构来训练文本数据得到最优模型,通过加载模型获取状态转移概率矩阵,把状态转移概率矩阵当做维特比(viterbi)算法的参数输入,通过动态规划原理,预测未知文本数据的实体词状态。其中神经元结构用长短期记忆网络(Long Short-Term Memory,LSTM),在训练时候使用条件随机场算法(conditional random field algorithm,CRF)来计算损失,里面用到最大似然估计的优化方法,通过不断地训练数据最终输出序列的状态转移矩阵。具体而言,基于BI_LSTM_CRF的识别方法进行实体词识别流程包括如下步骤:
1、样本数据处理
图7示出了样本数据处理这一步骤的流程图。
将样本数据(即待识别文档集)通过全角转半角处理,使得其中的一些数值型数据转成通用的***数字。利用jieba分词器对样本数据精确分词,然后通过人工标注出实体词,其中nr人名,ns地名,nt机构名。把标注完实体词的数据,在进行状态标注,形成状态序列,最终作为rnn训练时的输入数据。在此状态标注策略,是利用BIO的方法标注的,B是begin,I是inside,O是outside,人名实体词加PER后缀,地名实体词加LOC后缀,机构实体词加ORG后缀,其他词全部用O表示。
例如,下面一句话,标注如下:
“马某出生于浙江省杭州市,xxxx集团主要创始人。”
“马/B-PER某/I-PER出/O生/O于/O浙/B-LOC江/I-LOC省/I-LOC杭/B-LOC州/I-LOC市/I-LOC,/Ox/B-ORGx/I-ORGx/I-ORGx/I-ORG集/I-ORG团/I-ORG主/O要/O创/O始/O人/O/O”。
2、模型训练
文本的实体词信息不仅取决于单个词,也和词汇的上下文和词之间的语法关系相关。因此在本模型方案中,设计了包含词向量、长短神经网络等深度学习网络结构。模型的输入为经过预处理和独热编码的大量样本数据,其中用CRF(conditional random fieldalgorithm)来计算损失,输出为样本数据BIO标注的状态转移矩阵。经初始化参数后,通过循环进行预测、计算误差、反向传递误差、修正参数等环节,直至误差符合期望。为提高模型拟合能力,对模型复杂度、参数初始化、训练步长、训练迭代次数等进行了一定的实验比较,为提高模型泛化能力,对模型的正规化参数、随机丢弃(dropout)、提前中止训练进行了一定的设置。模型在图像处理单元(GPU)上进行训练,从而提高训练效率。经过大量超参数选择调试、测验,最终训练得到误差和准确率满足需求的模型。
3、模型性能测试
模型测试需在全新的数据集上进行,以确保测试的是模型的泛化能力。在步骤1中分划出的测试集并未用于训练模型,因此满足以上要求。此方案中选择的性能参数包括:准确率(accuracy)。准确率表示预测实体词状态与样本实际实体词状态一致的情况占所有样本数的比例。测试结果显示模型性能显著优于随机预测模型。
在模型训练和模型性能测试中,超参数调试整体流程如图8所示,初始化后进行模型训练,直至满足训练停止条件时,依次进行超参数选择、模型训练以及模型测试。
4、模型预测
通过加载训练模型,对经过处理的未知数据进行预测,预测的结果按段落按人名、地名、机构名分别存储在不同的序列中。
基于与图1中所示的方法相同的原理,本申请实施例还提供了一种实体词识别结果评价装置,如图9所示,该实体词识别结果评价装置20可以包括:
实体词识别结果获取模块210,用于获取待识别文档集的实体词识别结果,其中,实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果;
第一权值确定模块220,用于确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在待识别文档集的第一权值;
第二权值确定模块230,用于基于任一待评价实体词的第一权值、至少一个实体词识别方法的准确率以及至少一个实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,第二权值用于评价任一待评价实体词。
本实施例提供的实体词识别结果评价装置,通过获取多种实体词识别方法得到的实体词识别结果,确定实体词识别结果中待评价实体词在待识别文档集的第一权值,基于待评价实体词的第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,能够实现通过第二权值判断实体词识别结果的正确性,为确定正确的实体词识别结果,提升实体词识别的准确率提供基础,有效提升实体词的识别效果。
可选地,第一权值确定模块,具体用于:
基于任一待评价实体词所在的、待识别文档集中各个文章的各个段落的权值系数,以及任一待评价实体词在各个段落中的出现次数,确定任一待评价实体词在待识别文档集的第一权值。
可选地,第一权值确定模块在基于任一待评价实体词所在的、待识别文档集中各个文章的各个段落的权值系数,以及任一待评价实体词在各个段落中的出现次数,确定任一待评价实体词在待识别文档集的第一权值时,具体用于:
通过以下公式,确定任一待评价实体词在待识别文档集的第一权值:
其中,s(w)表示任一待评价实体词w在待识别文档集的第一权值;pi表示任一待评价实体词w所在的待识别文档集中任一文章中的第i段落;表示任一待评价实体词w在其所在的任一文章的pi段落中的出现次数;ηi为pi段落的权重系数;m为待识别文档集中任一篇文章中的段落总数;n为待识别文档集中的文章总数。
可选地,第二权值确定模块具体用于:
通过以下公式,确定任一待评价实体词的第二权值:
其中,F(w)为任一待评价实体词w的第二权值;l为至少一个实体词识别方法的方法数量;fl为第l个实体词识别方法的准确率;λl为第l个实体词识别方法的惩罚项系数。
可选地,实体词识别方法包括以下至少一种:
基于Hanlp的识别方法;
基于Stanfordcorenlp的识别方法;
基于Ltp的识别方法;
基于BI_LSTM_CRF的识别方法。
可选地,上述装置还包括:
实体词确定模块,用于当归一化处理后的第二权值大于预设阈值时,确定对应的待评价实体词为实体词。
可以理解的是,本实施例中的实体词识别结果评价装置的上述各模块具有实现图1中所示的实施例中的实体词识别结果评价方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述实体词识别结果评价装置的各模块的功能描述具体可以参见图1中所示实施例中的实体词识别结果评价方法的对应描述,在此不再赘述。
本申请实施例提供了一种电子设备,如图10所示,图10所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选地,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现上述方法实施例所示的实体词识别结果评价方法。
本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种电子设备,与现有技术相比,通过获取多种实体词识别方法得到的实体词识别结果,确定实体词识别结果中待评价实体词在待识别文档集的第一权值,基于待评价实体词的第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,能够实现通过第二权值判断实体词识别结果的正确性,为确定正确的实体词识别结果,提升实体词识别的准确率提供基础,有效提升实体词的识别效果。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的实体词识别结果评价方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过获取多种实体词识别方法得到的实体词识别结果,确定实体词识别结果中待评价实体词在待识别文档集的第一权值,基于待评价实体词的第一权值、实体词识别方法的准确率以及实体词识别方法的惩罚项系数,确定任一待评价实体词的第二权值,能够实现通过第二权值判断实体词识别结果的正确性,为确定正确的实体词识别结果,提升实体词识别的准确率提供基础,有效提升实体词的识别效果。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种实体词识别结果评价方法,其特征在于,包括:
获取待识别文档集的实体词识别结果,其中,所述实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果,各实体词识别方法中对应的实体词识别结果按段落、人名、地名、机构分别存储在不同的序列中;
确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值;
基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数,确定所述任一待评价实体词的第二权值,所述第二权值用于评价所述任一待评价实体词。
2.根据权利要求1所述的实体词识别结果评价方法,其特征在于,所述确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值,包括:
基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数,以及所述任一待评价实体词在所述各个段落中的出现次数,确定所述任一待评价实体词在所述待识别文档集的第一权值。
3.根据权利要求2所述的实体词识别结果评价方法,其特征在于,所述基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数,以及所述任一待评价实体词在所述各个段落中的出现次数,确定所述任一待评价实体词在所述待识别文档集的第一权值,包括:
通过以下公式,确定所述任一待评价实体词在所述待识别文档集的第一权值:
其中,s(w)表示任一待评价实体词w在所述待识别文档集的第一权值;pi表示任一待评价实体词w所在的所述待识别文档集中任一文章中的第i段落;N(w)pi表示任一待评价实体词w在其所在的任一文章的pi段落中的出现次数;ηi为pi段落的权重系数;m为所述待识别文档集中任一篇文章中的段落总数;n为所述待识别文档集中的文章总数。
4.根据权利要求3所述的实体词识别结果评价方法,其特征在于,所述基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数,确定所述任一待评价实体词的第二权值,包括:
通过以下公式,确定所述任一待评价实体词的第二权值:
其中,F(w)为任一待评价实体词w的第二权值;l为至少一个实体词识别方法的方法数量;fl为第l个实体词识别方法的准确率;λl为第l个实体词识别方法的惩罚项系数。
5.根据权利要求1-4中任一项所述的实体词识别结果评价方法,其特征在于,所述实体词识别方法包括以下至少一种:
基于汉语言处理包Hanlp的识别方法;
基于斯坦福大学核心自然语言处理包Stanfordcorenlp的识别方法;
基于语言技术平台Ltp的识别方法;
基于双向的_长短期记忆_循环神经网络_条件随机场BI_LSTM_RNN_CRF的识别方法。
6.根据权利要求1所述的实体词识别结果评价方法,其特征在于,该方法还包括:
当归一化处理后的所述第二权值大于预设阈值时,确定对应的待评价实体词为实体词。
7.一种实体词提取***,其特征在于,包括:
输入模块,用于将待识别文档集存储至Hadoop分布式文件***HDFS中;
提取模块,用于通过Spark Streaming,从所述HDFS中以离散数据流的形式读取待提取的文本集数据,并执行权利要求1-6中任一项所述的方法,提取得到实体词;
输出模块,用于以离散数据流的形式将提取得到的实体词反馈至对应的话题中,以用于网络发布。
8.一种实体词识别结果评价装置,其特征在于,包括:
实体词识别结果获取模块,用于获取待识别文档集的实体词识别结果,其中,所述实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果,各实体词识别方法中对应的实体词识别结果按段落、人名、地名、机构分别存储在不同的序列中;
第一权值确定模块,用于确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值;
第二权值确定模块,用于基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数,确定所述任一待评价实体词的第二权值,所述第二权值用于评价所述任一待评价实体词。
9.一种电子设备,其特征在于,其包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1-6中任一项所述的实体词识别结果评价方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述权利要求1-6中任一项所述的实体词识别结果评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644155.3A CN109726400B (zh) | 2018-12-29 | 2018-12-29 | 实体词识别结果评价方法、装置、设备及实体词提取*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644155.3A CN109726400B (zh) | 2018-12-29 | 2018-12-29 | 实体词识别结果评价方法、装置、设备及实体词提取*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726400A CN109726400A (zh) | 2019-05-07 |
CN109726400B true CN109726400B (zh) | 2023-10-20 |
Family
ID=66299454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811644155.3A Active CN109726400B (zh) | 2018-12-29 | 2018-12-29 | 实体词识别结果评价方法、装置、设备及实体词提取*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726400B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
WO2021000244A1 (en) * | 2019-07-02 | 2021-01-07 | Alibaba Group Holding Limited | Hyperparameter recommendation for machine learning method |
CN113051918B (zh) * | 2019-12-26 | 2024-05-14 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
CN111339268B (zh) * | 2020-02-19 | 2023-08-15 | 北京百度网讯科技有限公司 | 实体词识别方法和装置 |
US11977841B2 (en) * | 2021-12-22 | 2024-05-07 | Bank Of America Corporation | Classification of documents |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426379A (zh) * | 2014-10-22 | 2016-03-23 | 武汉理工大学 | 基于词语位置的关键字权值计算方法 |
CN106708861A (zh) * | 2015-11-13 | 2017-05-24 | 北京国双科技有限公司 | 一种文章关键实体获取方法及装置 |
US10157177B2 (en) * | 2016-10-28 | 2018-12-18 | Kira Inc. | System and method for extracting entities in electronic documents |
CN108717407B (zh) * | 2018-05-11 | 2022-08-09 | 北京三快在线科技有限公司 | 实体向量确定方法及装置,信息检索方法及装置 |
CN108846050B (zh) * | 2018-05-30 | 2022-01-21 | 重庆望江工业有限公司 | 基于多模型融合的核心工艺知识智能推送方法及*** |
-
2018
- 2018-12-29 CN CN201811644155.3A patent/CN109726400B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109726400A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN109726400B (zh) | 实体词识别结果评价方法、装置、设备及实体词提取*** | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN109992782A (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN112115721B (zh) | 一种命名实体识别方法及装置 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN108256066B (zh) | 端到端层次解码任务型对话*** | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN112699686B (zh) | 基于任务型对话***的语义理解方法、装置、设备及介质 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |