CN109299458B - 实体识别方法、装置、设备及存储介质 - Google Patents

实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109299458B
CN109299458B CN201811061626.8A CN201811061626A CN109299458B CN 109299458 B CN109299458 B CN 109299458B CN 201811061626 A CN201811061626 A CN 201811061626A CN 109299458 B CN109299458 B CN 109299458B
Authority
CN
China
Prior art keywords
lstm
entity recognition
entity
probability
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811061626.8A
Other languages
English (en)
Other versions
CN109299458A (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN201811061626.8A priority Critical patent/CN109299458B/zh
Publication of CN109299458A publication Critical patent/CN109299458A/zh
Application granted granted Critical
Publication of CN109299458B publication Critical patent/CN109299458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种实体识别方法,包括获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;LSTM网络对数据的依赖很大,数据量的大小和质量也会影响模型训练结果,结合了LSTM模型和CRF模型,使用LSTM模型解决提取序列特征的问题,使用CRF模型可以有效利用句子级别的标记信息,通过LSTM+CRF模型提高了对话***的执行效率,同时实现了实体识别与分词,提高了实体识别准确率和效率。

Description

实体识别方法、装置、设备及存储介质
技术领域
本发明涉及信息术领域,尤其涉及一种实体识别方法、装置、设备及存储介质。
背景技术
在人工智能领域,模仿人类交谈能力的尝试可以追溯到人工智能的早期阶段。在过去的几年中,消息服务类应用迅速壮大,国内的微信、国外的WhatsApp、FacebookMessenger等,几乎占领了用户的所有碎片时间,活跃用户数以亿计,在事实上成为了移动互联网时代的“浏览器”入口,用户只需要使用一个应用就能够获取大部分的信息,下载移动移动应用所带来的流量红利正慢慢消失,这是对话***的优势体现出来,开发成本低,又可以依附在软件平台上。
对话***中,往往需要识别出用户输入句子中的实体词,即实体识别,同时需要进行分词,以便后续分析。但是现有对话***中实体识别与分词这两个任务是分开进行处理的。
发明人实施本发明时,发现现有技术的实体识别应用存在不足:实体识别是为了从句子层面识别出其中的实体词,如:人名,地名,组织名。其类似于分词,如果将这两个任务孤立地进行,将导致实体词识别和分词的准确率下降,如句子:南京市长江大桥。如果没有识别出“长江大桥”这个实体词,在分词的时候将很可能切分为:南京/市长/江大桥。相反,如果考虑了“长江大桥”这个实体词,将切分为:南京市/长江大桥。
发明内容
有鉴于此,本发明实施例提供一种实体识别方法、装置、设备及存储介质,通过将实体识别与分词任务结合,能提高对话***的执行效率,同时提高了实体识别与分词的准确率。
第一方面,本发明实施例提供了一种实体识别方法,包括如下步骤:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记。
在第一方面的第一种可能实现方式中,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
结合第一方面以及第一方面的第一种可能方式,在第一方面的第二种可能实现方式中,所述获取标注后的训练语料包括:
使用IB方式对所述训练语料进行训练,得到标注后的训练语料。
在第一方面的第三种可能实现方式中,所述将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率包括:
将所述待实体识别文本的字符依次输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率。
在第一方面的第四种可能实现方式中,所述将所述概率输入CRF模型,得到各个字符的标记包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure BDA0001796971770000031
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,pi,yi指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
第二方面,本发明实施例还提供了一种实体识别装置,包括:
实体识别模型获取模块,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块,用于将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
标记获取模块,用于将所述概率输入CRF模型,得到各个字符的标记。
在第二方面的第一种可能实现方式中,所述实体识别模型获取模块包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
在第二方面的第二种可能实现方式中,所述标记获取模块包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure BDA0001796971770000041
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,pi,yi指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
第三方面,本发明实施例还提供了一种实体识别设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的实体识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的实体识别方法。
实施本发明实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;通过将所述基于LSTM的实体识别模型与所述CRF模型结合,进而能将实体识别与分词同时进行,降低了模型的预测耗时,且利用实体识别得到的实体词的信息进行分词,能提高分词的准确率和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的实体识别设备的示意图;
图2是本发明实施例二提供的一种实体识别方法的流程示意图;
图3是本发明实施例二提供的LSTM实体识别的结果示意图;
图4是本发明实施例二提供的LSTM+CRF实体识别的结果示意图;
图5是本发明实施例二提供的实体识别显示结果示意图;
图6是本发明第三实施例提供的实体识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所属技术领域的技术人员知道,本发明可以实现为设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种虚拟机,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
实施例一
请参见图1,图1是本发明实施例一提供的实体识别设备的示意图,用于执行本发明实施例提供的实体识别方法,如图1所示,该实体识别设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作***151,包含各种***程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行下述实施例所述的实体识别方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述实体识别方法的控制中心,利用各种接口和线路连接整个所述实体识别方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现实体识别的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实体识别集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
下面将参照附图来描述本发明实施例的实体识别的方法。
实施例二
图2是本发明实施例二提供的一种实体识别方法的流程示意图。
一种实体识别方法,包括以下步骤:
S11、获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
S12、将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
S13、将所述概率输入CRF模型,得到各个字符的标记。
在本发明实施例中,为了提高实体识别的精度和效率,将LSTM模型和CRF模型进行结合,可以同时实现实体识别和句子实体识别。
优选地,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
进一步地,所述获取标注后的训练语料包括:
使用IB方式对所述训练语料进行训练,得到标注后的训练语料。
在本发明实施例中,首先,获取标注后的训练语料,标注语料是人工标注的过程,语料按照IB(Inside、Begin)的方式对训练语料进行标注(也可以采用其它方式进行标注,如用0,1,2代替),其中,Begin:属于实体词的第一个字符标记,如果对应的字符是实体词,则加上现应的后缀。Inside:不是第一个字符,如果是属于实体词部分,则加上现应的后缀。后缀有:人名的后缀为P,组织机构名后缀为C,地名后缀为L,如果一个实体识别单元是一个实体开始,则标记为(tagB-…);如果一个实体识别单元是一个实体中间词汇,则标记为(tag I-…)。以实体中最常见的人名(PER)、地名(LOC)和机构名(ORG)为例,针对所述训练语料中每个句子,对每一个字符进行标记,例如:马化腾是腾讯的CEO。可标注:马的标记为B-P;化的标记为I-P;腾的标记为I-P;是的标记为B;腾的标记为B-C;讯的标记为I-C;的的标记为B;C的标记为B;E的标记为I;O的标记为I。
在本发明实施例中,所述将所述标注后的训练语料中的词和字符转化为向量,因为计算机仅能对数值型的类型进行计算,而输入的词x是字符型,计算机不能直接计算,因此需要进行向量转化,转化的向量可以称为词向量,也叫词嵌入向量。先根据统计得到所有需要进行预测和训练的词的词表,假设词表大小为k,为词表中每个词赋予唯一的id,id的取值范围为0至k-1,随机初始化矩阵大小为【k,dim】,其中,dim为预设阈值,根据每个字符查找对应的id,进而得到相应的词向量。在构建词向量(WordEmbedding),使用数学模型处理文本语料的第一步就是把文本转换成数学表示,有两种方法,第一种方法可以通过one-hot矩阵表示一个单词,one-hot矩阵是指每一行有且只有一个元素为1,其他元素都是0的矩阵。针对字典中的每个单词,我们分配一个编号,对某句话进行编码时,将里面的每个单词转换成字典里面这个单词编号对应的位置为1的one-hot矩阵就可以了。比如我们要表达“I love china”,可以使用矩阵表示为
Figure BDA0001796971770000111
也可以使用WordEmbedding矩阵,WordEmbedding矩阵给每个单词分配一个固定长度的向量表示,这个长度可以自行设定,比如300,实际上会远远小于字典长度(比如10000)。而且两个单词向量之间的夹角值可以作为他们之间关系的一个衡量,可以使用矩阵表示为/>
Figure BDA0001796971770000112
在本发明实施例中,将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型计算公式如下:
Figure BDA0001796971770000113
其中,σ是对每个元素的取sigmoid操作,⊙代表点乘,xt为输入,ht为输出,对所述公式中所有的W、h、c和b都随机初始化,将对应的向量输入至所述公式就可以得到相应的概率,例如,将“I love china”输入到所述基于LSTM的实体识别模型的第一层LSTM神经元单元中,同时第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入,而后将LSTM每个神经单元输出的各个字符分属于各个标签的概率。
在本实施例中,在得到了各个字符分属于各个标签的概率后,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以获取训练好的基于LSTM的实体识别模型。所述反向传播即是在LSTM输出结果的基础上使用链式求导策略更新LSTM的参数,链式求导是由“由多个函数凑起来的复合函数,其导数等于里边函数代入外边函数的值之导数,乘以里边函数的导数”,示例性的,f(x)=x2,g(x)=2x+1,则{f[g(x)]}'=2[g(x)]×g'(x)=2[2x+1]×2=8x+4。以此对上述的基于LSTM的实体识别模型计算公式中的参数进行更新。
优选地,在获取训练好的基于LSTM的实体识别模型后,所述将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率包括:
将所述待实体识别文本的字符依次输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率。
在本实施例中,基于上述的基于LSTM的实体识别模型计算公式:
Figure BDA0001796971770000121
所述基于LSTM的实体识别模型在每一个步骤读入所述待实体识别文本的一个字符,经过所述基于LSTM的实体识别模型内部的计算,即可得到了该字符分属于IOB标记的概率。参见图3,句子“马化腾是腾讯的CEO”,在每一个步骤输入字符后都会得到该字符对应的分属各个标签的概率。例如,字符“马”,其属于标签B的概率为0.5,属于标签B-P的概率为0.9,属于标签B-L的概率为0.8,属于标签B-C的概率为0.2,属于标签I的概率为0.4,属于标签I-P的概率为0.5,属于标签I-L的概率为0.1,属于标签I-C的概率为0.5。
优选地,所述将所述概率输入CRF模型,得到各个字符的标记包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure BDA0001796971770000122
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
在本实施例中,参见图4,LSTM+CRF的结构示意图,对于每一个输入X=(x1,x2,…,xn),我们得到一个预测label序列y=(y1,y2,…,yn),定义这个预测的得分即为
Figure BDA0001796971770000131
其中pi,yi为第i个位置softmax输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率,当tag(B-person,B-location…)个数为n的时候,转移概率矩阵为(n+2)*(n+2),因为额外增加了一个开始位置和结束位置。这个得分函数S就很好地弥补了传统BiLSTM的不足,因为我们当一个预测序列得分很高时,并不是各个位置都是softmax输出最大概率值对应的label,还要考虑前面转移概率相加最大,即还要符合输出规则(B后面不能再跟B),比如假设BiLSTM输出的最有可能序列为BBIBIOOO,那么因为我们的转移概率矩阵中B->B的概率很小甚至为负,那么根据s得分,这种序列不会得到最高的分数,即就不是我们想要的序列。以“马化腾是腾讯的CEO”为例,通过CRF模型后,得到的最大得分序列为:
S(‘马化腾是腾讯的CEO’,(B-P,I-P,I-P,B,B-C,I-C,B,B,I,I))=A(B-P,I-P)+A(I-P,I-P)+A(I-P,B)+A(B,B-C)+A(B-C,I-C)+A(I-C,B)+A(B,B)+A(B,I)+A(I,I)+0.9+0.9+0.9+0.8+0.8+0.9+0.8+0.9+0.9+0.9。其中,Ayi,yi+1为从yi到yi+1的转移概率数值通过标注数据统计得到。由此可知分词结果是:马化腾/是/腾讯/的/CEO。
需要说明的是,引入的CRF模型,是对输出标签二元组进行了建模,然后使用动态规划进行计算即可,最终根据得到的最优路径进行标注。
在本实施例中,可以在所述待实体识别的文本上对各个字符的标记显示,例如参见图5,在待实体识别文本各个字符预设的位置,例如字符的上方或下方或下标或上标等,对相应字符的标签进行显示。
实施本实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;LSTM网络对数据的依赖很大,数据量的大小和质量也会影响模型训练结果,结合了LSTM模型和CRF模型,使用LSTM模型解决提取序列特征的问题,使用CRF模型可以有效利用句子级别的标记信息,通过LSTM+CRF模型提高了对话***的执行效率,同时实现了实体识别与分词,提高了实体识别准确率和效率。
实施例三
参见图6,本发明第三实施例提供的实体识别装置的结构示意图;
一种实体识别装置,包括:
实体识别模型获取模块31,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块32,用于将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
标记获取模块33,用于将所述概率输入CRF模型,得到各个字符的标记。
优选地,所述实体识别模型获取模块31包括:
训练语料获取单元,用于获取标注后的训练语料;
向量获取单元,用于将所述标注后的训练语料中的词和字符转化为向量;
参数训练单元,用于将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
优选地,所述训练语料获取单元包括:
使用IOB方式对所述训练语料进行训练,得到标注后的训练语料。
优选地,所述概率获取模块32包括:
将所述待实体识别文本的字符依次输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率。
优选地,所述标记获取模块33包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure BDA0001796971770000151
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
实施本实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;LSTM网络对数据的依赖很大,数据量的大小和质量也会影响模型训练结果,结合了LSTM模型和CRF模型,使用LSTM模型解决提取序列特征的问题,使用CRF模型可以有效利用句子级别的标记信息,通过LSTM+CRF模型提高了对话***的执行效率,同时实现了实体识别与分词,提高了实体识别准确率和效率。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,在某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模拟一定是本发明所必须的。

Claims (8)

1.一种实体识别方法,其特征在于,包括:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,具体包括:将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure FDA0003933365810000011
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,pi,yi指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
2.根据权利要求1所述的实体识别方法,其特征在于,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
3.根据权利要求2所述的实体识别方法,其特征在于,所述获取标注后的训练语料包括:
使用IB方式对所述训练语料进行训练,得到标注后的训练语料。
4.根据权利要求1所述的实体识别方法,其特征在于,所述将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率包括:
将所述待实体识别文本的字符依次输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率。
5.一种实体识别装置,其特征在于,包括:
实体识别模型获取模块,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块,用于将待实体识别文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待实体识别文本中各个字符分属标注标签的概率;
标记获取模块,用于将所述概率输入CRF模型,得到各个字符的标记,具体包括:将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure FDA0003933365810000021
其中,y为所述待实体识别文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待实体识别文本中各个字符分属标注标签的概率,pi,yi指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
6.根据权利要求5所述的实体识别装置,其特征在于,所述实体识别模型获取模块包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
7.一种实体识别设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的实体识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的实体识别方法。
CN201811061626.8A 2018-09-12 2018-09-12 实体识别方法、装置、设备及存储介质 Active CN109299458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811061626.8A CN109299458B (zh) 2018-09-12 2018-09-12 实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811061626.8A CN109299458B (zh) 2018-09-12 2018-09-12 实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109299458A CN109299458A (zh) 2019-02-01
CN109299458B true CN109299458B (zh) 2023-03-28

Family

ID=65166558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811061626.8A Active CN109299458B (zh) 2018-09-12 2018-09-12 实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109299458B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681670B (zh) * 2019-02-25 2023-05-12 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
CN109902303B (zh) * 2019-03-01 2023-05-26 腾讯科技(深圳)有限公司 一种实体识别方法及相关设备
CN110287283B (zh) * 2019-05-22 2023-08-01 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110598210B (zh) * 2019-08-29 2023-08-04 深圳市优必选科技股份有限公司 实体识别模型训练、实体识别方法、装置、设备及介质
CN110516251B (zh) * 2019-08-29 2023-11-03 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110705211A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 文本重点内容标记方法、装置、计算机设备及存储介质
CN110555102A (zh) * 2019-09-16 2019-12-10 青岛聚看云科技有限公司 媒体标题识别方法、装置及存储介质
CN110826330B (zh) * 2019-10-12 2023-11-07 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110738054B (zh) * 2019-10-14 2023-07-07 携程计算机技术(上海)有限公司 识别邮件中酒店信息的方法、***、电子设备及存储介质
CN110738182A (zh) * 2019-10-21 2020-01-31 四川隧唐科技股份有限公司 一种用于高精度识别中标金额的lstm模型单元训练方法及装置
CN110738055A (zh) * 2019-10-23 2020-01-31 北京字节跳动网络技术有限公司 文本的实体识别方法、设备及存储介质
CN112733869B (zh) * 2019-10-28 2024-05-28 中移信息技术有限公司 训练文本识别模型的方法、装置、设备及存储介质
CN110738319A (zh) * 2019-11-11 2020-01-31 四川隧唐科技股份有限公司 一种基于crf识别中标单位的lstm模型单元训练方法及装置
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件***有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN111079405A (zh) * 2019-11-29 2020-04-28 微民保险代理有限公司 文本信息识别方法、装置、存储介质和计算机设备
CN111209396B (zh) * 2019-12-27 2024-06-07 深圳市优必选科技股份有限公司 实体识别模型的训练方法及实体识别方法、相关装置
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、***及介质
CN111914561B (zh) * 2020-07-31 2023-06-30 建信金融科技有限责任公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112214987B (zh) * 2020-09-08 2023-02-03 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112182157B (zh) * 2020-09-29 2023-09-22 中国平安人寿保险股份有限公司 在线序列标注模型的训练方法、在线标注方法及相关设备
CN112733911B (zh) * 2020-12-31 2023-05-30 平安科技(深圳)有限公司 实体识别模型的训练方法、装置、设备和存储介质
CN113268673B (zh) * 2021-04-23 2023-06-02 国家计算机网络与信息安全管理中心 互联网行动类信息线索分析的方法和***
CN113486178B (zh) * 2021-07-12 2023-12-01 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质
CN116384515B (zh) * 2023-06-06 2023-09-01 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备

Also Published As

Publication number Publication date
CN109299458A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299458B (zh) 实体识别方法、装置、设备及存储介质
CN109271631B (zh) 分词方法、装置、设备及存储介质
CN108877782B (zh) 语音识别方法和装置
CN111190600B (zh) 基于gru注意力模型的前端代码自动生成的方法及***
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN113450759A (zh) 语音生成方法、装置、电子设备以及存储介质
CN113434642B (zh) 文本摘要生成方法、装置及电子设备
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116244416A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN112906403A (zh) 语义分析模型训练方法、装置、终端设备及存储介质
CN116821306A (zh) 对话回复生成方法、装置、电子设备和存储介质
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN115292467A (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN108038230B (zh) 基于人工智能的信息生成方法和装置
CN115510203B (zh) 问题答案确定方法、装置、设备、存储介质及程序产品
CN117059082B (zh) 基于大模型的外呼通话方法、装置、介质和计算机设备
CN114706942B (zh) 文本转换模型训练方法、文本转换方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant