CN111695345A - 文本中实体识别方法、以及装置 - Google Patents
文本中实体识别方法、以及装置 Download PDFInfo
- Publication number
- CN111695345A CN111695345A CN202010533173.5A CN202010533173A CN111695345A CN 111695345 A CN111695345 A CN 111695345A CN 202010533173 A CN202010533173 A CN 202010533173A CN 111695345 A CN111695345 A CN 111695345A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- character
- entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 208
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims description 30
- 238000012546 transfer Methods 0.000 claims description 28
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 24
- 230000015654 memory Effects 0.000 description 19
- 238000012549 training Methods 0.000 description 19
- 238000013473 artificial intelligence Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000002372 labelling Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本中实体识别方法、装置、电子设备及计算机可读存储介质;方法包括:对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。通过本发明,能够提高实体识别的效率和准确率。
Description
技术领域
本发明涉及人工智能领域的自然语言处理技术,尤其涉及一种文本中实体识别方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。自然语言处理(NLP,Nature Language Processing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
实体识别是自然语言处理的一个分支,是指识别文本中具有特定意义的实体,例如歌名、人名及地名等。在相关技术提供的方案中,通常是通过人工对待识别的文本构造特征,然后通过机器学习模型对该特征进行标签类别标注,最后根据标注的标签类别实现实体识别,而人工构造特征导致实体识别效率低。
发明内容
本发明实施例提供一种文本中实体识别方法、装置、电子设备及计算机可读存储介质,能够提高实体识别的效率和准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种文本中实体识别方法,所述方法包括:
对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并
根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
本发明实施例提供一种文本中实体识别装置,包括:
特征抽取模块,用于对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
字典模块,用于根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
分词模块,用于对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
拼接模块,用于将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
识别模块,用于根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
上述方案中,所述特征抽取模块,还用于在映射字典中查询所述文本中每个文字对应的数字标识;将所述每个文字对应的数字标识转换为向量的形式,以获得所述每个文字对应的字特征向量。
上述方案中,所述字典模块,还用于确定所述文本所属的类型;确定对应所述文本所属的类型的实体字典;在所述实体字典中,查询对应所述文本中每个文字的字典向量。
上述方案中,所述分词模块,还用于调用词向量模型,以对所述文本执行以下操作:在所述文本中截取字数长度为预设值的多个词语;将截取的每个所述词语进行编码,以获得一一对应的多个编码序列;将对应每个所述词语的编码序列映射为相应词语的词向量。
上述方案中,所述拼接模块,还用于确定对应同一个文字的字特征向量、字典向量以及词向量;将所述字特征向量、所述字典向量以及所述词向量所包含的每个维度进行叠加,并在叠加后的维度中填充对应所述维度的标量,以获得对应所述文字的拼接向量。
上述方案中,所述识别模块,还用于将每个文字对应的拼接向量映射为分别属于不同候选标签的概率;其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;将最大概率所对应的候选标签确定为所述文字对应的标签。
上述方案中,所述识别模块,还用于将所述每个文字对应的拼接向量分别映射为多个不同的候选标签,并分别确定将所述拼接向量映射为每个所述候选标签对应的转移分数;其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;根据所述每个文字对应的多个候选标签、以及相应的转移分数,确定所述每个文字对应的标签。
上述方案中,所述识别模块,还用于按照所述每个文字在所述文本中的出现顺序,在所述每个文字对应的多个候选标签中多次选取候选标签,并将每次选取的候选标签进行组合,以获得多个不同的候选标签序列;其中,每次选取的候选标签序列中所包含的多个候选标签归属于不同的文字、且所包含的候选标签的数量和所述文本的字数相同;将所述候选标签序列中每个候选标签对应的转移分数进行累加,以得到整体转移分数;将所述整体转移分数最大的候选标签序列中所包含的多个候选标签,确定为相应的文字所对应的标签类别。
上述方案中,所述识别模块,还用于将所述文本中位置连续、且对应的标签指示为同一实体类型的文字识别为同一个实体,并将所述标签所指示的实体类型识别为所述同一实体的类型。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的文本中实体识别方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的文本中实体识别方法。
本发明实施例具有以下有益效果:
自动提取文本中的特征,无需人工构造特征,简化了特征工程的工作量,提高了实体识别的效率;将文本中每个字所对应的字特征向量、字典向量以及词向量进行拼接,并针对拼接后的向量进行标签标注,减小了识别文本中的实体和实体类型的误差,提升了实体识别的准确性。
附图说明
图1是本发明实施例提供的文本中实体识别***100的架构示意图;
图2是本发明实施例提供的电子设备500的结构示意图;
图3是本发明实施例提供的文本中实体识别方法的流程示意图;
图4是本发明实施例提供的文本中实体识别方法的流程示意图;
图5是本发明实施例提供的文本中实体识别方法的流程示意图;
图6是本发明实施例提供的模型输入实例示意图;
图7是本发明实施例提供的模型架构示意图;
图8是本发明实施例提供的应用场景示意图;
图9是本发明实施例提供的模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)自然语言处理:是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
2)BIO标注体系:对文本(或称文本句)中的元素进行标注的一种方式,将元素标注为“B-X”、“I-X”或者“O”,其中,“B-X”中的“B”表示该元素的实***置为首位,“I-X”中的“I”表示该元素的实***置为非首位,“B-X”和“I-X”中的“X”表示该元素的实体类型为X类型,“O”表示该元素不属于任何类型,即无关元素。其中,元素可为文本句中的字。
3)短文本查询(Query):指用户输入的请求语句,请求语句中包含用户的意图期望,例如:“来一首XXX的冰雨”;“给我讲愚公移山的故事”;“我想看电影无间道”等。
4)实体(Entity),或称命名实体:是知识图谱的基本单元,也是本文中承载信息的重要语言单位,例如:人名、地名、机构名、以及产品名等。
在任务型对话***中,实体用于表述用户输入Query中的重要信息。例如,当Query是“来一首XXX的冰雨”时,Query本身是表示用户想听歌曲的意图期望,实体是歌手类型的XXX和歌曲类型的冰雨。
5)媒资类实体:是指媒体资讯类的实体,例如音乐技能里的歌曲实体,视频技能里的电影、电视剧、或卡通片等实体,调频广播电台技能里的专辑实体。实体之间具有一定的相似性,并且实体内容还可以存在交集。
6)实体识别(NER,Named Entity Recognition):是指识别文本中的实体。
7)实体字典:当设计一个新的技能意图时,对于新的技能涉及的实体集合,一般都会提供一批实体实例供参考,以告知实体集合的边界以及规则,这一批供参考的实体实例即实体字典。
8)语音识别,或称自动语音识别(ASR,Automatic Speech Recognition),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如,按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,说话人识别及说话人确认尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
9)训练样本,或称训练数据,是经过预处理后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与实体识别模型的训练过程。
10)人工智能云服务(AiaaS,AI as a Service):是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过应用程序接口(API,Application Programming Interface)接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
本发明实施例中能够通过调用人工智能云服务实现实体识别模型的训练。
本发明实施例提供一种文本中实体识别方法、装置、电子设备及计算机可读存储介质,能够有效提高实体识别的效率和准确性。下面说明本发明实施例提供的文本中实体识别方法的示例性应用,本发明实施例提供的文本中实体识别方法可以由各种电子设备实施,例如可以由终端实施,也可以由服务器或服务器集群实施,或者由终端和服务器协同实施。
下面,以由终端和服务器协同实施为例说明本发明实施例,参见图1,图1是本发明实施例提供的文本中实体识别***100的架构示意图。其中,文本中实体识别***100包括有:服务器200、网络300、终端400以及运行于终端400的客户端410,将分别进行说明。
服务器200是客户端410的后台服务器,用于接收客户端410发送的文本;还用于识别文本中的实体和实体的类型(将在下文详细说明识别文本中的实体和实体的类型的过程),并根据识别出的实体和实体的类型从数据库或网络中获取相应的资源(例如,应答语句、歌曲或电影等),并将资源发送至客户端410。
网络300用于作为服务器200和终端400之间通信的媒介,可以是广域网或者局域网,又或者是二者的组合。
终端400用于运行客户端410,客户端410是各种具备实体识别功能的应用(APP,Application),例如,语音助手APP、音乐APP或视频APP等。客户端410用于向服务器200发送文本,并获取服务器200发送的对应文本的资源,并向用户进行展示(例如,呈现应答语句、播放歌曲或播放视频等)。
需要说明的是,客户端410不仅可以通过调用服务器200的实体识别服务,确定文本中的实体和实体的类型;还可以通过调用终端400的实体识别服务,确定文本中的实体和实体的类型。
作为示例,客户端410调用终端400的实体识别服务识别文本中的实体和实体的类型;根据识别出的实体和实体的类型向服务器200发送相应的请求,以使服务器200根据请求从数据库或网络中获取相应的资源(例如,应答语句、歌曲或电影等),并接收服务器200返回的资源,向用户进行展示(例如,呈现应答语句、播放歌曲或播放视频等)。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
本发明实施例可应用于多种场景,例如,应答场景、视频播放场景或音乐播放场景等。
以应答场景为例,客户端410可以是语音助手APP。客户端410调用终端400的麦克风采集用户的语音询问语句,并对语音询问语句进行语音识别,以获得相应的文本;客户端410将文本发送至服务器200;服务器200对文本进行识别,获得相应的实体和实体类型,并在知识图谱中进行查询,得到应答语句,并将应答语句发送至客户端410;客户端410以语音播报的形式播报应答语句。
或者,客户端410调用终端400的麦克风采集用户的语音询问语句,并对语音询问语句进行语音识别,以获得相应的文本;客户端410调用终端400的实体识别服务对文本进行识别,获得相应的实体和实体类型,并在知识图谱中进行查询,得到应答语句,以语音播报的形式播报应答语句。
以音乐播放场景为例,客户端410可以是音乐APP。客户端410调用终端400的麦克风采集用户的语音操作指令,例如“来一首鲁冰花”,并对语音操作指令进行语音识别,以获得相应的文本;客户端410将文本发送至服务器200;服务器200对文本进行识别,获得相应的实体,即“鲁冰花”,以及实体的类型,即歌曲名类型;服务器200在数据库或网络中查找歌曲“鲁冰花”,获得相应的歌曲资源,并将歌曲资源发送至客户端410;客户端410播放歌曲“鲁冰花”。
或者,客户端410调用终端400的麦克风采集用户的语音操作指令,例如“来一首鲁冰花”,并对语音操作指令进行语音识别,以获得相应的文本;客户端410调用终端400的实体识别服务对文本进行识别,获得相应的实体,即“鲁冰花”,以及实体的类型,即歌曲名类型;客户端410向服务器200发送歌曲获取请求,以使服务器200从数据库或网络中查找歌曲“鲁冰花”,获得相应的歌曲资源,并将歌曲资源返回至客户端410;客户端410播放歌曲“鲁冰花”。
接下来说明本发明实施例提供的用于进行实体识别的电子设备的结构,电子设备可以是图1所示的服务器200或终端400。下面以电子设备是图1所示的服务器200为例说明该电子设备的结构,参见图2,图2是本发明实施例提供的电子设备500的结构示意图,图2所示的电子设备500包括:至少一个处理器510、存储器540和至少一个网络接口520。电子设备500中的各个组件通过总线***530耦合在一起。可理解,总线***530用于实现这些组件之间的连接通信。总线***530除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***530。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器540包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器540旨在包括任意适合类型的存储器。存储器540可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器540能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***541,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块542,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本发明实施例提供的文本中实体识别装置可以采用软件方式实现,图2示出了存储在存储器540中的文本中实体识别装置543,其可以是程序和插件等形式的软件,包括以下软件模块:特征抽取模块5431、字典模块5432、分词模块5433、拼接模块5434、以及识别模块5435。这些模块是可以是逻辑功能模块,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的文本中实体识别装置543可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本中实体识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,以由图1中的服务器200实施本发明实施例提供的文本中实体识别方法为例说明。参见图3,图3是本发明实施例提供的文本中实体识别方法的流程示意图,将结合图3示出的步骤进行说明。
在步骤S101中,对文本进行特征抽取处理,以获得文本中每个文字对应的字特征向量。
在一些实施例中,在映射字典中查询文本中每个文字对应的数字标识(ID,Identity);将每个文字对应的数字标识转换为向量的形式,以获得每个文字对应的字特征向量。
作为示例,服务器200包括一个将文字映射为数字ID的映射字典,映射字典能够将文本中的每个汉字转化为对应的数字ID;通过特征抽取网络,在映射字典中查询文本中每个文字对应的数字ID;将查询获得的数字ID转换为向量的形式,以获得文本中每个文字对应的字特征向量。本发明实施例根据映射字典准确提取文本中每个文字对应的字特征向量,提高了后续进行实体识别的准确性。
这里,上述的特征抽取网络不仅能够提取文本中每个文字的字特征向量,还能够提取表征文本的类型的特征(或称表征用户意图的特征),并对表征文本的类型的特征进行分类,以获得分类结果(将在步骤S102中详细说明对提取的表征文本的类型的特征进行分类处理的过程)。例如:当文本为“来一首冰雨”时,通过特征抽取网络,提取表征文本的类型的特征,通过对提取的表征文本的类型的特征进行分类处理,能够获得表征文本的类型是音乐类的分类结果。如此,能够根据提取的表征文本的类型的特征,选取对应于文本的类型的实体字典,以助于步骤S102中确定文本中每个文字对应的字典向量。
以文本是“来一首忘情水”为例,对文本进行特征抽取处理,以获得对应于“来”的字特征向量、对应于“一”的字特征向量、对应于“首”的字特征向量、对应于“忘”的字特征向量、对应于“情”的字特征向量和对应于“水”的字特征向量。
本发明实施例无需人工构建特征,能够自动从文本中提取对应每个文字的字特征向量,实现了特征工程这一步自动化的演变,相较于相关技术,自动化特征工程可以大大的减少工作量。
在步骤S102中,根据对应文本的实体字典,确定文本中每个文字对应的字典向量。
这里,实体词典可为无歧义的命名实体词典,即实体词典中包括的命名实体仅具有唯一含义。实体字典中包含的实体实例支持用户自定义。
在一些实施例中,确定文本所属的类型;其中,文本所属的类型包括以下至少之一:音乐类;视频类;电台类;地名类;人物类;确定对应文本所属的类型的实体字典;在实体字典中,查询对应文本中每个文字的字典向量。
作为示例,确定文本所属的类型的具体过程为:通过特征抽取网络,提取表征文本的类型的特征;将表征文本的类型的特征映射为分别属于不同文本的类型的概率;将最大概率所对应的文本的类型确定为文本所属的类型。如此,能够准确获取对应于文本所属的类型的实体字典,从而能够准确提取文本中每个文字对应的字典向量,提高后续针对提取的特征进行分类的准确性。
举例来说,通过特征抽取网络,提取表征文本的类型的特征;通过分类网络的输入层接收表征文本的类型的特征,并传播到分类网络的隐层;通过分类网络的隐层的激活函数对表征文本的类型的特征进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过分类网络的输出层接收隐层传播的向量,并通过输出层的激活函数映射为属于不同文本的类型的置信度;将置信度最大所对应的类型确定为文本所属的类型。
在一些实施例中,服务器200中存储多个不同类型的实体字典,例如,音乐类的实体字典、视频类的实体字典、电台类的实体字典、地名类的实体字典、以及人物类的实体字典;在多个不同类型的实体字典中选取对应文本的实体字典;并在选取的实体字典中查询文本中每个文字对应的字典特征;将查询获得的字典特征转换为向量的形式,以获得文本中每个文字对应的字典向量。本发明实施例选取和文本类型一致的实体字典,能够准确提取文本中每个文字对应的字典向量,提高了后续进行实体识别的准确性,并且还支持用户自定义实体字典,进一步提高了针对冷门实体识别的准确性。
在步骤S103中,对文本进行分词处理,以获得文本中每个文字对应的词语,并确定对应每个词语的词向量。
在一些实施例中,调用词向量模型,以对文本执行以下操作:在文本中截取字数长度为预设值的多个词语;将截取的每个词语进行编码,以获得一一对应的多个编码序列;将对应每个词语的编码序列映射为相应词语的词向量。
这里,词向量模型可以是任何能够将词语转换为对应词向量的语言模型,例如,Word2vec模型、Glove模型、以及双向编码器表征(BERT,Bidirectional EncoderRepresentation from Transformers)模型等。预设值可以是用户自定义的值;也可以是根据文本的字数所确定的值,其中,文本的字数和预设值的大小呈正比。
以文本是“来一首忘情水”、且预设值是2为例,文本中的文字分别是“来”、“一”、“首”、“忘”、“情”和“水”,在文本中截取分别对应于“来”、“一”、“首”、“忘”、“情”和“水”的词语,例如,对应于“来”的词语是“来一”、对应于“一”的词语是“一首”、对应于“首”的词语是“首忘”、对应于“忘”的词语是“忘情”、对应于“情”的词语是“情水”和对应于“水”的词语是“水#”(这里,由于“水”是文本中的最后一个字,因此,以“水”和通配符“#”进行组词,以获得“水#”);将截取的每个词语进行编码,例如独热(One-Hot)编码,以获得分别对应于“来一”、“一首”、“首忘”、“忘情”、“情水”和“水#”的编码序列;将对应于“来一”、“一首”、“首忘”、“忘情”、“情水”和“水#”的编码序列映射为相应的词向量,如此,即可获得对应于文本中每个字(即“来”、“一”、“首”、“忘”、“情”和“水”)的词向量。
需要说明的是,截取对应每个文字所对应的词语并非一定是截取该文字和相邻的后一位文字作为词语,可以任意截取包含该文字、且长度为预设值的词语作为对应于该文字的词语,例如,对应于“忘”的词语可以是“首忘”、“忘情水”或“首忘情”等。如此,可以提高截取的词语的多样性,增加模型的训练样本,避免模型的过拟合。
在步骤S104中,将每个文字对应的字特征向量、字典向量以及词向量进行拼接处理,以获得每个文字对应的拼接向量。
在一些实施例中,确定对应同一个文字的字特征向量、字典向量以及词向量;将对应同一个文字的字特征向量、字典向量以及词向量进行尾部拼接,以获得对应文字的拼接向量;其中,拼接向量的维度是字特征向量的维度、字典向量的维度以及词向量的维度的加和。
作为示例,确定对应同一个文字的字特征向量、字典向量以及词向量;确定字特征向量的多个维度、以及分别对应每个维度的标量;确定字典向量中的多个维度、以及分别对应每个维度的标量;确定词向量中的多个维度、以及分别对应每个维度的标量;将字特征向量、字典向量以及词向量的所包含的每个维度进行叠加,并在叠加后的维度中填充对应维度的标量,以获得对应文字的拼接向量。如此,针对拼接后的向量进行分类处理,可以综合多个维度对文本中的文字进行类别标注,从而可以提高实体识别的准确性,以及提高实体识别的效率。
在步骤S105中,根据每个文字对应的拼接向量确定每个文字对应的标签。
这里,标签用于指示文字所属的实体的类型以及文字在所属实体中的位置,或者,用于指示文字属于无关字符。实体的类型包括以下至少之一:音乐类;视频类;电台类;地名类;人物类。例如,标签“B-song”表征该文字在所属实体中的位置是首字、且该文字所属的实体的类型是音乐类;标签“I-per”表征该文字在所属实体中的位置是非首字、且该文字所属的实体的类型是人物类;标签“O”表征该文字不属于任何类型、且不属于任何实体,即无关字符。
在一些实施例中,参见图4,图4是本发明实施例提供的文本中实体识别方法的流程示意图,图3示出的步骤S105还可以通过步骤S1051至步骤S1052来具体实现。
在步骤S1051中,将每个文字对应的拼接向量映射为分别属于不同候选标签的概率。
这里,候选标签用于指示文字所属的实体的类型以及文字在所属实体中的位置,或者,用于指示文字属于无关字符。
在一些实施例中,通过分类网络的输入层接收每个文字对应的拼接向量,并传播到分类网络的隐层;通过分类网络的隐层的激活函数对每个文字对应的拼接向量进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过分类网络的输出层接收隐层传播的向量,并通过输出层的激活函数映射为属于不同候选标签的置信度。
在步骤S1052中,将最大概率所对应的候选标签确定为文字对应的标签。
在一些实施例中,将置信度最大所对应的候选标签确定为文字对应的标签。
作为示例,当文本“来一首忘情水”中的“忘”所对应的拼接向量映射为候选标签“B-song”的概率是0.5、映射为候选标签“I-movie”的概率是0.3、以及映射为候选标签“O”的概率是0.2时,确定概率最大所对应的候选标签“B-song”确定为“忘”所对应的标签。如此,能够确定文本“来一首忘情水”中每个文字所对应的标签,即,“来”所对应的标签是“O”、“一”所对应的标签是“O”、“首”所对应的标签是“O”、“忘”所对应的标签是“B-song”、“情”所对应的标签是“I-song”和“水”所对应的标签是“I-song”。如此,后续即可根据每个字所对应的标签确定文本“来一首忘情水”中的实体和实体的类型。
本发明实施例通过分类器对文本中的每个文字进行类别标注,分类过程简单,且分类速度较快,提高了实体识别的效率。但是通过分类器对文本中的每个文字进行类别标注虽然标注速度较快,但由于仅针对文本中的每个文字进行类别标注,未考虑文本的全局标注,因此,针对同一个文本标注的类型中可能同时出现两个表征文字在所属的相同实体中的位置是首字的情况,例如,“忘”和“情”所对应的标签都是“B-song”,如此,便会导致实体识别产生误差。对此,本发明实施例提供另一种标注方法,下面将详细说明。
在另一些实施例中,参见图5,图5是本发明实施例提供的文本中实体识别方法的流程示意图,图3示出的步骤S105还可以通过步骤S1053至步骤S1054来具体实现。
在步骤S1053中,将每个文字对应的拼接向量分别映射为多个不同的候选标签,并确定将拼接向量映射为每个候选标签对应的转移分数。
这里,转移分数用于表征该文字和对应映射的候选标签之间的匹配程度,也就是说,转移分数越大,表征该文字属于对应映射的候选标签的概率越大。
以文本是“来一首忘情水”为例,将“忘”分别映射为候选标签“B-song”、“O”、以及“I-song”,其中,将“忘”映射为候选标签“B-song”对应的转移分数是0.5,将“忘”映射为候选标签“I-song”对应的转移分数是0.3,将“忘”映射为候选标签“O”对应的转移分数是0.2,表征“忘”属于标签“B-song”的概率最大,以及表征“忘”属于标签“O”的概率最小;如此,可以一一确定将“来”、“一”、“首”、“忘”、“情”和“水”分别映射为候选标签“B-song”、“O”、以及“I-song”的转移分数。
这里,候选标签不仅限于“B-song”、“O”、以及“I-song”,可以包括任意实体的类型,例如,“B-movie”、“B-per”以及“I-fm”等,本发明实施例在此不进行限制。
在步骤S1054中,根据每个文字对应的多个候选标签、以及相应的转移分数,确定每个文字对应的标签。
在一些实施例中,按照每个文字在文本中的出现顺序,在每个文字对应的多个候选标签中多次选取候选标签,并将每次选取的候选标签进行组合,以获得多个不同的候选标签序列;其中,每次选取的候选标签序列中所包含的多个候选标签归属于不同的文字、且所包含的候选标签的数量和文本的字数相同;将候选标签序列中每个候选标签对应的转移分数进行累加,以得到整体转移分数;将整体转移分数最大的候选标签序列中所包含的多个候选标签,确定为相应的文字所对应的标签类别。
需要说明的是,候选标签序列中对应的整体转移分数越大,不仅表征候选标签序列和文本中的文字匹配程度高,还表征文本中的文字所对应的候选标签和相邻文字所对应的候选标签之间的关联程度高。
以文本是“来一首忘情水”、且候选标签包括“B-song”、“O”、以及“I-song”为例,“来”、“一”、“首”、“忘”、“情”和“水”中每个字均对应三个候选标签;在6个不同文字对应的3个候选标签中多次选取候选标签,并将每次选取的候选标签进行组合,以获得36=729个不同的候选标签序列;分别计算这729个不同的候选标签序列的整体转移分数,选取整体转移分数最大的候选标签序列,即{“O”,“O”,“O”,“B-song”,“I-song”,“I-song”};将整体转移分数最大的候选标签序列中包含的候选标签确定为相应的文字所对应的标签类别,即,“来”所对应的标签是“O”、“一”所对应的标签是“O”、“首”所对应的标签是“O”、“忘”所对应的标签是“B-song”、“情”所对应的标签是“I-song”和“水”所对应的标签是“I-song”。
本发明实施例在对文本中的每个文字进行标注时,不仅会考虑每个文字属于相应标签的概率,还会考虑整个文本全局的最优概率,可以避免出现标注偏置的问题。具体的,本发明实施例考虑文本中每个文字所对应的标签和相邻文字所对应的标签之间的关联程度,从而可以避免针对同一个文本标注的类型中表征文字在所属的相同实体中的位置是首字的标签出现于表征文字在所属的相同实体中的位置是非首字的标签之后的情况;还考虑每个文字所对应的标签和文本之间的关联程度,从而可以避免针对同一个文本标注的类型中同时出现两个表征文字在所属的相同实体中的位置是首字的情况。
在步骤S106中,根据每个文字对应的标签确定文本中的实体和实体的类型。
这里,实体的类型包括以下至少之一:音乐类;视频类;电台类;地名类;人物类。其中,上述的每个类型属于大类,每个大类分别可包括小类,例如,音乐类中包括歌手类、歌曲类、以及专辑类等;视频类中包括电影类、电视剧类、演员类以及卡通片类等。步骤S106不仅可以识别实体所属的大类,还可以识别实体所属的小类。
在一些实施例,将文本中位置连续、且对应的标签指示为同一实体类型的文字识别为同一个实体,并将标签所指示的实体类型识别为同一实体的类型。
作为一个示例,在文本中将指示位于所属实体的开头位置的标签类别所对应的文字确定为实体的首字;在和首字归属于相同的实体的类型的多个文字中,进行遍历;当遍历到的文字的标签类别指示位于所属实体的中间位置的文字时,将遍历到的文字确定为实体的非首字;将首字和非首字共同确定为实体,以及将首字和非首字的标签类别共同指示所属的实体的类型确定为实体的类型。
以文本是“来一首忘情水”为例,“来”所对应的标签是“O”、“一”所对应的标签是“O”、“首”所对应的标签是“O”、“忘”所对应的标签是“B-song”、“情”所对应的标签是“I-song”和“水”所对应的标签是“I-song”,可确定文本中的实体是“忘情水”,实体的类型是音乐类这一大类中的歌曲类。
本发明实施例自动提取文本中每个字所对应的特征向量,无需人工构造特征,提高了实体识别的效率。将文本中每个字所对应的字特征向量、字典向量以及词向量进行拼接,并针对拼接后的向量标注标签,减小了识别文本中的实体和实体类型的误差,提升了识别的准确性。
下面继续结合图2说明电子设备500的结构,在一些实施例中,如图2所示,存储在存储器540的文本中实体识别装置543中的软件模块可以包括:特征抽取模块5431、字典模块5432、分词模块5433、拼接模块5434、以及识别模块5435。
特征抽取模块5431,用于对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
字典模块5432,用于根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
分词模块5433,用于对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
拼接模块5434,用于将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
识别模块5435,用于根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
在一些实施例中,所述特征抽取模块5431,还用于在映射字典中查询所述文本中每个文字对应的数字标识;将所述每个文字对应的数字标识转换为向量的形式,以获得所述每个文字对应的字特征向量。
在一些实施例中,所述字典模块5432,还用于确定所述文本所属的类型;确定对应所述文本所属的类型的实体字典;在所述实体字典中,查询对应所述文本中每个文字的字典向量。
在一些实施例中,所述分词模块5433,还用于调用词向量模型,以对所述文本执行以下操作:在所述文本中截取字数长度为预设值的多个词语;将截取的每个所述词语进行编码,以获得一一对应的多个编码序列;将对应每个所述词语的编码序列映射为相应词语的词向量。
在一些实施例中,所述拼接模块5434,还用于确定对应同一个文字的字特征向量、字典向量以及词向量;将所述字特征向量、所述字典向量以及所述词向量的每个维度进行叠加,并在叠加后的维度中填充对应所述维度的标量,以获得对应所述文字的拼接向量。
在一些实施例中,所述识别模块5435,还用于将每个文字对应的拼接向量映射为分别属于不同候选标签的概率;其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;将最大概率所对应的候选标签确定为所述文字对应的标签。
在一些实施例中,所述识别模块5435,还用于将所述每个文字对应的拼接向量分别映射为多个不同的候选标签,并分别确定将所述拼接向量映射为每个所述候选标签对应的转移分数;其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;根据所述每个文字对应的多个候选标签、以及相应的转移分数,确定所述每个文字对应的标签。
在一些实施例中,所述识别模块5435,还用于按照所述每个文字在所述文本中的出现顺序,在所述每个文字对应的多个候选标签中多次选取候选标签,并将每次选取的候选标签进行组合,以获得多个不同的候选标签序列;其中,每次选取的候选标签序列中所包含的多个候选标签归属于不同的文字、且所包含的候选标签的数量和所述文本的字数相同;将所述候选标签序列中每个候选标签对应的转移分数进行累加,以得到整体转移分数;将所述整体转移分数最大的候选标签序列中所包含的多个候选标签,确定为相应的文字所对应的标签类别。
在一些实施例中,所述识别模块5435,还用于将所述文本中位置连续、且对应的标签指示为同一实体类型的文字识别为同一个实体,并将所述标签所指示的实体类型识别为所述同一实体的类型。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的文本中实体识别方法,例如,图3、图4或图5示出的文本中实体识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将说明在实际的应用场景中的示例性应用。
针对实体抽取(即上述的实体识别),相关技术通常采用条件随机场(CRF,Conditional Random Field)模型进行实体抽取。相关技术中,将训练语料(即训练数据)组织为图6所示的模型输入实例的形式输入至CRF模型中进行训练,以获得训练完成的CRF模型,最后基于训练完成的CRF模型进行实体识别。
图6是本发明实施例提供的模型输入实例示意图,图6中,第一列为字特征,第二列为二字(Bi-gram)特征(或称二元特征),第三列为词性特征,第四列为实体信息特征,第五列为预测标签。需要说明的是,训练数据有第五列的预测标签,而预测数据(或称测试数据)则无第五列的预测标签,因为预测数据的目的就是要预测出第五列的预测标签。这里,标签可以采用BIO标签体系进行标注。
参见图7,图7是本发明实施例提供的模型架构示意图。
图7中,本发明实施例提供的模型包括双向长短时记忆(BiLSTM,BidirectionalLong Short-Term Memory)模块,该模块主要是使用深度学习的双向的LSTM来做特征抽取。由于特征捕获是深度学习网络的前置层比较擅长的能力,因此,与相关技术相比本发明实施例减少了人工特征工程的工作量,但是由于BiLSTM天生的局限性,例如:当Query过长的时候,对距离较远的词语关注度会下降,同时由于序列的时间先后顺序,训练参数时必须串行训练,导致模型的训练耗时较长。
由上可知,相关技术中需要用户手工构造特征工程,而决定具体使用哪些特征,是建立在多次试验的基础上得到的结论。相关技术中可以使用单字特征、二字特征、或词性特征等,而在模型开发调优的过程中,特征工程是非常耗时且对模型调优者有一定门槛需求的事情。而图7中的本发明实施例引入BiLSTM来做特征抽取模块,一定程度上解决了相关技术中所存在的技术问题,但是由于LSTM本身的特点,其在特征捕获能力以及串行训练方面的限制,其实体识别的效果虽有提升但不是很明显。
针对上述问题,本发明实施例还提供一种文本中实体识别方法,能够在提升实体识别的效果的同时,简化特征工程的工作量。
参见图8,图8是本发明实施例提供的应用场景示意图。图8中,当设计技能意图的时候,可以根据需求定义并导入相关的技能意图涉及的实体集合(即上述的实体字典),同时实体还支持别名配置,以满足实体表述的多样性。图8是视频(Video)领域(即上述的视频类)涉及的动画片(sys.video.cartoon)实体类型的定义与样例。
参见图9,图9是本发明实施例提供的模型结构示意图,将结合图9进行说明。
(1)特征抽取层
在一些实施例中,特征抽取层的输入tok1,tok2……tokn分别是对应Query(即上述的文本)的数字ID。这里,特征抽取层具有一个文字到数字ID的映射字典,映射字典中包含训练集中所有的文字,能够将Query的每个文字转化为对应的数字ID。
这里,特征抽取层还能够构造Cls符号用于表示整个句子,其输出向量可以表示整个Query的低维度信息(即Embedding信息,相当于上述的表征文本的类型的特征),一般用作文本句分类时使用。
在一些实施例中,特征抽取层的输出是对应Query的每个文字的字向量(即上述的字特征向量)和Cls部分的信息。在实体识别的应用场景中,只需要使用对应Query的每个文字的字向量即可;在文本句分类时的应用场景中,可以直接使用输出的Cls部分的信息。
这里,对应每个文字的字向量和Cls部分的信息的维度均是768维度。
(2)中间特征层
在一些实施例中,根据自定义的实体字典,在特征抽取层输出的768维度的字向量的基础上,拼接40维度的对应每个文字的自定义字典信息(即对应图6的第4列特征,或称实体字典特征,相当于上述的字典向量)。如此,即在中间特征层中完成将特征抽取层的输出与自定义字典向量的拼接过程。
在一些实施例中,基于Word2vec的算法,获得对应Query的每一个文字的Bi-gram词向量(或称Bi-gram特征),其中,Bi-gram词向量的维度是200维度。中间特征层还能够将特征抽取层的输出、自定义字典向量以及Bi-gram词向量进行拼接。
(3)CRF解码层
在一些实施例中,将对应Query的每一个文字的768维度的字向量、40维度的字典向量以及200维度的Bi-gram词向量进行拼接,获得768+40+200=1008维度的向量(即上述的拼接向量);再通过CRF解码层对拼接后的向量进行标注。
这里,CRF解码层在给每个文字对应的拼接后的向量进行概率标注时,会同时考虑各个文字的向量信息和各个标签(Label)的转移矩阵信息,从而能够避免同时出现两个表征实体首字的“B”标签;另外由于CRF解码层考虑了整个句子全局的最优概率,还能够解决标注偏置问题。
在一些实施例中,训练语料选取众测的实体语料;测试语料选取真实用户的日志数据,数据分布符合真实用户分布。
下面说明本发明实施例和相关技术之间的效果对比。
参见表1和表2,表1和表2是本发明实施例和相关技术之间的效果对比表。表1中的情况一中,输入至CRF模型的特征是特征抽取层输出的对应Query的每个文字的字向量;情况二中,输入至CRF模型的特征是将特征抽取层输出的对应Query的每个文字的字向量和字典向量进行拼接后所获得的向量;情况三中,输入至CRF模型的特征是将特征抽取层输出的对应Query的每个文字的字向量、字典向量以及Bi-gram词向量进行拼接后所获得的向量。
通过表1可知,本发明实施例相较于相关技术而言,虽然精确率P值有一定的下降,但召回率R值有较大幅度的提升,其整体的综合值F值提升较为明显。因此,本发明实施例的整体效果还是明显优于相关技术。
表1本发明实施例和相关技术之间的效果对比表
表2本发明实施例和相关技术之间的效果对比表
本发明实施例相较于相关技术减少了很多特征工程部分的工作量,有利于提高模型开发迭代效率。
基于多任务学习方面的进展,相似的任务合在一起会对总体效果会有一定提升。基于这个原理,本发明实施例考虑到媒资类意图的Query语料的相似性特点,综合了音乐(Music)类、视频(Video)类、电台(FM,Frequency Modulation)类等多个意图的语料,利用相似意图之间Query语料表述的相似性信息,对语料进行增强,发现提升了实体识别的效果。同时,这样又增加了训练语料的数量,避免模型出现过拟合的问题,从而提高了实体识别的准确性。
在一些实施例中,针对深度学习需要大量训练数据的场景,本发明实施例中还可以增加数据增强的技术。例如,在训练数据中,实体标注部分可以相互替换以添加更多的训练数据,并且实体标注之外的语料库(Corpus)部分也可以采用辅助近义词替换等技术,还可以继续从用户日志中挖掘训练数据等,均能够增加更多的样本数据,以实现继续优化模型的效果。
综上所述,本发明实施例具有以下有益效果:
1)无需人工构建特征,能够自动从文本中提取对应每个文字的字特征向量,实现了特征工程这一步自动化的演变,相较于相关技术,自动化特征工程可以大大的减少工作量。
2)选取和文本类型一致的实体字典,能够准确提取文本中每个文字对应的字典向量,提高了后续进行实体识别的准确性。
3)针对拼接后的向量进行分类处理,可以综合多个维度对文本中的文字进行类别标注,从而可以提高实体识别的准确性,以及提高实体识别的效率。
4)通过分类器对文本中的每个文字进行类别标注,分类过程简单,且分类速度较快,提高了实体识别的效率。
5)在对文本中的每个文字进行标注时,不仅会考虑每个文字属于相应标签的概率,还会考虑整个文本全局的最优概率,可以避免出现标注偏置的问题。具体的,本发明实施例考虑文本中每个文字所对应的标签和相邻文字所对应的标签之间的关联程度,从而可以避免针对同一个文本标注的类型中表征文字在所属的相同实体中的位置是首字的标签出现于表征文字在所属的相同实体中的位置是非首字的标签之后的情况;还考虑每个文字所对应的标签和文本之间的关联程度,从而可以避免针对同一个文本标注的类型中同时出现两个表征文字在所属的相同实体中的位置是首字的情况,减小了识别文本中的实体和实体类型的误差,提升了识别的准确性。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (10)
1.一种文本中实体识别方法,其特征在于,所述方法包括:
对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并
根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
2.根据权利要求1所述的方法,其特征在于,所述对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量,包括:
在映射字典中查询所述文本中每个文字对应的数字标识;
将所述每个文字对应的数字标识转换为向量的形式,以获得所述每个文字对应的字特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量,包括:
确定所述文本所属的类型;
确定对应所述文本所属的类型的实体字典;
在所述实体字典中,查询对应所述文本中每个文字的字典向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量,包括:
在所述文本中截取字数长度为预设值的多个词语;
将截取的每个所述词语进行编码,以获得一一对应的多个编码序列;
将对应每个所述词语的编码序列映射为对应所述词语的词向量。
5.根据权利要求1所述的方法,其特征在于,所述将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量,包括:
确定对应同一个文字的字特征向量、字典向量以及词向量;
将所述字特征向量、所述字典向量以及所述词向量所包含的每个维度进行叠加,并在叠加后的维度中填充对应所述维度的标量,以获得对应所述文字的拼接向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,包括:
将每个文字对应的拼接向量映射为分别属于不同候选标签的概率;
其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;
将最大概率所对应的候选标签确定为所述文字对应的标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,包括:
将所述每个文字对应的拼接向量分别映射为多个不同的候选标签,并分别确定将所述拼接向量映射为每个所述候选标签对应的转移分数;
其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的位置,或者,用于指示所述文字属于无关字符;
根据所述每个文字对应的多个候选标签、以及相应的转移分数,确定所述每个文字对应的标签。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个文字对应的多个候选标签、以及相应的转移分数,确定所述每个文字对应的标签,包括:
按照所述每个文字在所述文本中的出现顺序,在所述每个文字对应的多个候选标签中多次选取候选标签,并将每次选取的候选标签进行组合,以获得多个不同的候选标签序列;
其中,每次选取的候选标签序列中所包含的多个候选标签归属于不同的文字、且所包含的候选标签的数量和所述文本的字数相同;
将所述候选标签序列中每个候选标签对应的转移分数进行累加,以得到整体转移分数;
将所述整体转移分数最大的候选标签序列中所包含的多个候选标签,确定为相应的文字所对应的标签类别。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型,包括:
将所述文本中位置连续、且对应的标签指示为同一实体的类型的文字识别为同一个实体,并
将所述标签所指示的实体的类型识别为所述同一实体的类型。
10.一种文本中实体识别装置,其特征在于,所述装置包括:
特征抽取模块,用于对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
字典模块,用于根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
分词模块,用于对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
拼接模块,用于将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
识别模块,用于根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010533173.5A CN111695345B (zh) | 2020-06-12 | 2020-06-12 | 文本中实体识别方法、以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010533173.5A CN111695345B (zh) | 2020-06-12 | 2020-06-12 | 文本中实体识别方法、以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695345A true CN111695345A (zh) | 2020-09-22 |
CN111695345B CN111695345B (zh) | 2024-02-23 |
Family
ID=72480580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010533173.5A Active CN111695345B (zh) | 2020-06-12 | 2020-06-12 | 文本中实体识别方法、以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695345B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364656A (zh) * | 2021-01-12 | 2021-02-12 | 北京睿企信息科技有限公司 | 一种基于多数据集多标签联合训练的命名实体识别方法 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及***、电子设备及存储介质 |
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
CN112906381A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 对话归属的识别方法、装置、可读介质和电子设备 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113505587A (zh) * | 2021-06-23 | 2021-10-15 | 科大讯飞华南人工智能研究院(广州)有限公司 | 实体抽取方法及相关装置、设备和存储介质 |
CN113673249A (zh) * | 2021-08-25 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、设备及存储介质 |
CN113705232A (zh) * | 2021-03-03 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本处理方法及装置 |
CN113868419A (zh) * | 2021-09-29 | 2021-12-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165280A (zh) * | 2018-09-13 | 2019-01-08 | 安徽倍思特教育科技有限公司 | 一种教育培训用的信息咨询*** |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及*** |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和*** |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询*** |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
US20200302118A1 (en) * | 2017-07-18 | 2020-09-24 | Glabal Tone Communication Technology Co., Ltd. | Korean Named-Entity Recognition Method Based on Maximum Entropy Model and Neural Network Model |
-
2020
- 2020-06-12 CN CN202010533173.5A patent/CN111695345B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200302118A1 (en) * | 2017-07-18 | 2020-09-24 | Glabal Tone Communication Technology Co., Ltd. | Korean Named-Entity Recognition Method Based on Maximum Entropy Model and Neural Network Model |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及*** |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询*** |
CN109165280A (zh) * | 2018-09-13 | 2019-01-08 | 安徽倍思特教育科技有限公司 | 一种教育培训用的信息咨询*** |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和*** |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及***、电子设备及存储介质 |
CN112487813B (zh) * | 2020-11-24 | 2024-05-10 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及***、电子设备及存储介质 |
CN112364656A (zh) * | 2021-01-12 | 2021-02-12 | 北京睿企信息科技有限公司 | 一种基于多数据集多标签联合训练的命名实体识别方法 |
CN112906381A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 对话归属的识别方法、装置、可读介质和电子设备 |
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
CN112906381B (zh) * | 2021-02-02 | 2024-05-28 | 北京有竹居网络技术有限公司 | 对话归属的识别方法、装置、可读介质和电子设备 |
CN113705232A (zh) * | 2021-03-03 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本处理方法及装置 |
CN113705232B (zh) * | 2021-03-03 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 文本处理方法及装置 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113505587A (zh) * | 2021-06-23 | 2021-10-15 | 科大讯飞华南人工智能研究院(广州)有限公司 | 实体抽取方法及相关装置、设备和存储介质 |
CN113505587B (zh) * | 2021-06-23 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 实体抽取方法及相关装置、设备和存储介质 |
CN113673249A (zh) * | 2021-08-25 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、设备及存储介质 |
CN113868419A (zh) * | 2021-09-29 | 2021-12-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
CN113868419B (zh) * | 2021-09-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111695345B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695345A (zh) | 文本中实体识别方法、以及装置 | |
US11308937B2 (en) | Method and apparatus for identifying key phrase in audio, device and medium | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
CN110795552A (zh) | 一种训练样本生成方法、装置、电子设备及存储介质 | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
CN111739520B (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN107908743B (zh) | 人工智能应用构建方法和装置 | |
CN116738233A (zh) | 在线训练模型的方法、装置、设备及存储介质 | |
CN109670033A (zh) | 内容的检索方法、装置、设备及存储介质 | |
CN111399629A (zh) | 一种终端设备的操作引导方法、终端设备及存储介质 | |
CN115394321A (zh) | 音频情感识别方法、装置、设备、存储介质及产品 | |
CN115148212A (zh) | 一种语音交互方法、智能设备及*** | |
CN110795547A (zh) | 文本识别方法和相关产品 | |
WO2022160445A1 (zh) | 语义理解方法、装置、设备及存储介质 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN116662657A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN113763947B (zh) | 一种语音意图识别方法、装置、电子设备及存储介质 | |
CN112632962B (zh) | 人机交互***中实现自然语言理解方法和装置 | |
CN114239601A (zh) | 语句的处理方法、装置及电子设备 | |
CN111353035B (zh) | 人机对话方法、装置、可读存储介质及电子设备 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN113705163A (zh) | 实体提取方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |