CN109933788A - 类型确定方法、装置、设备和介质 - Google Patents

类型确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN109933788A
CN109933788A CN201910114557.0A CN201910114557A CN109933788A CN 109933788 A CN109933788 A CN 109933788A CN 201910114557 A CN201910114557 A CN 201910114557A CN 109933788 A CN109933788 A CN 109933788A
Authority
CN
China
Prior art keywords
target
entity
target entity
target text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910114557.0A
Other languages
English (en)
Other versions
CN109933788B (zh
Inventor
张强
冯知凡
任可欣
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910114557.0A priority Critical patent/CN109933788B/zh
Publication of CN109933788A publication Critical patent/CN109933788A/zh
Application granted granted Critical
Publication of CN109933788B publication Critical patent/CN109933788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种类型确定方法、装置、设备和介质。该方法包括:识别目标文本中的目标实体;根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。本发明实施例提供一种类型确定方法、装置、设备和介质,以实现对实体类型的自动识别,同时使得识别结果具有可解释性和可扩展性。

Description

类型确定方法、装置、设备和介质
技术领域
本发明实施例涉及自然语言处理领域,尤其涉及一种类型确定方法、装置、设备和介质。
背景技术
实体识别及其类型的确定是信息提取、问答***、知识图谱等领域的重要工具,是让机器理解文本信息的重要基础。
比如,李白既可以是指类型为人物的实体,也可以是指类型为歌曲的实体。网页中有这样一句话:李白这首曲子是我的最爱。实体类型的确定是指,确定句子中的李白是人物还是歌曲。
传统的实体类型确定技术方案主要有:
基于规则和词典的方法。由语言专家手工构造规则模板,选用特征诸如标点符号、关键字和指示词,以模式和字符串匹配为主要技术手段。
然而,基于规则和字典的方法,因为需要领域专家配置规则,所以很难扩展到多领域,也即***可移植性低。同时,领域专家配置规则的人力成本较大。
发明内容
本发明实施例提供一种类型确定方法、装置、设备和介质,以实现对实体类型的自动识别,同时使得识别结果具有可解释性和可扩展性。
第一方面,本发明实施例提供了一种类型确定方法,该方法包括:
识别目标文本中的目标实体;
根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
第二方面,本发明实施例还提供了一种类型确定装置,该装置包括:
实体识别模块,用于识别目标文本中的目标实体;
类型确定模块,用于根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的类型确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的类型确定方法。
本发明实施例通过根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。从而实现目标实体类型的自动识别。通过断开先验知识的应用后,查看目标实体类型的确定准确率是否下降,从而对类型的识别结果进行解释。通过增加先验知识可以实现对目标实体的类型的扩展。
附图说明
图1为本发明实施例一提供的一种类型确定方法的流程图;
图2是本发明实施例二提供的一种类型确定方法的流程图;
图3是本发明实施例三提供的一种类型确定方法的流程图;
图4是本发明实施例四提供的一种类型确定装置的结构示意图;
图5为本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种类型确定方法的流程图。本实施例可适用于对文本中的实体进行类型识别的情况,典型的,可以适用于对句子中的多义实体进行类型识别的情况。该方法可以由一种类型确定装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本发明实施例提供的类型确定方法包括:
S110、识别目标文本中的目标实体。
其中,目标实体是待确定类型的实体。实体是具体的人或事物。比如,诗人李白、歌曲李白等,明星、教授等抽象概念不是实体。目标实体可以是具有唯一类型的实体,也可以是具有至少两种类型的实体。
例如,唯一类型的实体可以是天安门城楼,至少两种类型的实体可以是苹果、李白等。
目标文本是目标实体所在的文本,典型地该文本可以是句子。
目标实体的识别可以是现有技术中任一可实现的方法,本实施例对此不做限定。
S120、根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
其中,先验知识可以是包括实体所属各类型的解释。
其他词语是指目标文本中除目标实体以外的词语。
具体地,实体的先验知识可以从百科信息或知识图谱中获取。
可选地,先验知识还可以包括实体所属各类型的点击量。
类型是目标实体所属语义的类型。例如李白的类型可以是人物,也可以是歌曲。
本发明实施例的技术方案,通过根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。从而实现目标实体类型的自动识别。通过断开先验知识的应用后,查看目标实体类型的确定准确率是否下降,从而对类型的识别结果进行解释。通过增加先验知识可以实现对目标实体的类型的扩展。
实施例二
图2是本发明实施例二提供的一种类型确定方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的类型确定方法包括:
S210、识别目标文本中的目标实体。
S220、根据目标实体在目标文本中的上下文信息,确定目标实体与目标文本中其他词语的语义关系。
其中,所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的各文字、目标文本包括的词语和各词语的词性中的至少一种。
典型的,将目标实体在目标文本中的上下文信息输入长短期网络(Long ShortTerm网络,LSTM网络),输出目标实体与目标文本中除目标实体以外的词语的语义关系。
S230、根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
本发明实施例的技术方案,通过包括目标实体、目标实体在目标文本中的位置、目标文本包括的各文字、目标文本包括的各词语和各词语的词性中的至少一种的多维度上下文信息,确定目标实体与目标文本中除目标实体以外的词语的语义关系。从而提高语义关系的确定准确率,进而提高类型的确定准确率。
具体地,将目标实体所处上下文信息中各维度信息进行向量转换,生成各维度信息向量;
将各维度信息向量首尾串联后,输入长短期网络,输出目标实体与目标文本中除目标实体以外的词语的语义关系。
然而,发明人在实现上述方法的过程中发现,由于串联后各维度信息向量中描述相同目标文本内容的特征表示之间的距离较远,从而导致目标实体与目标文本中除目标实体以外的词语的语义关系的学习准确率低。也即目标实体所处上下文信息中各维度信息的向量的组合方式不利于上述语义关系的学习。
为了更好的学习目标实体与目标文本中除目标实体以外的词语的语义关系,所述根据目标实体在目标文本中的上下文信息,确定目标实体与目标文本中除目标实体以外的词语的语义关系,包括:
对目标实体在目标文本中的各维度上下文信息进行特征表示转换,生成各维度信息特征表示;
根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置;
根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。
其中,所述上下文信息特征表示包括各维度信息特征表示。各维度特征表示和上下文信息特征表示可以是向量,也可以是多行或多列的矩阵。
具体地,根据各维度信息特征表示描述的句子内容,确定各维度信息特征表示在上下文信息特征表示中的位置,包括:
将各维度信息特征表示中描述相同目标文本内容的特征表示,在上下文信息特征表示中的位置集中设置。
换而言之,也就是将各维度信息特征表示中描述相同目标文本内容的特征表示排列在一起。从而通过上下文信息特征表示中距离相对较近的特征表示,更好的学习目标实体与目标文本中其他词语之间的语义关系。
典型地,所述根据各维度信息特征表示描述的句子内容,确定各维度信息特征表示在上下文信息特征表示中的位置,包括:
将包括目标实体向量和目标文本中的各字向量的序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量;
将目标实体在目标文本中的位置向量作为列向量,分别设置在目标矩阵的两侧,将经过行向量和列向量设置的目标矩阵作为上下文信息特征表示。
其中,通过将包括目标实体向量和目标文本中的各字向量的序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量。从而使得描述相同目标文本内容的元素位于目标矩阵的相同列或相邻列中。
实施例三
图3是本发明实施例三提供的一种类型确定方法的流程图。本实施例是在上述实施例的基础上,提出的一种可选方案。参见图3,本实施例提供的类型确定方法包括:
输入目标文本;对输入的目标文本进行实体识别,确定目标实体;对目标文本进行分词,将分词结果映射到向量空间得到句子的词向量序列;对目标文本进行句法分析,得到句中的每个词的词性信息,并将词性信息映射到向量空间,生成词性向量序列;将目标文本中的实体和每个字进行字向量映射,得到包括目标实体和目标文本的字向量序列;将目标实体在目标文本中的位置映射为位置向量。
将包括目标实体和目标文本的字向量序列、词向量序列和词性向量序列作为目标矩阵的各行;将目标实体在目标文本中的位置向量作为列向量,分别设置在目标文本的两侧,将经过行向量设置和列向量设置的目标矩阵作为上下文信息矩阵。
将生成的上下文信息矩阵作为上下文信息输入到深度神经网络中的输入层;接着通过双向LSTM网络的处理,得到语境向量。语境向量之上会加入一层dropout(图3未示出),其中dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,以便于增强模型的泛化性能。
获取目标实体在百科和知识图谱中各类型的解释和各类型解释的浏览量(也即点击量);将获取的各类型的解释进行向量转换,生成先验类型向量;并且将获取的各类型解释的浏览量标准化,生成页面浏览向量。
将语境向量、先验类型向量和页面浏览向量拼接后输入全连接层,经与全链接层连接的输出层输出对目标实体的分类结果。
本方案的整体思路是:将实体及其周围的语境句子向量化,即用一个实数向量来在语义空间中来表达一个句子。再将向量输入深度神经网络来训练分类模型。同时本方案充分利用外部已知的先验信息,如已经建立的知识库实体数据和公开的百科信息。
本实施例具有如下特点:
通过融入百科和知识图谱中实体各类型的先验信息,从而实现对实体进行更多类型的确定。能够进行多种类型预测
其中,更多类型包括:人物、时间历法、区域场所、食品、组织机构、事件活动、生物、疾病症状、品牌、物品、作品、软件、网站平台、药物、自然地理和游戏等。
发明人在实现本发明的过程中发现仅使用深度神经网络模型存在可解释性差和优化困难的问题。而本实施例通过将深度神经网络与百科等知识工程先验知识的结合,从而使得对实体分类结果的可解释性和可扩展性。
示例性的,可解释性体现在:当断开先验知识的应用,实体分类结果的确定准率下降;接入先验知识的应用,实体分类结果的确定准确率上升。
可扩展性体现在,目标实体在原有类型仅是人物和歌曲的基础上,新增了一种类型是品牌。通常百科会及时将品牌加入目标实体的语义解释中。而本实施例通过更新后的百科信息中的品牌语义解释,可以确定出目标实体的类型为品牌。从而实现基于百科中的更新信息,对目标实体进行新的类型的确定。
本发明实施例通过将深度神经网络与百科等知识工程先验知识相结合,从而实现如下有益效果:
(1)不需要大量的人力成本编写语法规则,易扩展到不同类型的语言上。
(2)在保证准确率的前提下,可以实现更多类型的确定。
(3)克服了深度神经网络的黑箱问题,并方便产品使用方随时通过先验知识为模型加入最新知识。
需要说明的是,经过本实施例的技术教导,本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合,以实现对实体类型的确定。
实施例四
图4是本发明实施例四提供的一种类型确定装置的结构示意图。参见图4,本实施例提供的类型确定装置包括:实体识别模块10和类型确定模块20。
其中,实体识别模块10,用于识别目标文本中的目标实体;
类型确定模块20,用于根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
本发明实施例的技术方案,通过根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。从而实现目标实体类型的自动识别。通过断开先验知识的应用后,查看目标实体类型的确定准确率是否下降,从而对类型的识别结果进行解释。通过增加先验知识可以实现对目标实体的类型的扩展。
进一步地,所述装置,还包括:语义关系确定模块。
语义关系确定模块,用于所述根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型之前,根据目标实体在目标文本中的上下文信息,确定目标实体与目标文本中除目标实体以外的词语的语义关系,其中所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的各文字、目标文本包括的各词语和各词语的词性中的至少一种。
进一步地,所述语义关系确定模块,包括:特征表示单元、位置确定单元和语义关系确定单元。
特征表示单元,用于对目标实体在目标文本中各维度的上下文信息进行特征表示转换,生成各维度信息特征表示;
位置确定单元,用于根据各维度信息特征表示描述的句子内容,确定各维度信息特征表示在上下文信息特征表示中的位置;
语义关系确定单元,用于根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。
进一步地,所述位置确定单元,具体用于:
将包括目标实体和目标文本的字向量序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量;
将目标实体在目标文本中的位置向量作为列向量,分别设置在目标矩阵的两侧,将经过行向量和列向量设置的目标矩阵作为上下文信息特征表示。
进一步地,所述目标实体的先验知识包括目标实体各类型的解释。
本发明实施例所提供的类型确定装置可执行本发明任意实施例所提供的类型确定方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的类型确定方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的类型确定方法,该方法包括:
识别目标文本中的目标实体;
根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种类型确定方法,其特征在于,包括:
识别目标文本中的目标实体;
根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
2.根据权利要求1所述的方法,其特征在于,根据目标实体在目标文本中的上下文信息,确定所述目标实体与所述目标文本中其他词语的所述语义关系,其中所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的字、目标文本包括的词语和各词语的词性中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据目标实体在目标文本中的上下文信息,确定所述目标实体与所述目标文本中其他词语的所述语义关系,包括:
对目标实体在目标文本中各维度的上下文信息进行特征表示转换,生成各维度信息特征表示;
根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置;
根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。
4.根据权利要求3所述的方法,其特征在于,所述根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置,包括:
将包括目标实体和目标文本的字向量序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量;
将目标实体在目标文本中的位置向量作为列向量,分别设置在目标矩阵的两侧,将经过行向量和列向量设置的目标矩阵作为上下文信息特征表示。
5.根据权利要求1所述的方法,其特征在于,所述目标实体的先验知识包括目标实体所属各类型的解释。
6.一种类型确定装置,其特征在于,包括:
实体识别模块,用于识别目标文本中的目标实体;
类型确定模块,用于根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。
7.根据权利要求6所述的装置,其特征在于,还包括:
语义关系确定模块,用于根据目标实体在目标文本中的上下文信息,确定所述目标实体与所述目标文本中其他词语的语义关系,其中所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的字、目标文本包括的词语和各词语的词性中的至少一种。
8.根据权利要求7所述的装置,其特征在于,所述语义关系确定模块,包括:
特征表示单元,用于对目标实体在目标文本中各维度的上下文信息进行特征表示转换,生成各维度信息特征表示;
位置确定单元,用于根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置;
语义关系确定单元,用于根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。
9.根据权利要求8所述的装置,其特征在于,所述位置确定单元,具体用于:
将包括目标实体和目标文本的字向量序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量;
将目标实体在目标文本中的位置向量作为列向量,分别设置在目标矩阵的两侧,将经过行向量和列向量设置的目标矩阵作为上下文信息特征表示。
10.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的类型确定方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的类型确定方法。
CN201910114557.0A 2019-02-14 2019-02-14 类型确定方法、装置、设备和介质 Active CN109933788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114557.0A CN109933788B (zh) 2019-02-14 2019-02-14 类型确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114557.0A CN109933788B (zh) 2019-02-14 2019-02-14 类型确定方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109933788A true CN109933788A (zh) 2019-06-25
CN109933788B CN109933788B (zh) 2023-05-23

Family

ID=66985552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114557.0A Active CN109933788B (zh) 2019-02-14 2019-02-14 类型确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN109933788B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质

Citations (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061245A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location based presentation of mobile content
US20120005007A1 (en) * 2005-09-14 2012-01-05 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US20130218861A1 (en) * 2012-02-22 2013-08-22 Peter Jin Hong Related Entities
CN104598601A (zh) * 2015-01-27 2015-05-06 北京齐尔布莱特科技有限公司 一种对用户和内容进行分类的方法、装置及计算设备
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
US20150186511A1 (en) * 2013-12-31 2015-07-02 Google Inc. Methods, systems, and media for generating search results based on contextual information
CN104918324A (zh) * 2014-03-13 2015-09-16 电信科学技术研究院 一种定位方法的选择、控制方法及装置
CN105022754A (zh) * 2014-04-29 2015-11-04 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
CN105912700A (zh) * 2016-04-26 2016-08-31 上海电机学院 一种基于tmpp模型的摘要生成方法
CN105931294A (zh) * 2016-04-19 2016-09-07 西南交通大学 一种将bim实体模型转换为多细节层次gis标准化模型的方法
CN106127857A (zh) * 2016-06-24 2016-11-16 南京林业大学 综合数据驱动与模型驱动的机载LiDAR数据建模方法
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机***有限公司 命名实体识别方法及装置
CN106557462A (zh) * 2016-11-02 2017-04-05 数库(上海)科技有限公司 命名实体识别方法和***
CN106910501A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
US20180025010A1 (en) * 2005-09-14 2018-01-25 Millennial Media Llc Presentation of search results to mobile devices based on viewing history
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107688460A (zh) * 2016-06-28 2018-02-13 江苏华扬信息科技有限公司 一种面向法语法的句群级语境形式化方法
US20180046717A1 (en) * 2012-02-22 2018-02-15 Google Inc. Related entities
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108062423A (zh) * 2018-01-24 2018-05-22 北京百度网讯科技有限公司 信息推送方法和装置
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN108171213A (zh) * 2018-01-22 2018-06-15 北京邮电大学 一种适用图文知识图谱的关系抽取方法
CN108304368A (zh) * 2017-04-20 2018-07-20 腾讯科技(深圳)有限公司 文本信息的类型识别方法和装置及存储介质和处理器
CN108305317A (zh) * 2017-08-04 2018-07-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN108470035A (zh) * 2018-02-05 2018-08-31 延安大学 一种基于判别混合模型的实体-引文相关性分类方法
CN108549667A (zh) * 2018-03-23 2018-09-18 绍兴诺雷智信息科技有限公司 一种结构化工程设计知识的语义检索方法
CN108664310A (zh) * 2018-05-22 2018-10-16 平安科技(深圳)有限公司 显示框处理方法、装置、计算机设备和存储介质
CN108830083A (zh) * 2018-05-24 2018-11-16 东南大学 一种基于输出点语境的xss漏洞检测参数自动生成方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及***
CN108875451A (zh) * 2017-05-10 2018-11-23 腾讯科技(深圳)有限公司 一种定位图像的方法、装置、存储介质和程序产品
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109241286A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 用于生成文本的方法和装置
CN109271516A (zh) * 2018-09-26 2019-01-25 清华大学 一种知识图谱中实体类型分类方法及***

Patent Citations (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005007A1 (en) * 2005-09-14 2012-01-05 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US20070061245A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location based presentation of mobile content
US20180025010A1 (en) * 2005-09-14 2018-01-25 Millennial Media Llc Presentation of search results to mobile devices based on viewing history
US20130218861A1 (en) * 2012-02-22 2013-08-22 Peter Jin Hong Related Entities
US20180046717A1 (en) * 2012-02-22 2018-02-15 Google Inc. Related entities
US20160357868A1 (en) * 2012-02-22 2016-12-08 Google Inc. Related entities
EP3090362A1 (en) * 2013-12-31 2016-11-09 Google, Inc. Methods, systems, and media for generating search results based on contextual information
US20180307752A1 (en) * 2013-12-31 2018-10-25 Google Llc Methods, systems, and media for generating search results based on contextual information
US20150186511A1 (en) * 2013-12-31 2015-07-02 Google Inc. Methods, systems, and media for generating search results based on contextual information
CN104918324A (zh) * 2014-03-13 2015-09-16 电信科学技术研究院 一种定位方法的选择、控制方法及装置
CN105022754A (zh) * 2014-04-29 2015-11-04 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
CN104598601A (zh) * 2015-01-27 2015-05-06 北京齐尔布莱特科技有限公司 一种对用户和内容进行分类的方法、装置及计算设备
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机***有限公司 命名实体识别方法及装置
CN105931294A (zh) * 2016-04-19 2016-09-07 西南交通大学 一种将bim实体模型转换为多细节层次gis标准化模型的方法
CN105912700A (zh) * 2016-04-26 2016-08-31 上海电机学院 一种基于tmpp模型的摘要生成方法
CN106127857A (zh) * 2016-06-24 2016-11-16 南京林业大学 综合数据驱动与模型驱动的机载LiDAR数据建模方法
CN107688460A (zh) * 2016-06-28 2018-02-13 江苏华扬信息科技有限公司 一种面向法语法的句群级语境形式化方法
CN106557462A (zh) * 2016-11-02 2017-04-05 数库(上海)科技有限公司 命名实体识别方法和***
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN106910501A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN108304368A (zh) * 2017-04-20 2018-07-20 腾讯科技(深圳)有限公司 文本信息的类型识别方法和装置及存储介质和处理器
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法
CN108875451A (zh) * 2017-05-10 2018-11-23 腾讯科技(深圳)有限公司 一种定位图像的方法、装置、存储介质和程序产品
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN108305317A (zh) * 2017-08-04 2018-07-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108171213A (zh) * 2018-01-22 2018-06-15 北京邮电大学 一种适用图文知识图谱的关系抽取方法
CN108062423A (zh) * 2018-01-24 2018-05-22 北京百度网讯科技有限公司 信息推送方法和装置
CN108470035A (zh) * 2018-02-05 2018-08-31 延安大学 一种基于判别混合模型的实体-引文相关性分类方法
CN108549667A (zh) * 2018-03-23 2018-09-18 绍兴诺雷智信息科技有限公司 一种结构化工程设计知识的语义检索方法
CN108664310A (zh) * 2018-05-22 2018-10-16 平安科技(深圳)有限公司 显示框处理方法、装置、计算机设备和存储介质
CN108830083A (zh) * 2018-05-24 2018-11-16 东南大学 一种基于输出点语境的xss漏洞检测参数自动生成方法
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及***
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109241286A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 用于生成文本的方法和装置
CN109271516A (zh) * 2018-09-26 2019-01-25 清华大学 一种知识图谱中实体类型分类方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109933788B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN106940788B (zh) 智能评分方法及装置、计算机设备及计算机可读介质
CN109670029A (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN105210055B (zh) 根据跨语种短语表的断词器
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
US11709893B2 (en) Search method, electronic device and storage medium
CN110175336A (zh) 翻译方法、装置和电子设备
US11487971B2 (en) Multi-dimensional language style transfer
CN109408834A (zh) 辅助机器翻译方法、装置、设备及存储介质
CN111177351A (zh) 基于规则的自然语言表达意图获取方法、装置和***
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质
CN112836487A (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN109189882A (zh) 序列内容的回答类型识别方法、装置、服务器和存储介质
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
CN110222139A (zh) 道路实体数据去重方法、装置、计算设备和介质
Chang et al. Automated Chinese essay scoring based on multilevel linguistic features
WO2020005616A1 (en) Generation of slide for presentation
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116561592B (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant