CN108415950B - 一种上位词聚合方法及装置 - Google Patents
一种上位词聚合方法及装置 Download PDFInfo
- Publication number
- CN108415950B CN108415950B CN201810100677.0A CN201810100677A CN108415950B CN 108415950 B CN108415950 B CN 108415950B CN 201810100677 A CN201810100677 A CN 201810100677A CN 108415950 B CN108415950 B CN 108415950B
- Authority
- CN
- China
- Prior art keywords
- processed
- hypernyms
- hypernym
- word vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理技术,特别涉及一种上位词聚合方法及装置。用以提高上位词聚合的精准性。该方法为:终端设备根据各个上位词包含的字向量计算各个上位词之间的词向量相似度,以及根据各个上位词对应的实体所关联的实体类型计算各个上位词之间的实体类型相似度,并将词向量相似度达到第一预设门限且实体类型相似度达到第二预设门限的各个上位词进行聚合;这样,可以有效处理类似上位词这样的短文本,既可以有效地挖掘出上位词包含的文本键信息,又可以准确地刻画出上位词的类型特征,同时不仅可以避免人工设计特征的繁杂工作量,而且可以增强模型的泛化能力,有效地识别无效上位词,去除上位词中的冗余数据,显著提高了上位词聚合的精准性。
Description
技术领域
本发明涉及信息处理技术,特别涉及一种上位词聚合方法及装置。
背景技术
在基于知识图谱产生的上位词网络中,为了避免出现上位词冗余问题,通常需要对具有相同语义的上位词进行聚合,即针对同一语义,抽取到采用不同表达方式的上位词并进行合并。例如:关于单反相机的上位词有:“一台单反相机”、“俗称的单反相机”、“单反照相机”“LR camera”等,这些具有相同语义但描述各不相同的上位词称之为相同语义上位词。把这些相同语义上位词合并在一起并用一个共同名字表示的过程称之为上位词的聚合过程。合并具有相同语义的上位词可以减小上位词网络的冗余问题,提高上位词网络的质量。
已有技术中,通常会采用两种方式实现上位词聚合。
第一种方式为:主要是针对相似语义文本进行聚类。
常见的方法通常会利用词向量、词袋模型、主题模型等等特征来表示文本,然后利用常见的聚类算法,如:k-means,层次聚类,谱聚类等方法来获取相似文本集合。
采用第一种方式可以把字数相对较多的相似语义文本聚合在一起,即只能满足相似语义的长文本的聚合任务,其聚合精准性较低。
而对相同语义的上位词进行聚合是一种高精度语义聚类任务,因此,第一种方式难以有效地解决。
第二种方式为:主要从字符串相似角度出发,利用编辑距离等方法来合并表述非常相似的短文本。
采用第二种方式可以解决相同语义的上位词的聚合问题,但是,此种方式只是捕捉上位词的字符串信息,并通过计算字符串之间的相似度来判断二者是否表述同一个事物。而实际上,同一个事物往往会有不同的描述方式,如:“儿童”和“小孩”,二者语义一样,但是字符串完全不同。因此,采用基于编辑距离的方式合并具有相似语义的上位词也具有一定的局限性。
有鉴于此,需要重新设计一种上位词聚合的方法以克服上述缺陷。
发明内容
本发明实施例提供一种上位词聚合方法及装置,用以提高上位词聚合的精准性。
本发明实施例提供的具体技术方案如下:
一种上位词聚合方法,包括:
获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量;
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量;
分别确定各个待处理上位词在知识图谱中关联的实体类型;
基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
一种上位词聚合装置,包括:
第一确定单元,用于获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量,以及基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量;
第二确定单元,用于分别确定各个待处理上位词在知识图谱中关联的实体类型;
计算单元,用于基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
聚合单元,用于当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
一种存储介质,存储用于实现上位词聚合方法的程序,所述程序被处理器运行时,执行以下步骤:
获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量;
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量;
分别确定各个待处理上位词在知识图谱中关联的实体类型;
基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
一种计算机装置,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述任意一种方法。
本发明实施例中,终端设备根据各个上位词包含的字向量计算各个上位词之间的词向量相似度,以及根据各个上位词对应的实体所关联的实体类型计算各个上位词之间的实体类型相似度,并将词向量相似度达到第一预设门限且实体类型相似度达到第二预设门限的各个上位词进行聚合;由于上位词通常是由少许几个字构成,利用传统的分词操作会带来较大的误差以及信息损失,因此,本发明实施例中,基于上位词包含的字向量所表征的词向量以及基于上位词关联的实体类型来进行上位词之间的相似度判断,可以有效处理类似上位词这样的短文本,既可以有效地挖掘出上位词包含的文本键信息,又可以准确地刻画出上位词的类型特征,同时不仅可以避免人工设计特征的繁杂工作量,而且可以增强模型的泛化能力,有效地识别无效上位词,去除上位词中的冗余数据,显著提高了上位词聚合的精准性。
附图说明
图1为已有技术下知识图谱举例示意图;
图2为已有技术下实体类型举例示意图;
图3为本发明实施例中基于知识图谱进行上位词聚合流程示意图;
图4A为本发明实施例中待处理上位词与实体之间的关联示意图;
图4B为本发明实施例中实体和实体类型之间的关联示意图;
图5为本发明实施例中终端设备功能结构示意图;
图6为本发明实施例中计算机设备功能结构示意图。
具体实施方式
为了提高上位词聚合的精准性,本发明实施例中,通过各个待处理上位词包含的字向量确定各个待处理上位词的词向量,以及结合各个待处理上位词在知识图谱中对应的实体类型,来判断各个待处理上位词之间的语义相似度,从而将挑选出具有相同语义的上位词进行聚合。这不但考虑了上位词本身的语义信息,还考虑了上位词关联的实体类型信息,因此,可以满足高精度的语义聚合需求。
下面结合附图对本发明优选的实施方式进行详细说明。
为了便于介绍背景技术,先对部分术语进行定义。
知识图谱:Knowledge Graph/Vault,又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
参阅图1所示,在知识图谱中,一个节点称为一个实体,所谓实体即是知识图谱的介绍对象。如,假设一个节点为“刘某某”,即代表一个实体,其属性集包含的属性有职业、出生日期和爱好,等等。
上位词:上位词指概念上外延更广的主题词。
例如:“食肉动物”是“老虎”的上位词,“猫科动物”也可以是“老虎”的上位词,因此,上位词可以理解为实体依照属性特征得到的聚类类别。
如,将“老虎”按照属性“食肉性”聚类可以得到“食肉性动物”这一上位词。又如,将“老虎”按照属性“动物科”聚类可以得到“猫科动物”这一上位词。
实体类型:知识图谱中的实体都对应着一个实体类型,实体类型可以看作是实体的概括性归类。一个实体类型可以包括多个实体。如:实体“玫瑰花”的实体类型为“植物类”;又如,电影《战狼2》的实体类型为“电影类”。
例如,参阅图2所示,实体“虎”、“龟”和“蝴蝶”具有一个相同的实体类型“动物类”。
词向量:是词语的一种分布式表达,其基本思想是指将词语映射为一个固定维度的向量(维度远小于词典大小),这些词语的向量构成了词向量语义空间,语义相似的词语通常在空间中的距离较近。
字向量:是“字”层面的一种分布式表达,将“字”映射到语义空间中,得到字的一个语义向量,相似语义的字向量通常在语义空间中距离较近。
密度插值向量化方法(Dense Interpolated Embedding,DIE),是一种基于字向量合成词向量的一种方法,经验证明它可以有效地表示相似描述的字符串。
本发明实施例中,在预处理阶段,终端设备会基于百科语料,利用word2vec工具训练字向量,训练字向量时使用的纯文本语料和上位词的来源语料保持一致。这样,可以保证上位词包含的每一个字向量,都能够准确表征上位词在文本层面的特征,进而能够为后续生成词向量奠定了良好基础。
具体的,可以先对纯文本进行分字处理:连续的英文字母作为一个字,数字作为一个字,中文字为一个字;然后,针对分字处理后的纯文本语料,利用Word2vec模型训练字向量供DIE算法使用。由于DIE是一种拼接字向量的算法,所以字向量的维度一般设置较小,可选的,本发明实施例中,一个字向量的维度设置为25,即一个字向量具有25个维度上的特征。
参阅图3所示,本发明实施例中,终端设备对上位词进行聚合的详细流程如下:
步骤300:终端设备获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量,以及基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量。
可选的,终端设备采用的特定算法可以是DIE算法。
具体的,以任意一个待处理上位词(以下简称为上位词x)为例,介绍步骤300的执行方式如下:
本发明实施例中,为了同时刻画上位词x的字符串信息以及上位词x的文本语义信息,可选的,采用DIE算法合成上位词x的词向量。
DIE算法的基本思想即是:上位词x词向量由上位词x的字向量构成,不同位置的字向量组成词向量的不同部分,这样可以保证字符串顺序信息,此外,字向量是基于大规模非结构化文本训练得到,字向量包含了一定的语义相似性,所以基于字向量合成的上位词x的词向量具有一定语义特征。具体执行过程如下:
首先,确定对应上位词x预设的至少两个子区域,其中,一个子区域对应上位词x的词向量的部分维度;
其次,基于所述待处理上位词对应的各个字向量,计算各个子区域的区域特征;
具体的,可以分别针对每一个子区域执行以下操作:
基于预设的子区域数目和上位词x包含的字向量数目,分别确定上位词x包含的每一个字向量在一个子区域中的权重;
根据每一个字向量及每一个字向量在所述一个子区域中的权重,计算上位词x在所述一个子区域中的区域特征。
最后,基于获得的上位词x的各个区域特征,计算获得上位词x的词向量。
例如,DIE算法可以采用以下公式进行描述:
V=[v[0],...,v[m],...h[M-1]],m∈[0,M-1]
其中,i表征字向量的序号,I表示字向量数目,m表示子区域的序号,M表示子区域数目,即表示合成的词向量的维度是字向量的M倍,v表示子区域的区域特征,V表示上位词的词向量,chari表示上位词中第i个字符对应的字向量。本发明实施例中,所谓区域特征即是指:子区域所对应的词向量的部分维度所体现的文本层面的特征。
如,假设上位词x为“哺乳动物”,而词向量的维度为100,划分了四个子区域,分别为[1,25],[26,50],[51,75],[76,100],则,
v[0]=字向量“哺”×f(0,0)+字向量“乳”×f(1,0)+字向量“动”×f(2,0)+字向量“物”×f(3,0)
v[1]=字向量“哺”×f(0,1)+字向量“乳”×f(1,1)+字向量“动”×f(2,1)+字向量“物”×f(3,1)
v[2]=字向量“哺”×f(0,2)+字向量“乳”×f(1,2)+字向量“动”×f(2,2)+字向量“物”×f(3,2)
v[3]=字向量“哺”×f(0,3)+字向量“乳”×f(1,3)+字向量“动”×f(2,3)+字向量“物”×f(3,3)
V=[v[0],v[1],v[2],v[3]
其中,f(i,m)表示字向量在某一子区域中的权重,其中,x表示字向量的序号,y表示子区域的序号,例如,f(0,0)表示,第0个字向量“哺”在第0个子区域[1,25]中的权重。
终端设备针对待处理上位词的词向量进行了区域划分,每个子区域分别对应待处理上位词的部分维度,即每一个子区域均具备自身的区域特征,而待处理上位词中包含了多个字向量,不同的字向量在不同的子区域中对相应子区域的区域特征的贡献度不同,因此,针对待处理上位词包含的每一个字向量,分别设置了在不同子区域中的权重,可以令每一个子区域的区域特征均由权重较大的字向量对应的维度来体现,这样,每一个区域特征只着重体现部分字向量的文本特点,从而能够有效地提升各个区域特征的文本针对性和特征准确度,进而提高了最终计算得到的词向量的准确性。
步骤310:终端设备分别确定各个待处理上位词在知识图谱中关联的实体类型。
本发明实施例中,一个待处理上位词知识图谱中均会对应若干实体,而这些实体往往会对应至少一种实体类型,实体类型是实体的概括性归类,可以体现出实体某一方面的特征。
例如,参阅图4A和图4B所示,假设待处理上位词为:“90年代的明星”,而其在知识图谱中对应了若干实体,如,“刘某某”、“张某某”、“黎某某”、“郭某某”等等,其中
“刘某某”和“黎某某”共同对应了“影视明星类”,而“刘某某”和“郭某某”共同对应了“歌手类”,显然,“刘某某”对应了两个不同的实体类型。以及“黎某某”和“郭某某”分别对应了不同的实体类型。
针对这种情况,在执行步骤310时,以任意一个待处理上位词为例(以下称为上位词x),终端设备会确定出上位词x在知识图谱中对应的所有实体,以及确定所述所有实体各自关联的实体类型,并筛选出关联的实体数目最多的N个实体类型,作为上位词x关联的实体类型,其中,N为预设自然数,N≥1。
例如,假设上位词x为“XX年人气最高男性”,而在知识图谱中,上位词x关联的实体有“孙扬”、“吴x凡”、“刘x梁”、“袁x平”、“王x聪”、“小马甲”等等。
其中,“孙扬”和“刘x梁”对应的实体类型为“运动员类”,“吴x凡”对应的实体类型为“明星类”、“袁x平”对应的实体类型为“科学家类”,而“王x聪”和“小马甲”对应为“网红类”。
假设对应上位词x的所有实体中,对应“运动员类”的有20个实体,对应“明星类”有50个实体,对应“科学家类”的有5个实体,对应“网红类”的有40个实体。
那么,经筛选,假设N=3,则最终确定上位词x对应了三个实体类型,即“明星类”、“网红类”和“运动员类”。
步骤320:终端设备基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度。
以任意一组两两待处理上位词为例,以下简称为上位词x和上位词y:
那么,首先,可以计算上位词x对应的词向量和上位词y对应的词向量之间的词向量相似度,记作,sim1;
其次,可以计算上位词x对应的实体类型和上位词y对应的实体类型之间的实体类型相似度,记为sim2,
具体的,可以先确定两个待处理上位词中上位词x关联的实体类型和上位词y关联的实体类型,其中,若上位词x或/和上位词y关联至少两个实体类型,则在上位词x和上位词y之间分别计算每两个实体类型的实体类型相似度,选取相似度取值最高的作为最终的实体类型相似度。
例如:上位词x关联的实体类型有“影视明星类”,上位词y关联的实体类型有“影视明星类”和“歌手类”,则分别计算以下两组实体类型相似度:
上位词x“影视明星类”&上位词y“影视明星类”=100%
上位词x“影视明星类”&上位词y“歌手类”=40%,
则可以取100%作为上位词x和上位词y最终的实体类型相似度。
步骤330:当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,终端设备将相应的待处理上位词进行聚合。
仍以任意一组两两待处理上位词为例,以下简称为上位词x和上位词y
具体的,假设上位词x和上位词y之间的sim1和sim2满足以下条件,则表征上位词x和上位词y是最相似上位词,可以进行聚合。
sim(i,j)≥T1
sim(i,j)≥T2
其中,T1为预设的第一预设门限,T2为预设的第二预设门限,T1和T2可以由运维人员根据实际工作经验进行配置,在此不再赘述。
上述步骤300-340仅介绍了一次聚合过程,终端设备,可以反复采用这个方案在待处理上位词(可以包含聚合后的上位词)中查找具有相同语义的上位词,并进行反复聚合,从而最终获得最为精准的聚合后的上位词。
经过聚合处理后,终端设备将找不到最相似上位词的待处理上位词单独作为一类,以及将能找到最相似上位词的待处理上位词与最相似上位词聚合后成为一类,最终获得了各类聚合后的上位词,这些上位词便是经过精准筛选聚合,去除了冗余数据的上位词。
进一步地,为了提高聚合精准性,可选的,可以对聚合后的各个待处理上位词再进行一次聚合准确性判断,具体的,终端设备可以分别针对聚合后的每一组待处理上位词执行以下操作:
a)终端设备确定一组待处理上位词中各个待处理上位词之间的相似文本部分。
当然,在确定相似文本部分之前,可选的,终端设备可以先去掉各个待处理上位词中的停用词和众词,例如,生僻字,“的”“了”“呢”等等语气助词等等。其中,停用词是由停用词典提供,众词是各个待处理上位词包含无实际意义的词语。
然后,终端设备可以在各个待处理上位词之间查找相似文本部分,例如,“最流行的歌手”和“最人气的歌星”中“歌手”和“歌星”即可以视为相似文本部分,“最”和“最”也可以视为相似文本部分。
b)终端设备删除各个待处理上位词之间的相似文本部分。
即删除“最”和“最”,以及“歌手”和“歌星”后,剩余文本部分为“流行”和“人气”。
c)终端设备计算各个待处理上位词之间剩余文本部分的语义相似度以及所述剩余文本部分包含的平均字数。
d)确定所述剩余文本部分的语义相似度达到第三设定门限且所述剩余文本部分包含的平均字数小于第四设定门限,或者,确定所述剩余文本部分为空时,判定针对所述一组待处理上位词进行的聚合处理有效。
由于“流行”和“人气”意思表达相近,且剩余文本部分包含的平均字数仅为2,低于第四设定门限“2.2”,则确定合并有效,即“最流行的歌手”和“最人气的歌星”这两个待处理上位词可以进行聚合。
下面通过两个实施例对上述过程作出进一步详细介绍。
实施例1:
待处理上位词为:“诗人陈祥炎作品”、“诗人梅绍静的作品”、“诗人赵功的作品”、“诗人卢挚的作品”和“诗人王沂的作品”。
这些待处理上位词虽然看上去相似,但实际的关键信息不一致,因此,在去除掉相似文本部分后,剩余文本部分为:陈祥炎,梅绍静,赵功,卢挚,王沂。
上述剩余文本部分之间的语义相似度低于第三预设门限,且包含的平均字数约为2.4,高于第四预设门限“2.2”,则表征此番聚合无效,这些待处理上位词不能进行聚合。
实施例2:
待处理上位词为:“简单的家常蒸饺”、“家常蒸饺”和“”蒸饺”,去除掉相似文本部分以及停用词和众词后,剩余文本部分为:NULL、NULL和NULL。
上述剩余文本部分为空,则表征此番聚合有效,这些待处理上位词可以进行合并。
进一步地,在确定一组待处理上位词可以进行聚合后,可以将聚合后的一组待处理上位词中各个待处理上位词之间的最大公共字符串作为所述一组待处理上位词聚合后的名称。
例如:“简单的家常蒸饺”、“家常蒸饺”和“蒸饺”,其中,最大公共字符串:蒸饺,则可以采用蒸饺来命名聚合后的待处理上位词,这些在进行检索和使用时也有效提高了查询效率。
基于上述实施例,参阅图5所示,本发明实施例中,终端设备至少包括第一确定单元51、第二确定单元52、计算单元53和聚合单元54,其中,
第一确定单元51,用于获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量,以及基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量;
第二确定单元52,用于分别确定各个待处理上位词在知识图谱中关联的实体类型;
计算单元53,用于基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
聚合单元54,用于当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
可选的,第一确定单元51采用的所述特定算法为密度插值向量化(DIE)算法。
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量时,第一确定单元51用于:
根据待处理上位词的维度确定对应待处理上位词预设的至少两个子区域,其中,一个子区域对应所述词向量的部分维度;
基于所述待处理上位词对应的各个字向量,计算各个子区域的区域特征;
基于获得的所述待处理上位词的各个区域特征,计算获得所述待处理上位词的词向量。
可选的,基于所述待处理上位词对应的各个字向量,计算各个子区域的区域特征时,第一确定单元51包括:
分别针对每一个子区域执行以下操作:
基于预设的子区域数目和所述待处理上位词包含的字向量数目,分别确定所述待处理上位词中包含的每一个字向量在一个子区域中的权重;
根据每一个字向量及每一个字向量在所述一个子区域中的权重,计算所述待处理上位词在所述一个子区域中的区域特征。
确定待处理上位词在知识图谱中关联的实体类型时,第二确定单元52用于:
确定待处理上位词在知识图谱中对应的所有实体;
确定所述所有实体各自关联的实体类型;
筛选出关联的实体数目最多的N个实体类型,作为所述任意一个待处理上位词关联的实体类型,其中,N为预设自然数,N≥1。
可选的,计算每两个待处理上位词之间的实体类型相似度时,计算单元53用于:
确定两个待处理上位词中第一上位词关联的实体类型和第二上位词关联的实体类型;
若所述第一上位词或/和所述第二上位词关联至少两个实体类型,则在所述第一上位词和所述第二上位词之间分别计算每两个实体类型的实体类型相似度;以及
选取相似度取值最高的作为最终的实体类型相似度。
对一组待处理上位词进行聚合之后,聚合单元54进一步用于:
确定一组待处理上位词中各个待处理上位词之间的相似文本部分;
删除所述相似文本部分;
计算各个待处理上位词之间剩余文本部分的语义相似度以及所述剩余文本部分包含的平均字数;
确定所述剩余文本部分的语义相似度达到第三设定门限且所述剩余文本部分包含的平均字数小于第四设定门限,或者,确定所述剩余文本部分为空时,判定针对所述一组待处理上位词进行的聚合处理有效。
可选的,确定一组待处理上位词中各个待处理上位词之间的相似文本部分之前,聚合单元54进一步用于:
在所述各个待处理上位词之中,去除预设的停用词及众词。
聚合单元54进一步用于:
将聚合后的一组待处理上位词中各个待处理上位词之间的最大公共字符串作为所述一组待处理上位词聚合后的名称。
基于同一发明构思,本发明实施例提供一种存储介质,存储用于实现上位词聚合方法的程序,所述程序被处理器运行时,执行以下步骤:
获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量;
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量;
分别确定各个待处理上位词在知识图谱中关联的实体类型;
基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
参阅图6所示,基于同一发明构思,本发明实施例提供一种计算机装置,包括一个或多个处理器60;以及一个或多个计算机可读介质61,所述可读介质61上存储有指令,所述指令被所述一个或多个处理器60执行时,使得所述计算机装置执行上述实施例中介绍的任意一种方法。
综上所述,本发明实施例中,终端设备根据各个上位词包含的字向量计算各个上位词之间的词向量相似度,以及根据各个上位词对应的实体所关联的实体类型计算各个上位词之间的实体类型相似度,并将词向量相似度达到第一预设门限且实体类型相似度达到第二预设门限的各个上位词进行聚合;由于上位词通常是由少许几个字构成,利用传统的分词操作会带来较大的误差以及信息损失,因此,本发明实施例中,基于上位词包含的字向量所表征的词向量以及基于上位词关联的实体类型来进行上位词之间的相似度判断,可以有效处理类似上位词这样的短文本,既可以有效地挖掘出上位词包含的文本键信息,又可以准确地刻画出上位词的类型特征,同时不仅可以避免人工设计特征的繁杂工作量,而且可以增强模型的泛化能力,有效地识别无效上位词,去除上位词中的冗余数据,显著提高了上位词聚合的精准性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种上位词聚合方法,其特征在于,包括:
获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量;
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量,所述特定算法为采用字向量构成词向量的算法;
分别确定各个待处理上位词在知识图谱中关联的实体类型;
基于各个待处理上位词的词向量和关联的实体类型,分别计算至少每两个待处理上位词之间的词向量相似度和实体类型相似度;以及
当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
2.如权利要求1所述的方法,其特征在于,所述特定算法为密度插值向量化DIE算法。
3.如权利要求1所述的方法,其特征在于,所述基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量,包括:
根据待处理上位词的维度确定对应待处理上位词预设的至少两个子区域,其中,一个子区域对应所述词向量的部分维度;
基于所述待处理上位词对应的各个字向量,计算各个子区域的区域特征;以及
基于获得的所述待处理上位词的各个区域特征,计算得到所述待处理上位词的词向量。
4.如权利要求3所述的方法,其特征在于,基于所述待处理上位词对应的各个字向量,计算各个子区域的区域特征,包括:
分别针对每一个子区域执行以下操作:
基于预设的子区域数目和所述待处理上位词包含的字向量数目,分别确定所述待处理上位词中包含的每一个字向量在一个子区域中的权重;
根据每一个字向量及每一个字向量在所述一个子区域中的权重,计算所述待处理上位词在所述一个子区域中的区域特征。
5.如权利要求1所述的方法,其特征在于,确定待处理上位词在知识图谱中关联的实体类型,包括:
确定待处理上位词在知识图谱中对应的所有实体;
确定所述所有实体各自关联的实体类型;
筛选出关联的实体数目最多的N个实体类型,作为所述任意一个待处理上位词关联的实体类型,其中,N为预设自然数,N≥1。
6.如权利要求5所述的方法,其特征在于,计算每两个待处理上位词之间的实体类型相似度,包括:
确定两个待处理上位词中第一上位词关联的实体类型和第二上位词关联的实体类型;
若所述第一上位词或/和所述第二上位词关联至少两个实体类型,则在所述第一上位词和所述第二上位词之间分别计算每两个实体类型的实体类型相似度;以及
选取相似度取值最高的作为最终的实体类型相似度。
7.如权利要求1-6任一项所述的方法,其特征在于,对一组待处理上位词进行聚合之后,进一步包括:
确定一组待处理上位词中各个待处理上位词之间的相似文本部分;
删除所述相似文本部分;
计算各个待处理上位词之间剩余文本部分的语义相似度以及所述剩余文本部分包含的平均字数;
确定所述剩余文本部分的语义相似度达到第三设定门限且所述剩余文本部分包含的平均字数小于第四设定门限,或者,确定所述剩余文本部分为空时,判定针对所述一组待处理上位词进行的聚合处理有效。
8.如权利要求7所述的方法,其特征在于,确定一组待处理上位词中各个待处理上位词之间的相似文本部分之前,进一步包括:
在所述各个待处理上位词之中,去除预设的停用词及众词。
9.如权利要求7所述的方法,其特征在于,进一步包括:
将聚合后的一组待处理上位词中各个待处理上位词之间的最大公共字符串作为所述一组待处理上位词聚合后的名称。
10.一种上位词聚合装置,其特征在于,包括:
第一确定单元,用于获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量,以及基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量,所述特定算法为采用字向量构成词向量的算法;
第二确定单元,用于分别确定各个待处理上位词在知识图谱中关联的实体类型;
计算单元,用于基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
聚合单元,用于当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
11.一种存储介质,其特征在于,存储用于实现上位词聚合方法的程序,所述程序被处理器运行时,执行以下步骤:
获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量;
基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量,所述特定算法为采用字向量构成词向量的算法;
分别确定各个待处理上位词在知识图谱中关联的实体类型;
基于各个待处理上位词的词向量和关联的实体类型,分别计算每两个待处理上位词之间的词向量相似度和实体类型相似度;
当词向量相似度达到第一预设门限,且实体类型相似度达到第二预设门限时,将相应的待处理上位词进行聚合。
12.一种计算机装置,其特征在于,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810100677.0A CN108415950B (zh) | 2018-02-01 | 2018-02-01 | 一种上位词聚合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810100677.0A CN108415950B (zh) | 2018-02-01 | 2018-02-01 | 一种上位词聚合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108415950A CN108415950A (zh) | 2018-08-17 |
CN108415950B true CN108415950B (zh) | 2021-03-23 |
Family
ID=63126797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810100677.0A Active CN108415950B (zh) | 2018-02-01 | 2018-02-01 | 一种上位词聚合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415950B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008972B (zh) * | 2018-11-15 | 2023-06-06 | 创新先进技术有限公司 | 用于数据增强的方法和装置 |
CN109829041B (zh) * | 2018-12-25 | 2021-06-29 | 出门问问信息科技有限公司 | 问题处理方法、装置、计算机设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注***和方法 |
CN104484461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种基于百科数据对实体进行分类的方法及*** |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN106919577A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 基于搜索词进行搜索推荐的方法、装置和搜索引擎 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372118B (zh) * | 2016-08-24 | 2019-05-03 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索***及方法 |
-
2018
- 2018-02-01 CN CN201810100677.0A patent/CN108415950B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注***和方法 |
CN104484461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种基于百科数据对实体进行分类的方法及*** |
CN106919577A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 基于搜索词进行搜索推荐的方法、装置和搜索引擎 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108415950A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6526329B2 (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
US11886494B2 (en) | Utilizing natural language processing automatically select objects in images | |
Chang et al. | Semantic concept discovery for large-scale zero-shot event detection | |
EP2612263B1 (en) | Sketch-based image search | |
WO2019136993A1 (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
CN111063410B (zh) | 一种医学影像文本报告的生成方法及装置 | |
CN102693311B (zh) | 基于随机化视觉词典组和上下文语义信息的目标检索方法 | |
Xie et al. | Contextual query expansion for image retrieval | |
Zhang et al. | Multiresolution graph attention networks for relevance matching | |
CN106649490A (zh) | 一种基于深度特征的图像检索方法及装置 | |
Zhou et al. | Automatic image annotation by an iterative approach: incorporating keyword correlations and region matching | |
CN109992590B (zh) | 交通网络中带数字属性的近似空间关键字查询方法及*** | |
US20230138014A1 (en) | System and method for performing a search in a vector space based search engine | |
WO2017113725A1 (zh) | 一种关联信息的获取与排序方法和*** | |
CN108415950B (zh) | 一种上位词聚合方法及装置 | |
CN111813955A (zh) | 一种基于知识图谱表示学习的服务聚类方法 | |
CN116034401A (zh) | 用于使用自然语言描述检索视频的***和方法 | |
CN104317867A (zh) | 对搜索引擎返回的网页图片进行实体聚类的*** | |
WO2017072890A1 (ja) | データ管理システム、データ管理方法およびプログラム | |
JP2014102772A (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 | |
WO2017143979A1 (zh) | 图像的检索方法及装置 | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
Carvalho et al. | Self similarity wide-joins for near-duplicate image detection | |
Banu et al. | Dwde-ir: an efficient deep Web data extraction for information retrieval on Web mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |