CN110413985A - 一种相关文本片段搜索方法及装置 - Google Patents
一种相关文本片段搜索方法及装置 Download PDFInfo
- Publication number
- CN110413985A CN110413985A CN201810394787.2A CN201810394787A CN110413985A CN 110413985 A CN110413985 A CN 110413985A CN 201810394787 A CN201810394787 A CN 201810394787A CN 110413985 A CN110413985 A CN 110413985A
- Authority
- CN
- China
- Prior art keywords
- term vector
- term
- similarity
- text fragments
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本片段检索的方法及装置,通过用文本片段中的特征词的词向量生成对应于文本片段的词向量矩阵,由于特征词能够体现文本片段的主要内容,因此根据特征词的词向量生成的词向量矩阵可以用来表示文本片段,用检索词的词向量来表示检索词,计算各个词向量矩阵与检索词的词向量的相似度,通过词向量矩阵和检索词的词向量的相似度来表示文本片段和检索词的相似度,文本片段和检索词的相似度越高,说明二者的相关度越高,将相似度大于或等于第一阈值的文本片段作为检索结果,从而提高对相关文本片段的检索的准确性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种相关文本片段搜索方法及装置。
背景技术
对于文学创作人员来说,素材是重要的因素,获取相关的文学素材能够有效提高创作效率,例如获取叙事性文学作品相关的情节片段素材,可能对于编剧从业人员有较大的益处。对于现有的文学作品来说,其各个部分均可能成为创作素材,而这些部分可能包含有不同的主题,如何获取相关主题的部分作为素材,是文学作品研究人员较为关注的问题。
将文学作品的各个部分作为文本片段,现有的检索与主题相关的文本片段的方式,主要通过经验丰富的内容编辑人员阅读文学作品,在主观理解的基础上对文学作品进行拆解形成文本片段,然后为拆解后的文本片段添加主题标签,通过检索词与主题标签进行匹配来实现相关文本片段的检索。这种相关文本片段的检索方法需要大量的人力成本和时间成本,且人为进行文本片段的主题标签的添加,可能出现主观的偏差,导致相关文本片段的检索的准确性降低。
发明内容
为了解决现有技术的文本片段的检索方法中的成本高和检索结果准确性低的问题,本申请实施例提供了一种文本片段的检索方法及装置。
本申请实施例提供的一种文本片段检索的方法,包括:
获取文本片段的集合,所述文本片段的集合包括至少一个文本片段,提取所述文本片段的特征词,根据所述特征词的词向量生成对应于所述文本片段的词向量矩阵,获取检索词的词向量;
计算各个所述词向量矩阵与所述检索词的词向量的相似度,将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
计算各个所述文本片段中的各个所述特征词的词向量与所述检索词的词向量的第一相似度,根据所述第一相似度大于或等于第二阈值的特征词的词向量生成与所述文本片段对应的调整后词向量矩阵;
计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度。
可选的,所述计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度,包括:
根据所述调整后词向量矩阵中的特征词的词向量的平均向量,计算所述调整后词向量矩阵的平均向量;
计算所述调整后词向量矩阵的平均向量与所述检索词的词向量的相似度。
可选的,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
根据所述词向量矩阵中的特征词的词向量的平均向量,计算所述词向量矩阵的平均向量;
计算所述词向量矩阵的平均向量与所述检索词的词向量的相似度。
可选的,所述相似度包括第二相似度,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
计算各个所述词向量矩阵与所述检索词的词向量的第三相似度;
根据公式:
计算所述词向量矩阵与所述检索词的词向量的第二相似度,其中,所述sim2为第二相似度,所述sim1为第三相似度,所述α为第一调整系数,所述β为第二调整系数,所述n1为所述调整后词向量矩阵对应的特征词的词向量个数,所述n2为所述词向量矩阵对应的特征词的词向量个数;
所述将所述相似度大于或等于第一阈值的所述文本片段作为检索结果,包括:
将所述第二相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
获取所述词向量矩阵中的特征词与所述检索词的词向量的相似度;
获取所述词向量矩阵中所述相似度的平均值。
可选的,所述搜索结果为多个,所述将所述相似度大于或等于第一阈值的所述文本片段作为搜索结果,包括:
将所述相似度大于或等于第一阈值的所述文本片段按照所述相似度的值按从高至低排序,将前m个所述文本片段作为搜索结果,m为预设的搜索结果数。
本申请实施例提供的一种文本片段检索的装置,包括:
词向量及词向量矩阵获取单元,用于获取文本片段的集合,所述文本片段的集合包括至少一个文本片段,提取所述文本片段的特征词,根据所述特征词的词向量生成对应于所述文本片段的词向量矩阵,获取检索词的词向量;
检索结果获取单元,用于计算各个所述词向量矩阵与所述检索词的词向量的相似度,将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述检索结果获取单元,包括:
调整后词向量矩阵获取子单元,用于计算各个所述文本片段中的各个所述特征词的词向量与所述检索词的词向量的第一相似度,根据所述第一相似度大于或等于第二阈值的特征词的词向量生成与所述文本片段对应的调整后词向量矩阵;
相似度计算子单元,用于计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度;
检索结果获取子单元,用于将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述相似度计算子单元,包括:
平均向量获取子单元,用于根据所述调整后词向量矩阵中的特征词的词向量的平均向量,计算所述调整后词向量矩阵的平均向量;
调整后相似度计算子单元,用于计算所述调整后词向量矩阵的平均向量与所述检索词的词向量的相似度。
本申请实施例提供的文本片段检索的方法及装置,通过获取文本片段的集合,提取文本片段集合中每个文本片段的特征词,根据特征词的词向量生成对应于文本片段的词向量矩阵,获取检索词的词向量,计算各个词向量矩阵与检索词的词向量的相似度,将相似度大于或等于第一阈值的文本片段作为检索结果。通过用文本片段中的特征词的词向量生成对应于文本片段的词向量矩阵,由于特征词能够体现文本片段的主要内容,因此根据特征词的词向量生成的词向量矩阵可以用来表示文本片段,用检索词的词向量来表示检索词,通过词向量矩阵和检索词的词向量的相似度来表示文本片段和检索词的相似度,文本片段和检索词的相似度越高,说明二者的相关度越高,将相似度较高的文本片段作为检索结果,从而提高对相关文本片段的检索的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种文本片段的检索的方法流程图;
图2为本申请实施例提供的一种文本片段的检索的装置结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,通过对文本片段人为添加主题标签,再通过匹配检索词与主题标签来检索与检索词相关的文本片段,这种检索方式更多的依赖于文本片段的主题标签的准确性和全面性,而人为添加标签还可能会出现主观上的偏差,使文本片段的主题标签的准确性进一步降低。例如不同的人对于同一个文本片段可能会出现“打架”、“打斗”、“战斗”或“冲突”等主题标签,这些词在与检索词的匹配上可能会有所差别,可能导致检索结果不准确。
为了解决上述技术问题,本申请实施例提供了一种文本片段检索的方法,通过获取文本片段的词向量矩阵和检索词的词向量,检索词的词向量是根据检索词获取的,文本片段的词向量矩阵是根据文本片段的特征词的词向量生成的,因此词向量矩阵与文本片段的主要内容相关,通过词向量矩阵与词向量的相似度表示文本片段和检索词的相似度,将词向量矩阵和检索词的词向量的相似度大于或等于第一阈值的文本片段作为检索结果,从而提高文本片段检索的准确性。
参考图1所示为本申请实施例提供的文本片段检索的方法的流程图,该方法包括以下步骤。
S101,获取文本片段的集合,文本片段的集合包括至少一个文本片段,提取文本片段的特征词,根据特征词的词向量生成对应于文本片段的词向量矩阵,并获取检索词的词向量。
文本片段可以为文学作品中的某一部分,例如可以是某一章节,也可以是某一段落,每个文本片段可以有单个主题,也可以有多个主题。
在本申请实施例中,可以通过爬虫技术获取文学作品,将文学作品分割成多个文本片段。例如按段落来分割,将一个段落的文本内容作为一个文本片段,从而获取到大量的文本片段。
此外,为了进一步提高检索的准确性,在通过爬虫技术进行文学作品的获取时,还可以按照一定规则,将文学作品进行分类,获取其中一类文学作品,例如获取叙事类文学作品或说明类文学作品等。这是因为在同一种类的文学作品中,用词较为相近,而不同种类的文学作品中,即使是同一词汇,也可能出现不同的含义,可能会导致检索结果的不准确。例如词汇“斗气”,在叙事性文学作品中可能标识通过气功提气,形成包裹于外表的气态场,而在其他种类的文学作品中,又可表示为“对别人有意见或闹情绪”。对文学作品进行分类后,将分割后的文本片段归于相应的文学作品的类别中,对文本片段按照所属的类别进行处理,从而避免不同类别之间的用词差异造成的检索结果不准确的问题。
将获取到的文本片段组合形成文本片段的集合,其中文本片段的集合中至少包括一个文本片段。一个文本片段的集合中,可以只包含一类的文本片段。
获取文本片段集合中对应于文本片段的词向量矩阵,其中,每个词向量矩阵由对应的文本片段中的多个词的词向量组合而成,例如可以由文本片段中的特征词的词向量组合而成。
在本申请实施例中,文本片段的词向量矩阵的获取方式可以具体为:提取文本片段的特征词,根据文本片段的特征词的词向量,生成对应于文本片段的词向量矩阵,词向量矩阵由至少一个特征词的词向量组成。
文本片段的特征词是文本片段中较为重要的词,主要是名词、动词和代词。特征词的提取可以通过卷积神经网络算法来进行,先将文本片段分词,获取多个词汇,对获取到的词汇进行分析,抽取文本片段中较重要的词作为特征词。在获取特征词之前,可以预先设置特征词的最大数量,获取的特征词应该小于或等于该最大数量。
在获取到文本片段的特征词后,可以根据词向量模型得到每个特征词的词向量。
词向量是将人类语言进行数字化的结果,每一个词汇可以均对应一个词向量,词汇与词向量之间的对应关系形成词向量模型。例如词汇“我”可以对应于n维的词向量:[0.3,0.8,……,0.7]。对于含义相近的词汇,根据词向量模型确定的词向量之间的相似度也较高。
词向量模型的获取可以预先通过卷积神经网络算法训练得到,例如通过开源word2vec包来训练。训练的过程可以通过获取大量的文学作品文本,对该文本进行分词,预设每个词汇与词向量之间的对应关系,对其中的含义相近的词汇之间进行相似度的计算,根据计算得到的相似度对预设的词汇与词向量之前的对应关系进行调整,使含义相近的词汇对应的词向量之间的相似度较高,将经过调整的最终获取的词汇及词向量的对应关系作为词向量模型。
对于不同种类的文学作品,可以获取不同的词向量模型,例如叙事类文学作品可以有相应的词向量模型。根据词向量模型得到每个特征词的词向量,可以根据文本片段的文学作品种类来确定对应的词向量模型,再根据确定的词向量模型获取每个特征词的词向量。
将每个特征词的词向量进行组合形成文本片段的词向量矩阵,例如文本片段中有k个特征词,每个特征词对应n维行矩阵,第一个特征词的词向量为[a11,a12,…,a1n],第二个特征词的词向量为[a21,a22,…,a2n],…,第k个特征词的词向量为[ak1,ak2,…,akn],则该文本片段的词向量矩阵可表示为
检索词是用户用来检索文本片段的依据,例如用户想获取与“斗气”相关的文本片段,可以将“斗气”作为检索词。
在获取检索词后,可以获取检索词的词向量。具体的,可以利用词向量模型得到检索词的词向量,在对文本片段进行分类的情况下,该词向量模型是用户想要获取的文本片段所属的文学作品种类对应的词向量模型,例如用户想获取叙事类文学作品的文本片段,可利用叙事类文本片段的词向量模型得到检索词的词向量。
上述文本片段的词向量矩阵的生成和检索词的词向量的获取可以以任意顺序进行,不影响本申请实施例的实现。
S102,计算文本片段的词向量矩阵与检索词的词向量的相似度,将相似度大于或等于第一阈值的文本片段作为检索结果。
在本申请实施例中,可以用文本片段的词向量矩阵与检索词的词向量的相似度来表示文本片段和检索词的相似度,若相似度较高,说明文本片段是与检索词相关的,因此符合用户的检索要求,可以作为检索结果。
获取文本片段的词向量矩阵与检索词的词向量的相似度,可以通过相似度计算公式来实现。具体的,可以有以下两种方式:
作为一种可能的实施方式,可先计算文本片段的词向量矩阵的平均向量,该平均向量是指将各个特征词的向量中对应位置的数值取平均,得到与文本片段的词向量矩阵维度相同的平均向量,再获取该平均向量与检索词的词向量的相似度,作为文本片段的词向量矩阵与检索词的词向量的相似度,代表文本片段与检索词的相似度。
将各个特征词的词向量取平均得到平均向量的过程,可以通过直接计算平均值的方式,以三个特征值的词向量为例,第一个特征词的词向量为[a11,a12,…,a1n],第二个特征词的词向量为[a21,a22,…,a2n],第三个特征词的词向量为[a31,a32,…,a3n],则平均向量可以为[(a11+a21+a31)/3,(a12+a22+a32)/3,…,(a1n+a2n+a3n)/3]。
将各个特征词的向量取平均得到平均向量的过程,还可以根据各个特征词在该文本片段中的权重来获取,还是以三个特征值的词向量为例,第一个特征词的词向量为[a11,a12,…,a1n],其权重为0.3,第二个特征词的词向量为[a21,a22,…,a2n],其权重为0.2,第三个特征词的词向量为[a31,a32,…,a3n],其权重为0.5,则获取的加权后的平均向量为[0.3*a11+0.2*a21+0.5*a31,0.3*a12+0.2*a22+0.5*a32,…,0.3*a1n+0.2*a2n+0.5*a3n]。
平均向量与检索词的词向量之间的相似度,可以通过多种方式计算获取,例如:皮尔逊相关系数法、欧几里得距离公式、Cosine(余弦)相似度、Jaccard系数等。
以余弦相似度为例,假设检索词的词向量为[b11,b12,…,b1n],文本片段的平均向量为[c11,c12,…,c1n]。将平均向量和检索词的词向量带入余弦相似度公式:
其中向量向量
从而得到平均向量与检索词的词向量的相似度:
作为另一种可能的实施方式,可先获取词向量矩阵中各个特征词的词向量与检索词的词向量的相似度,计算获取的多个相似度的平均值,将该平均值作为文本片段的词向量矩阵与检索词的词向量的相似度,代表文本片段与检索词的相似度。
特征词的词向量与检索词的词向量的相似度计算方式,可以类比于平均向量与检索词的词向量的相似度计算方式,在此不再赘述。对各个特征词的词向量与检索词的词向量的相似度值取平均值的方式,可以通过直接计算均值获取,也可以根据各个特征词的权重获取加权平均值。以三个特征词的词向量为例,三个特征词的词向量与检索词的词向量的相似度分别为T1、T2和T3,三个特征词的权重分别为0.3、0.2和0.5,则通过直接计算均值得到的相似度为(T1+T2+T3)/3,根据权重获得的加权平均值为0.3*T1+0.2*T2+0.5*T3。两种方式计算得到的相似度的平均值均可以作为特征词的词向量与检索词的词向量的相似度,即作为文本片段的词向量矩阵与检索词的词向量的相似度,代表文本片段与检索词的相似度。
在获取到文本片段的词向量矩阵与检索词的词向量的相似度后,由于文本片段的词向量矩阵与检索词的词向量的相似度可以代表文本片段与检索词的相似度,相似度越高,说明文本片段与检索词的相关度越高,因此可以根据预先获取的第一阈值,将相似度大于或等于第一阈值的文本片段作为检索结果。第一阈值可以根据用户需要的检索结果数量与检索结果与检索词的相关度决定,第一阈值越高,检索结果的数量越少,第一阈值越低,检索结果的数量越多。
在检索结果为多个文本片段时,还可以将相似度大于或等于第一阈值的文本片段按照相似度的值按从高至低排序,将前m个文本片段作为搜索结果,其中m为预设的搜索结果数,从而使用户获取到与检索词最相关的m个文本片段。
本申请实施例提供的文本片段的检索方法,通过获取文本片段的集合,提取文本片段集合中每个文本片段的特征词,根据特征词的词向量生成对应于文本片段的词向量矩阵,获取检索词的词向量,计算各个词向量矩阵与检索词的词向量的相似度,将相似度大于或等于第一阈值的文本片段作为检索结果。通过用文本片段中的特征词的词向量生成对应于文本片段的词向量矩阵,由于特征词能够体现文本片段的主要内容,因此根据特征词的词向量生成的词向量矩阵可以用来表示文本片段,用检索词的词向量来表示检索词,通过词向量矩阵和检索词的词向量的相似度来表示文本片段和检索词的相似度,文本片段和检索词的相似度越高,说明二者的相关度越高,将相似度较高的文本片段作为检索结果,从而提高对相关文本片段的检索的准确性。
在本申请实施例中,还可以对词向量矩阵进行调整,作为一种可能的实施方式,计算各个词向量矩阵与检索词的词向量的相似度的方式可以具体为:计算各个文本片段中的各个特征词的词向量与检索词的词向量的第一相似度,根据第一相似度大于或等于第二阈值的特征词的词向量生成与文本片段对应的调整后词向量矩阵,计算各个调整后词向量矩阵与检索词的词向量的相似度。其中,调整后词向量矩阵可以是由至少一个第一相似度大于或等于第二阈值的特征词的词向量组成。
在生成词向量矩阵后,还可以对组成词向量矩阵的特征词的词向量进行筛选,去除与检索词的相关度较低的特征词的词向量,形成调整后词向量矩阵。通过计算特征词的词向量与检索词的词向量的相似度,将词向量矩阵中与检索词的词向量的相似度大于或等于第二阈值的特征词的词向量组成调整后词向量矩阵,即将词向量矩阵中与检索词的词向量相似度较低的特征词的词向量去除,形成调整后词向量矩阵。
以四个特征词为例,第一个特征词的词向量为[a11,a12,…,a1n],第二个特征词的词向量为[a21,a22,…,a2n],第三个特征词的词向量为[a31,a32,…,a3n],第四个特征词的词向量为[a41,a42,…,a4n],则形成的词向量矩阵为经过特征词的词向量与检索词的词向量的相似度计算,发现第三个特征词的词向量与检索词的词向量的相似度较低,即第三个特征词与检索词的相关度较低,则可去除词向量矩阵中的第三个特征词的词向量,形成调整后词向量矩阵
需要说明的是,若词向量矩阵中的各个特征词的词向量与检索词的相似度均较低,说明该文本片段与检索词的相关度较低,此时获取的调整后词向量矩阵可能为空矩阵,则认为该文本片段不是用户需要的检索结果,排除该文本片段。
在获取调整后词向量矩阵后,可以计算各个调整后词向量矩阵与检索词的词向量的相似度,将相似度大于或等于第一阈值的文本片段作为检索结果。调整后词向量矩阵与检索词的词向量的相似度的获取方式,具体的,可以根据调整后词向量矩阵中的特征词的词向量的平均向量,计算调整后词向量矩阵的平均向量,计算调整后词向量矩阵的平均向量与检索词的词向量的相似度,其计算方式可类比于词向量矩阵与检索词的词向量的相似度的获取方式,在此不做举例说明。
通过对组成词向量矩阵的特征词的词向量进行筛选,去除与检索词的相关度较低的特征词的词向量,形成调整后词向量矩阵,可以在检索过程中,只考虑与检索词相关度较高的特征词的词向量,降低了后续检索的计算量。
由于词向量矩阵与检索词的词向量的相似度,由特征词的个数以及单个特征词和检索词的相关度决定,举例来说,若特征词的个数为1个,则该特征词的词向量和检索词的词向量的相似度将作为词向量矩阵与检索词的词向量的相似度,而在特征词的个数较多时,需要综合各个特征词的词向量和检索词的词向量的相似度得到最终的相似度,因此,在特征词的个数较多时,相似度的可靠性较高,在特征词的个数较少时,容易受单个特征词的词向量的影响,可靠性并不高。
为了进一步提高相似度的可靠性,在获取调整后词向量矩阵与检索词的词向量的相似度后,还可以对获得的相似度进行调整,为了便于区分,可以将获取的相似度记为第三相似度,根据调整公式对第三相似度进行调整,得到第二相似度。举例来说,调整公式可以是
其中,sim2为第二相似度,sim1为第三相似度,α为第一调整系数,β为第二调整系数,n1为调整后词向量矩阵中的特征词的词向量个数,n2为词向量矩阵对应的特征词的词向量个数。
在获取到词向量矩阵与检索词的词向量的第二相似度后,将第二相似度大于或等于第一阈值的文本片段作为检索结果。
在本申请实施例中,第一调整系数α为2,第二调整系数β为0.03时,可以得到较好的调整效果,调整后的第二相似度能够较好的弱化特征词的数量的影响,从而提高检索结果的准确性。
基于以上实施例提供的一种文本片段检索的方法,本申请实施例还提供了一种文本片段检索的装置,下面结合附图来详细说明其工作原理。
参见图2,该图为本申请实施例提供的一种文本片段检索的装置的结构框图,该装置包括:
词向量及词向量矩阵获取单元101,用于获取文本片段的集合,所述文本片段的集合包括至少一个文本片段,提取所述文本片段的特征词,根据所述特征词的词向量生成对应于所述文本片段的词向量矩阵,获取检索词的词向量;
检索结果获取单元102,用于计算各个所述词向量矩阵与所述检索词的词向量的相似度,将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,检索结果获取单元102,包括:
调整后词向量矩阵获取子单元,用于计算各个所述文本片段中的各个所述特征词的词向量与所述检索词的词向量的第一相似度,根据所述第一相似度大于或等于第二阈值的特征词的词向量生成与所述文本片段对应的调整后词向量矩阵;
相似度计算子单元,用于计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度;
检索结果获取子单元,用于将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述相似度计算子单元,包括:
调整后平均向量获取子单元,用于根据所述调整后词向量矩阵中的特征词的词向量的平均向量,计算所述调整后词向量矩阵的平均向量;
调整后相似度计算子单元,用于计算所述调整后词向量矩阵的平均向量与所述检索词的词向量的相似度。
可选的,检索结果获取单元102包括:
平均向量获取子单元,用于根据所述词向量矩阵中的特征词的词向量的平均向量,计算所述词向量矩阵的平均向量;
相似度计算子单元,用于计算所述词向量矩阵的平均向量与所述检索词的词向量的相似度;
检索结果获取子单元,用于将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述相似度包括第二相似度,所述调整后相似度计算子单元包括:
第三相似度计算子单元,用于计算各个所述词向量矩阵与所述检索词的词向量的第三相似度;
第二相似度计算子单元,用于根据公式:
计算所述词向量矩阵与所述检索词的词向量的第二相似度,其中,所述sim2为第二相似度,所述sim1为第三相似度,所述α为第一调整系数,所述β为第二调整系数,所述n1为所述调整后词向量矩阵对应的特征词的词向量个数,所述n2为所述词向量矩阵对应的特征词的词向量个数;
检索结果获取子单元,用于将所述第二相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,检索结果获取单元102,包括:
词向量相似度计算子单元,用于获取所述词向量矩阵中的特征词的词向量与所述检索词的词向量的相似度;
平均值计算子单元,用于获取所述词向量矩阵中所述相似度的平均值;
检索结果获取子单元,用于将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
可选的,所述搜索结果为多个,检索结果获取子单元,具体用于将所述相似度大于或等于第一阈值的所述文本片段按照所述相似度的值按从高至低排序,将前m个所述文本片段作为搜索结果,m为预设的搜索结果数。
本申请实施例提供的文本片段检索的装置,通过获取文本片段的集合,提取文本片段集合中每个文本片段的特征词,根据特征词的词向量生成对应于文本片段的词向量矩阵,获取检索词的词向量,计算各个词向量矩阵与检索词的词向量的相似度,将相似度大于或等于第一阈值的文本片段作为检索结果。通过用文本片段中的特征词的词向量生成对应于文本片段的词向量矩阵,由于特征词能够体现文本片段的主要内容,因此根据特征词的词向量生成的词向量矩阵可以用来表示文本片段,用检索词的词向量来表示检索词,通过词向量矩阵和检索词的词向量的相似度来表示文本片段和检索词的相似度,文本片段和检索词的相似度越高,说明二者的相关度越高,将相似度较高的文本片段作为检索结果,从而提高对相关文本片段的检索的准确性。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种文本片段检索的方法,其特征在于,所述方法包括:
获取文本片段的集合,所述文本片段的集合包括至少一个文本片段,提取所述文本片段的特征词,根据所述特征词的词向量生成对应于所述文本片段的词向量矩阵,获取检索词的词向量;
计算各个所述词向量矩阵与所述检索词的词向量的相似度,将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
2.根据权利要求1所述的方法,其特征在于,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
计算各个所述文本片段中的各个所述特征词的词向量与所述检索词的词向量的第一相似度,根据所述第一相似度大于或等于第二阈值的特征词的词向量生成与所述文本片段对应的调整后词向量矩阵;
计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度。
3.根据权利要求2所述的方法,其特征在于,所述计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度,包括:
根据所述调整后词向量矩阵中的特征词的词向量的平均向量,计算所述调整后词向量矩阵的平均向量;
计算所述调整后词向量矩阵的平均向量与所述检索词的词向量的相似度。
4.根据权利要求3所述的方法,其特征在于,所述相似度包括第二相似度,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
计算各个所述词向量矩阵与所述检索词的词向量的第三相似度;
根据公式:
计算所述词向量矩阵与所述检索词的词向量的第二相似度,其中,所述sim2为第二相似度,所述sim1为第三相似度,所述α为第一调整系数,所述β为第二调整系数,所述n1为所述调整后词向量矩阵对应的特征词的词向量个数,所述n2为所述词向量矩阵对应的特征词的词向量个数;
所述将所述相似度大于或等于第一阈值的所述文本片段作为检索结果,包括:
将所述第二相似度大于或等于第一阈值的所述文本片段作为检索结果。
5.根据权利要求1所述的方法,其特征在于,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
根据所述词向量矩阵中的特征词的词向量的平均向量,计算所述词向量矩阵的平均向量;
计算所述词向量矩阵的平均向量与所述检索词的词向量的相似度。
6.根据权利要求1所述的方法,其特征在于,所述计算各个所述词向量矩阵与所述检索词的词向量的相似度,包括:
获取所述词向量矩阵中的特征词的词向量与所述检索词的词向量的相似度;
获取所述词向量矩阵中所述相似度的平均值。
7.根据权利要求1所述的方法,其特征在于,所述搜索结果为多个,所述将所述相似度大于或等于第一阈值的所述文本片段作为搜索结果,包括:
将所述相似度大于或等于第一阈值的所述文本片段按照所述相似度的值按从高至低排序,将前m个所述文本片段作为搜索结果,m为预设的搜索结果数。
8.一种文本片段检索的装置,其特征在于,所述装置包括:
词向量及词向量矩阵获取单元,用于获取文本片段的集合,所述文本片段的集合包括至少一个文本片段,提取所述文本片段的特征词,根据所述特征词的词向量生成对应于所述文本片段的词向量矩阵,获取检索词的词向量;
检索结果获取单元,用于计算各个所述词向量矩阵与所述检索词的词向量的相似度,将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
9.根据权利要求8所述的装置,其特征在于,所述检索结果获取单元,包括:
调整后词向量矩阵获取子单元,用于计算各个所述文本片段中的各个所述特征词的词向量与所述检索词的词向量的第一相似度,根据所述第一相似度大于或等于第二阈值的特征词的词向量生成与所述文本片段对应的调整后词向量矩阵;
相似度计算子单元,用于计算各个所述调整后词向量矩阵与所述检索词的词向量的相似度;
检索结果获取子单元,用于将所述相似度大于或等于第一阈值的所述文本片段作为检索结果。
10.根据权利要求9所述的装置,其特征在于,所述相似度计算子单元,包括:
平均向量获取子单元,用于根据所述调整后词向量矩阵中的特征词的词向量的平均向量,计算所述调整后词向量矩阵的平均向量;
调整后相似度计算子单元,用于计算所述调整后词向量矩阵的平均向量与所述检索词的词向量的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810394787.2A CN110413985B (zh) | 2018-04-27 | 2018-04-27 | 一种相关文本片段搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810394787.2A CN110413985B (zh) | 2018-04-27 | 2018-04-27 | 一种相关文本片段搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413985A true CN110413985A (zh) | 2019-11-05 |
CN110413985B CN110413985B (zh) | 2022-09-16 |
Family
ID=68347013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810394787.2A Active CN110413985B (zh) | 2018-04-27 | 2018-04-27 | 一种相关文本片段搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413985B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282702A (zh) * | 2021-03-16 | 2021-08-20 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN117688140A (zh) * | 2024-02-04 | 2024-03-12 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170051137A (ko) * | 2015-10-29 | 2017-05-11 | 한양대학교 산학협력단 | 협업 필터링 기반 추천 시스템의 유사도 계산의 신뢰성을 향상한 아이템 추천 장치 및 그 방법 |
CN107609101A (zh) * | 2017-09-11 | 2018-01-19 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
-
2018
- 2018-04-27 CN CN201810394787.2A patent/CN110413985B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170051137A (ko) * | 2015-10-29 | 2017-05-11 | 한양대학교 산학협력단 | 협업 필터링 기반 추천 시스템의 유사도 계산의 신뢰성을 향상한 아이템 추천 장치 및 그 방법 |
CN107609101A (zh) * | 2017-09-11 | 2018-01-19 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282702A (zh) * | 2021-03-16 | 2021-08-20 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN113282702B (zh) * | 2021-03-16 | 2023-12-19 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN117688140A (zh) * | 2024-02-04 | 2024-03-12 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
CN117688140B (zh) * | 2024-02-04 | 2024-04-30 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110413985B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10430689B2 (en) | Training a classifier algorithm used for automatically generating tags to be applied to images | |
Dermouche et al. | A joint model for topic-sentiment evolution over time | |
US20190252074A1 (en) | Knowledge graph-based clinical diagnosis assistant | |
CN105975458B (zh) | 一种基于细粒度依存关系的中文长句相似度计算方法 | |
US20090299977A1 (en) | Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records | |
CN109697286A (zh) | 一种基于词向量的诊断标准化方法及装置 | |
US20070282940A1 (en) | Thread-ranking apparatus and method | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
CN109036577A (zh) | 糖尿病并发症分析方法及装置 | |
CN108985133B (zh) | 一种人脸图像的年龄预测方法及装置 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN106557554B (zh) | 基于人工智能的搜索结果的显示方法和装置 | |
Callaghan et al. | Mechanicalheart: A human-machine framework for the classification of phonocardiograms | |
CN110931128A (zh) | 非结构化医疗文本无监督症状自动识别方法、***、装置 | |
CN108009135A (zh) | 生成文档摘要的方法和装置 | |
Wang et al. | An end-to-end pseudo relevance feedback framework for neural document retrieval | |
CN110413985A (zh) | 一种相关文本片段搜索方法及装置 | |
CN107133271B (zh) | 语义脑图实时表达***及其操作方法 | |
Hu et al. | Periodicity detection in lifelog data with missing and irregularly sampled data | |
Mihalcea et al. | Towards multimodal deception detection--step 1: building a collection of deceptive videos | |
Alsulmi et al. | Improving medical search tasks using learning to rank | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
CN109284391A (zh) | 一种文献自动分类方法 | |
CN109344232A (zh) | 一种舆情信息检索方法及终端设备 | |
Chansanam et al. | Thai Twitter sentiment analysis: Performance monitoring of politics in Thailand using text mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |