CN106708929B - 视频节目的搜索方法和装置 - Google Patents

视频节目的搜索方法和装置 Download PDF

Info

Publication number
CN106708929B
CN106708929B CN201611019485.4A CN201611019485A CN106708929B CN 106708929 B CN106708929 B CN 106708929B CN 201611019485 A CN201611019485 A CN 201611019485A CN 106708929 B CN106708929 B CN 106708929B
Authority
CN
China
Prior art keywords
matrix
index
video
description
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611019485.4A
Other languages
English (en)
Other versions
CN106708929A (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201611019485.4A priority Critical patent/CN106708929B/zh
Priority to PCT/CN2016/113642 priority patent/WO2018090468A1/zh
Publication of CN106708929A publication Critical patent/CN106708929A/zh
Application granted granted Critical
Publication of CN106708929B publication Critical patent/CN106708929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频节目的搜索方法,包括:接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。相应地,本发明还公开了一种视频节目的搜索装置。采用本发明实施例,能挖掘出文档的潜在语义,提高搜索视频节目的准确度和搜索效率。

Description

视频节目的搜索方法和装置
技术领域
本发明涉及计算机领域,尤其涉及视频节目的搜索方法和装置。
背景技术
在做综艺节目推荐时,ContentBase方法是一种重要的策略,主要是通过综艺内容描述的相似度进行聚类推荐,这种方法将内容相近的文本进行了聚类,现有主要是基于TF-IDF的Rocchio算法,Rocchio算法来源于向量空间模型理论,向量空间模型Vector spacemodel的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。Rocchio算法训练的过程,其实就是建立类别特征向量的过程,对于给定的一个未知文本,生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。
但是采用上述算法存在以缺点:Rocchio算法无法挖掘文档的潜在语义。二、它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。
发明内容
本发明实施例提出的一种视频节目的搜索方法和装置,能挖掘出文档的潜在语义,提高搜索视频节目的准确度和搜索效率。
本发明实施例提供的一种视频节目的搜索方法,包括:
接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,由描述视频节目的描述文档构建成索引矩阵的过程包括:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
构建所述描述词条的查询向量的过程包括:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,由描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程,具体为:
对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
调用分词工具;
利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述构建所述描述词条的查询向量,具体为:
根据标准词条格式,对所述描述词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度,具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
相应地,本发明实施例提供一种视频节目的搜索装置,包括:
用户信息接收模块,用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
查询向量构建模块,用于选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,所述查询向量构建模块包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元,用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元,用于调用分词工具;
第一分词单元,用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
第一关键词提取单元,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元,用于根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元,具体为:
第二格式调整单元,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元,用于调用分词工具;
第二分词单元,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块具体包括:
模型修订单元,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索装置还包括:
模型更新模块,用于当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的视频节目的搜索方法和装置,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。另外,通过用户输入的所述视频节目所属的视频类别,选择与该视频类别对应的潜在语义索引模型来进行计算,能进一步提高搜索视频节目的效率。
附图说明
图1是本发明提供的视频节目的搜索方法的一个实施例的流程示意图;
图2是本发明提供的视频节目的搜索装置的一个实施例的结构示意图;
图3是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图;
图4是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的视频节目的搜索方法的一个实施例的流程示意图;该搜索方法,包括步骤S1至S4,具体为:
S1,接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
S2,选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;所述索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频;所述查询向量为列向量,所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频;
S3,根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
S4,对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
需要说明的是,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。另外,通过用户输入的所述视频节目所属的视频类别,选择与该视频类别对应的潜在语义索引模型来进行计算,能进一步提高搜索视频节目的效率。其中,上述的排序区间一般优选为排列在前的10个排序号。
进一步地,上述步骤S2中的根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程,具体为:
对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;对于对词条的格式调整,可以但不限于,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;分词工具对描述词条进行分词的模式有多种,除了按正常分词模式切分外,还可以继续长词进行切分,提高召回率,尤其对短文本,可以切出比正常切分出更多的词,对后续的输出视频节目的准确度有提升效果。
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
需要说明的是,构建上述索引矩阵是预先根据数据库存储的描述文档构建而成的,构建过程需遵循:索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频。其中,索引矩阵的第i行的所有元素所代表的同一个关键词,且不同行的元素所代表的关键词不相同。例如,假设索引矩阵的第1行的所有元素代表关键词A,索引矩阵的第1列的元素代表描述文档B,则该索引矩阵的第1行第1列的元素的数值代表关键词A在描述文档B出现的概率。
进一步地,上述步骤S2中的构建所述描述词条的查询向量,具体为:
根据标准词条格式,对所述描述词条进行格式调整;例如,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;分词工具对描述词条进行分词的模式有多种,除了按正常分词模式切分外,还可以继续长词进行切分,提高召回率,尤其对短文本,可以切出比正常切分出更多的词,对后续的输出视频节目的准确度有提升效果。
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
需要说明的是,构建所述描述词条的查询向量时,要确保所述查询向量的第i个元素代表的关键词与上述潜在语义索引模型的索引矩阵的第i行元素代表的关键词相同,使得比较查询向量与索引矩阵的每一列向量的余弦相似度具有意义。
另外,构建向量的过程还需遵循以下原则:所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频;例如,在假设索引矩阵的第1行的所有元素代表关键词A,则查询向量的第1行的元素代表的关键词为关键词A,则查询向量的第1行的元素的数值代表关键词A在描述词条中出现的词频。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
上述步骤S3的具体实施过程具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
需要说明的是,此处的K值是个阈值选择,可以根据实际情况选择,分解过程采用H的K秩,是让索引矩阵H的前K个最大奇异值以后的奇异值都为零。上述对潜在语义索引模型的修订,能够提高检索效率。
进一步地,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
需要说明的是,由于视频节目会不断增加的,而对于描述新增加的视频节目的描述文档也会不断添加到数据库当中,因此需要对举在语义索引模型进行更新。
本发明实施例提供的视频节目的搜索方法,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。另外,通过用户输入的所述视频节目所属的视频类别,选择与该视频类别对应的潜在语义索引模型来进行计算,能进一步提高搜索视频节目的效率。
参阅图2,是本发明提供的视频节目的搜索装置的一个实施例的结构示意图。该搜索装置能够执行上述实施例提供的视频节目的搜索方法的全部流程,该搜索装置,包括:
用户信息接收模块10,用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
查询向量构建模块20,用于选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块30,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块40,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,参见图3,是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图,所述查询向量构建模块20包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元21,用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元22,用于调用分词工具;
第一分词单元23,用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
第一关键词提取单元34,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元25,用于根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述查询向量构建模块20还包括用于构建所述描述词条的查询向量的单元,具体为:
第二格式调整单元26,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元27,用于调用分词工具;
第二分词单元28,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元29,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元31,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,参见图4,是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块30具体包括:
模型修订单元32,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元33,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索装置还包括:
模型更新模块50,用于当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
本发明实施例提供的视频节目的搜索装置,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。另外,通过用户输入的所述视频节目所属的视频类别,选择与该视频类别对应的潜在语义索引模型来进行计算,能进一步提高搜索视频节目的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种视频节目的搜索方法,其特征在于,包括:
接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户;
其中,由描述视频节目的描述文档构建成索引矩阵的过程包括:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
构建所述描述词条的查询向量的过程包括:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
2.如权利要求1所述的视频节目的搜索方法,其特征在于,由描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程,具体为:
对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
调用分词工具;
利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
3.如权利要求1所述的视频节目的搜索方法,其特征在于,所述构建所述描述词条的查询向量,具体为:
根据标准词条格式,对所述描述词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
4.如权利要求2所述的视频节目的搜索方法,其特征在于,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度,具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
5.如权利要求1所述的视频节目的搜索方法,其特征在于,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
6.一种视频节目的搜索装置,其特征在于,包括:
用户信息接收模块,用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
查询向量构建模块,用于选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户;
其中,所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
7.如权利要求6所述的视频节目的搜索装置,其特征在于,所述查询向量构建模块包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元,用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元,用于调用分词工具;
第一分词单元,用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
第一关键词提取单元,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元,用于根据所提取的每一个关键词在每一个描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
8.如权利要求6所述的视频节目的搜索装置,其特征在于,所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元,具体为:
第二格式调整单元,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元,用于调用分词工具;
第二分词单元,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
9.如权利要求7所述的视频节目的搜索装置,其特征在于,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块具体包括:
模型修订单元,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
10.如权利要求6所述的视频节目的搜索装置,其特征在于,所述搜索装置还包括:
模型更新模块,用于当数据库增加描述新的视频节目的描述文档时,对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
CN201611019485.4A 2016-11-18 2016-11-18 视频节目的搜索方法和装置 Active CN106708929B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611019485.4A CN106708929B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置
PCT/CN2016/113642 WO2018090468A1 (zh) 2016-11-18 2016-12-30 视频节目的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611019485.4A CN106708929B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN106708929A CN106708929A (zh) 2017-05-24
CN106708929B true CN106708929B (zh) 2020-06-26

Family

ID=58939942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611019485.4A Active CN106708929B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置

Country Status (2)

Country Link
CN (1) CN106708929B (zh)
WO (1) WO2018090468A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416026B (zh) * 2018-03-09 2023-04-18 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN110555127A (zh) * 2018-03-30 2019-12-10 优酷网络技术(北京)有限公司 多媒体内容的生成方法及装置
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法
CN111177512A (zh) * 2019-12-24 2020-05-19 绍兴市上虞区理工高等研究院 一种基于大数据的科技成果缺失处理方法及装置
CN111651635B (zh) * 2020-05-28 2023-04-28 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN111984851B (zh) * 2020-09-03 2023-11-14 深圳平安智慧医健科技有限公司 医学资料搜索方法、装置、电子装置及存储介质
CN113094703B (zh) * 2021-03-11 2024-06-21 北京六方云信息技术有限公司 针对web入侵检测的输出内容过滤方法及***
CN114564496B (zh) * 2022-03-01 2023-09-19 北京有竹居网络技术有限公司 一种内容推荐方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
JP2009213067A (ja) * 2008-03-06 2009-09-17 Toshiba Corp 番組推薦装置および番組推薦方法
CN103152618B (zh) * 2011-12-07 2017-11-17 北京四达时代软件技术股份有限公司 数字电视增值业务内容推荐方法及装置
CN103559196B (zh) * 2013-09-23 2017-02-22 浙江大学 一种基于多核典型相关分析的视频检索方法
CN104657376B (zh) * 2013-11-20 2018-09-18 航天信息股份有限公司 基于节目关系的视频节目的搜索方法和装置
CN104199933B (zh) * 2014-09-04 2017-07-07 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN105653690B (zh) * 2015-12-30 2018-11-23 武汉大学 异常行为预警信息约束的视频大数据快速检索方法及***

Also Published As

Publication number Publication date
CN106708929A (zh) 2017-05-24
WO2018090468A1 (zh) 2018-05-24

Similar Documents

Publication Publication Date Title
CN106708929B (zh) 视频节目的搜索方法和装置
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN110019732B (zh) 一种智能问答方法以及相关装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111291188B (zh) 一种智能信息抽取方法及***
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
CN106570196B (zh) 视频节目的搜索方法和装置
CN112307182B (zh) 一种基于问答***的伪相关反馈的扩展查询方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110879834A (zh) 一种基于循环卷积网络的观点检索***及其观点检索方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
CN110866102A (zh) 检索处理方法
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN114997288A (zh) 一种设计资源关联方法
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant