CN110853647A

CN110853647A - 一种视频搜索方法、视频播放终端及存储介质

Info

Publication number: CN110853647A
Application number: CN201810844178.2A
Authority: CN
Inventors: 朱信杰
Original assignee: TCL Research America Inc
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2020-02-28

Abstract

本发明提供了一种视频搜索方法、视频播放终端及存储介质，通过获取当前用户终端所处的位置信息；当接收到视频搜索的语音指令，将所述语音指令转化成文字指令；获取所述位置信息所属区域相对应的语言训练模型，并基于所述语言训练模型提取出所述文字指令中包含的关键词；根据所述关键词检索视频资料库中的视频文件，并输出检索结果。本发明的方法及终端提供了在进行视频搜索时加入区域特征，根据不同区域的语音习惯实现视频搜索的更准确性，为用户提供了便利。

Description

一种视频搜索方法、视频播放终端及存储介质

技术领域

本发明涉及视频播放技术领域，尤其涉及的是一种视频搜索方法、视频播放终端及存储介质。

背景技术

现在的智能电视已经不限人们仅能通过简单的输入关键字来搜索视频节目，而是以人机交互的方式尝试理解用户的自然语言。

但是现有技术中由更多地考虑用户与所搜事物间的空间距离，或与用户属于同一区域的其他用户的行为，而较少使用地理位置隐含的更多信息。比如来自不同地区的人对于同一事物的指代或描述用词会经常不同，又或是口语也随地域不同而呈现出各自的惯用句式。

进一步的，在实施搜索而需要处理自然语言时，这一类与地理位置高度相关的特征并未得到充分使用。拼音近似匹配未有考虑各地域的不同口音：由于受到各地普遍存在的方言影响，用户的口语时常会带有某种口音。对待此问题，现有的搜索引擎会采用拼音近似匹配的方法来识别出易混淆的语音。然而各地的方言差别很大，导致不同地域的易混淆音节也不尽相同。若用通用的近似匹配规则，未必能够准确捕捉到各地口音中的易混淆音节，从而影响搜索结果的准确度。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于提供一种视频搜索方法、视频播放终端及存储介质，克服现有技术中无法结合地域的区别进行视频搜索的缺陷。

本发明的实施例提供了一种视频搜索方法，其中，包括：

获取当前用户终端所处的位置信息；

当接收到视频搜索的语音指令，将所述语音指令转化成文字指令；

获取所述位置信息所属区域相对应的语言训练模型，并基于所述语言训练模型提取出所述文字指令中包含的关键词；

根据所述关键词检索视频资料库中的视频文件，并输出检索结果。

可选的，所述根据所述关键词检索视频资料库中的视频文件的步骤还包括：

基于所述语音训练模型中存储的不同区域口音对所述关键词进行拼音匹配，得到至少一个与所述关键词拼音相匹配的近似关键词；

根据所述关键词和所述近似关键词检索视频资料库中的视频文件。

可选的，所述方法还包括：

获取不同区域内的语言惯用句式和词语偏好，组建地域信息知识库；

根据所述地域信息知识库中存储的不同区域内的语音惯用句式和词语偏好，建立每个区域所对应的语言训练模型。

可选的，所述基于所述语言训练模型提取出所述文字指令中包含的关键词的步骤包括：

基于不同区域对事物的不同描述对所述文字指令进行相匹配识别,和/或基于不同区域对同一词语的不同含义对所述文字指令进行相对应的解析；

以及，和/或基于不同区域所对应的语言惯用句式抽取所述文字指令中包含的关键词。

可选的，所述根据所述关键词检索视频资料库中的视频文件，并输出检索结果的步骤还包括：

当检测到所述关键词中含有预先存储的特定词组时，则输出与所述位置信息所属区域相对应的特定词组节目单。

本发明公开的第二实施为一种视频播放终端，其中，所述视频播放终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的视频搜索的控制程序，其中所述视频搜索的控制程序被所述处理器执行时实现以下步骤：

获取当前用户终端所处的位置信息；

可选的，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

本发明公开的第三实施例为一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有视频搜索的控制程序，所述视频搜索的控制程序被处理器执行时实现所述的视频搜索的控制方法的步骤。

有益效果，本发明提供了一种视频搜索方法、视频播放终端及存储介质，通过获取当前用户终端所处的位置信息；当接收到视频搜索的语音指令，将所述语音指令转化成文字指令；获取所述位置信息所属区域相对应的语言训练模型，并基于所述语言训练模型提取出所述文字指令中包含的关键词；根据所述关键词检索视频资料库中的视频文件，并输出检索结果。本发明的方法及终端提供了在进行视频搜索时加入区域特征，根据不同区域的语音习惯实现视频搜索的更准确性，为用户提供了便利。

附图说明

图1是本发明所提供的所述视频搜索方法的步骤流程图；

图2是本发明所提供的所述方法的具体应用实施例的示意图；

图3是本发明所提供的所述视频播放终端的结构原理示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

随着GPS技术，用户IP地址归属地查询等方法的使用，用户的地理信息越来越容易被获得。这些地理信息实际上含有某些隐藏的语义或用户的个性化特征，因此基于用户的地理位置信息进行搜索或推荐往往更能帮助用户找到其感兴趣的事物。如可以根据用户的实时位置来搜索满足其条件的餐厅，像是最近的一间。再比如为用户推荐其所在区域的大多数人们感兴趣的新闻。在为用户搜索视频节目时，利用与其地理位置相关的信息也会极大的提升用户的满意度。

现在的智能电视已经不限人们仅能通过简单的输入关键字来搜索视频节目，而是以人机交互的方式尝试理解用户的自然语言。各种自然语言处理技术广泛应用于此类场景中。鉴于实际情景中不同地方的口语存在口音，词汇，词义及语法的差异，在处理自然语言时有效利用这些差异，可以更加提高搜索过程的智能性。

本发明的实施例提供了一种视频搜索方法，如图1所示，所述方法包括以下步骤：

步骤S1、获取当前用户终端所处的位置信息。

当用户终端开启视频搜索时，首先获取当前用户终端的位置信息，并将所述位置信息进行保存，以便后续步骤中使用该位置信息数据。本步骤中所使用的获取当前用户终端的位置信息的方法包括：可以利用终端自身的GPS模块进行定位获取，也可以通过识别终端设备的IP地址得到用户的地理位置，当然也可以通过用户自己上传其使用终端的地理位置信息，也可使用其他方法来获得。

步骤S2、当接收到视频搜索的语音指令，将所述语音指令转化成文字指令。

当接收到视频搜索语音指令后，将语音指令转化成文字指令，通过所述文字指令实现从视频资料库中搜索出相应名称的视频。

为了实现本步骤中语音指令转化成文字指令的准确性，本步骤中还包括：

基于不同区域口音对所述语音指令进行近似拼音匹配，得到所述文字指令。

步骤S3、获取所述位置信息所属区域相对应的语言训练模型，并基于所述语言训练模型提取出所述文字指令中包含的关键词。

当上述步骤中获取到的所述位置信息和转化得到的文字指令相结合，代入预先组建的语言训练模型，通过所述语言训练模型实现文字指令中包含的关键词的提取。

步骤S4、根据所述关键词检索视频资料库中的视频文件，并输出检索结果。

根据上述步骤中提取出的关键词从视频资料库中搜索视频文件，并输入搜索结果。

进一步的，所述方法还包括：

本步骤中组建地域信息知识库和根据每个地区信息的不同组建相对应的语言训练模型，主要基于以下三个方面因素的考量：

1）词汇：识别对于同一事物或影片的不同描述。

不同地区的人们描述同一事物的用词有时也完全不同，如果搜索引擎能够识别各地对同一事物的不同用词，会更好的提高匹配命中率。例如来自某一地区（如江浙）的用户搜索“制作馒头”的视频时，考虑到此地区实际将“包子”统一叫做“馒头”，返回的结果中含有“做包子”的视频同样符合用户的搜索期望。再如同一部影片或某些明星在不同地区（如内地和港台）的叫法常常也不一致。很多外国电影和明星的中文翻译即属于这类情况。拿印度电影《Dangal》举例，此片在内地，香港，台湾的译名分别为《摔跤吧爸爸》，《打死不离3父女》，《我和我的冠军女儿》。当来自港台地区的用户查询提及港台的译名时，应当将各地区不一致的片名做等同处理。也就是说，返回的结果应包含片名为对应的大陆译名的影片。对于此片的主演，内地与台湾的中文翻译也有差别。在实现利用人物搜索影片时，也应根据地域信息做同一人物不同名字的识别。

2）词义：对同一词语依据不同的地区做出不同的理解。

各地用词的差异还表现在同一字词在不同地区的意思也不相同。对于这一类字词，如果不结合地理信息，仅仅使用从语音转文字后提取出的字词去做简单匹配，搜索的结果很大可能没有正确理解用户查询的真实含义。例如来自某些地区（如四川）的用户输入中含有“瓜”作为关键字。如果只是去做文本匹配，返回给用户的可能是标签为瓜类植物的影片。但实际上“瓜”在当地的语义是“傻”，“笨”，用户是想搜索一些让人感觉傻笨的搞笑类影片。只有利用用户的地理信息，根据地域信息去释义这类字词，才能正确理解用户的搜索意图。再比如从用户的查询输入中提取出“煮饭”类的烹饪节目，搜索过程应考虑发起查询的用户所在地为北方还是南方。如若是北方，更应理解为是想搜索如何煮出一锅好吃的米饭的节目。而若是南方，可能就理解为“做饭”，“烧菜”更为恰当。由此可见，当处理这样的字词时，只有借助用户的地理信息才能精准理解用户的查询关键字，才能使得搜索结果更加符合用户的期望。

3）句式：从不同地区各自的惯用句式中抽取关键字。

前述方法介绍的都是如何借助地理信息从语音或语义上匹配关键字。实际上各地的口语中都存在一些惯用的句式或表达方式。从查询语句提取关键字的时候，考虑用户当地的惯用句式可以帮助提取过程更加有效。例如一些地区（如东北）习惯使用“贼”这个程度副词表达“很”，“非常”的意思，而有些地区（如上海）惯用“蛮”，有些地区（如陕西）惯用“得很”。当查询输入为“最近贼多人看的”且用户所在地为东北时，就应将“贼”当作程度副词，去搜索近来观看次数很高的影片，而不应提取出语义为“盗贼”这样的关键字。类似的，在处理来自上海的用户查询“蛮多人看的”，或陕西的用户查询“看的人多得很”时，都应剥离出程度副词，也理解为观看次数高。再如一些地区（如武汉）表达“没有”时惯用“没得”。在实现多轮对话搜索时，来自这些地区的用户第二轮输入“没得谁谁的”，就应在上轮搜索到的结果中去除有谁谁出演的影片。另外，在训练语义分析模型时，可以根据不同地区主动构造符合当地惯用句式的语句作为训练样本。

进一步的，为了实现本步骤中语音指令转化成文字指令的准确性，上述步骤中根据关键词进行匹配的步骤中还包括：

由于不少搜索引擎在匹配关键字时都会考虑到由用户口音带来的谐音字问题，如平翘舌音（“z”和“zh”，“c”和“ch”，“s”和“sh”），前后鼻音（“in”和“ing”），“f”和“h”，“l”和“n”音的混淆。在做搜索时，搜索引擎首先会将汉字转换为拼音，然后对这类近似的拼音也认为是匹配成功。然而现实生活中，各个地域的口音相差很大，不同地域混淆的近似音也不尽相同。在做关键字查询时，使用统一的近似拼音匹配规则会使得搜索的精确度受到影响。例如有些地区（如沈阳）的口音***翘舌音相混，但不会混淆“f”和“h”，“l”和“n”。因此当检测到用户的地理位置是此地区时，并不应当将“f”和“h”，“l”和“n”认作匹配，而只匹配平翘舌音。再如有些地区（如福建）的人还会不分“r”和“l”，那么在处理来自此地的查询时还应将“r”和“l”认作匹配，但这一近似匹配的规则不应适用于来自其他地区的语句分析。总之，匹配近似拼音时加入地域信息的考量，会令匹配过程更为精细化，提高搜索的精准度。

根据转化出的文字指令和获取到的位置信息，选择相匹配的语音训练模型，根据相匹配的语言训练模型提取关键字，具体的，所述基于所述语言训练模型提取出所述文字指令中包含的关键词的步骤包括：

也即是针对获取到的文字指令中包含的文字信息对上述三种方式中一种或多种出来，基于地域信息分析文字信息的准确含义，从而实现更好的搜索结果。

进一步的，所述根据所述关键词检索视频资料库中的视频文件，并输出检索结果的步骤还包括：

本发明所述特定词组可以是：热门、最新、最热，推荐或者某个大热电视剧或者影视剧的名字，当用户输入的关键词中含有上述特定词组的文字时，则自动转入到视频分类库中的分类节目单中，根据位置信息所属区域查找出相对应该特定词组的节目单，并将所述特定词组的节目单输出。

以特定词组为“热门”举例

由于同一影片在不同地区的受欢迎程度有时并不相同。当用户查询“热门的”某类影片时，全局范围内的热门影片很有可能在用户所在的区域受欢迎程度并不高。例如一个广东的用户在春节期间搜索“热门的综艺”。在全国范围内收视率最高的央视春晚在广东并非很受欢迎，而此时返回给用户粤港两地电视台合办的春晚更为合适。这样搜索得到的结果具有了个性化的效果。不像其他搜索推荐***那样，需要事先收集用户个人的历史行为数据，通过分析个人数据预测用户想要搜索的视频内容。加入地理信息做考量后，可以就同一地区其他用户的行为展开分析，使得搜索返回的结果更贴近本地区的观看兴趣。由于在用户所在地受欢迎的影片很大可能也是用户感兴趣的，这样便可不必事先收集用户个人数据来完成个性化的搜索服务。此外，地理位置本身也蕴含一些可供搜索过程利用的信息。例如有的电视剧同时有国语版和粤语版，当用户在查询中仅给出电视剧片名，可以根据用户的位置来选择为其返回哪个版本，如对广东及部分广西地区的用户优先返回该剧的粤语版。可以看出这一搜索无需利用任何用户的数据。

结合图2所示，对本发明所提供的方法做更为详细的说明。在具体实现上述方法时，需要以下步骤，可以想到的是下述步骤中涉及到的功能也可以通过功能模块实现。

地理位置检测：用于检测出用户的地理位置，可以通过终端设备（如网络电视）的IP地址得到用户的地理位置，也可使用其他方法来获得。用户的位置信息会被后续的模块利用。

语音转文字（STT）：将用户输入的查询语音转化成文字，可以使用STT软件完成。当用户说话带有口音时，转换得到的文字可能会不正确。

自然语言理解（NLU）：分析用户的查询语句，理解其搜索意图，提取出关键字用于后续检索影片资料库。可以通过训练深度神经网络模型来达成。在训练模型时，从地域信息知识库中取得各地的惯用句式，然后按照某地的句式构造语句做训练样本。在理解查询语句时，依据用户所在地的句式抽取关键字。

搜索引擎：根据关键字检索影片资料库，搜寻用户期望观看的影片。加入地域信息知识库后，搜索引擎会从其中取得用户所在地易混淆的拼音，相同语义的不同表达及一些词语的特殊含义。搜索算法需要对这些知识加以利用来实施关键字的匹配。

地域信息知识库：存储与地域相关的知识规则，包括易混淆拼音，同义词，特殊含义的词及偏好。这些规则可以通过事先对从各地域收集到的语料实施数据挖掘或机器学习来获得。在做基于地域的个性化搜索时，可以分析同地域其他用户的行为数据，将分析结果也存入知识库。

视频资料库：存储与影片相关的数据。可以使用各种数据库（如MySQL，PostgreSQL，Neo4j）或数据仓库（如hive）存储可供用户观看的影片资料。为提高搜索效率，还会存储一些索引类的辅助数据。

本发明公开的第二实施为一种视频播放终端，如图3所示，所述视频播放终端包括处理器310、存储器320及存储在所述存储器320上并可在所述处理器上运行的视频搜索的控制程序，其中所述视频搜索的控制程序被所述处理器执行时实现以下步骤：

获取当前用户终端所处的位置信息；

处理器301以及存储器302可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中模拟涂饰吊顶***对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例中工业设备管理装置或智能终端的功能。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储工业设备管理方法使用或接收的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

上述计算机设备可执行本发明实施例所提供的方法，具备执行该方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

并且，以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

具体的，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

进一步的，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种视频搜索方法，其特征在于，包括：

获取当前用户终端所处的位置信息；

2.根据权利要求1所述的视频搜索方法，其特征在于，所述根据所述关键词检索视频资料库中的视频文件的步骤还包括：

3.根据权利要求1所述的视频搜索方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的视频搜索方法，其特征在于，所述基于所述语言训练模型提取出所述文字指令中包含的关键词的步骤包括：

基于不同区域对事物的不同描述对所述文字指令进行相匹配识别，和/或基于不同区域对同一词语的不同含义对所述文字指令进行相对应的解析；

5.根据权利要求1所述的视频搜索方法，其特征在于，所述根据所述关键词检索视频资料库中的视频文件，并输出检索结果的步骤还包括：

6.一种视频播放终端，其特征在于，所述视频播放终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的视频搜索的控制程序，其中所述视频搜索的控制程序被所述处理器执行时实现以下步骤：

获取当前用户终端所处的位置信息；

7.根据权利要求6所述的视频播放终端，其特征在于，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

8.根据权利要求6所述的视频播放终端，其特征在于，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

9.根据权利要求6所述的视频播放终端，其特征在于，所述视频搜索的控制程序被所述处理器执行时还实现以下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频搜索的控制程序，所述视频搜索的控制程序被处理器执行时实现如权利要求1至5中任一项所述的视频搜索方法的步骤。