CN107066477A

CN107066477A - 一种智能推荐视频的方法及装置

Info

Publication number: CN107066477A
Application number: CN201611147664.6A
Authority: CN
Inventors: 张莹; 梁治刚; 林岳; 顾思斌; 潘柏宇; 王冀
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-08-18

Abstract

本发明公开了一种智能推荐视频的方法及***，所述方法包括接收外部媒体声音，从所述外部媒体声音中识别出最终目标语音，所述最终目标语音包括语音源和噪声源；利用噪声相减算法对所述最终目标语音进行降噪；根据语音转换功能，将降噪后的最终目标语音转换为目标文字；获取所述目标文字中的目标关键词；匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。本发明通过后台大数据搜索对应的待推荐视频，实现对用户做针对性地视频推荐；用户寻找视频更加方便和高效；推荐的精准性高，进一步提升用户体验。

Description

一种智能推荐视频的方法及装置

技术领域

本发明涉及视频技术领域，尤其涉及一种智能推荐视频的方法及装置。

背景技术

随着生活质量的提高，手机作为我们的沟通、娱乐及消费于一体的工具，显得越来越不可缺少。其中，手机能够满足我们即时通信和即时娱乐的需求，这使得我们对它几乎是机不离身，这种状况下不可避免地会出现一心二用的情况，比如下班回家后，习惯性的把电视播到喜欢的频道，所述频道包括新闻、球赛或电视剧等等，然后一边开着电视一边玩着手机；其中，外部视频的声音是一个获取用户喜好视频的很好的资源，比如若是能够根据电视播放的声音判断用户对视频的喜好，进而为用户的手机智能地推荐视频，这将进一步提升用户观看视频的体验。

目前已有的智能推荐视频的方法主要有两种：一种是用户主动选择喜欢的视频类别，然后根据用户的选择来推荐相同类别的视频；另一种则是根据用户的观看历史记录，推荐与用户观看过的视频相同类别的其他视频。其中，主动选择喜欢的视频进行推荐，以及根据用户观看记录进行的推荐，依据的都是用户的操作，然而，在用户操作过程中会不可避免地出现用户的误操作或是试看操作，这并不属于用户喜欢的视频；所以，这两种推荐方法无法反映用户的真实兴趣，推荐的智能化、准确度、全面度均偏低。

发明内容

为了解决上述技术问题，本发明提出了一种智能推荐视频的方法及装置。

本发明是以如下技术方案实现的：

一种智能推荐视频的方法，所述方法包括：

接收外部媒体声音，从所述外部媒体声音中识别出最终目标语音，所

述最终目标语音包括语音源和噪声源；

利用噪声相减算法对所述最终目标语音进行降噪；

根据语音转换功能，将降噪后的最终目标语音转换为目标文字；

获取所述目标文字中的目标关键词；

匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。

进一步地，所述从所述外部媒体声音中识别出最终目标语音包括，

判断所述外部媒体声音的频率是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，判断所述预先目标语音的信号来源。

进一步地，所述判断所述预先目标语音的信号来源包括，

若所述目标语音为单音信号波形，则对所述预先目标语音进行降噪，

所述预先目标语音为最终目标语音。

进一步地，所述噪声相减算法包括，

通过自适应噪声抵消法产生参考信号，

利用所述参考信号对所述最终目标语音进行降噪处理。

进一步地，所述获取所述目标文字中的目标关键词包括，

利用分词技术对所述目标文字进行分词，获得目标词语，

判断所述目标词语的概率是否大于预设概率，若是，则所述目标词语

为目标关键词。

优选地，所述外部媒体声音包括移动设备的声音或非移动设备的声音。

一种智能推荐视频的装置，所述装置包括：

声音接收模块，用于接收外部媒体声音，从所述外部媒体声音中识别出最终目标语音，所述最终目标语音包括语音源和噪声源；

降噪模块，能够利用噪声相减算法对所述最终目标语音进行降噪；

语音转换模块，用于根据语音转换功能，将降噪后的最终目标语音转换为目标文字；

关键词获取模块，用于获取所述目标文字中的目标关键词；

关键词匹配模块，用于匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。

进一步地，所述声音接收模块包括，

频率判断单元，用于判断所述外部媒体声音的频率是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，判断所述预先目标语音的信号来源。

进一步地，所述声音接收模块还包括信号判断模块，用于在判断出所

述目标语音为单音信号波形的情况下，对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音。

进一步地，所述降噪模块包括，

参考信号产生单元，用于通过自适应噪声抵消法产生参考信号，降噪处理单元，用于利用所述参考信号对所述最终目标语音进行降噪处理。

进一步地，所述关键词获取模块包括，

分词单元，用于利用分词技术对所述目标文字进行分词，获得目标词语，概率判断单元，用于判断所述目标词语的概率是否大于预设概率，若是，则所述目标词语为目标关键词。

优选地，所述外部媒体声音包括移动设备的声音和/或非移动设备的声音。

本发明具有的有益效果：本发明通过获取外部媒体声音，利用算法实现外部媒体声音的判断和目标语音的降噪；能够同时把语音转换成文字，记录目标关键词，匹配目标关键词，通过后台大数据搜索对应的待推荐视频，实现对用户做针对性地视频推荐；用户寻找视频更加方便和高效；推荐的精准性高，进一步提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例一提供的智能推荐视频的方法流程图；

图2是实施例一提供的单信道语音增强示意图；

图3是实施例二提供的智能推荐视频的装置框图；

图4是实施例二提供的自适应噪声抵消法工作原理示意图；

图5是实施例三提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明

实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，但并不局限于此。并且，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在通过此类方法实现对用户终端智能推荐视频功能的皆属于本专利的保护范围；并且，对于该技术方案可以进一步考虑不需要语音转换为文本，直接通过处理后得到的语音就可以实现视频的推荐。

实施例一：

如图1所示，本实施例提供了一种智能推荐视频的方法，所述方法包括：

S101. 接收外部媒体声音，从所述外部媒体声音中识别出最终目标语音，所述最终目标语音包括语音源和噪声源；

其中，所述外部媒体声音包括移动设备的声音和/或非移动设备的声音。

进一步地，所述从所述外部媒体声音中识别出最终目标语音包括，判

断所述外部媒体声音的频率是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，判断所述预先目标语音的信号来源。

需要说明的是，所述判断所述外部媒体声音的频率中，所述外部媒体声音的频率也就是音频采样频率，具体地，对音频采样频率做进一步解释，利用模/数转换器（A/D）以每秒上万次的速率对声波进行采样；其中每一秒钟所采样的数目称为采样频率，单位为Hz（赫兹）；每一次采样都记录了原始模拟声波在某一时刻的状态，称之为样本，将一串的样本连接起来，就形成一段声波。

采样频率一般分为 22.05KHz、44.1KHz、48KHz三个等级，其中，22.05 KHz为FM广播的声音品质，44.1KHz是理论上的CD音质界限，48KHz则更加精确一些，对于高于48KHz的采样频率人耳已无法辨别出来，所以没有多少使用价值。进一步地，5KHz的采样率仅能达到人们讲话的声音质量；11KHz的采样率是播放小段声音的最低标准，是CD音质的四分之一；22KHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率； 44KHz的采样率是标准的CD音质，可以达到很好的听觉效果。

优选地，利用MIC（Microphone）传感器对所述外部媒体声音的频率

是否大于5KHz进行检测，若所述外部媒体声音的频率不能达到人们讲话的声音质量，即小于等于5KHz，则视频推荐没有意义，不进行推荐。

进一步地，所述判断所述预先目标语音的信号来源包括，若所述目标

语音为单音信号波形，则对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音；若所述目标语音为复合信号波形，则不进行推荐。

其中，单音信号波形是指由单一频率和振幅组成的声音信号；复合信号波形是指由若干频率和振幅各不相同的正弦波组成的声音信号，自然界存在的大多是复合音。

S102. 利用噪声相减算法对所述最终目标语音进行降噪；

其中，对最终目标语音降噪的过程也就是增强语音的过程，语音增强

的目标是从带噪语音信号中提取尽可能纯净的原始语音，然而，由于干扰都是随机的，从带噪语音中提取完全纯净的语音几乎不可能，因此语音增强的目的主要是改进语音质量，消除背景噪声。

其中，为了降低信号在传输过程中的噪声，改善语音传输质量，大多

会采用几种通用的语音增强方法。

噪声抵消法，是以噪声干扰为处理对象，将噪声干扰抑制掉或进行非常大的衰减，以提高信号传递和接收的信噪比质量；谐波频率抑制法，即基于噪声的周期性原理，利用谐波噪声的自适应梳状滤波实施基频跟踪来完成降噪；利用声码器再合成法，它利用迭代法，在语音建模的基础上，估计模型参数，用描述语音信号的方法再重新合成无噪声信号；谱减法是从带噪语音估值中减去噪声频谱估值，从而得到较为纯净的语音频谱。

进一步地，所述噪声相减算法包括，通过自适应噪声抵消法产生参考

信号，利用所述参考信号对所述最终目标语音进行降噪处理。相比较其他方法，自适应噪声抵消法进行降噪处理是一种有效降噪的方法，降噪幅度有一定提高，降噪后的语音在清晰度和自然度方面也较优。

具体地，如图2所示，基于声音语音的周期性，自适应噪声抵消法可以通过产生参考信号而加以利用。其中，参考信号是延迟主信号一个周期形成的，需要有复杂的间距估计算法。在语音帧内利用FFT（Fast Fourier Transformation）快速傅氏变换，用估计的噪声幅值频谱相减，并逆变换这个相减后的频谱幅值，再利用原始噪音的相位，求出有噪音短时幅值和相位频谱；其中，增强步骤是一帧接一帧地完成，此方法先把污染的语音利用带通滤波器组分解成不同的频率组，随后每个分波段的噪声功率在无语音期间被估计出来；通过利用衰减因子可以获得噪声抑制，其中衰减因子相对应于每个分波段估计噪声功率比上瞬时信号功率。

S103. 根据语音转换功能，将降噪后的最终目标语音转换为目标文字；

所述最终目标语音包括语音源和噪声源，通过对最终目标语音进行降噪获得较纯净的语音，进一步通过语音识别技术将较纯净的语音转换为文字，作为获取待推荐视频的前提。其中，应用软件或输入法中存在能够实现将增强的语音转换成文字的技术。

S104. 获取所述目标文字中的目标关键词；

进一步地，所述获取所述目标文字中的目标关键词包括，

利用分词技术对所述目标文字进行分词，获得目标词语，

为目标关键词。

具体地，将增强的语音转换为文字之后，进一步将文字分成若干个词语，其中，是否为目标关键词，是通过判断分词得到的词语的概率是否大于预设概率，若是，则得到的词语可以作为目标关键词；所述预设概率与后台大数据中的关键词的概率保持一致。

S105. 匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。

具体地，通过将目标关键词与后台大数据中的关键词进行匹配，若匹配成功，则进一步通过后台大数据中的关键词查找待推荐视频，将所述待推荐视频推送给用户端，若匹配不成功，则进行下一个目标关键词的匹配。

综上所述，本实施例提供的一种智能推荐视频的方法，通过对外部媒体声音的识别和判断，能够准确获知用户喜好的视频，针对性地进行视频推荐。

实施例二：

如图3所示，本实施例提供了一种智能推荐视频的装置，所述装置用

于执行上述实施例一提供的智能推荐视频的方法，所述装置包括：

声音接收模块210，用于接收外部媒体声音，从所述外部媒体声音中识别出最终目标语音，所述最终目标语音包括语音源和噪声源；

降噪模块220，能够利用噪声相减算法对所述最终目标语音进行降噪；

语音转换模块230，用于根据语音转换功能，将降噪后的最终目标语音转换为目标文字；

所述最终目标语音包括语音源和噪声源，通过对最终目标语音进行降噪获得较纯净的语音，进一步通过语音识别技术将较纯净的语音转换为文字，作为获取待推荐视频的前提。其中，应用软件或输入法中均有能够实现将增强的语音转换成文字的技术。

关键词获取模块240，用于获取所述目标文字中的目标关键词；

关键词匹配模块250，用于匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。

进一步地，所述声音接收模块210包括，

频率判断单元211，用于判断所述外部媒体声音的频率是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，判断所述预先目标语音的信号来源。

进一步地，所述声音接收模块210还包括信号判断模块212，用于在判断出所述目标语音为单音信号波形的情况下，对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音。

优选地，利用MIC传感器对所述外部媒体声音的频率是否大于5KHz进行检测。

进一步地，所述降噪模块220包括，

参考信号产生单元221，用于通过自适应噪声抵消法产生参考信号，

降噪处理单元222，用于利用所述参考信号对所述最终目标语音进行降

噪处理。

其中，自适应噪声抵消法的工作原理示意图如图4所示，自适应噪声对消器是基于自适应滤波原理的一种扩展，它有两个输入传感器，第一个传感器除接收到信号s之外，还接收到一个与信号不相关的噪声n₀，即输入s+ n₀作为对消器的原始输入；第二个传感器接收与信号不相关但与噪声n₀以某种未知方式相关的噪声n₁；第二个传感器给对消器提供参考输入。自适应滤波器将噪声n₁加以滤波，产生与噪声n₀相匹配的输出y；将该输出从原始输入中减去得到：

ε= s+ n₀-y；

通常，从噪声源到原始支路、参考支路的通道传输特性是未知，或只是近似可知，且没有固定的性质。所以，不能用一个固定参数的滤波器来得到与n₀相匹配的输出y。而采用自适应滤波器就可以通过由输出误差信号所控制的自适应算法来随时自动地调整参数，获得好的抵消效果。

进一步地，所述关键词获取模块240包括，

分词单元241，用于利用分词技术对所述目标文字进行分词，获得目标词语，

概率判断单元242，用于判断所述目标词语的概率是否大于预设概率，若是，则所述目标词语为目标关键词。

综上所述，本实施例提供的一种智能推荐视频的装置，通过降噪模块对声音接收模块接收的声音进行降噪，进一步利用关键词匹配模块对分词后的文字进行匹配，进而得到待推荐视频；能够反映用户的真实兴趣，推荐的智能化和准确度均较高，从而提升了用户的体验。

实施例三：

如图5所示，本发明实施例提供了一种终端，该终端可以用于实施上述实施例一中提供的智能推荐视频的方法，该终端还可以包含实施例二中提供的智能推荐视频的装置。具体来讲：

终端800可以包括RF（Radio Frequency，射频）电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM）卡、收发信机、耦合器、LNA（Low Noise Amplifier，低噪声放大器）、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess, 宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端800的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图5中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端800还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端800移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端800的通信。

WiFi属于短距离无线传输技术，终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块170，但是可以理解的是，其并不属于终端800的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端800的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端800的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端800还包括给各个部件供电的电源190（比如电池），优选的，电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端800还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

述最终目标语音包括语音源和噪声源；

利用噪声相减算法对所述最终目标语音进行降噪；

获取所述目标文字中的目标关键词；

进一步地还包含用于执行以下的指令：判断所述外部媒体声音的频率

是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，判断所述预先目标语音的信号来源。

进一步地还包含用于执行以下的指令：若所述目标语音为单音信号波

形，则对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音。

进一步地还包含用于执行以下的指令：通过自适应噪声抵消法产生参

考信号，利用所述参考信号对所述最终目标语音进行降噪处理。

进一步地还包含用于执行以下的指令：利用分词技术对所述目标文字

进行分词，获得目标词语，判断所述目标词语的概率是否大于预设概率，若是，则所述目标词语为目标关键词。

优选地，所述存储器中包括至少一个外部媒体声音存储器，所述终端举例来说，可以为用户手持的移动手机终端，当用户玩着手机的同时，身边的电视里播放着喜欢的节目；此时手机终端后台能够时时地接收电视节目中的声音，将所述声音保存至外部媒体声音存储器中，当用户想从手机终端观看视频时，打开视频播放器时手机终端就会调用外部媒体声音存储器中指令，进而开始执行上述操作指令。

综上所述，本实施例提供的一种终端，所述终端能够实施上述实施例一中提供的智能推荐视频的方法，还能够包含实施例二中提供的智能推荐视频的装置，通过去除外部媒体声音的噪声，将去噪后得到的语音转换为文字，进一步进行关键词匹配，能够准确获知用户喜好的视频，准确性、全面性地对用户进行视频推荐。

实施例四：

本实施例提供了一种存储介质，该可读存储介质可以是存储器中包含的可读存储介质；也可以是单独存在，未装配入终端中的可读存储介质。

可读存储介质存储有一个或者一个以上程序，所述程序包含用于进行以下操作的指令：

第一步：接收外部媒体声音，从所述外部媒体声音中识别出最终目标

语音，所述最终目标语音包括语音源和噪声源；

第二步：利用噪声相减算法对所述最终目标语音进行降噪；

第三步：根据语音转换功能，将降噪后的最终目标语音转换为目标文字；

第四步：获取所述目标文字中的目标关键词；

第五步：匹配所述目标关键词与后台大数据中的关键词，获取待推荐视频。

进一步地所述程序还包含用于进行以下操作的指令，所述从所述外部

媒体声音中识别出最终目标语音包括，判

进一步地所述程序还包含用于进行以下操作的指令，所述判断所述预

先目标语音的信号来源包括，若所述目标语音为单音信号波形，则对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音。

进一步地所述程序还包含用于进行以下操作的指令，所述噪声相减算

法包括，通过自适应噪声抵消法产生参考信号，利用所述参考信号对所述最终目标语音进行降噪处理。

进一步地所述程序还包含用于进行以下操作的指令，所述获取所述目

标文字中的目标关键词包括，利用分词技术对所述目标文字进行分词，获得目标词语，判断所述目标词语的概率是否大于预设概率，若是，则所述目标词语为目标关键词。

综上所述，本实施例提供的一种存储介质，能够存储实施例一中所述方法对应的指令，通过对外部媒体声音的识别和判断，能够准确获知用户对视频的喜好，推荐的精准性高，进而使得用户寻找视频更加方便和高效。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本发明中的技术方案中的各个模块均可通过计算机终端或其它设备实现。所述计算机终端终端和其他设备均包括处理器和存储器。所述存储器用于存储本发明中的程序指令/模块，所述处理器通过运行存储在存储器内的程序指令/模块，实现本发明相应功能。

本发明中的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

本发明中所述模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。可以根据实际的需要选择其中的部分或者全部模块/单元来达到实现本发明方案的目的。

另外，在本发明各个实施例中的各模块/单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种智能推荐视频的方法，其特征在于，所述方法包括：

述最终目标语音包括语音源和噪声源；

利用噪声相减算法对所述最终目标语音进行降噪；

获取所述目标文字中的目标关键词；

2.根据权利要求1所述的智能推荐视频的方法，其特征在于，所述从所述外部媒体声音中识别出最终目标语音包括，

判断所述外部媒体声音的频率是否大于5KHz，若是，则所述外部媒体声音为预先目标语音，进一步判断所述预先目标语音的信号来源。

3.根据权利要求2所述的智能推荐视频的方法，其特征在于，所述判断所述预先目标语音的信号来源包括，

所述预先目标语音为最终目标语音。

4.根据权利要求1所述的智能推荐视频的方法，其特征在于，所述噪声相减算法包括，

通过自适应噪声抵消法产生参考信号，

利用所述参考信号对所述最终目标语音进行降噪处理。

5.根据权利要求1所述的智能推荐视频的方法，其特征在于，所述获取所述目标文字中的目标关键词包括，

利用分词技术对所述目标文字进行分词，获得目标词语，

为目标关键词。

6.根据权利要求1所述的智能推荐视频的方法，其特征在于，所述外部媒体声音包括移动设备的声音和/或非移动设备的声音。

7.一种智能推荐视频的装置，其特征在于，所述装置包括：

关键词获取模块，用于获取所述目标文字中的目标关键词；

8.根据权利要求7所述的智能推荐视频的装置，其特征在于，所述声音接收模块包括，

9.根据权利要求8所述的智能推荐视频的装置，其特征在于，所述声音接收模块还包括

信号判断模块，用于在判断出所述目标语音为单音信号波形的情况下，

对所述预先目标语音进行降噪，所述预先目标语音为最终目标语音。

10.根据权利要求7所述的智能推荐视频的装置，其特征在于，所述降噪模块包括，

参考信号产生单元，用于通过自适应噪声抵消法产生参考信号，

降噪处理单元，用于利用所述参考信号对所述最终目标语音进行降噪处理。

11.根据权利要求7所述的智能推荐视频的装置，其特征在于，所述关键词获取模块包括，

分词单元，用于利用分词技术对所述目标文字进行分词，获得目标词

语，

概率判断单元，用于判断所述目标词语的概率是否大于预设概率，若

是，则所述目标词语为目标关键词。

12.根据权利要求7所述的智能推荐视频的装置，其特征在于，所述外部媒体声音包括移动设备的声音和/或非移动设备的声音。