CN108737872A - 用于输出信息的方法和装置 - Google Patents
用于输出信息的方法和装置 Download PDFInfo
- Publication number
- CN108737872A CN108737872A CN201810587827.5A CN201810587827A CN108737872A CN 108737872 A CN108737872 A CN 108737872A CN 201810587827 A CN201810587827 A CN 201810587827A CN 108737872 A CN108737872 A CN 108737872A
- Authority
- CN
- China
- Prior art keywords
- multimedia file
- user
- vocal print
- multimedia
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000001755 vocal effect Effects 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000012552 review Methods 0.000 claims abstract description 17
- 238000004519 manufacturing process Methods 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 15
- 230000002452 interceptive effect Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims 4
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 241001494479 Pecora Species 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282461 Canis lupus Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001071864 Lethrinus laticaudis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4753—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/2387—Stream processing in response to a playback request from an end-user, e.g. for trick-play
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4826—End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入声纹识别模型,得到用户的身份信息;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。该实施方式实现了富有针对性的多媒体预览信息推荐。
Description
技术领域
本申请实施例涉及智能电视技术领域,具体涉及用于输出信息的方法和装置。
背景技术
智能电视已经广泛出现在我们的生活中,智能电视不仅仅局限于传统的电视节目观看功能,目前热门的电视应用市场,为用户提供成百上千电视应用,覆盖电视直播、视频点播、股票金融、生活健康、***优化工具等。
现有技术中电视作为一个家庭公用设备,通常对家庭中的每个成员提供相同的服务。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入声纹识别模型,得到用户的身份信息;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。
在一些实施例中,基于语音生成声纹特征向量,包括:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将声纹特征超向量经过降维处理得到声纹特征向量。
在一些实施例中,上述方法还包括:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,上述方法还包括:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述方法还包括:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息;使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在一些实施例中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:生成单元,被配置成响应于接收到用户输入的语音,基于语音生成声纹特征向量;识别单元,被配置成将声纹特征向量输入预先训练的声纹识别模型,得到用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;选项单元,被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;输出单元,被配置成根据目标多媒体文件生成预览信息进行输出。
在一些实施例中,生成单元进一步被配置成:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将声纹特征超向量经过降维处理得到声纹特征向量。
在一些实施例中,上述装置还包括执行单元,被配置成:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
在一些实施例中,上述装置还包括检索次数统计单元,被配置成:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,上述装置还包括播放次数统计单元,被配置成:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述装置还包括调音单元,被配置成:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息;使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在一些实施例中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本申请实施例提供的用于输出信息的方法和装置,通过语音识别出用户身份信息,然后再根据用户身份信息选择待推荐的多媒体文件生成预览信息。从而实现了富有针对性的多媒体预览信息推荐。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性***架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括智能电视101和遥控器102。智能电视101上安装有麦克风103,用于采集观看者的声音。遥控器102用来远程控制智能电视101。可以实现对智能电视频道的转换、用于输出信息的等功能。智能电视101连接网络后,能提供网页浏览器、全高清3D体感游戏、视频通话以及教育在线等多种娱乐、资讯、学习资源,并可以无限拓展,还能分别支持组织与个人、专业和业余软件爱好者自主开发、共同分享数以万计的实用功能软件。它将实现网络搜索、网络电视、视频点播、数字音乐、网络新闻、网络视频电话等各种应用服务。用户可以搜索电视频道和网站,录制电视节目,能够播放卫星和有线电视节目以及网络视频。
智能电视101像智能手机一样,具有全开放式平台,搭载了操作***,可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对彩电的功能进行扩充,并可以通过网线、无线网络来实现上网冲浪。智能电视101可通过麦克风103采集观看者的声音,然后识别出观看者的身份。再针对不同的身份提供个性化的服务。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由智能电视101执行,相应地,用于输出信息的装置一般设置于智能电视101中。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,响应于接收到用户输入的语音,基于语音生成声纹特征向量。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的智能电视)可以通过麦克风接收用户口头输入的语音。语音中可包括遥控指令(例如,“开机”),也可以是不包括遥控指令的语音。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。如果一段音频中存在多个人的声音,则可以提取出多个声纹特征向量。需要说明的是,基于语音生成声纹特征向量是目前广泛研究和应用的公知技术,在此不再赘述。
作为示例,基于语音生成声纹特征向量可以通过提取语音中的典型特征来实现。具体地,由于声音的波长、频率、强度、节奏等特征能体现用户声音的特点,因此,在对语音进行声纹特征提取时,可以提取语音中的波长、频率、强度、节奏等特征,并确定语音中波长、频率、强度、节奏等特征的特征值,将语音中的波长、频率、强度、节奏等特征的特征值作为声纹特征向量中的元素。
作为示例,基于语音生成声纹特征向量还可以通过提取语音中的声学特征,例如,梅尔倒谱系数。将梅尔倒谱系数作为声纹特征向量中的元素。其中,从语音中提取梅尔倒谱系数的过程可以包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波、对数变换以及离散余弦变换。
在用户输入语音之前,可通过遥控器让智能电视静音,以防止采集的用户输入的语音中包括电视节目的声音。可选地,还可通过预定的语音命令,让智能电视静音。例如,用户可以口头输入语音“静音”令智能电视静音。
在本实施例的一些可选的实现方式中,上述电子设备可以将上述语音导入预先训练的全局背景模型(Universal Background Model,UBM)中进行映射得到声纹特征超向量(即高斯超向量)。全局背景模型也被称为通用背景模型,用于表示通用的背景特性。全局背景模型是由大量的冒认者语音使用EM(Expectation-Maximum,期望最大化)算法训练得到的,UBM模型的训练来自大量不同的说话人。假如训练好的全局背景模型中有多个高斯分布,如果提取得到了某个人的多帧语音特征序列,就可以计算出这个人的声纹特征超向量。实际上反映的就是这个人的声学特征和全局背景模型的不同,即这个人发音中的独特个性。如此一来,最终可以将用户不定长语音最终映射到一个能反映用户发声特征的固定长度的声纹特征超向量上来。
这样的高维声纹特征超向量中,不仅包含了个人发音的差异,可能还包含信道所造成的差异。所以,还需要通过一些有监督降维算法进一步把这个超向量降维,映射到更低维度的向量上面去。可以通过联合因子分析方法(Joint Factor Analysis,JFA)对上述声纹特征超向量进行降维处理得到声纹特征向量,上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法,它通过假设说话人空间和信道空间是独立的,并可以分别用两个低维因子空间进行描述,从而估计信道因子;也可以通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis,PLDA)对上述声纹超向量进行降维处理得到声纹特征向量,上述概率线性判别分析算法也是一种信道补偿算法,是概率形式的线性判别分析算法(Linear Discriminant Analysis,LDA);还可以通过辨识矢量(Identifying Vector,I-Vector)对上述声纹特征超向量进行降维处理得到声纹特征向量。实际上,为了保证声纹的准确性,训练全局背景模型的时候通常需要提供多条语音,然后提取得到多个这样的声纹特征向量,然后可将用户的声纹特征向量存储起来,多个用户声纹特征向量构成声纹库。
然后,通过上述方法将声纹特征超向量进行降维处理得到声纹特征向量。使用许多人的大量声学特征向量,通过最大期望算法(Expectation Maximization)便可以训练得到一个高斯混合模型(Gaussian Mixture Model),这个模型描述了很多人的语音特征数据的一个概率分布,可以理解为所有说话人的共性,看作具体某一个说话人声纹模型的一个先验模型。因此,这个高斯混合模型还被称为UBM模型。还可通过深层神经网络构建全局背景模型。
可选的,可在生成声纹特征向量之前先对语音进行处理,过滤掉噪音。例如,通过奇异值分解算法或滤波算法过滤掉语音中的噪音。这里所指的噪音可以包括音高和音强变化混乱、听起来不谐和的声音。也可包括背景音乐等干扰识别出目标声音的声音。奇异值分解(SVD,Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。基于SVD的去噪声技术属于子空间算法的一种。简单的来说将带噪信号向量空间分解为分别由纯净信号主导和噪声信号主导的两个子空间,然后通过简单地去除落在“噪声空间”中的带噪信号向量分量来估计纯净信号。还可通过自适应滤波法和卡尔曼滤波法过滤掉音频文件中的噪音。通常以20~50ms为间隔对语音进行分帧,然后通过一些特征提取算法(主要是进行时域到频域的转换),每一帧语音都可以映射到一个固定长度的声学特征序列。
步骤202,将声纹特征向量输入声纹识别模型,得到用户的身份信息。
在本实施例中,声纹识别模型可以是市售的用于用户身份识别的模型。声纹识别模型还可以是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。用户的身份信息可以包括以下至少一项:性别、年龄、家庭成员标识。年龄可以是一定的年龄区间,例如,4-8岁、20-30岁等。可将性别和年龄结合起来确定用户的具体身份。例如,可以识别出儿童、老人、成年女性、成年男性。家庭成员标识用于标识预先注册了的家庭成员。例如,妈妈,爸爸,女儿,奶奶等。如果一个家庭中相近年龄,相同性别的成员只有一个,则可直接用用户的年龄和性别确定出家庭成员。例如,家庭成员包括妈妈,爸爸,女儿,奶奶,则确定出年龄在50-60之间的女性就是奶奶,年龄在4-8之间的女性是女儿。声纹识别模型可以包括分类器,能够把声纹特征向量库中的声纹特征向量映射到给定用户的类别中的某一个,从而可以应用于用户的类别的预测。可以按年龄分类,也可按性别分类,还可按年龄和性别的结合分类。例如女童、男性成年人、女性老人等。即,将声纹特征向量输入分类器,可输出用户的类别。本实施例采用的分类器,可包含决策树、逻辑回归、朴素贝叶斯、神经网络等。分类器在一个简单的概率模型的基础上,使用最大的概率值来对数据进行分类预测。分类器是提前训练好的。可从大量的声音样本中提取出声纹特征向量,训练分类器。分类器的构造和实施大体会经过以下几个步骤:1、选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。2、基于训练样本执行分类器算法,生成分类器。3、将测试样本输入分类器,生成预测结果。4、根据预测结果,计算必要的评估指标,评估分类器的性能。
例如,采集大量儿童的声音作为正样本,大量成人的声音作为负样本。基于正样本和负样本上执行分类器算法,生成分类器。再将正样本和负样本分别输入分类器,生成预测结果以验证预测结果是否为儿童。根据预测结果评估分类器的性能。
声纹识别模型还可以包括家庭成员映射表。上述家庭成员映射表记录了家庭成员标识、性别、年龄的对应关系。从家庭成员映射表中查找分类器分类的结果,可确定家庭成员标识。例如,分类器输出的结果是年龄在50-60之间的女性,则通过家庭成员映射表确定出该用户的家庭成员标识是奶奶。
可选地,声纹识别模型可以是声纹库。声纹库用于表征声纹特征向量和身份信息的对应关系。将声纹特征向量输入预定的声纹库进行匹配,并按照匹配度由高到低的顺序选取第一预定数目个身份信息并输出。可以通过多次采集同一用户的声音,通过步骤201构建出该用户的声纹特征向量,建立声纹特征向量和身份信息的对应关系,通过注册多个用户的声纹特征向量和身份信息的对应关系从而构建出声纹库。计算上述声纹特征向量与上述声纹库之间的匹配度时,可以采用曼哈顿距离(Manhattan Distance)进行计算,也可以采用闵可夫斯基距离(Minkowski Distance)进行计算,还可以采用余弦相似度(CosineSimilarity)进行计算。
步骤203,从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例中,预设的多媒体文件集合中的多媒体文件预先分好级别,例如仅限于18岁以上观看。例如,动画片类的多媒体文件与儿童相匹配。恐怖电影与成年人相匹配。目标多媒体文件是待向用户推荐的多媒体文件。当身份信息为儿童时,可从多媒体文件集合中选择动画片、儿歌、科教等多个适合儿童观看的多媒体文件作为目标多媒体文件。
步骤204,根据目标多媒体文件生成预览信息进行输出。
在本实施例中,可将步骤203选择出的预定数目个目标多媒体文件随机生成预览信息。也可按照点播次数由大到小的顺序排列生成预览信息进行输出。点播次数是每次多媒体文件被点播时统计的。预览信息可包括视频截图、时长、简介、文件标识等信息。用户可通过遥控器根据文件标识选择要播放的多媒体文件。也可通过语音输入文件标识选择要播放的多媒体文件。
在本实施例的一些可选的实现方式中,上述方法还可以包括:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令可以包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。例如,用户可以语音输入“换到中央5台”、“声音大一点”、“增加亮度”、“搜索汤姆克鲁斯的电影”、“播放1号(预览信息中的多媒体文件标识)”等操作指令。
在本实施例的一些可选的实现方式中,上述方法还可以包括:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如,电影A被搜索了100次,电影B被搜索了200次,则可选择电影B生成预览文件,或者将电影B的预览信息排在电影A的预览信息之前。
在本实施例的一些可选的实现方式中,上述方法还可以包括:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如,电影A被播放了100次,电影B被播放了200次,则可选择电影B生成预览文件,或者将电影B的预览信息排在电影A的预览信息之前。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,智能电视通过麦克风进行音频采集301,接收了儿童输入的语音“看电视”。然后基于语音进行声纹提取302生成声纹特征向量。再将声纹特征向量输入预先训练的声纹识别模型进行声纹识别303,得到用户的身份信息304(儿童)。再根据用户的身份信息进行预览推荐305,得到预览信息306,包括:1、动画片A;2、动物世界;3、科学探索。
本申请的上述实施例提供的方法通过语音识别用户的身份,从而实现了富有针对性的多媒体预览信息推荐。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,响应于接收到用户输入的语音,基于语音生成声纹特征向量。
步骤402,将声纹特征向量输入声纹识别模型,得到用户的身份信息。
步骤403,从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
步骤404,根据目标多媒体文件生成预览信息进行输出。
步骤401-404与步骤201-204基本相同,因此不再赘述。
步骤405,从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。
在本实施例中,智能电视可提供多种音色供用户选择,可以通过语音命令选择也可通过遥控器选择。也可根据用户的身份信息自动为其匹配音色信息。例如,对于儿童,可为其选择动画人物的音色,如喜羊羊、光头强、小猪佩琪等。对于成年人,可提供明星A、明星B的音色。还可根据多媒体文件的播放次数来确定具体的音色。例如,《喜羊羊与灰太狼》的播放次数最多,则可选择喜羊羊的音色。
步骤406,使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在本实施例中,按照步骤405选择的音色输出语音交互信息以与用户进行语音交互。可以提高趣味性。例如,儿童可以语音输入“要看《喜羊羊与灰太狼》”。智能电视可以用喜羊羊的音色问他“要看第几集呀?”。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400突出了对音色的选择的步骤。由此,本实施例描述的方案可以针对不同的用户群体采用不同的音色进行语音交互。从而提高了用户与智能电视互动的趣味性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:生成单元501、识别单元502、选项单元503、输出单元504。其中,生成单元501被配置成响应于接收到用户输入的语音,基于语音生成声纹特征向量。识别单元502被配置成将声纹特征向量输入声纹识别模型,得到用户的身份信息。选项单元503被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。输出单元504被配置成根据目标多媒体文件生成预览信息进行输出。
在本实施例中,用于输出信息的装置500的生成单元501、识别单元502、选项单元503、输出单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。
在本实施例的一些可选的实现方式中,生成单元501可以进一步被配置成:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系。将声纹特征超向量经过降维处理得到声纹特征向量。
在本实施例的一些可选的实现方式中,上述装置500还可以包括执行单元(未示出),被配置成:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
在本实施例的一些可选的实现方式中,上述装置500还可以包括检索次数统计单元,被配置成:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例的一些可选的实现方式中,上述装置500还可以包括播放次数统计单元,被配置成:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例的一些可选的实现方式中,用户的身份信息可以包括以下至少一项:性别、年龄、家庭成员标识。
在本实施例的一些可选的实现方式中,装置500还可以包括调音单元,被配置成:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在本实施例的一些可选的实现方式中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(如图1所示的智能电视)的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括遥控器、麦克风等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括生成单元、识别单元、选项单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,生成单元还可以被描述为“响应于接收到用户输入的语音,基于所述语音生成声纹特征向量的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入预先训练的声纹识别模型,得到用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种用于输出信息的方法,包括:
响应于接收到用户输入的语音,基于所述语音生成声纹特征向量;
将所述声纹特征向量输入声纹识别模型,得到所述用户的身份信息;
从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;
根据所述目标多媒体文件生成预览信息进行输出。
2.根据权利要求1所述的方法,其中,所述基于所述语音生成声纹特征向量,包括:
将所述语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述声纹特征超向量经过降维处理得到声纹特征向量。
3.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定出所述语音包括操作指令,执行所述操作指令,其中,所述操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
4.根据权利要求3所述的方法,其中,所述方法还包括:
对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
5.根据权利要求3所述的方法,其中,所述方法还包括:
对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件。
6.根据权利要求1所述的方法,其中,所述用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
7.根据权利要求1-6之一所述的方法,其中,所述方法还包括:
从预设的音色信息集合中选择与所述用户的身份信息匹配的音色信息;
使用所选择的音色信息所指示的音色输出语音交互信息以与所述用户进行语音交互。
8.根据权利要求1-6之一所述的方法,其中,所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
9.一种用于输出信息的装置,包括:
生成单元,被配置成响应于接收到用户输入的语音,基于所述语音生成声纹特征向量;
识别单元,被配置成将所述声纹特征向量输入声纹识别模型,得到所述用户的身份信息;
选项单元,被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;
输出单元,被配置成根据所述目标多媒体文件生成预览信息进行输出。
10.根据权利要求9所述的装置,其中,所述生成单元进一步被配置成:
将所述语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述声纹特征超向量经过降维处理得到声纹特征向量。
11.根据权利要求9所述的装置,其中,所述装置还包括执行单元,被配置成:
响应于确定出所述语音包括操作指令,执行所述操作指令,其中,所述操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
12.根据权利要求11所述的装置,其中,所述装置还包括检索次数统计单元,被配置成:
对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
13.根据权利要求11所述的装置,其中,所述装置还包括播放次数统计单元,被配置成:
对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件。
14.根据权利要求9所述的装置,其中,所述用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
15.根据权利要求9-14之一所述的装置,其中,所述装置还包括调音单元,被配置成:
从预设的音色信息集合中选择与所述用户的身份信息匹配的音色信息;
使用所选择的音色信息所指示的音色输出语音交互信息以与所述用户进行语音交互。
16.根据权利要求9-14之一所述的装置,其中,所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587827.5A CN108737872A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
US16/297,230 US11006179B2 (en) | 2018-06-08 | 2019-03-08 | Method and apparatus for outputting information |
JP2019047116A JP6855527B2 (ja) | 2018-06-08 | 2019-03-14 | 情報を出力するための方法、及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587827.5A CN108737872A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108737872A true CN108737872A (zh) | 2018-11-02 |
Family
ID=63932905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810587827.5A Pending CN108737872A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11006179B2 (zh) |
JP (1) | JP6855527B2 (zh) |
CN (1) | CN108737872A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109700113A (zh) * | 2018-11-30 | 2019-05-03 | 迅捷安消防及救援科技(深圳)有限公司 | 智能头盔、消防救援方法及相关产品 |
CN109739354A (zh) * | 2018-12-28 | 2019-05-10 | 广州励丰文化科技股份有限公司 | 一种基于声音的多媒体交互方法及装置 |
CN109785859A (zh) * | 2019-01-31 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
CN109961793A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 处理语音信息的方法及装置 |
CN109994117A (zh) * | 2019-04-09 | 2019-07-09 | 昆山古鳌电子机械有限公司 | 一种电子签名*** |
CN110659412A (zh) * | 2019-08-30 | 2020-01-07 | 三星电子(中国)研发中心 | 用于在电子设备中提供个性化服务的方法和设备 |
CN110909243A (zh) * | 2019-11-27 | 2020-03-24 | 南京创维信息技术研究院有限公司 | 电视端内容推荐方法及装置 |
CN111061907A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN111599342A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 音色选择方法和选择*** |
CN111627417A (zh) * | 2019-02-26 | 2020-09-04 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111641875A (zh) * | 2020-05-21 | 2020-09-08 | 广州欢网科技有限责任公司 | 一种智能电视分析家庭成员的方法、装置和*** |
CN111785246A (zh) * | 2020-06-30 | 2020-10-16 | 联想(北京)有限公司 | 虚拟角色语音处理方法、装置及计算机设备 |
CN111798857A (zh) * | 2019-04-08 | 2020-10-20 | 北京嘀嘀无限科技发展有限公司 | 一种信息识别方法、装置、电子设备及存储介质 |
CN111862947A (zh) * | 2020-06-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 |
CN111916065A (zh) * | 2020-08-05 | 2020-11-10 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN112423063A (zh) * | 2020-11-03 | 2021-02-26 | 深圳Tcl新技术有限公司 | 一种智能电视自动设置方法、装置及存储介质 |
CN113495976A (zh) * | 2020-04-03 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 内容显示方法、装置、设备以及存储介质 |
CN114339342A (zh) * | 2021-12-23 | 2022-04-12 | 歌尔科技有限公司 | 一种遥控器控制方法、遥控器、控制装置及介质 |
CN114630171A (zh) * | 2020-12-11 | 2022-06-14 | 海信视像科技股份有限公司 | 显示设备以及配置切换方法 |
CN116055818A (zh) * | 2022-12-22 | 2023-05-02 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、电子设备及存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192587A (zh) * | 2019-12-27 | 2020-05-22 | 拉克诺德(深圳)科技有限公司 | 语音数据匹配方法、装置、计算机设备及存储介质 |
CN111599353A (zh) * | 2020-06-04 | 2020-08-28 | 北京如影智能科技有限公司 | 基于语音的设备控制方法及装置 |
CN112148900A (zh) * | 2020-09-14 | 2020-12-29 | 联想(北京)有限公司 | 一种多媒体文件的显示方法及装置 |
CN112614478B (zh) * | 2020-11-24 | 2021-08-24 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN112954377B (zh) * | 2021-02-04 | 2023-07-28 | 广州繁星互娱信息科技有限公司 | 直播对战画面显示方法、直播对战方法及装置 |
KR20220130362A (ko) * | 2021-03-18 | 2022-09-27 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 컨텐츠의 태그 정보를 저장하는 방법 |
CN115831152B (zh) * | 2022-11-28 | 2023-07-04 | 国网山东省电力公司应急管理中心 | 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170164049A1 (en) * | 2015-12-02 | 2017-06-08 | Le Holdings (Beijing) Co., Ltd. | Recommending method and device thereof |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107659849A (zh) * | 2017-11-03 | 2018-02-02 | 中广热点云科技有限公司 | 一种推荐节目的方法及*** |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
JP4432246B2 (ja) * | 2000-09-29 | 2010-03-17 | ソニー株式会社 | 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体 |
US20120240045A1 (en) * | 2003-08-08 | 2012-09-20 | Bradley Nathaniel T | System and method for audio content management |
US7499104B2 (en) * | 2003-05-16 | 2009-03-03 | Pixel Instruments Corporation | Method and apparatus for determining relative timing of image and associated information |
JP3938104B2 (ja) * | 2003-06-19 | 2007-06-27 | ヤマハ株式会社 | アルペジオパターン設定装置およびプログラム |
JP2005157894A (ja) | 2003-11-27 | 2005-06-16 | Sony Corp | 情報処理装置、利用環境提供方法及び利用環境提供プログラム |
US20050289582A1 (en) * | 2004-06-24 | 2005-12-29 | Hitachi, Ltd. | System and method for capturing and using biometrics to review a product, service, creative work or thing |
US8036361B2 (en) * | 2004-12-17 | 2011-10-11 | Alcatel Lucent | Selection of ringback tone indicative of emotional state that is input by user of called communication device |
US20060229505A1 (en) * | 2005-04-08 | 2006-10-12 | Mundt James C | Method and system for facilitating respondent identification with experiential scaling anchors to improve self-evaluation of clinical treatment efficacy |
US20060287912A1 (en) * | 2005-06-17 | 2006-12-21 | Vinayak Raghuvamshi | Presenting advertising content |
US20100153885A1 (en) * | 2005-12-29 | 2010-06-17 | Rovi Technologies Corporation | Systems and methods for interacting with advanced displays provided by an interactive media guidance application |
US8374874B2 (en) * | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US20080260212A1 (en) * | 2007-01-12 | 2008-10-23 | Moskal Michael D | System for indicating deceit and verity |
CN101925916B (zh) * | 2007-11-21 | 2013-06-19 | 高通股份有限公司 | 基于媒体偏好控制电子设备的方法和*** |
US9986293B2 (en) * | 2007-11-21 | 2018-05-29 | Qualcomm Incorporated | Device access control |
KR101644421B1 (ko) * | 2008-12-23 | 2016-08-03 | 삼성전자주식회사 | 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법 |
US9014546B2 (en) * | 2009-09-23 | 2015-04-21 | Rovi Guides, Inc. | Systems and methods for automatically detecting users within detection regions of media devices |
KR101636716B1 (ko) * | 2009-12-24 | 2016-07-06 | 삼성전자주식회사 | 발언자를 구별하는 영상 회의 장치 및 방법 |
US9530144B2 (en) * | 2010-05-28 | 2016-12-27 | Rakuten, Inc. | Content output device, content output method, content output program, and recording medium having content output program recorded thereon |
JP5542536B2 (ja) | 2010-06-15 | 2014-07-09 | 株式会社Nttドコモ | 情報処理装置及びダウンロード制御方法 |
US8959648B2 (en) * | 2010-10-01 | 2015-02-17 | Disney Enterprises, Inc. | Audio challenge for providing human response verification |
JP5841538B2 (ja) * | 2011-02-04 | 2016-01-13 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 関心度推定装置および関心度推定方法 |
WO2013018267A1 (ja) * | 2011-07-29 | 2013-02-07 | パナソニック株式会社 | 提示制御装置、及び提示制御方法 |
US20130173765A1 (en) * | 2011-12-29 | 2013-07-04 | United Video Properties, Inc. | Systems and methods for assigning roles between user devices |
US20130205311A1 (en) * | 2012-02-07 | 2013-08-08 | Arun Ramaswamy | Methods and apparatus to control a state of data collection devices |
JP6028351B2 (ja) * | 2012-03-16 | 2016-11-16 | ソニー株式会社 | 制御装置、電子機器、制御方法、及びプログラム |
CA2775700C (en) * | 2012-05-04 | 2013-07-23 | Microsoft Corporation | Determining a future portion of a currently presented media program |
US9699485B2 (en) * | 2012-08-31 | 2017-07-04 | Facebook, Inc. | Sharing television and video programming through social networking |
US9398335B2 (en) * | 2012-11-29 | 2016-07-19 | Qualcomm Incorporated | Methods and apparatus for using user engagement to provide content presentation |
US9996150B2 (en) * | 2012-12-19 | 2018-06-12 | Qualcomm Incorporated | Enabling augmented reality using eye gaze tracking |
US20140195918A1 (en) * | 2013-01-07 | 2014-07-10 | Steven Friedlander | Eye tracking user interface |
US10031637B2 (en) * | 2013-01-25 | 2018-07-24 | Lg Electronics Inc. | Image display apparatus and method for operating the same |
WO2014138352A1 (en) * | 2013-03-06 | 2014-09-12 | Zito Arthur J Jr | Multi-media presentation system |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9516259B2 (en) * | 2013-10-22 | 2016-12-06 | Google Inc. | Capturing media content in accordance with a viewer expression |
US20150244747A1 (en) * | 2014-02-26 | 2015-08-27 | United Video Properties, Inc. | Methods and systems for sharing holographic content |
KR20150108028A (ko) * | 2014-03-16 | 2015-09-24 | 삼성전자주식회사 | 컨텐츠의 재생 제어 방법 및 이를 수행하기 위한 컨텐츠 재생 장치 |
US8874448B1 (en) * | 2014-04-01 | 2014-10-28 | Google Inc. | Attention-based dynamic audio level adjustment |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
JP6208631B2 (ja) | 2014-07-04 | 2017-10-04 | 日本電信電話株式会社 | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム |
US10390064B2 (en) * | 2015-06-30 | 2019-08-20 | Amazon Technologies, Inc. | Participant rewards in a spectating system |
US9988055B1 (en) * | 2015-09-02 | 2018-06-05 | State Farm Mutual Automobile Insurance Company | Vehicle occupant monitoring using infrared imaging |
US10062100B2 (en) * | 2015-09-24 | 2018-08-28 | Adobe Systems Incorporated | Methods and systems for identifying visitors to real-world shopping venues as belonging to a group |
US9787940B2 (en) * | 2015-10-05 | 2017-10-10 | Mutualink, Inc. | Video management defined embedded voice communication groups |
WO2017119604A1 (ko) * | 2016-01-08 | 2017-07-13 | 주식회사 아이플래테아 | 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치 |
US10685383B2 (en) * | 2016-02-05 | 2020-06-16 | Adobe Inc. | Personalizing experiences for visitors to real-world venues |
US10217261B2 (en) * | 2016-02-18 | 2019-02-26 | Pinscreen, Inc. | Deep learning-based facial animation for head-mounted display |
JP6721365B2 (ja) | 2016-03-11 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム |
CN105959806A (zh) | 2016-05-25 | 2016-09-21 | 乐视控股(北京)有限公司 | 节目推荐方法及装置 |
US10152969B2 (en) * | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
GB2555192B (en) * | 2016-08-02 | 2021-11-24 | Invincea Inc | Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space |
US20180075763A1 (en) * | 2016-09-15 | 2018-03-15 | S. Lynne Wainfan | System and method of generating recommendations to alleviate loneliness |
US10339925B1 (en) * | 2016-09-26 | 2019-07-02 | Amazon Technologies, Inc. | Generation of automated message responses |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
US10163003B2 (en) * | 2016-12-28 | 2018-12-25 | Adobe Systems Incorporated | Recognizing combinations of body shape, pose, and clothing in three-dimensional input images |
US20180189647A1 (en) * | 2016-12-29 | 2018-07-05 | Google, Inc. | Machine-learned virtual sensor model for multiple sensors |
US20180225083A1 (en) * | 2017-02-03 | 2018-08-09 | Scratchvox Inc. | Methods, systems, and computer-readable storage media for enabling flexible sound generation/modifying utilities |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
EP3571602A1 (en) * | 2017-06-12 | 2019-11-27 | Google LLC | Context aware chat history assistance using machine-learned models |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US10579401B2 (en) * | 2017-06-21 | 2020-03-03 | Rovi Guides, Inc. | Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments |
US11159856B2 (en) * | 2017-07-10 | 2021-10-26 | Sony Interactive Entertainment LLC | Non-linear content presentation and experience |
US10904615B2 (en) * | 2017-09-07 | 2021-01-26 | International Business Machines Corporation | Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed |
CN107767869B (zh) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
US10452958B2 (en) * | 2017-10-06 | 2019-10-22 | Mitsubishi Electric Research Laboratories, Inc. | System and method for image comparison based on hyperplanes similarity |
US10425247B2 (en) * | 2017-12-12 | 2019-09-24 | Rovi Guides, Inc. | Systems and methods for modifying playback of a media asset in response to a verbal command unrelated to playback of the media asset |
US10664999B2 (en) * | 2018-02-15 | 2020-05-26 | Adobe Inc. | Saliency prediction for a mobile user interface |
US11210375B2 (en) * | 2018-03-07 | 2021-12-28 | Private Identity Llc | Systems and methods for biometric processing with liveness |
-
2018
- 2018-06-08 CN CN201810587827.5A patent/CN108737872A/zh active Pending
-
2019
- 2019-03-08 US US16/297,230 patent/US11006179B2/en active Active
- 2019-03-14 JP JP2019047116A patent/JP6855527B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170164049A1 (en) * | 2015-12-02 | 2017-06-08 | Le Holdings (Beijing) Co., Ltd. | Recommending method and device thereof |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107659849A (zh) * | 2017-11-03 | 2018-02-02 | 中广热点云科技有限公司 | 一种推荐节目的方法及*** |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109700113A (zh) * | 2018-11-30 | 2019-05-03 | 迅捷安消防及救援科技(深圳)有限公司 | 智能头盔、消防救援方法及相关产品 |
CN109739354A (zh) * | 2018-12-28 | 2019-05-10 | 广州励丰文化科技股份有限公司 | 一种基于声音的多媒体交互方法及装置 |
CN109785859A (zh) * | 2019-01-31 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
WO2020155490A1 (zh) * | 2019-01-31 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
CN109785859B (zh) * | 2019-01-31 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
CN109961793A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 处理语音信息的方法及装置 |
CN109961793B (zh) * | 2019-02-20 | 2021-04-27 | 北京小米移动软件有限公司 | 处理语音信息的方法及装置 |
CN111599342A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 音色选择方法和选择*** |
CN111627417A (zh) * | 2019-02-26 | 2020-09-04 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111627417B (zh) * | 2019-02-26 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111798857A (zh) * | 2019-04-08 | 2020-10-20 | 北京嘀嘀无限科技发展有限公司 | 一种信息识别方法、装置、电子设备及存储介质 |
CN109994117A (zh) * | 2019-04-09 | 2019-07-09 | 昆山古鳌电子机械有限公司 | 一种电子签名*** |
CN110659412A (zh) * | 2019-08-30 | 2020-01-07 | 三星电子(中国)研发中心 | 用于在电子设备中提供个性化服务的方法和设备 |
CN110909243A (zh) * | 2019-11-27 | 2020-03-24 | 南京创维信息技术研究院有限公司 | 电视端内容推荐方法及装置 |
CN111061907A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN113495976A (zh) * | 2020-04-03 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 内容显示方法、装置、设备以及存储介质 |
CN111641875A (zh) * | 2020-05-21 | 2020-09-08 | 广州欢网科技有限责任公司 | 一种智能电视分析家庭成员的方法、装置和*** |
CN111862947A (zh) * | 2020-06-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 |
CN111785246A (zh) * | 2020-06-30 | 2020-10-16 | 联想(北京)有限公司 | 虚拟角色语音处理方法、装置及计算机设备 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN111916065A (zh) * | 2020-08-05 | 2020-11-10 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN112423063A (zh) * | 2020-11-03 | 2021-02-26 | 深圳Tcl新技术有限公司 | 一种智能电视自动设置方法、装置及存储介质 |
CN114630171A (zh) * | 2020-12-11 | 2022-06-14 | 海信视像科技股份有限公司 | 显示设备以及配置切换方法 |
CN114339342A (zh) * | 2021-12-23 | 2022-04-12 | 歌尔科技有限公司 | 一种遥控器控制方法、遥控器、控制装置及介质 |
CN116055818A (zh) * | 2022-12-22 | 2023-05-02 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11006179B2 (en) | 2021-05-11 |
JP2019216408A (ja) | 2019-12-19 |
JP6855527B2 (ja) | 2021-04-07 |
US20190379941A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737872A (zh) | 用于输出信息的方法和装置 | |
CN108882032A (zh) | 用于输出信息的方法和装置 | |
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
US20200320571A1 (en) | Method for optimizing media and marketing content using cross-platform video intelligence | |
US20200126566A1 (en) | Method and apparatus for voice interaction | |
CN107211062A (zh) | 虚拟声学空间中的音频回放调度 | |
CN107211061A (zh) | 用于空间会议回放的优化虚拟场景布局 | |
CN107210045A (zh) | 会议搜索以及搜索结果的回放 | |
CN107211058A (zh) | 基于会话动态的会议分段 | |
CN103024530A (zh) | 智能电视语音应答***及方法 | |
CN107211027A (zh) | 感知质量比会议中原始听到的更高的后会议回放*** | |
CN107481720A (zh) | 一种显式声纹识别方法及装置 | |
CN107210034A (zh) | 选择性会议摘要 | |
CN110517689A (zh) | 一种语音数据处理方法、装置及存储介质 | |
WO2007043679A1 (ja) | 情報処理装置およびプログラム | |
KR20120038000A (ko) | 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템 | |
CN108989882A (zh) | 用于输出视频中的音乐片段的方法和装置 | |
CN107210036A (zh) | 会议词语云 | |
CN109308901A (zh) | 歌唱者识别方法和装置 | |
CN113380271B (zh) | 情绪识别方法、***、设备及介质 | |
CN108933730A (zh) | 信息推送方法和装置 | |
CN106921749A (zh) | 用于推送信息的方法和装置 | |
CN114143479B (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
CN108900612A (zh) | 用于推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210510 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Applicant after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |