CN115426553A - 一种智能音箱及其显示方法 - Google Patents
一种智能音箱及其显示方法 Download PDFInfo
- Publication number
- CN115426553A CN115426553A CN202110517035.2A CN202110517035A CN115426553A CN 115426553 A CN115426553 A CN 115426553A CN 202110517035 A CN202110517035 A CN 202110517035A CN 115426553 A CN115426553 A CN 115426553A
- Authority
- CN
- China
- Prior art keywords
- sound box
- intelligent sound
- determining
- audio stream
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000000463 material Substances 0.000 claims abstract description 29
- 238000003384 imaging method Methods 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims description 55
- 230000001360 synchronised effect Effects 0.000 claims description 21
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 206010008748 Chorea Diseases 0.000 description 3
- 238000010009 beating Methods 0.000 description 3
- 208000012601 choreatic disease Diseases 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000020965 cold beverage Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F9/00—Indicating arrangements for variable information in which the information is built-up on a support by selection or combination of individual elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种智能音箱及其显示方法,利用负折射率材料将智能音箱内部显示的虚拟成像体在外部进行成像,节省了智能音箱的体积,提高了用户的使用体验。包括位于智能音箱内部的显示屏、位于所述智能音箱上的负折射率材料以及处理器,其中:所述显示屏用于进行显示;所述负折射率材料用于将所述显示屏显示的内容折射到所述智能音箱的外部进行成像;所述处理器被配置为执行:确定所述智能音箱的工作场景;根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;以所述智能音箱内部显示屏为光源,通过所述负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
Description
技术领域
本发明涉及智能音箱技术领域,特别涉及一种智能音箱及其显示方法。
背景技术
智能音箱是音箱升级的产物,是家庭消费者用语音进行上网的工具,比如点播歌曲、上网购物,或是了解天气预报,也可以作为用户通过语音控制智能家居设备的媒介,比如打开窗帘、设置冰箱温度、提前让热水器升温等。现有智能音箱主要用于语音交互,在视觉交互上能力较差。
目前虽然也有智能音箱与显示技术结合,利用显示屏进行显示的方案,但由于智能音箱在结构上需要添加一块显示屏,必然需要将显示屏和音箱的发声和拾音部件分开设置,导致智能音箱的体积增大,并且由于显示屏占用了原本智能音箱的体积,使得该智能音箱的发声部件必然比圆柱形音箱的环绕效果差,用户的使用体验较差。
发明内容
本发明提供一种智能音箱及其显示方法,用于利用负折射率材料将智能音箱内部显示的虚拟成像体在外部进行成像,无需在智能音箱外部设置显示屏的方式进行显示,节省了智能音箱的体积,提高了用户的使用体验。
第一方面,本发明实施例提供的一种智能音箱,包括位于智能音箱内部的显示屏、位于所述智能音箱上的负折射率材料以及处理器,其中:
所述显示屏用于进行显示;
所述负折射率材料用于将所述显示屏显示的内容折射到所述智能音箱的外部进行成像;
所述处理器被配置为执行:
确定所述智能音箱的工作场景;
根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
以所述智能音箱内部显示屏为光源,通过所述负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
本发明实施例提供的一种智能音箱,能够在智能音箱的外部通过空中虚拟成像的方式进行显示,通过负折射率材料将嵌入在智能音箱内部的显示屏显示的虚拟成像体投影在智能音箱外部空中,并能够呈现多种状态,解决了智能音箱为了进行显示在外部增加一个显示屏从而增大智能音箱体积的问题,并且提高了用户的使用体验。
在一些示例中,所述处理器具体被配置为执行:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些示例中,所述处理器具体还被配置为执行:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
在一些示例中,所述确定与所述工作场景对应的虚拟成像体的状态之后,处理器具体还被配置为执行:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
在一些示例中,所述处理器具体被配置为执行:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
第二方面,本发明实施例提供的一种智能音箱的显示方法,包括:
确定智能音箱的工作场景;
根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
在一些示例中,所述确定智能音箱的工作场景,包括:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些示例中,所述对所述本地音频流进行唤醒信息识别,还包括:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
在一些示例中,确定与所述工作场景对应的虚拟成像体的状态之后,还包括:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
在一些示例中,所述确定与播放的音乐对应的舞蹈动作,包括:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
第三方面,本发明实施例还提供一种智能音箱的显示装置,包括:
确定场景单元,用于确定智能音箱的工作场景;
确定状态单元,用于根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
成像显示单元,用于以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
在一些示例中,所述确定场景单元具体用于:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些示例中,所述确定场景单元具体还用于:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
在一些示例中,确定与所述工作场景对应的虚拟成像体的状态之后,还包括控制单元用于:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
在一些示例中,所述控制单元具体用于:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
第四方面,本发明实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现上述第二方面所述方法的步骤。
本申请的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种智能音箱的示意图;
图2为本发明实施例提供的一种智能音箱显示虚拟成像体的示意图;
图3为本发明实施例提供的一种负折射率材料的成像原理示意图;
图4为本发明实施例提供的一种虚拟成像体的控制方法实施流程图;
图5为本发明实施例提供的一种智能音箱的虚拟显示方法实施流程图;
图6为本发明实施例提供的一种主智能音箱的唤醒方法实施流程图;
图7为本发明实施例提供的一种确定主智能音箱的实施流程图;
图8为本发明实施例提供的一种其他智能音箱的唤醒方法实施流程图;
图9为本发明实施例提供的一种智能音箱的显示方法实施流程图;
图10为本发明实施例提供的一种智能音箱的显示装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有智能音箱主要用于语音交互,在视觉交互上体验较差,本发明实施例基于空中投影显示技术将智能音箱内部显示的内容投影到智能音箱外部,并通过虚拟成像体的显示方式提高用户的使用体验,增加产品科技感。并且,空中投影显示技术与智能音箱结合,可以解决智能音箱外部的屏幕显示与发声、拾音结构冲突问题,保持美观的同时,减小音箱体积。
如图1所示,本发明实施例提供的一种智能音箱,包括位于智能音箱内部的显示屏100、位于所述智能音箱上的负折射率材料101以及处理器102,其中:
所述显示屏100用于进行显示;本发明实施例中的显示方式区别于现有技术采用在智能音箱外部设置显示屏的方式进行显示,本实施例的显示方式并不会增加智能音箱的体积,智能音箱内部的显示屏并不需要提供给用户进行观看,因此,只需要具备显示功能即可,不需要具备可观看性,可以使用较小的体积内嵌在智能音箱内部,从而提供显示功能的同时不会增大智能音箱的体积,也不会造成显示屏幕和发声结构、拾音结构的冲突。
所述负折射率材料101用于将所述显示屏显示的内容折射到所述智能音箱的外部进行成像;本发明实施例中的负折射率材料能够实现可交互空中成像技术,该技术通过负折射率材料应用光场重构原理,将发散的光线在空中重新汇聚,从而形成不需要介质承载的实像,并且还可以结合交互技术来实现人与空中实像的直接交互。可交互空中成像技术的最大优势,是人可以和空间中的成像进行直接交互,而不用使用类似VR的辅助显示设备,该技术可将画面直接呈现在空中,不需要通过任何承载介质,成像为实像,区别于现有技术常见的“全息投影”呈现的虚像。
所述处理器102被配置为执行如下步骤:
步骤1、确定所述智能音箱的工作场景;本实施例中的工作场景用于表征智能音箱当前的工作状态或工作方式,其中该工作状态或工作方式可以是在未收到本地音频流确定的,也可以是在接收到本地音频流后,根据本地音频流确定的工作状态,本实施例对此不作过多限定。本实施例中的工作场景包括但不限于如下一种或多种:开机后默认状态;配网阶段的状态;被唤醒等待命令的状态;播报对话场景;播放非音乐类媒资场景例如播放故事、诗歌的状态;播放音乐类媒资场景,例如播放歌曲的状态;查询天气的状态;没有理解用户命令或者没有听清用户命令的状态;控制智能家电的状态;关机时的状态。
步骤2、根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
本实施例提供了工作场景与虚拟成像体的状态之间的具体的对应关系,本实施例中的对应关系仅为具体说明的一种示例,本实施例保护的方法中包括但不限于该示例,基于同一原理得到的其他工作场景与虚拟成像体的状态之间的对应关系都属于本发明的保护范围。本实施例中的虚拟成像体可为一个虚拟人物,该虚拟人物在不同的工作场景下的穿着和动作都不相同,为了方便描述,该虚拟人物可称为哈利,其中工作场景与哈利的状态之间的对应关系列举如下:
若处于开机后默认状态,则哈利呈现站立,间隔设定时间执行打招呼的动作,或是踢踢球的状态;若处于配网阶段的状态,则哈利佩戴工程师样式的帽子并操作路由器且该路由器呈现WIFI信号,即哈利呈现一种正在配置网络的忙碌状态;若处于被唤醒等待命令的状态,则哈利执行侧耳倾听的动作,即手放在耳朵上;若处于播放歌曲的状态下,哈利呈现欢快拍手跳舞,或者弹吉他、敲架子鼓的状态;若处于播放故事、诗歌的状态,则哈利戴着眼镜,手拿书的状态;若处于查询天气的状态,则哈利可根据当前天气,呈现打伞、穿棉袄、穿风衣顶风、太热流汗喝冷饮等状态;若处于没有理解用户命令或者没有听清用户命令的状态,则哈利呈现出疑惑的表情状态;若处于控制智能家电的状态,则哈利呈现居家形象并拿出遥控器进行点击动作;若处于关机时的状态,则哈利执行拜拜动作后消失。
步骤3、以所述智能音箱内部显示屏为光源,通过所述负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
本实施例中基于不同的工作场景,预先设置了与该工作场景对应的虚拟成像体的状态,还可以基于3D渲染显示技术(如Unity 3D技术),将所述虚拟成像体以3D虚拟状态进行显示。需要说明的是本实施例中的3D虚拟显示不同于全息投影显示,本实施例中的显示方式是首先在智能音箱内部显示屏上显示3D虚拟状态,并将当前显示的3D虚拟状态投影至智能音箱外部空中进行成像,实际成像的状态可视为人眼看到的内部显示屏上显示的状态,并且该3D虚拟状态可根据接收到的指令执行转动等动作。
在一些实施例中,如图2所示,本发明实施例提供了一种智能音箱显示虚拟成像体的一种实现方式,其中,负折射率材料200位于智能音箱201上方且和所述智能音箱201形成于一体,虚拟成像体202位于负折射率材料200的上方。如图3所示,本实施例提供一种负折射率材料的成像原理示意图,其中图3中的光源在本实施例中为智能音箱内部显示屏,也可理解为该内部显示屏显示的所有内容,图3中的成像即为本实施例中的虚拟成像体,本实施例可以通过该负折射率材料将内部显示屏显示的所有内容折射在智能音箱外部进行成像,从而替代外部显示屏的显示功能。
在一些实施例中,本发明实施例可以根据是否接收到本地音频流来确定智能音箱当前的工作场景,其中确定智能音箱工作场景的方式包括但不限于如下一种:
方式1、若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;
本实施例中,若所述智能音箱未接收到本地音频流,则将智能音箱当前所处的工作状态确定为工作场景,其中工作状态包括但不限于:开机状态、开机后未接收到本地音频流的默认状态,正在配网状态、配网完成状态、播放歌曲状态、播放故事或诗歌状态、查询天气的状态、控制智能家电的状态、关机状态等。
方式2、若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;
本实施例若接收到本地音频流,则根据本地音频流的语义来确定工作场景,例如接收到播放歌曲的音频流,则确定工作场景为正在播放歌曲。
在一些实施例中,通过如下步骤确定所述本地音频流的语义:
1)通过本地语音识别算法对所述本地音频流进行转换;
2)通过本地语义理解算法或云端语义理解算法,确定所述转换后的本地音频流的语义。
实施中,通过本地语音识别算法对本地音频流进行转换后,得到计算机可以处理的语言,如果通过本地语义理解算法可以对转换后的语义进行解析,则利用本地语义理解算法确定语义,如果通过本地语义理解算法无法对转换后的语义进行解析,则利用云端语义理解算法对转换后的语义进行解析并确定语义,其中本地语义理解算法存储于本地服务器或本地智能音箱,云端语义理解算法存储于云端服务器。
在一些场景中,例如接收到有关闲聊内容的本地音频流,则可以使用本地语义理解算法对转换后的本地音频流进行语义解析,或者,接收到有关控制智能家居设备的本地音频流,则可以使用本地语义理解算法进行语义解析,从而确定工作场景,进而确定虚拟成像体的状态(如穿着、动作等)以进行状态的保持或切换。在一些场景中,例如接收到有关查询天气、播放歌曲、故事或诗歌等本地音频流,则使用云端语义理解算法进行语义解析后,从云端获取对应的媒体资源进行播放。
方式3、若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些实施例中,为了节省用电或快速开机,智能音箱一般都配置待机模式(即待机状态),在该模式下智能音箱处于待机或休眠状态,不会对本地音频流进行解析,本实施基于该模式还提供一种唤醒的工作场景,即在待机状态接收到本地音频流,若识别出唤醒信息,例如“你好,哈利”,则将智能音箱切换为唤醒状态,此时智能音箱的工作状态为唤醒状态,若未识别出唤醒信息,则智能音箱的状态保持不变,工作场景也相应保持不变。即若识别出唤醒信息,则确定所述工作场景为被唤醒等待命令的场景,否则确定该工作场景为待机场景。
在一些实施场景中,对所述本地音频流进行语音识别或语义理解,或者唤醒信息识别的同时,还可以对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,如果该本地音频流为有关控制智能家居设备的音频流,则可以按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。例如家庭成员A和B,当A唤醒智能音箱后说出“打开空调”,智能音箱接收到“打开空调”的本地音频流并进行语义解析后,控制空调开启,并设定与A喜好的空调模式和温度,其中,用户A的喜好可以通过与A绑定的APP进行设定,或者从A与智能音箱的历史交互信息中获取。
在一些实施例中,本实施例中的虚拟成像体的状态还包括与播报的语音媒体进行同步的口型以及动作,本实施例在确定与所述工作场景对应的虚拟成像体的状态之后,还包括如下一种或多种显示方式:
方式1、若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;
实施中,该播报对话场景可以是闲聊场景。本实施例在确定与该播报对话场景对应的虚拟成像体的状态(穿着、动作)后,还基于唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步。即如果用户通过语音方式和智能音箱闲聊,则智能音箱在播放闲聊音频流的同时,虚拟成像体的口型根据播放的闲聊音频流的内容,而呈现一张一合的状态。
方式2、若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;
实施中,可以是查询天气等非音乐类媒资场景。本实施例在确定与该播放非音乐类媒资场景对应的虚拟成像体的状态(穿着、动作)后,还基于唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步。在一些示例中,该场景还包括一种特殊场景即智能音箱经过语音识别、语义理解后,无法获取本地音频流的语义,则智能音箱会播放特殊音频如“对不起,没听清您的指令,请您再说一遍”。即如果用户输入与非音乐类媒资场景对应的本地音频流,则智能音箱切换该虚拟成像体的状态与该非音乐类媒资场景对应后,在播放非音乐类媒资场景的同时,还可以根据播放的内容控制虚拟成像体的口型呈现一张一合的状态。
在一些示例中,本实施例中的唇形同步算法的基本原理是通过识别闲聊音频流或非音乐类媒资中的声母、韵母及与所述声母韵母发声对应的口型编号,控制虚拟成像体的嘴部变化。可选的,获取闲聊音频流或非音乐类媒资后,识别该闲聊音频流或非音乐类媒资中的声母和韵母,利用声母、韵母组合的口型变化确定口型编号,其中,可以通过预训练的深度学习算法识别音频流中声母、韵母。可选的,利用语音识别技术,识别音频流中的汉字,并直接获取拼音,确定与所述拼音对应的口型。
方式3、若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
实施中,可以是播放歌曲等音乐类媒资场景。本实施例在确定与该播放音乐类媒资场景对应的虚拟成像体的状态(穿着、动作)后,还可以基于播放的音乐生成舞蹈动作并控制虚拟成像体按所述舞蹈动作进行舞动。例如,当智能音箱接收到指令“请播放歌曲”时,该虚拟成像体依据提前预置的舞蹈动作,或依据音频节奏呈现手舞足蹈的动作,或依据音频节奏呈现拍手和跺脚动作。
在一些示例中,包括但不限于如下一种或多种确定舞蹈动作的方法:
1)根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;
实施中,可采用现有的librosa库实现,通过一个线程实时监测播放的音乐的节拍点beat_times。将beat_times变量作为Linux的共享变量,在另一线程中检测到当前时刻为节拍点时,向内部显示屏发送拍手或跺脚信号,使播放的音频流与虚拟成像体同步。
2)根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
实施中,基于已有的音乐和舞蹈匹配数据,将音乐和舞蹈按小节划分,分别对音乐小节和舞蹈小节提取特征向量,然后基于pix2pix生成对抗网络(Generative AdversarialNetwork,GAN)模型,确定与所述特征向量对应的舞蹈片段,最终根据多个舞蹈片段生成舞蹈动作。
在一些示例中,本发明实施例通过智能音箱上的麦克风或麦克风阵列拾取本地音频流,进行降噪处理后发送给智能音箱处理器进行本地音频流的语音识别和语义理解,在利用本地语义理解算法或云端语义理解算法解析出本地音频流的语义信息后,根据所述语义信息播放对应的音频流,同时切换与所述语义信息对应的虚拟成像体的状态。可选的,可通过设置服务接口的方式,接收智能音箱拾取的本地音频流,并接收待播放的音频流,以驱动智能音箱的喇叭进行播音。例如设置如下服务接口内容,表示让虚拟成像体执行左转的语义信息:
Timestamp | 20210311160052 |
Type | 2 |
Data | “左转” |
其中,Timestamp为时间戳,表示拾取当前本地音频流的时刻;Type为类型,属于枚举值,取值为1、2、3。1表示***指令,负责虚拟成像体的启动、复位、待机等指令;2表示语义信息,Type填写为2表示该条接口请求传输语义信息,用于切换虚拟成像体的预设形象,以及设定获取的音频流是否需要利用唇形同步算法或音乐节拍算法进行唇形同步或舞蹈动作的输出;3表示音频内容,Type为3的情况下Data中传输的为音频流,该音频流数据利用唇形同步算法或音乐节拍算法中做对应的处理,控制唇形或者肢体动作。
在一些示例中,如图4所示,本实施例还提供一种虚拟成像体的控制方法,该方法的实施流程如下所示:
步骤400、确定智能音箱接收到的本地音频流的语义;
步骤401、根据所述语义确定虚拟成像体的状态,其中所述状态包括虚拟成像体的基础形象;
步骤402、判断所述语义是否为播报对话类语义,若是执行步骤403,否则执行步骤404;
步骤403、根据唇形同步算法,控制所述虚拟成像体的口型与播报的对话类音频同步;
步骤404、根据音乐协同算法,控制所述虚拟成像体的肢体根据播报的音频进行舞动。
其中音乐协同算法包括但不限于上述音乐节拍算法或音乐舞蹈生成算法。
本实施例提供的智能音箱,在开机默认状态下,在智能音箱上方空气中投影虚拟成像体,可呈现为站立状态,并且可随机呈现走动、扭头、整理书包等动作。当智能音箱接收到指令,例如“左转”,该虚拟成像体会依据与预置的与该指令对应的左转动作执行左转。当用户与智能音箱进行交互的过程中,如果智能音箱经过语音识别、语义理解后,无法识别用户指令,则该智能音箱会播报“对不起,没听清您的指令,请您再说一遍”,且播报的同时该虚拟成像体的嘴巴依据说话的内容,呈现一张一合的状态。当智能音箱接收到指令“请播放个歌曲”时,该虚拟成像体可以依据预置的舞蹈动作,或依据音频节奏呈现手舞足蹈的动作,或依据音频节奏呈现拍手和跺脚动作。当用户查询天气时,该虚拟成像体可以依据天气状况下雨、刮风、雾霾、气温等,调整虚拟成像体自身的着装,并与实际播报的天气内容匹配。
在一些示例中,如图5所示,本发明实施例提供一种智能音箱的虚拟显示方法,该方法的具体实施流程如下所示:
步骤500、智能音箱在待机状态接收到本地音频流;
步骤501、对本地音频流进行唤醒信息识别和声纹识别;
步骤502、确定识别出唤醒信息后,对所述智能音箱进行唤醒;
步骤503、再次接收到本地音频流;
步骤504、对所述本地音频流进行语音识别和语义理解;
步骤505、判断是否可以根据本地语义理解算法确定本地音频流的语义,若是则执行步骤506,否则执行步骤510;
步骤506、根据所述语义判断是否是闲聊场景,若是执行步骤507,否则执行步骤509;
步骤507、根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;
步骤508、确定闲聊结束,播放结束闲聊音频;
步骤509、确定所述语义为控制指令,根据所述控制指令切换对应的虚拟成像体的状态并执行对应的控制;
步骤510、判断是否可以根据云端语义理解算法确定本地音频流的语义,如是执行步骤511,否则执行步骤513;
步骤511、根据所述语义确定虚拟成像体的状态,并根据所述语义获取对应的媒资资源;
步骤512、对获取的媒资资源进行播放,并根据所述媒资资源的类型,确定根据唇形同步算法或音乐协同算法,控制所述虚拟成像体的口型或动作。
步骤513、播放与“无法理解”的语义对应的虚拟成像体的状态,以将无法理解的信息传达给用户。
在一些示例中,若存在多个智能音箱时,即当用户说出的唤醒信息被多个智能音箱收到时,本实施例还可以选择其中一个智能音箱进行唤醒,本实施例中的唤醒的原理是就近唤醒,即离用户“最近”的智能音箱被唤醒,本实施中的唤醒方式主要应用于上述任一方式中的智能音箱的唤醒,该智能音箱在被唤醒的过程中,可以通过虚拟成像体的状态告知用户正在被唤醒。如图6所示,应用于主智能音箱,本实施例中唤醒的具体实施方式如下所示:
步骤600、若在待机状态接收到本地音频流,则根据接收到的所述本地音频流进行唤醒信息识别;
步骤601、在识别出唤醒信息后,触发生成唤醒请求并将所述唤醒请求发送给自身,以及接收其他智能音箱发送的唤醒请求,其中,所述唤醒请求中携带表征唤醒信息质量的参数;
步骤602、从接收的自身的唤醒请求以及其他的唤醒请求中,确定需要唤醒的智能音箱并向所述需要唤醒的智能音箱发送同意唤醒请求,以触发所述需要唤醒的智能音箱从待机状态切换为唤醒状态。
其中,向需要唤醒的智能音箱发送同意唤醒请求,还包括:向其他不需要唤醒的智能音箱发送关闭唤醒请求。
在一些示例中,唤醒请求包括但不限于如下部分或全部信息:声音响度、唤醒质量评分、时间戳。本实施例中的主智能音箱可以根据唤醒请求中包含的表征唤醒信息质量的参数,从自身以及其他智能音箱的唤醒请求中,选择唤醒信息质量最优的唤醒请求,从而确定与所述最优的唤醒请求对应的智能音箱进行唤醒。
在一些示例中,所述主智能音箱在唤醒的过程中,可以通过虚拟成像体的状态,来通知用户此时正在选择需要被唤醒的智能音箱,以使用户更好的与智能音箱进行交互。
在一些示例中,通过如下方式确定主智能音箱:
多个智能音箱上电后都生成第一随机数;每个智能音箱接收其他智能音箱发送的第二随机数,并比较所述第一随机数和所述第二随机数;根据比较结果,确定自身是否为主智能音箱。
在一些示例中,如图7所示,以两个智能音箱为例,确定主智能音箱的实施流程如下:
步骤700、智能音箱1和智能音箱2上电;
步骤701、智能音箱1产生随机数1,智能音箱2产生随机数2;
步骤702、智能音箱1向局域网端口广播随机数1,并携带智能音箱1的IP地址,智能音箱2向局域网端口广播随机数2,并携带智能音箱2的IP地址;
步骤703、智能音箱1接收随机数2,智能音箱2接收随机数1;
步骤704、智能音箱2比较随机数1和随机数2的大小,选取最大随机数对应的智能音箱为主智能音箱。
在一些示例中,与上述主智能音箱的唤醒原理相同,如图8所示,本实施还提供一种应用于其他智能音箱的唤醒方法,该方法的实施流程如下所示:
步骤800、若在待机状态接收到本地音频流,则根据接收到的所述本地音频流进行唤醒信息识别;
步骤801、在识别出唤醒信息后,触发生成唤醒请求并发送给主智能音箱,以使所述主智能音箱根据接收的所述智能音箱以及其他智能音箱发送的唤醒请求确定需要唤醒的智能音箱并向所述需要唤醒的智能音箱发送同意唤醒请求,其中,所述唤醒请求中携带表征唤醒信息质量的参数;
步骤802、若接收到所述主智能音箱发送的同意唤醒请求,则从待机状态切换为唤醒状态。
在一些示例中,通过如下方式确定所述智能音箱是否为所述主智能音箱:
所述智能音箱上电后生成第一随机数;
接收其他智能音箱发送的第二随机数,根据所述第一随机数和所述第二随机数的比较结果,确定所述智能音箱是否为所述主智能音箱。
在一些示例中,所述智能音箱从待机状态切换为唤醒状态之后,还包括:
通过所述智能音箱上的负折射率材料,将所述智能音箱内部显示屏显示的虚拟成像体的状态折射到所述智能音箱的外部进行成像,其中所述虚拟成像体的状态是根据所述智能音箱的唤醒状态确定的。
实施例2、基于相同的发明构思,本发明实施例还提供了一种智能音箱的显示方法,由于该方法即是本发明实施例中的智能音箱对应的方法,并且该方法解决问题的原理与该智能音箱相似,因此该方法的实施可以参见智能音箱的实施,重复之处不再赘述。
如图9所示,该方法的实施流程如下:
步骤900、确定智能音箱的工作场景;
步骤901、根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
步骤902、以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
在一些示例中,所述确定智能音箱的工作场景,包括:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些示例中,所述对所述本地音频流进行唤醒信息识别,还包括:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
在一些示例中,确定与所述工作场景对应的虚拟成像体的状态之后,还包括:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
在一些示例中,所述确定与播放的音乐对应的舞蹈动作,包括:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
实施例3、基于相同的发明构思,本发明实施例还提供了一种智能音箱的显示装置,由于该装置即是本发明实施例中方法的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图10所示,该装置包括:
确定场景单元1000,用于确定智能音箱的工作场景;
确定状态单元1001,用于根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
成像显示单元1002,用于以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
在一些示例中,所述确定场景单元具体用于:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
在一些示例中,所述确定场景单元具体还用于:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
在一些示例中,确定与所述工作场景对应的虚拟成像体的状态之后,还包括控制单元用于:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
在一些示例中,所述控制单元具体用于:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
基于相同的发明构思,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
确定智能音箱的工作场景;
根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种智能音箱,其特征在于,包括位于智能音箱内部的显示屏、位于所述智能音箱上的负折射率材料以及处理器,其中:
所述显示屏用于进行显示;
所述负折射率材料用于将所述显示屏显示的内容折射到所述智能音箱的外部进行成像;
所述处理器被配置为执行:
确定所述智能音箱的工作场景;
根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
以所述智能音箱内部显示屏为光源,通过所述负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
2.根据权利要求1所述的智能音箱,其特征在于,所述处理器具体被配置为执行:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
3.根据权利要求2所述的智能音箱,其特征在于,所述处理器具体还被配置为执行:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
4.根据权利要求1所述的智能音箱,其特征在于,所述确定与所述工作场景对应的虚拟成像体的状态之后,处理器具体还被配置为执行:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
5.根据权利要求4所述的智能音箱,其特征在于,所述处理器具体被配置为执行:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
6.一种智能音箱的显示方法,其特征在于,该方法包括:
确定智能音箱的工作场景;
根据预置的工作场景与虚拟成像体的状态之间的对应关系,确定与所述工作场景对应的虚拟成像体的状态;
以智能音箱内部显示屏为光源,通过智能音箱上的负折射率材料将所述显示屏显示的所述虚拟成像体的状态折射到所述智能音箱的外部进行成像。
7.根据权利要求6所述的方法,其特征在于,所述确定智能音箱的工作场景,包括:
若所述智能音箱未接收到本地音频流,则将所述智能音箱的工作状态确定为所述智能音箱的工作场景;或
若所述智能音箱在非待机状态接收到本地音频流,则确定所述本地音频流的语义,根据所述语义确定智能音箱的工作场景;或,
若所述智能音箱在待机状态接收到本地音频流,则对所述本地音频流进行唤醒信息识别,根据是否识别出唤醒信息确定所述智能音箱的工作场景。
8.根据权利要求7所述的方法,其特征在于,所述对所述本地音频流进行唤醒信息识别,还包括:
对所述本地音频流进行声纹识别,确定与所述声纹识别的结果对应的用户喜好,以用于按照与所述用户喜好对应的方式,通过智能音箱控制智能家居设备。
9.根据权利要求6所述的方法,其特征在于,确定与所述工作场景对应的虚拟成像体的状态之后,还包括:
若确定所述工作场景为播报对话场景,则根据唇形同步算法,控制所述虚拟成像体的口型与播放的闲聊音频流同步;或
若确定所述工作场景为播放非音乐类媒资场景,则播放获取的非音乐类媒资,并根据唇形同步算法,控制所述虚拟成像体的口型与播放的非音乐类媒资同步;或
若确定所述工作场景为播放音乐类媒资场景,则播放获取的音乐类媒资,并确定与播放的音乐类媒资对应的舞蹈动作,根据所述舞蹈动作控制所述虚拟成像体的肢体进行舞动。
10.根据权利要求9所述的方法,其特征在于,所述确定与播放的音乐对应的舞蹈动作,包括:
根据音乐节拍算法,监测播放的音乐的节拍点,确定所述节拍点在不同时刻对应的舞蹈动作;或,
根据音乐舞蹈生成算法,确定与播放的音乐对应的舞蹈动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517035.2A CN115426553A (zh) | 2021-05-12 | 2021-05-12 | 一种智能音箱及其显示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517035.2A CN115426553A (zh) | 2021-05-12 | 2021-05-12 | 一种智能音箱及其显示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115426553A true CN115426553A (zh) | 2022-12-02 |
Family
ID=84195432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110517035.2A Pending CN115426553A (zh) | 2021-05-12 | 2021-05-12 | 一种智能音箱及其显示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115426553A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587706A (zh) * | 2009-07-08 | 2009-11-25 | 沈阳蓝火炬软件有限公司 | 流媒体实时音乐节拍分析与舞蹈控制***及方法 |
CN107765852A (zh) * | 2017-10-11 | 2018-03-06 | 北京光年无限科技有限公司 | 基于虚拟人的多模态交互处理方法及*** |
CN108052250A (zh) * | 2017-12-12 | 2018-05-18 | 北京光年无限科技有限公司 | 基于多模态交互的虚拟偶像演绎数据处理方法及*** |
CN110060678A (zh) * | 2019-04-16 | 2019-07-26 | 深圳欧博思智能科技有限公司 | 一种基于智能设备的虚拟角色控制方法及智能设备 |
CN110309470A (zh) * | 2019-05-14 | 2019-10-08 | 广东康云科技有限公司 | 一种基于空气成像的虚拟新闻主播***及其实现方法 |
CN111081270A (zh) * | 2019-12-19 | 2020-04-28 | 大连即时智能科技有限公司 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
CN211880554U (zh) * | 2020-04-19 | 2020-11-06 | 郭生文 | 在ai智能音箱上全息空中成像装置 |
-
2021
- 2021-05-12 CN CN202110517035.2A patent/CN115426553A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587706A (zh) * | 2009-07-08 | 2009-11-25 | 沈阳蓝火炬软件有限公司 | 流媒体实时音乐节拍分析与舞蹈控制***及方法 |
CN107765852A (zh) * | 2017-10-11 | 2018-03-06 | 北京光年无限科技有限公司 | 基于虚拟人的多模态交互处理方法及*** |
CN108052250A (zh) * | 2017-12-12 | 2018-05-18 | 北京光年无限科技有限公司 | 基于多模态交互的虚拟偶像演绎数据处理方法及*** |
CN110060678A (zh) * | 2019-04-16 | 2019-07-26 | 深圳欧博思智能科技有限公司 | 一种基于智能设备的虚拟角色控制方法及智能设备 |
CN110309470A (zh) * | 2019-05-14 | 2019-10-08 | 广东康云科技有限公司 | 一种基于空气成像的虚拟新闻主播***及其实现方法 |
CN111081270A (zh) * | 2019-12-19 | 2020-04-28 | 大连即时智能科技有限公司 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
CN211880554U (zh) * | 2020-04-19 | 2020-11-06 | 郭生文 | 在ai智能音箱上全息空中成像装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106878820B (zh) | 直播互动方法及装置 | |
JP6448971B2 (ja) | 対話装置 | |
CN107340991B (zh) | 语音角色的切换方法、装置、设备以及存储介质 | |
CN106804076B (zh) | 一种智能家居的照明*** | |
CN110213613B (zh) | 图像处理方法、装置及存储介质 | |
CN111835986A (zh) | 视频编辑处理方法、装置及电子设备 | |
CN109166575A (zh) | 智能设备的交互方法、装置、智能设备和存储介质 | |
WO2017141530A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2015198716A1 (ja) | 情報処理装置及び情報処理方法並びにプログラム | |
US11647261B2 (en) | Electrical devices control based on media-content context | |
JP2018013894A (ja) | 画像表示装置、話題選択方法、話題選択プログラム | |
CN109343695A (zh) | 基于虚拟人行为标准的交互方法及*** | |
CN109377979B (zh) | 更新欢迎语的方法和*** | |
CN112652041A (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN115206306A (zh) | 语音交互方法、装置、设备及*** | |
CN112463108B (zh) | 语音交互处理方法、装置、电子设备及存储介质 | |
JP2024521795A (ja) | 分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション | |
CN104822095A (zh) | 复合节拍特效***及复合节拍特效处理方法 | |
CN106227323A (zh) | 一种显示方法和装置 | |
CN115426553A (zh) | 一种智能音箱及其显示方法 | |
US20230353707A1 (en) | Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call | |
CN104822085A (zh) | 互动节拍特效***及互动节拍特效处理方法 | |
US11627283B2 (en) | Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call | |
CN109658924A (zh) | 会话消息处理方法、装置及智能设备 | |
CN113794927A (zh) | 信息显示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |