CN113676689A - 一种视频通话方法、装置及电视 - Google Patents
一种视频通话方法、装置及电视 Download PDFInfo
- Publication number
- CN113676689A CN113676689A CN202110947957.7A CN202110947957A CN113676689A CN 113676689 A CN113676689 A CN 113676689A CN 202110947957 A CN202110947957 A CN 202110947957A CN 113676689 A CN113676689 A CN 113676689A
- Authority
- CN
- China
- Prior art keywords
- target
- call
- television
- video
- video call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供了一种视频通话方法、装置及电视,涉及人工智能领域,尤其涉及物联网技术领域。具体实现方案为:接收语音指令;对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;通过所述通信连接与所述目标设备进行视频通话。可以通过电视便捷地实现视频通话。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及物联网技术领域。
背景技术
由于视频通话不仅可以听见对方的声音还能够看见对方,因此相比于语音通话,视频通话可以给用户带来更好的通话体验。
发明内容
本公开提供了一种用于通过电视便捷地实现视频通话的方法、装置、电视以及存储介质。
根据本公开的第一方面,提供了一种视频通话方法,应用于电视,包括:
接收语音指令;
对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;
如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;
通过所述通信连接与所述目标设备进行视频通话。
根据本公开的第二方面,提供了一种视频通话装置,应用于电视,包括:
指令接收模块,用于接收语音指令;
语音识别模块,用于对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;
连接建立模块,用于如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;
视频通话模块,用于通过所述通信连接与所述目标设备进行视频通话。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面中任一项所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述第一方面中任一项所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述第一方面中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开视频通话方法的一种流程示意图;
图2是根据本公开视频通话方法的另一种流程示意图;
图3是根据本公开视频通话方法的另一种流程示意图;
图4是根据本公开视频通话方法的另一种流程示意图;
图5是根据本公开视频通话方法的一种显示界面示意图;
图6是根据本公开视频通话装置的一种结构示意图;
图7是用来实现本公开实施例的视频通话的方法的电视的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了更清楚的对本公开提供的视频通话方法进行说明,下面将对本公开提供的视频通话方法的可能的应用场景进行示例性说明,可以理解的是,以下示例仅是本公开提供的视频通话方法的一种可能的应用场景,在其他可能的实施例中,本公开提供的视频通话方法也可以应用于其他可能的应用场景中,以下示例对此不做任何限制。
为更有效地与其他人员进行沟通,在一些情景中用户需要与其他人员进行视频通话,例如当用户处于外地时,为更好的掌握家中老人或孩子的状况,需要与家长老人或孩子进行视频通话。
相关技术中,用户可以通过智能手机、智能音箱、智能手表等智能设备与其他具有对应智能设备的人员进行视频通话,但是智能设备存在一定的学习门槛,部分人群难以掌握如何使用这些智能设备,例如对于老人和孩子而言,难以或需要消耗较长时间才能够学会如何使用智能设备。导致这部分人群无法便捷地进行视频通话。
基于此,本公开提供了一种视频通话方法,应用于电视,该方法可以如图1所示,包括:
S101,接收语音指令。
S102,对语音指令进行语音识别,确定语音指令所针对的目标人员以及语音指令所表示的用户意图。
S103,如果用户意图为视频通话,建立与目标人员的目标设备之间的通信连接。
S104,通过通信连接与目标设备进行视频通话。
选用该实施例,电视可以通过用户输入的语音指令识别用户意图,当用户意图为视频通话时,电视建立与目标人员的目标设备之间的通信连接,从而实现电视与目标设备之间的视频通话,由于当用户意图为视频通话时,可以认为语音指令所针对的目标人员为用户希望进行视频通话的对象,因此电视与目标设备之间的视频通话即为用户与用户希望进行视频通话的对象之间的视频通话。可见该实施例能够使得通过电视实现用户与指定对象之间的视频通话,并且由于是通过语音识别的方式识别出目标人员以及用户意图的,因此用户仅需输入语音指令,学习成本较低,可以使得老人、孩子等人群也能够便捷地通过电视进行视频通话。
示例性的,以老人希望与自己的儿子进行视频通话的场景为例。如果老人通过安装于手机的软件与儿子进行视频通话,则首先老人需要学习如何使用手机以及该软件,并在该软件的软件界面中开启视频通话功能,并在通讯录中选中自己的儿子作为视频通话对象,才能够实现与儿子的视频通话。
而选用该实施例,由于是借助电视实现的视频通话,老人无需额外学习除电视以外的其他智能设备的使用方法,仅需向电视输入如“打电话给儿子”“和儿子视频”等语音指令,电视即可识别出老人希望进行视频通话,并且识别出老人希望进行视频通话的对象为老人的儿子,从而建立与老人的儿子的设备之间的通信连接,以实现老人与老人的儿子之间的视频通话。可见,学习成本明显低于通过安装于手机的软件与儿子进行视频通话,且操作便捷。
下面将对前述S101-S104的各步骤进行说明。
其中,在S101中,如果电视上设置有麦克风等能够将语音信号转换为电信号的音频输入设备,则电视可以通过设置于电视的音频输入设备将语音信号转换为语音指令,如果电视上没有设置音频输入设备,则可以是由于电视建立有通信连接的其他设备将语音信号转换为语音指令,并将语音指令发送至电视的。
示例性的,在一种实现方式中,电视上设置有麦克风,则麦克风将用户发出的语音信号转换为电信号,得到用户输入的语音指令。在另一种实现方式中,电视上未设置麦克风,电视与集成有音频输入设备的蓝牙音箱建立有通信连接,则蓝牙音箱将用户发出的语音信号转换为电信号,得到语音指令,并将该语音指令发送至电视,电视接收蓝牙音箱发送的语音指令。
在S102中,语音识别的方式根据应用场景的不同可以不同,例如,可以是基于深度学习训练得到的神经网络实现的语音识别算法,也可以是基于传统算法模型实现的语音识别算法,本公开对此不做任何限制。
用户意图为用户输入语音指令时希望电视实现的功能,示例性的,假设用户希望通过输入语音指令控制电视播放特定视频,则用户输入的语音指令理论上表示的用户意图为播放特定视频。
可以预先针对不同的用户意图设置对应的规则,并确定语音指令命中的规则,将语音指令命中的规则所对应的用户意图作为语音指令所表示的意图。
示例性的,可以预先针对用户意图“视频通话”设置规则:具备“打电话”、“视频通话”、“视频聊天”中的任一词。并且假设语音指令为“打电话给儿子”时,则由于语音指令包含“打电话”,命中针对用户意图“视频通话”设置的规则,因此对该语音指令进行语音识别确定得到的用户意图为视频通话。
语音指令所针对的目标人员是指语音指令中所涉及的人员,并且目标人员不为输入语音指令的用户。示例性的,假设用户输入的语音指令为“打电话给儿子”,则语音指令所针对的目标人员为“儿子”。
在S103中,目标人员的目标设备为目标人员拥有的设备,如果目标人员拥有多个设备,则可以是将多个设备中随机一个设备作为目标设备,也可以是按照优先级将优先级最高的设备作为目标设备。优先级可以根据实际需求和/或用户经验设置的,示例性的,在一种实现方式中,一个设备的便携性越高则优先级越高,例如假设目标人员拥有三个设备,分别为手机、笔记本电脑、电视,由于在便携性上,手机高于笔记本电脑高于电视,因此手机的优先级高于笔记本电脑和电视,因此可以将目标人员的手机确定为目标设备。可以理解的是如果目标设备不在目标人员的身边,则目标人员无法通过目标设备与用户进行视频通话,而选用该实施例,可以优先将目标人员的便携性最高的设备作为目标设备,而便携性越高的设备处于目标人员身边的可能性越高,从而降低因目标设备不在目标人员导致无法视频通话的可能性。
电视可以是通过广域网与目标设备建立通信连接的,也可以是通过局域网与目标设备建立通信连接的,本公开对此不做任何限制。关于电视如何确定目标设备将在下文中进行详细说明,在此不再赘述。
在S104中,由于目标设备为目标人员拥有的设备,因此可以认为在进行视频通话时目标设备的使用者为目标人员,即电视与目标设备进行视频通话,可以视为用户与目标人员之间的视频通话。
在进行视频通话时,电视通过通信连接将拍摄用户得到的第一视频信号以及采集用户说话得到的第一语音信号发送至目标设备,以使得目标设备展示第一视频信号和第一语音信号。并且电视通过通信连接接收目标设备发送的拍摄目标人员得到的第二视频信号和采集目标人员说话得到的第二语音信号,并展示第二视频信号和第二语音信号。
在展示第二视频信号时,电视可以使用整个显示界面展示第二视频信号,也可以是在显示界面中的一个子界面中展示第二视频信号,例如可以是以画中画的形式展示第二视频信号。
电视与目标设备之间传输视频信号与语音信号的方式根据应用场景的不同可以不同,示例性的,在一种实现方式中,可以是采用WebRTC(web Real-Time Communication,网页即使通信)的方式,在其他实现方式中,也可以是利用具备传输视频信号与语音信号的软件实现的。
并且在视频通话过程中,用户还可以通过其他语音指令对电视进行控制,例如通过语音指令调整电视音量,又例如通过语音指令将视频通话切换为语音通话,再例如通过语音指令挂断视频通话。
下面将对电视如何确定目标设备进行说明:
在一种实现方式中,电视本地存储有用于记录各人员所拥有的设备的信息,电视根据该信息确定目标人员所拥有的设备,作为目标设备,并建立与目标设备之间的通信连接。
示例性的,电视本地存储有如下所示的表格:
人员 | 设备 |
儿子 | 手机A |
女儿 | 手机B |
侄子 | 手机C |
则当目标人员为儿子时,电视可以根据该表格确定目标设备为手机A,并建立与手机A之间的通信连接。
在另一种实现方式中,电视确定绑定于目标人员的账号的设备,作为目标设备,并建立与目标设备之间的通信连接。示例性的,假设目标人员为儿子,并且儿子的账号下绑定的设备为手机A,则电视可以确定手机A为目标设备。
可以理解的是,出于各种原因人员与设备之间的关系可能发生变化,例如因为购买了新的手机,儿子拥有的设备从手机A变化为了手机D。因此如果是根据用于记录各人员所拥有的设备的信息确定目标设备,则需要用户在人员与设备之间的关系发生变化后及时更新该信息,否则可能确定错误的目标设备,用户的操作量较大。
而通过确定绑定于目标人员的账号的设备作为目标设备的方式,则只需要各人员在设备发生变化后将新的设备绑定于自己的账号即可避免确定错误的目标设备,简化用户的操作。
前述电视除了可以可以主动发起与目标设备之间的视频通话,还可以响应于其他设备的呼入请求,与其他设备进行视频通话,示例性的,可以参见图2,图2所示为本公开提供的视频通话方法的另一种流程示意图,可以包括:
S201,接收呼入设备发送的呼入请求。
呼入设备可以为除前述电视外任一具备视频通话能力的电子设备。
S202,展示提示界面。
提示界面用于提示用户呼入设备正在试图与电视进行视频通话,让用户确定是否进行视频通话。
S203,接收用户针对提示界面输入的操作指令。
用户输入的操作指令可以是用于控制电视拒绝与呼入设备进行视频通话的拒绝指令,也可以是用于控制电视与呼入设备进行视频通话的确定指令。该操作指令可以视为针对呼入请求输入的操作指令。
S204,如果操作指令为确定指令,建立与呼入设备的通信连接,并通过该通信连接与呼入设备进行视频通话。
选用该实施例,可以使得呼入设备能够主动地发起与电视之间的视频通话,便于其他人员与用户进行沟通。但是在一些应用场景中,用户可能无法或难以输入确定指令。
例如,子女希望通过视频通话确认居住在家的老人是否遇到危险,因此以自己的手机作为呼入设备向老人家中的电视发送呼入请求,但是老人不慎摔倒在地无法独自爬起,因此难以输入确定指令,导致子女无法通过视频通话确认老人是否遇到危险,即在老人遇到危险时子女无法及时发现。
基于此,在另一种实现方式中,如果电视处于一呼即通状态,且接收到呼入设备发送的呼入请求,并且未接收到针对呼入请求输入的确定指令,建立与呼入设备的通信连接,并通过该通信连接与呼入设备进行视频通话。
即在该实现方式中,如果电视处于一呼即通状态,即使未接收到针对呼入请求输入的确定指令,电视在接收到呼入设备发送的呼入请求后,也将自动建立与呼入设备的通信连接,并通过该通信连接与呼入设备进行视频通话。
选用该实施例,使得呼入设备能够可以在不需要用户人工输入确定指令的情况下实现与电视之间的视频通话,从而便于其他人员随时通过视频通话确定用户是否遇到危险,便于其他人员在用户遇到危险时及时进行救助。
仍以前述子女以自己的手机作为呼入设备向老人家中的电视发送呼入请求,但是老人不慎摔倒在地无法独自爬起的示例为例,如果预先将电视切换至一呼即通状态,则即使老人因倒地不起难以输入确定指令,子女仍然能够成功与老人进行视频通话,从而通过视频通话发现老人遇到危险,以及时对老人进行救助。
电视默认时可以处于一呼即通状态,也可以不处于一呼即通状态,并且用户可以根据实际需求通过软件开关和/或硬件开关将电视切换至一呼即通状态或者将电视切换至非一呼即通状态。示例性的,可以在电视配置界面中设置控件,用户通过与该控件进行交互,将电视从非一呼即通状态切换至一呼即通状态,或将电视从一呼即通状态切换至非一呼即通状态。
当电视处于非一呼即通状态状态时,电视在接收到呼入设备发送的呼入请求后,如果未接收到用户针对呼入请求输入的确定指令,则拒绝或暂缓建立与呼入设备之间的通信连接。
前述目标人员可以为一个人员也可以多个人员,并且当目标人员为多个人员时,不同目标人员可以是不同语音指令所针对的目标人员,也可以是同一语音指令所针对的目标人员。示例性的,例如,用户可以输入语音指令“给儿子和女儿打电话”,通过语音识别,可以确定该语音指令所针对的目标人员为儿子和女儿。又例如,用户可以分别输入语音指令“给儿子打电话”和语音指令“给女儿打电话”,则通过语音识别,可以确定语音指令“给儿子打电话”所针对的目标人员为儿子,语音指令“给女儿打电话”所针对的目标人员为女儿。
并且对于存在多个语音指令的情况,接收到各语音指令的时机可以根据应用场景的不同而不同。示例性的,以接收到的语音指令包括第一语音指令“给儿子打电话”和第二语音指令“给女儿打电话”为例,在一种实现方式中,可以如图3所示,包括:
S301,接收第一语音指令。
S302,对第一语音指令进行语音识别,确定第一语音指令所针对的目标人员以及第一语音指令所表示的用户意图。
由于第一语音指令为“给儿子打电话”,因此第一语音指令所针对的目标人员为儿子,所表示的用户意图为视频通话。下文中为描述方便,假设儿子拥有的设备为手机A,女儿拥有的设备为手机B。
S303,建立与手机A的通信连接。
S304,通过通信连接与手机A进行视频通话。
此时用户仅与儿子进行视频通话,尚未与女儿进行视频通话。
S305,接收第二语音指令。
用户在与儿子进行视频通话过程中输入第二语音指令。
S306,对第二语音指令进行语音识别,确定第二语音指令所针对的目标人员以及第二语音指令所表示的用户意图。
由于第二语音指令为“给女儿打电话”,因此第二语音指令所针对的目标人员为女儿,所表示的用户意图为视频通话。
S307,建立与手机B的通信连接。
S308,通过通信连接同时与手机A和手机B进行视频通话。
此时用户同时与儿子和女儿进行视频通话。
在另一种实现方式中,也可以如图4所示,包括:
S401,接收第一语音指令和第二语音指令。
在该实现方式中用户在进行视频通话之前依次输入第一语音指令和第二语音指令。
S402,分别对第一语音指令和第二语音指令进行语音识别,确定第一语音指令和第二语音指令所针对的目标人员,以及第一语音指令和第二语音指令所表示的用户意图。
如前述分析,第一语音指令所针对的目标人员为儿子,第二语音指令所针对的目标人员为女儿,并且第一语音指令和第二语音指令所表示的用户意图为视频通话。
S403,分别建立与手机A和手机B的通信连接。
S404,通过通信连接同时与手机A和手机B进行视频通话。
在一种实现方式中,当电视同时与多个目标设备进行视频通话时,可以仅显示与其中一个目标设备进行视频通话的视频画面,即显示该一个目标设备发送至电视的视频信号。并且根据用户输入的操作指令切换所显示的视频画面。
示例性的,以电视同时与手机A和手机B进行视频通话为例,电视可以仅显示与手机B进行视频通话时的视频画面,在接收到用户输入的用于切换所显示的视频画面的操作指令时,将所显示的视频画面切换为与手机A进行视频通话时的视频画面。
在另一种实现方式中,当电视同时与多个目标设备进行视频通话时,也可以针对每个目标人员的目标设备,在电视的显示界面中展示与该目标设备对应的视频预览子界面,其中,视频预览子界面用于展示电视与该目标设备进行视频通话时的视频画面。
示例性的,仍以电视同时与手机A和手机B进行视频通话为例,电视可以针对手机A在显示界面中展示与手机A对应的第一视频预览子界面,并针对手机B在显示界面中展示与手机B对应的第二视频预览子界面。其中,第一视频预览子界面用于展示电视与手机A进行视频通话时的视频画面,第二视频预览子界面用于展示电视与手机B进行视频通话时的视频画面。
选用该实施例,可以充分利用电视具有大尺寸屏幕的特点,通过展示多个视频预览子界面的方式,同时在电视的显示界面中展示与各个目标设备进行视频通话时的视频画面,通过电视实现跨设备的多人视频通话。
可以理解的是,电视同时与多个目标设备进行视频通话,可以视为用户同时与多个目标人员进行视频通话,因此用户听到的语音可能来自多个目标人员中的任一人员,导致用户难以判断听到的语音的来源,即用户难以判断正在说话的人员。
基于此,在一种实现方式中,电视在展示与目标设备对应的视频预览子界面时,如果电视正在播放该目标设备发送的语音信号,则以预设第一界面样式展示与目标设备对应的视频预览子界面。如果电视没有正在播放该目标设备发送的语音信号,则以预设第二界面样式展示与目标设备对应的视频预览子界面。
其中,第一界面样式与第二界面样式为两种不同的界面样式,示例性的,可以如图5所示,其中,显示界面500中包括第一视频预览子界面501和第二视频预览子界面502,其中第一视频预览子界面501的界面样式为第一界面样式,第二视频预览子界面502的界面样式为第二界面样式。可见,该示例中第一界面样式相比于第二界面样式边框的线宽更宽,并且在左下角包含声波状图案。可以理解的是,图5所示的示例仅是一种可能的示例,在其他可能的实施中,第一界面样式和第二界面样式也可以除图5所示的样式以外的其他样式。
选用该实施例,可以根据电视是否正在播放目标设备发送的语音信号,分别以不同的界面样式展示与目标设备对应的视频预览子界面,从而使得用户能够根据视频预览子界面的视觉效果分辨出正在说话的人员。
仍以图5所示的示例为例,假设第一视频预览子界面501用于展示电视与手机A进行视频通话时的视频画面,第二视频预览子界面502用于展示电视与手机B进行视频通话时的视频画面,并且手机A为用户的儿子的设备,手机B为用户的女儿的设备,则用户可以根据各视频预览子界面的视觉效果确定正在说话的为儿子。
参见图6,图6所示为本公开提供的视频通话装置的一种结构示意图,该视频通话装置应用于电视,该视频通话装置可以包括:
指令接收模块601,用于接收语音指令;
语音识别模块602,用于对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;
连接建立模块603,用于如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;
视频通话模块604,用于通过所述通信连接与所述目标设备进行视频通话。
在一种可能的实施例中,所述连接建立模块603,具体用于确定绑定于所述目标人员的账号的设备,作为目标设备;
建立与所述目标设备之间的通信连接。
在一种可能的实施例中,还包括:
一呼即通模块,用于如果所述电视处于一呼即通状态,且接收到呼入设备发送的呼入请求,并且未接收到针对所述呼入请求输入的确定指令,驱动所述连接建立模块603建立与所述呼入设备的通信连接,并驱动所述视频通话模块604通过所述通信连接与所述呼入设备进行视频通话。
在一种可能的实施例中,所述目标人员为多个人员;
所述装置还包括:
视频预览模块,用于针对每个目标人员的目标设备,在所述电视的显示界面中展示与该目标设备对应的视频预览子界面,其中,所述视频预览子界面用于展示所述电视与该目标设备进行视频通话时的视频画面。
在一种可能的实施例中,所述视频预览模块,具体用于针对每个目标人员的目标设备,如果所述电视正在播放所述目标设备发送的语音信号,以预设第一界面样式展示与该目标设备对应的视频预览子界面;
如果所述电视没有正在播放所述目标设备发送的语音信号,以预设第二界面样式展示与该目标设备对应的视频预览子界面。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电视、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电视700的示意性框图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电视700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电视700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电视700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电视700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如视频通话方法。例如,在一些实施例中,视频通话方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电视700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的视频通话方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频通话方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种视频通话方法,应用于电视,包括:
接收语音指令;
对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;
如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;
通过所述通信连接与所述目标设备进行视频通话。
2.根据权利要求1所述的方法,其中,所述建立与所述目标人员的目标设备之间的通信连接,包括:
确定绑定于所述目标人员的账号的设备,作为目标设备;
建立与所述目标设备之间的通信连接。
3.根据权利要求1所述的方法,还包括:
如果所述电视处于一呼即通状态,且接收到呼入设备发送的呼入请求,并且未接收到针对所述呼入请求输入的确定指令,建立与所述呼入设备的通信连接;
通过所述通信连接与所述呼入设备进行视频通话。
4.根据权利要求1所述的方法,其中,所述目标人员为多个人员;
所述方法还包括:
针对每个目标人员的目标设备,在所述电视的显示界面中展示与该目标设备对应的视频预览子界面,其中,所述视频预览子界面用于展示所述电视与该目标设备进行视频通话时的视频画面。
5.根据权利要求4所述的方法,其中,所述针对每个目标人员的目标设备,在所述电视的显示界面中展示与该目标设备对应的视频预览子界面,包括:
针对每个目标人员的目标设备,如果所述电视正在播放所述目标设备发送的语音信号,以预设第一界面样式展示与该目标设备对应的视频预览子界面;
如果所述电视没有正在播放所述目标设备发送的语音信号,以预设第二界面样式展示与该目标设备对应的视频预览子界面。
6.一种视频通话装置,应用于电视,包括:
指令接收模块,用于接收语音指令;
语音识别模块,用于对所述语音指令进行语音识别,确定所述语音指令所针对的目标人员以及所述语音指令所表示的用户意图;
连接建立模块,用于如果所述用户意图为视频通话,建立与所述目标人员的目标设备之间的通信连接;
视频通话模块,用于通过所述通信连接与所述目标设备进行视频通话。
7.根据权利要求6所述的装置,其中,所述连接建立模块,具体用于确定绑定于所述目标人员的账号的设备,作为目标设备;
建立与所述目标设备之间的通信连接。
8.根据权利要求6所述的装置,还包括:
一呼即通模块,用于如果所述电视处于一呼即通状态,且接收到呼入设备发送的呼入请求,并且未接收到针对所述呼入请求输入的确定指令,驱动所述连接建立模块建立与所述呼入设备的通信连接,并驱动所述视频通话模块通过所述通信连接与所述呼入设备进行视频通话。
9.根据权利要求6所述的装置,其中,所述目标人员为多个人员;
所述装置还包括:
视频预览模块,用于针对每个目标人员的目标设备,在所述电视的显示界面中展示与该目标设备对应的视频预览子界面,其中,所述视频预览子界面用于展示所述电视与该目标设备进行视频通话时的视频画面。
10.根据权利要求9所述的装置,其中,所述视频预览模块,具体用于针对每个目标人员的目标设备,如果所述电视正在播放所述目标设备发送的语音信号,以预设第一界面样式展示与该目标设备对应的视频预览子界面;
如果所述电视没有正在播放所述目标设备发送的语音信号,以预设第二界面样式展示与该目标设备对应的视频预览子界面。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947957.7A CN113676689A (zh) | 2021-08-18 | 2021-08-18 | 一种视频通话方法、装置及电视 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947957.7A CN113676689A (zh) | 2021-08-18 | 2021-08-18 | 一种视频通话方法、装置及电视 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113676689A true CN113676689A (zh) | 2021-11-19 |
Family
ID=78543616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947957.7A Pending CN113676689A (zh) | 2021-08-18 | 2021-08-18 | 一种视频通话方法、装置及电视 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113676689A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852778A (zh) * | 2021-11-29 | 2021-12-28 | 见面(天津)网络科技有限公司 | 多人视频通话方法、装置、设备及存储介质 |
WO2022222768A1 (zh) * | 2021-04-20 | 2022-10-27 | 华为技术有限公司 | 一种多设备配合的方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024590A (zh) * | 2012-12-11 | 2013-04-03 | 四川长虹电器股份有限公司 | 一种智能终端与智能电视视频通话的方法及*** |
CN103858424A (zh) * | 2012-11-30 | 2014-06-11 | Abb技术有限公司 | 在楼宇对讲***中同时支持多个呼叫的方法及其*** |
CN105554429A (zh) * | 2015-11-19 | 2016-05-04 | 掌赢信息科技(上海)有限公司 | 一种视频通话显示方法及视频通话设备 |
CN205378147U (zh) * | 2016-02-19 | 2016-07-06 | 刘丽芳 | 一种能够实现视频通话的电视盒子 |
CN108806688A (zh) * | 2018-07-16 | 2018-11-13 | 深圳Tcl数字技术有限公司 | 智能电视的语音控制方法、智能电视、***及存储介质 |
WO2018209561A1 (zh) * | 2017-05-16 | 2018-11-22 | 深圳市大拿科技有限公司 | 一种通过智能电视实现视频通话和安防监控的***和方法 |
CN111263100A (zh) * | 2020-01-19 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 视频通话方法、装置、设备及存储介质 |
CN112788381A (zh) * | 2019-11-04 | 2021-05-11 | 海信视像科技股份有限公司 | 显示设备及显示方法 |
-
2021
- 2021-08-18 CN CN202110947957.7A patent/CN113676689A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103858424A (zh) * | 2012-11-30 | 2014-06-11 | Abb技术有限公司 | 在楼宇对讲***中同时支持多个呼叫的方法及其*** |
CN103024590A (zh) * | 2012-12-11 | 2013-04-03 | 四川长虹电器股份有限公司 | 一种智能终端与智能电视视频通话的方法及*** |
CN105554429A (zh) * | 2015-11-19 | 2016-05-04 | 掌赢信息科技(上海)有限公司 | 一种视频通话显示方法及视频通话设备 |
CN205378147U (zh) * | 2016-02-19 | 2016-07-06 | 刘丽芳 | 一种能够实现视频通话的电视盒子 |
WO2018209561A1 (zh) * | 2017-05-16 | 2018-11-22 | 深圳市大拿科技有限公司 | 一种通过智能电视实现视频通话和安防监控的***和方法 |
CN108806688A (zh) * | 2018-07-16 | 2018-11-13 | 深圳Tcl数字技术有限公司 | 智能电视的语音控制方法、智能电视、***及存储介质 |
CN112788381A (zh) * | 2019-11-04 | 2021-05-11 | 海信视像科技股份有限公司 | 显示设备及显示方法 |
CN111263100A (zh) * | 2020-01-19 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 视频通话方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022222768A1 (zh) * | 2021-04-20 | 2022-10-27 | 华为技术有限公司 | 一种多设备配合的方法及设备 |
CN113852778A (zh) * | 2021-11-29 | 2021-12-28 | 见面(天津)网络科技有限公司 | 多人视频通话方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459221B (zh) | 多设备协同语音交互的方法和装置 | |
WO2021129262A1 (zh) | 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互*** | |
US20150039298A1 (en) | Instant communication voice recognition method and terminal | |
US9641801B2 (en) | Method, apparatus, and system for presenting communication information in video communication | |
CN113676689A (zh) | 一种视频通话方法、装置及电视 | |
CN113760145B (zh) | 一种互动方法、装置、电子设备及存储介质 | |
CN102591455A (zh) | 语音数据的选择性传输 | |
WO2019076327A1 (zh) | 游戏中来电处理方法、装置、终端及存储介质 | |
WO2021196617A1 (zh) | 一种语音交互方法、装置、电子设备及存储介质 | |
EP4099690A1 (en) | Enhanced video call method and system, and electronic device | |
US20170171497A1 (en) | Method and Device for Automatically Adjusting Volume | |
EP3635533B1 (en) | Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof | |
CN104122979A (zh) | 一种语音控制大屏幕的方法及装置 | |
US9967813B1 (en) | Managing communication sessions with respect to multiple transport media | |
CN113012695B (zh) | 智能控制方法、装置、电子设备及计算机可读存储介质 | |
CN113271385B (zh) | 一种呼叫转移方法 | |
CN115118820A (zh) | 一种通话处理方法、装置、计算机设备及存储介质 | |
KR20190103590A (ko) | 영상 통화 방법 및 영상 통화 중개 장치 | |
EP3917120A1 (en) | Voice chat device, voice chat method, and program | |
JP2018139397A (ja) | 音声表示装置および音声表示プログラム | |
CN113808592A (zh) | 通话录音的转写方法及装置、电子设备和存储介质 | |
CN112954760A (zh) | 蓝牙设备的连接方法、装置和电子设备 | |
CN112565852A (zh) | 多设备的互动方法、装置、电子设备及存储介质 | |
CN104954538A (zh) | 一种信息处理方法及电子设备 | |
CN203775252U (zh) | 一种自助终端的远程协助设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |