CN112885350A - 网络会议的控制方法、装置、电子设备和存储介质 - Google Patents

网络会议的控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112885350A
CN112885350A CN202110213134.1A CN202110213134A CN112885350A CN 112885350 A CN112885350 A CN 112885350A CN 202110213134 A CN202110213134 A CN 202110213134A CN 112885350 A CN112885350 A CN 112885350A
Authority
CN
China
Prior art keywords
audio data
language
function
voice instruction
network conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110213134.1A
Other languages
English (en)
Inventor
刘俊启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110213134.1A priority Critical patent/CN112885350A/zh
Publication of CN112885350A publication Critical patent/CN112885350A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开公开了一种网络会议的控制方法,涉及计算机技术领域,尤其涉及人工智能和语音识别领域。具体实现方案为:在网络会议程序运行期间获取音频数据;从音频数据中识别语音指令;根据所识别的语音指令控制网络会议程序的禁言功能。本公开还公开了一种网络会议的控制装置、电子设备和存储介质。

Description

网络会议的控制方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及人工智能和语音识别技术。更具体地,本公开提供了一种网络会议的控制方法、装置、电子设备和存储介质。
背景技术
网络会议在人们生活中越来越普遍。参与网络会议的多个用户所处的环境不同,背景音也不同,那么整体的会议背景音就会比较嘈杂。
目前可以通过开启禁言功能来避免用户所处环境的背景音输入,保证网络会议的语音效果。但是禁言功能的开启和关闭都需要根据用户的实际需求手动操作,手动关闭禁言操作成本高,影响网络会议的沟通效率。
发明内容
本公开提供了一种网络会议的控制方法、装置、设备以及存储介质。
根据第一方面,提供了一种网络会议的控制方法,该方法包括:在网络会议程序运行期间获取音频数据;从音频数据中识别语音指令;根据所识别的语音指令控制网络会议程序的禁言功能。
根据第二方面,提供了一种网络会议的控制装置,该装置包括:获取模块,用于在网络会议程序运行期间获取音频数据;第一识别模块,用于从音频数据中识别语音指令;控制模块,用于根据所识别的语音指令控制网络会议程序的禁言功能。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A是根据本公开的一个实施例的可以应用网络会议的控制方法和装置的示例性***架构示意图;
图1B是根据本公开一个实施例的可以应用网络会议的控制方法和装置的示例性场景示意图;
图2是根据本公开的一个实施例的网络会议的控制方法的流程图;
图3是根据本公开的另一个实施例的网络会议的控制方法的流程图;
图4是根据本公开的另一个实施例的网络会议的控制方法的流程图;
图5是根据本公开的一个实施例的识别音频数据的来源的方法的流程图;
图6是根据本公开的一个实施例的网络会议的控制装置的框图;
图7是根据本公开的一个实施例的网络会议的控制方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着计算机和互联网技术的不断发展,网络为人们提供了更便利的沟通方式,即时通信、在线办公和在线学习等应用场景在人们生活中也越来越普遍。网络会议是实现在线办公和在线学习的一种常见形式。
在网络会议(可以是线上开会或线上教学)过程中,参与网络会议的有多个用户,用户所处环境不同,背景音不确定,那整体的会议或课堂的背景音就会比较吵。在相关技术中也提出了为线上会议设置禁言功能的解决方案。具体地,网络会议的运行界面上设置有用于控制禁言功能的开启和关闭的控件,用户点击该控件可以开启或关闭禁言功能。禁言功能开启时,本地用户所处环境的声音就不会被传输给远程用户,远程用户就听不到本地用户的声音。禁言功能关闭时,本地用户所处环境的声音会被传输给远程用户,远程用户能够听到本地用户的声音。网络会议的某一个用户或者某一部分用户的禁言功能的开启或关闭也可以由管理员设定,例如,在网络会议过程中由管理员设定部分用户群禁言。
在网络会议(可以是线上开会或线上教学)过程中,用户在不发言的时候可以选择禁言,用户在要发言的时候需要关闭禁言,但是用户发言的时候可能忘记关闭禁言,在发现没有关闭禁言之后,需要用户先关闭禁言再重复说一遍,操作繁琐。
在网络会议(可以是线上开会或线上教学)过程中,网络会议作为一个即时通信工具,用户可以与多个群组进行交流,例如,与群组A进行语音沟通,与群组B进行文件的发送和接收新消息等。
在网络会议(可以是线上开会或线上教学)过程中,用户还可以同时打开多个应用程序,网络会议程序可以运行在后台,不影响用户在前台使用其他的应用程序进行消息的接收和发送以及文本的传输等操作。
在上述多个应用场景中,用户存在多个任务的需求,禁言功能是否开启是根据用户的需求随时调整的,那就会导致以下问题:(1)用户在禁言功能开启阶段说话,会导致说的话没有被远程用户听到,需要重说第二次;(2)如果用户正在与多个群组会议交流,每次点击切换是否禁言时,需要先找到进行语音沟通的会话流,再进行禁言的操作,操作成本较高;(3)当用户在使用其它应用程序时,需要先切换到网络会议程序,再进行禁言操作;(4)在设备(手机或电脑)锁屏时,需要先解锁,再切到网络会议程序,再进行禁言的操作,操作成本较高。
图1A是根据本公开一个实施例的可以应用网络会议的控制方法和装置的示例性***架构示意图。需要注意的是,图1A所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1A所示,根据该实施例的***架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101与服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如网页浏览器应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器103可以是提供各种服务的服务器,例如对用户利用终端设备101所发起的网络会议请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的信息、或数据等)反馈给终端设备。
例如,多个终端设备101中的任意一个发起网络会议,向服务器103发送网络会议请求,并发送邀请其余的终端设备101加入网络会议的请求。服务器103创建会议,并向其余的终端设备101转发邀请加入网络会议的请求。其余的终端设备101加入到网络会议之后,每个终端设备101可以通过服务器103向其余的终端设备101(远程终端)发送本地的文本、语音或视频消息,并通过服务器103接收来自远程终端的文本、语音或视频消息。
需要说明的是,本公开实施例所提供的网络会议的控制方法一般可以由终端设备101执行。相应地,本公开实施例所提供的网络会议的控制装置一般可以设置于终端设备101中。
应该理解,图1A中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图1B是根据本公开一个实施例的可以应用网络会议的控制方法和装置的示例性场景示意图。
如图1B所示,根据该实施例的示例性场景可以包括终端设备110,终端设备110可以运行有网络会议程序,网络会议程序运行时可以展示网络会议界面111。在网络会议界面111的左半部分可以显示正在发言的用户或者正在被讲解的文档等。在网络会议界面111的右半部分可以显示当前进行网络会议的群组,群组中例如可以包括用户A、用户B和用户C等等。在网络会议界面111的右半部分还显示有可以控制网络会议的一些控件,如用于控制视频功能的开启和关闭的控件,用于控制禁言功能的开启和关闭的控件,以及用于上传文件的控件、用于发送消息的控件等等。
示例性地,终端设备110是用户A持有的设备,用户A在参与网络会议的过程中,可以通过点击用于控制禁言功能的控件来决定是否让远程用户(用户B和用户C)听到自身的声音。例如,用户A在不发言的时候,点击用于控制禁言功能的控件以开启禁言功能,则用户B和用于C不会听到用户A这边的声音。用户A在要发言的时候,再次点击用于控制禁言功能的控件以关闭禁言功能,则用户B和用户C能够听到用户A这边的声音。
图2是根据本公开的一个实施例的网络会议的控制方法的流程图。
如图2所示,该网络会议的控制方法200可以包括操作S210~操作S230。
根据本公开的实施例,操作S210~操作S230可以是在网络会议的过程中由本地电子设备执行的,参与网络会议的用户可以包括本地电子设备的用户(简称为本地用户)和远程电子设备的用户(简称为远程用户)。
在操作S210,在网络会议程序运行期间获取音频数据。
根据本公开的实施例,音频数据可以是本地电子设备所处环境中的声音数据。在本地电子设备的用户不发言的时候,本地电子设备的用户所处环境的声音数据可以包括***噪音、大自然声音等背景音,在本地电子设备的用户不发言的时候,本地电子设备的用户所处环境的声音数据可以包括背景音和用户的语音。可以使用本地电子设备的麦克风等音频传感器获取音频数据。
在操作S220,从音频数据中识别语音指令。
根据本公开的实施例,利用语音识别技术可以识别出音频数据中的语音指令,并将音频数据中的语音指令与预设语音指令进行匹配,如果音频数据中的语音指令与预设语音指令一致,则执行相应的指令控制功能。
根据本公开的实施例,预设语音指令可以是预先配置的用于开启或关闭禁言功能的语音指令。例如,用于关闭禁言功能的语音指令可以是“我要说话,关闭禁言”。用于开启禁言功能的语音指令可以是“我先禁言了,你们继续”。预设语音指令除了可以配置为用户说的语句,还可以配置为其他形式,如用户说的关键字、数字、字母等,例如,用于关闭禁言功能的语音指令可以配置为“关闭”、“1”或“a”。用于开启禁言功能的语音指令可以配置为“开启”、“2”或“b”等等。预设语音指令的配置也不限于是用户发出的声音,也可以是用户使用其他的发声工具产生的声音。以上仅为实例,可以根据实际需要进行配置。
在操作S230,根据所识别的语音指令控制网络会议程序的禁言功能。
根据本公开的实施例,如果音频数据中的语音指令与预设的用于关闭禁言功能的语音指令一致,且当前网络会议的禁言功能为开启状态,则关闭网络会议的禁言功能。如果音频数据中的语音指令与预设的用于开启禁言功能的语音指令一致,且当前网络会议的禁言功能为关闭状态,则开启网络会议的禁言功能。
示例性地,如果识别出音频数据中的语音指令为“我要说话,关闭禁言”,与预设的用于关闭禁言功能的语音指令相同,且当前网络会议的禁言功能为开启状态,则关闭网络会议的禁言功能。在关闭网络会议的禁言功能之后,可以产生用于提示禁言功能已关闭的提示信息,该提示信息可以是声音形式的,如“嘀”地一声等。提示信息也可以是消息形式的,如显示“禁言已关闭”的通知消息。提示信息能够让用户快速获知禁言功能已关闭,本地用户可以开始发言,且发言能够被远程用户听到。
如果识别出音频数据中的语音指令为“我先禁言了,你们继续”,与用于开启禁言功能的语音指令相同,且当前网络会议的禁言功能为关闭状态,则开启网络会议的禁言功能。在开启网络会议的禁言功能之后,可以产生用于提示禁言功能已开启的提示信息,该提示信息可以是声音形式的,如“嗒”地一声等。提示信息也可以是消息形式的,如显示“禁言已开启”的通知消息。提示信息能够让用户快速获知禁言功能已开启,本地用户说的话将不会被远程用户听到。
根据本公开的实施例,在网络会议程序运行期间获取音频数据;从音频数据中识别语音指令;根据所识别的语音指令控制网络会议程序的禁言功能,能够通过语音指令控制网络会议程序的禁言功能的开启和关闭,提高切换禁言功能状态的便捷性,提高网络会议的沟通效率。
图3是根据本公开的另一个实施例的网络会议的控制方法的流程图。
如图3所示,该网络会议的控制方法可以包括操作S310~操作S360。
在操作S310,在网络会议程序的禁言功能开启的情况下,获取音频数据,并识别出第一语音指令。
根据本公开的实施例,在网络会议程序的禁言功能开启的情况下,本地电子设备的麦克风等语音传感器可以继续工作,实时采集音频数据。利用语音识别技术实时对采集的音频数据进行识别,从中识别出语音指令,作为第一语音指令。
在操作S320,判断所识别的第一语音指令是否是第一预设指令,如果是则执行操作S330,否则返回操作S310。
根据本公开的实施例,第一预设指令可以是用于关闭禁言功能的指令,如第一预设指令为“我要说话,关闭禁言”。判断第一语音指令是否为第一预设指令,如果是则执行操作S330,否则返回操作S310继续在禁言功能开启的情况下使用麦克风实时获取音频数据并进行语音识别。
在操作S330,关闭禁言功能,并产生第一提示信息,第一提示信息用于提示禁言功能已关闭。
根据本公开的实施例,在第一语音指令是第一预设指令的情况下,自动关闭网络会议的禁言功能,并产生用于提示禁言功能已关闭的第一提示信息,使用户快速获知禁言功能已关闭,本地用户可以开始发言,且发言能够被远程用户听到。
在操作S340,在在网络会议程序的禁言功能关闭的情况下,获取新的音频数据,并识别出第二语音指令。
根据本公开的实施例,在网络会议程序的禁言功能关闭的情况下,本地电子设备的麦克风等语音传感器实时获取新的音频数据,利用语音识别技术实时对采集的新的音频数据进行识别,从中识别出第二语音指令。
在操作S350,判断第二语音指令是否是第二预设指令,如果是则执行操作S360,否则返回操作S340。
根据本公开的实施例,第二预设指令可以是用于开启禁言功能的指令,如第二预设指令为“我先禁言了,你们继续”。判断第二语音指令是否为第二预设指令,如果是则执行操作S360,否则返回操作S340继续在禁言功能关闭的情况下使用麦克风实时获取新的音频数据并进行语音识别。
在操作S360,开启禁言功能,并产生第二提示信息,第二提示信息用于提示禁言功能已开启。
根据本公开的实施例,在第二语音指令是第二预设指令的情况下,自动开启网络会议的禁言功能,并产生用于提示禁言功能已开启的第二提示信息,使用户快速获知禁言功能已开启,本地用户说的话不会被远程用户听到。并且返回操作S310继续在禁言功能开启的情况下使用麦克风实时获取音频数据并进行语音识别。
图4是根据本公开的另一个实施例的网络会议的控制方法的流程图。
如图4所示,该网络会议的控制方法可以包括操作S410~操作S440。
在操作S410,在网络会议程序运行期间获取音频数据。
根据本公开的实施例,音频数据是本地电子设备所处环境中的音频数据,可以使用本地电子设备的麦克风等音频传感器获取音频数据。
在操作S420,判断音频数据的来源是否是人类语音,如果是则执行操作S430,否则返回操作S410。
根据本公开的实施例,实时对所采集的音频数据进行识别,判断所采集的音频数据的来源是否为人类语音,从而能够快速判断出用户是否发言了。具体地,如果是人类语音,则说明用户发言了,执行操作S430。如果不是人类语音,则说明用户没有发言,返回S410继续使用麦克风实时获取音频数据。
在操作S430,从音频数据中识别语音指令。
在操作S440,根据所识别的语音指令控制网络会议程序的禁言功能。
根据本公开的实施例,如果音频数据中的语音指令与预设的用于关闭禁言功能的语音指令一致,且当前网络会议的禁言功能为开启状态,则关闭网络会议的禁言功能。如果音频数据中的语音指令与预设的用于开启禁言功能的语音指令一致,且当前网络会议的禁言功能为关闭状态,则开启网络会议的禁言功能。
图5是根据本公开的一个实施例的识别音频数据的来源的方法的流程图。
如图5所示,该方法包括操作S5421~S5422。
在操作S5421,从音频数据的至少一部分中提取音频数据的频谱特征。
根据本公开的实施例,如果是用户产生的语音,则语音强度从无到能够检测到之后会持续地有音频数据,针对持续的音频数据可以提取出频谱特征,根据持续音频数据的频谱特征可以识别持续音频数据的来源是否是人类语音。
在操作S5422,使用语音识别模型基于频谱特征识别音频数据的来源。
根据本公开的实施例,可以使用语音识别模型基于音频数据的频谱特征来识别音频数据的来源是否是人类语音,语音识别模型可以是基于神经网络模型进行训练得到的,训练数据可以包括人类语音的频谱特征,动物语音的频谱特征和大自然声音的频谱特征等,人类语音的频谱特征作为正样本,动物语音的频谱特征和大自然声音的频谱特征等作为负样本,使用正样本和负样本对神经网络模型进行训练,得到经训练的神经网络模型作为语音识别模型。语音识别模型对于输入的音频数据的频谱特征,可以识别出音频数据的来源是否是人类语音。
图6是根据本公开的一个实施例的网络会议的控制装置的框图。
如图6所示,该网络会议的控制600可以包括获取模块601、第一识别模块602和控制模块603。
获取模块601用于在网络会议程序运行期间获取音频数据。
第一识别模块602用于从音频数据中识别语音指令。
控制模块603用于根据所识别的语音指令控制网络会议程序的禁言功能。
根据本公开的实施例,控制模块603包括第一控制单元。
第一控制单元用于在网络会议的禁言功能为开启状态且所识别的语音指令包括第一指令的情况下,关闭禁言功能。
根据本公开的实施例,网络会议的控制600还包括第一产生模块。
第一产生模块用于在第一控制单元关闭禁言功能之后,产生用于提示禁言功能已关闭的提示信息。
根据本公开的实施例,控制模块603包括第二控制单元。
第二控制单元用于在网络会议的禁言功能为关闭状态且所识别的语音指令包括第二指令的情况下,开启禁言功能。
根据本公开的实施例,网络会议的控制600还包括第二产生模块。
第二产生模块用于在第二控制单元开启禁言功能之后,产生用于提示禁言功能已开启的提示信息。
根据本公开的实施例,网络会议的控制600还包括第二识别模块。
第二识别模块用于在第一识别模块从音频数据中识别语音指令之前,识别音频数据的来源,其中,在音频数据的来源是人类语音的情况下,执行第一识别模块。
根据本公开的实施例,第二识别模块包括提取单元和识别单元。
提取单元用于从音频数据的至少一部分中提取音频数据的频谱特征;
识别单元用于使用语音识别模型基于频谱特征识别音频数据的来源。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如网络会议的控制方法。例如,在一些实施例中,网络会议的控制方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的网络会议的控制方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网络会议的控制方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种网络会议的控制方法,包括:
在网络会议程序运行期间获取音频数据;
从所述音频数据中识别语音指令;
根据所识别的语音指令控制所述网络会议程序的禁言功能。
2.根据权利要求1所述的方法,其中,所述根据所识别的语音指令控制所述网络会议程序的禁言功能包括:
在所述网络会议的禁言功能为开启状态且所识别的语音指令包括第一指令的情况下,关闭所述禁言功能。
3.根据权利要求2所述的方法,在关闭所述禁言功能之后,还包括:
产生用于提示所述禁言功能已关闭的提示信息。
4.根据权利要求1所述的方法,其中,所述根据所识别的语音指令控制所述网络会议程序的禁言功能包括:
在所述网络会议的禁言功能为关闭状态且所识别的语音指令包括第二指令的情况下,开启所述禁言功能。
5.根据权利要求4所述的方法,在开启所述禁言功能之后,还包括:
产生用于提示所述禁言功能已开启的提示信息。
6.根据权利要求1所述的方法,在从所述音频数据中识别语音指令之前,还包括:
识别所述音频数据的来源;
其中,在所述音频数据的来源是人类语音的情况下,执行从所述音频数据中识别语音指令的操作。
7.根据权利要求6所述的方法,其中,所述识别所述音频数据的来源包括:
从所述音频数据的至少一部分中提取所述音频数据的频谱特征:
使用语音识别模型基于所述频谱特征识别所述音频数据的来源。
8.一种网络会议的控制装置,包括:
获取模块,用于在网络会议程序运行期间获取音频数据;
第一识别模块,用于从所述音频数据中识别语音指令;
控制模块,用于根据所识别的语音指令控制所述网络会议程序的禁言功能。
9.根据权利要求8所述的装置,其中,所述控制模块包括:
第一控制单元,用于在所述网络会议的禁言功能为开启状态且所识别的语音指令包括第一指令的情况下,关闭所述禁言功能。
10.根据权利要求9所述的装置,所述装置还包括:
第一产生模块,用于在第一控制单元关闭所述禁言功能之后,产生用于提示所述禁言功能已关闭的提示信息。
11.根据权利要求8所述的装置,其中,所述控制模块包括:
第二控制单元,用于在所述网络会议的禁言功能为关闭状态且所识别的语音指令包括第二指令的情况下,开启所述禁言功能。
12.根据权利要求11所述的装置,所述装置还包括:
第二产生模块,用于在第二控制单元开启所述禁言功能之后,产生用于提示所述禁言功能已开启的提示信息。
13.根据权利要求8所述的装置,所述装置还包括:
第二识别模块,用于在第一识别模块从所述音频数据中识别语音指令之前,识别所述音频数据的来源;
其中,在所述音频数据的来源是人类语音的情况下,执行第一识别模块。
14.根据权利要求13所述的装置,其中,所述第二识别模块包括:
提取单元,用于从所述音频数据的至少一部分中提取所述音频数据的频谱特征;
识别单元,用于使用语音识别模型基于所述频谱特征识别所述音频数据的来源。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202110213134.1A 2021-02-25 2021-02-25 网络会议的控制方法、装置、电子设备和存储介质 Pending CN112885350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110213134.1A CN112885350A (zh) 2021-02-25 2021-02-25 网络会议的控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110213134.1A CN112885350A (zh) 2021-02-25 2021-02-25 网络会议的控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112885350A true CN112885350A (zh) 2021-06-01

Family

ID=76054505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110213134.1A Pending CN112885350A (zh) 2021-02-25 2021-02-25 网络会议的控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112885350A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824559A (zh) * 2012-11-19 2014-05-28 国际商业机器公司 ***用于电子会议的语音命令
CN106454539A (zh) * 2016-11-29 2017-02-22 武汉斗鱼网络科技有限公司 一种视频直播网站的弹幕封禁***及方法
CN108023805A (zh) * 2016-10-31 2018-05-11 阿里巴巴集团控股有限公司 交互权限的配置方法及装置
CN108111701A (zh) * 2016-11-24 2018-06-01 北京中创视讯科技有限公司 静音处理方法和装置
US20180358034A1 (en) * 2017-06-09 2018-12-13 International Business Machines Corporation Active speaker detection in electronic meetings
CN110139152A (zh) * 2019-05-20 2019-08-16 北京字节跳动网络技术有限公司 禁言方法、装置、电子设备及计算机可读存储介质
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN110380875A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 群组交互方法、装置、计算机设备和存储介质
CN111028852A (zh) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 一种基于cnn的智能呼叫***中的噪声去除方法
CN111343410A (zh) * 2020-02-14 2020-06-26 北京字节跳动网络技术有限公司 一种静音提示方法、装置、电子设备及存储介质
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN112040166A (zh) * 2019-06-04 2020-12-04 中兴通讯股份有限公司 会议控制的实现方法、装置和服务器
CN112153223A (zh) * 2020-10-23 2020-12-29 北京蓦然认知科技有限公司 一种语音助手识别并执行被叫用户指令的方法及语音助手
CN112397073A (zh) * 2020-11-04 2021-02-23 北京三快在线科技有限公司 一种音频数据处理方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824559A (zh) * 2012-11-19 2014-05-28 国际商业机器公司 ***用于电子会议的语音命令
CN108023805A (zh) * 2016-10-31 2018-05-11 阿里巴巴集团控股有限公司 交互权限的配置方法及装置
CN108111701A (zh) * 2016-11-24 2018-06-01 北京中创视讯科技有限公司 静音处理方法和装置
CN106454539A (zh) * 2016-11-29 2017-02-22 武汉斗鱼网络科技有限公司 一种视频直播网站的弹幕封禁***及方法
US20180358034A1 (en) * 2017-06-09 2018-12-13 International Business Machines Corporation Active speaker detection in electronic meetings
CN110139152A (zh) * 2019-05-20 2019-08-16 北京字节跳动网络技术有限公司 禁言方法、装置、电子设备及计算机可读存储介质
CN112040166A (zh) * 2019-06-04 2020-12-04 中兴通讯股份有限公司 会议控制的实现方法、装置和服务器
CN110380875A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 群组交互方法、装置、计算机设备和存储介质
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN111028852A (zh) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 一种基于cnn的智能呼叫***中的噪声去除方法
CN111343410A (zh) * 2020-02-14 2020-06-26 北京字节跳动网络技术有限公司 一种静音提示方法、装置、电子设备及存储介质
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN112153223A (zh) * 2020-10-23 2020-12-29 北京蓦然认知科技有限公司 一种语音助手识别并执行被叫用户指令的方法及语音助手
CN112397073A (zh) * 2020-11-04 2021-02-23 北京三快在线科技有限公司 一种音频数据处理方法及装置

Similar Documents

Publication Publication Date Title
US9621698B2 (en) Identifying a contact based on a voice communication session
JP6633153B2 (ja) 情報を抽出する方法及び装置
US11699360B2 (en) Automated real time interpreter service
US12033629B2 (en) Systems and methods for automating voice commands
US11935532B2 (en) Methods and apparatus for leveraging an application programming interface (“API”) request for storing a list of sentiment values in real time interactive response systems
US11909784B2 (en) Automated actions in a conferencing service
US20170286755A1 (en) Facebot
CN113678153A (zh) 上下文感知式实时会议音频转录
CN111681650A (zh) 一种智能会议控制方法和装置
CN116569197A (zh) 在协作会话中的用户提升
CN110120909A (zh) 消息的传输方法和装置、存储介质、电子装置
CN112969000A (zh) 网络会议的控制方法、装置、电子设备和存储介质
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
CN110740212B (zh) 基于智能语音技术的通话接听方法、装置及电子设备
US20230379273A1 (en) Integration of ai-powered conversational messaging with a live agent interaction
CN112885350A (zh) 网络会议的控制方法、装置、电子设备和存储介质
CN115623133A (zh) 线上会议方法、装置、电子设备及可读存储介质
CN109788128A (zh) 一种来电提示方法、来电提示装置及终端设备
CN111028837B (zh) 语音会话方法、语音识别***及计算机存储介质
CN116016764B (zh) 用户状态的推送方法、装置、电子设备和可读存储介质
WO2018017086A1 (en) Determining when participants on a conference call are speaking
KR102359228B1 (ko) 맞춤형 대화 연결 서비스 제공방법
US20240203442A1 (en) Communication support system, information processing device, communication support method, and recording medium
CN112235186B (zh) 一种基于ai的社交数据处理方法、后台服务器及***
US12052391B2 (en) Methods and systems for automatic queuing in conference calls

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210601

RJ01 Rejection of invention patent application after publication