CN111028837B - 语音会话方法、语音识别***及计算机存储介质 - Google Patents
语音会话方法、语音识别***及计算机存储介质 Download PDFInfo
- Publication number
- CN111028837B CN111028837B CN201911294819.2A CN201911294819A CN111028837B CN 111028837 B CN111028837 B CN 111028837B CN 201911294819 A CN201911294819 A CN 201911294819A CN 111028837 B CN111028837 B CN 111028837B
- Authority
- CN
- China
- Prior art keywords
- session
- voice
- receiver
- conversation
- initiator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000003999 initiator Substances 0.000 claims abstract description 98
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种语音会话方法、语音识别***及计算机存储介质,用于建立“一对多”的语音会话场景。本申请实施例方法包括:语音识别***接收会话发起方发出的语音数据,语音数据中的词槽信息包括语音会话的会话接收方的身份信息,语音识别***识别语音数据以确定会话接收方的身份信息,并在注册信息库中查找身份信息对应的目标注册信息,进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中,会话发起方可以发起与多个会话接收方的语音会话,也就是“一对多”的语音会话场景,满足企业的多方会议的要求。
Description
技术领域
本申请实施例涉及语音交互技术领域,具体涉及一种语音会话方法、语音识别***及计算机存储介质。
背景技术
随着语音识别技术的快速发展,各种支持语音识别功能的智能设备已经逐渐深入到用户工作生活的各个角落,例如智能车载设备、智能音箱等等,智能音箱通过语音识别功能可以为用户提供音乐播放、问题解答、天气或航班信息查询和外拨电话等智能服务。智能音箱可以使用自身的麦克风阵列来采集环境中的人的语音数据。
语音识别***是一种可以对智能音箱采集到的语音数据进行识别的语音信息处理***。智能音箱可以接入无线网络,并与语音识别***建立连接,将采集到的会话发起方的语音数据发送至语音识别***。语音识别***识别语音数据,并在识别出会话发起方所要进行语音会话的会话接收方后,创建双方的语音会话。
但是,语音识别***只能允许一个会话发起方通过智能音箱与一个会话接收方进行语音会话,也就是“一对一”的语音会话场景。当语音会话需要多个会话接收方参与时,例如企业的会议需要多个会话接收方参与,此时,语音识别***显然无法满足需求。
发明内容
本申请实施例提供了一种语音会话方法、语音识别***及计算机存储介质,用于建立“一对多”的语音会话场景。
本申请实施例第一方面提供了一种语音会话方法,包括:
接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别所述语音数据,以确定所述会话接收方的身份信息;
在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方;
创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
优选的,所述接收会话发起方发出的语音数据,包括:
接收智能设备发送的语音数据,所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。
优选的,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话,包括:
创建所述会话发起方与所述会话接收方的语音会话的信道;
获取所述语音会话的信道的标识信息;
向所述智能设备以及所述会话接收方的终端发送所述标识信息,以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。
优选的,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后,所述方法还包括:
生成提示语音,所述提示语音用于向所述会话发起方提示语音会话成功创建;
向所述智能设备发送所述提示语音,以使所述智能设备播放所述提示语音。
优选的,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后,所述方法还包括:
接收所述会话发起方或者所述会话接收方发送的音频数据;
向所述会话接收方或者所述会话发起方转发所述音频数据。
本申请实施例第二方面提供了一种语音识别***,包括:
设备交互单元,用于接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别单元,用于识别所述语音数据,以确定所述会话接收方的身份信息;
人员管理单元,用于在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方;
创建单元,用于创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
优选的,所述设备交互单元具体用于接收智能设备发送的语音数据,所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。
优选的,所述创建单元具体用于创建所述会话发起方与所述会话接收方的语音会话的信道,获取所述语音会话的信道的标识信息,向所述智能设备以及所述会话接收方的终端发送所述标识信息,以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。
优选的,所述语音识别***还包括:
生成单元,用于生成提示语音,所述提示语音用于向所述会话发起方提示语音会话成功创建;
发送单元,用于向所述智能设备发送所述提示语音,以使所述智能设备播放所述提示语音。
优选的,所述设备交互单元还用于接收所述会话发起方或者所述会话接收方发送的音频数据;
所述语音识别***还包括:
转发单元,用于向所述会话接收方或者所述会话发起方转发所述音频数据。
本申请实施例第三方面提供了一种语音识别***,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备;
所述输入输出设备用于接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
所述处理器用于识别所述语音数据,以确定所述会话接收方的身份信息,在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方,创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
语音识别***接收会话发起方发出的语音数据,语音数据中的词槽信息包括语音会话的会话接收方的身份信息,语音识别***识别语音数据以确定会话接收方的身份信息,并在注册信息库中查找身份信息对应的目标注册信息,进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中,会话发起方可以发起与多个会话接收方的语音会话,也就是“一对多”的语音会话场景,满足企业的多方会议的要求。
附图说明
图1为本申请实施例中网络架构示意图;
图2为本申请实施例中语音会话方法一个流程示意图;
图3为本申请实施例中语音会话方法另一流程示意图;
图4为本申请实施例中语音识别***一个结构示意图;
图5为本申请实施例中语音识别***另一结构示意图;
图6为本申请实施例中语音识别***另一结构示意图。
具体实施方式
本申请实施例提供了一种语音会话方法、语音识别***及计算机存储介质,用于建立“一对多”的语音会话场景。
请参阅图1,本申请实施例中网络架构包括:
语音采集智能终端101,语音识别***102,终端103,网络104。
本申请实施例可应用于如图1所示的网络架构,该网络架构中,语音采集智能终端101具备无线连接模块、麦克风阵列、扬声器,其中,无线连接模块包括但不限于蓝牙模块、WiFi模块,无线连接模块可用于连接语音识别***102以实现数据的传输。麦克风阵列用于时刻监听周围环境并采集环境中人的语音数据。
本申请实施例的网络架构中,语音采集智能终端101通过无线连接模块与语音识别***102建立连接,在语音会话的过程中,语音采集智能终端101可以使用加密的超文本传输协议2.0(HTTP2.0)与语音识别***102进行音频数据或者指令等数据的传输。语音采集智能终端101与语音识别***102之间的语音交互可以基于亚马逊公司的Alexa语音服务(Alexavoiceservice),具体的语音交互程序不作限定,例如还可以是百度公司的对话式人工智能***DuerOS或者是苹果公司的语音识别接口Siri等。
语音采集智能终端101还可以包括噪音消除(NS,noisesuppression)模块,由于音箱的麦克风阵列一直处于监听状态,因此麦克风阵列采集到的语音数据难免会掺杂有周围环境的噪声,噪音消除模块能有效消除采样后音频流里的环境噪音,提升后续关键字识别和语音识别的精确度。
此外,语音采集智能终端101还可以包括关键词识别(KW,keywordspotting)模块,关键词识别模块用于唤醒并激活音箱,使其从普通音频监听状态进入语音指令识别状态。在本申请实施例中,可以采用离线的关键词识别,并可以采用中文文本对语音采集智能终端101进行训练,从而可以中文关键词唤醒语音采集智能终端101,例如可以采用关键词“你好小云”来唤醒语音采集智能终端101。
语音采集智能终端101还可用于采集用户进行语音会话时发出的语音数据,因此,语音采集智能终端101还可以包括静音检测器(VAD,voiceactivitydetector),可用于检测语音会话是否结束。当语音会话结束之后,VAD检测到静音,此时VAD可以终止向语音识别***102上传语音会话的音频数据。
本申请实施例中,用户可以基于上述的网络架构发起语音会话,发起语音会话的用户可以被称为会话发起方,响应语音会话发起的用户可以被称为会话接收方。本申请实施例的网络架构中,语音采集智能终端101和终端103可以采集语音会话双方的会话语音数据,语音识别***102可以通过网络104向语音会话双方转发会话语音数据。
其中,网络104一般为无线网络,也可以是有线网络,如果是无线网络,其类型可以为蜂窝状无线网络,或者是WiFi网络,或者是其他类型的无线网络。如果是有线网络,一般的网络形式为光纤网络。终端103具体可以是计算机、个人数字助理(personaldigitalassitant,PDA)、平板电脑、智能手机等。
本申请实施例中,只要是具有可以采集语音数据的麦克风阵列、无线连接模块以及扬声器的智能终端即可作为本申请实施例的网络架构的语音采集智能终端101,语音采集智能终端101的具体形式不作限定,例如可以是智能音箱。当语音采集智能终端101是智能音箱时,智能音箱上的蓝牙模块可用于绑定用户的终端以实现用户对智能音箱的控制。
需要说明的是,语音采集智能终端101在图示中以智能音箱的图案指代,但是语音采集智能终端101并不仅仅可以是智能音箱,还可以是智能手机,由于智能手机集成了智能音箱的功能和人机交互功能,因此,智能手机也可以用于本申请实施例的语音会话发起以及会话语音的交互,同时,用户也可以直接通过智能手机进行语音会话,而不需要智能音箱的参与,省去了用户终端绑定智能音箱的操作。
下面结合图1的网络架构,对本申请实施例中的语音会话方法进行描述:
请参阅图2,本申请实施例中语音会话方法一个实施例包括:
201、接收会话发起方发出的语音数据;
会话发起方需要与一个或多个会话接收方进行语音会话时,会话发起方向语音采集智能终端发出语音指令,语音指令中包含语音数据,该语音数据的意图是进行语音会话。语音采集智能终端可以采集该语音数据,并向语音识别***发送该语音数据。语音识别***接收该语音数据。
其中,语音数据包括词槽信息,词槽信息包括会话接收方的身份信息。例如,会话发起方向语音采集智能终端发出“邀请一个或多个会话接收方参与会话”的指令,此时,会话发起方发出的语音数据中的词槽信息即为会话发起方所要进行语音会话的所有对象的信息,词槽信息可以包括会话接收方的身份信息。其中,身份信息可以是会话接收方的真实姓名、昵称或者企业工号,只要是能够识别会话接收方身份的信息即可,具体此处不做限定。
本实施例中,语音采集智能终端可以是智能设备,具体的智能设备可以是智能音箱或者智能手机,只要是具有可以采集语音数据的麦克风阵列、无线连接模块以及扬声器的智能设备即可,具体此处不作限定。
202、识别语音数据,以确定会话接收方的身份信息;
语音识别***接收到语音数据之后,对语音数据进行识别以确定会话接收方的身份信息。本实施例中,语音识别***基于自然语言处理(naturallanguageprocessing,NLP)等人工智能技术来识别以及理解会话发起方发出的语音数据,例如可以通过深度学习算法如BP神经网络算法、深度卷积神经网络算法对语音识别***训练多个中文文本数据,从而使语音识别***可以识别会话发起方发出的中文语音数据。
203、在注册信息库中查找身份信息对应的目标注册信息;
本实施例中,用户可以在语音识别***上注册成为***用户,语音识别***形成用户的注册信息,多个用户的注册信息形成注册信息库。其中注册信息为用户在***上的识别信息,例如可以是注册账号、注册账号所绑定的邮箱或个人社交网络账号、注册账号的网络昵称等识别信息。
此外,语音识别***可以将用户的注册信息与用户的身份信息建立关联关系。例如,语音识别***可以将用户的注册账号与用户的真实姓名关联起来,或者将用户的注册账号的网络昵称与用户在现实生活中的昵称关联起来。这样一来,语音识别***便可以根据接收到的语音数据中包括的身份信息来获取与身份信息对应的注册信息。
语音识别***在确定会话接收方的身份信息之后,可以在注册信息库中的大量注册信息中查找与会话接收方的身份信息对应的目标注册信息,如果获取到目标注册信息,说明会话接收方已注册成为***用户,因此可以创建会话接收方与会话发起方的语音会话。
204、创建与目标注册信息对应的会话接收方和会话发起方的语音会话;
在确定了目标注册信息对应的会话接收方之后,语音识别***创建会话接收方与会话发起方的语音会话。
本实施例中,语音识别***接收会话发起方发出的语音数据,语音数据中的词槽信息包括语音会话的会话接收方的身份信息,语音识别***识别语音数据以确定会话接收方的身份信息,并在注册信息库中查找身份信息对应的目标注册信息,进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中,会话发起方可以发起与多个会话接收方的语音会话,也就是“一对多”的语音会话场景,满足企业的多方会议的要求。
语音识别***在创建了语音会话之后,语音会话双方即可进行语音会话。在创建了语音会话之后,语音识别***还将执行一系列操作。接下来将对语音识别***创建语音会话之后所执行的操作进行详细地描述。具体请参阅图3,本申请实施例中语音会话方法另一实施例包括:
301、接收会话发起方发出的语音数据;
302、识别语音数据,以确定会话接收方的身份信息;
303、在注册信息库中查找身份信息对应的目标注册信息;
步骤301至303所执行的操作与前述图2所示实施例中的步骤201至203所执行的操作类似,此处不再赘述。
304、创建与目标注册信息对应的会话接收方和会话发起方的语音会话;
在确定了目标注册信息对应的会话接收方之后,语音识别***创建会话发起方与会话接收方的语音会话的信道,并获取语音会话的信道的标识信息。语音识别***向会话发起方的智能设备发送加入语音会话的信道的指令,指令中携带有信道的标识信息,智能设备响应该指令并连接语音会话的信道。
此外,语音识别***还可以向会话接收方的终端发送加入语音会话的提示,提示中携带了信道的标识信息,会话接收方可以通过终端确认是否加入语音会话。例如,会话接收方已在***上注册并成为***用户,当会话接收方在智能手机上登陆注册账号时,语音识别***可以向会话接收方的智能手机发送加入语音会话的信道的提示,提示中携带了信道的标识信息,则会话接收方可以通过智能手机确认是否加入语音会话,并在加入语音会话之后使用智能手机进行语音交流。
305、生成提示语音;
在会话发起方的智能设备连接到语音会话的信道以及会话接收方确认加入语音会话之后,语音识别***生成提示文字语句,提示文字语句的内容可以表示为语音会话已成功创建。语音识别***将该提示文字语句合成为提示语音,则提示语音可以用于提示语音会话已成功创建。
306、向智能设备发送提示语音;
在合成提示语音之后,语音识别***向会话发起方的智能设备发送该提示语音。会话发起方的智能设备接收到提示语音之后,播放提示语音,提示会话发起方语音会话已成功创建,会话发起方可以和会话接收方进行语音会话。
307、接收会话发起方或者会话接收方发送的音频数据;
在语音识别***创建语音会话之后,会话发起方和会话接收方即可以进行语音会话。在语音会话过程中,会话双方发出的语音分别被各自的终端采集并生成音频数据。本实施例中,会话发起方的智能设备采集会话发起方发出的语音并生成音频数据,会话接收方的终端采集会话接收方的语音并生成音频数据,会话发起方的智能设备和会话接收方的终端将各自生成的音频数据发送至语音识别***,语音识别***分别接收会话发起方或者会话接收方发送的音频数据。
308、向会话接收方或者会话发起方转发音频数据;
语音识别***接收到会话发起方发送的音频数据之后,若会话接收方有多个,则语音识别***将音频数据进行复制并将每一份音频数据的拷贝转发至每一个会话接收方的终端上,会话接收方的终端对音频数据进行解析后播放语音。同理,语音识别***在接收到会话接收方发送的音频数据之后,将音频数据进行复制并将音频数据的拷贝转发至其他会话接收方的终端以及会话发起方的智能设备上,音频数据进行解析之后播放音频数据中的语音。
本实施例中,语音识别***在成功创建语音会话之后,向会话发起方发送成功创建语音会话的提示语音,便于会话发起方获知语音会话的创建进度。
上面对本申请实施例中的语音会话方法进行了描述,下面对本申请实施例中的语音识别***进行描述,请参阅图4,本申请实施例中语音识别***一个实施例包括:
设备交互单元401,用于接收会话发起方发出的语音数据,语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别单元402,用于识别语音数据,以确定会话接收方的身份信息;
人员管理单元403,用于在注册信息库中查找身份信息对应的目标注册信息,则目标注册信息对应会话接收方;
创建单元404,用于创建与目标注册信息对应的会话接收方和会话发起方的语音会话。
本实施例中,语音识别***中各单元所执行的操作与前述图2所示实施例中描述的类似,此处不再赘述。
本实施例中,设备交互单元401接收会话发起方发出的语音数据,语音数据中的词槽信息包括语音会话的会话接收方的身份信息,识别单元402识别语音数据以确定会话接收方的身份信息,人员管理单元403在注册信息库中查找身份信息对应的目标注册信息,创建单元404进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中,会话发起方可以发起与多个会话接收方的语音会话,也就是“一对多”的语音会话场景,满足企业的多方会议的要求。。
请参阅图5,本申请实施例中语音识别***一个实施例包括:
设备交互单元501,用于接收会话发起方发出的语音数据,语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别单元502,用于识别语音数据,以确定会话接收方的身份信息;
人员管理单元503,用于在注册信息库中查找身份信息对应的目标注册信息,则目标注册信息对应会话接收方;
创建单元504,用于创建与目标注册信息对应的会话接收方和会话发起方的语音会话。
本实施例中,设备交互单元501具体用于接收智能设备发送的语音数据,语音数据为会话发起方发出的并由智能设备采集的语音数据。
创建单元504具体用于创建会话发起方与会话接收方的语音会话的信道,获取语音会话的信道的标识信息,向智能设备以及会话接收方的终端发送标识信息,以使智能设备以及会话接收方的终端根据标识信息连接语音会话的信道。
本实施例中,语音识别***还包括:
生成单元505,用于生成提示语音,提示语音用于向会话发起方提示语音会话成功创建;
发送单元506,用于向智能设备发送提示语音,以使智能设备播放提示语音。
本实施例中,设备交互单元501还用于接收会话发起方或者会话接收方发送的音频数据;
语音识别***还包括:
转发单元507,用于向会话接收方或者会话发起方转发音频数据。
本实施例中,创建单元504在创建了语音会话之后,语音会话双方即可进行语音会话。在创建了语音会话之后,语音识别***中各单元还将执行一系列操作。创建单元504创建语音会话之后各单元所执行的操作与前述图3所示实施例中描述的类似,此处不再赘述。
下面对本申请实施例中的语音识别***进行描述,请参阅图6,本申请实施例中语音识别***一个实施例包括:
该语音识别***600可以包括一个或一个以***处理器(centralprocessingunits,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对语音识别***中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在语音识别***600上执行存储器605中的一系列指令操作。
语音识别***600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作***,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图2至图3所示实施例中语音识别***所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图2至图3所示实施例中语音识别***所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (12)
1.一种语音会话方法,其特征在于,所述方法应用于会话发起方与多个会话接收方的语音会话场景,所述方法包括:
接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别所述语音数据,以确定所述会话接收方的身份信息;
在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方;
创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
2.根据权利要求1所述的语音会话方法,其特征在于,所述接收会话发起方发出的语音数据,包括:
接收智能设备发送的语音数据,所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。
3.根据权利要求2所述的语音会话方法,其特征在于,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话,包括:
创建所述会话发起方与所述会话接收方的语音会话的信道;
获取所述语音会话的信道的标识信息;
向所述智能设备以及所述会话接收方的终端发送所述标识信息,以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。
4.根据权利要求3所述的语音会话方法,其特征在于,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后,所述方法还包括:
生成提示语音,所述提示语音用于向所述会话发起方提示语音会话成功创建;
向所述智能设备发送所述提示语音,以使所述智能设备播放所述提示语音。
5.根据权利要求1所述的语音会话方法,其特征在于,所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后,所述方法还包括:
接收所述会话发起方或者所述会话接收方发送的音频数据;
向所述会话接收方或者所述会话发起方转发所述音频数据。
6.一种语音识别***,其特征在于,所述语音识别***应用于会话发起方与多个会话接收方的语音会话场景,所述语音识别***包括:
设备交互单元,用于接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
识别单元,用于识别所述语音数据,以确定所述会话接收方的身份信息;
人员管理单元,用于在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方;
创建单元,用于创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
7.根据权利要求6所述的语音识别***,其特征在于,所述设备交互单元具体用于接收智能设备发送的语音数据,所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。
8.根据权利要求7所述的语音识别***,其特征在于,所述创建单元具体用于创建所述会话发起方与所述会话接收方的语音会话的信道,获取所述语音会话的信道的标识信息,向所述智能设备以及所述会话接收方的终端发送所述标识信息,以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。
9.根据权利要求8所述的语音识别***,其特征在于,所述语音识别***还包括:
生成单元,用于生成提示语音,所述提示语音用于向所述会话发起方提示语音会话成功创建;
发送单元,用于向所述智能设备发送所述提示语音,以使所述智能设备播放所述提示语音。
10.根据权利要求6所述的语音识别***,其特征在于,所述设备交互单元还用于接收所述会话发起方或者所述会话接收方发送的音频数据;
所述语音识别***还包括:
转发单元,用于向所述会话接收方或者所述会话发起方转发所述音频数据。
11.一种语音识别***,其特征在于,所述语音识别***应用于会话发起方与多个会话接收方的语音会话场景,所述语音识别***包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备;
所述输入输出设备用于接收会话发起方发出的语音数据,所述语音数据的词槽信息包括语音会话的会话接收方的身份信息;
所述处理器用于识别所述语音数据,以确定所述会话接收方的身份信息,在注册信息库中查找所述身份信息对应的目标注册信息,则所述目标注册信息对应所述会话接收方,创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。
12.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911294819.2A CN111028837B (zh) | 2019-12-16 | 2019-12-16 | 语音会话方法、语音识别***及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911294819.2A CN111028837B (zh) | 2019-12-16 | 2019-12-16 | 语音会话方法、语音识别***及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028837A CN111028837A (zh) | 2020-04-17 |
CN111028837B true CN111028837B (zh) | 2022-10-04 |
Family
ID=70209530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911294819.2A Active CN111028837B (zh) | 2019-12-16 | 2019-12-16 | 语音会话方法、语音识别***及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028837B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11381681B2 (en) * | 2020-10-13 | 2022-07-05 | Echo Smartlab Gmbh | System and method for providing voice communication sessions between communication devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299785A (zh) * | 2007-04-30 | 2008-11-05 | 华为技术有限公司 | 一种会话处理的方法、***以及业务服务器 |
CN104517609A (zh) * | 2013-09-27 | 2015-04-15 | 华为技术有限公司 | 一种语音识别方法及装置 |
WO2018061774A1 (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及び記憶媒体 |
CN110503959A (zh) * | 2019-09-03 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 语音识别数据分发方法、装置、计算机设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101505226B (zh) * | 2009-02-25 | 2011-07-27 | 中国联合网络通信集团有限公司 | 多媒体通信交互***和方法 |
NO341316B1 (no) * | 2013-05-31 | 2017-10-09 | Pexip AS | Fremgangsmåte og system for å assosiere en ekstern enhet til en videokonferansesesjon. |
CN106385512B (zh) * | 2016-10-28 | 2019-08-23 | 努比亚技术有限公司 | 一种语音信息接收装置和方法 |
US10916243B2 (en) * | 2016-12-27 | 2021-02-09 | Amazon Technologies, Inc. | Messaging from a shared device |
CN108933868B (zh) * | 2017-05-26 | 2021-11-30 | 阿里巴巴集团控股有限公司 | 通话提示方法及装置、*** |
JP6318292B1 (ja) * | 2017-06-16 | 2018-04-25 | 株式会社シアンス・アール | 信号処理装置、通信システム、信号処理装置で実施される方法、信号処理装置で実行されるプログラム、通信端末で実施される方法、及び通信端末で実行されるプログラム |
CN110265022A (zh) * | 2018-03-12 | 2019-09-20 | 郑州工业应用技术学院 | 一种传送语音的方法及智能设备 |
CN109688363A (zh) * | 2018-12-31 | 2019-04-26 | 深圳爱为移动科技有限公司 | 多终端多语言实时视频群内私聊的方法及*** |
CN109639738B (zh) * | 2019-01-30 | 2021-06-04 | 维沃移动通信有限公司 | 语音数据传输的方法及终端设备 |
CN109949818A (zh) * | 2019-02-15 | 2019-06-28 | 平安科技(深圳)有限公司 | 一种基于声纹识别的会议管理方法及相关设备 |
CN110473555B (zh) * | 2019-09-10 | 2020-09-08 | 上海朗绿建筑科技股份有限公司 | 一种基于分布式语音设备的交互方法及装置 |
-
2019
- 2019-12-16 CN CN201911294819.2A patent/CN111028837B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299785A (zh) * | 2007-04-30 | 2008-11-05 | 华为技术有限公司 | 一种会话处理的方法、***以及业务服务器 |
CN104517609A (zh) * | 2013-09-27 | 2015-04-15 | 华为技术有限公司 | 一种语音识别方法及装置 |
WO2018061774A1 (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及び記憶媒体 |
CN110503959A (zh) * | 2019-09-03 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 语音识别数据分发方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111028837A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111630876B (zh) | 音频设备和音频处理方法 | |
WO2019205271A1 (zh) | 会议发言管理方法以及装置 | |
US9300801B1 (en) | Personality analysis of mono-recording system and methods | |
EP3050051B1 (en) | In-call virtual assistants | |
US8204759B2 (en) | Social analysis in multi-participant meetings | |
US12033629B2 (en) | Systems and methods for automating voice commands | |
CN113691685A (zh) | 错误的音频设置的自动校正 | |
CN104714981A (zh) | 语音消息搜索方法、装置及*** | |
US20120166188A1 (en) | Selective noise filtering on voice communications | |
US9774743B2 (en) | Silence signatures of audio signals | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
CN111883168A (zh) | 一种语音处理方法及装置 | |
US20160366528A1 (en) | Communication system, audio server, and method for operating a communication system | |
CN110232553A (zh) | 会议支援***以及计算机可读取的记录介质 | |
WO2017172655A1 (en) | Analysis of a facial image to extract physical and emotional characteristics of a user | |
CN112822161A (zh) | 一种实现会议消息同步的方法与设备 | |
CN111554280A (zh) | 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务*** | |
CN111028837B (zh) | 语音会话方法、语音识别***及计算机存储介质 | |
EP2913822B1 (en) | Speaker recognition | |
CN114244793A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN104469254A (zh) | 会议点名处理方法、装置和会议*** | |
CN105376143B (zh) | 一种识别发送者身份的方法及装置 | |
US20200184973A1 (en) | Transcription of communications | |
JP2019074865A (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
CN112969000A (zh) | 网络会议的控制方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |