CN110619870B - 一种人机对话方法、装置、家用电器和计算机存储介质 - Google Patents
一种人机对话方法、装置、家用电器和计算机存储介质 Download PDFInfo
- Publication number
- CN110619870B CN110619870B CN201810564769.4A CN201810564769A CN110619870B CN 110619870 B CN110619870 B CN 110619870B CN 201810564769 A CN201810564769 A CN 201810564769A CN 110619870 B CN110619870 B CN 110619870B
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- information
- current
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003993 interaction Effects 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000006855 networking Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 235000015278 beef Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种人机对话方法、装置、家用电器和计算机存储介质,该方法包括:接收当前语音信息;对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。如此,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。
Description
技术领域
本发明涉及语音交互领域,涉及一种人机对话方法、装置、家用电器和计算机存储介质。
背景技术
目前,随着语音识别、语义分析等技术的不断发展,人机语音交互已经被广泛地应用于各领域;然而,现有的语音交互技术存在以下缺陷:在一个时间段内,只能与一个用户进行语音会话,不能在多个用户与语音交互设备进行对话时,保持每个用户与语音交互设备的个性化对话。
发明内容
为解决上述技术问题,本发明实施例期望提供一种人机对话方法、装置、家用电器和计算机存储介质,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。
本发明实施例提供了一种人机对话方法,所述方法包括:
接收当前语音信息;
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
上述方案中,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
上述方案中,所述获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,包括:
确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;
将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
上述方案中,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
上述方案中,所述获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,包括:
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果;
根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
本发明实施例还提供了一种人机对话装置,所述装置包括传声器、处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述传声器用于接收当前语音信息;
所述处理器用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
上述方案中,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
上述方案中,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
上述方案中,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
上述方案中,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果。
本发明实施例还提供了一种家用电器,所述家用电器包括上述任意一种人机对话装置。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种人机对话方法的步骤。
本发明实施例中,首先,接收当前语音信息;然后,对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;最后,获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。如此,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。
附图说明
图1为本发明实施例的语音交互***的结构示意图;
图2为本发明实施例的人机对话方法的流程图一;
图3为本发明实施例的录入声纹特征的流程示意图;
图4为本发明实施例的人机对话方法的流程图二;
图5为本发明实施例的人机对话装置的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中,可以利用语音交互***实现多人的人机对话;图1为本发明实施例的语音交互***的结构示意图;如图1所示,语音交互***10可以包括语音交互设备101。
这里,语音交互设备101可以包括:收音模块1010和发音模块1011,其中,收音模块1010是用于接收的声音信号转换为电信号的能量转换器件,例如,收音模块1010可以是传声器(也称为麦克风)。
发音模块1011是用于将电信号转换为声音信号的换能器件,例如,发音模块1011可以是扬声器(也称为喇叭)。
在实际应用中,在收音模块将接收的外界语音信号转换为电信号后,语音交互设备可以根据收音模块转换得出的电信号进行相应处理,得到处理后的电信号;之后,可以利用发音模块将处理后的电信号转换为相应的声音信号。
可选的,语音交互***10还可以包括服务器102;服务器102可以与语音交互设备101连接,语音交互设备可以通过服务器接入至互联网,如此,可以为语音交互设备提高网络访问能力;示例性地,服务器可以提供以下至少一项功能:提供用户账号***、语音识别、语义识别、语音生成、数据存储、声纹识别;这里,用户账号***用于表示使用语音交互设备的各个用户的账号和密码等账号信息。
可选的,语音交互***10还可以包括客户端103;这里,客户端103也称为用户端,通常可以在手机等终端上提供程序如应用程序(APP),客户端与服务器相对应,可以为用户提供本地服务的程序。示例性地,客户端可以与语音交互设备进行数据交互,实现与语音交互设备的通讯与反馈等功能。
可选的,语音交互设备101还可以包括联网模块1012,这里,联网模块1012是用于直接或间接连接互联网或外部设备的模块,例如,联网模块可以连接客户端或服务器。在实际实施时,联网模块可以包括以下至少一项:蓝牙模块、Wi-Fi模块、2G模块、3G模块、基于蜂窝的窄带物联网(Narrow Band Internet of Things,NB-IoT)模块等。
可选的,语音交互设备101还可以包括语音处理模块1013,这里,语音处理模块1013可以提供以下至少一项功能:语音识别、语义识别、语音生成、本地数据存储、声纹识别;语音处理模块可协助远程服务器处理语音相关功能,在无网络状态下可代替服务器处理语音并反馈。
基于上述记载的语音交互***,提出以下各实施例。
实施例一
本发明实施例一提供了一种人机对话方法,图2为本发明实施例的人机对话方法的流程图一,如图2所示,该流程可以包括:
步骤201:接收当前语音信息。
这里,语音交互设备可以与多个用户进行人机对话,每个用户与语音交互设备的人机对话内容可以称为一个会话,即,一个会话表示语音交互设备与一个用户之间一定时间内的对话序列;例如,用户A在时刻1向语音交互设备发出的语音信息内容记为语音1,语音交互设备针对语音1的回复内容记为语音2;用户B在时刻2向语音交互设备发出语音信息内容记为语音3,语音交互设备针对语音3的回复内容记为语音4;用户A在时刻3向语音交互设备发出语音信息内容记为语音5,语音交互设备针对语音5的回复内容记为语音6;那么,用户A与语音交互设备的会话可以依次包括:语音1、语音2、语音5和语音6;用户B与语音交互设备的会话可以依次包括:语音3和语音4,其中,时刻1、时刻2和时刻3为按照先后顺序排列的时间点。
在实际实施时,在一个可选的的示例中,每个用户发出的语音信息,可以直接通过语音交互设备的收音模块转换为电信号;在另一个可选的示例中,每个用户发出的语音信息可以通过客户端转换为相应的电信号;之后,客户端通过与语音交互设备的联网模块交互,将转换得出的电信号发送至语音交互设备。
可以理解的是,在接收每个用户的当前语音信息之前,如果还接收到该用户的历史语音信息,则在接收当前语音信息后,需要根据同一个用户的当前语音信息和历史语音信息的内容,对当前语音信息进行回复或反馈。
步骤202:对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征。
在实际实施时,在一个可选的示例中,语音交互设备在接收到当前语音信息后,直接利用语音处理模块对当前语音信息进行声纹识别,得到当前语音信息的声纹特征;在另一个可选的示例中,语音交互设备在接收到当前语音信息后,将当前语音信息通过联网模块发送至服务器,由服务器对对当前语音信息进行声纹识别,得到当前语音信息的声纹特征。
为了实现对当前语音信息的声纹识别,在一个示例中,可以预先录入各个用户对应的声纹特征;下面通过图3对录入声纹特征的实现方式进行举例说明。
图3为本发明实施例的录入声纹特征的流程示意图,如图3所示,该流程可以包括:
步骤A1:用户登录个人账号。
这里,可以预先为各个用户设置个人账号,在实际实施时,用户可以使用客户端或语音交互设备登录个人账号。
步骤A2:录入用户的声纹特征。
示例性地,用户通过向客户端或语音交互设备发出语音信息,实现声纹特征的录入。
例如,用户可以重复说出指定对话内容,在对用户说出的内容进行录音后,针对录音内容采用预设的声纹算法确定出对应的声纹特征;这里,指定对话内容可以包括关键字、特定字、关键词组、特定词组、关键语句或特定语句,也可以包括:非关键字、非特定字、非关键词组、非特定词组、非关键语句或非特定语句;预设的声纹算法包括但不限于gmm-ubm,ivevtor-plda,deep feature等声纹算法。
步骤A3:进行账号声纹特征的绑定,之后,结束流程。
这里,通过个人账号与声纹特征的绑定,可以得出对应的绑定关系,该绑定关系可以保存于服务器,也可以将该绑定关系存储于语音交互设备,便于进行离线语音处理。
步骤203:获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息。
在实施时,可以首先判断是否存在具有所述声纹特征的历史语音信息,之后,根据判断结果得到所述声纹特征对应的会话信息;这里,具有所述声纹特征的历史语音信息是在接收当前语音信息之前接收到的语音信息。
例如,可以将当前语音信息的声纹特征记为特征1,如果除去当前语音信息外,不存在具有特征1的历史语音信息,则说明特征1对应的用户首次发出语音信息;如果除去当前语音信息外,还存在具有特征1的历史语音信息,则说明特征1对应的用户并非首次发出语音信息。
可选的,判断是否存在具有所述声纹特征的历史语音信息的一种实现方式中,可以判断截止到当前时刻的设定时长内,是否存在具有所述声纹特征的历史语音信息,如果是,则说明存在具有所述声纹特征的历史语音信息;如果否,则说明不存在具有所述声纹特征的历史语音信息。
这里,设定时长可以根据实际需要设置。
可以理解的是,在用户每次发出语音信息时,语音交互设备可以选择针对该语音回复信息发出语音回复信息,也可以选择针对该语音回复信息不发出语音回复信息;在实施时,语音回复信息可以通过语音交互设备的发音模块发出。
在得出判断结果后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息;可以理解的是,所建立的会话信息只包括当前语音信息。
在得出判断结果后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息;这里,所确定的会话信息可以包括:具有所述声纹特征的所有历史语音信息和当前语音信息,所确定的会话信息还可以包括:针对具有所述声纹特征的每个历史语音信息的语音回复信息。
例如,对于上述记载的语音1至语音6,如果当前语音信息内容为语音5,则所确定的会话信息可以包括:语音1、语音2和语音5;当针对语音5生成记为语音6的回复内容时,可以将语音6加入所确定的会话信息中。
步骤204:获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息,之后,可以结束流程。
对于获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果的实现方式,在一个可选的示例中,确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
也就是说,当不存在具有所述声纹特征的历史语音信息时,说明获取的会话信息只包括当前语音信息,此时,所述会话信息中具有所述声纹特征的所有语音信息为当前语音信息,因而,只需要对当前语音信息进行语音识别,便可以得出针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
例如,当前语音信息的声纹特征表示为特征2,如果不存在特征2对应的历史语音信息,则可以直接对当前语音信息进行语音识别,得出语音识别结果。
当存在具有所述声纹特征的历史语音信息时,说明获取的会话信息不仅包括当前语音信息,还包括具有所述声纹特征的至少一个历史语音信息;此时需要获取历史语音识别结果,并对当前语音信息进行语音识别,以得出针对具有所述声纹特征的所有历史语音信息的语音识别结果。
可选的,当存在具有所述声纹特征的历史语音信息时,所获取的会话信息还可以包括针对所述声纹特征的每个历史语音信息的语音回复信息。
例如,当前语音信息的声纹特征表示为特征3,如果特征3对应一个历史语音信息,将特征3对应的历史语音信息记为历史语音1,将针对历史语音1的语音回复信息记为历史回复1;那么所获取的会话信息可以包括:历史语音1、历史回复1和当前语音信息;可以看出,针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果可以包括:针对历史语音1的语音识别结果以及针对当前语音信息的语音识别结果。
这里,在获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果后,可以采用语义识别和语音生成技术,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
在实际实施时,在一个可选的示例中,可以利用语音交互设备的语音处理模块实现本步骤,之后,利用语音交互设备的发音模块发出语音回复信息;在另一个可选的示例中,可以利用服务器实现本步骤,之后,服务器可以将生成的语音回复发送至语音交互设备,利用语音交互设备的发音模块发出语音回复信息。
下面基于上述记载的语音1至语音5,举例说明本发明实施例一的实现方式。
语音1为:请将1kg牛肉加入到我的购物清单。语音2为:好的,牛肉已加入到购物清单。语音3为:请将2kg猪肉加入到我的购物清单。语音4为:好的,猪肉已加入到购物清单。语音5为:请问我的购物清单里有什么?
语音5为当前语音信息内容,由于语音1和语音5均为用户A发出的语音信息内容,那么根据本发明实施例一提供的人机对话方法,所获取的具有用户A的声纹特征对应的会话信息包括:语音1、语音2和语音5,此时根据针对语音1和语音5的语音识别结果,可以生成如下语音信息内容:你的购买清单有1kg牛肉。
可以看出,在应用本发明实施例提供的人机对话方法时,由于各个用户对应的声纹特征不同,那么通过本发明实施例获取的会话信息体现了同一个用户的会话,在此基础上,在多个用户分别与语音交互设备进行人机对话时,通过对本发明实施例获取的会话信息进行后续处理,可以针对各个用户保持各自的人机对话;也就是说,可以通过声纹特征使用声纹区分不同的用户对话,并保持各自的多轮对话。
实施例二
为了能够更加体现本发明的目的,在本发明实施例一的基础上,进行进一步的举例说明。
图4为本发明实施例的人机对话方法的流程图二,如图4所示,该流程可以包括:
步骤401:接收用户的当前语音信息。
步骤402:识别当前语音信息的声纹特征。
这里,可以通过声纹识别算法识别当前语音信息的声纹特征。
步骤403:判断是否存在所识别的声纹特征对应的账号,如果是,则执行步骤404,如果否,则执行步骤409。
步骤404:判断所识别的声纹特征对应的账号是否为当前会话账号,如果是,则执行步骤405,如果否,则执行步骤406。
这里,当前会话账号表示接收当前语音信息前,最近一次接收的语音信息对应的账号。
步骤405:根据所识别的声纹特征对应的会话信息,发出语音回复信息;之后,执行步骤410。
步骤406:判断是否存在所识别的声纹特征对应的历史会话信息,如果是,则执行步骤407,如果否,则执行步骤408。
这里,所识别的声纹特征对应的历史会话信息包括:具有所识别的声纹特征的各个历史语音信息、以及针对具有所识别的声纹特征的每个历史语音信息的语音回复信息。
步骤407:获取所识别的声纹特征对应的历史会话信息以及当前语音信息,之后,执行步骤405。
步骤408:建立所识别的声纹特征对应的会话信息,之后,执行步骤405。
步骤409:采用普通会话模式生成并发出语音回复信息,之后,执行步骤410。
这里,普通会话模式是指在用户无账号或使用默认账号时的一种人机对话模式,默认账号可以是自定义设置的,普通会话模式可以是预先设置的人机对话模式。
步骤410:判断是否结束所识别的声纹特征对应的会话信息,如果是,则结束流程,如果否,则返回至步骤401。
这里,可以根据预先设置的会话结束条件判断是否结束所识别的声纹特征对应的会话信息。
需要说明的是,步骤410为可选步骤,也就是说,每个用户的会话可以始终保持,也可以在适当条件下结束。
本发明实施例可以针对每个用户实现多轮对话,这里,多轮对话包括对用户的历史语音信息生成语音回复信息、以及对当前语音信息生成语音回复信息;多轮对话可以是由任务驱动的;在实际应用中,可以对多轮对话的内容进行分析并作出相应的反馈(即生成语音回复信息)。
实施例三
在前述实施例提出的人机对话方法的基础上,本发明实施例三提供了一种人机对话装置。
图5为本发明实施例的人机对话装置的组成结构示意图,如图5所示,该人机对话装置50包括传声器501、处理器502和用于存储能够在处理器上运行的计算机程序的存储器503;其中,
所述传声器501用于接收当前语音信息;
所述处理器502用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息
在实际应用中,上述存储器503可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatilememory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器502提供指令和数据。
上述处理器502可以为特定用途集成电路(ASIC,Application SpecificIntegrated Circuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑装置(PLD,ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、中央处理器(CPU,Central Processing Unit)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
示例性地,所述处理器502还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
示例性地,所述处理器502具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
示例性地,所述处理器502还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
示例性地,所述处理器502具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果。
实施例四
本发明实施例四提供了一种家用电器,该家用电器包括实施例三中的任意一种人机对话装置。
实施例五
基于与前述实施例相同的技术构思,本发明实施例五提供了一种计算机可读介质;前述实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种人机对话方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种人机对话方法对应的计算机程序指令被一电子设备读取或被执行时,导致所述至少一个处理器执行本发明前述实施例的任意一种人机对话方法所述的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (12)
1.一种人机对话方法,其特征在于,所述方法包括:
接收当前语音信息;
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
语音交互设备与多个用户进行人机对话,每个用户具有不同的声纹特征,获取每一个用户的声纹特征对应的会话信息,一个所述声纹特征对应的会话信息包括:具有所述声纹特征的历史语音信息和当前语音信息;
获取每一个所述声纹特征的语音信息的语音识别结果,并根据所述语音识别结果,生成对应所述声纹特征的所述当前语音信息的语音回复信息。
2.根据权利要求1所述的方法,其特征在于,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
3.根据权利要求1或2所述的方法,其特征在于,所述获取每一个所述声纹特征的语音信息的语音识别结果,包括:
确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;
将所述当前语音识别结果确定为:每一个所述声纹特征的语音信息的语音识别结果。
4.根据权利要求1所述的方法,其特征在于,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
5.根据权利要求1或4所述的方法,其特征在于,所述获取每一个所述声纹特征的语音信息的语音识别结果,包括:
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:每一个所述声纹特征的所有历史语音信息的语音识别结果;
根据所述历史语音识别结果和所述当前语音识别结果,得到每一个所述声纹特征的语音信息的语音识别结果。
6.一种人机对话装置,其特征在于,所述装置包括传声器、处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述传声器用于接收当前语音信息;
所述处理器用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
语音交互设备与多个用户进行人机对话,每个用户具有不同的声纹特征,获取每一个用户的声纹特征对应的会话信息,一个所述声纹特征对应的会话信息包括:具有所述声纹特征的历史语音信息和当前语音信息;
获取每一个所述声纹特征的语音信息的语音识别结果,并根据所述语音识别结果,生成对应所述声纹特征的所述当前语音信息的语音回复信息。
7.根据权利要求6所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
8.根据权利要求6或7所述的装置,其特征在于,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:每一个所述声纹特征的语音信息的语音识别结果。
9.根据权利要求6所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
10.根据权利要求6或9所述的装置,其特征在于,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到每一个所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:每一个所述声纹特征的所有历史语音信息的语音识别结果。
11.一种家用电器,其特征在于,所述家用电器包括权利要求6至10任一项所述的装置。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564769.4A CN110619870B (zh) | 2018-06-04 | 2018-06-04 | 一种人机对话方法、装置、家用电器和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564769.4A CN110619870B (zh) | 2018-06-04 | 2018-06-04 | 一种人机对话方法、装置、家用电器和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619870A CN110619870A (zh) | 2019-12-27 |
CN110619870B true CN110619870B (zh) | 2022-05-06 |
Family
ID=68919826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810564769.4A Active CN110619870B (zh) | 2018-06-04 | 2018-06-04 | 一种人机对话方法、装置、家用电器和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619870B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105304082A (zh) * | 2015-09-08 | 2016-02-03 | 北京云知声信息技术有限公司 | 一种语音输出方法及装置 |
WO2016042820A1 (en) * | 2014-09-17 | 2016-03-24 | Kabushiki Kaisha Toshiba | Dialogue support apparatus and method |
CN105704013A (zh) * | 2016-03-18 | 2016-06-22 | 北京光年无限科技有限公司 | 基于上下文的话题更新数据处理方法及装置 |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话*** |
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
CN107169034A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 一种多轮人机交互的方法及*** |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US9690776B2 (en) * | 2014-12-01 | 2017-06-27 | Microsoft Technology Licensing, Llc | Contextual language understanding for multi-turn language tasks |
CN104464729A (zh) * | 2014-12-16 | 2015-03-25 | 佛山市顺德区美的电热电器制造有限公司 | 语音控制电器及其语音控制方法 |
CN107831903B (zh) * | 2017-11-24 | 2021-02-02 | 科大讯飞股份有限公司 | 多人参与的人机交互方法及装置 |
-
2018
- 2018-06-04 CN CN201810564769.4A patent/CN110619870B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016042820A1 (en) * | 2014-09-17 | 2016-03-24 | Kabushiki Kaisha Toshiba | Dialogue support apparatus and method |
CN105304082A (zh) * | 2015-09-08 | 2016-02-03 | 北京云知声信息技术有限公司 | 一种语音输出方法及装置 |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
CN105704013A (zh) * | 2016-03-18 | 2016-06-22 | 北京光年无限科技有限公司 | 基于上下文的话题更新数据处理方法及装置 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话*** |
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
CN107169034A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 一种多轮人机交互的方法及*** |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110619870A (zh) | 2019-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107623614B (zh) | 用于推送信息的方法和装置 | |
CN110049270B (zh) | 多人会议语音转写方法、装置、***、设备及存储介质 | |
US9601114B2 (en) | Method for embedding voice mail in a spoken utterance using a natural language processing computer system | |
JP6538846B2 (ja) | 音声情報を処理するための方法及び装置 | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
US11948582B2 (en) | Systems and methods for speaker verification | |
US20160293157A1 (en) | Contextual Voice Action History | |
KR102097710B1 (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
CN113260974B (zh) | 通信数据处理方法和*** | |
US11640832B2 (en) | Emotion-based voice interaction method, storage medium and terminal device using pitch, fluctuation and tone | |
TW201106341A (en) | System and method for speech processing and speech to text | |
CN110349581B (zh) | 语音和文字转换传输方法、***、计算机设备和存储介质 | |
WO2020192890A1 (en) | Systems and methods for speaker verification | |
KR20230098266A (ko) | 통화들 및 오디오 메시지들로부터 다른 화자들의 음성 필터링 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN111739506A (zh) | 一种应答方法、终端及存储介质 | |
US20240135932A1 (en) | Contact list reconciliation and permissioning | |
JP6559417B2 (ja) | 情報処理装置、情報処理方法、対話システム、および制御プログラム | |
CN110619870B (zh) | 一种人机对话方法、装置、家用电器和计算机存储介质 | |
EP3059731A1 (en) | Method and apparatus for automatically sending multimedia file, mobile terminal, and storage medium | |
US11699438B2 (en) | Open smart speaker | |
US20090326940A1 (en) | Automated voice-operated user support | |
CN110798566A (zh) | 通话信息记录方法、装置以及相关设备 | |
CN108630201B (zh) | 一种用于建立设备关联的方法和装置 | |
CN111710338B (zh) | 一种话术播放方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |