CN110619870B - 一种人机对话方法、装置、家用电器和计算机存储介质 - Google Patents

一种人机对话方法、装置、家用电器和计算机存储介质 Download PDF

Info

Publication number
CN110619870B
CN110619870B CN201810564769.4A CN201810564769A CN110619870B CN 110619870 B CN110619870 B CN 110619870B CN 201810564769 A CN201810564769 A CN 201810564769A CN 110619870 B CN110619870 B CN 110619870B
Authority
CN
China
Prior art keywords
voice
voiceprint
information
current
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810564769.4A
Other languages
English (en)
Other versions
CN110619870A (zh
Inventor
曾成鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Original Assignee
Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd filed Critical Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority to CN201810564769.4A priority Critical patent/CN110619870B/zh
Publication of CN110619870A publication Critical patent/CN110619870A/zh
Application granted granted Critical
Publication of CN110619870B publication Critical patent/CN110619870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种人机对话方法、装置、家用电器和计算机存储介质,该方法包括:接收当前语音信息;对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。如此,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。

Description

一种人机对话方法、装置、家用电器和计算机存储介质
技术领域
本发明涉及语音交互领域,涉及一种人机对话方法、装置、家用电器和计算机存储介质。
背景技术
目前,随着语音识别、语义分析等技术的不断发展,人机语音交互已经被广泛地应用于各领域;然而,现有的语音交互技术存在以下缺陷:在一个时间段内,只能与一个用户进行语音会话,不能在多个用户与语音交互设备进行对话时,保持每个用户与语音交互设备的个性化对话。
发明内容
为解决上述技术问题,本发明实施例期望提供一种人机对话方法、装置、家用电器和计算机存储介质,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。
本发明实施例提供了一种人机对话方法,所述方法包括:
接收当前语音信息;
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
上述方案中,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
上述方案中,所述获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,包括:
确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;
将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
上述方案中,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
上述方案中,所述获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,包括:
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果;
根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
本发明实施例还提供了一种人机对话装置,所述装置包括传声器、处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述传声器用于接收当前语音信息;
所述处理器用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
上述方案中,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
上述方案中,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
上述方案中,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
上述方案中,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果。
本发明实施例还提供了一种家用电器,所述家用电器包括上述任意一种人机对话装置。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种人机对话方法的步骤。
本发明实施例中,首先,接收当前语音信息;然后,对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;最后,获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。如此,能够根据每个用户的声纹特征,获取对应的会话信息,从而能够针对各个用户实现各自的人机对话。
附图说明
图1为本发明实施例的语音交互***的结构示意图;
图2为本发明实施例的人机对话方法的流程图一;
图3为本发明实施例的录入声纹特征的流程示意图;
图4为本发明实施例的人机对话方法的流程图二;
图5为本发明实施例的人机对话装置的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中,可以利用语音交互***实现多人的人机对话;图1为本发明实施例的语音交互***的结构示意图;如图1所示,语音交互***10可以包括语音交互设备101。
这里,语音交互设备101可以包括:收音模块1010和发音模块1011,其中,收音模块1010是用于接收的声音信号转换为电信号的能量转换器件,例如,收音模块1010可以是传声器(也称为麦克风)。
发音模块1011是用于将电信号转换为声音信号的换能器件,例如,发音模块1011可以是扬声器(也称为喇叭)。
在实际应用中,在收音模块将接收的外界语音信号转换为电信号后,语音交互设备可以根据收音模块转换得出的电信号进行相应处理,得到处理后的电信号;之后,可以利用发音模块将处理后的电信号转换为相应的声音信号。
可选的,语音交互***10还可以包括服务器102;服务器102可以与语音交互设备101连接,语音交互设备可以通过服务器接入至互联网,如此,可以为语音交互设备提高网络访问能力;示例性地,服务器可以提供以下至少一项功能:提供用户账号***、语音识别、语义识别、语音生成、数据存储、声纹识别;这里,用户账号***用于表示使用语音交互设备的各个用户的账号和密码等账号信息。
可选的,语音交互***10还可以包括客户端103;这里,客户端103也称为用户端,通常可以在手机等终端上提供程序如应用程序(APP),客户端与服务器相对应,可以为用户提供本地服务的程序。示例性地,客户端可以与语音交互设备进行数据交互,实现与语音交互设备的通讯与反馈等功能。
可选的,语音交互设备101还可以包括联网模块1012,这里,联网模块1012是用于直接或间接连接互联网或外部设备的模块,例如,联网模块可以连接客户端或服务器。在实际实施时,联网模块可以包括以下至少一项:蓝牙模块、Wi-Fi模块、2G模块、3G模块、基于蜂窝的窄带物联网(Narrow Band Internet of Things,NB-IoT)模块等。
可选的,语音交互设备101还可以包括语音处理模块1013,这里,语音处理模块1013可以提供以下至少一项功能:语音识别、语义识别、语音生成、本地数据存储、声纹识别;语音处理模块可协助远程服务器处理语音相关功能,在无网络状态下可代替服务器处理语音并反馈。
基于上述记载的语音交互***,提出以下各实施例。
实施例一
本发明实施例一提供了一种人机对话方法,图2为本发明实施例的人机对话方法的流程图一,如图2所示,该流程可以包括:
步骤201:接收当前语音信息。
这里,语音交互设备可以与多个用户进行人机对话,每个用户与语音交互设备的人机对话内容可以称为一个会话,即,一个会话表示语音交互设备与一个用户之间一定时间内的对话序列;例如,用户A在时刻1向语音交互设备发出的语音信息内容记为语音1,语音交互设备针对语音1的回复内容记为语音2;用户B在时刻2向语音交互设备发出语音信息内容记为语音3,语音交互设备针对语音3的回复内容记为语音4;用户A在时刻3向语音交互设备发出语音信息内容记为语音5,语音交互设备针对语音5的回复内容记为语音6;那么,用户A与语音交互设备的会话可以依次包括:语音1、语音2、语音5和语音6;用户B与语音交互设备的会话可以依次包括:语音3和语音4,其中,时刻1、时刻2和时刻3为按照先后顺序排列的时间点。
在实际实施时,在一个可选的的示例中,每个用户发出的语音信息,可以直接通过语音交互设备的收音模块转换为电信号;在另一个可选的示例中,每个用户发出的语音信息可以通过客户端转换为相应的电信号;之后,客户端通过与语音交互设备的联网模块交互,将转换得出的电信号发送至语音交互设备。
可以理解的是,在接收每个用户的当前语音信息之前,如果还接收到该用户的历史语音信息,则在接收当前语音信息后,需要根据同一个用户的当前语音信息和历史语音信息的内容,对当前语音信息进行回复或反馈。
步骤202:对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征。
在实际实施时,在一个可选的示例中,语音交互设备在接收到当前语音信息后,直接利用语音处理模块对当前语音信息进行声纹识别,得到当前语音信息的声纹特征;在另一个可选的示例中,语音交互设备在接收到当前语音信息后,将当前语音信息通过联网模块发送至服务器,由服务器对对当前语音信息进行声纹识别,得到当前语音信息的声纹特征。
为了实现对当前语音信息的声纹识别,在一个示例中,可以预先录入各个用户对应的声纹特征;下面通过图3对录入声纹特征的实现方式进行举例说明。
图3为本发明实施例的录入声纹特征的流程示意图,如图3所示,该流程可以包括:
步骤A1:用户登录个人账号。
这里,可以预先为各个用户设置个人账号,在实际实施时,用户可以使用客户端或语音交互设备登录个人账号。
步骤A2:录入用户的声纹特征。
示例性地,用户通过向客户端或语音交互设备发出语音信息,实现声纹特征的录入。
例如,用户可以重复说出指定对话内容,在对用户说出的内容进行录音后,针对录音内容采用预设的声纹算法确定出对应的声纹特征;这里,指定对话内容可以包括关键字、特定字、关键词组、特定词组、关键语句或特定语句,也可以包括:非关键字、非特定字、非关键词组、非特定词组、非关键语句或非特定语句;预设的声纹算法包括但不限于gmm-ubm,ivevtor-plda,deep feature等声纹算法。
步骤A3:进行账号声纹特征的绑定,之后,结束流程。
这里,通过个人账号与声纹特征的绑定,可以得出对应的绑定关系,该绑定关系可以保存于服务器,也可以将该绑定关系存储于语音交互设备,便于进行离线语音处理。
步骤203:获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息。
在实施时,可以首先判断是否存在具有所述声纹特征的历史语音信息,之后,根据判断结果得到所述声纹特征对应的会话信息;这里,具有所述声纹特征的历史语音信息是在接收当前语音信息之前接收到的语音信息。
例如,可以将当前语音信息的声纹特征记为特征1,如果除去当前语音信息外,不存在具有特征1的历史语音信息,则说明特征1对应的用户首次发出语音信息;如果除去当前语音信息外,还存在具有特征1的历史语音信息,则说明特征1对应的用户并非首次发出语音信息。
可选的,判断是否存在具有所述声纹特征的历史语音信息的一种实现方式中,可以判断截止到当前时刻的设定时长内,是否存在具有所述声纹特征的历史语音信息,如果是,则说明存在具有所述声纹特征的历史语音信息;如果否,则说明不存在具有所述声纹特征的历史语音信息。
这里,设定时长可以根据实际需要设置。
可以理解的是,在用户每次发出语音信息时,语音交互设备可以选择针对该语音回复信息发出语音回复信息,也可以选择针对该语音回复信息不发出语音回复信息;在实施时,语音回复信息可以通过语音交互设备的发音模块发出。
在得出判断结果后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息;可以理解的是,所建立的会话信息只包括当前语音信息。
在得出判断结果后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息;这里,所确定的会话信息可以包括:具有所述声纹特征的所有历史语音信息和当前语音信息,所确定的会话信息还可以包括:针对具有所述声纹特征的每个历史语音信息的语音回复信息。
例如,对于上述记载的语音1至语音6,如果当前语音信息内容为语音5,则所确定的会话信息可以包括:语音1、语音2和语音5;当针对语音5生成记为语音6的回复内容时,可以将语音6加入所确定的会话信息中。
步骤204:获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息,之后,可以结束流程。
对于获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果的实现方式,在一个可选的示例中,确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
也就是说,当不存在具有所述声纹特征的历史语音信息时,说明获取的会话信息只包括当前语音信息,此时,所述会话信息中具有所述声纹特征的所有语音信息为当前语音信息,因而,只需要对当前语音信息进行语音识别,便可以得出针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
例如,当前语音信息的声纹特征表示为特征2,如果不存在特征2对应的历史语音信息,则可以直接对当前语音信息进行语音识别,得出语音识别结果。
当存在具有所述声纹特征的历史语音信息时,说明获取的会话信息不仅包括当前语音信息,还包括具有所述声纹特征的至少一个历史语音信息;此时需要获取历史语音识别结果,并对当前语音信息进行语音识别,以得出针对具有所述声纹特征的所有历史语音信息的语音识别结果。
可选的,当存在具有所述声纹特征的历史语音信息时,所获取的会话信息还可以包括针对所述声纹特征的每个历史语音信息的语音回复信息。
例如,当前语音信息的声纹特征表示为特征3,如果特征3对应一个历史语音信息,将特征3对应的历史语音信息记为历史语音1,将针对历史语音1的语音回复信息记为历史回复1;那么所获取的会话信息可以包括:历史语音1、历史回复1和当前语音信息;可以看出,针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果可以包括:针对历史语音1的语音识别结果以及针对当前语音信息的语音识别结果。
这里,在获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果后,可以采用语义识别和语音生成技术,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息。
在实际实施时,在一个可选的示例中,可以利用语音交互设备的语音处理模块实现本步骤,之后,利用语音交互设备的发音模块发出语音回复信息;在另一个可选的示例中,可以利用服务器实现本步骤,之后,服务器可以将生成的语音回复发送至语音交互设备,利用语音交互设备的发音模块发出语音回复信息。
下面基于上述记载的语音1至语音5,举例说明本发明实施例一的实现方式。
语音1为:请将1kg牛肉加入到我的购物清单。语音2为:好的,牛肉已加入到购物清单。语音3为:请将2kg猪肉加入到我的购物清单。语音4为:好的,猪肉已加入到购物清单。语音5为:请问我的购物清单里有什么?
语音5为当前语音信息内容,由于语音1和语音5均为用户A发出的语音信息内容,那么根据本发明实施例一提供的人机对话方法,所获取的具有用户A的声纹特征对应的会话信息包括:语音1、语音2和语音5,此时根据针对语音1和语音5的语音识别结果,可以生成如下语音信息内容:你的购买清单有1kg牛肉。
可以看出,在应用本发明实施例提供的人机对话方法时,由于各个用户对应的声纹特征不同,那么通过本发明实施例获取的会话信息体现了同一个用户的会话,在此基础上,在多个用户分别与语音交互设备进行人机对话时,通过对本发明实施例获取的会话信息进行后续处理,可以针对各个用户保持各自的人机对话;也就是说,可以通过声纹特征使用声纹区分不同的用户对话,并保持各自的多轮对话。
实施例二
为了能够更加体现本发明的目的,在本发明实施例一的基础上,进行进一步的举例说明。
图4为本发明实施例的人机对话方法的流程图二,如图4所示,该流程可以包括:
步骤401:接收用户的当前语音信息。
步骤402:识别当前语音信息的声纹特征。
这里,可以通过声纹识别算法识别当前语音信息的声纹特征。
步骤403:判断是否存在所识别的声纹特征对应的账号,如果是,则执行步骤404,如果否,则执行步骤409。
步骤404:判断所识别的声纹特征对应的账号是否为当前会话账号,如果是,则执行步骤405,如果否,则执行步骤406。
这里,当前会话账号表示接收当前语音信息前,最近一次接收的语音信息对应的账号。
步骤405:根据所识别的声纹特征对应的会话信息,发出语音回复信息;之后,执行步骤410。
步骤406:判断是否存在所识别的声纹特征对应的历史会话信息,如果是,则执行步骤407,如果否,则执行步骤408。
这里,所识别的声纹特征对应的历史会话信息包括:具有所识别的声纹特征的各个历史语音信息、以及针对具有所识别的声纹特征的每个历史语音信息的语音回复信息。
步骤407:获取所识别的声纹特征对应的历史会话信息以及当前语音信息,之后,执行步骤405。
步骤408:建立所识别的声纹特征对应的会话信息,之后,执行步骤405。
步骤409:采用普通会话模式生成并发出语音回复信息,之后,执行步骤410。
这里,普通会话模式是指在用户无账号或使用默认账号时的一种人机对话模式,默认账号可以是自定义设置的,普通会话模式可以是预先设置的人机对话模式。
步骤410:判断是否结束所识别的声纹特征对应的会话信息,如果是,则结束流程,如果否,则返回至步骤401。
这里,可以根据预先设置的会话结束条件判断是否结束所识别的声纹特征对应的会话信息。
需要说明的是,步骤410为可选步骤,也就是说,每个用户的会话可以始终保持,也可以在适当条件下结束。
本发明实施例可以针对每个用户实现多轮对话,这里,多轮对话包括对用户的历史语音信息生成语音回复信息、以及对当前语音信息生成语音回复信息;多轮对话可以是由任务驱动的;在实际应用中,可以对多轮对话的内容进行分析并作出相应的反馈(即生成语音回复信息)。
实施例三
在前述实施例提出的人机对话方法的基础上,本发明实施例三提供了一种人机对话装置。
图5为本发明实施例的人机对话装置的组成结构示意图,如图5所示,该人机对话装置50包括传声器501、处理器502和用于存储能够在处理器上运行的计算机程序的存储器503;其中,
所述传声器501用于接收当前语音信息;
所述处理器502用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
获取所述声纹特征对应的会话信息,所述声纹特征对应的会话信息包括具有所述声纹特征的所有语音信息;
获取针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果,并根据所述语音识别结果,生成针对所述当前语音信息的语音回复信息
在实际应用中,上述存储器503可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatilememory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器502提供指令和数据。
上述处理器502可以为特定用途集成电路(ASIC,Application SpecificIntegrated Circuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑装置(PLD,ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、中央处理器(CPU,Central Processing Unit)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
示例性地,所述处理器502还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
示例性地,所述处理器502具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果。
示例性地,所述处理器502还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
示例性地,所述处理器502具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到针对所述会话信息中具有所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:针对具有所述声纹特征的所有历史语音信息的语音识别结果。
实施例四
本发明实施例四提供了一种家用电器,该家用电器包括实施例三中的任意一种人机对话装置。
实施例五
基于与前述实施例相同的技术构思,本发明实施例五提供了一种计算机可读介质;前述实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种人机对话方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种人机对话方法对应的计算机程序指令被一电子设备读取或被执行时,导致所述至少一个处理器执行本发明前述实施例的任意一种人机对话方法所述的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (12)

1.一种人机对话方法,其特征在于,所述方法包括:
接收当前语音信息;
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
语音交互设备与多个用户进行人机对话,每个用户具有不同的声纹特征,获取每一个用户的声纹特征对应的会话信息,一个所述声纹特征对应的会话信息包括:具有所述声纹特征的历史语音信息和当前语音信息;
获取每一个所述声纹特征的语音信息的语音识别结果,并根据所述语音识别结果,生成对应所述声纹特征的所述当前语音信息的语音回复信息。
2.根据权利要求1所述的方法,其特征在于,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
3.根据权利要求1或2所述的方法,其特征在于,所述获取每一个所述声纹特征的语音信息的语音识别结果,包括:
确定不存在具有所述声纹特征的历史语音信息时,对当前语音信息进行语音识别,得到当前语音识别结果;
将所述当前语音识别结果确定为:每一个所述声纹特征的语音信息的语音识别结果。
4.根据权利要求1所述的方法,其特征在于,在得到所述当前语音信息对应的声纹特征后,所述方法还包括:
确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
5.根据权利要求1或4所述的方法,其特征在于,所述获取每一个所述声纹特征的语音信息的语音识别结果,包括:
确定存在具有所述声纹特征的历史语音信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;其中,所述历史语音识别结果用于表示:每一个所述声纹特征的所有历史语音信息的语音识别结果;
根据所述历史语音识别结果和所述当前语音识别结果,得到每一个所述声纹特征的语音信息的语音识别结果。
6.一种人机对话装置,其特征在于,所述装置包括传声器、处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述传声器用于接收当前语音信息;
所述处理器用于运行所述计算机程序时,执行以下步骤:
对所述当前语音信息进行声纹识别,得到所述当前语音信息的声纹特征;
语音交互设备与多个用户进行人机对话,每个用户具有不同的声纹特征,获取每一个用户的声纹特征对应的会话信息,一个所述声纹特征对应的会话信息包括:具有所述声纹特征的历史语音信息和当前语音信息;
获取每一个所述声纹特征的语音信息的语音识别结果,并根据所述语音识别结果,生成对应所述声纹特征的所述当前语音信息的语音回复信息。
7.根据权利要求6所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定不存在具有所述声纹特征的历史语音信息时,建立所述声纹特征对应的会话信息。
8.根据权利要求6或7所述的装置,其特征在于,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定不存在所述声纹特征对应的历史会话信息时,对当前语音信息进行语音识别,得到当前语音识别结果;将所述当前语音识别结果确定为:每一个所述声纹特征的语音信息的语音识别结果。
9.根据权利要求6所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行以下步骤:
在得到所述当前语音信息对应的声纹特征后,确定存在具有所述声纹特征的历史语音信息时,确定所述声纹特征对应的会话信息。
10.根据权利要求6或9所述的装置,其特征在于,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
确定存在所述声纹特征对应的历史会话信息时,获取历史语音识别结果,并对当前语音信息进行语音识别,得到当前语音识别结果;根据所述历史语音识别结果和所述当前语音识别结果,得到每一个所述声纹特征的所有语音信息的语音识别结果;其中,所述历史语音识别结果用于表示:每一个所述声纹特征的所有历史语音信息的语音识别结果。
11.一种家用电器,其特征在于,所述家用电器包括权利要求6至10任一项所述的装置。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201810564769.4A 2018-06-04 2018-06-04 一种人机对话方法、装置、家用电器和计算机存储介质 Active CN110619870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564769.4A CN110619870B (zh) 2018-06-04 2018-06-04 一种人机对话方法、装置、家用电器和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564769.4A CN110619870B (zh) 2018-06-04 2018-06-04 一种人机对话方法、装置、家用电器和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110619870A CN110619870A (zh) 2019-12-27
CN110619870B true CN110619870B (zh) 2022-05-06

Family

ID=68919826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564769.4A Active CN110619870B (zh) 2018-06-04 2018-06-04 一种人机对话方法、装置、家用电器和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110619870B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105304082A (zh) * 2015-09-08 2016-02-03 北京云知声信息技术有限公司 一种语音输出方法及装置
WO2016042820A1 (en) * 2014-09-17 2016-03-24 Kabushiki Kaisha Toshiba Dialogue support apparatus and method
CN105704013A (zh) * 2016-03-18 2016-06-22 北京光年无限科技有限公司 基于上下文的话题更新数据处理方法及装置
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话***
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
CN107169034A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 一种多轮人机交互的方法及***
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9690776B2 (en) * 2014-12-01 2017-06-27 Microsoft Technology Licensing, Llc Contextual language understanding for multi-turn language tasks
CN104464729A (zh) * 2014-12-16 2015-03-25 佛山市顺德区美的电热电器制造有限公司 语音控制电器及其语音控制方法
CN107831903B (zh) * 2017-11-24 2021-02-02 科大讯飞股份有限公司 多人参与的人机交互方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042820A1 (en) * 2014-09-17 2016-03-24 Kabushiki Kaisha Toshiba Dialogue support apparatus and method
CN105304082A (zh) * 2015-09-08 2016-02-03 北京云知声信息技术有限公司 一种语音输出方法及装置
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
CN105704013A (zh) * 2016-03-18 2016-06-22 北京光年无限科技有限公司 基于上下文的话题更新数据处理方法及装置
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话***
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
CN107169034A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 一种多轮人机交互的方法及***
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置

Also Published As

Publication number Publication date
CN110619870A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN107623614B (zh) 用于推送信息的方法和装置
CN110049270B (zh) 多人会议语音转写方法、装置、***、设备及存储介质
US9601114B2 (en) Method for embedding voice mail in a spoken utterance using a natural language processing computer system
JP6538846B2 (ja) 音声情報を処理するための方法及び装置
CN107995360B (zh) 通话处理方法及相关产品
US11948582B2 (en) Systems and methods for speaker verification
US20160293157A1 (en) Contextual Voice Action History
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
CN113260974B (zh) 通信数据处理方法和***
US11640832B2 (en) Emotion-based voice interaction method, storage medium and terminal device using pitch, fluctuation and tone
TW201106341A (en) System and method for speech processing and speech to text
CN110349581B (zh) 语音和文字转换传输方法、***、计算机设备和存储介质
WO2020192890A1 (en) Systems and methods for speaker verification
KR20230098266A (ko) 통화들 및 오디오 메시지들로부터 다른 화자들의 음성 필터링
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN111739506A (zh) 一种应答方法、终端及存储介质
US20240135932A1 (en) Contact list reconciliation and permissioning
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
CN110619870B (zh) 一种人机对话方法、装置、家用电器和计算机存储介质
EP3059731A1 (en) Method and apparatus for automatically sending multimedia file, mobile terminal, and storage medium
US11699438B2 (en) Open smart speaker
US20090326940A1 (en) Automated voice-operated user support
CN110798566A (zh) 通话信息记录方法、装置以及相关设备
CN108630201B (zh) 一种用于建立设备关联的方法和装置
CN111710338B (zh) 一种话术播放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant