CN110136701B - 语音交互服务处理方法、装置和设备 - Google Patents

语音交互服务处理方法、装置和设备 Download PDF

Info

Publication number
CN110136701B
CN110136701B CN201810134247.0A CN201810134247A CN110136701B CN 110136701 B CN110136701 B CN 110136701B CN 201810134247 A CN201810134247 A CN 201810134247A CN 110136701 B CN110136701 B CN 110136701B
Authority
CN
China
Prior art keywords
service
service subsystem
user
subsystems
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810134247.0A
Other languages
English (en)
Other versions
CN110136701A (zh
Inventor
黄光远
牛也
徐巍越
丁盘苹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810134247.0A priority Critical patent/CN110136701B/zh
Publication of CN110136701A publication Critical patent/CN110136701A/zh
Application granted granted Critical
Publication of CN110136701B publication Critical patent/CN110136701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种语音交互服务处理方法、装置和设备,该方法包括:响应于用户触发的交互语音,根据交互语音分别与多个服务子***间的匹配度,从多个服务子***中确定与交互语音对应的候选服务子***集;根据用户的用户特征信息,对候选服务子***集进行修正处理;若修正后的候选服务子***集中只包含一个服务子***,则以该一个服务子***响应交互语音。通过根据用户特征信息对服务子***集进行修正处理,能够获得对用户来说更加具有针对性、合理性的候选服务子***来为用户提供更佳的语音交互服务。

Description

语音交互服务处理方法、装置和设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种语音交互服务处理方法、装置和设备。
背景技术
随着互联网技术、人工智能技术的不断发展,智能语音交互***已经被配置于各种智能电子设备中,以为用户提供各种语音交互服务。
比如用户购物时,可以语音输入自身的身高、体重、所需商品类型等信息,以便购物平台能够为用户推荐符合用户需求的商品列表。再比如,在智能车载平台中,用户也可以通过语音输入的方式进行天气查询、歌曲搜索等。
当某个***或平台支持多领域的语音交互服务即提供多种语音交互服务子***时,比如上述所说的车载平台可以提供天气查询、歌曲搜索等服务子***时,针对用户当前的语音输入,如何匹配出合理的服务子***来响应该用户的语音输入,是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种语音交互服务处理方法、装置和设备,以更合理、更具针对性的服务子***为用户提供语音交互服务。
第一方面,本发明实施例提供一种语音交互服务处理方法,包括:
响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集;
根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理;
若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音。
第二方面,本发明实施例提供一种语音交互服务处理装置,包括:
确定模块,用于响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集;
修正模块,用于根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理;
响应处理模块,用于若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音。
第三方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中语音交互服务处理方法。该电子设备还可以包括通信接口,用于与其他设备或通信网络通信。
本发明实施例提供了一种计算机存储介质,用于储存存储计算机程序,所述计算机程序使计算机执行时实现上述第一方面中语音交互服务处理方法。
本发明实施例提供的语音交互服务处理方法、装置和设备,支持多个服务子***的语音交互服务***在接收到用户触发的交互语音后,可以首先根据该交互语音分别与多个服务子***间的匹配度,从多个服务子***中确定出候选服务子***集。进而,结合用户的用户特征信息对候选服务子***集进行修正处理,以使得候选服务子***集中的服务子***能够更加符合用户的使用偏好。最后,如果修正后的候选服务子***集中只包含一个服务子***,则直接以该服务子***响应用户的交互语音。通过对服务子***集进行修正处理,能够获得对用户来说更加具有针对性、合理性的候选服务子***来为用户提供更佳的语音交互服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音交互服务处理方法实施例一的流程图;
图2为图1所示实施例执行时的一种执行情景的示意图;
图3为图1所示实施例执行时的另一种执行情景的示意图;
图4为图1所示实施例执行时的又一种执行情景的示意图;
图5为本发明实施例提供的语音交互服务处理方法实施例二的流程图;
图6为本发明实施例提供的语音交互服务处理装置的结构示意图;
图7为与图6所示实施例提供的语音交互服务处理装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图1为本发明实施例提供的语音交互服务处理方法实施例一的流程图,本实施例提供的该语音交互服务处理方法可以由一语音交互服务处理装置来执行,该语音交互服务处理装置可以实现为软件,或者实现为软件和硬件的组合。该语音交互服务处理装置可以集成设置在支持语音交互***的用户终端设备或者服务器中。如图1所示,该方法包括如下步骤:
101、响应于用户触发的交互语音,根据交互语音分别与多个服务子***间的匹配度,从多个服务子***中确定与交互语音对应的候选服务子***集。
在某些场合,比如当用户的双手不便进行人机交互操作时,语音交互方式为用户提供了较大的便利,因此,越来越多的支持语音交互服务的产品不断呈现。
本发明实施例中,假设提供语音交互服务的某应用***或某电子设备可以为用户提供多领域的语音交互服务,即支持多个服务子***,其中,可以理解为每个服务子***对应于一种服务领域,每个服务子***完成某项具体的语音交互服务。比如,天气服务子***负责回答用户关于天气情况的询问;音乐服务子***可以为用户提供播放歌曲、查询歌手信息等服务;外卖服务子***可以供用户进行语音订餐;肯德基服务子***可以供用户进行肯德基宅急送订餐;周边服务子***可以供用户进行周边信息的查询,等等。
实际应用中,对于某用户的模糊语音输入,可能有不止一个服务子***可以满足用户的需求。比如,用户表达“我想喝可乐”的意愿,那么他可能是想查询下周边是否有便利店以便他可以买可乐,还有可能是想订一份外卖把可乐送上门来,此时,以上述举例的几种服务子***来说,可以满足用户需求的服务子***可以包括:外卖服务子***、肯德基服务子***、周边服务子***。
因此,面对用户当前触发的交互语音,首先需要从多个服务子***中筛选出可以用于响应该交互语音的候选服务子***集,比如包括上述外卖服务子***、肯德基服务子***、周边服务子***的候选服务子***集;进而,通过一定的处理过程从中选出最终用于响应该交互语音的一个服务子***。
具体地,当接收到用户触发的交互语音后,可以根据该交互语音分别与多个服务子***间的匹配度,从多个服务子***中确定与交互语音对应的候选服务子***集。
候选服务子***集是由与交互语音间的匹配度满足一定要求的服务子***构成的集合,一般地,其中包含的服务子***都应该是满足用户需求即与用户的意图相匹配的服务子***,因此,上述候选服务子***的获取过程也可以理解为是用户意图识别的过程。意图识别,即理解用户的意图,用户想做什么,比如用户说“今天天气怎么样”的意图是查询天气,则候选服务子***集中应该包括天气服务子***;用户说“我要听歌”的意图是音乐播放,则候选服务子***集中应该包括音乐服务子***。
用户的意图识别或者说上述候选服务子***集的获取,可选地,可以通过如下过程实现:
将交互语音输入预设服务子***分类模型以获得交互语音分别与多个服务子***间的相似度得分,从而确定由相似度得分大于预设分值的服务子***构成候选服务子***集。
可选地,在获得上述相似度得分前,可以先通过语音识别技术将该交互语音转换为文字,进而将该文字输入到上述分类模型。
上述预设服务子***分类模型可以是预先通过大量训练样本对神经网络进行分类训练获得的,该神经网络比如是卷积神经网络、深度神经网络等。其中,训练样本可以通过收集或构建各服务子***对应的常用交互语句获得。
在一可选实施例中,将交互语音或者交互语音对应的文字输入到上述预设服务子***分类模型后,该分类模型的输出形式可以是:该交互语音以多大的概率属于某个服务子***,比如以80%的概率属于外卖服务子***,此时,该概率即为上述相似度得分。可以设置一定的预设分值,从而由相似度得分大于预设分值的服务子***构成候选服务子***集。
除了可以通过上述分类模型来获得与交互语音对应的候选服务子***集外,可选地,还可以通过如下过程实现候选服务子***集的获取:
计算交互语音与多个服务子***各自对应的语料样本之间的相似度得分,从而确定由相似度得分大于预设分值的服务子***构成候选服务子***集。
可以预先收集或构建任一服务子***对应的常用交互语句,对得到的常用交互语句进行去冗余处理,从而,可以简单地直接将得到的常用交互语句作为该任一服务子***的语料样本。一个服务子***对应的语料样本可能是一条,也可能是多条。从而,针对任一服务子***来说,交互语音与该任一服务子***对应的语料样本之间的相似度得分,可以是该交互语音与该任一服务子***对应的各条语料样本之间相似度得分中的最高值或平均值,该最高值或平均值用来评价该交互语音与该任一服务子***间的匹配度,从而,可以将对应的最高值或平均值大于预设分值的服务子***加入到候选服务子***集中。其中,可以采用计算两个语句之间的语义相似度的算法实现上述相似度的计算。
举例来说,假设语音交互***一共包含有天气、音乐、周边、淘宝、外卖、肯德基六个服务子***,假设用户输入的交互语音为如下表中的内容时,各服务子***与用户输入之间的相似度得分如下:
Figure BDA0001575792650000071
/>
此时,通过预设分值这一阈值来进行筛选可响应用户输入的服务子***,以构成对应的候选服务子***集。比如,预设分值定为0.90,则得分大于该预设分值的服务子***(表格中加粗斜体表示)即可加入到用户输入对应的候选服务子***集中。
可选地,上述候选服务子***集的获取还可以通过如下过程实现:
确定多个服务子***各自对应的描述规则模板中是否存在与交互语音对应的描述规则模板,若存在,则确定候选服务子***集由多个服务子***中存在与交互语音对应的描述规则模板的服务子***构成。
某服务子***对应的描述规则模板反映了该服务子***对应的常用交互语音的表达习惯,因此,也可以称为诸如表述形式模板等类似的称法。比如,外卖服务子***对应的某条描述规则模板为:我想吃***。从而,如果用户输入的交互语音符合我想吃***的表达形式,则认为该交互语音命中了外卖服务子***,将外卖服务子***加入到候选服务子***中。比如,如果用户的交互语音为今天我想吃川菜,我想吃包子,等,都认为命中了外卖服务子***。
值得说明的是,一个服务子***可以对应有多个不同的描述规则模板,同一描述规则模板也可能对应于不同服务子***。
102、根据用户的用户特征信息,对候选服务子***集进行修正处理。
本发明实施例中,在初始获得上述候选服务子***集之后,并非意味着用于响应用户的交互语音的服务子***一定来自于此时的候选服务子***集,因为,在一可能的情形中,即使当前候选服务子***集中包含的服务子***数量为多个,比如2个、3个,并且这些服务子***与交互语音的相似度得分高于一定预设分值,但是,这并不意味着这些服务子***都是合理的,即都是对该用户具有针对性的。因此,在初始获得上述候选服务子***集的基础上,为了保证能够获得更加合理的、用于响应交互语音的候选服务子***,还可以结合用户的用户特征信息,对初始获得的上述候选服务子***集进行修正处理。
对候选服务子***集进行修正处理的必要性,除了可以体现在上述初始获得的候选服务子***集中包含多个服务子***的情形中,还可以体现在初始获得的该候选服务子***集为空集,即没有获得与交互语音匹配的服务子***的情形中。因为当候选服务子***集为空集时,如果对用户无任何响应,将导致用户体验不佳,因此,此时可以为用户推荐某个服务子***作为兜底来响应用户的交互语音,将作为兜底方案的该服务子***加入到候选服务子***集中也是一种对候选服务子***集进行修正的方案。
为了区分方便,下面将通过步骤101获得的候选服务子***集称为初始候选服务子***集。本发明实施例中,对初始候选服务子***集进行修正处理,可以体现为两个层面:
其一,若初始候选服务子***集中包含的服务子***数量小于或等于预设数值,则根据用户的用户特征信息,对初始候选服务子***集进行扩展处理,如图2和图3所示。
其二,若初始候选服务子***集中包含的服务子***数量大于预设数值,则根据用户的用户特征信息,对初始候选服务子***集进行过滤处理,如图4所示。
上述两个层面的目的为:获得由更加合理的候选服务子***构成的候选服务子***集,以便从中获得最终响应用户的交互语音的服务子***,从而实现对用户的针对***互响应。
上述预设数值可以设置为合理的数值,不宜过大,比如设置为1,从而,当初始候选服务子***集为空集或者其中仅包含一个服务子***时,可以对该初始候选服务子***集进行扩展处理;而当其中包含的服务子***数量大于1,比如为2、3个时,可以对初始候选服务子***集进行过滤处理。
假设上述预设数值为1,下面分别介绍根据用户特征信息,对初始候选服务子***集进行扩展、过滤处理的可选实现方式:
可选地,若初始候选服务子***集中服务子***数量为0即为空集,则将用户预先设定的兜底服务子***或者用户使用频率最高的服务子***扩展到初始候选服务子***集中。其中,用户可以预先设置如果出现无法匹配到与其输入的交互语音对应的服务子***时,以哪个服务子***作为兜底方案来进行响应;或者,也可以根据用户在一段时间内对提供给用户使用的众多服务子***的使用频率来确定当前哪个服务子***应该用来响应用户的交互语音。比如,假设最近一周时间内,用户使用了A服务子***10次,使用了B服务子***7次,则选择A服务子***扩展到初始候选服务子***集,从而完成对初始候选服务子***集的修正,如图2所示。
可选地,若初始候选服务子***集中服务子***数量为1,则将与初始候选服务子***集中的服务子***属于同一分组内的服务子***扩展到初始候选服务子***集中,或者,将与初始候选服务子***集中的服务子***属于同一分组内并且满足使用频率要求的服务子***扩展到初始候选服务子***集中。可以结合如下实际中可能遇到的情形来理解该方式的扩展用意:以打车服务来说,假设目前提供的服务子***中有A服务子***、B服务子***和C服务子***都可以为用户提供打车服务,在初始配置语音交互服务时,可以将这三个提供打车服务的服务子***划分为一组。假设针对用户当前的交互语音,以前述介绍的某种方式获得的初始候选服务子***集中仅包含A服务子***,此时,为了给用户提供更多的可选空间,可以将与A服务子***属于同一分组内的B服务子***和C服务子***扩展到初始候选服务子***集中,如图3所示;或者,进一步考虑用户在一定时间段内对B服务子***和C服务子***的使用频率来确定是否需要将B服务子***和C服务子***扩展到初始服务子***集中。比如,假设最近一个月内,用户使用了B服务子***5次,使用了C服务子***1次,预先设定的使用次数阈值为2次,则基于此,将B服务子***扩展到初始服务子***集中,从而,修正后的服务子***集中包含A服务子***和B服务子***。
上述两种对初始候选服务子***集进行扩展的可选实现方式中,用户特征信息包括:用户预先设置的兜底服务子***,用户对众多服务子***的使用频率。
相对于初始候选服务子***集中服务子***的数量小于或等于预设数值时对初始候选服务子***集进行扩展修正处理,当初始候选服务子***集中服务子***的数量大于预设数值时,可以对初始候选服务子***集进行过滤修正处理,以滤除其中可能不太合理的服务子***。
可选地,若初始候选服务子***集中包含的服务子***数量大于1,则可以采用如下三种中任一种方式或多种方式的组合,对初始候选服务子***集进行过滤处理:
根据用户的位置滤除初始候选服务子***集中不支持用户位置的服务子***。比如,初始候选服务子***集中包含肯德基服务子***,但是当前用户位置附近没有肯德基店面,则此时应该从中滤除肯德基服务子***。
根据用户的服务子***订制信息滤除初始候选服务子***集中用户未订制的服务子***。比如,用户仅订制了语音交互服务***提供的A服务子***、B服务子***,如果初始候选服务子***集中包含C服务子***,则从中滤除C服务子***。
若存在与初始候选服务子***集对应的历史服务子***集,则根据用户历史上对历史服务子***集的选择操作,确定与初始候选服务子***集对应的用户偏好服务子***,滤除初始候选服务子***集中除用户偏好服务子***外的服务子***,其中,历史服务子***集是历史上出现过的与初始候选服务子***集相同的服务子***集。
比如,初始候选服务子***集由A服务子***和B服务子***构成,则对应的历史服务子***集也是由A服务子***和B服务子***构成的集合,该历史服务子***集在历史上可能出现过一次,也可能出现过多次,可以统计在每次出现时用户从中选择了哪个服务子***以获得比如被选择次数最高的服务子***为用户在出现该种选择情形时偏好选择的服务子***即用户偏好服务子***,假设A服务子***被选择的次数高于B服务子***被选择的次数,则A服务子***作为用户偏好服务子***,从而,可以滤除初始候选服务子***集中的B服务子***,如图4所示。
上述历史上可以是设定的一个历史时间段。上述仅以被选择次数最高作为用户偏好服务子***的评价指标,但是并不以此为限,比如可以设定一定阈值,被选择次数超过该阈值的都可以作为用户偏好服务子***。
在上述对初始候选服务子***进行过滤修正的处理过程中,用户特征信息包括:用户位置、用户对服务子***的订制情况、用户对服务子***的历史选择行为。
103、若修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应交互语音。
104、若修正后的候选服务子***集中包含至少两个服务子***,则向用户输出选择指示,以及响应于用户根据选择指示对修正后的候选服务子***集触发的选择操作,以选择出的服务子***响应交互语音。
在根据用户的用户特征信息对初始获得的候选服务子***集进行了扩展或过滤修正处理后,修正后的候选服务子***集中可能仅包含一个服务子***,也可能包含不止一个服务子***。当修正后的候选服务子***集中只包含一个服务子***时,直接以该服务子***来响应交互语音;当修正后的候选服务子***集中不止包含一个服务子***时,为避免多个服务子***重复来响应交互语音,可以向用户输出选择指示比如向用户输出询问语音,从而,根据用户对修正后的候选服务子***集触发的选择操作,以用户选择出的服务子***响应交互语音。比如,当修正后的候选服务子***集中包含A服务子***和B服务子***时,询问用户:请问您选择A服务子***还是B服务子***,如果用户回复的是选择A服务子***,则以A服务子***响应用户的交互语音。
上述选择提示可以是界面展示的形式输出,也可以是语音方式输出。
对交互语音的响应过程遵循服务子***本身的处理逻辑。比如,如果交互语音是询问今天天气如何,则响应该交互语音的天气服务子***可以回复用户今天的天气、温度、空气质量等相关信息。再比如,如果交互语音是我想打车,则响应该交互语音的打车服务子***可以回复用户“请问您现在在哪,需要去往哪里”的回复语音,如图3所示。
综上,在支持多个服务子***的语音交互服务***在接收到用户触发的交互语音后,可以首先根据该交互语音分别与多个服务子***间的匹配度,从多个服务子***中确定出候选服务子***集。进而,结合用户的用户特征信息对候选服务子***集进行修正处理,以使得候选服务子***集中的服务子***能够更加符合用户的使用偏好,即获得更佳的备选项,从而,对用户来说能够保证其获得更加具有针对性、合理性的服务子***来为其提供更佳的语音交互服务。
图5为本发明实施例提供的语音交互服务处理方法实施例二的流程图,如图5所示,可以包括如下步骤:
201、响应于用户触发的交互语音,确定多个服务子***各自对应的描述规则模板中是否存在与交互语音对应的描述规则模板,若存在,则执行步骤202,若不存在,则执行步骤203。
202、确定由多个服务子***中存在与交互语音对应的描述规则模板的服务子***构成候选服务子***集。
203、将交互语音输入预设服务子***分类模型以获得交互语音分别与多个服务子***间的相似度得分,或者,计算交互语音与多个服务子***各自对应的语料样本之间的相似度得分;确定由相似度得分大于预设分值的服务子***构成候选服务子***集。
本实施例中,对图1所示实施例中介绍的三种获得初始的候选服务子***集的方式提供了一种组合的使用方案,即首先根据描述规则模板进行候选服务子***集的获取,如果此时没有获得包含至少一个服务子***的候选服务子***集,即多个服务子***各自对应的描述规则模板中不存在与交互语音对应的描述规则模板,进而再根据预设服务子***分类模型或计算相似度的方式进行候选服务子***集的获取。这是因为,描述规则模板相比于预设服务子***分类模型或计算相似度的方式具有更加明确的指向性,或者说对用户交互语音的意图识别的准确性更高。
204、若候选服务子***集中包含的服务子***数量小于或等于预设数值,则根据用户的用户特征信息,对候选服务子***集进行扩展处理。
205、若候选服务子***集中包含的服务子***数量大于预设数值,则根据用户的用户特征信息,对候选服务子***集进行过滤处理。
206、若当前候选服务子***集中只包含一个服务子***,则以该一个服务子***响应交互语音。
207、若当前候选服务子***集中包含至少两个服务子***,则向用户输出选择指示;响应于用户根据选择指示触发的选择操作,以选择出的服务子***响应交互语音。
208、记录当前候选服务子***集与选择出的服务子***的对应关系。
若经过扩展或过滤修正处理后的候选服务子***集中包含至少两个服务子***,则在用户从中选择出所需的服务子***后,可以记录下此时该修正后的候选服务子***集与选择出的服务子***的对应关系,以便用于后续再次出现与该修正后的候选服务子***集相同的初始候选服务子***集时,可以基于该对应关系对后续的该初始候选服务子***集进行过滤处理,具体参见前述实施例中关于对候选服务子***集进行过滤处理的第三种处理方式的描述,此时,该修正后的服务子***集将作为前述实施例中所述的历史服务子***集中的一个。
以下将详细描述本发明的一个或多个实施例的语音交互服务处理装置。本领域技术人员可以理解,这些语音交互服务处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图6为本发明实施例提供的语音交互服务处理装置的结构示意图,如图6所示,该装置包括:确定模块11、修正模块12、响应处理模块13。
确定模块11,用于响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集。
修正模块12,用于根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理。
响应处理模块13,用于若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音。
可选地,所述响应处理模块13还用于:若所述修正后的候选服务子***集中包含至少两个服务子***,则向所述用户输出选择指示;响应于所述用户根据所述选择指示对所述修正后的候选服务子***集触发的选择操作,以选择出的服务子***响应所述交互语音。
可选地,所述装置还包括:记录模块14。
记录模块14,记录所述修正后的候选服务子***集与所述选择出的服务子***的对应关系。
可选地,所述修正模块12用于:若所述候选服务子***集中包含的服务子***数量小于或等于预设数值,则根据所述用户的用户特征信息,对所述候选服务子***集进行扩展处理。
可选地,所述修正模块12用于:若所述服务子***数量为零,则将所述用户预先设定的兜底服务子***或者所述用户使用频率最高的服务子***扩展到所述候选服务子***集中;
若所述服务子***数量小于或等于所述预设数值并且大于零,则将与所述候选服务子***集中的服务子***属于同一分组内的服务子***扩展到所述候选服务子***集中,或者,将与所述候选服务子***集中的服务子***属于同一分组内并且满足使用频率要求的服务子***扩展到所述候选服务子***集中,所述预设数值大于或等于1。
可选地,所述修正模块12用于:若所述候选服务子***集中包含的服务子***数量大于预设数值,则根据所述用户的用户特征信息,对所述候选服务子***集进行过滤处理。
可选地,所述修正模块12用于:根据所述用户的位置,滤除所述候选服务子***集中不支持所述位置的服务子***。
可选地,所述修正模块12用于:根据所述用户的服务子***订制信息,滤除所述候选服务子***集中所述用户未订制的服务子***。
可选地,所述修正模块12用于:确定是否存在与所述候选服务子***集对应的历史服务子***集,所述历史服务子***集是历史上出现过的与所述候选服务子***集相同的服务子***集;若存在,则根据所述用户历史上对所述历史服务子***集的选择操作,确定与所述候选服务子***集对应的用户偏好服务子***;滤除所述候选服务子***集中除所述用户偏好服务子***外的服务子***。
可选地,所述确定模块11用于:将所述交互语音输入预设服务子***分类模型以获得所述交互语音分别与所述多个服务子***间的相似度得分;或者,计算所述交互语音与所述多个服务子***各自对应的语料样本之间的相似度得分;确定由相似度得分大于预设分值的服务子***构成所述候选服务子***集。
可选地,所述确定模块11用于:确定所述多个服务子***各自对应的描述规则模板中是否存在与所述交互语音对应的描述规则模板;若存在与所述交互语音对应的描述规则模板,则确定所述候选服务子***集由所述多个服务子***中存在与所述交互语音对应的描述规则模板的服务子***构成;若不存在与所述交互语音对应的描述规则模板,则将所述交互语音输入预设服务子***分类模型以获得所述交互语音分别与所述多个服务子***间的相似度得分;或者,计算所述交互语音与所述多个服务子***各自对应的语料样本之间的相似度得分;确定由相似度得分大于预设分值的服务子***构成所述候选服务子***集。
图6所示装置可以执行图1、图5所示实施例的方法,本实施例未详细描述的部分,可参考对图1、图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1、图5所示实施例中的描述,在此不再赘述。
以上描述了语音交互服务处理装置的内部功能和结构,在一个可能的设计中,语音交互服务处理装置的结构可实现为一电子设备,该电子设备比如为终端设备,如图7所示,该电子设备可以包括:处理器21和存储器22。其中,所述存储器22用于存储支持语音交互服务处理装置执行上述图1、图5所示实施例中提供的语音交互服务处理方法的程序,所述处理器21被配置为用于执行所述存储器22中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器21执行时能够实现如下步骤:
响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集;
根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理;
若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音。
可选地,所述处理器21还用于执行前述图1和图3所示实施例中的全部或部分步骤。
其中,所述语音交互服务处理装置的结构中还可以包括通信接口23,用于语音交互服务处理装置与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存语音交互服务处理装置所用的计算机软件指令,其包含用于执行上述图1和图3所示方法实施例中语音交互服务处理方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种语音交互服务处理方法,其特征在于,包括:
响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集;
根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理;
若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音;
其中,所述根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理,包括:
若所述服务子***数量为零,则将所述用户预先设定的兜底服务子***或者所述用户使用频率最高的服务子***扩展到所述候选服务子***集中;
若所述服务子***数量小于或等于预设数值并且大于零,则将与所述候选服务子***集中的服务子***属于同一分组内的服务子***扩展到所述候选服务子***集中,或者,将与所述候选服务子***集中的服务子***属于同一分组内并且满足使用频率要求的服务子***扩展到所述候选服务子***集中,所述预设数值大于或等于1。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述修正后的候选服务子***集中包含至少两个服务子***,则向所述用户输出选择指示;
响应于所述用户根据所述选择指示对所述修正后的候选服务子***集触发的选择操作,以选择出的服务子***响应所述交互语音。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
记录所述修正后的候选服务子***集与所述选择出的服务子***的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理,包括:
若所述候选服务子***集中包含的服务子***数量大于预设数值,则根据所述用户的用户特征信息,对所述候选服务子***集进行过滤处理。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户的用户特征信息,对所述候选服务子***集进行过滤处理,包括:
根据所述用户的位置,滤除所述候选服务子***集中不支持所述位置的服务子***。
6.根据权利要求4所述的方法,其特征在于,所述根据所述用户的用户特征信息,对所述候选服务子***集进行过滤处理,包括:
根据所述用户的服务子***订制信息,滤除所述候选服务子***集中所述用户未订制的服务子***。
7.根据权利要求4所述的方法,其特征在于,所述根据所述用户的用户特征信息,对所述候选服务子***集进行过滤处理,包括:
确定是否存在与所述候选服务子***集对应的历史服务子***集,所述历史服务子***集是历史上出现过的与所述候选服务子***集相同的服务子***集;
若存在,则根据所述用户历史上对所述历史服务子***集的选择操作,确定与所述候选服务子***集对应的用户偏好服务子***;
滤除所述候选服务子***集中除所述用户偏好服务子***外的服务子***。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集,包括:
将所述交互语音输入预设服务子***分类模型以获得所述交互语音分别与所述多个服务子***间的相似度得分;或者,计算所述交互语音与所述多个服务子***各自对应的语料样本之间的相似度得分;
确定由相似度得分大于预设分值的服务子***构成所述候选服务子***集。
9.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集,包括:
确定所述多个服务子***各自对应的描述规则模板中是否存在与所述交互语音对应的描述规则模板;
若存在与所述交互语音对应的描述规则模板,则确定所述候选服务子***集由所述多个服务子***中存在与所述交互语音对应的描述规则模板的服务子***构成。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若不存在与所述交互语音对应的描述规则模板,则将所述交互语音输入预设服务子***分类模型以获得所述交互语音分别与所述多个服务子***间的相似度得分;或者,计算所述交互语音与所述多个服务子***各自对应的语料样本之间的相似度得分;
确定由相似度得分大于预设分值的服务子***构成所述候选服务子***集。
11.一种语音交互服务处理装置,其特征在于,包括:
确定模块,用于响应于用户触发的交互语音,根据所述交互语音分别与多个服务子***间的匹配度,从所述多个服务子***中确定与所述交互语音对应的候选服务子***集;
修正模块,用于根据所述用户的用户特征信息,对所述候选服务子***集进行修正处理;
响应处理模块,用于若所述修正后的候选服务子***集中只包含一个服务子***,则以所述一个服务子***响应所述交互语音;
其中,所述修正模块,具体用于若所述服务子***数量为零,则将所述用户预先设定的兜底服务子***或者所述用户使用频率最高的服务子***扩展到所述候选服务子***集中;若所述服务子***数量小于或等于预设数值并且大于零,则将与所述候选服务子***集中的服务子***属于同一分组内的服务子***扩展到所述候选服务子***集中,或者,将与所述候选服务子***集中的服务子***属于同一分组内并且满足使用频率要求的服务子***扩展到所述候选服务子***集中,所述预设数值大于或等于1。
12.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至10中任一项所述的语音交互服务处理方法。
13.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1至10中任一项所述的语音交互服务处理方法。
CN201810134247.0A 2018-02-09 2018-02-09 语音交互服务处理方法、装置和设备 Active CN110136701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810134247.0A CN110136701B (zh) 2018-02-09 2018-02-09 语音交互服务处理方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810134247.0A CN110136701B (zh) 2018-02-09 2018-02-09 语音交互服务处理方法、装置和设备

Publications (2)

Publication Number Publication Date
CN110136701A CN110136701A (zh) 2019-08-16
CN110136701B true CN110136701B (zh) 2023-03-31

Family

ID=67567956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810134247.0A Active CN110136701B (zh) 2018-02-09 2018-02-09 语音交互服务处理方法、装置和设备

Country Status (1)

Country Link
CN (1) CN110136701B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737577A (zh) * 2020-06-22 2020-10-02 平安医疗健康管理股份有限公司 一种基于业务平台的数据查询方法、装置、设备和介质
CN115079882B (zh) * 2022-06-16 2024-04-05 广州国威文化科技有限公司 基于虚拟现实的人机交互处理方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN105224278A (zh) * 2015-08-21 2016-01-06 百度在线网络技术(北京)有限公司 语音交互服务处理方法及装置
CN106486120A (zh) * 2016-10-21 2017-03-08 上海智臻智能网络科技股份有限公司 交互式语音应答方法及应答***
CN107092609A (zh) * 2016-05-10 2017-08-25 口碑控股有限公司 一种信息推送方法及装置
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
US10282218B2 (en) * 2016-06-07 2019-05-07 Google Llc Nondeterministic task initiation by a personal assistant module

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN105224278A (zh) * 2015-08-21 2016-01-06 百度在线网络技术(北京)有限公司 语音交互服务处理方法及装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN107092609A (zh) * 2016-05-10 2017-08-25 口碑控股有限公司 一种信息推送方法及装置
CN106486120A (zh) * 2016-10-21 2017-03-08 上海智臻智能网络科技股份有限公司 交互式语音应答方法及应答***
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置

Also Published As

Publication number Publication date
CN110136701A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
US20230306052A1 (en) Method and system for entity extraction and disambiguation
US10540666B2 (en) Method and system for updating an intent space and estimating intent based on an intent space
US9672556B2 (en) Systems and methods for programatically classifying text using topic classification
US20140172415A1 (en) Apparatus, system, and method of providing sentiment analysis result based on text
CN107092609B (zh) 一种信息推送方法及装置
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
US8793260B2 (en) Related pivoted search queries
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
CN113010640B (zh) 一种业务执行的方法及装置
CN110599307A (zh) 一种商品推荐的方法及装置
CN110136701B (zh) 语音交互服务处理方法、装置和设备
CN106708871A (zh) 一种社交业务特征用户的识别方法和装置
JP2015106347A (ja) レコメンド装置およびレコメンド方法
KR20140015653A (ko) 컨텐츠 추천 시스템 및 방법
CN111104536A (zh) 图片搜索方法、装置、终端及存储介质
CN106997340B (zh) 词库的生成以及利用词库的文档分类方法及装置
CN109635004A (zh) 一种数据库的对象描述提供方法、装置及设备
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN113627509B (zh) 数据分类方法、装置、计算机设备及计算机可读存储介质
CN109960752A (zh) 应用程序内的查询方法、装置、计算机设备和存储介质
CN115391489A (zh) 基于知识图谱的话题推荐方法
CN114840762A (zh) 推荐内容确定方法、装置和电子设备
CN106886546B (zh) 一种数据网站的构建方法和设备
CN115935579A (zh) 语言模型的预训练方法、商品信息处理方法及相关装置
CN111161706A (zh) 交互方法、装置、设备和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant