CN112309379A - 实现语音交互的方法、装置、介质以及电子设备 - Google Patents

实现语音交互的方法、装置、介质以及电子设备 Download PDF

Info

Publication number
CN112309379A
CN112309379A CN201910681152.5A CN201910681152A CN112309379A CN 112309379 A CN112309379 A CN 112309379A CN 201910681152 A CN201910681152 A CN 201910681152A CN 112309379 A CN112309379 A CN 112309379A
Authority
CN
China
Prior art keywords
voice interaction
broadcaster
determining
requirement type
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910681152.5A
Other languages
English (en)
Other versions
CN112309379B (zh
Inventor
丛若男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910681152.5A priority Critical patent/CN112309379B/zh
Publication of CN112309379A publication Critical patent/CN112309379A/zh
Application granted granted Critical
Publication of CN112309379B publication Critical patent/CN112309379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了一种实现语音交互的方法、装置、介质以及电子设备。其中的方法包括:获取用户的待处理语句;确定所述待处理语句所属的需求类型;根据所述需求类型,确定语音交互的播报者;根据所述播报者对应的语料信息,进行语音合成处理,获得所述待处理语句的对话语句,并播放所述对话语句。本公开提供的技术方案有利于丰富语音交互的实现方式,从而给用户带来更丰富的语音交互体验效果。

Description

实现语音交互的方法、装置、介质以及电子设备
技术领域
本公开涉及语音交互技术,尤其是一种实现语音交互的方法、实现语音交互的装置、存储介质以及电子设备。
背景技术
语音交互是基于语音输入的一种人机交互模式。也就是说,用户可以对智能电子设备说出自己的需求等,智能电子设备根据采集到的音频信息,确定出相应的回复信息,并以音频播放方式回复用户,使用户获得反馈结果。例如,用户可以对着智能音箱或者智能移动电话或者车载***等智能电子设备,说出“播放歌曲”等需求信息,智能电子设备可以进一步询问用户“您希望听谁的歌曲”等。
如何丰富语音交互的实现方式,给用户带来更丰富的语音交互体验效果,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种实现语音交互的方法、实现语音交互的装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供一种实现语音交互的方法,包括:获取用户的待处理语句;获取用户的待处理语句;确定所述待处理语句所属的需求类型;根据所述需求类型,确定语音交互的播报者;根据所述播报者对应的语料信息,进行语音合成处理,获得所述待处理语句的对话语句,并播放所述对话语句。
根据本公开实施例的另一个方面,提供一种实现语音交互的装置,包括:获取语句模块,用于获取用户的待处理语句;确定需求类型模块,用于确定所述获取语句模块获取的待处理语句所属的需求类型;确定播报者模块,用于根据所述确定需求类型模块确定的需求类型,确定语音交互的播报者;对话模块,用于根据所述确定播报者模块确定的播报者的语料信息,进行语音合成处理,获得所述待处理语句的对话语句,并播放所述对话语句。
根据本公开实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实现语音交互的方法。
根据本公开实施例的又一方面,提供了一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述实现语音交互的方法。
基于本公开上述实施例提供的一种实现语音交互的方法和装置,通过确定用户的待处理语句所属的需求类型,并利用待处理语句所属的需求类型,来确定语音交互的播报者,可以实现在相应需求类型的场景中,采用相应的播报者与用户进行对话的语音交互方式。由此可知,本公开提供的技术方案有利于丰富语音交互的实现方式,从而给用户带来更丰富的语音交互体验效果。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开所适用的一个场景示意图;
图2为本公开的实现语音交互的方法一个实施例的流程图;
图3为本公开的确定待处理语句所属的需求类型的一个实现例的流程图;
图4为本公开的确定语音交互的播报者的一个实现例的流程图;
图5为本公开的确定语音交互的播报者的另一个实现例的流程图;
图6为本公开的确定语音交互的播报者的再一个实现例的流程图;
图7为本公开的确定语音交互的播报者的又一个实现例的流程图;
图8为本公开的实现语音交互的装置一个实施例的结构示意图;
图9为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,现有的语音交互技术,往往是根据预先设定的播报者的语料库(即语料集合),与用户进行语音交互。例如,根据缺省设置的播报者的语料库,与用户进行语音交互。再例如,在用户主动从播报者列表中选择播报者,并从网络侧下载的该播报者的语料库之后,根据下载的播报者的语料库,与用户进行语音交互。上述语音交互的实现方式不够灵活。
示例性概述
下面结合图1,对本公开的实现语音交互的技术的一个应用场景进行说明。
图1中,车辆100的车载***支持本公开的实现语音交互的技术。
用户101在驾驶其车辆100的过程中,会出现听音乐、当前位置定位以及拨打电话等需求。用户101在说出自己的具体需求的同时,车辆100中的车载***可以通过其音频采集装置,获得用户101的需求。
车辆100中的车载***在确定出用户101的当前需求属于娱乐类型的需求时,可以将用户101经常收听的娱乐节目的主持人作为本次与用户101进行语音交互的播报者;例如,将用户101经常收听的歌曲的歌手作为本次与用户101进行语音交互的播报者;再例如,将用户101经常收听的有声书的朗读者作为本次与用户101进行语音交互的播报者;并利用该播报者对应的语料库(即语料信息集合)形成对话语句,车载***向用户101播放该对话语句,从而可以实现模拟该主持人与用户100人进行语音交互。
用户101的需求可能会在车辆100的行驶过程中发生变化:
一个例子,用户101在收听歌曲的过程中,可能会希望收听评书,由于收听评书也属于娱乐类型的需求,车载***可以在不切换当前播报者的情况下,与用户101进行对话。车载***也可以将当前播报者由歌手切换为一评书播讲者,并利用该评书播讲者对应的语料库形成对话语句,与用户101进行语音交互。在该例子中,车载***对娱乐类型进行了更为细致的分类,车载***可以利用属于更为细致的分类中的播报者与用户101进行语音交互。
另一个例子,用户101在收听评书的过程中,可能会发出拨打电话或者定位当前位置等控制命令,由于车载***认为该控制命令不属于娱乐类型的需求,因此,车载***可以将当前播报者切换为缺省播报者,并利用缺省播报者与用户101进行语音交互。
示例性方法
图2为本公开的实现语音交互的方法一个实施例的流程示意图。如图2所示的方法包括步骤:S200、S201、S202以及S203。下面对各步骤分别进行说明。
S200、获取用户的待处理语句。
本公开中的待处理语句可以是通过对音频采集装置所采集到的音频信息进行语音识别,而获得的语句。本公开不限定对采集到的音频信息进行语音识别处理的具体实现过程。
S201、确定待处理语句所属的需求类型。
本公开可以将待处理语句所表述的内容,作为用户的需求。需求类型可以是指基于对需求的分类,而形成的类别。
S202、根据上述需求类型,确定语音交互的播报者。
本公开中的播报者可以是指:在针对用户发出的需求确定了相应的对话语句(即回复内容),并以音频播放方式回复用户时,表述对话语句的表述者。
S203、根据播报者对应的语料信息,进行语音合成处理,获得待处理语句的对话语句,并播放该对话语句。
本公开中的播报者对应的语料信息可以是指播报者的语料库。本公开中的语音合成处理可以是指TTS(Text To Speech,从文本到语音)处理。本公开中的对话语句通常为音频信号。本公开中的播放对话语句可以是指通过扬声器播放相应的音频信号。
本公开通过确定用户的待处理语句所属的需求类型,并利用待处理语句所属的需求类型,来确定语音交互的播报者,可以实现在相应需求类型的场景中,采用相应的播报者与用户进行对话的语音交互方式。因此,本公开有利于丰富语音交互的实现方式,从而给用户带来更丰富的语音交互体验效果。
在一个可选示例中,本公开确定待处理语句所属的需求类型的实现方式可以如图3所示。
图3中,S300、对待处理语句进行识别,获得待处理语句的意图。
可选的,本公开可以对待处理语句进行语义识别处理,并根据语义识别处理的结果,可以获得待处理语句所包含的至少一句式单元。本公开中的句式单元可以是指组成一个句子的基本单位。例如,句式单元可以包括:动词以及名词等。
由于用户的需求通常可以通过动词+名词的形式来呈现,因此,本公开获得的包含有动词以及名词的句式单元可以体现出待处理语句的意图。
S301、基于上述意图,确定待处理语句所属的需求类型。
可选的,本公开可以预先将需求划分为多个需求类型,例如,基于控制命令的需求类型(例如,打开车窗或者启动辅助驾驶功能或者打开空调等)、基于娱乐的需求类型(例如,播放音乐、播放评书或者播放CD等)、基于功能的需求类型(例如,查询天气情况或者查询当前位置等)。
可选的,本公开可以针对需求类型,设置至少一个句式单元集合。在上述语义识别处理获得的各句式单元属于一需求类型的句式单元集合的情况下,本公开可以将该需求类型作为待处理语句所属的需求类型。
一个例子,假定存在多个需求类型,本公开可以针对每一个需求类型分别设置一个动词集合和一个名词集合,本公开将上述语义识别处理获得的动词和名词分别与各需求类型的动词集合和名词集合进行匹配处理,如果上述语义识别处理获得动词与一需求类型的动词集合中的一动词相匹配,且语义识别处理获得的名词与该需求类型的名词集合中的一名词相匹配,则本公开可以将该需求类型作为待处理语句所属的需求类型。更为具体的例子,娱乐类型对应的动词集合可以包括:播放、听以及搜索等动词,且娱乐类型对应的名词集合可以包括:音乐、歌曲、故事以及相声等名词。
另一个例子,假定存在多个需求类型,本公开可以针对多个需求类型设置一个共有动词集合,并针对各需求类型分别设置一个名词集合。在通常情况下,不同名词集合所包含的名词不存在交集。本公开将上述语义识别处理获得的动词和名词分别与共有动词集合和各需求类型的名词集合进行匹配处理,如果上述语义识别处理获得的动词与共有动词集合相匹配,且语义识别处理获得的名词与其中一个名词集合中的一名词相匹配,则本公开可以将该名词集合所对应的需求类型,作为待处理语句所属的需求类型。
再一个例子,无论是存在一个需求类型,还是存在多个需求类型,本公开中的其中一个需求类型可以包括多个分类型。本公开可以为每一个分类型设置一个名词集合,例如,本公开可以根据该需求类型所能提供的内容资源的类型,设置多个名词集合,例如,本公开中的娱乐类型所能提供的内容资源的类型包括:音乐、广播、新闻、有声书以及历史故事等,本公开可以针对娱乐类型下的每一种内容资源的类型,设置一个名词集合。本公开可以将上述语义识别处理获得动词和名词分别与动词集合和各名词集合进行匹配处理,如果上述语义识别处获得的动词与动词集合相匹配,且语义识别处理获得的名词与其中一种内容资源的类型的名词集合中的一名词相匹配,则本公开可以将该名词集合所对应的分类型和需求类型作为待处理语句所属的需求类型。由此可知,本公开可以更为精准的定位出待处理语句所属的需求类型。
本公开通过利用待处理语句的意图来确定待处理语句的需求类型,有利于快捷准确的确定出待处理语句的需求类型,进而有利于便捷的确定出合适的播报者,例如,与用户的兴趣相匹配的播报者。
在一个可选示例中,本公开根据需求类型,确定语音交互的播报者的一个实现过程如图4所示。
图4中,S400、判断待处理语句所属的需求类型是否属于预设需求类型。如果判断出需求类型属于预设需求类型,则到S401。如果判断出需求类型不属于预设需求类型,则到S402。
可选的,本公开中的预设需求类型可以根据实际需求设置,例如,预设需求类型可以为娱乐类型或者娱乐类型下的更为细致的类型等。
S401、根据用户在预设需求类型下的历史播放信息,确定语音交互的播报者。
可选的,本公开中的历史播放信息通常是最近一段时间(如最近十天或者最近一个月等)内的历史播放信息。本公开中的用户在预设需求类型下的历史播放信息也可以称为预设需求类型下的用户的历史播放信息。本公开确定出的语音交互的播报者可以是历史播放信息中的歌手、主持人或者评书播讲人等表演者。例如,用户在最近一段时间内经常听歌手A演唱的歌曲,在用户的当前需求属于娱乐类型或者娱乐类型下的歌曲分类型的情况下,本公开根据娱乐类型下的用户的相应历史播放信息,可能会将歌手A确定为本次语音交互的播报者。
S402、将缺省播报者作为语音交互的播报者。
可选的,缺省播报者可以是初始化设置信息中设置的播报者,缺省播报者也可以是用户通过菜单等方式自主选择的播报者。缺省播报者的语料信息通常是预先设置好的。
本公开通过在待处理语句所属的需求类型属于预设需求类型的情况下,再利用相应的历史播放信息确定语音交互的播报者,可以实现在相应场景(如娱乐场景)下,自适应的采用用户偏好的播报者与用户进行语音交互,在有利于丰富语音交互的实现方式的同时,有利于提高语音交互的可控性,避免自适应的采用用户偏好的播报者与用户进行语音交互的实现方式,与某些场景(如工作场景等)不相符的现象。
在一个可选示例中,本公开确定语音交互的播报者的另一个实现方式可以如图5所示。
图5中,S500、判断待处理语句所属的需求类型是否属于预设需求类型。如果待处理语句所属的需求类型属于预设需求类型,则到S501。如果需求类型不属于预设需求类型,则到S507。
可选的,本公开中的预设需求类型可以根据实际需求设置,例如,本公开中的预设需求类型可以为娱乐类型,也可以为娱乐类型下的分类型等。
S501、根据用户在预设需求类型下的历史播放信息确定第一表演者。
可选的,本公开中的第一表演者可以认为是利用本流程第一次挑选出的表演者。本公开可以将第一表演者作为当前表演者。
可选的,本公开挑选出的第一表演者应满足一定的条件,例如,挑选出的第一表演者的播放次数应满足第一预设条件。第一预设条件可以包括但不限于:最近一段时间内为用户播放的次数最多。其中的播放次数可以使用被用户选择播放的次数来表示。另外,本公开也可以按照单位时间(如5分钟或者10分钟等)将为用户播放总时长换算为播放次数。另外,第一预设条件还可以包括:最近一段时间内为用户播放的次数达到一定次数。
可选的,本公开中的历史播放信息可以从用户的播放日志中获取。历史播放信息可以是本地存储的信息,也可以是网络侧存储的信息。
S502、获取当前表演者的语料信息。
可选的,本公开可以基于本地存储的信息,获取当前表演者的语料信息。例如,本公开可以基于已缓存的资源(例如,本地已缓存的歌手的歌曲或者评书播讲者播讲的评书等),获取当前表演者的语料信息。本公开也可以基于网络下载的方式,获得当前表演者的语料信息。例如,本公开可以从云端下载歌手的访谈节目内容以及歌手的自媒体内容等,并从下载的信息中获得该歌手的语料信息。
S503、判断当前获取到的语料信息是否满足语音合成处理条件,如果当前获取到的语料信息不满足语音合成处理条件,则到S504;如果当前获取到的语料信息满足语音合成处理条件,则到S506。
可选的,本公开中的语音合成处理条件可以根据实际需求设置,例如,可以根据语料数量设置语音合成处理条件等。这样,在当前获取到的语料信息的数量达到预定数量时,可以认为满足语音合成处理条件,否则,认为不满足语音合成处理条件。
S504、判断挑选当前表演者的次数是否达到预定挑选次数,如果没有达到预定挑选次数,则到S505;如果达到预定挑选次数,则到S507。
可选的,本公开中的预定挑选次数可以为大于1的整数,也可以等于1。在预定挑选次数为1时,本公开在首次挑选出的第一表演者的语料信息不满足语音合成处理条件的情况下,不再挑选表演者。在预定挑选次数为2时,本公开可以在首次挑选出的第一表演者的语料信息不满足语音合成处理条件的情况下,再次挑选表演者。在预定挑选次数为3时,本公开可以在第二次挑选出的表演者的语料信息不满足语音合成处理条件的情况下,再次挑选表演者。以此类推,不再一一说明。通常情况下,预定挑选次数不宜过大,以减小实现语音交互的时延。一个例子,预定挑选次数可以为小于等于3的正整数。
S505、根据用户在预设需求类型下的历史播放信息确定第二表演者。本公开可以将第二表演者作为当前表演者。返回S502。
可选的,本公开中的第二表演者可以认为是利用本流程第N次挑选出的表演者。其中的N为大于1的整数。
本公开挑选出的第二表演者应满足一定的条件,例如,挑选出的第二表演者的播放次数应满足第二预设条件。第二预设条件可以包括但不限于:除了已经被挑选出的表演者之外,最近一段时间内为用户播放的次数最多。另外,第二预设条件还可以包括:最近一段时间内为用户播放的次数达到一定次数。同样的,这里的播放次数可以使用被用户选择播放的次数来表示。本公开也可以按照单位时间(如5分钟或者10分钟等)将为用户播放总时长换算为播放次数。这里的历史播放信息可以从用户的播放日志中获取。
S506、将当前表演者作为语音交互的播报者。本流程结束。
S507、将缺省播报者作为语音交互的播报者。本流程结束。
可选的,本公开中的缺省播报者可以是初始化设置信息中设置的播报者,也可以是用户通过菜单等方式自主选择的播报者。缺省播报者的语料信息通常是预先设置好的。
本公开通过在待处理语句所属的需求类型属于预设需求类型的情况下,再利用相应的历史播放信息确定语音交互的播报者,可以实现在相应场景(如娱乐场景)下,自适应的采用用户偏好的播报者与用户进行语音交互;从而在有利于丰富语音交互的实现方式的同时,有利于提高语音交互的可控性,避免自适应的采用用户偏好的播报者与用户进行语音交互的实现方式,与某些场景(如工作场景等)不相符的现象。更进一步的,在挑选出的当前表演者的语料信息不满足语音合成处理条件时,通过再次挑选当前表演者,可以尽可能的使用户偏好的表演者作为语音交互的播报者,进一步有利于丰富语音交互的实现方式。
在一个可选示例中,本公开确定语音交互的播报者的再一个实现方式可以如图6所示。
图6中,S600、判断待处理语句所属的需求类型是否属于预设需求类型。如果待处理语句所属的需求类型属于预设需求类型,则到S601。如果需求类型不属于预设需求类型,则到S607。
S601、判断预设需求类型是否具有关联播报者。如果不具有关联播报者,则到S602;如果具有关联播报者,则到S609。
S602、根据用户在预设需求类型下的历史播放信息确定第一表演者。
S603、获取当前表演者的语料信息。
S604、判断当前获取到的语料信息是否满足语音合成处理条件,如果当前获取到的语料信息不满足语音合成处理条件,则到S605;如果当前获取到的语料信息满足语音合成处理条件,则到S608。
S605、判断挑选当前表演者的次数是否达到预定挑选次数,如果没有达到预定挑选次数,则到S606;如果达到预定挑选次数,则到S607。
S606、根据用户在预设需求类型下的历史播放信息确定第二表演者。本公开可以将第二表演者作为当前表演者。返回S603。
S607、将缺省播报者作为语音交互的播报者。本流程结束。
S608、将当前表演者作为语音交互的播报者,并将当前表演者作为预设需求类型的关联播报者。本流程结束。
可选的,本公开可以采用将当前表演者与预设需求类型绑定的方式,使当前表演者成为预设需求类型的关联播报者。
S609、将预设需求类型的关联播报者作为语音交互的播报者。
本实施例并未对S600以及S602-S607进行详细描述,S600以及S602-S607中的具体内容可以参见上述针对图5中的S500-506的描述,在此不再详细说明。
本公开通过在待处理语句所属的需求类型属于预设需求类型的情况下,再利用相应的历史播放信息确定语音交互的播报者,可以实现在相应场景(如娱乐场景)下,自适应的采用用户偏好的播报者与用户进行语音交互;从而在有利于丰富语音交互的实现方式的同时,有利于提高语音交互的可控性,避免自适应的采用用户偏好的播报者与用户进行语音交互的实现方式,与某些场景(如工作场景等)不相符的现象。进一步的,在挑选出的当前表演者的语料信息不满足语音合成处理条件时,通过再次挑选当前表演者,可以尽可能的使用户偏好的表演者作为语音交互的播报者,进一步有利于丰富语音交互的实现方式。更进一步的,本公开通过将当前表演者作为预设需求类型的关联播报者,有利于便捷的确定出语音交互的播报者,从而有利于降低语音交互的时延。
在一个可选示例中,本公开确定语音交互的播报者的又一个实现方式可以如图7所示。
图7中,S700、判断待处理语句所属的需求类型是否属于预设需求类型。如果待处理语句所属的需求类型属于预设需求类型,则到S701。如果需求类型不属于预设需求类型,则到S707。
S701、判断预设需求类型是否具有关联播报者。如果不具有关联播报者,则到S702;如果具有关联播报者,则到S709。
S702、根据用户在预设需求类型下的历史播放信息确定第一表演者。
S703、获取当前表演者的语料信息。
S704、判断当前获取到的语料信息是否满足语音合成处理条件,如果当前获取到的语料信息不满足语音合成处理条件,则到S705;如果当前获取到的语料信息满足语音合成处理条件,则到S708。
S705、判断挑选当前表演者的次数是否达到预定挑选次数,如果没有达到预定挑选次数,则到S706;如果达到预定挑选次数,则到S707。
S706、根据用户在预设需求类型下的历史播放信息确定第二表演者。本公开可以将第二表演者作为当前表演者。返回S703。
S707、将缺省播报者作为语音交互的播报者。本流程结束。
S708、将当前表演者作为语音交互的播报者,并将当前表演者作为预设需求类型的关联播报者。本流程结束。
S709、判断该关联播报者播放对话语句的次数是否满足第三预设条件,如果满足第三预设条件,则到S710;如果不满足第三预设条件,则到S711。
可选的,本公开不仅可以针对关联播报者播放对话语句的次数设置第三预设条件,还可以针对关联播报者播放对话语句的时长或者关联播报者与预设需求类型绑定的持续时长等设置第三预设条件。例如,第三预设条件除了可以包括:关联播报者播放对话语句的次数已达到预定次数之外,还可以包括:关联播报者播放对话语句的时长已达到预定时长。再例如,第三预设条件可以包括:关联播报者与预设需求类型绑定的持续时长已达到预定持续时长等。
S710、取消预设需求类型的关联播报者,返回S702,以重新确定关联播报者。
可选的,取消预设需求类型的关联播报者可以为:取消预设需求类型与关联播报者之间的绑定关系等。
S711、将预设需求类型的关联播报者作为语音交互的播报者。
本实施例并未对S700以及S702-S708进行详细描述,S700以及S702-S708中的具体内容可以参见上述针对图5中的S500-506的描述以及上述针对图6中的S608的描述,在此不再详细说明。
本公开通过在待处理语句所属的需求类型属于预设需求类型的情况下,再利用相应的历史播放信息确定语音交互的播报者,可以实现在相应场景(如娱乐场景)下,自适应的采用用户偏好的播报者与用户进行语音交互;从而在有利于丰富语音交互的实现方式的同时,有利于提高语音交互的可控性,避免自适应的采用用户偏好的播报者与用户进行语音交互的实现方式,与某些场景(如工作场景等)不相符的现象。进一步的,在挑选出的当前表演者的语料信息不满足语音合成处理条件时,本公开通过再次挑选当前表演者,可以尽可能的使用户偏好的表演者作为语音交互的播报者,进一步有利于丰富语音交互的实现方式。更进一步的,本公开通过将当前表演者作为预设需求类型的关联播报者,有利于便捷的确定出语音交互的播报者,从而有利于降低语音交互的时延。再进一步的,本公开通过针对关联播报者设置第三预设条件,这样,可以在用户感兴趣的表演者发生变化的情况下,及时的更新语音交互的播报者,从而有利于进一步完善语音交互的实现方式。
示例性装置
图8为本公开实现语音交互的装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图8所示,该实施例的装置包括:获取语句模块800、确定需求类型模块801、确定播报者模块802以及对话模块803。
获取语句模块800用于获取用户的待处理语句。
确定需求类型模块801用于确定获取语句模块800获取的待处理语句所属的需求类型。例如,确定需求类型模块801可以对待处理语句进行识别,获得待处理语句的意图,然后,确定需求类型模块801基于该意图,确定待处理语句所属的需求类型。
确定播报者模块802,用于根据所述确定需求类型模块确定的需求类型,确定语音交互的播报者。
可选的,确定播报者模块802可以包括:判断子模块8021以及确定播报者子模块8022。
其中的判断子模块8021用于判断确定需求类型模块801确定出的需求类型是否为预设需求类型。
其中的确定播报者子模块8022用于如果判断子模块8021判断结果为需求类型为预设需求类型,则根据用户在预设需求类型下的历史播放信息,确定语音交互的播报者。如果判断子模块8021判断结果为需求类型不为预设需求类型,则确定播报者子模块8022将缺省播报者作为语音交互的播报者。一个例子,确定播报者子模块8022可以根据用户在预设需求类型下的历史播放信息确定第一表演者,该第一表演者的播放次数应满足第一预设条件;之后,确定播报者子模块8022获取该第一表演者的语料信息,如果获取到的语料信息满足语音合成处理条件,则确定播报者子模块8022将第一表演者作为语音交互的播报者。如果获取到的语料信息不满足语音合成处理条件,则确定播报者子模块8022可以根据用户在预设需求类型下的历史播放信息确定第二表演者。该第二表演者满足第二预设条件。
另外,确定播报者子模块8022可以将本次确定出的语音交互的播报者(即第一表演者或者第二表演者)作为预设需求类型的关联播报者。这样,在下一次确定语音交互的播报者的过程中,如果判断子模块8021判断出需求类型为预设需求类型,且确定播报者子模块8022确定该预设需求类型具有关联播报者,则确定播报者子模块8022可以直接将关联播报者确定为语音交互的播报者。
可选的,确定播报者子模块8022在判断子模块8021的判断结果为需求类型为预设需求类型,且确定播报者子模块8022确定该预设需求类型具有关联播报者的情况下,确定播报者子模块8022可以先确定该关联播报者播放对话语句的次数,如果该关联播报者播放对话语句的次数满足第三预设条件,则确定播报者子模块8022可以重新确定关联播报者。例如,确定播报者子模块8022重新根据用户在预设需求类型下的历史播放信息,确定语音交互的播报者。
对话模块803用于根据确定播报者模块确定的播报者的语料信息,进行语音合成处理,获得待处理语句的对话语句,并播放该对话语句。
示例性电子设备
下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示,电子设备91包括一个或多个处理器911和存储器912。
处理器911可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备91中的其他组件以执行期望的功能。
存储器912可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器911可以运行所述程序指令,以实现上文所述的本公开的各个实施例的实现语音交互的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备91还可以包括:输入装置913以及输出装置914等,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外,该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备91中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备91还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的实现语音交互的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的实现语音交互的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种实现语音交互的方法,包括:
获取用户的待处理语句;
确定所述待处理语句所属的需求类型;
根据所述需求类型,确定语音交互的播报者;
根据所述播报者对应的语料信息,进行语音合成处理,获得所述待处理语句的对话语句,并播放所述对话语句。
2.根据权利要求1所述的实现语音交互的方法,其中,所述确定所述待处理语句所属的需求类型,包括:
对所述待处理语句进行识别,获得所述待处理语句的意图;
基于所述意图,确定所述待处理语句所属的需求类型。
3.根据权利要求1或2所述的实现语音交互的方法,其中,所述根据所述需求类型,确定语音交互的播报者,包括:
判断所述需求类型是否为预设需求类型;
若所述需求类型为预设需求类型,则根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者。
4.根据权利要求3所述的实现语音交互的方法,其中,所述根据所述需求类型,确定语音交互的播报者,还包括:
若所述需求类型不为预设需求类型,则将缺省播报者作为所述语音交互的播报者。
5.根据权利要求3或4所述的实现语音交互的方法,其中,所述根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者,包括:
根据所述用户在所述预设需求类型下的历史播放信息确定第一表演者,所述第一表演者的播放次数满足第一预设条件;
获取所述第一表演者的语料信息;
若所述语料信息满足语音合成处理条件,则将所述第一表演者作为所述语音交互的播报者。
6.根据权利要求5所述的实现语音交互的方法,其中,所述根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者,还包括:
若所述语料信息不满足语音合成处理条件,则根据所述用户在所述预设需求类型下的历史播放信息确定第二表演者,所述第二表演者满足第二预设条件。
7.根据权利要求5或6所述的实现语音交互的方法,其中,所述根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者,还包括:
将所述语音交互的播报者作为所述预设需求类型的关联播报者;
所述根据所述需求类型,确定语音交互的播报者,还包括:
若所述需求类型为预设需求类型,且所述预设需求类型具有关联播报者,则将所述关联播报者确定为所述语音交互的播报者。
8.根据权利要求7所述的实现语音交互的方法,其中,所述根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者,还包括:
确定所述关联播报者播放对话语句的次数;
若所述关联播报者播放对话语句的次数满足第三预设条件,则重新确定关联播报者。
9.一种实现语音交互的装置,其中,所述装置包括:
获取语句模块,用于获取用户的待处理语句;
确定需求类型模块,用于确定所述获取语句模块获取的待处理语句所属的需求类型;
确定播报者模块,用于根据所述确定需求类型模块确定的需求类型,确定语音交互的播报者;
对话模块,用于根据所述确定播报者模块确定的播报者的语料信息,进行语音合成处理,获得所述待处理语句的对话语句,并播放所述对话语句。
10.根据权利要求9所述的实现语音交互的装置,其中,所述确定播报者模块包括:
判断子模块,用于判断所述确定需求类型模块确定出的需求类型是否为预设需求类型;
确定播报者子模块,用于若所述判断子模块判断结果为所述需求类型为预设需求类型,则根据所述用户在所述预设需求类型下的历史播放信息,确定语音交互的播报者。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8中任一项所述的方法。
12.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8中任一项所述的方法。
CN201910681152.5A 2019-07-26 2019-07-26 实现语音交互的方法、装置、介质以及电子设备 Active CN112309379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910681152.5A CN112309379B (zh) 2019-07-26 2019-07-26 实现语音交互的方法、装置、介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910681152.5A CN112309379B (zh) 2019-07-26 2019-07-26 实现语音交互的方法、装置、介质以及电子设备

Publications (2)

Publication Number Publication Date
CN112309379A true CN112309379A (zh) 2021-02-02
CN112309379B CN112309379B (zh) 2024-05-31

Family

ID=74329570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910681152.5A Active CN112309379B (zh) 2019-07-26 2019-07-26 实现语音交互的方法、装置、介质以及电子设备

Country Status (1)

Country Link
CN (1) CN112309379B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN108877800A (zh) * 2018-08-30 2018-11-23 出门问问信息科技有限公司 语音交互方法、装置、电子设备及可读存储介质
CN109189980A (zh) * 2018-09-26 2019-01-11 三星电子(中国)研发中心 与用户进行语音交互的方法和电子设备
CN109272984A (zh) * 2018-10-17 2019-01-25 百度在线网络技术(北京)有限公司 用于语音交互的方法和装置
CN109923512A (zh) * 2016-09-09 2019-06-21 上海海知智能科技有限公司 人机交互的***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109923512A (zh) * 2016-09-09 2019-06-21 上海海知智能科技有限公司 人机交互的***及方法
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN108877800A (zh) * 2018-08-30 2018-11-23 出门问问信息科技有限公司 语音交互方法、装置、电子设备及可读存储介质
CN109189980A (zh) * 2018-09-26 2019-01-11 三星电子(中国)研发中心 与用户进行语音交互的方法和电子设备
CN109272984A (zh) * 2018-10-17 2019-01-25 百度在线网络技术(北京)有限公司 用于语音交互的方法和装置

Also Published As

Publication number Publication date
CN112309379B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN108228132B (zh) 语音启用装置及其中执行的方法
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
CN108520748B (zh) 一种智能设备功能引导方法及***
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8438485B2 (en) System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP7112991B2 (ja) インタラクション方法および装置
US10606950B2 (en) Controlling playback of speech-containing audio data
US20200151212A1 (en) Music recommending method, device, terminal, and storage medium
JP4942970B2 (ja) 音声認識における動詞誤りの回復
US8340797B2 (en) Method and system for generating and processing digital content based on text-to-speech conversion
US20220093103A1 (en) Method, system, and computer-readable recording medium for managing text transcript and memo for audio file
US8868419B2 (en) Generalizing text content summary from speech content
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN112669838A (zh) 一种智能音箱音频播放方法、装置、电子设备、存储介质
CN109189975A (zh) 一种音乐播放方法、装置、计算机设备及可读存储介质
CN109377988B (zh) 用于智能音箱的交互方法、介质、装置和计算设备
CN109065018B (zh) 一种面向智能机器人的故事数据处理方法及***
CN112309379B (zh) 实现语音交互的方法、装置、介质以及电子设备
CN113160824B (zh) 信息处理***
CN113808611A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
CN104021151A (zh) 一种信息处理方法及电子设备
KR102031282B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant