CN110297702B - 一种多任务并行处理方法和装置 - Google Patents

一种多任务并行处理方法和装置 Download PDF

Info

Publication number
CN110297702B
CN110297702B CN201910446011.5A CN201910446011A CN110297702B CN 110297702 B CN110297702 B CN 110297702B CN 201910446011 A CN201910446011 A CN 201910446011A CN 110297702 B CN110297702 B CN 110297702B
Authority
CN
China
Prior art keywords
task
user
interface
answer
voiceprint feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910446011.5A
Other languages
English (en)
Other versions
CN110297702A (zh
Inventor
叶午
原利鹏
张伟萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moran Cognitive Technology Co Ltd
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN201910446011.5A priority Critical patent/CN110297702B/zh
Publication of CN110297702A publication Critical patent/CN110297702A/zh
Application granted granted Critical
Publication of CN110297702B publication Critical patent/CN110297702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多任务并行处理的方法,所述方法包括:接收第一语音输入和第二语音输入;根据第一语音输入调用第一任务接口,第一任务接口根据第一语音输入调用第一任务模型;根据第二语音输入调用第二任务接口,第二任务接口根据第二语音输入调用第二任务模型;第一任务模型通过第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;第二任务模型通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单。通过并行执行两种任务,能够提高任务的处理效率,提升用户体验。

Description

一种多任务并行处理方法和装置
技术领域
本发明实施例涉及语音识别技术领域,特别涉及一种多任务并行处理方法和装置。
背景技术
用户在输入任务时,例如订餐时,往往会被另外一个紧急任务打断,例如订餐时突然要订一张机票,通常的做法是,中止订餐任务,完成订机票的任务后,再恢复订餐任务。或者多个用户同时发起多个任务时,无法并行执行。也即,只能同时进行一项用户任务,不能同时完成多项用户任务,也不同时进行多个多轮对话。这样导致被中断的用户任务,例如订餐任务不能及时完成,影响用户体验。因而,需要提供一种多任务的并行处理方法。
发明内容
针对现有技术中的问题,本发明提供一种多任务并行处理的方法和装置。
本发明提供一种多任务并行处理方法,所述方法包括:接收第一语音输入和第二语音输入;根据第一语音输入调用第一任务接口,第一任务接口根据第一语音输入调用第一任务模型;根据第二语音输入调用第二任务接口,第二任务接口根据第二语音输入调用第二任务模型;第一任务模型通过第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;第二任务模型通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口。
优选的,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入。
可替代的,所述第一语音输入和第二语音输入都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
优选的,所述第一语音输入和第二语音输入为同时输入,或者为发生在同一个时间段内的输入。
进一步的,接收第一语音输入和第二语音输入后,分别提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,对第一语音输入和第二语音输入进行语义解析,得到第一任务指令和第二任务指令。
进一步的,判断第一声纹特征和第二声纹特征是否相同,如果不相同,则建立第一任务接口和第一声纹特征、第二任务接口和第二声纹特征的对应关系;如果相同,则保存第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令/第一标签和第二任务指令/第二标签的对应关系。
进一步的,如果第一声纹特征和第二声纹特征不相同,则所述在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,提取用户回答的声纹特征,判断所述用户回答的声纹特征是否与第一声纹特征和第二声纹特征相匹配,如果与第一声纹特征相匹配,则将该用户回答输入第一任务接口;如果与第二声纹特征相匹配,则将该用户回答输入第二任务接口。
进一步的,如果第一声纹特征和第二声纹特征相同,则所述在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,对用户的回答进行语义解析,分别获得所述语义解析结果与所述第一任务指令、所述第一标签的关联度,以及所述语义解析结果与所述第二任务指令、所述第二标签的关联度,根据所述关联度判断用户的回答是针对第一多轮对话还是第二多轮对话。
优选的,还接收第三语音输入,根据第三语音输入建立第三任务接口,第三任务接口根据第三语音输入调用第三任务模型;第三任务模型通过第三任务接口向用户发起第三多轮对话,根据多轮对话中用户的回答填充第三任务模型的槽位,生成并执行第三任务单。
本发明实施例还提供一种多任务并行处理装置,所述装置包括,接收模块、任务接口调用模块、第一任务接口、第二任务接口、第一任务模型和第二任务模型以及输出模块,第一任务接口和第二任务接口分别与任务接口调用模块相连;所述接收模块,用于接收第一语音输入和第二语音输入;所述任务接口调用模块,用于根据第一语音输入调用第一任务接口,根据第二语音输入调用第二任务接口;所述第一任务接口用于根据第一语音输入调用第一任务模型,第二任务接口用于根据第二语音输入调用第二任务模型;所述第一任务模型,用于通过所述第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;所述第二任务模型用于通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;所述任务接口调用模块,还用于在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口;输出模块,向用户输出多轮对话问题。
优选的,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入。
可替代的,所述第一语音输入和第二语音输入都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
优选的,所述第一语音输入和第二语音输入为同时输入,或者为发生在同一个时间段内的输入。
进一步的,所述多任务并行处理装置还包括解析模块,所述解析模块分别与所述接收模块和所述接口调用模块相连;其中,所述解析模块,用于提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,对第一语音输入和第二语音输入进行语义解析,得到第一任务指令和第二任务指令,并将所述第一、第二声纹特征和第一、第二任务指令发送给所述接口调用模块;在多轮对话步骤,所述解析模块还用于提取用户回答的声纹特征,对用户回答进行语义解析,并将声纹特征和语义解析结果发送给所述接口调用模块。
进一步的,所述接口调用模块判断第一声纹特征和第二声纹特征是否相同,如果不相同,则建立第一任务接口和第一声纹特征、第二任务接口和第二声纹特征的对应关系;如果相同,则保存第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令/第一标签和第二任务指令/第二标签的对应关系。
进一步的,所述接口调用模块还判断所述第一声纹特征和所述第二声纹特征是否相同,如果不相同,则建立所述第一任务接口和所述第一声纹特征、所述第二任务接口和所述第二声纹特征的对应关系;如果相同,则保存所述第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令/第一标签和第二任务指令/第二标签的对应关系。
进一步的,如果第一声纹特征和第二声纹特征不相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块提取的用户回答的声纹特征,判断所述用户回答的声纹特征是否与第一声纹特征和第二声纹特征相匹配,如果与第一声纹特征相匹配,则将该用户回答输入第一任务接口;如果与第二声纹特征相匹配,则将该用户回答输入第二任务接口。
进一步的,如果第一声纹特征和第二声纹特征相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块对用户的回答的语义解析结果,分别获得所述语义解析结果与所述第一任务指令、所述第一标签的关联度,以及所述语义解析结果与所述第二任务指令、所述第二标签的关联度,根据所述关联度判断用户的回答是针对第一多轮对话还是第二多轮对话。
优选的,所述多任务并行处理装置还包括第三任务接口和第三任务模型,所述接收模块还接收第三语音输入,所述接口调用模块根据第三语音输入调用第三任务接口,第三任务接口根据第三语音输入调用第三任务模型;所述第三任务模型通过第三任务接口向用户发起第三多轮对话,根据多轮对话中用户的回答填充第三任务模型的槽位,生成并执行第三任务单。
本发明实施例还提供一种多任务并行处理装置,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如前所述的方法。
本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。
本发明的多任务并行处理方法和装置,通过建立多个任务接口,分别调用不同或相同的任务模型来并行执行多个用户的任务或一个用户的多个任务,还能够利用任务接口调用模块在多个任务接口之间实现切换,提高了任务执行的效率和灵活性,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的多任务并行处理方法流程图。
图2是本发明一个实施例中的多任务并行处理装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
本发明提供一种多任务并行处理方法,参见图1,所述方法包括:接收第一语音输入和第二语音输入;根据第一语音输入调用第一任务接口,第一任务接口根据第一语音输入调用第一任务模型;根据第二语音输入调用第二任务接口,第二任务接口根据第二语音输入调用第二任务模型;第一任务模型通过第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;第二任务模型通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口。
优选的,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入;
例如,在行驶途中,驾驶员A说:打开导航,乘客B说:给我们订个午饭。车机几乎同时接收到来自第一用户A的第一语音输入“打开导航”和来自第二用户B的第二语音输入“给我们订定个午饭”。语音输入可以是同时进行的,例如驾驶员A和乘客B同时发出的指令,也可以是驾驶员A和乘客B在特定的时间段内先后发出的指令,该特定时间段一般是较短的时间内,例如10秒。
车机接收到第一语音输入和第二语音输入后,提取声纹特征,得到第一语音输入的第一声纹特征和第二语音输入的第二声纹特征;并对语音输入进行语义解析,得到第一任务指令“打开导航”和第二任务指令“给我们订个午饭”,第一语音输入和第二语音输入的区分方式可以采用现有技术的语音识别和语义解析技术,在此不再赘述。车机分别针对两个任务指令调用两个任务接口,也即,为第一任务指令调用第一任务接口,为第二任务指令调用第二任务接口。
优选的,任务接口是预先建立并存储在车机内的功能模块,可直接被调用。任务接口之间可以互相独立的执行任务。
车机建立并保存声纹特征和任务接口的对应关系,也即保存第一声纹特征/第一任务接口的对应关系和第二声纹特征/第二任务接口的对应关系。第一任务接口根据第一任务指令调用“导航”任务模型;第二任务接口根据第二任务指令调用“订餐”任务模型。任务模型是保存在车机中的任务模块,能够执行特定类型的任务,通过与用户的多轮对话完成用户意图。第一任务模型和第二任务模型可以是相同的任务模型,也可以是不同的任务模型。
本实施例中,第一任务接口调用第一任务模型,也即调用“导航”任务模型执行驾驶员A的导航指令。随后,导航任务模型通过第一任务接口和车机的其他功能与用户进行交互,交互可以是多轮对话。例如:“导航”任务模型向用户提问:请问要去哪里?用户回答去“望京大厦”。“导航”任务模型接着向用户提问:请问是时间最短还是路程最短?用户回答:路程最短。导航任务模型通过用户的回答得到填充槽位的关键信息,执行导航任务,生成从当前位置到望京大厦的路程最短的导航信息,通过车机播放。
第二任务接口调用第二任务模型,也即“订餐”任务模型执行乘客B的订餐指令。同样,订餐任务模型通过第二任务接口和车机的其他功能与用户完成交互,交互同样可以是多轮对话。例如:“订餐”任务模型向用户提问:请问要订哪家餐厅?用户回答“汤城小厨”。“订餐”任务模型接着向用户提问:请问外送还是堂食?用户回答“外送”。“订餐”任务模型接着向用户提问:请问外送地址和联系方式是?用户回答“望京大厦A座1101房间,13710001234”。订餐任务模型根据多轮对话中用户的回答填充任务对应的槽位信息,生成外送订单并完成支付。
在上述两个多轮对话中,存在交叉进行的两个交互,一个是第一任务接口和驾驶员A的交互,一个是第二任务接口和乘客B的交互,上述两个交互涉及的四方如何区别并确认自己的通信对端?这是该多任务并行处理方法中需要解决的一个核心问题。在本实施例中,优选的,通过声纹特征识别完成通信对端的确认。如前所述,车机接收到第一语音输入和第二语音输入后,分别提取声纹特征,得到第一语音输入的第一声纹特征和第二语音输入的第二声纹特征;车机还建立并保存声纹特征和任务接口的对应关系,也即保存第一声纹特征/第一任务接口的对应关系和第二声纹特征/第二任务接口的对应关系。在多轮对话中,同样由车机对用户的回答进行声纹提取,提取到的声纹特征与第一声纹特征匹配时,该用户的回答被识别为针对第一多轮对话的回答,将其发送给第一任务接口,当提取到的声纹特征与第二声纹特征匹配时,该用户回答被识别为针对第二多轮对话的回答,将其发送给第二任务接口。而驾驶员A和乘客B可以通过分辨多轮对话的问题类型来辨别是否针对自己意图的提问,并进行回答。优选的,车机可以根据第三声纹特征来对第一任务模型发起的第一多轮对话的问题进行处理,向用户播放具有第三声纹特征的提问;根据第四声纹特征对第二任务模型发起的第二多轮对话的问题进行处理,向用户播放具有第四声纹特征的提问。这样使得用户能够更容易分辨第一多轮对话和第二多轮对话。
根据本发明的另一个实施例,所述第一语音输入和第二语音输入可以都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
例如,在行驶途中,驾驶员A打开车机,并对车机下发指令:打开导航,再给我订个午饭。车机几乎同时接收到来自第一用户A的第一语音输入“打开导航”和第二语音输入“给我订个午饭”。也即,驾驶员A在先后不到10秒的时间内发出了两个指令。车机接收到该语音输入后,通过语义解析识别出第一任务指令和第二任务指令,例如,利用用户语气中的停顿区分出第一语音输入和第二语音输入,还可以利用现有技术中的其他方法进行识别,在此不再赘述。然后对两个语音输入分别进行语义解析得到第一任务指令和第二任务指令。还可以利用现有的其他方法得到第一任务指令和第二任务指令。
通过语义解析,确定第一任务指令和第二任务指令是两个不同的任务指令,车机分别针对两个任务指令建立两个任务接口,也即,为第一任务指令建立第一任务接口,为第二任务指令建立第二任务接口。两个任务接口互相独立的执行任务。第一任务接口根据第一任务指令调用“导航”任务模型;第二任务接口根据第二任务指令调用“订餐”任务模型。
但是由于两个任务指令都是驾驶员A下达的语音输入具有相同的声纹特征,也就无法通过声纹特征来对后续的输入进行区别。可以通过语义解析区分用户的回答是针对第一任务模型的第一多轮对话还是针对第二任务模型的第二多轮对话。具体的,可以获得用户回答的语义解析结果与第一任务模型和第二任务模型的标签的关联度特征,根据关联度调用第一任务接口或第二任务接口。例如,第一任务模型为导航模型,其标签为“导航”,第二任务模型为“订餐”其标签为“餐饮”,当用户回答为“望京大厦”时,得到望京大厦和导航的关联度特征是90,而望京大厦和餐饮的关联度特征为20,则选择关联度高的任务模型为用户回答针对的任务模型。进一步的,还可以计算用户回答的语义解析结果与第一任务指令和第二任务指令的关联度,与前述关联度进行加权平均得到最终的关联度进行比较,以增加可靠性。通过计算用户回答的语义解析结果与任务指令和/或任务模型标签的关联度,并选取关联度高的任务模型作为用户回答的对端。关联度的计算可以采用现有技术中的相关算法计算,在此不做限定。
优选的,为了避免多轮对话之间的语音冲突,所述多任务并行处理方法还包括输出缓存步骤,也即,第一多轮对话和第二多轮对话产生的问题首先输入车机的缓存队列,由车机按照先进先出的顺序从缓存队列中调用问题生成语音信息向用户播放,还可以在两次问题播放之间设置一定的间隔,使得用户有足够的时间输入该问题的回答。
进一步的,用户可以不同时调用两个任务接口,而是一次调用一个任务接口,当第一任务接口被调用时,其关联的任务模型可以通过与用户的多轮对话直接完成任务;未被调用的第二任务接口处于暂停状态,不接收和响应来自用户的语音输入或回答。当第一任务接口的调用结束时,例如第一任务执行完成,或者用户暂停第一任务接口时,根据用户命令切换到第二任务接口,激活第二任务模型与用户的交互。用户通过任务接口切换命令实现在多个任务接口之间的切换。任务接口切换命令可以是,例如:切换到+任务名,切换到订餐、切换到导航;也可以仅是“切换”,按照默认顺序在多个任务接口之间顺次切换。优选的,当一个任务执行完成时,自动切换到下一个任务接口。
以上实施例涉及两个任务并行处理的情况。本发明的另一个实施例还提供了更多个任务并行处理,例如,三个任务并行处理的情况。进一步的,车机还接收第三语音输入,该第三语音输入可以是同一时间段内来自第三个用户的输入,还可以是同一时间段内第一用户针对第三任务发起的语音输入。根据第三语音输入调用第三任务接口,第三任务接口根据第三语音包含的第三任务指令调用第三任务模型;第三任务模型通过第三任务接口向用户发起第三多轮对话,根据多轮对话中用户的回答填充第三任务模型的槽位,生成并执行第三任务单。
第三多轮对话和第一、第二多轮对话的区分方法类似于第一和第二多轮对话之间的区分方法,在此不再赘述。
根据本发明的另一个实施例,本发明还提供一种多任务并行处理装置,参见附图2,所述装置包括:接收模块、任务接口调用模块、第一任务接口、第二任务接口、第一任务模型和第二任务模型以及输出模块,第一任务接口和第二任务接口分别与任务接口调用模块相连;所述接收模块,用于接收第一语音输入和第二语音输入;所述任务接口调用模块,用于根据第一语音输入调用第一任务接口,根据第二语音输入调用第二任务接口;所述第一任务接口用于根据第一语音输入调用第一任务模型,第二任务接口用于根据第二语音输入调用第二任务模型;所述第一任务模型,用于通过所述第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;所述第二任务模型用于通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;所述任务接口调用模块,还用于在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口;输出模块,向用户输出多轮对话问题。
所述第一任务接口用于调用第一任务模型,第二任务接口用于调用第二任务模型;
根据本发明的一个实施方式,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入。
根据本发明的另一个实施方式,所述第一语音输入和第二语音输入都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
优选的,所述第一语音输入和第二语音输入为同时输入,或者为发生在同一个时间段内的输入。
进一步的,所述多任务并行处理装置还包括解析模块,所述解析模块分别与所述接收模块和所述接口调用模块相连;其中,所述解析模块,用于提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,对第一语音输入和第二语音输入进行语义解析,得到第一任务指令和第二任务指令,并将所述第一、第二声纹特征和第一、第二任务指令发送给所述接口调用模块;在多轮对话步骤,所述解析模块还用于提取用户回答的声纹特征,对用户回答进行语义解析,并将声纹特征和语义解析结果发送给所述接口调用模块。
进一步的,所述接口调用模块判断第一声纹特征和第二声纹特征是否相同,如果不相同,则建立第一任务接口和第一声纹特征、第二任务接口和第二声纹特征的对应关系;如果相同,则保存第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令/第一标签和第二任务指令/第二标签的对应关系。
进一步的,如果第一声纹特征和第二声纹特征不相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块提取的用户回答的声纹特征,判断所述用户回答的声纹特征是否与第一声纹特征和第二声纹特征相匹配,如果与第一声纹特征相匹配,则将该用户回答输入第一任务接口;如果与第二声纹特征相匹配,则将该用户回答输入第二任务接口。
进一步的,如果第一声纹特征和第二声纹特征相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块对用户的回答的语义解析结果,分别获得所述语义解析结果与所述第一任务指令、所述第一标签的关联度,以及所述语义解析结果与所述第二任务指令、所述第二标签的关联度,根据所述关联度判断用户的回答是针对第一多轮对话还是第二多轮对话。
例如用户A和用户B一起出游,两人通过放置于酒店房间的多任务并行处理装置进行景点门票和回程机票的预定。用户A发出向多任务并行处理装置指示“订两张**景点门票”,用户B向多任务并行处理装置指示“订两张20日上午到北京的机票”;多任务并行处理装置的接收模块接收到两个语音输入,第一语音输入“订两张**景点门票”和第二语音输入“订两张20日上午到北京的机票”,接收模块将上述两个语音输入发送到解析模块,解析模块首先提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,然后对语音输入进行语义解析,得到第一任务指令“订两张**景点门票”和第二任务指令“订两张20日上午到北京的机票”,解析模块将提取的声纹特征和解析得到的任务指令发送到任务接口调用模块,任务接口调用模块根据第一任务指令调用第一任务模型也即“订票”任务模型,并建立第一任务接口和第一声纹特征的对应关系;同时,根据第二任务指令调用第二任务模型,也即“订票”任务模型,并建立第二任务接口和第二声纹特征的对应关系。在该实施例中,任务接口调用模块根据两个任务指令调用了两个不同的任务接口,但是所述两个不同的任务接口分别调用了相同的任务模型,能够同时执行属于同一种任务类型的两个不同的任务,也即同时执行同样属于“订票”类型的两个不同的任务,一个是订门票,一个是订机票,从而提高了对用户任务的处理效率。
所述多任务并行处理装置包括输出模块,第一任务模型通过第一任务接口、解析模块和输出模块向用户发起第一多轮对话,第二任务模型通过第二任务接口、解析模块和输出模块向用户发起第二多轮对话,更进一步的,为了使得用户A和用户B便于区分第一多轮对话和第二多轮对话,在输出模块中还包括声纹处理单元,利用处理单元保存的不同的声纹特征对来自不同多轮对话的输出信息进行处理,向用户播放具有不同声纹特征的多轮对话信息,以区分不同的多轮对话;例如,声纹处理单元利用第三声纹特征对第一多轮对话的问题进行处理,利用第四声纹特征对第二多轮对话的问题进行处理,不同的用户从所述多任务并行处理装置听到不同的声音,使得用户A和用户B能够准确区分哪些问题应该由自己回答。进一步的,为了避免同时播放两个问题而产生冲突导致用户听辨困难,所述输出模块还可以包括输出缓存,对来自不同多轮对话的输出信息进行缓存。第一多轮对话和第二多轮对话产生的问题经过解析模块后,首先进入输出模块的输出缓存队列,由输出模块按照先进先出的顺序从输出缓存队列中调用问题生成语音信息向用户播放。
下面分别描述第一多轮对话和第二多轮对话的交互过程,所述第一任务模型提取第一任务指令中的关键信息填充槽位信息,“订两张**景点门票”指令中包含张数信息2,票务类型信息“门票”,以及景点信息“**景点”,第一任务模型根据上述信息分别填充票务类型、景点名称、数量三个槽位,而第四个槽位取票方式和第五槽位信息支付方式的填充信息没有包含在第一任务指令中,第一任务模型发起第一多轮对话,通过第一任务接口、解析模块和输出模块向用户发起提问“获取二维码门票还是现场取纸质门票”?用户回答“二维码门票”。用户的回答首先被所述多任务并行处理模块的输入模块接收,然后由解析模块提取得到第一声纹特征并进行语义解析后发送给任务接口调用模块,任务接口调用模块根据保存的第一声纹特征和第一任务接口的对应关系将语义解析结果发送给第一任务模型,第一任务模型利用该内容填充取票方式槽位为“二维码门票”,然后生成第二问题向用户提问,“请问二维码发送到哪个手机”?利用用户回答的手机号填充“接收手机”槽位。然后,第一任务模型继续发起支付信息的问题,得到用户回答后填充槽位,槽位信息填充完毕后,生成任务执行单,执行任务。
与此同时,第二任务模型也在发起第二多轮对话,填充第二任务的槽位信息,生成第二任务单,并执行任务。
两个多轮对话的问题通常是交叉进行的,在一个问题的间隙播放并提取第二问题,提高了任务执行的效率。
优选的,所述接口调用模块还包括接口切换功能,所述接口调用模块一次调用一个任务接口,当第一任务接口被调用时,其关联的任务模型可以通过与用户的多轮对话直接完成任务;未被调用的第二任务接口处于暂停状态,不接收和响应来自用户的语音输入或回答。当第一任务接口的调用结束时,例如第一任务执行完成,或者用户暂停第一任务接口时,所述接口调用模块根据用户命令切换到第二任务接口,完成第二任务模型与用户的交互。用户通过任务接口切换命令实现在多个任务接口之间的切换。任务接口切换命令可以是,例如:切换到+任务名,切换到订餐、切换到导航;也可以仅是“切换”,按照默认顺序在多个任务接口之间顺次切换。优选的,当一个任务执行完成时,接口调用模块自动切换到下一个任务接口。
优选的,所述多任务并行处理装置可以是单独的硬件装置,例如放置于宾馆房间的多任务并行处理装置,也可以安装于车机、智能家电、手机、PAD、笔记本电脑等智能终端中的硬件模块,还可以是安装于车机、智能家电、手机、PAD、笔记本电脑等智能硬件中的软件模块,能够由车机、智能家电、手机、PAD、笔记本电脑等智能硬件从远程服务器下载安装、下载更新,或者执行删除、清理缓存等操作。
本发明还提供一种多任务并行处理装置,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如前所述的方法。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种多任务并行处理方法,其特征在于,所述方法包括:接收第一语音输入和第二语音输入;根据第一语音输入调用第一任务接口,第一任务接口根据第一语音输入调用第一任务模型;根据第二语音输入调用第二任务接口,第二任务接口根据第二语音输入调用第二任务模型;第一任务模型通过第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;第二任务模型通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口;在所述第一多轮对话和第二多轮对话中,存在相互交叉的两轮对话。
2.根据权利要求1所述的多任务并行处理方法,其特征在于,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入。
3.根据权利要求1所述的多任务并行处理方法,其特征在于,所述第一语音输入和第二语音输入都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
4.根据权利要求1-3任一项所述的多任务并行处理方法,其特征在于,所述第一语音输入和第二语音输入为同时输入,或者为发生在同一个时间段内的输入。
5.根据权利要求4所述的多任务并行处理方法,其特征在于,接收第一语音输入和第二语音输入后,分别提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,并对第一语音输入和第二语音输入进行语义解析,得到第一任务指令和第二任务指令。
6.根据权利要求5所述的多任务并行处理方法,其特征在于,判断第一声纹特征和第二声纹特征是否相同,如果不相同,则建立第一任务接口和第一声纹特征、第二任务接口和第二声纹特征的对应关系;如果相同,则保存第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令和第一标签、第二任务指令和第二标签的对应关系。
7.根据权利要求6所述的多任务并行处理方法,其特征在于,如果第一声纹特征和第二声纹特征不相同,则所述在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,提取用户回答的声纹特征,判断所述用户回答的声纹特征是否与第一声纹特征和第二声纹特征相匹配,如果与第一声纹特征相匹配,则将该用户回答输入第一任务接口;如果与第二声纹特征相匹配,则将该用户回答输入第二任务接口。
8.根据权利要求6所述的多任务并行处理方法,其特征在于,如果第一声纹特征和第二声纹特征相同,则所述在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,对用户的回答进行语义解析,分别获得所述语义解析结果与所述第一任务指令、所述第一标签的关联度,以及所述语义解析结果与所述第二任务指令、所述第二标签的关联度,根据所述关联度判断用户的回答是针对第一多轮对话还是第二多轮对话。
9.根据权利要求1所述的多任务并行处理方法,其特征在于,还接收第三语音输入,根据第三语音输入建立第三任务接口,第三任务接口根据第三语音输入调用第三任务模型;第三任务模型通过第三任务接口向用户发起第三多轮对话,根据多轮对话中用户的回答填充第三任务模型的槽位,生成并执行第三任务单。
10.一种多任务并行处理装置,其特征在于,所述装置包括,接收模块、任务接口调用模块、第一任务接口、第二任务接口、第一任务模型和第二任务模型以及输出模块,第一任务接口和第二任务接口分别与任务接口调用模块相连;所述接收模块,用于接收第一语音输入和第二语音输入;所述任务接口调用模块,用于根据第一语音输入调用第一任务接口,根据第二语音输入调用第二任务接口;所述第一任务接口用于根据第一语音输入调用第一任务模型,第二任务接口用于根据第二语音输入调用第二任务模型;所述第一任务模型,用于通过所述第一任务接口向用户发起第一多轮对话,根据多轮对话中用户的回答填充第一任务模型的槽位,生成并执行第一任务单;所述第二任务模型用于通过第二任务接口向用户发起第二多轮对话,根据多轮对话中用户的回答填充第二任务模型的槽位,生成并执行第二任务单;所述任务接口调用模块,还用于在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话,如果用户的回答针对第一多轮对话,则调用第一任务接口;如果用户回答针对第二多轮对话,则调用第二任务接口;输出模块,向用户输出多轮对话问题;在所述第一多轮对话和第二多轮对话中,存在相互交叉的两轮对话。
11.根据权利要求10所述的多任务并行处理装置,其特征在于,所述第一语音输入具体为第一用户的语音输入;所述第二语音输入具体为第二用户的语音输入。
12.根据权利要求10所述的多任务并行处理装置,其特征在于,所述第一语音输入和第二语音输入都为第一用户的语音输入,第一语音输入为与第一任务相关联的语音输入,第二语音输入为与第二任务相关联的语音输入。
13.根据权利要求10-12任一项所述的多任务并行处理装置,其特征在于,所述第一语音输入和第二语音输入为同时输入,或者为发生在同一个时间段内的输入。
14.根据权利要求13所述的多任务并行处理装置,其特征在于,还包括解析模块,所述解析模块分别与所述接收模块和所述接口调用模块相连;其中,所述解析模块,用于提取第一语音输入的第一声纹特征和第二语音输入的第二声纹特征,对第一语音输入和第二语音输入进行语义解析,得到第一任务指令和第二任务指令,并将第一、第二声纹特征和第一、第二任务指令发送给所述接口调用模块;在多轮对话步骤,所述解析模块还用于提取用户回答的声纹特征,对用户回答进行语义解析,并将声纹特征和语义解析结果发送给所述接口调用模块。
15.根据权利要求14所述的多任务并行处理装置,其特征在于,所述接口调用模块还判断所述第一声纹特征和所述第二声纹特征是否相同,如果不相同,则建立所述第一任务接口和所述第一声纹特征、所述第二任务接口和所述第二声纹特征的对应关系;如果相同,则保存所述第一任务模型的第一标签和第二任务模型的第二标签,建立第一任务指令/第一标签和第二任务指令/第二标签的对应关系。
16.根据权利要求15所述的多任务并行处理装置,其特征在于,如果第一声纹特征和第二声纹特征不相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块提取的用户回答的声纹特征,判断所述用户回答的声纹特征是否与第一声纹特征和第二声纹特征相匹配,如果与第一声纹特征相匹配,则将该用户回答输入第一任务接口;如果与第二声纹特征相匹配,则将该用户回答输入第二任务接口。
17.根据权利要15所述的多任务并行处理装置,其特征在于,如果第一声纹特征和第二声纹特征相同,则所述接口调用模块在多轮对话步骤,判断用户的回答是针对第一多轮对话还是第二多轮对话具体为,接收所述解析模块对用户的回答的语义解析结果,分别获得所述语义解析结果与所述第一任务指令、所述第一标签的关联度,以及所述语义解析结果与所述第二任务指令、所述第二标签的关联度,根据所述关联度判断用户的回答是针对第一多轮对话还是第二多轮对话。
18.根据权利要求10所述的多任务并行处理装置,其特征在于,所述装置还包括第三任务接口和第三任务模型,所述接收模块还接收第三语音输入,所述接口调用模块根据第三语音输入调用第三任务接口,第三任务接口根据第三语音输入调用第三任务模型;所述第三任务模型通过第三任务接口向用户发起第三多轮对话,根据多轮对话中用户的回答填充第三任务模型的槽位,生成并执行第三任务单。
19.一种多任务并行处理装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1至9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至9任一项所述的方法。
CN201910446011.5A 2019-05-27 2019-05-27 一种多任务并行处理方法和装置 Active CN110297702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910446011.5A CN110297702B (zh) 2019-05-27 2019-05-27 一种多任务并行处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910446011.5A CN110297702B (zh) 2019-05-27 2019-05-27 一种多任务并行处理方法和装置

Publications (2)

Publication Number Publication Date
CN110297702A CN110297702A (zh) 2019-10-01
CN110297702B true CN110297702B (zh) 2021-06-18

Family

ID=68027292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910446011.5A Active CN110297702B (zh) 2019-05-27 2019-05-27 一种多任务并行处理方法和装置

Country Status (1)

Country Link
CN (1) CN110297702B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124866B (zh) * 2019-12-26 2023-12-08 光禹莱特数字科技(上海)有限公司 一种语音交互的方法和装置
CN114944155B (zh) * 2021-02-14 2024-06-04 成都启英泰伦科技有限公司 一种终端硬件和算法软件处理相结合的离线语音识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871400A (zh) * 2012-11-13 2014-06-18 通用汽车环球科技运作有限责任公司 用于语音***的方法和***
CN104347074A (zh) * 2013-07-31 2015-02-11 通用汽车环球科技运作有限责任公司 用于管理语音***中的对话语境的***和方法
CN104813311A (zh) * 2012-12-11 2015-07-29 纽昂斯通讯公司 用于多人的虚拟代理推荐的***和方法
EP3264266A1 (en) * 2015-05-20 2018-01-03 Huawei Technologies Co. Ltd. Method for positioning sounding location, and terminal device
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109446306A (zh) * 2018-10-16 2019-03-08 浪潮软件股份有限公司 一种基于任务驱动的多轮对话的智能问答方法
CN109582767A (zh) * 2018-11-21 2019-04-05 北京京东尚科信息技术有限公司 对话***处理方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4365784A2 (en) * 2016-04-18 2024-05-08 Google LLC Automated assistant invocation of appropriate agent

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871400A (zh) * 2012-11-13 2014-06-18 通用汽车环球科技运作有限责任公司 用于语音***的方法和***
CN104813311A (zh) * 2012-12-11 2015-07-29 纽昂斯通讯公司 用于多人的虚拟代理推荐的***和方法
CN104347074A (zh) * 2013-07-31 2015-02-11 通用汽车环球科技运作有限责任公司 用于管理语音***中的对话语境的***和方法
EP3264266A1 (en) * 2015-05-20 2018-01-03 Huawei Technologies Co. Ltd. Method for positioning sounding location, and terminal device
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109446306A (zh) * 2018-10-16 2019-03-08 浪潮软件股份有限公司 一种基于任务驱动的多轮对话的智能问答方法
CN109582767A (zh) * 2018-11-21 2019-04-05 北京京东尚科信息技术有限公司 对话***处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110297702A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
US11915707B1 (en) Outcome-oriented dialogs on a speech recognition platform
US11922925B1 (en) Managing dialogs on a speech recognition platform
CN110442701B (zh) 语音对话处理方法及装置
CN107895578B (zh) 语音交互方法和装置
KR102418511B1 (ko) 서드 파티 에이전트를 사용하기 위한 호출 요청 생성 및 전송
US10984788B2 (en) User-guided arbitration of speech processing results
US10148600B1 (en) Intelligent conversational systems
EP2521121B1 (en) Method and device for voice controlling
US20120253823A1 (en) Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
KR20200054338A (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
WO2002069320A2 (en) Spoken language interface
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
CN110297702B (zh) 一种多任务并行处理方法和装置
US7555533B2 (en) System for communicating information from a server via a mobile communication device
CN110442438B (zh) 一种多设备之间的任务协作方法、设备及***
KR20110127180A (ko) 음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 시스템 및 방법
CN108924218A (zh) 用于推送信息的方法和装置
EP3444810A1 (en) Spoken dialogue management
CN110675875B (zh) 智能语音对话技术电话体验方法和装置
CN112069830B (zh) 一种智能会话方法及装置
KR20090076318A (ko) 실시간 대화 서비스 시스템 및 그 방법
KR20200024511A (ko) 대화 에이전트의 동작 방법 및 그 장치
US11501754B2 (en) Specifying trip destinations from spoken dialogs
CN113132214B (zh) 一种对话方法、装置、服务器及存储介质
CN112700767B (zh) 人机对话打断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant