CN106409283B - 基于音频的人机混合交互***及方法 - Google Patents

基于音频的人机混合交互***及方法 Download PDF

Info

Publication number
CN106409283B
CN106409283B CN201610791966.0A CN201610791966A CN106409283B CN 106409283 B CN106409283 B CN 106409283B CN 201610791966 A CN201610791966 A CN 201610791966A CN 106409283 B CN106409283 B CN 106409283B
Authority
CN
China
Prior art keywords
information
unit
recognition module
module
intervention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610791966.0A
Other languages
English (en)
Other versions
CN106409283A (zh
Inventor
俞凯
石开宇
郑达
陈露
常成
曹迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610791966.0A priority Critical patent/CN106409283B/zh
Publication of CN106409283A publication Critical patent/CN106409283A/zh
Application granted granted Critical
Publication of CN106409283B publication Critical patent/CN106409283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于音频的人机混合交互***,语音识别模块与语义识别模块相连并传输语音对应的文字信息,异常处理模块与语音识别模块和语义识别模块相连,语音识别模块传输文字信息给异常处理模块,语义识别模块传输语义解析结果给异常处理模块;异常处理模块与语音合成模块相连并传输干预信息。本发明还公开了一种基于音频的人机混合交互方法,语音识别模块将语音信息转换为文字信息并输出至语义识别单元;语义识别单元从文字信息中提取用户目的以及相应的关键信息;异常处理模块根据语音识别模块的文字信息以及语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复。本发明的技术方案提供统一的人机对话体验。

Description

基于音频的人机混合交互***及方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于音频的人机混合交互***及方法。
背景技术
如图1所示,目前基于音频的人机对话***均使用机器回复作为最终回复呈现给用户,当机器决策***不能明确用户意图时,大部分对话***选择呈现“请再说一遍”之类的回复以让用户进行重新的输入,其中部分人机对话***引入了基于话务中心的人工干预方法。
目前现有人机对话异常处理主要通过话务中心形式实现,在机器无法处理用户输入音频或者在用户明确表示需要人工服务时,请求人工的话务中心介入,此时用户与话务员之间建立一对一的通话连接,话务员与用户进行直接交流,获知用户的需求并通过话务平台下发相应的指令。
现有话务中心的人工干预方式存在的问题主要有:人工效率低,干预师与用户需要建立一对一的语音交流,等待用户输入的时间段内无法服务其他人;成本高,大规模的呼叫中心需要一系列的电信设备以及相应服务集成,同时由于效率低,需要更多干预师进行干预服务,从而间接提高了人力成本;受网络环境影响大:利用网络资源直接传输音频需要稳定的网络连接,网络环境的波动会导致音频质量下降从而影响对话体验,甚至中断人机对话流程。
因此,本领域的技术人员致力于开发一种基于音频的人机混合交互***及方法,将人工干预回复与机器回复相结合,从而统一人机对话的流程和提升用户体验。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何提高客服过程中人机对话的效率和用户体验。
为实现上述目的,本发明提供了一种基于音频的人机混合交互***,包括语音识别模块、语音合成模块、语义识别模块以及异常处理模块,其中,所述语音识别模块被配置为与所述语义识别模块相连并传输语音对应的文字信息,所述异常处理模块被配置为与所述语音识别模块和所述语义识别模块相连,所述语音识别模块被配置为传输文字信息给所述异常处理模块,所述语义识别模块被配置为传输语义解析结果给所述异常处理模块;所述异常处理模块被配置为与所述语音合成模块相连并传输干预信息。
进一步地,所述语音识别模块包括信号处理及特征提取单元、声学模型、语言模型以及解码器,其中,所述信号处理及特征提取单元被配置为与所述声学模型相连并传输声学特征信息,所述解码器被配置为与所述声学模型和所述语言模型相连并输出识别结果。
进一步地,所述语音合成模块包括文本分析单元、韵律控制单元以及合成语音单元,其中,所述文本分析单元被配置为接收文本信息并对所述文本信息进行处理,将处理结果传输到所述韵律控制单元与所述合成语音单元,所述韵律控制单元被配置为与所述合成语音单元相连,并传输音高、音长、音强、停顿及语调信息,所述合成语音单元被配置为将所述接收文本分析单元的分析结果与所述韵律控制单元的控制参数合成输出的语音。
进一步地,所述语义识别模块包括领域标注单元、意图判断单元、信息提取单元,其中,所述领域标注单元被配置为与所述意图判断单元相连并传输领域信息,所述意图判断单元被配置为与所述信息提取单元相连并传输用户意图信息,所述信息提取单元输出语义分析的结果。
进一步地,所述异常处理模块包括异常检测单元、数据库查询单元以及干预师单元,其中,所述异常检测单元被配置为接收所述语音识别模块和所述语义识别模块的输出,并决定是否采取干预措施,所述数据库查询单元被配置为接收所述异常检测单元的干预信号,并接收所述语义识别模块的语义信息,查询并输出干预消息,所述干预师单元被配置为利用干预师对所述数据库查询单元输出的所述干预消息进行必要的择优以及修改,最终输出给用户的回复消息。
本发明还提供了一种基于音频的人机混合交互方法,包括以下步骤:
步骤1、提供语音识别模块、语音合成模块、语义识别模块以及异常处理模块;
步骤2、所述语音识别模块将语音信息转换为文字信息并输出至所述语义识别单元;
步骤3、所述语义识别单元从文字信息中提取用户目的以及相应的关键信息;
步骤4、所述异常处理模块根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复。
进一步地,在步骤2中,具体包括以下步骤:
步骤2.1、从输入的音频流中提取特征供声学模型处理,同时降低环境噪声、信道和说话人因素对所述特征造成的影响;
步骤2.2、解码器根据声学、语言学模型及词典,对所述声学模型的处理结果,寻找能够以最大概率输出所述音频流的词串,作为语音的识别结果。
进一步地,在步骤3中,具体包括以下步骤:
步骤3.1、利用文字信息中标志性的关键词标记当前对话所属的领域;
步骤3.2、在所述领域中基于规则对用户意图进行判断;
步骤3.3、根据所述领域以及所述用户意图,结合规则,对具体的关键信息进行提取。
进一步地,在步骤4中,具体包括以下步骤:
步骤4.1、异常检测单元根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断当前的人机对话是否出现异常,若异常则由干预师单元接管人机对话;
步骤4.2、数据库查询单元根据语义信息进行数据库的查询,得到具有推荐度的干预消息,如果干预消息的推荐度较高,则直接利用该干预消息进行干预,如果推荐度较低,则请求干预师进行人工介入;
步骤4.3、在机器算法无法找到高推荐度的干预消息时,干预师介入进行干预消息的选择以及修改,随后将修改后的干预消息发送至客户端。
进一步地,所述关键信息包括对话领域、对话关键词,所述对话关键词包括内容关键词和情绪关键词。
与现有技术相比,本发明的技术效果包括:
1、效率提高:充分利用了干预师等待用户输入的时间,使得干预师可同时对多个用户进行干预服务,提高干预的效率。
2、成本减少:无需采购话务中心相关的一系列电信设备,利用现有的计算机以及服务器即可搭建干预平台。
3、工作场景丰富:由于干预师界面采用了B/S(Browser/Server浏览器/服务器)结构,干预师打开浏览器登录相应的网站即可进行干预操作,不必要在工位上接听电话,可以在PAD、智能手机、个人笔记本等移动终端上进行干预服务。
4、网络要求低:文本传输的数据量很小,从而对网络的要求降低,同时用户收听到的语音由本地合成,不受网络情况的影响。
5、统一的人机对话体验:对用户来说,干预师是透明的,用户的体验如同与一个充分智能的“机器”在对话,可以无缝衔接目前的人机对话方式。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为现有传统话务中心的干预模式示意图;
图2为本发明的***模块示意图;
图3为本发明一个较佳实施例的***流程示意图;
图4为本发明一个较佳实施例的角色对话流程示意图。
具体实施方式
本发明是通过以下技术方案实现的:
如图2所示,本发明涉及一种基于音频的人机对话异常处理***,包括:语音识别模块、语音合成模块、语义识别模块以及异常处理模块,其中:语音识别模块与语义识别模块相连并传输语音对应的文字信息,语音识别模块和语义识别模块均与异常处理模块相连,并分别传输文字信息和语义解析结果,异常处理模块与语音合成模块相连并传输干预信息。
所述的语音识别模块包括:信号处理及特征提取单元、声学模型、语言模型以及解码器,其中:信号处理及特征提取单元与声学模型相连并传输声学特征信息,解码器与声学模型和语言模型相连,对外界输出识别结果。
所述的语音合成模块包括:文本分析单元、韵律控制单元以及合成语音单元,,其中:文本分析单元接收文本信息并对其进行处理,将处理结果传输到韵律控制单元与合成语音单元,韵律控制单元与合成语音单元相连,并传输目标的音高、音长、音强、停顿及语调等信息,合成语音单元接收文本分析单元的分析结果与韵律控制单元的控制参数,对外界输出合成的语音。
所述的语义识别模块包括:领域标注单元、意图判断单元、信息提取单元,其中:领域标注单元与意图判断单元相连并传输领域信息,意图判断单元与信息提取单元相连并传输用户意图信息,信息单元与外界相连并传输语义分析的信息。
所述的异常处理模块包括:异常检测单元、数据库查询单元、干预师单元以,其中:异常检测单元接收语音识别模块和语义识别模块的输出,并决定是否采取干预措施,数据库查询单元接收异常检测单元的干预信号,并接收语义识别模块的语义信息,查询并输出干预消息,干预师单元利用干预师对数据库查询单元输出的干预消息进行必要的择优以及修改,最终输出用户回复消息。
本发明涉及上述***的人机对话异常处理方法,具体包括以下步骤:
步骤1、提供语音识别模块、语音合成模块、语义识别模块以及异常处理模块。
步骤2、语音识别模块将语音信息转换为文字信息并输出至语义识别单元,具体步骤包括:
2.1前端处理音频流,从输入信号中提取特征,供声学模型处理。同时尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
2.2解码器对输入的信号根据声学、语言学模型及词典,寻找能够以最大概率输出该信号的词串,作为语音的识别结果。
步骤3、语义识别单元从文字信息中提取用户目的以及相应的关键信息,具体步骤包括:
3.1利用文字信息中标志性的关键词标记当前对话所属的领域。
3.2在具体领域中基于规则对用户的意图进行判断。
3.3根据领域以及用户意图,结合规则,例如预先设定的模板,对具体的关键信息进行提取。
步骤4、异常处理模块根据语音识别模块的文字信息以及语义识别模块的语义信息判断人机对话当前是否出现异常并进行异常的处理以及消息的回复,具体步骤包括:
4.1异常检测单元根据语音识别模块的文字信息以及语义识别模块的语义信息判断当前的人机对话是否出现异常。不异常则由本地客户端进行处理,异常则由干预服务器接管人机对话。
4.2数据库查询单元根据语义信息进行数据库的查询,得到推荐的干预消息,如果干预消息的推荐度较高,则直接利用该干预消息进行干预,如果推荐度较低,则请求干预师进行人工介入。
4.3在机器算法无法找到高推荐度的干预消息时,干预师介入进行干预消息的选择以及修改,随后将修改后的干预消息发送至客户端。
在人机对话异常处理的过程中,用户的语音输入通过机器的语音识别以及语义解析后,会将语音的识别结果以及语义解析的结果以文本的形式传到干预师端,干预师接受到消息之后可以选择发送对话消息或者下发命令消息。对话消息以文本的形式传输到机器,随后通过语音合成***(TTS)合成语音并播放给用户,命令消息则是直接通过机器执行命令。
本实施例包括以下步骤,如图3和图4所示,即用户输入-->干预消息生成-->客户机推送干预消息三个步骤分别进行技术方案的介绍:
1)用户输入
用户进行语音输入的过程中,利用的语音识别***将用户的语音输入音频转换为文字,同时对该句文字进行语义分析(语义分析的结果包括用户当前的对话领域、用户请求服务的关键信息等),最后将文字以及语义分析的结果以文本形式通过HTTP协议的POST方法传输到异常处理模块。
2)干预消息生成
异常处理模块在异常情况下,根据语音识别的文本信息和语义识别的语义槽查询数据库,得到备选的干预消息。如果干预消息的推荐度较高,则直接利用该干预消息进行干预,如果推荐度较低,则请求干预师进行人工介入。干预师在界面上可以看到由异常处理模块提供的辅助数据比如用户输入的识别结果和语义分析的结果等,结合这些信息干预师能够更准确快速地对候选干预消息进行筛选与修改。干预消息分为对话消息与命令消息,均以文本的形式采用统一的Websocket协议进行传输,其区别在与传输内容的不同以及机器的处理方式不同。
3)客户机推送干预消息
客户机收到干预消息后立刻返回干预师“消息已收到”的确认信息,并将干预消息缓存在消息队列中。客户机会监听当前的人机对话状态并在一定条件下尝试从消息队列中取出消息向用户推送,具体的推送时机包括有:1、干预消息到达时,2、TTS合成的语音消息播报完成时;需要满足的条件为1、消息队列不为空,2、客户机的音频播放器当前空闲。如果干预消息成功推送则返回干预师“干预消息已推送”的确认信息。
例如:
1、用户A发出语音指令“我要去一个好玩的地方”。
2、语音识别模块将语音输入转换为文字。
3、语义分析模块处理后得到用户意图为“导航”,导航的目标地的标签为“好玩”。
4、异常处理模块中的异常检测单元收到用户A的服务请求,包含完整的语音识别结果“我要去一个好玩的地方”,和语义分析的结果“导航”、"好玩",同时检测到当前的对话状态出现异常。
5、异常处理模块中的数据库查询单元根据”导航“、”好玩“进行数据库查询,得到一些备选消息比如”请问您要去苏州的好玩小吃吗?“、”为您找个5个与好玩相关的地点“,这两条消息的推荐度都比较低,故请求干预师单元的人工介入。干预师利用异常处理模块得到的数据库查询结果以及语义分析结果和语音识别的文字结果进行干预消息的选择和修改,将干预消息改为”请问您想要怎样的娱乐方式?“,向用户发送该文本消息。
6、客户机收到干预消息后将其存入消息队列,向异常处理模块发送“消息已收到”的反馈,并尝试进行推送。
7、条件满足后进行干预消息的语音合成***合成以及播报,用户听到音频“请问您想要怎样的娱乐方式”,客户机向异常处理模块发送“消息已推送”反馈。
8、客户进行进一步的语音输入“我要去唱歌”
9、ASR***将语音输入转换为文字
10、语义分析得到用户意图为“导航”,导航的目标为“KTV”
11、异常检测单元得到用户A的具体服务需求,包含完整的语音识别结果“我要去唱歌”,和语义分析的结果”导航“、”KTV“。
12、数据库查询单元根据”导航“、”KTV“、以及用户的相关信息进行数据库的搜索,得到备选干预消息”为您推荐xxx请问是否前往?“,同时由于推荐度很高,故绕过干预师单元,直接向客户机发送文字消息”为您推荐xxx请问是否前往?“
13、用户确认前往
14、异常处理***用户推送命令类型的干预消息,包含命令类型“导航”以及目的地的POI信息。
15、客户机从消息队列中取出命令类型“导航”的消息以及相应的POI信息,进行导航操作,客户机向异常处理模块发送“消息已推送”反馈,交互结束。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于音频的人机混合交互***,其特征在于,包括语音识别模块、语音合成模块、语义识别模块以及异常处理模块,其中,所述语音识别模块被配置为与所述语义识别模块相连并传输语音对应的文字信息,所述异常处理模块被配置为与所述语音识别模块和所述语义识别模块相连,所述语音识别模块被配置为传输文字信息给所述异常处理模块,所述语义识别模块被配置为传输语义解析结果给所述异常处理模块;所述异常处理模块被配置为与所述语音合成模块相连并传输干预信息;所述语音合成模块被配置为将所述异常处理模块传输的所述干预信息转化为语音,发送并播放给用户,待所述用户进一步反馈;
所述异常处理模块包括异常检测单元、数据库查询单元以及干预师单元,其中,所述异常检测单元被配置为接收所述语音识别模块和所述语义识别模块的输出,并决定是否采取干预措施,所述数据库查询单元被配置为接收所述异常检测单元的干预信号,并接收所述语义识别模块的语义信息,查询并输出推荐度高的所述干预信息给所述语音合成模块;所述干预师单元被配置为利用干预师对所述数据库查询单元输出的低推荐度的所述干预信息进行必要的择优以及修改,再输送给所述语音合成模块、待所述用户进一步反馈的回复消息。
2.如权利要求1所述的基于音频的人机混合交互***,其特征在于,所述语音识别模块包括信号处理及特征提取单元、声学模型、语言模型以及解码器,其中,所述信号处理及特征提取单元被配置为与所述声学模型相连并传输声学特征信息,所述解码器被配置为与所述声学模型和所述语言模型相连并输出识别结果。
3.如权利要求1所述的基于音频的人机混合交互***,其特征在于,所述语音合成模块包括文本分析单元、韵律控制单元以及合成语音单元,其中,所述文本分析单元被配置为接收文本信息并对所述文本信息进行处理,将处理结果传输到所述韵律控制单元与所述合成语音单元,所述韵律控制单元被配置为与所述合成语音单元相连,并传输音高、音长、音强、停顿及语调信息,所述合成语音单元被配置为接收所述文本分析单元的分析结果与所述韵律控制单元的控制参数合成输出的语音。
4.如权利要求1所述的基于音频的人机混合交互***,其特征在于,所述语义识别模块包括领域标注单元、意图判断单元、信息提取单元,其中,所述领域标注单元被配置为与所述意图判断单元相连并传输领域信息,所述意图判断单元被配置为与所述信息提取单元相连并传输用户意图信息,所述信息提取单元输出语义分析的结果。
5.一种基于音频的人机混合交互方法,其特征在于,包括以下步骤:
步骤1、提供语音识别模块、语音合成模块、语义识别模块以及异常处理模块;
步骤2、所述语音识别模块将语音信息转换为文字信息并输出至所述语义识别模块;
步骤3、所述语义识别模块从文字信息中提取用户目的以及相应的关键信息;
步骤4、所述异常处理模块根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复;
其中,在所述步骤4中,具体包括以下步骤:
步骤4.1、异常检测单元根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断当前的人机对话是否出现异常,若异常则由干预师单元接管人机对话;
步骤4.2、数据库查询单元根据所述语义信息进行数据库的查询,得到具有推荐度的干预信息,如果所述干预信息的推荐度较高,则直接利用所述干预信息进行干预,将所述干预信息发送至客户端,进入所述步骤2等待所述用户进一步反馈;如果推荐度较低,则请求干预师进行人工介入;
步骤4.3、在机器算法无法找到高推荐度的所述干预信息时,干预师介入进行所述干预信息的选择以及修改,随后将修改后的所述干预信息发送至客户端,进入所述步骤2等待所述用户进一步反馈。
6.如权利要求5所述的基于音频的人机混合交互方法,其特征在于,在步骤2中,具体包括以下步骤:
步骤2.1、从输入的音频流中提取特征供声学模型处理,同时降低环境噪声、信道和说话人因素对所述特征造成的影响;
步骤2.2、解码器根据声学、语言学模型及词典,对所述声学模型的处理结果,寻找能够以最大概率输出所述音频流的词串,作为语音的识别结果。
7.如权利要求5所述的基于音频的人机混合交互方法,其特征在于,在步骤3中,具体包括以下步骤:
步骤3.1、利用文字信息中标志性的关键词标记当前对话所属的领域;
步骤3.2、在所述领域中基于规则对用户意图进行判断;
步骤3.3、根据所述领域以及所述用户意图,结合规则,对具体的关键信息进行提取。
8.如权利要求5或7所述的基于音频的人机混合交互方法,其特征在于,所述关键信息包括对话领域、对话关键词,所述对话关键词包括内容关键词和情绪关键词。
CN201610791966.0A 2016-08-31 2016-08-31 基于音频的人机混合交互***及方法 Active CN106409283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610791966.0A CN106409283B (zh) 2016-08-31 2016-08-31 基于音频的人机混合交互***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610791966.0A CN106409283B (zh) 2016-08-31 2016-08-31 基于音频的人机混合交互***及方法

Publications (2)

Publication Number Publication Date
CN106409283A CN106409283A (zh) 2017-02-15
CN106409283B true CN106409283B (zh) 2020-01-10

Family

ID=58001464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610791966.0A Active CN106409283B (zh) 2016-08-31 2016-08-31 基于音频的人机混合交互***及方法

Country Status (1)

Country Link
CN (1) CN106409283B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204185B (zh) * 2017-05-03 2021-05-25 深圳车盒子科技有限公司 车载语音交互方法、***及计算机可读存储介质
CN107122807B (zh) * 2017-05-24 2021-05-21 努比亚技术有限公司 一种家庭监控方法、服务端及计算机可读存储介质
CN107733780B (zh) * 2017-09-18 2020-07-03 上海量明科技发展有限公司 任务智能分配方法、装置及即时通信工具
CN109697226A (zh) * 2017-10-24 2019-04-30 上海易谷网络科技股份有限公司 文本静默座席监控机器人人机对话方法
CN107992587A (zh) * 2017-12-08 2018-05-04 北京百度网讯科技有限公司 一种浏览器的语音交互方法、装置、终端和存储介质
CN110069607B (zh) * 2017-12-14 2024-03-05 株式会社日立制作所 用于客户服务的方法、装置、电子设备、计算机可读存储介质
US10983526B2 (en) 2018-09-17 2021-04-20 Huawei Technologies Co., Ltd. Method and system for generating a semantic point cloud map
CN110970017B (zh) * 2018-09-27 2023-06-23 北京京东尚科信息技术有限公司 人机交互方法及***、计算机***
CN111125384B (zh) * 2018-11-01 2023-04-07 阿里巴巴集团控股有限公司 一种多媒体答案生成方法、装置、终端设备以及存储介质
CN110602334A (zh) * 2019-09-03 2019-12-20 上海航动科技有限公司 一种基于人机协同的智能外呼方法及***
CN110926493A (zh) * 2019-12-10 2020-03-27 广州小鹏汽车科技有限公司 一种导航方法、装置、车辆及计算机可读存储介质
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN112509575B (zh) * 2020-11-26 2022-07-22 上海济邦投资咨询有限公司 一种基于大数据的财务咨询智能引导***
CN112735427B (zh) * 2020-12-25 2023-12-05 海菲曼(天津)科技有限公司 收音控制方法、装置、电子设备及存储介质
CN112735410B (zh) * 2020-12-25 2024-06-07 中国人民解放军63892部队 一种自动语音交互式兵力模型控制方法及***
CN116453540B (zh) * 2023-06-15 2023-08-29 山东贝宁电子科技开发有限公司 水下蛙人语音通信质量增强处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***
CN101276584A (zh) * 2007-03-28 2008-10-01 株式会社东芝 韵律图样产生装置、语音合成装置及其方法
CN102509483A (zh) * 2011-10-31 2012-06-20 苏州思必驰信息科技有限公司 一种口语考试的分布式自动评分***及其方法
CN102982799A (zh) * 2012-12-20 2013-03-20 中国科学院自动化研究所 一种融合引导概率的语音识别优化解码方法
CN104678868A (zh) * 2015-01-23 2015-06-03 贾新勇 一种业务及设备运维监控***
CN105227790A (zh) * 2015-09-24 2016-01-06 北京车音网科技有限公司 一种语音应答方法、电子设备和***
CN105723362A (zh) * 2013-10-28 2016-06-29 余自立 自然表达处理方法、处理及回应方法、设备及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***
CN101276584A (zh) * 2007-03-28 2008-10-01 株式会社东芝 韵律图样产生装置、语音合成装置及其方法
CN102509483A (zh) * 2011-10-31 2012-06-20 苏州思必驰信息科技有限公司 一种口语考试的分布式自动评分***及其方法
CN102982799A (zh) * 2012-12-20 2013-03-20 中国科学院自动化研究所 一种融合引导概率的语音识别优化解码方法
CN105723362A (zh) * 2013-10-28 2016-06-29 余自立 自然表达处理方法、处理及回应方法、设备及***
CN104678868A (zh) * 2015-01-23 2015-06-03 贾新勇 一种业务及设备运维监控***
CN105227790A (zh) * 2015-09-24 2016-01-06 北京车音网科技有限公司 一种语音应答方法、电子设备和***

Also Published As

Publication number Publication date
CN106409283A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106409283B (zh) 基于音频的人机混合交互***及方法
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
CN102196207B (zh) 语音控制电视机的方法、装置和***
US20060235694A1 (en) Integrating conversational speech into Web browsers
CN111128126A (zh) 多语种智能语音对话的方法及***
US11404052B2 (en) Service data processing method and apparatus and related device
KR20180091707A (ko) 패킷화된 오디오 신호의 변조
JP2018510407A (ja) 問答情報の処理方法、装置、記憶媒体及び装置
CN111833875B (zh) 一种嵌入式语音交互***
CN108882101B (zh) 一种智能音箱的播放控制方法、装置、设备及存储介质
CN105206272A (zh) 语音传输控制方法及***
CN101576901A (zh) 搜索请求的产生方法及移动通信设备
CN112866086B (zh) 智能外呼的信息推送方法、装置、设备及存储介质
CN106991106A (zh) 减少由切换输入模态所引起的延迟
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
CN108806688A (zh) 智能电视的语音控制方法、智能电视、***及存储介质
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN111094924A (zh) 用于执行基于语音的人机交互的数据处理装置和方法
CN116431316B (zh) 任务处理方法、***、平台及自动问答方法
JP2022101663A (ja) ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务***
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN110971685B (zh) 内容处理方法、装置、计算机设备及存储介质
US20040143436A1 (en) Apparatus and method of processing natural language speech data
CN109725798B (zh) 智能角色的切换方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200619

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201105

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Ltd.

CP01 Change in the name or title of a patent holder