CN103000052A - 人机互动的口语对话***及其实现方法 - Google Patents
人机互动的口语对话***及其实现方法 Download PDFInfo
- Publication number
- CN103000052A CN103000052A CN2011102754404A CN201110275440A CN103000052A CN 103000052 A CN103000052 A CN 103000052A CN 2011102754404 A CN2011102754404 A CN 2011102754404A CN 201110275440 A CN201110275440 A CN 201110275440A CN 103000052 A CN103000052 A CN 103000052A
- Authority
- CN
- China
- Prior art keywords
- node
- module
- dialogue
- semanteme
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种人机互动的口语对话***,包括:语音识别模块,将用户的语音识别为文字;纠错模块,将语音识别模块输出的文字进行词法和语法层面的纠错;自然语言理解模块,将纠错模块输出的纠错后的文字识别为语义;对话管理模块,根据自然语言理解模块输出的语义,生成对话的语义;自然语言生成模块,将对话管理模块输出的对话语义生成为对话文字;语音合成模块,将自然语言生成模块输出的对话文字生成为对话语音。本发明还公开了所述人机互动的口语对话***的实现方法。该***能回答用户提问,也能主动和用户谈论相关话题,从而营造一种真实的口语对话语言环境。
Description
技术领域
本发明涉及一种采用语音识别(ASR,Automatic Speech Recognition)、对话管理***(Dialog Management System)、自然语言理解(NLU,NatureLanguage Understanding)技术的人机互动的口语对话***。
背景技术
本说明书中的技术术语定义如下:
语音识别,是让机器将语音转换为相应文本的技术。
语义,是指文本(语句)的含义。由于表述方式不同,不同的语句可能是同一语义。
语料,是指大量文本的集合,其中的文本是经过整理并按特定的格式标注过的。
词法,是指文本内词语的构成法则,如词性。
词性标签,是一种对名词、动词、形容词等词性进行标注的方法。
语法,是指文本语句的构成规律。
口语对话对于提高外语水平至关重要,目前市场上的外语口语学习产品,一般以跟读为主。***设定主题场景,用户跟着***练习相关句型,***对用户的发音进行评分。其对话模式仅限于在固定的2~3种回答语句中选择。
发明内容
本发明所要解决的技术问题是提供一种人机互动的口语对话***,该***中人和机器均可自由主导对话过程(Mixed Initiative Conversation)。用户可以主动谈论自己感兴趣的话题,机器会顺着用户的话题进行对话。一旦用户无话可谈,机器会自动挑选相关话题和用户对话,从而营造一种真实的口语对话语言环境。为此,本发明还要提供所述人机互动的口语对话***的实现方法。
为解决以上技术问题,本发明人机互动的口语对话***包括:
语音识别模块,将用户的语音识别为文字;
纠错模块,将语音识别模块输出的文字进行词法和语法层面的纠错;
自然语言理解模块,将纠错模块输出的纠错后的文字识别为语义;
对话管理模块,根据自然语言理解模块输出的语义,生成对话的语义;
自然语言生成模块,将对话管理模块输出的对话语义生成为对话文字;
语音合成模块,将自然语言生成模块输出的对话文字生成为对话语音。
所述人机互动的口语对话***的实现方法包括如下步骤:
第1步,收集口语语料形成语料库;
第2步,用户的语音通过语音识别模块1被识别为文字;
第3步,所述文字通过纠错模块2进行词法和语法层面的纠错;
第4步,纠错后的文字通过自然语言理解模块3被识别为语义;
第5步,对话管理模块4根据所述语义,生成对话的语义;
第6步,所述对话语义通过自然语言生成模块5生成为对话文字;
第7步,所述对话文字通过语音合成模块6生成为对话语音。
本发明人机互动的口语对话***具有如下有益效果:
首先,对话管理模块能回答用户提问,也能主动和用户谈论相关话题,从而营造一种真实的口语对话语言环境;
其次,纠错模块能弥补语音的误识别、口语语法的不严密,减少自然语言理解的无法理解情况,使得人机对话更顺畅;
最后,语音合成模块还可增加多媒体视听效果,加深用户的记忆。
附图说明
图1为本发明人机互动的口语对话***的结构示意图;
图2为形成语料库的流程图;
图3为纠错模块进行纠错的流程图;
图4为对话管理模块生成对话语义的流程图。
图中附图标记说明:
1为语音识别模块;2为自动纠错模块;3为自然语言理解模块;4为对话管理模块;5为自然语言生成模块;6为语音合成模块。
具体实施方式
请参阅图1,这是本发明人机互动的口语对话***的结构示意图。该***包括有以下模块:
——语音识别模块1,将用户的语音识别为文字;
——纠错模块2,将语音识别模块1输出的文字进行词法和语法层面的纠错;
——自然语言理解模块3,将纠错模块2输出的纠错后的文字识别为语义;
——对话管理模块4,根据自然语言理解模块3输出的语义,生成对话的语义;
——自然语言生成模块5,将对话管理模块4输出的对话语义生成为对话文字;
——语音合成模块6,将自然语言生成模块5输出的对话文字生成为对话语音。
所述人机互动的口语对话***的实现方法包括如下步骤:
第1步,收集口语语料形成语料库;
第2步,用户的语音通过语音识别模块1被识别为文字;
第3步,所述文字通过纠错模块2进行词法和语法层面的纠错;
第4步,纠错后的文字通过自然语言理解模块3被识别为语义;
第5步,对话管理模块4根据所述语义,生成对话的语义;
第6步,所述对话语义通过自然语言生成模块5生成为对话文字;
第7步,所述对话文字通过语音合成模块6生成为对话语音。
请参阅图2,上述人机互动的口语对话***的实现方法的第1步具体包括如下步骤:
第1.1步,收集口语语句,例如可采用人工编辑、Wizard of OZ等方法。
第1.2步,分析、识别口语对话的规划(Agenda),即识别出各个语句的语义。所有语句的语义可分为问题语义和回答语义两大类。
第1.3步,将所有问题语义的语义分为多个对话主题,每个对话主题用一颗语义树表示;语义树是一种树状的数据结构,包括一个根节点、多个子节点、多个孙节点……,每个节点表示一个问题语义;
语义树的一个节点包括它所表示的问题语义的名称、该节点的类型、该节点的子节点的名称等。
下面就是语义树的一个节点的示例:
QA_GREETING
type=OR
next=OR(Q_FIRST_MEET,Q_LONG_TIME,Q_NICEMEET)
其中QA_GREETING是问题语义(该节点)的名称,该节点的类型是OR。该节点的子节点的名称是Q_FIRST_MEET、Q_LONG_TIME、Q_NICEMEET中的一个且仅为一个,分别表示初次见面、好久未见和一般见面的情况。
语义树上的节点根据其与子节点的链接关系可以分为三种类型,分别是顺序类型(SEQ)、或者类型(OR)、任意类型(ANY)。
顺序类型表示该节点之后按顺序跟着一个子节点,即当前问题语义之后按顺序跟着一个问题语义。
或者类型表示该节点之后跟着多个子节点,只能选择这多个子节点中的一个且仅有一个子节点,即当前问题语义之后根据不同情况从多个问题语义中只能选择一个。
任意类型表示该节点之后跟着多个子节点,可以以任意顺序选择这多个子节点中的一个或多个子节点,即当前问题语义之后可以从多个问题语义中任意选择。
或者类型与任意类型的区别在于:假设节点A有三个子节点A1、A2、A3,当节点A为或者类型,则对话管理模块只能选择子节点A1、A2、A3中的一个,一旦选择完毕,其余子节点就不能再选择了。而当节点A为任意类型,则对话管理模块只能选择子节点A1、A2、A3中的一个,一旦选择完毕,对话管理模块还可以选择其余子节点。
第1.4步,将所收集的语句编译为多个二进制文件,至少包括:
主题定义文件,用于将所有语句分为多个对话主题;
语义树定义文件,用于将每个对话主题中的所有问题语义形成一个树状的数据结构即语义树,语义树的每个节点表示一个问题语义,每个节点包括语义ID号、类型、各子节点的名称等。
语义定义文件,用于每个问题语义及其对应的回答语义,以及每个问题语义所对应的一组具体语句、每个回答语义所对应的一组具体语句。
语句定义文件,管理所有语句以及各语句的部分发音标注和全部发音标注。部分发音标注的标注内容较少,效率高但不精确,例如为DoubleMetaphone发音标注法。全部发音标注的标注内容较多,效率低但很精确,例如为IPA(International Phonetic Association)发音标注法。
BK树定义文件,建立所有语句间的部分发音标注的Levenshtein距离,以及所有语句间的全部发音标注的Levenshtein距离。这可以采用Burkhard-Keller树算法实现。
所形成的多个二进制文件经过一系列数据转换后,便可用于不同的语音识别引擎1,并具体应用于纠错模块2和对话管理模块4。
总而言之,语料库是大量语句(文本)的集合,并且语料库对这些语句进行了加工处理,形成了多个二进制文件。所述加工处理例如提取各语句语义,对所有语句按照内容分为多个主题,每个主题中的各个问题语义之间的关系用语义树描述等。
所述语音识别模块1将用户的语音识别为文字,该功能由语音识别引擎完成。语音识别引擎的识别效果和语言模型直接相关,对口语对话的大词汇量连续语音识别,一般采用SLM(Statistical Language Model)语言模型。对主题词搜索的语音识别,一般采用SRGS(Speech Recognition GrammarSpecification)语言模型,特别是该模型中的Hotword(也称Magic Word)模式。
本发明所述语音识别模块1例如可采用3元(3-gram)SLM模型作为主要的语音识别引擎,这是一种现有技术,其优点是适合于大词汇量连续语音识别、语料增加时语言识别模型便于维护。
根据本发明人机互动的口语对话***部署的硬件设备的不同,可采用桌面版语音识别引擎、嵌入式语音识别引擎或服务器版语音识别引擎,分别对应于个人计算机、便携式电子设备、服务器——客户端***。
所述纠错模块2将语音识别模块1输出的文字进行词法和语法层面的纠错。词法层面可采用诸如Levenshtein Distance算法,比对语料库中相关语句,纠正语音识别文字的错误单词。语法层面对单词进行词性标签(Partof Speech Tagging),并分析语法结构(Grammatical Structure)纠正语音识别文字的基本语法错误。
请参阅图3,本发明人机互动的口语对话***的实现方法的第3步具体包括如下步骤:
第3.1步,当语音识别模块1识别出的文字与语料库中的语句相匹配,则纠错模块2认为没有发生错误,原样输出;
当语音识别模块1识别出的文字与语料库中的所有语句都不匹配,则纠错模块2认为发生了错误,进入第3.2步纠错;
第3.2步,纠错模块2将该错误语句作为输入,利用Burkhard-Keller树算法找到在语料库中与该错误语句的部分发音标注法的距离小于或等于n的所有语句;n根据语句长度不同而不同,一般为该错误语句所含单词数的四分之一到三分之一,例如语句由12个单词组成,则n取值为3或4。
第3.3步,纠错模块2计算该错误语句与第3.2步找到的各个语句之间的全部发音标注法间的距离,例如计算该错误语句与找到的各个语句之间的IPA发音标注间的Levenshtein距离。并按计算出的距离按由小到大的顺序排序;
第3.4步,如果第3.3步计算出的距离的最小值超过阀值,则纠错模块2认为纠错失败,输出错误提示信息;该错误提示信息例如要求重新向语音识别模块1输入新的语音信号。
如果第3.3步计算出的距离的最小值在阀值以内,则纠错模块2将与该错误语句具有最小的全部发音标注法的距离的语句作为纠错结果输出;
所述阀值的取值一般为该错误语句所含字符数的四分之一到三分之一,例如语句由48个字符组成,则所述阀值的取值范围为12至16。。
本发明所述纠错模块2采用词法纠错作为主要纠错方式,并采用UCREL CLAWS7词性标签法进行语法结构分析。该纠错模块2能将文字中的单词错误(可能是用户发音错误,也可能是语音识别引擎导致的相似音识别错误)、语法错误(如第三人称单数等)自动纠正。该纠错模块2能弥补语音识别模块1的误识别、口语语法的不严密,减少自然语言理解模块3无法理解的情况,使得人机对话更顺畅。
所述自然语言理解模块3将纠错模块2输出的纠错后的文字识别为语义,也就是理解文字的语义。该自然语言理解模块3将纠错后的文字归纳为该语句所表达的语义(Semantic)。说法不同、意思相同的语句归纳为相同语义。该功能可采用乔姆斯基语言学理论,根据词汇、句法规则、语义规则并结合逻辑推导规则和知识库来理解语义。该功能也可采用SSM(Statistical Semantic Model),使用统计学原理对事先标注的大量语料通过机器学习算法(Machine Learning Algorithm)进行训练(Training),经训练后的语义模型用于文字的语义识别。
本发明所述自然语言理解模块3例如可采用SSM方式,这是一种现有技术,其优点是语料增加时便于维护,且随着语料增长,所述人机互动的口语***的用户体验同步增长。
所述对话管理模块4根据自然语言理解模块3输出的语义,生成对话的语义,也就是在人机对话过程中自动产生计算机方的所有语义。该对话管理模块4根据对话上下文(Context)及用户输入语义,推导出机器的答复语义。此处答复是泛指:即如果用户是提问,机器为回答语义;如果用户是回答,则机器可能是下一个相关问题语义。答复语义也称对话语义。
对话管理一般分为基于知识(Knowledge-based)的对话管理***和数据驱动(Data-driven)的对话管理***。前者主要采用规划(Agenda)的方式,规划模型要求从语句中事先分析、识别出规划。后者通过对事先标注的大量语料采用马尔科夫决策过程处理(Markov Decision Processing)生成对话模型。
请参阅图4,所述人机互动的口语对话***的实现方法的第5步具体包括:
第5.1步,当用户提出问题,则对话管理模块首先判断用户所提问题属于哪一个主题,再从该主题的语义树中找到用户所提问题的语义对应的节点,并从该节点中找到该问题语义的回答语义输出;后续的自然语言生成模块5再从该回答语义对应的一组语句中挑选一句回答用户。
当用户未提出问题,则进入第5.2步;
第5.2步,对话管理模块判断用户最近回答的问题属于哪一个主题,再从该主题的语义树中找到用户最近回答的问题的语义对应的节点,再将该节点作为当前节点;
第5.3步,如果当前节点是顺序类型,选择当前节点的下一子节点作为候选节点;
当前节点是或者类型,选择当前节点的下多个子节点的一个且仅为一个子节点作为候选节点;
当前节点是任意类型,选择当前节点的下多个子节点的任意一个子节点作为候选节点;
第5.4步,判断候选节点对应的问题语义是否为用户曾提问过的、或用户曾回答过的、或与用户之前的回答相矛盾的、或与之前选择的节点类型相矛盾的(主要指之前对话管理模块对于或者类型的节点,一旦选择一个子节点后,其余子节点就被排除在后续选择之外的情况);
如有一项为是,则将候选节点作为当前节点,返回第5.3步;
如果全部为否,则将候选节点的问题语义输出。
进一步地,如果当前节点的所有子节点都不符合第5.4步(即都至少有一项为是),则回溯处理当前节点的父节点。如果当前语义树上已没有可以处理的父节点,则对话管理模块4主动向用户说再见。
本发明所述对话管理模块4采用基于知识的对话管理***,其优点是形成了人机双向互动的对话环境,且随着语料增长,所述人机互动的口语对话***的用户体验同步增长。
所述自然语言生成模块5将对话管理模块4输出的对话语义生成为对话文字,也就是生成表达特定语义的文字。该自然语言生成模块5模块根据机器答复语义,对话上下文及相关参数(如用户英语水平),从语料库(Corpora)中挑选生成具体的对话文字。
本发明所述自然语言生成模块5例如采用语句模板的方式实现,可根据语义从对应的多个语句中选择一句,选择的依据包括上下文关系、用户的外语水平等。这是一种现有技术,优点是实现简便。
语音合成模块6将自然语言生成模块5输出的对话文字生成为对话语音,也就是实时生成文字对应的语音。该功能由语音合成引擎完成,语音合成引擎的呈现(Presentation)模块采用语音合成(Text To Speech)和/或预录音方式将对话语音播放给用户听,还可同时通过多媒体动画、视频等形式在用户界面展示。
本发明所述语音合成模块6采用第三方语音合成引擎,这是一种现有技术,在此不再赘述。
以上仅为本发明的优选实施例,并不用于限定本发明。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种人机互动的口语对话***,其特征是,包括:
语音识别模块,将用户的语音识别为文字;
纠错模块,将语音识别模块输出的文字进行词法和语法层面的纠错;
自然语言理解模块,将纠错模块输出的纠错后的文字识别为语义;
对话管理模块,根据自然语言理解模块输出的语义,生成对话的语义;
自然语言生成模块,将对话管理模块输出的对话语义生成为对话文字;
语音合成模块,将自然语言生成模块输出的对话文字生成为对话语音。
2.如权利要求1所述的人机互动的口语对话***的实现方法,其特征是,包括如下步骤:
第1步,收集口语语料形成语料库;
第2步,用户的语音通过语音识别模块被识别为文字;
第3步,所述文字通过纠错模块进行词法和语法层面的纠错;
第4步,纠错后的文字通过自然语言理解模块被识别为语义;
第5步,对话管理模块根据所述语义,生成对话的语义;
第6步,所述对话语义通过自然语言生成模块生成为对话文字;
第7步,所述对话文字通过语音合成模块生成为对话语音。
3.根据权利要求2所述的人机互动的口语对话***的实现方法,其特征是,所述方法第1步具体包括如下步骤:
第1.1步,收集口语语句;
第1.2步,识别出各个语句的语义;所有语句的语义可分为问题语义和回答语义两大类;
第1.3步,将所有问题语义的语义分为多个对话主题,每个对话主题用一颗语义树表示;语义树是一种树状的数据结构,包括一个根节点、多个子节点、多个孙节点……,每个节点表示一个问题语义;
语义树的一个节点包括它所表示的问题语义的名称、该节点的类型、该节点的子节点;
语义树上的节点根据其与子节点的链接关系分为三种类型,分别是顺序类型、或者类型、任意类型:
顺序类型表示该节点之后按顺序跟着一个子节点;
或者类型表示该节点之后跟着多个子节点,只能选择这多个子节点中的一个且仅有一个子节点;
任意类型表示该节点之后跟着多个子节点,可以以任意顺序选择这多个子节点中的一个或多个子节点;
第1.4步,将所收集的语句编译为多个二进制文件,至少包括:
主题定义文件,用于将所有语句分为多个对话主题;
语义树定义文件,用于将每个对话主题中的所有问题语义形成一个树状的数据结构即语义树,语义树的每个节点表示一个问题语义,每个节点包括语义ID号、类型、各子节点;
语义定义文件,用于每个问题语义及其对应的回答语义,以及每个问题语义所对应的一组具体语句、每个回答语义所对应的一组具体语句;
语句定义文件,管理所有语句以及各语句的部分发音标注和全部发音标注;
BK树定义文件,建立所有语句间的部分发音标注的Levenshtein距离,以及所有语句间的全部发音标注的Levenshtein距离。
4.根据权利要求2所述的人机互动的口语对话***的实现方法,其特征是,所述方法第3步具体包括如下步骤:
第3.1步,当语音识别模块识别出的文字与语料库中的语句相匹配,则纠错模块认为没有发生错误,原样输出;
当语音识别模块识别出的文字与语料库中的所有语句都不匹配,则纠错模块认为发生了错误,进入第3.2步纠错;
第3.2步,纠错模块将该错误语句作为输入,利用Burkhard-Keller树算法找到在语料库中与该错误语句的部分发音标注法的距离小于或等于n的所有语句;n的取值范围为所述错误语句所含单词数的四分之一到三分之一;
第3.3步,纠错模块计算该错误语句与第3.2步找到的各个语句之间的全部发音标注法间的距离,并按计算出的距离按由小到大的顺序排序;
第3.4步,如果第3.3步计算出的距离的最小值超过阀值,则纠错模块认为纠错失败,输出错误提示信息;
如果第3.3步计算出的距离的最小值在阀值以内,则纠错模块将与该错误语句具有最小的全部发音标注法的距离的语句作为纠错结果输出;
所述阀值的取值范围为所述错误语句所含字符数的四分之一到三分之一。
5.根据权利要求3或4所述的人机互动的口语对话***的实现方法,其特征是,所述部分发音标注法为Double Metaphone发音标注法,所述全部发音标注法为IPA发音标注法。
6.根据权利要求2所述的人机互动的口语对话***的实现方法,其特征是,所述方法第5步具体包括:
第5.1步,当用户提出问题,则对话管理模块首先判断用户所提问题属于哪一个主题,再从该主题的语义树中找到用户所提问题的语义对应的节点,并从该节点中找到该问题语义的回答语义输出;
当用户未提出问题,则进入第5.2步;
第5.2步,对话管理模块判断用户最近回答的问题属于哪一个主题,再从该主题的语义树中找到用户最近回答的问题的语义对应的节点,再将该节点作为当前节点;
第5.3步,如果当前节点是顺序类型,选择当前节点的下一子节点作为候选节点;
当前节点是或者类型,选择当前节点的下多个子节点的一个且仅为一个子节点作为候选节点;
当前节点是任意类型,选择当前节点的下多个子节点的任意一个子节点作为候选节点;
第5.4步,判断候选节点对应的问题语义是否为用户曾提问过的、或用户曾回答过的、或与用户之前的回答相矛盾的、或与之前选择的节点类型相矛盾的;
如有一项为是,则将候选节点作为当前节点,返回第5.3步;
如果全部为否,则将候选节点的问题语义输出。
7.根据权利要求6所述的人机互动的口语对话***的实现方法,其特征是,所述方法第5.4步中,如果当前节点的所有子节点都至少有一项为是,则回溯处理当前节点的父节点;如果当前语义树上已没有可以处理的父节点,则对话管理模块主动向用户说再见。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102754404A CN103000052A (zh) | 2011-09-16 | 2011-09-16 | 人机互动的口语对话***及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102754404A CN103000052A (zh) | 2011-09-16 | 2011-09-16 | 人机互动的口语对话***及其实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103000052A true CN103000052A (zh) | 2013-03-27 |
Family
ID=47928567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102754404A Pending CN103000052A (zh) | 2011-09-16 | 2011-09-16 | 人机互动的口语对话***及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103000052A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485036A (zh) * | 2014-12-05 | 2015-04-01 | 沈阳理工大学 | 一种自动口语学习*** |
CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互***及方法 |
CN104835368A (zh) * | 2014-02-10 | 2015-08-12 | 淄博职业学院 | 中文教学***及其使用方法 |
CN104952446A (zh) * | 2014-03-28 | 2015-09-30 | 苏州美谷视典软件科技有限公司 | 基于语音交互的数字楼盘展示*** |
CN105138671A (zh) * | 2015-09-07 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互的交互引导方法和装置 |
CN105224683A (zh) * | 2015-10-28 | 2016-01-06 | 北京护航科技有限公司 | 一种自然语言分析智能交互方法及装置 |
CN105511608A (zh) * | 2015-11-30 | 2016-04-20 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及装置、智能机器人 |
CN106205239A (zh) * | 2016-09-18 | 2016-12-07 | 三峡大学 | 一种基于3d立体成像的电子词典*** |
CN106328128A (zh) * | 2016-08-16 | 2017-01-11 | 成都市和平科技有限责任公司 | 一种基于语音识别技术的教学***及方法 |
CN106558309A (zh) * | 2015-09-28 | 2017-04-05 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN106991124A (zh) * | 2017-03-02 | 2017-07-28 | 竹间智能科技(上海)有限公司 | 基于多互动情境编辑的回答方法及*** |
CN107256708A (zh) * | 2016-12-13 | 2017-10-17 | 佛山市小鲜互联电器科技有限公司 | 一种基于冰箱的智能化人机交互*** |
CN107943834A (zh) * | 2017-10-25 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 人机对话的实现方法、装置、设备及存储介质 |
CN108429953A (zh) * | 2018-04-11 | 2018-08-21 | 四川斐讯信息技术有限公司 | 一种外语口语练习用智能耳机及其人机交互方法 |
CN108735220A (zh) * | 2018-04-11 | 2018-11-02 | 四川斐讯信息技术有限公司 | 一种语言学习用智能耳机、智能交互***及人机交互方法 |
CN108932278A (zh) * | 2018-04-28 | 2018-12-04 | 厦门快商通信息技术有限公司 | 基于语义框架的人机对话方法及*** |
CN109035896A (zh) * | 2018-08-13 | 2018-12-18 | 广东小天才科技有限公司 | 一种口语训练方法及学习设备 |
CN109241256A (zh) * | 2018-08-20 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法、装置、计算机设备和可读存储介质 |
CN109478188A (zh) * | 2016-08-16 | 2019-03-15 | 国立研究开发法人情报通信研究机构 | 对话***以及用于其的计算机程序 |
CN110096191A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种人机对话方法、装置及电子设备 |
CN110134235A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种引导式互动的方法 |
CN110265019A (zh) * | 2019-07-03 | 2019-09-20 | 中通智新(武汉)技术研发有限公司 | 一种语音识别的方法及语音机器人*** |
CN110288985A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
CN110415704A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 庭审笔录数据处理方法、装置、计算机设备和存储介质 |
CN110660388A (zh) * | 2018-06-29 | 2020-01-07 | 南京芝兰人工智能技术研究院有限公司 | 一种语音交互点读装置 |
CN111191030A (zh) * | 2019-12-20 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 基于分类的单句意图识别方法、装置和*** |
CN111201566A (zh) * | 2017-08-10 | 2020-05-26 | 费赛特实验室有限责任公司 | 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 |
CN107368473B (zh) * | 2017-08-02 | 2020-08-28 | 杜爽 | 一种语音交互的实现方法 |
CN111739519A (zh) * | 2020-06-16 | 2020-10-02 | 平安科技(深圳)有限公司 | 基于语音识别的对话管理处理方法、装置、设备及介质 |
TWI745878B (zh) * | 2020-03-05 | 2021-11-11 | 宏碁股份有限公司 | 聊天機器人系統及聊天機器人模型訓練方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0592280A1 (fr) * | 1992-10-06 | 1994-04-13 | Sextant Avionique | Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialoque homme-machine |
CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话***的方法 |
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN1677388A (zh) * | 2004-03-30 | 2005-10-05 | 微软公司 | 用于逻辑形式的统计语言模型 |
CN1726508A (zh) * | 2002-10-18 | 2006-01-25 | 独立行政法人科学技术振兴机构 | 基于结构化知识的学习/思考机器和学习/思考方法以及计算机***和信息生成方法 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习*** |
CN101206651A (zh) * | 2006-12-21 | 2008-06-25 | 西门子(中国)有限公司 | 车辆信息语音查询***及方法 |
CN101685499A (zh) * | 2008-09-22 | 2010-03-31 | 因特伟特公司 | 用于纠正字符识别错误的技术 |
CN102023854A (zh) * | 2009-09-18 | 2011-04-20 | 上海智问软件技术有限公司 | 一种基于模板的语义变量抽取方法 |
-
2011
- 2011-09-16 CN CN2011102754404A patent/CN103000052A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0592280A1 (fr) * | 1992-10-06 | 1994-04-13 | Sextant Avionique | Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialoque homme-machine |
CN1726508A (zh) * | 2002-10-18 | 2006-01-25 | 独立行政法人科学技术振兴机构 | 基于结构化知识的学习/思考机器和学习/思考方法以及计算机***和信息生成方法 |
CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话***的方法 |
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN1677388A (zh) * | 2004-03-30 | 2005-10-05 | 微软公司 | 用于逻辑形式的统计语言模型 |
CN101206651A (zh) * | 2006-12-21 | 2008-06-25 | 西门子(中国)有限公司 | 车辆信息语音查询***及方法 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习*** |
CN101685499A (zh) * | 2008-09-22 | 2010-03-31 | 因特伟特公司 | 用于纠正字符识别错误的技术 |
CN102023854A (zh) * | 2009-09-18 | 2011-04-20 | 上海智问软件技术有限公司 | 一种基于模板的语义变量抽取方法 |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571485B (zh) * | 2013-10-28 | 2017-12-12 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互***及方法 |
CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互***及方法 |
CN104835368A (zh) * | 2014-02-10 | 2015-08-12 | 淄博职业学院 | 中文教学***及其使用方法 |
CN104952446A (zh) * | 2014-03-28 | 2015-09-30 | 苏州美谷视典软件科技有限公司 | 基于语音交互的数字楼盘展示*** |
CN104485036A (zh) * | 2014-12-05 | 2015-04-01 | 沈阳理工大学 | 一种自动口语学习*** |
CN104485036B (zh) * | 2014-12-05 | 2018-08-10 | 沈阳理工大学 | 一种自动口语学习*** |
CN105138671A (zh) * | 2015-09-07 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互的交互引导方法和装置 |
CN106558309A (zh) * | 2015-09-28 | 2017-04-05 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN106558309B (zh) * | 2015-09-28 | 2019-07-09 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN105224683A (zh) * | 2015-10-28 | 2016-01-06 | 北京护航科技有限公司 | 一种自然语言分析智能交互方法及装置 |
CN105511608A (zh) * | 2015-11-30 | 2016-04-20 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及装置、智能机器人 |
CN105511608B (zh) * | 2015-11-30 | 2018-12-25 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及装置、智能机器人 |
CN106328128A (zh) * | 2016-08-16 | 2017-01-11 | 成都市和平科技有限责任公司 | 一种基于语音识别技术的教学***及方法 |
CN109478188A (zh) * | 2016-08-16 | 2019-03-15 | 国立研究开发法人情报通信研究机构 | 对话***以及用于其的计算机程序 |
CN106205239A (zh) * | 2016-09-18 | 2016-12-07 | 三峡大学 | 一种基于3d立体成像的电子词典*** |
CN107256708A (zh) * | 2016-12-13 | 2017-10-17 | 佛山市小鲜互联电器科技有限公司 | 一种基于冰箱的智能化人机交互*** |
CN106991124A (zh) * | 2017-03-02 | 2017-07-28 | 竹间智能科技(上海)有限公司 | 基于多互动情境编辑的回答方法及*** |
CN107368473B (zh) * | 2017-08-02 | 2020-08-28 | 杜爽 | 一种语音交互的实现方法 |
CN111201566A (zh) * | 2017-08-10 | 2020-05-26 | 费赛特实验室有限责任公司 | 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 |
CN107943834B (zh) * | 2017-10-25 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 人机对话的实现方法、装置、设备及存储介质 |
CN107943834A (zh) * | 2017-10-25 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 人机对话的实现方法、装置、设备及存储介质 |
CN108735220A (zh) * | 2018-04-11 | 2018-11-02 | 四川斐讯信息技术有限公司 | 一种语言学习用智能耳机、智能交互***及人机交互方法 |
CN108429953A (zh) * | 2018-04-11 | 2018-08-21 | 四川斐讯信息技术有限公司 | 一种外语口语练习用智能耳机及其人机交互方法 |
CN108932278A (zh) * | 2018-04-28 | 2018-12-04 | 厦门快商通信息技术有限公司 | 基于语义框架的人机对话方法及*** |
CN110660388A (zh) * | 2018-06-29 | 2020-01-07 | 南京芝兰人工智能技术研究院有限公司 | 一种语音交互点读装置 |
CN109035896A (zh) * | 2018-08-13 | 2018-12-18 | 广东小天才科技有限公司 | 一种口语训练方法及学习设备 |
CN109241256B (zh) * | 2018-08-20 | 2022-09-27 | 百度在线网络技术(北京)有限公司 | 对话处理方法、装置、计算机设备和可读存储介质 |
CN109241256A (zh) * | 2018-08-20 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法、装置、计算机设备和可读存储介质 |
CN110096191A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种人机对话方法、装置及电子设备 |
US11355109B2 (en) | 2019-04-24 | 2022-06-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for man-machine conversation, and electronic device |
CN110134235B (zh) * | 2019-04-25 | 2022-04-12 | 广州智伴人工智能科技有限公司 | 一种引导式互动的方法 |
CN110134235A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种引导式互动的方法 |
CN110415704A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 庭审笔录数据处理方法、装置、计算机设备和存储介质 |
CN110288985A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
CN110265019A (zh) * | 2019-07-03 | 2019-09-20 | 中通智新(武汉)技术研发有限公司 | 一种语音识别的方法及语音机器人*** |
CN111191030A (zh) * | 2019-12-20 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 基于分类的单句意图识别方法、装置和*** |
CN111191030B (zh) * | 2019-12-20 | 2024-04-26 | 北京淇瑀信息科技有限公司 | 基于分类的单句意图识别方法、装置和*** |
TWI745878B (zh) * | 2020-03-05 | 2021-11-11 | 宏碁股份有限公司 | 聊天機器人系統及聊天機器人模型訓練方法 |
CN111739519A (zh) * | 2020-06-16 | 2020-10-02 | 平安科技(深圳)有限公司 | 基于语音识别的对话管理处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103000052A (zh) | 人机互动的口语对话***及其实现方法 | |
Chen et al. | Automated scoring of nonnative speech using the speechrater sm v. 5.0 engine | |
Litman et al. | Recognizing student emotions and attitudes on the basis of utterances in spoken tutoring dialogues with both human and computer tutors | |
Skantze | Error handling in spoken dialogue systems-managing uncertainty, grounding and miscommunication | |
CN101739870B (zh) | 交互式语言学习***及交互式语言学习方法 | |
US20060161434A1 (en) | Automatic improvement of spoken language | |
CN110782880B (zh) | 一种韵律生成模型的训练方法及装置 | |
CN101551947A (zh) | 辅助口语语言学习的计算机*** | |
Griol et al. | An architecture to develop multimodal educative applications with chatbots | |
Aksënova et al. | How might we create better benchmarks for speech recognition? | |
Komatani et al. | User modeling in spoken dialogue systems to generate flexible guidance | |
CN109949799B (zh) | 一种语义解析方法及*** | |
CN106803422A (zh) | 一种基于长短时记忆网络的语言模型重估方法 | |
KR20160008949A (ko) | 음성 대화 기반의 외국어 학습 방법 및 이를 위한 장치 | |
Lee et al. | Hybrid approach to robust dialog management using agenda and dialog examples | |
Skantze | Galatea: A discourse modeller supporting concept-level error handling in spoken dialogue systems | |
Klaylat et al. | Enhancement of an Arabic speech emotion recognition system | |
Christodoulides et al. | Automatic detection and annotation of disfluencies in spoken French corpora | |
CN110675292A (zh) | 一种基于人工智能的儿童语言能力评测方法 | |
US20210264812A1 (en) | Language learning system and method | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和*** | |
Skidmore | Incremental disfluency detection for spoken learner english | |
CN109885835B (zh) | 一种获取用户语料中词语之间的关联关系的方法和*** | |
Ihori et al. | Parallel corpus for Japanese spoken-to-written style conversion | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、***、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130327 |