CN109493850B - 成长型对话装置 - Google Patents

成长型对话装置 Download PDF

Info

Publication number
CN109493850B
CN109493850B CN201810809616.1A CN201810809616A CN109493850B CN 109493850 B CN109493850 B CN 109493850B CN 201810809616 A CN201810809616 A CN 201810809616A CN 109493850 B CN109493850 B CN 109493850B
Authority
CN
China
Prior art keywords
knowledge
intention
text
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810809616.1A
Other languages
English (en)
Other versions
CN109493850A (zh
Inventor
永松健司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN109493850A publication Critical patent/CN109493850A/zh
Application granted granted Critical
Publication of CN109493850B publication Critical patent/CN109493850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

目的是在利用声音进行学习的对话***中,基于知识的特性将得到的知识适当地分类而用于对话,由此提高对话的精度。一种成长型对话装置,与用户进行声音对话而将声音对话的结果作为知识进行储存,具有:声音识别部,根据所取得的用户的讲话声音进行声音识别,转化为文本;意图理解部,参照根据意图理解学习数据进行学习而得到的意图理解模型数据,从由声音识别部进行声音识别而得到的文本解析讲话意图;应答生成部,参照QA DB,根据由意图理解部解析出的讲话意图,生成应答文本;知识提取部,从由声音识别部进行声音识别而得到的文本、讲话意图、应答文本,提取知识;以及知识分类部,将由知识提取部提取的知识根据特性进行分类。

Description

成长型对话装置
技术领域
本发明涉及成长型对话装置,特别涉及适合获得用来自动进行声音对话的知识信息的成长型对话装置。
背景技术
开发了在计算机或机器人与作为人的用户之间通过声音进行对话的***(以下,称作对话***)。搭载了该对话***的机器人、或者智能电话、平板PC等设备(以下称作“对话设备”)使对话***动作,对于对面的用户实施基于声音对话的服务。
在该对话***中,首先,用麦克风收集用户讲话的声音,进行声音识别。接着,对于被写出的文本,通过被称作意图理解的处理,判别用户说了想要对话***做什么。最后,基于判别结果,对话设备执行用户希望的动作,例如对于询问的回答的朗读或信息的显示等动作,如果是机器人则进行移动等动作。
在该对话***中,在用户进行了***不知道回答的询问的情况下,以往对话***做出“不知道”等回答,但可以相反地从***向用户寻求该询问的回答,以该结果来更新询问应答的知识。在专利文献1中公开了这样的对话***的结构。在专利文献1的声音对话装置中,在从用户听到了不知道的内容的情况下向该用户反问其回答,将该询问内容和回答进行存储,用于以后的对话。因此,因不知道的对话内容而使对话中断、或变更用户提示的话题的必要性变小,并且能够通过学习,增加新的情景(scenario)及语汇来提高知识,并反映到从下次起的与用户的对话。
同样,对话***中也存在如下***结构:不是学习询问的回答内容本身,而是学习在用户使用的询问中所使用的表现,并更新知识以便能够应对变化更大的询问表现。
专利文献1:日本特开2004-109323号公报
在以往的对话***中,如上述那样进行反问等而得到的知识通常被用在该***在这以后进行声音对话的全部用户及全部上下文中。但是,新学习的回答知识可以分类为总是能使用的知识、仅特定的对话设备可以使用的知识、或能够在承担特定作用的对话设备间共用的知识等。同样,与询问表现的变化有关的知识也可以分类为总是能使用的知识、仅能对特定的用户使用的知识(或对特定的用户特别有效的知识)、在对话情景的特定的上下文中能使用的知识等。
在以往的对话***中,并没有考虑到基于这样的知识的特性来切换将所得到的知识在怎样的情况下使用为好。因此,有将与某用户的个人信息有关的回答知识用于其他用户、或学习仅特定的用户使用的询问表现知识等,从而降低对话的精度等的问题。
发明内容
本发明提供在利用声音进行学习的对话***中、基于知识的特性将所得到的知识适当地分类而用于对话、从而能够提高对话的精度的成长型对话装置。
本发明的成长型对话装置的结构优选的是,与用户进行声音对话并将声音对话的结果作为知识进行储存的成长型对话装置,具有:声音识别部,根据所取得的用户的讲话声音进行声音识别,并转化为文本;意图理解部,参照根据意图理解学习数据进行学习而得到的意图理解模型数据,从由声音识别部进行声音识别而得到的文本,解析讲话意图;应答生成部,参照QA DB,根据由意图理解部解析出的讲话意图生成应答文本;知识提取部,从由声音识别部进行声音识别而得到的文本、讲话意图、应答文本,提取知识;以及知识分类部,将由知识提取部提取出的知识根据特性进行分类。
发明效果
根据本发明,能够提供在利用声音进行学习的对话***中、基于知识的特性将所得到的知识适当地分类而用于对话、从而能够提高对话的精度的成长型对话装置。
附图说明
图1是表示有关实施方式1的成长型对话装置的功能结构的图。
图2是表示意图理解用模型数据的一例的图。
图3是表示意图理解用学习数据的一例的图。
图4是表示QA DB的一例的图。
图5是表示有关实施方式1的成长型对话装置的处理的流程的图。
图6是表示有关实施方式1的知识分类处理的流程图。
图7是表示情景上下文依赖度及任务上下文依赖度的计算处理的流程图。
图8是表示个人性依赖度的计算处理的流程图。
图9是表示有关实施方式2的成长型对话装置的功能结构的图。
图10是表示有关实施方式2的成长型对话装置的处理的流程的图。
图11是表示有关实施方式2的知识分类处理的流程图。
标号说明
101 用户讲话声音
102 讲话区间检测处理
103 声音识别处理
104 意图理解处理
105 应答生成处理
106 声音合成处理
107 应答声音
108 声音识别用模型数据
109 意图理解用模型数据
110 意图理解模型学习处理
111 QA DB(通常)
113 QA DB(特定任务)
114 QA DB(特定设备)
117 工作日志
118 知识提取处理
120 知识分类处理
121 意图理解用学习数据(通常)
122 意图理解用学习数据(特定用户)
123 意图理解用学习数据(情景节点)
124 知识保存处理
具体实施方式
以下,使用图1至图11说明有关本发明的各实施方式。
〔实施方式1〕
以下,使用图1至图8说明本发明的实施方式1。
首先,使用图1对有关实施方式1的成长型对话装置的结构进行说明。
有关本实施方式的成长型对话装置200如图1所示,由处理部210、存储部220、声音输入输出部230构成。成长型对话装置200既可以是PC或智能电话等通常的信息处理装置,也可以是用来施行特定的业务的机器人。
在声音输入输出部230上,连接着麦克风231和扬声器232,从麦克风231输入用户的声音,从扬声器232向用户输出声音。
处理部210是执行成长型对话装置200的各处理的部分,由讲话区间检测部211、声音识别部212、意图理解部213、意图理解模型学习部214、应答生成部215、声音合成部216、知识提取部217、知识分类部218、知识保存部219的子组件构成。
处理部210的子组件的功能通过由作为硬件的中央处理装置(CPU)执行主存储装置上的程序而被执行。
讲话区间检测部211是从用户声音中检测无声部、检测讲话区间的功能部。声音识别部212是对用户声音进行声音识别而转化为文本的功能部。意图理解部213是根据进行声音识别而得到的文本,阐释用户的讲话意图的功能部。意图理解模型学习部214是根据意图理解学习数据(后述)生成意图理解模型数据(后述)的功能部。应答生成部215是基于意图理解部213的处理来生成用于成长型对话装置200的应答的数据的功能部。声音合成部216是成长型对话装置200生成用于向用户应答的声音数据的功能部。知识提取部217是基于应答生成部215的处理来获得知识信息的功能部。知识分类部218是判定由知识提取部217提取的知识信息的保存部位的功能部。知识保存部219是将知识信息向QA DB(后述)和意图理解学习数据(后述)保存的功能部。
存储部220是保存用来执行成长型对话装置200的各处理的所需数据的部分,存储声音识别用模型数据108、意图理解用模型数据109、意图理解用学习数据(通常)121、意图理解用学习数据(特定用户)122、意图理解用学习数据(情景节点)123、QA DB(通常)111、QADB(特定任务)113的各种数据。
声音识别用模型数据108是用来将声响数据变换为音素或识别词语的连接的由概率值构成的声音识别用的基准数据。意图理解用模型数据109是用来从识别出的文本提取意图的基准数据。意图理解用学习数据是用来将识别出的文本与用户的讲话意图联系起来的学习数据。对于本实施方式的意图理解用学习数据,设想意图理解用学习数据(通常)121、意图理解用学习数据(特定用户)122、意图理解用学习数据(情景节点)123这三个种类的学习数据。关于意图理解用学习数据的详细情况,在后面说明。
QA DB(Question and Answer DataBase:问答数据库)是将用户的讲话意图与用来应答的回答联系起来的数据。对于本实施方式的QA DB,设想QA DB(通常)111、QA DB(特定任务)113这两个种类的DB。
接着,使用图2至图4,对在本实施方式的成长型对话装置中使用的数据构造的主要部分进行说明。
意图理解用模型数据109是用来从识别出的文本提取意图的基准数据,如图2所示,由文本109a、命令109b、置信度109c的字段构成。
文本109a是保存从意图理解用学习用数据得到的文本的单词序列的字段。命令109b是保存用于成长型对话装置动作的命令的字段。置信度109c是保存将在与用户的对话中出现了文本109a的单词时、成长型对话装置用记述在命令109b中的命令进行应对时的或然性在0~1之间进行数值化的概率的字段。
例如,在图2的第三记录所示的例子中,表示了当在与用户的对话中出现了“高尾山”、“高度”、“几米”或“高”这样的单词时,作为询问的应答而回答高尾山的高度的置信度是0.9。
意图理解用学习数据(通常)121是用来根据被识别出的文本学习意图并制作意图理解用模型数据109的元数据,如图3所示,由文本121a、命令121b的字段构成。
文本121a是保存将用户的对话进行声音识别而写出的文本的字段。命令121b是保存与文本121a对应的用于成长型对话装置进行动作的命令的字段。在图3所示的例子中,表示了与命令121b作为询问应答而回答“高尾山的高度”的情况对应的文本是“高尾山的高度是”、“高尾山的高度是多少”、“高尾山与富士山的高度相差多少”等。
此外,虽然作为图没有表示,但意图理解用学习数据(特定用户)122是按每个特定的用户分别存在的学习数据,在没有进行对于该用户的知识获得的情况下内容物为空。
进而,虽然作为图没有表示,但意图理解用学习数据(情景节点)123是按每个特定的情景树(scenario tree)而存在的学习数据。这里,情景树是表示成长型对话装置的对话中的对应的树,情景节点是表示对话装置的对应的有限状态的节点。成长型对话装置按照情景树被设计成,通过来自用户的对话的输入而变迁节点,进行向用户的对话的应答。
QA DB(通常)111是对应于询问回答的内容而保存其回答的数据,如图4所示,由I字段111a、A字段111b构成。
I字段111a是保存表示询问的意图标签的字段。这里,意图标签如“高尾山的高度”、“高尾山的位置”等那样,是表示询问的意图的识别码。A字段111b是保存与I字段111a的询问的意图对应的回答的字段。在图4所示的例子中,表示了作为对于询问意图“高尾山的高度”的回答而保存“599米”、作为对于询问意图“高尾山的位置”的回答而保存“东京都八王子市”。
此外,QA DB(特定任务)113是按每个特定的任务而制作、根据关于该特定的任务的询问回答的内容而保存其回答的数据。特定的任务是指成长型对话装置针对关于对话应答而接受的命令进行动作。
接着,使用图5至图8对成长型对话装置的处理进行说明。
首先,使用图5对经由成长型对话装置(对话设备)的声音对话处理的流程、特别是成长型对话装置对于用户讲话的询问声音讲出回答声音为止的一系列的处理的流程进行说明。
成长型对话装置总是用图1所示的麦克风231将声音持续集音。在该状况下,用户发出的用户讲话声音101在由麦克风变换为数字信号后,由讲话区间检测处理102仅切离出用户的声音部分。接着,通过声音识别处理103进行声音识别处理,被写出为与声音对应的文本。这里,声音识别处理103使用声音识别用模型数据108。接着,在意图理解处理104中,基于文本中包含的单词信息,决定用户询问的意图标签。这里,意图标签如已经说明那样,如“高尾山的高度”、“高尾山的位置”等那样,是表示询问的意图的识别码。为了根据单词信息决定该意图信息,使用意图理解用模型数据109。接着,在应答生成处理105中,在两种QADB内检索由意图理解处理104决定的I字段的意图标签,将与保存在对应的A字段中的回答文本输出。最后,在声音合成处理106中将回答文本变换为合成声音,经由扬声器232从对话设备作为应答声音107发出。
意图理解用模型数据109是通过意图理解模型学习处理110,根据将意图理解用学习数据(通常)121和意图理解用学习数据(特定用户)122结合的学习数据进行了机械学习的模型数据。这里,意图理解用学习数据(特定用户)122是按每个用户分别存在的数据,在没有进行对该用户的知识获得的情况下内容为空。当对话设备检测到新的用户而开始声音对话服务时,使用脸识别或生物体信息认证技术等识别该用户,如果是已知的用户,则在选择该用户用的意图理解用学习数据(特定用户)122后,进行上述的机械学习处理。当为未知的用户的情况下,准备空的数据,作为该用户用的意图理解用学习数据(特定用户)122新追加到***。这样,在对话设备服务于某用户的状况下,意图理解用模型数据109进行对于该用户特殊化的意图理解模型学习。
此外,意图理解用学习数据(特定情景)123是按每个情景树分别存在的数据,在没有进行对于该情景的知识获得的情况下内容为空。
在QA DB中,如上述那样,有QA DB(通常)111、QA DB(特定任务)113这两种。QA DB(通常)111是保存有不管是哪个用户、哪个任务、哪个对话设备都能够利用的回答信息的DB,QA DB(特定任务)113是保存有只有执行某特定的任务的对话设备才能够回答的回答信息的DB。
这些QA DB如上述那样,基本上是拥有I字段和A字段这二个字段的表,在I字段中保存有预先定义的意图标签,在A字段中保存有对于该意图标签所表示的询问的回答文本。此外,QA DB(特定任务)113、QA DB(特定设备)114也是对于多个任务或多个对话设备分别存在的DB,与用户同样,每当任务或对话设备变化时进行切换。
如上述那样,在本实施方式的成长型对话装置中,采用称作任务的概念。任务是指表示对话设备实施的服务的内容的信息,例如可以考虑“顾客引导任务”“商品说明任务”等。在一个个成长型对话装置中,在一时期中被分配某一个任务,以与该任务对应的内容(content)实施服务。当然,在切换了任务时,三种意图理解用学习数据、两种QA DB可以通过一齐切换为该任务用的数据而使对话的精度提高。
基于从应答生成处理105输出的回答文本、声音识别处理103的写出文本、意图理解处理104的意图标签和其置信度、应答生成处理105中的QA DB的检索结果(成功/失败)等信息,由知识提取处理118提取新的知识信息。这里输出的知识信息是写出文本Q、意图标签I、回答文本A这三个信息。
知识提取处理118例如可以取以下这样的次序。
(意图标签的置信度低的情况)
在意图标签的置信度是某阈值T1以下的情况下,在应答生成处理105中能够检索回答文本,但不实施该回答文本的朗读。并且,在知识提取处理118中,通过向用户进行反问,取得回答文本。这里,设想用户和进行了询问的用户是不同的用户,是能够从其获得知识的主体。例如,假设写出文本是“告诉我高尾山的高度”,则对话***通过对该文本进行定型的句子开头(日语中句子结尾)表现变换处理,向用户进行“请告诉我高尾山的高度”的询问。对此,如果用户回答“是599米”,则在声音识别处理后,通过进行将定型的句子开头表现删除等的文本处理,得到“599米”的文本。进而,通过由对话***追加自身固有的句子开头表现,得到“是599米”的回答文本。结果,能够输出写出文本Q“告诉我高尾山的高度”、新制作出的意图标签I“告诉我高尾山的高度”、对应的回答文本A“是599米”这样的提取知识。新制作的意图标签必须是与已经存在的标签不一致的唯一的标签。在上述例子中将写出文本Q原样作为标签,但如果存在相同的意图标签,则对于末尾赋予识别号码等而使其成为唯一是容易的。
(意图标签不包含在QA数据库中的情况)
当应答生成处理105中检索QA数据库时在I字段中不存在被指定的意图标签的情况下,与上述同样,对话***进行反问而取得回答文本。结果,能够输出写出文本Q、意图标签I、回答文本A这三个信息。
(意图标签的置信度高、也包含在QA DB中的情况)
在意图标签的置信度比阈值T1高、也包含在QA DB中的情况下,不实施知识提取处理118,而仅实施由应答生成处理105检索出的回答文本的朗读。
在执行了知识提取处理118、输出了上述三个知识信息的情况下,将它们作为向下个知识分类处理120的输入。在知识分类处理120中,决定将这些知识信息保存到哪个意图理解用学习数据、哪个QA数据库中。
最后,基于知识分类处理120的判定结果,将由知识保存处理124提取出的知识信息(Q,I,A)保存到适当的地方。即,以规定的形式,将写出文本Q向意图理解学习用数据的文本字段保存,将意图标签I向意图理解学习用数据的命令字段和QA DB的I字段保存,将回答文本A向QADB的I字段的A字段保存。
接着,使用图6对知识分类处理120的详细情况进行说明。
首先,基于被输入的知识信息,检索其意图标签I和回答文本A的组是否被保存在某个QA DB的I字段及A字段中(S201)。在检索到这样的记录的情况下(S201:是),判断该知识信息不是新的回答知识的提取,而是新的表现知识的提取结果。在此情况下,接着计算写出文本Q即该文本的询问表现的情景上下文依赖度C(S202)(详细情况后述)。进而,计算Q的个人依赖度U(S203)(详细情况后述)。并且,通过将情景上下文依赖度C和个人依赖度U的大小与某个阈值C0、U0比较(S204、S205),决定应作为该知识信息(表现信息)的保存目的地的意图理解用学习数据的地方。即,当情景上下文依赖度C比阈值C0大时(S204:是),保存到意图理解用学习数据(情景节点)123中,当情景上下文依赖度C不比阈值C0大时(S204:否),向S205前进。当个人依赖度U比阈值U0大时(S205:是),保存到意图理解用学习数据(特定用户)122,当不大时(S205:否),保存到意图理解用学习数据(通常)121。
另一方面,在处理S201中没有检索到记录的情况下(S201:否),将提取出的知识信息判断为回答知识。在此情况下,计算回答文本A的任务上下文依赖度T(S207)(详细情况后述),通过与某阈值T0的比较,将保存部位分类为QA DB(通常)111或QA DB(特定任务)113。即,当任务上下文依赖度T比阈值T0大时(S208:是),将所获得的回答知识(I,A)保存到QADB(特定任务)113,当任务上下文依赖度T不比阈值T0大时(S208:否),将所获得的回答知识(I,A)保存到QA DB(通常)111。
并且,在保存到某个中之后,向S202前进,将知识信息保存到意图理解用学习数据中的某个。
这里,关于情景上下文依赖度C和个人依赖度U,将写出文本Q进行解析来计算其值,关于任务上下文依赖度T,将回答文本A进行解析来计算其值。这是因为,可以推测询问的措词或表现多数情况下依赖于成长型对话装置中的情景和个人的讲话方式,但推测对询问的回答依赖于对成长型对话装置赋予的任务(例如,在商品说明任务中,商品名及商品的特性等成为回答的情况可能较多),不怎么依赖于情景或个人的特性。
接着,使用图7对情景上下文依赖度C计算处理、个人依赖度U计算处理的详细情况进行说明。
写出文本Q的情景上下文依赖度C如以下这样计算。首先,将写出文本Q利用语态素解析程序等分割为单词(S301)。接着,参照辞典,将助词等特定的词类的单词删除,由此能够提取出拥有意义的内容语wi(S302)。同样,根据情景数据中包含的文本进行单词分割(S303),提取内容语的序列ck(S304)。接着,根据辞典,生成与单词序列ck相同长度的单词序列rk(S306)。并且,参照单词共现概率数据库307,从这些单词wi、单词序列ck、rk,取得单词序列ck和rk中被赋予了条件的单词wi中包含的全部单词间的共现概率Pr(wi,wj|ck)和Pr(wi,wj|rk)(S305)。所谓共现概率Pr(wi,wj|ck),是在包含单词序列ck的文章中,单词wi和单词wj都出现的统计学概率,所谓共现概率Pr(wi,wj|rk),是在包含单词列rk的文章中,单词wi和单词wj都出现的统计学概率,最后,例如通过以下的(式1)计算情景上下文依赖度C。其中,对数取自然对数。
[数式1]
Figure BDA0001738760860000111
这里,当情景上下文依赖度C大时,意味着写出文本Q依赖于情景的程度大(即,与随机的单词序列相比背离大)。
任务上下文依赖度T也能够以同样的处理来实现。在此情况下,以回答文本A和任务数据为输入,将最终计算出的值作为任务上下文依赖度T。这里,任务数据是指在包含于某任务中的服务情景整体中包含的文本。在此情况下,设内容语提取S304的输出为tk,任务上下文依赖度T的值通过以下的(式2)来计算。
[数式2]
Figure BDA0001738760860000112
接着,使用图8对个人依赖度U计算处理进行说明。
首先,将写出文本Q与图7所示的处理同样地进行单词分割(S401),提取内容语(S402),向单词wi变换。接着,在处理S403中,通过参照单词共现概率数据库405,取得单词wi中包含的全部的单词间的共现概率Pr(wi,wj)(S403)。最后,通过以下的(式3)计算个人依赖度U。
[数式3]
Figure BDA0001738760860000113
这里,当个人依赖度U大时,意味着写出文本Q依赖于特定用户的程度大。即,意味着当采取通常不被使用的讲话方式(概率小的单词的组合表现)时,看作依赖于特定的用户。
另外,在本实施方式中,作为意图理解用学习用数据,通过将通常、特定用户、情景节点这三种保存到不同的地方进行了区别,但也可以对数据赋予标签,通过读取该标签来判定意图理解用学习用数据的种类。此外,作为QA DB,通过将通常、特定任务这两种保存到不同的地方进行了区别,但也可以对数据赋予标签,通过读取该标签来判定QA DB的种类。
此外,在知识保存判定处理中,对于所获得的知识,基于情景上下文依赖度、个人依赖度、任务上下文依赖度这样的各种指标,判定了意图理解用学习数据、QA DB的放入地方,但也可以在成长型对话装置中设置显示装置和输入装置,显示所获得的知识信息(Q,I,A)和基于指标的判断,管理者检查放入哪个意图理解用学习数据、QA DB。
以上,通过本实施方式的结构,成长型对话装置能够将新得到的关于询问回答的知识或关于询问表现的知识按照其特性而保存到适当地分类的意图理解用模型数据或QADB中。结果,不再将仅对特定的用户可以回答的知识向其他用户回答,此外,解决了将对于特定的用户有效的询问表现知识也用于其他用户而降低对话精度的问题。
关于特定任务也是同样的。此外,通过将与遵循成长型对话装置的情景的询问表现有关的知识作为意图理解用模型数据保存,能够使学习的精度提高。
〔实施方式2〕
以下,使用图9至图11说明本发明的实施方式2。
在实施方式1中,对通过声音识别与用户对话的成长型对话装置的知识获得进行了说明。在本实施方式中,说明除此以外还能够对人进行图像识别、储存工作日志、关于特定任务储存经验知识的情况下的知识获得。
在本实施方式中,重点说明与实施方式1不同之处。
首先,使用图9对有关实施方式2的成长型对话装置的结构进行说明。
本实施方式的成长型对话装置与实施方式1的成长型对话装置不同的是,具有图像输入部240,在其上连接着相机(摄像装置)242,将从那里拍摄的运动图像、静止图像取入。
在处理部210中,在实施方式1的基础上,还附加了图像识别部250和经验知识生成部252的子组件。
图像识别部250是将所拍摄的运动图像、静止图像进行图案识别而读取特征的功能部。经验知识生成部252根据图像识别部250的图像识别结果和工作日志而生成关于该成长型对话装置的经验知识的功能部。关于成长型对话装置的经验知识,是通过使该成长型对话装置工作而得到的知识。
此外,存储部220除了实施方式1的数据以外,还加上了QA DB(特定设备)114和工作日志117。
QA DB(特定设备)114是按每个特定的设备制作、根据与该特定的设备有关的询问回答的内容来保存其回答的数据。这里,特定的设备是指成长型对话装置的硬件,一台台成长型对话装置视为特定的设备。工作日志117是成长型对话装置的工作记录。在工作日志117中,例如写入由成长型对话装置进行图像识别而得到的特定的用户在哪年的哪月哪日与该设备关于某话题进行了对话等的记录。
接着,使用图10及图11对本实施方式的成长型对话装置的处理进行说明。
在本实施方式的成长型对话装置中,在实施方式1的图5中表示的成长型对话装置的处理中加上了图像识别处理116和经验知识生成处理119,作为数据而加上了工作日志117、QA DB(特定设备)。在本实施方式的成长型对话装置的处理中,根据图像识别的结果和成长型对话装置的工作日志117,通过经验知识生成处理119生成关于该成长型对话装置的经验知识。
所生成的经验知识用于知识分类处理120的判断。
接着,使用图11对有关实施方式2的知识分类处理120的详细情况进行说明。
在有关实施方式2的知识分类处理120中,作为S201:否时的判定处理,判定回答文本A是否是经验知识(S206)。当回答文本A是经验知识时(S206:是),将所获得的回答知识(I,A)向QA DB(特定设备)114保存。当回答文本A不是经验知识时(S206:否),向S207前进。
此外,在向各QA DB保存后前进到S202的判定处理,这与图6所示的实施方式1的知识分类处理120是同样的。
在本实施方式中,除了实施方式1的成长型对话装置的功能以外,还能够进行对特定设备特殊化的知识的获得。

Claims (8)

1.一种成长型对话装置,与用户进行声音对话,将声音对话的结果作为知识进行储存,其特征在于,具有:
声音识别部,根据所取得的用户的讲话声音进行声音识别,并转化为文本;
意图理解部,参照根据意图理解学习数据进行学习而得到的意图理解模型数据,从由上述声音识别部进行声音识别而得到的文本,解析讲话意图;
应答生成部,参照问答数据库即QA DB,根据由上述意图理解部解析出的讲话意图,生成应答文本;
知识提取部,从由上述声音识别部进行声音识别而得到的文本、上述讲话意图、上述应答文本,提取知识;以及
知识分类部,将由上述知识提取部提取的知识根据特性进行分类,
上述知识提取部提取作为由上述声音识别部进行声音识别而得到的文本与上述讲话意图的对的信息的意图理解学习数据,作为上述知识,
上述意图理解学习数据根据由上述声音识别部进行声音识别而得到的文本对特定用户的个人依赖度、以及由上述声音识别部进行声音识别而得到的文本对上述声音对话的情景的情景上下文依赖度而被进行分类,上述个人依赖度根据由上述声音识别部进行声音识别而得到的文本所包含的所有单词间的共现概率来计算,上述情景上下文依赖度通过生成与由上述声音识别部进行声音识别而得到的文本所包含的单词序列相同长度的随机单词序列来计算。
2.如权利要求1所述的成长型对话装置,其特征在于,
上述知识提取部还提取作为上述讲话意图与上述应答文本的对的信息的QA DB,作为上述知识。
3.如权利要求2所述的成长型对话装置,其特征在于,
上述QADB是根据上述应答文本是否依赖于特定任务这一指标而被进行分类的。
4.如权利要求2所述的成长型对话装置,其特征在于,
具有显示上述知识分类部的知识分类结果并输入成功与否的判定的机构。
5.如权利要求1所述的成长型对话装置,其特征在于,
还具有根据所拍摄的图像进行图像识别的图像识别部。
6.如权利要求1所述的成长型对话装置,其特征在于,
保持工作日志。
7.如权利要求6所述的成长型对话装置,其特征在于,
具有根据工作日志生成关于设备的经验知识的经验知识生成部。
8.如权利要求6所述的成长型对话装置,其特征在于,
上述QA DB是参照上述工作日志,根据上述应答文本是否依赖于特定设备这一指标而被进行分类的。
CN201810809616.1A 2017-09-13 2018-07-23 成长型对话装置 Active CN109493850B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017175850A JP6857581B2 (ja) 2017-09-13 2017-09-13 成長型対話装置
JP2017-175850 2017-09-13

Publications (2)

Publication Number Publication Date
CN109493850A CN109493850A (zh) 2019-03-19
CN109493850B true CN109493850B (zh) 2023-03-31

Family

ID=65632375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810809616.1A Active CN109493850B (zh) 2017-09-13 2018-07-23 成长型对话装置

Country Status (3)

Country Link
US (1) US11037553B2 (zh)
JP (1) JP6857581B2 (zh)
CN (1) CN109493850B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222161B (zh) * 2019-05-07 2022-10-14 北京来也网络科技有限公司 对话机器人智能应答方法及装置
JP7026659B2 (ja) * 2019-06-20 2022-02-28 本田技研工業株式会社 応答装置、応答方法、およびプログラム
CN110442701B (zh) * 2019-08-15 2022-08-05 思必驰科技股份有限公司 语音对话处理方法及装置
CN110516056A (zh) * 2019-08-20 2019-11-29 深圳市奥拓电子股份有限公司 人机对话的自主学习方法、自主学习***及存储介质
JP6777907B1 (ja) * 2019-09-12 2020-10-28 ソプラ株式会社 業務支援装置、及び業務支援システム
CN110675876A (zh) * 2019-10-17 2020-01-10 珠海格力电器股份有限公司 一种语义识别智能控制方法、智能控制器、***及存储介质
JP6741322B1 (ja) * 2019-11-07 2020-08-19 Jeインターナショナル株式会社 自動発信システム、処理方法、およびプログラム
CN113035181A (zh) * 2019-12-09 2021-06-25 斑马智行网络(香港)有限公司 语音数据处理方法、设备和***
CN111241236B (zh) * 2019-12-30 2023-08-22 新大陆数字技术股份有限公司 任务导向性问答方法、***、电子设备、可读存储介质
CN111858876B (zh) * 2020-05-14 2024-05-10 北京捷通华声科技股份有限公司 一种知识库的生成方法、文本查找方法和装置
WO2021255840A1 (ja) 2020-06-16 2021-12-23 日本電信電話株式会社 推定方法、推定装置およびプログラム
AU2020356799B2 (en) * 2020-06-18 2022-09-08 Citrix Systems, Inc. Autonomous learning of entity values in artificial intelligence conversational systems
KR102456646B1 (ko) * 2020-09-28 2022-10-21 주식회사 마인즈랩 문자열의 의도 분류 방법 및 컴퓨터 프로그램
CN112101044B (zh) * 2020-11-02 2021-11-12 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN112463939B (zh) * 2020-11-12 2024-05-24 深圳市欢太科技有限公司 人机对话方法、***、服务设备及计算机存储介质
CN112307187A (zh) * 2020-12-08 2021-02-02 浙江百应科技有限公司 一种基于智能客服辅助交互的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215742A (ja) * 2010-03-31 2011-10-27 Nec Corp 対話システム、対話フローの更新方法およびプログラム
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP3945356B2 (ja) 2002-09-17 2007-07-18 株式会社デンソー 音声対話装置及びプログラム
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP5674689B2 (ja) * 2012-02-15 2015-02-25 日本電信電話株式会社 知識量推定情報生成装置、知識量推定装置、方法、及びプログラム
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140379334A1 (en) * 2013-06-20 2014-12-25 Qnx Software Systems Limited Natural language understanding automatic speech recognition post processing
EP2816553A1 (en) * 2013-06-20 2014-12-24 2236008 Ontario Inc. Natural language understanding automatic speech recognition post processing
CN103458056B (zh) * 2013-09-24 2017-04-26 世纪恒通科技股份有限公司 自动外呼***基于自动分类技术的语音意图判定***
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
JP6143883B2 (ja) * 2013-11-29 2017-06-07 株式会社東芝 対話支援システム、方法、及びプログラム
JPWO2016067418A1 (ja) * 2014-10-30 2017-04-27 三菱電機株式会社 対話制御装置および対話制御方法
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及***
CN105913039B (zh) * 2016-04-26 2020-08-18 北京光年无限科技有限公司 基于视觉和语音的对话数据交互处理方法及装置
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
CN107146610B (zh) * 2017-04-10 2021-06-15 易视星空科技无锡有限公司 一种用户意图的确定方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
JP2011215742A (ja) * 2010-03-31 2011-10-27 Nec Corp 対話システム、対話フローの更新方法およびプログラム

Also Published As

Publication number Publication date
US11037553B2 (en) 2021-06-15
JP2019053126A (ja) 2019-04-04
US20190080687A1 (en) 2019-03-14
CN109493850A (zh) 2019-03-19
JP6857581B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
CN109493850B (zh) 成长型对话装置
US10616414B2 (en) Classification of transcripts by sentiment
US10438586B2 (en) Voice dialog device and voice dialog method
CN109509470B (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
US7603279B2 (en) Grammar update system and method for speech recognition
WO2020228173A1 (zh) 违规话术检测方法、装置、设备及计算机可读存储介质
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
EP2572355B1 (en) Voice stream augmented note taking
JP3848319B2 (ja) 情報処理方法及び情報処理装置
CN104598644B (zh) 喜好标签挖掘方法和装置
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US20090234854A1 (en) Search system and search method for speech database
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN111402892A (zh) 一种基于语音识别的会议记录模板生成方法
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
KR20130086971A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
KR20140123369A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
CN111209367A (zh) 信息查找方法、信息查找装置、电子设备及存储介质
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN113539235B (zh) 文本分析与语音合成方法、装置、***及存储介质
CN113539234B (zh) 语音合成方法、装置、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant