CN113228165A - 用于响应于语音输入信息来产生应答输出的方法、装置和应用 - Google Patents

用于响应于语音输入信息来产生应答输出的方法、装置和应用 Download PDF

Info

Publication number
CN113228165A
CN113228165A CN201980084669.4A CN201980084669A CN113228165A CN 113228165 A CN113228165 A CN 113228165A CN 201980084669 A CN201980084669 A CN 201980084669A CN 113228165 A CN113228165 A CN 113228165A
Authority
CN
China
Prior art keywords
information
output
response
entity
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980084669.4A
Other languages
English (en)
Inventor
F·加莱茨卡
J·罗泽
S·乔丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Publication of CN113228165A publication Critical patent/CN113228165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于响应于语音输入信息来产生应答输出的方法、装置和应用本发明涉及一种用于响应于语音输入信息(E)来产生应答输出(A)的方法,所述方法具有:a)确定语音输入信息(E)是否包括至少一个预定义的实体;而且当情况如此时:b)基于所述语音输入信息(E)来产生所述实体不包含在其中的语音信息集;c)产生信息集,其中所述信息集包括知识数据库(14)中的被分配给所述实体的信息;d)利用第一分析单元(22):从所述信息集中确定至少一个关于所述实体方面重要的目标信息;e)利用第二分析单元(24):基于所确定的目标信息来产生应答部分输出;并且f)基于所述应答部分输出来产生应答输出(A)。本发明还涉及***(10)和这种***(10)的应用。

Description

用于响应于语音输入信息来产生应答输出的方法、装置和 应用
技术领域
本发明涉及一种用于响应于语音输入信息来产生应答输出的方法和装置。更准确地说,本发明涉及计算机辅助的语音分析以及尤其是语音会话***的领域,其中检测语音输入信息并且基于此来产生应答输出。
背景技术
公知的是:借助于计算机辅助***以及尤其是其所包括的分析单元来分析语音输入信息并且基于此来产生应答输出。在这种情况下,可以在纯语音识别与对所识别出的语音输入信息的合理响应(应答输出)的分析之间进行区分,其中该分析例如可包括对语音输入信息的语义内容的检测。本文中,语音输入信息可以被理解成文本或音频格式的信息,这些信息是基于语音输入来被产生的和/或说明了该语音输入的内容。
在所谓的目标导向的会话的框架内,用户例如可以用语言表达问题,以便获得所希望的信息。一般来说,如果会话指向所定义的目的,则这些会话可以被称作目标导向,如例如在询问信息时就是这种情况。那么,该目的就会是获得信息。同样,存在非目标导向的会话,其中用户在没有事先定义的例如通过所希望的信息所规定的目的的情况下与计算机辅助***(会话***)进行对话。这也可以被称作与这种***闲聊。
处理非目标导向的会话在技术上要求更高,因为这些非目标导向的会话的例如以所谓的会话状态为形式的过程更难以估计。为了可以对相对应的各种可能的会话状态做出响应并且产生适合的应答输出,会话***必须能够分析或理解包含在语音输入信息中的大量信息。这会意味着:***以及尤其是该***的分析单元必须借助于相对应地内容丰富的词典或者通用数据库来被训练。后者主要适用于基于机器学习方法以及尤其是所谓的深度学习(Deep Learning)方法的***。例如,在这样的***中,必须针对每个可想到的专有名称、诸如人员和城市的专有名称或者针对任何数值、例如以年份或温度值为形式的数值将相对应的词明确地寄存在词典中,以便分析单元可以借助于该词典进行训练并且稍后识别相对应的词,从而正确地检测语义内容。这增加了设立花费并且使得相对应的分析单元的学习过程变得困难。
到目前为止,尝试通过如下方式来解决该所谓的“词汇量问题(out-of-vocabulary problem)”:分析单元不仅可以识别在预备学习过程中已经被学习的词,而且可以识别在会话历史中到目前为止使用过的其它词(即在分析单元的到目前为止的使用中被使用过的词)。但是,在这种情况下也需要不断地记录在会话历史期间出现的新词并且将这些新词寄存在相对应的词典中。这类方法的示例在如下科学出版物中找到:
Raghu, D. & Gupta, N. (2018). Hierarchical Pointer Memory Network forTask Oriented Dialogue, arXiv preprint arXiv: 1805.01216
Eric, M & Manning, C. D. (2017). A copy-augmented sequence-to-sequence architecture gives good performance on task-oriented dialogue. arXivpreprint arXiv: 1701.04024。
另一方面,也存在如下***,这些***尝试以迭代方式而不是基于机器学习来掌握非目标导向的会话(例如参见https://www.pandorabots.com/mitsuku/)。但是,可实现的质量受到要预先定义的状态和规则(例如以所谓的专家知识为形式)的极大限制。
因此,利用这些公知方法中的任何一种方法都不可能尤其是在非目标导向的会话的上下文中对不可预测的语音输入信息做出适当的响应,尤其是当在这些语音输入信息之内使用尚未在会话历史中和/或尚未在训练的情况下出现的术语时如此。在公知的解决方案中通常也存在一维信息流:分析单元虽然可以为了语音识别的目的而向词典提出请求,该词典也可以以上文所阐述的方式基于会话历史动态地被补充。但是,该词典的(尤其是动态地被补充的)条目并不能被用于产生应答输出。
另一缺点是,至少上文提及的不是基于机器学习的方法的特点在于:仍然使用大量所谓的专家知识或专家知识模型作为分析组件。然而,这偏离了处理非目标导向的会话的真正目的,因为必须事先定义并寄存以专家知识为形式的更多预定义关系。本文中,专家知识一般来说可以被理解成对逻辑关系或者规则的定义,利用这些逻辑关系或者规则能确定就现有的状态而言适合的响应(尤其是应答输出)。
发明内容
因而,本发明的任务在于:尤其是在非目标导向的会话的情况下,改善响应于语音输入来对应答输出的基于计算机的产生。
该任务通过具有权利要求1的特征的方法、具有权利要求9的特征的装置和具有权利要求10的特征的应用来被解决。有利的扩展方案在从属权利要求中说明。易于理解的是:开头提及的所有特征和定义(单独或者以任意组合并且除非另有说明或者显而易见)也可以在本解决方案中被提供或同样适用于本解决方案。
本发明的基本思想在于:在两个分析单元之间划分语音输入的信息,这两个分析单元优选地彼此分开地构造(例如构造成分开的软件程序、软件模块或计算机程序产品),但是这两个分析单元有利地也可以彼此交换信息。这些分析单元中的一个分析单元可以被设立用于产生应答部分输出,其中后者尤其可以响应于语音输入的频繁反复出现和/或常见的内容来被产生。而另一分析单元可以被设立为确定目标信息,这些目标信息被分配给在语音输入之内的预定义的实体,其中这些目标信息接着可以成为最终应答输出的组成部分。这些目标信息也可以被用作针对首先提到的分析单元的输入参量,以便产生应答输出。
这具有如下优点:语音输入(也就是说语音输入信息)的内容可以被预定义为实体,这些内容按照本发明可以具有更高的变化性或与大量无法明确预测的其它信息相关联。其它实体也可以在运行期间被补充并且例如被寄存在知识数据库中,而为此并不需要***的新的学习或训练过程。这例如是重要的,以便补充在运行时出现的新信息(例如新发行的电影等等)。实体尤其可以是专有名称或数值。与以电影片名为形式的实体相关联的信息的示例例如是导演、参与演员、类型、电影奖项等等。关联信息本身同样可以是实体。
这些关联信息中的至少一个关联信息接着可以由这些分析单元中的一个分析单元确定为在当前上下文中重要的目标信息。该分析单元可以为此(例如借助于机器学习过程)被训练,尤其是以该分析单元基于当前的语音上下文和在关联信息(信息集或者换言之知识数据库的子集)方面的选择来确定目标信息的方式来被训练。这尤其可以被理解成:该分析单元对所有关联信息关于其可能的重要性方面进行评估(例如以概率说明为形式)并且接着选择具有最高的重要性评估的那些关联信息作为目标信息。
经此,能够实现:与该实体匹配的附加或目标信息可以合理地被嵌入到最终应答输出中。因此,至多该另一分析单元必须被训练用于处理与预先确定的且多样化的实体相关联的信息,但是产生上述应答部分输出的那个分析单元不必如此。这样的关联信息也不必本身由该分析单元产生,而是可以从知识数据库中被调用。这减少了该分析单元的所需的功能范围并且因此也使得该分析单元的学习过程变得容易。
即,换言之,按照本发明能够实现:在语音输入的可具有增加的变化(本文中被称作实体)和/或与大量其它信息相关联的内容之间以及在语音输入的常常反复出现并且例如不是专有名称的信息或内容之间进行区分。接着,对于这两种类型的信息/内容来说,可以设置单独的分析单元,这些分析单元针对分别被分配给它们的分析任务相对应地被优化并且这些分析单元的学习过程可以相对应地有针对性地被执行。此外,知识数据库的嵌入是有利的,接着这些分析单元中的一个分析单元可以从所述知识数据库中选择用于嵌入到最终应答输出中的重要的目标信息。如上所述,该知识数据库也可以不断地通过新实体来被补充,而为此这些分析单元不必强制执行新的学习过程。
详细地,提出了一种用于响应于语音输入信息(该语音输入信息例如是被转换成文本格式的语音输入)来产生应答输出的方法,该方法具有:
a) 确定语音输入信息是否包括至少一个预定义的实体;
而且当情况如此时:
b) 基于所述语音输入信息来产生所述实体不包含在其中的语音信息集;
c) 产生信息集(实体信息集),其中所述信息集包括知识数据库中的被分配给所述实体的信息;
d) 利用第一分析单元:从所述信息集中确定至少一个关于(所确定的预定义的)实体方面重要的目标信息;
e) 利用第二分析单元:基于所确定的目标信息来产生应答部分输出;并且
f) 基于所述应答部分输出来产生应答输出。
一般来说,该方法可以以计算机辅助的方式被实施和/或借助于至少一个(优选地以数字和/或电子方式运行的)计算单元(例如具有显卡、微处理器或通用计算机处理器)来被实施。例如,该方法可以利用常规PC来被执行。
语音输入信息和应答输出中的至少一个可以以音频文件的形式或者作为音频信息而存在或被产生。附加地或替选地,语音输入信息和/或应答输出可以以文本形式存在。原则上可以规定:按照本发明的解决方案以该解决方案嵌入到执行音频信息与文本信息之间的转换的***中的方式来被使用。例如,所谓的ASR单元(Automatic SpeechRecognition(自动语音识别))可以将音频语音输入转化成文本(那么这对应于示例性的按照本发明的语音输入信息),该文本接着由按照本发明的解决方案来处理。附加地,下游的TTS单元可以将按照本发明产生以及基于文本的应答输出转化成音频输出。但是,也可能的是:按照本发明的解决方案包括这样的ASR和/或TTS单元或一般来说包括音频和文本转换功能。此外,除非另有说明或显而易见,文本中对语音输入信息的引用就不仅可以包括音频格式的输入而且可以包括被转换成文本格式的(音频)输入(也就是说,语音输入信息一般来说可以以音频形式或文本形式存在,其中为了提供按照本发明的措施,优选至少暂时转换成文本形式)。
如上所述,例如可以将物品名称、地点名称、对象名称、阻止名称、工作名称或主题相关的名称以及尤其是专有名称或者数值预定义为实体。为了识别这样的实体,可以使用现有的解决方案,例如所谓的“named-entity recognition(命名实体识别)”或者“named-entity-resolution(命名实体解析)”算法。以这种方式,例如可以识别以预定义的专有名称为形式的实体,如其例如用于命名运动队、电影、地点或人员的那样。
语音信息集可以以数据记录的形式或者一般来说作为数字信息来被产生。语音信息集可包含语音输入信息,其中该语音输入信息除了实体之外至少部分地以文本形式作为第一识别结果存在。该实体可以被删除或替换,优选地通过所谓的占位符(或者换言之通过模板)来被删除或替换。占位符例如可以包含命名该实体的标题、通用术语或者标识符。一般来说优选的是:第二分析单元一并考虑该占位符,以便确定应答部分输出。
如果在(尤其是文本形式的)语音输入信息中例如借助于“命名实体解析”算法识别出这些预定义的实体中的一个实体,则按照本发明可以替代该实体而将相对应的占位符嵌入到识别结果中和/或嵌入到该文本形式中。这可以借助于所谓的构造器来实现。
在知识数据库中可以寄存信息,而且这些信息例如可以借助于所谓的标签、标识符、哈希或所谓的键值关系来相关联并且能调用。通过上文列出的特征,可以建立与(在语音输入信息中)识别出的实体的关系。如果例如识别出电影片名作为实体,则以这种方式可以确定以其中的表演的演员、所属年份、拍摄地等等为形式的关联信息,这些关联信息同样寄存在知识数据库中并且优选地通过上述关系之一与该实体相联系。
即,一般来说,哈希请求可以被定向到知识数据库,以便将在知识数据库中相联系的信息与该实体一起组合成信息集。
在信息集中,例如从信息数据库中找到的所有条目都可以表示为数值地和/或换算成向量地被收集。优选地,这些数值或向量可以被存储在矩阵中,然后第一分析单元将该矩阵用作输入信息,以便(优选地基于第二分析单元的分析结果作为另一输入参量)标识最重要的目标信息。
第一分析单元和第二分析单元可以分别作为计算机程序产品以及尤其是计算机程序或者软件模块来被提供。然而,第一分析单元和第二分析单元可具有(彼此相比)不同的输入和/或输出参量或被设立用于处理和产生相对应地不同的输入和/或输出参量。
一般来说,应指出:除非另有说明或显而易见,与这些分析单元相关的术语分析就可以是指在确定适合的应答输出(或者应答输出的至少组成部分)、确定目标信息和/或检测语音输入信息的至少部分的语义内容的意义上的分析。目标信息可以是来自信息集中的关于实体方面具有最高(假定)重要性的那些信息。在此,重要性尤其可以是指当前存在的会话状态或该重要性可以(由第一分析单元)依据会话历史来确定。更准确地说,第一分析单元可以获得会话历史(本文中也同义地称为语音上下文)以及信息集作为输入参量。在机器学习过程的框架内,第一分析单元可以已经被训练为接着基于这些输入参量来选择信息集的信息中的一个信息作为目标信息或将该信息评估为特别重要。该信息可包括一个或多个实体,所述一个或多个实体对于产生应答部分输出来被视为重要。例如可以从第二分析单元获得语音上下文。接着,第一分析单元输出目标信息作为输出参量,更确切地说优选地将该目标信息作为输出参量输出给第二分析单元。
而第二分析单元可以获得语音信息集(尤其是包括可能的占位符在内)以及所确定的目标信息,作为输入参量。第二分析单元可以已经被训练为(例如在机器学习过程的框架内)基于此来产生和输出应答部分输出。
换言之,可以选择包含在信息集中并且与该实体相联系的信息中的至少并且优选地正好一个信息,作为目标信息。优选地,该目标信息具有当前最高的重要性和/或关于当前的语音上下文方面最适合于成为应答输出的部分。一般来说优选的是:第二分析单元接着在知道所确定的该目标信息的情况下并且尤其是根据所确定的该目标信息才确定应答部分输出。目标信息可以、但不必须成为应答部分输出和/或应答输出的组成部分。一般来说,目标信息可包括至少一个实体或者一组实体。例如,目标信息可对应于下文讨论的矩阵中的一行,在该行中信息集的条目被排序或这些条目形成该信息集。
如果例如当前在语音输入信息的框架内提到电影片名并且一般来说演员阵容的质量被突出显示,则可能是重要的是:在下一步骤中选择演员名字作为与被识别为实体的电影片名相联系的目标信息;并且使这些演员名字成为应答输出的部分。而如果从语音输入信息中清楚地看出用户希望仍先看该电影,则可能是更重要的是:讨论该电影的可能的播放位置或观看途径(即例如术语DVD、电影院或者成为应答输出的那个部分)。
而第二分析单元可以基于语音信息集来产生应答部分输出(例如作为文本或音频输出)。尤其是,第二分析单元可以确定当前的会话状态和/或语音上下文(文本中与会话历史同义)。会话状态例如可以是预定义的状态,诸如提出有关所定义的主题区的问题。
可以借助于可选的重构单元来产生最终应答输出。一般来说,应答输出与应答部分输出的区别可在于:该应答输出包含应答部分输出,但是必要时也包含嵌入其中和/或附加地被补充的目标信息和/或实体,这些目标信息和/或实体替换可能还包含在应答部分输出中的占位符。
换言之,应答输出可以是应答部分输出与目标信息的组合,和/或可包括被***到应答部分输出中的一个或多个目标信息。尤其是,在应答部分输出中的可能的占位符可以通过目标信息但是也可以通过其它实体来被替换。尤其能看出按照本发明的解决方案的技术贡献在于:重要的目标信息以利用有限花费就能确定,而且利用第二分析单元可以形成与找到的目标信息匹配的句子结构(应答部分输出)。然后,接着可以进行对这些内容的上述组合,以产生应答输出。
因此,按照一个实施方式,可以规定:在语音信息集中,实体被占位符替换,如果该占位符还包含在应答部分输出中,则该占位符然后又被该实体替换。这例如可以在到步骤f)的框架内进行。如果不包含相对应的占位符,则也可能发生应答部分输出对应于最终应答输出的情况。因此,替代应答部分输出,也可能会说应答输出信息,该应答输出信息通过替换占位符而可能还被进一步处理或者该应答输出信息已经对应于最终应答输出。本发明的一个扩展方案规定:第二分析单元获得第一分析单元的分析结果(例如以所确定的目标信息或者形成目标信息的一组(子集)实体为形式),以便确定应答部分输出。更准确地说,这些分析结果可形成第二分析单元的输入参量。一般来说,第二分析单元可以被训练或教导来基于这些的分析结果确定适合的应答部分输出。
按照一个扩展方案,第一分析单元和/或第二分析单元包括(人工)神经网络。尤其是,至少在第二分析单元处可以设置包括多个层的(即所谓的深度或“deep”)神经网络,其中所谓的输入层和输出层通过多个层来链接。神经网络的每个层都可以以公知的方式包含节点,并且这些节点与相邻层中的一个或多个节点通过加权连接来链接。节点的权重和链接可以以本身公知的方式在神经网络的训练或学习过程之内被教导。一般来说,神经网络可以定义输入参量与输出参量之间的非线性关系,并且因此可以依据所提供的输入参量来确定适合的输出参量。该非线性可以通过神经网络的所谓的激活函数引起或被考虑。这些网络可以通过相对应的节点和层来描绘输入参量和输出参量的数学关系。
在该上下文中,还可以规定:第二分析单元包括以(优选地分级)序列到序列模型(Seq2Seq-Modell)为形式的神经网络。该神经网络可以以本身公知的方式包括至少一个编码器,该编码器获得输入参量(例如语音信息集)。此外,该编码器可以基于输入参量来确定状态并且将该状态输出给网络的解码器。该解码器可以产生本文中阐述的类型的应答部分输出并且将该应答部分输出作为输出参量来输出。
替选地或附加地,第一分析单元可包括以前馈网络为形式和/或具有注意机制的神经网络。一般来说,前馈网络可以没有反馈并且因此可以是简单的、尤其是仅具有两个层的网络。该网络可以获得信息集和语音上下文(会话历史)作为输入参量并且尤其可以获得被编码或换算成向量表示的信息集作为输入参量。
一般来说,第一分析单元可以从知识数据库中确定一组(子集)可能重要的信息并且接着从中确定目标信息。后者优选地借助于注意机制来实现。原则上,借助于该注意机制可以针对该子集的每个信息都基于会话历史来计算值(分数),该值说明了该信息的所假定的重要性,例如就概率而言。低估值的信息不能被选择为目标信息并且对应答部分输出没有影响,因为这些低估值的信息不被第二分析单元考虑。
按照一个扩展方案,第一分析单元获得信息集的向量表示(或者换言之,向量表达),作为输入参量。这可以通过所谓的嵌入(Embedding)来实现,其中寄存在知识数据库中的信息(被分配给该实体的那些信息)被换算成向量表示。结果可以是由第一分析单元评估或检查的信息集。替选地,在相对应的向量转换之前存在的信息集可以被视为信息集,并且可以基于该嵌入来产生该信息集的向量表示。
一般来说,换算成向量表示提供了如下优点:分析单元可以基于数学模型或数学函数并且因而可以更好地处理以向量表示为形式的输入参量。在这种情况下,基于像“Word2Vec”或“GloVe”那样的已知方法,有利地也可以嵌入语音信息。
按照另一实施方式,第二分析单元不被设立为针对所确定的实体(本身)基于知识数据库中的信息集来确定目标信息(或目标实体)。第二分析单元尤其可以不被设立为确定重要的和/或所分配的目标信息(或目标实体),尤其是不基于知识数据库的条目和/或上述信息集来确定重要的和/或所分配的目标信息(或目标实体)。尤其是,该分析单元可以不为此被训练和/或可以不描绘或识别相对应的关系。不过,第二分析单元可以被设立并且尤其是被训练为:理解目标信息和/或基于此来产生匹配的应答部分输出。但是,对目标信息本身的确定应该优选地通过第一分析单元来实现。这能够实现:第二分析单元替代于此专注于其它任务并且训练花费可以相对应地被适配。例如,第二分析单元虽然必要时应该能够处理占位符或者一般来说实体分类、如“电影片名”,但是不必学习所有与之具体相关联的实体或专有名称。替代于此,这些具体实体(优选地但不是可选地为此所使用的占位符)可以从第二分析单元的分析范围中有针对性地被排除,替代于此,该第二分析单元优选地至多基于占位符或实体分类以及目标信息和语音上下文来产生应答部分输出并且为此相对应地被训练。
附加地或替选地,可以规定:第一语音分析单元不获得语音信息集作为输入参量和/或不被设立为独立产生应答部分输出(或该应答部分输出)。
本发明还涉及一种用于响应于语音输入信息来产生应答输出的***,所述***具有:
a) 确定单元,所述确定单元被设立为确定语音输入信息是否包括至少一个预定义的实体;
b) 语音信息集产生单元,所述语音信息集产生单元被设立为基于所述语音输入信息来产生所确定的实体不包含在其中的语音信息集;
c) 信息集产生单元,所述信息集产生单元被设立为产生关于所述实体的信息集,其中所述信息集包含知识数据库中的被分配给所述实体的信息;
d) 第一分析单元,所述第一分析单元被设立为从所述信息集中确定至少一个关于所述实体方面重要的目标信息;
e) 第二分析单元,所述第二分析单元被设立为基于所确定的目标信息来产生应答部分输出;和
f) 应答输出单元,所述应答输出单元被设立为基于所述应答部分输出来产生应答输出。
最后,本发明也涉及按照上述方面的***的用于在非目标导向的会话的情况下产生应答输出的应用。已经表明:按照本发明地提供这两个分析单元并且因此在相对应的非目标导向的会话的情况下(在用户与计算机辅助***之间)划分相应的分析任务是特别有利的。
一般来说,该***可以被设立为实施按照上文和下文的方面中的任一方面所述的方法。在具有类似的方法特征的上下文中讨论的所有扩展方案同样可以在相同的***特征的情况下被提供。一般来说,该***可基于计算机或被称作基于计算机的语音会话***。该***的单元可以被实现为软件模块和/或可以被实现为计算机程序产品的组成部分(例如以各个软件功能为形式)。可选地,该***可包括:计算单元(例如处理器),在该计算单元上能优选地实施这些单元;和/或存储装置,在该存储装置上优选地存储有该知识数据库。
在下文,依据随附的附图来阐述本发明的实施方式。其中:
图1示出了按照本发明的按照实施方式的***的概览图;
图2示出了图1中的***的细节图;以及
图3示出了利用图1和2的***来实施的按照本发明的方法的流程图。
在图1中示意性示出了按照本发明的按照实施方式的***10。该***10实现为计算机程序产品,其中可以以本身公知的方式通过各个程序模块来实现下文所阐述的功能或功能块。该***10可以在常规PC的计算单元上被实施。只有下文所阐述的知识数据库14可以被理解成数据收集,不是首要被理解成软件模块或可由计算单元实施的功能,而是可以作为***10的数据收集来被寄存。***10的本文中提及的所有单元都可以相对应地被实现为软件模块、计算机程序产品或软件功能。但是,***10可选地也可以包括以计算单元(处理器和/或显卡)和/或用于知识数据库的存储装置为形式的硬件组件。
***10获得以已经被转换成文本形式的音频输入为形式的语音输入信息E,作为输入参量。在确定单元12中,可以识别包含在语音输入信息中的预定义的实体,该确定单元是专有名称识别模块(NER——命名实体识别器(Named Entity Recogniser)或命名实体解析器(Named Entity Resolver))并且基于公知的算法。为此,确定单元12可以动用下文所阐述的知识数据库14,在该知识数据库中寄存有相对应的实体。对在语音输入信息中的实体(尤其是当这些实体已经以文本形式存在时)的识别本身公知,并且可以通过使用常规的命名实体识别器来在实践中被转化,这些命名实体识别器通常可基于神经网络。
确定单元12可以定义相对应的包含在语音输入信息E中的实体,作为输出参量。确定单元12的输出信号被输送给语音信息集产生单元16,该语音信息集产生单元也可被称作构造器。语音信息集产生单元16产生语音信息集(例如以文本文件为形式),在该语音信息集中这些实体分别被占位符所替换,或者一般而言在该语音信息集中不存在所识别出的实体。该语音信息集作为输入参量被输送给分析块18。
这具有如下优点:下文阐述的包含在图1中仅仅示意性勾画出的分析块18中的第二分析单元24(参见图2)不必被设立用于分析具体实体或基于具体实体来被设立,而是至多被设立用于处理相对应的占位符。易于理解的是:这些实体具有比占位符明显更高的变化,这些占位符应被理解为大量不同实体的通用术语。这可以减少学习或训练花费。替代于此,相对应的第二分析单元24可以专注于(并且尤其是限于)确定一般的语音上下文,其中可能的实体完全被排除或者仅被考虑为占位符(例如在表示该语音输入信息的文本文件之内以“电影”(占位符)为形式而不是具体的电影片名(实体)为形式)。分析块18也可以访问知识数据库14,如通过图1中的相对应的箭头所勾画出的那样。
分析块18输出下文所阐述的应答部分输出,作为输出参量。如果该应答部分输出仍包含占位符,则这些占位符在也可被称作重构器的应答输出单元21中被匹配的实体替换并且因此与应答部分输出组合成应答输出A。应答输出A进而可以是或者包括文本文件,并且例如可以在转换成音频文件之后经由音频输出设备被输出给用户。
在图2中,示出了图1中的***10的细节图。其中尤其是能看到分析块18的其它细节。又看出以文本形式存在的语音输入信息E以及确定单元12,该确定单元可以借助于知识数据库14来识别在输入参量E之内的实体。同样示出了语音信息产生单元16。
应注意:确定单元12对知识数据库14的访问完全是可选的并且例如可以为了提高识别精度而进行。一般来说并且不限于本示例及其其它细节,确定单元12还可以处理例如来自语音输入信息E中的信息,以便提高识别精度。如果例如该信息包含演员名字,则在输入中的另一实体是电影片名的概率升高。
用虚线勾勒出了分析块18的轮廓并且示出了该分析块的各个功能块。首先看出向量产生单元20(嵌入器),利用该向量产生单元可以将下文所阐述的信息集呈现为向量表示。为此,集成到向量产生单元20中的信息集产生单元25可以访问知识数据库14并且首先确定根据知识数据库14与所确定的实体相关联或被分配给该实体的信息。这可以通过所谓的哈希请求来实现。接着,该信息可以被汇总成信息集(子集)并且被换算成向量表示。
后者接着形成第一分析单元22的输入参量。该第一分析单元被构造为“前馈(feed-forward)”神经网络,并且可以在使用呈现为向量表示的信息集的情况下选择包含在其中的信息作为目标信息,下文所阐述的第二分析单元24应该基于该目标信息来确定应答部分输出。为此,下文所阐述的语音上下文也被考虑,该语音上下文是第二分析单元24的分析结果(参见图2中的这些单元之间的相对应的箭头形呈现的连接)。然后,第一分析单元22的神经网络确定来自被分配给该实体的信息集中的尤其是就当前的语音上下文而言重要的信息,作为目标信息。优选地,该目标信息是信息集的由第一分析单元22以最高概率归类为重要或已从第一分析单元22获得最高的重要性评估的那个信息。该目标信息形成第二分析单元22的输出参量并且被输出给第一分析单元24。
还看出:分析块18包括第二分析单元24,该第二分析单元获得产生单元16的语音信息集和第一分析单元22的目标信息,作为输入参量。
第二分析单元24基于这些输入参量并且在考虑通过语音信息集产生单元16所嵌入的占位符以及不断地被确定和更新的语音上下文的情况下确定应答部分输出。该语音上下文尤其表明哪种类型的应答输出A可能重要并且从用户的角度会适合。该语音上下文也被输出给第一分析单元22,以便然后获得从中确定的目标信息。
在所确定的应答部分输出中,既不包含语音输入信息E的实体也不包含所属的目标信息。后者以上文所描绘的方式由第一分析单元22来确定并且仅嵌入在应答输出部分21中,更确切地说以可能的仍存在于应答部分输出中的占位符例如可以被相对应的目标信息替换的方式来被确定和嵌入。
在下文,依据图3来描绘按照本发明的方法的示例性流程图。在步骤S1中,语音输入信息E以文本形式被获得并且由确定单元12来检查是否存在实体。如果没有查明实体,则分析块18仅借助于第一分析单元24来确定应答输出A,其中这种情况在图3中未单独示出。
如果确定存在实体,则在步骤S2中由语音信息集产生单元16产生语音信息集,在该语音信息集中,语音输入信息E中的实体分别被占位符替换。
在步骤S2上游、下游(如图3中那样)或者与之至少部分并行地,信息集产生单元25在步骤S5中确定根据知识数据库14被分配给实体的信息。这些信息被汇总在上述信息集中并且在步骤S6中由向量产生单元20换算成向量表示。
接着,第一分析单元22在步骤S7中在考虑可从第二分析单元24获得的语音上下文的情况下确定该信息集的信息中的一个信息,作为目标信息。接着,在步骤S8中,第二分析单元24依据语音信息集和第一分析单元22的目标信息来确定应答部分输出。如果在该应答部分输出中仍存在占位符,则这些占位符可以借助于重构单元21在可选地访问知识数据库14的情况下(参见图1、2中的相对应的箭头)被实体替换。
语音输入信息的示例是“我非常喜欢第一部詹姆斯邦德电影”。其中作为电影片名的名字“詹姆斯邦德”可以被识别为实体。因此,[电影]或[movie]可以被用作占位符,而且从知识数据库14中可以确定与该电影匹配的所有信息作为信息集。第一分析单元22从该信息集中确定目标信息,这些目标信息就语音上下文而言显得合理,例如演员名字(这里示例性地是X和Y)。接着,第二分析单元24将鉴于被确定为目标信息的所述一个或多个实体并且鉴于语音上下文来产生匹配的应答部分输出,例如以“您是更喜欢X还是Y作为扮演者
Figure DEST_PATH_IMAGE001
”的方式的反问。
按照一个未单独示出的是本发明的独立于所示出的实施例的方面的实施方式,至少第一分析单元(但是可选地还有第二分析单元)可以基于专家知识模型,而不是基于神经网络。有利地,那么不需要针对相对应的分析单元的训练数据。
附图标记列表
10 ***
12 确定单元
14 知识数据库
16 语音信息集产生单元
18 分析块
20 向量产生单元
22 第一分析单元
24 第二分析单元
25 信息集产生单元
A 应答输出
E 语音输入信息。

Claims (10)

1.一种用于响应于语音输入信息(E)来产生应答输出(A)的方法,所述方法具有:
a) 确定语音输入信息(E)是否包括至少一个预定义的实体;
而且当情况如此时:
b) 基于所述语音输入信息(E)来产生所述实体不包含在其中的语音信息集;
c) 产生信息集,其中所述信息集包括知识数据库(14)中的被分配给所述实体的信息;
d) 利用第一分析单元(22):从所述信息集中确定至少一个关于所述实体方面重要的目标信息;
e) 利用第二分析单元(24):基于所确定的目标信息来产生应答部分输出;并且
f) 基于所述应答部分输出来产生应答输出(A)。
2.根据权利要求1所述的方法,其特征在于,在所述语音信息集中,所述实体被占位符替换,如果所述占位符还包含在所述应答部分输出中,则所述占位符然后又被所述实体替换。
3.根据权利要求1或2所述的方法,其特征在于,第一和/或第二分析单元(22、24)包括神经网络。
4.根据权利要求3所述的方法,其特征在于,所述第二分析单元(24)包括以序列到序列模型为形式的神经网络。
5.根据权利要求3所述的方法,其特征在于,所述第一分析单元(22)包括以前馈网络为形式的神经网络和/或具有注意机制的神经网络。
6.根据上述权利要求中任一项所述的方法,其特征在于,所述第一分析单元(22)获得所述信息集的向量表示,作为输入参量。
7.根据上述权利要求中任一项所述的方法,其特征在于,所述第二分析单元(24)不被设立为针对所确定的实体基于所述知识数据库(14)中的信息集来确定目标信息。
8.根据上述权利要求中任一项所述的方法,其特征在于,所述第一分析单元(22)不获得所述语音信息集作为输入参量和/或不被设立为基于此来产生应答部分输出。
9.一种用于响应于语音输入信息(E)来产生应答输出(A)的***(10),所述***具有:
a) 确定单元(12),所述确定单元被设立为确定语音输入信息(E)是否包括至少一个预定义的实体;
b) 语音信息集产生单元(16),所述语音信息集产生单元被设立为基于所述语音输入信息来产生所确定的实体不包含在其中的语音信息集;
c) 信息集产生单元(25),所述信息集产生单元被设立为产生关于所述实体的信息集,其中所述信息集包含知识数据库(14)中的被分配给所述实体的信息;
d) 第一分析单元(22),所述第一分析单元被设立为从所述信息集中确定至少一个关于所述实体方面重要的目标信息;
e) 第二分析单元(24),所述第二分析单元被设立为基于所确定的目标信息来产生应答部分输出;和
f) 应答输出单元(21),所述应答输出单元被设立为基于所述应答部分输出来产生应答输出。
10.根据权利要求9所述的***(10)的用于在非目标导向的会话的情况下产生应答输出的应用。
CN201980084669.4A 2018-12-18 2019-11-11 用于响应于语音输入信息来产生应答输出的方法、装置和应用 Pending CN113228165A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018222156.1A DE102018222156A1 (de) 2018-12-18 2018-12-18 Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
DE102018222156.1 2018-12-18
PCT/EP2019/080901 WO2020126217A1 (de) 2018-12-18 2019-11-11 Verfahren, anordnung und verwendung zum erzeugen einer antwortausgabe in reaktion auf eine spracheingabeinformation

Publications (1)

Publication Number Publication Date
CN113228165A true CN113228165A (zh) 2021-08-06

Family

ID=68581776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980084669.4A Pending CN113228165A (zh) 2018-12-18 2019-11-11 用于响应于语音输入信息来产生应答输出的方法、装置和应用

Country Status (3)

Country Link
CN (1) CN113228165A (zh)
DE (1) DE102018222156A1 (zh)
WO (1) WO2020126217A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192498A (zh) * 2021-05-26 2021-07-30 北京捷通华声科技股份有限公司 音频数据处理方法、装置、处理器及非易失性存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325527A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的交互式用户界面
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天***及其实现方法
DE102007042583A1 (de) * 2007-09-07 2009-03-12 Audi Ag Verfahren zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem sowie Kommunikationssystem
US20140379738A1 (en) * 2013-06-20 2014-12-25 Tencent Technology (Shenzhen) Company Limited Processing method and device of the user input information
US20150120288A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method of performing automatic speech recognition using local private data
CN108255934A (zh) * 2017-12-07 2018-07-06 北京奇艺世纪科技有限公司 一种语音控制方法及装置
CN108351893A (zh) * 2015-11-09 2018-07-31 苹果公司 非常规虚拟助理交互
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160027640A (ko) * 2014-09-02 2016-03-10 삼성전자주식회사 전자 장치 및 전자 장치에서의 개체명 인식 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325527A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的交互式用户界面
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天***及其实现方法
DE102007042583A1 (de) * 2007-09-07 2009-03-12 Audi Ag Verfahren zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem sowie Kommunikationssystem
US20140379738A1 (en) * 2013-06-20 2014-12-25 Tencent Technology (Shenzhen) Company Limited Processing method and device of the user input information
US20150120288A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method of performing automatic speech recognition using local private data
CN108351893A (zh) * 2015-11-09 2018-07-31 苹果公司 非常规虚拟助理交互
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
CN108255934A (zh) * 2017-12-07 2018-07-06 北京奇艺世纪科技有限公司 一种语音控制方法及装置

Also Published As

Publication number Publication date
DE102018222156A1 (de) 2020-06-18
WO2020126217A1 (de) 2020-06-25

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
Kuehne et al. A hybrid rnn-hmm approach for weakly supervised temporal action segmentation
Bejani et al. Audiovisual emotion recognition using ANOVA feature selection method and multi-classifier neural networks
US11862145B2 (en) Deep hierarchical fusion for machine intelligence applications
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN112100383A (zh) 一种面向多任务语言模型的元-知识微调方法及平台
Aafaq et al. Dense video captioning with early linguistic information fusion
Guo et al. Sparse co-attention visual question answering networks based on thresholds
Kong et al. Symmetrical enhanced fusion network for skeleton-based action recognition
Anantha Rao et al. Selfie continuous sign language recognition with neural network classifier
Dang et al. Dynamic multi-rater gaussian mixture regression incorporating temporal dependencies of emotion uncertainty using kalman filters
CN115063709A (zh) 基于跨模态注意与分层融合的多模态情感分析方法及***
Toor et al. Question action relevance and editing for visual question answering
Aafaq et al. Cross-domain modality fusion for dense video captioning
Palash et al. Bangla image caption generation through cnn-transformer based encoder-decoder network
Pham et al. Video dialog as conversation about objects living in space-time
Bielski et al. Pay Attention to Virality: understanding popularity of social media videos with the attention mechanism
Kankanhalli et al. Experiential sampling in multimedia systems
CN113228165A (zh) 用于响应于语音输入信息来产生应答输出的方法、装置和应用
JP2019149115A (ja) 画像評価装置、画像評価方法及びプログラム
Hou et al. Confidence-guided self refinement for action prediction in untrimmed videos
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
WO2020054822A1 (ja) 音解析装置及びその処理方法、プログラム
Pham et al. Speech emotion recognition: A brief review of multi-modal multi-task learning approaches
KR102574434B1 (ko) 사용자가 요청하는 전문화된 경량 신경망 모델을 실시간으로 생성하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination