CN108897723A

CN108897723A - 场景对话文本识别方法、装置以及终端

Info

Publication number: CN108897723A
Application number: CN201810716111.0A
Authority: CN
Inventors: 曹宇慧; 冯仕堃; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-27
Anticipated expiration: 2038-06-29
Also published as: CN108897723B

Abstract

本发明提出一种场景对话文本识别方法、装置以及终端。其中，该方法包括：将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数；将场景对话文本输入至特征抽取器中，生成对话特征参量；将对话语义连贯特征分数和对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值；如果优质交互的概率值大于优质交互阈值时，则场景对话文本是优质交互文本。有效的挖掘了场景对话文本中的语义信息，并将语义信息和其它的对话特征参量融合在一起，对场景对话文本进行识别，给多轮对话的场景对话文本打上优质或者非优质的标签。

Description

场景对话文本识别方法、装置以及终端

技术领域

本发明涉及计算机技术领域，具体涉及一种场景对话文本识别方法、装置以及终端。

背景技术

在搜索引擎的网页库中，存在大量的多轮对话数据，例如，对话主题主要针对医疗咨询。虽然搜索引擎的网页库中这类多轮对话数据的存量巨大，但是多轮对话数据的质量却参差不齐。受用户提问方式、描述详细程度、反馈时效等因素的影响，以及回答内容的好坏，用户和回复者(例如，医生)的多轮对话内容的好坏差异较大。优质的多轮对话内容的价值巨大，可以根据优质多轮对话内容了解更多的各个领域(例如，医疗领域)相关的权威知识，并且能够从中得到满足用户需求的信息。由于多轮对话数据存量的巨大、质量的参差不齐、优质数据的巨大价值，自动化识别优质多轮对话数据对于提升用户体验有很大的帮助。

然而，现有的基于人工定制规则的对话文本的识别方法的应用并不广泛，对于规则以外的多轮对话数据无法识别是否为优质数据。人工定制规则成本较高，并且对优质数据的覆盖率非常低。人工规则只考虑了多轮对话轮次、对话内容文本的长度等简单特征，而没有考虑到对话内容的语义信息及对话间的连贯信息。

发明内容

本发明实施例提供一种场景对话文本识别方法、装置以及终端，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种场景对话文本识别方法，包括：

将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数；

将所述场景对话文本输入至特征抽取器中，生成对话特征参量；

将所述对话语义连贯特征分数和所述对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值；

如果所述优质交互的概率值大于优质交互阈值时，则所述场景对话文本是优质交互文本。

结合第一方面，本发明在第一方面的第一种实施方式中，将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数，包括：

将所述场景对话文本中的每条对话语句进行切词，并将切词后得到的各个分词转化为词向量；

将每条所述对话语句包含的所述词向量进行相加，生成与所述对话语句对应的语句特征向量；

将各个所述语句特征向量输入至所述长短记忆型递归神经网络层中，生成对话特征向量；

将所述对话特征向量输入至全连接层，输出连贯性类别和非连贯性类别；

将所述连贯性类别和所述非连贯性类别输入至多类别逻辑回归函数中计算对应的概率值，得到所述对话语义连贯特征分数。

结合第一方面的第一实施方式，按照对所述场景对话文本中的对话顺序将所述语句特征向量输入至所述长短记忆型递归神经网络层中。

结合第一方面，本发明在第一方面的第二种实施方式中，所述对话特征参量包括多轮对话的轮次、每轮对话中交互次数、回复的文本长度和对话主题实体词中的至少一项。

结合第一方面，本发明在第一方面的第三种实施方式中，所述长短记忆型递归神经网络模型用于接收所述场景对话文本中的长语句，所述长语句是文本长度大于对话长度阈值的语句。

第二方面，本发明实施例提供了一种场景对话文本识别装置，包括：

连贯特征分数生成模块，用于将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数；

对话特征参量抽取模块，用于将所述场景对话文本输入至特征抽取器中，生成对话特征参量；

优质交互概率值模块，用于将所述对话语义连贯特征分数和所述对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值；

优质交互结果判断模块，用于如果所述优质交互的概率值大于优质交互阈值时，则所述场景对话文本是优质交互文本。

结合第二方面，本发明在第二方面的第一种实施方式中，所述连贯特征分数生成模块包括：

词向量转换单元，用于将所述场景对话文本中的每条对话语句进行切词，并将切词后得到的各个分词转化为词向量；

词向量相加单元，用于将每条所述对话语句包含的所述词向量进行相加，生成与所述对话语句对应的语句特征向量；

对话特征提取单元，用于将各个所述语句特征向量输入至所述长短记忆型递归神经网络层中，生成对话特征向量；

全连接计算单元，用于将所述对话特征向量输入至全连接层，输出连贯性类别和非连贯性类别；

特征分数计算单元，用于将所述连贯性类别和所述非连贯性类别输入至多类别逻辑回归函数中计算对应的概率值，得到所述对话语义连贯特征分数。

第三方面，本发明实施例提供了一种场景对话文本识别终端，包括处理器和存储器，所述存储器用于存储支持场景对话文本识别装置执行上述第一方面中场景对话文本识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述场景对话文本识别装置还可以包括通信接口，用于场景对话文本识别装置与其他设备或通信网络通信。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储场景对话文本识别装置所用的计算机软件指令，其包括用于执行上述第一方面中场景对话文本识别方法为场景对话文本识别装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：长短记忆型递归神经网络模型有效的挖掘了场景对话文本中的语义信息，挖掘到多轮对话中的时序关系和上下文特征，还能够有效的处理多轮对话中变长文本的情况；梯度提升数融合模型将长短记忆型递归神经网络模型挖掘的语义特征和其它的对话特征参量融合在一起，对场景对话文本进行识别，给多轮对话的场景对话文本打上优质或者非优质的标签，不仅有更好的分类效果，而且有更强的泛化性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的场景对话文本识别方法流程示意图；

图2为本发明实施例提供的场景对话文本识别方法中利用神经网络模型的示意图；

图3为本发明实施例提供的场景对话文本识别的流程示意图；

图4为本发明实施例提供的场景对话文本识别装置的结构框图；

图5为本发明实施例提供的连贯特征分数生成模块的结构框图；

图6为本发明实施例提供的一种计算机可读存储介质示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体的实施方式中，提供了一种场景对话文本识别方法，本实施例中的提供的场景对话文本识别方法可以应用在任何场景对话中，例如，医疗网站的用户多轮次对话等，均在本实施例的保护范围内。

如图1所示，场景对话文本识别包括如下步骤：

步骤S100：将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数。

如图2所示，场景对话文本包括在此场景下的多轮对话，将场景对话文本输入至长短记忆型递归神经网络模型中，依次通过词向量转换层、词向量求和层、长短记忆型递归神经网络层、全连接层，最后生成这个场景对话文本的对话语义连贯特征分数。

例如，得到的话语义连贯特征分数可以设置为越接近1，表示场景文本对话中的语义连贯性越好，越接近0，表示场景文本对话中的语义连贯性越差。当然，还可以以其他范围的分数来表示语义连贯性，均在本实施例的保护范围内。

步骤S200：将场景对话文本输入至特征抽取器中，生成对话特征参量。

如图3所示，特征抽取器可以用于抽取除了对话语义连贯特征之外的其它对话特征参量，例如，多轮对话的轮次、每轮对话中交互次数、回复的文本长度和对话主题实体词中的至少一项。当然，还可以包括其它类型的对话特征参量，均在本实施例的保护范围内。

步骤S300：将对话语义连贯特征分数和对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值。

如图3所示，通过使用梯度提升数融合模型，将长短记忆型递归神经网络模型挖掘的语义连贯特征和其它的多个对话特征参量有效的融合在一起，得到了场景对话文本中优质交互的概率值。此概率值可以为0到1之间的一个数值，当此数值越接近1时，输入越大概率为优质的场景对话文本。当然，概率值的范围可以根据需要进行调整，均在本实施例的保护范围内。

步骤S400：如果优质交互的概率值大于优质交互阈值时，则场景对话文本是优质交互文本。

本实施例中，可以将0.5的数值作为优质交互阈值，大于0.5的数值为优质场景对话文本，例如优质的多轮对话医疗资源。当然，优质交互阈值的取值可以根据需要进行调整，均在本实施例的保护范围内。

利用本实施例提供的场景对话文本识别方法来识别优质对话文本，例如，识别的优质医疗多轮对话文本能够提升医疗搜索的用户体验。对于优质的场景对话文本的定义包括以下几点，以医疗场景为例进行说明：第一，多轮对话中用户的提问能够清楚的描述有关问题，例如，用户的提问为医疗相关问题时，能够详细说明病情和意图；第二，医生的回答详尽解答了用户的问题；第三，医生的回答命中了用户提问的意图；第四，医生和用户对话的回答字数较多、轮次足够，并且包含有价值的医疗信息。

在一个实施例中，将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数，如图2所示，包括：

将场景对话文本中的每条对话语句进行切词，并将切词后得到的各个分词转化为词向量；

将每条对话语句包含的词向量进行相加，生成与对话语句对应的语句特征向量；

将各个语句特征向量输入至长短记忆型递归神经网络层中，生成对话特征向量；

将对话特征向量输入至全连接层，输出连贯性类别和非连贯性类别；

将连贯性类别和非连贯性类别输入至多类别逻辑回归函数中计算对应的概率值，得到对话语义连贯特征分数。

其中，长短记忆型递归神经网络模型用于提取场景对话文本中的语义特征，目的是挖掘到多轮对话中的上下文特征，判断此场景对话文本中的对话语义连贯程度。如图2所示，词向量转换层用于将切词后得到的各个分词(w1、w2…wn)转化为词向量。词向量求和层用于将每条对话语句包含的词向量进行相加得到语句特征向量，语句特征向量集合了场景对话中的每一条语句的语义。长短记忆型递归神经网络层用于在语句特征向量中提取对话特征向量。对话特征向量集合了场景对话中前后语句之间的语义。全连接层用于对话特征向量进行分类，得到连贯性类别和非连贯性类别，并计算这两类的概率。最后在输出层中输出连贯性类别对应的对话语义连贯特征分数。

在一个实施例中，如图2所示，为了挖掘到多轮对话中的时序关系，按照对场景对话文本中的对话顺序将语句特征向量输入至长短记忆型递归神经网络层中。

在一个实施例中，对话特征参量包括多轮对话的轮次、每轮对话中交互次数、回复的文本长度和对话主题实体词中的至少一项。

以医疗对话为例说明，多轮对话的轮次是针对同一话题的不同提问主题进行的多轮对话，每轮对话中交互次数是针对同一个提问主题的对话中，用户和医生之间的互动次数，回复的文本长度是指医生回复用户的答案长度，以及对话主题实体词例如医疗实体词是否出现在场景对话文本中。

在一个实施例中，长短记忆型递归神经网络模型用于接收场景对话文本中的长语句，长语句是文本长度大于对话长度阈值的语句。本实施例中，长短记忆型递归神经网络模型可以接收变长的文本输入，即对话文本中的对话语句的长度不受限制，均能够输入。

实施例二

在另一种具体的实施方式中，提供了一种场景对话文本识别装置，如图4所示，包括：

连贯特征分数生成模块10，用于将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数；

对话特征参量抽取模块20，用于将场景对话文本输入至特征抽取器中，生成对话特征参量；

优质交互概率值模块30，用于将对话语义连贯特征分数和对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值；

优质交互结果生成模块40，用于如果优质交互的概率值大于优质交互阈值时，则场景对话文本是优质交互文本。

在一种实施方式中，连贯特征分数生成模块10包括：

词向量转换单元11，用于将场景对话文本中的每条对话语句进行切词，并将切词后得到的各个分词转化为词向量；

词向量相加单元12，用于将每条对话语句包含的所述词向量进行相加，生成与对话语句对应的语句特征向量；

对话特征提取单元13，用于将各个语句特征向量输入至长短记忆型递归神经网络层中，生成对话特征向量；

全连接计算单元14，用于将对话特征向量输入至全连接层，输出连贯性类别和非连贯性类别；

特征分数计算单元15，用于将连贯性类别和非连贯性类别输入至多类别逻辑回归函数中计算对应的概率值，得到对话语义连贯特征分数。

实施例三

本发明实施例提供了一种场景对话文本识别终端，如图6所示，包括：

存储器400和处理器500，存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的场景对话文本识别方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600，用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现，则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器400、处理器500以及通信接口600集成在一块芯片上，则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

一种计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时实现如实施例一包括的任一所述的场景对话文本识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种场景对话文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数，包括：

3.根据权利要求2所述的方法，其特征在于，按照对所述场景对话文本中的对话顺序将所述语句特征向量输入至所述长短记忆型递归神经网络层中。

4.根据权利要求1所述的方法，其特征在于，所述对话特征参量包括多轮对话的轮次、每轮对话中交互次数、回复的文本长度和对话主题实体词中的至少一项。

5.根据权利要求1所述的方法，其特征在于，所述长短记忆型递归神经网络模型用于接收所述场景对话文本中的长语句，所述长语句是文本长度大于对话长度阈值的语句。

6.一种场景对话文本识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述连贯特征分数生成模块包括：

8.一种场景对话文本识别终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

9.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。