CN110674256B

CN110674256B - Ota酒店的点评与回复的相关度的检测方法及***

Info

Publication number: CN110674256B
Application number: CN201910909573.9A
Authority: CN
Inventors: 江小林; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2023-05-12
Anticipated expiration: 2039-09-25
Also published as: CN110674256A

Abstract

本发明公开了一种OTA酒店的点评与回复的相关度的检测方法及***，所述检测方法包括：获取点评及回复；将点评及回复分别转换为点评向量序列与回复向量序列；对点评向量序列进行编码以得到每一时刻的编码点评向量；对回复向量序列进行编码以得到每一时刻的编码回复向量；匹配每一时刻的编码点评向量与每一时刻的编码回复向量以获得多个匹配向量；捕获向量序列中匹配向量间的关系并聚合为拼接向量；将拼接向量输入全连接层以得到目标向量；根据目标向量计算点评与回复的相关度概率。本发明可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本。

Description

OTA酒店的点评与回复的相关度的检测方法及***

技术领域

本发明涉及OTA(在线旅行代理)酒店的服务领域，特别涉及一种OTA酒店的点评与回复的相关度的检测方法及***。

背景技术

对于服务型企业，用户的咨询或者反馈对企业至关重要，很多产品都会有点评功能，用户对于产品的点评，尤其是差评，能充分反映出产品存在的问题，这就需要商家针对这些评论进行合适的回复。当差评客户(除了恶意差评)得到了适当回应，会让客户觉得商家重视自己的意见，有很多的人都会改变他的负面态度。所以对于现有的产品评论，有必要检测出哪些回复是答非所问，哪些回复是针对性回答，从而进行改进。

目前针对点评的回复与点评的相关性的方法，大部分是通过设定关键词规则人工进行判定，还有一部分通过设定阈值来过滤掉不相关的问句和答句。

发明内容

本发明要解决的技术问题是为了克服现有技术中用户的点评与商家的回复的匹配不准的缺陷，提供一种能够高效、准确检测检测OTA酒店的点评与回复的相关度的检测方法及***。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种OTA酒店的点评与回复的相关度的检测方法，所述检测方法包括：

获取对所述OTA酒店的点评及回复；

将所述点评及所述回复分别转换为点评向量序列与回复向量序列；

对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量；

对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量；

匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量，所述多个匹配向量构成一匹配向量序列；

捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量；

将所述拼接向量输入至全连接层以得到目标向量，所述目标向量的维度与预设类别的数量相同；

根据所述目标向量计算所述点评与所述回复的相关度概率。

其中，使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。

其中，通过softmax(柔性最大传输值函数)计算所述点评与所述回复的相关度概率。

本发明中，通过将OTA酒店点评与回复向量化，通过对向量化的点评与回复间的语义关系进行分析，通过机器学习来对点评与回复之间，点评内部、回复内部的每一单词与整体句子进行分析比较，从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本，更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。

较佳地，将所述拼接向量输入至全连接层以得到预设维度向量的步骤前还包括：

计算每一回复与其他回复的文本相似度以得到相似度序列；

根据所述相似度序列获得相似度平均值；

将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接；

将所述拼接向量输入至全连接层以得到目标向量的步骤包括：

将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量；

和/或，

匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括：

根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。

其中，可以通过编辑距离等方式实现文本相似度的计算；

其中，所述余弦相似度的计算公式为

其中，v_1,、v₂为待比较的向量，k表示向量的某一维，w_k为可训练的参数，其可通过神经网络反向传播得到。

本发明中，通过比较具体某家酒店的当前回复于其它回复的文本相似度，从而可以得到相似度序列的相似度的平均值，并将该平均值作为所述拼接向量中的一个维度，进一步也使得通过拼接向量计算出的相关度概率更精确、更符合实际需求。

较佳地，

从第一点评时刻开始，依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量；

从第一回复时刻开始，依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量；

所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量；

和/或，

从第一点评时刻开始，依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度；

根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量；

从第一点评时刻开始，匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量；

从第一回复时刻开始，依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度；

根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量；

从第一回复时刻开始，匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量；

所述多个匹配向量包括所述第三匹配向量及所述第四匹配向量。

其中，通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均，其中所述余弦相似度用于计算权重，即点评中的某一词与回复内容的相关性，通过该相关性，也就是通过该余弦相似度对回复时刻的向量进行加权，从而可以得到点评与回复的关系，同样的道理，通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。

本发明中，从第一时刻开始，通过对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配，通过点评或回复的余弦相似度对回复或点评中的向向量进行加权，从而能够得到真实的点评、回复之间的关系，克服了现有技术中对细节相关性的忽略的缺陷，从而进一步能够得到更真实的点评与回复相关度的反馈。

较佳地，对点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量的步骤中，

所述编码点评向量包括正向编码点评向量及反向编码点评向量；

对回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量的步骤中，

所述编码回复向量包括正向编码回复向量及反向编码回复向量；

捕获所述向量序列中匹配向量间的关系并根据所述关系将所述向量序列中聚合为拼接向量的步骤包括：

将所述匹配向量序列输入至双向LSTM(一种机器学习模型)模型中；

根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系，并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量；

将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。

本发明中，通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性，通过将匹配向量序列输入至双向LSTM模型中，并且截取特定的四个向量，从而不仅可以获得整段话的完整的语义，也提高了聚合效率，并且通过双向模型也使得对后续相关度的计算更为准确。

较佳地，将所述点评及所述回复分别转换为点评向量序列与回复向量序列的步骤包括：

预处理所述点评及所述回复；

将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列；

将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列；

将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列；

所述预处理的步骤包括：过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句，及标准化语句中的至少一种；

和/或，

根据所述预设维度向量计算所述点评与所述回复的相关度概率的步骤后还包括：

判断所述相关度概率是否大于所述预设概率，若是，则所述点评与所述回复不匹配。

其中，所述分词工具为开源分词工具，包括hanlp(一种分词工具)。

其中，在分词的过程中，可以加入需要当前场景中的一些预设专业词汇，例如：在OTA行业的酒店场景下，在分词处理时加入该场景对应的预授权、信用度、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。

其中，所述词向量模型包括word2vec、glove。

其中，预处理的步骤包括过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句，并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句过程。

本发明中，通过对点评及回复的处理可以提高之后进行向量序列转化的准确性，通过添加预设专业词汇，可以提高分词处理步骤的准确度，通过预处理步骤，也避免了因为客观原因从而影响到后续相关度判断的准确度。

本发明中，通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复，因此，可以帮助商家进行改进，也进一步避免了潜在客户的流失。

本发明还提供了一种OTA酒店的点评与回复的相关度的检测***，所述检测***包括：信息获取模块、转换模块、点评编码模块、回复编码模块、匹配模块、第一拼接模块、目标向量获取模块及概率计算模块；

所述信息获取模块用于获取对所述OTA酒店的点评及回复；

所述转换模块用于将所述点评及所述回复分别转换为点评向量序列与回复向量序列；

所述点评编码模块用于对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量；

所述回复编码模块用于对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量；

所述匹配模块用于匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量，所述多个匹配向量构成一匹配向量序列；

所述第一拼接模块用于捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量；

所述目标向量获取模块用于将所述拼接向量输入至全连接层以得到目标向量，所述目标向量的维度与预设类别的数量相同；

所述概率计算模块用于根据所述目标向量计算所述点评与所述回复的相关度概率。

其中，所述点评编码模块及所述回复编码模块使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。

其中，所述概率计算模块通过softmax计算所述点评与所述回复的相关度概率。

本发明中，通过所述转换模块将OTA酒店点评与回复向量化，通过所述点评编码模块及所述回复编码模块对向量化的点评与回复间的语义关系进行分析，并且所述匹配模块及所述第一拼接模块通过机器学习来对点评与回复之间的每一单词与整体句子进行分析比较，从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本，更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。

较佳地，所述检测***还包括：文本相似度计算模块、平均值获得模块、第二拼接模块；

所述文本相似度计算模块用于计算每一回复与其他回复的文本相似度以得到相似度序列；

所述平均值获得模块用于根据所述相似度序列获得相似度平均值；

所述第二拼接模块用于将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接；

所述目标向量获取模块还用于将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量；

和/或，

所述匹配模块还用于根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。

其中，所述文本相似度计算模块可以通过编辑距离等方式实现文本相似度的计算。

其中，所述余弦相似度的计算公式为

本发明中，通过所述文本相似度计算模块比较具体某家酒店电的当前回复于其它回复的文本相似度，从而可以通过所述平均值获得模块得到相似度序列的相似度的平均值，并通过所述第二拼接模块将该平均值作为所述拼接向量中的一个维度，进一步也使得通过拼接向量计算出的相关度概率更精确、更符合实际需求。

较佳地，所述匹配模块包括第一点评匹配单元及第一回复匹配单元；

所述第一点评匹配单元用于从第一点评时刻开始，依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量；

所述第一回复匹配单元用于从第一回复时刻开始，依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量；

和/或，

所述匹配模块包括第一匹配单元及第二匹配单元；

所述第一匹配单元用于从第一点评时刻开始，依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量；

所述第二匹配单元用于从第一回复时刻开始，依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量；

和/或，

所述匹配模块包括回复余弦计算单元、加权回复计算单元、第三匹配单元、点评余弦计算单元、加权点评计算单元及第四匹配单元；

所述回复余弦计算单元用于从第一点评时刻开始，依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度；

所述加权回复计算单元用于根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量；

所述第三匹配单元用于从第一点评时刻开始，匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量；

所述点评余弦计算单元用于从第一回复时刻开始，依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度；

所述加权点评计算单元用于根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量；

所述第四匹配单元用于从第一回复时刻开始，匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量；

本发明中，从第一时刻开始，通过第一匹配单元及第二匹配单元对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配，通过所述第三匹配单元或第四匹配单元对点评或回复的余弦相似度对回复或点评中的向向量进行加权，从而能够得到真实的点评、回复之间的关系，克服了现有技术中对细节相关性的忽略的缺陷，从而进一步能够得到更真实的点评与回复相关度的反馈。

较佳地，所述编码点评向量包括正向编码点评向量及反向编码点评向量；

所述第一拼接模块包括：输入单元、截取单元及聚合单元；

所述输入单元用于将所述匹配向量序列输入至双向LSTM模型中；

所述截取单元用于根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系，并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量；

所述聚合单元用于将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。

本发明中，通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性，通过输入单元将匹配向量序列输入至双向LSTM模型中，并且通过截取单元截取特定的四个向量，从而不仅可以获得整段话的完整的语义，也提高了聚合单元的聚合效率，并且通过双向模型也使得对后续相关度的计算更为准确。

较佳地，所述转换模块包括预处理单元、分词处理单元、词汇添加单元及向量序列获取单元；

所述预处理单元用于预处理所述点评及所述回复；

所述分词处理单元用于将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列；

所述词汇添加单元用于将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列；

所述向量序列获取单元用于将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列；

所述预处理包括过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句，及标准化语句中的至少一种；

和/或，

所述检测***还包括判断模块，用于判断所述相关度概率是否大于所述预设概率，若是，则所述点评与所述回复不匹配。

其中，在分词的过程中，所述词汇添加单元可以加入需要当前场景中的一些预设专业词汇，例如：在OTA行业的酒店场景下，在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。

其中，所述词向量模型包括word2vec、glove。

其中，所述预处理单元用于通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句，并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。

本发明中，通过所述预处理单元对点评及回复的处理可以提高之后进行向量序列转化的准确性，通过所述词汇添加单元添加预设专业词汇，可以提高分词处理步骤的准确度，通过预处理单元中的预处理过程，也避免了因为客观原因从而影响到后续相关度判断的准确度。

本发明中，通过判断模块对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复，因此，可以帮助商家进行改进，也进一步避免了潜在客户的流失。

本发明的积极进步效果在于：本发明通过对OTA酒店点评与回复向量化，通过对向量化的点评与回复间的语义关系进行分析，通过机器学习来对点评与回复之间，点评内部、回复内部的每一单词与整体句子进行分析比较，从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本，更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。

附图说明

图1为本发明实施例1的OTA酒店的点评与回复的相关度的检测方法的流程图。

图2为实施例2中的步骤102的具体流程图。

图3为实施例2中的步骤104的具体流程图。

图4为实施例2中的步骤105的具体流程图。

图5为实施例2中的检测方法的原理示意图。

图6为本发明实施例3的OTA酒店的点评与回复的相关度的检测***的模块示意图。

图7为实施例4中的转换模块的模块示意图。

图8为实施例4中的匹配模块的模块示意图。

图9为实施例4中的第一拼接模块的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种OTA酒店的点评与回复的相关度的检测方法，如图1所示，所述检测方法包括：

步骤101、获取对所述OTA酒店的点评及回复；

步骤102、将所述点评及所述回复分别转换为点评向量序列与回复向量序列；

步骤103、对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量；对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量；

步骤104、匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量，所述多个匹配向量构成一匹配向量序列；

步骤105、捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量；

步骤106、将所述拼接向量输入至全连接层以得到目标向量，所述目标向量的维度与预设类别的数量相同；

步骤107、根据所述目标向量计算所述点评与所述回复的相关度概率。

其中，在步骤106中，所述目标向量的维度与预设类别的数量相同。

本实施例中，通过对OTA酒店点评与回复向量化，通过对向量化的点评与回复间的语义关系进行分析，通过机器学习来对点评与回复之间，点评内部、回复内部的每一单词与整体句子进行分析比较，从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本，更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。

实施例2

本实施例是在实施例1的基础上做的进一步改进，具体而言，如图2所示，在本实施例中，步骤102包括：

步骤201、预处理所述点评及所述回复；

步骤202、将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列；

步骤203、将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列；

步骤204、将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列。

其中，在步骤201中，通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句，并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。

其中，在步骤202中，通过包括hanlp(一种分词处理工具)的分词工具以得到第一分词点评序列及第一分词回复序列。

其中，在步骤203中，可以加入需要当前场景中的一些预设专业词汇，例如：在OTA行业的酒店场景下，在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。

其中，在步骤204中，其中，所述词向量模型包括word2vec(一种词向量模型)、glove(一种词向量模型)。

本实施例中，通过对点评及回复的处理可以提高之后进行向量序列转化的准确性，通过添加预设专业词汇，可以提高分词处理步骤的准确度，通过预处理步骤，也避免了因为客观原因从而影响到后续相关度判断的准确度。

本实施例中，通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复，因此，可以帮助商家进行改进，也进一步避免了潜在客户的流失。

本实施例中，经过步骤204可以分别得到每句点评中由单词向量构成的点评向量序列以及每句回复中由单词向量构成的回复向量序列。

本实施例中，为了得到点评向量序列及回复向量序列间每个向量与整体句子间的更加准确的语义关系，步骤103中，所述编码点评向量包括正向编码点评向量及反向编码点评向量，所述编码回复向量包括正向编码回复向量及反向编码回复向量。

本实施例中，为了对编码点评向量中每一向量与编码回复向量的语义进行更恰当的匹配以及为了对编码回复向量中每一向量与编码点评向量的语义进行更恰当的匹配，步骤104根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。

其中，所述余弦相似度的计算公式为

如图3所示，本实施例中，步骤104具体可以包括下述步骤：

步骤1041、从第一点评时刻开始，依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量；

步骤1042、从第一回复时刻开始，依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量；

步骤1043、从第一点评时刻开始，依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度；

步骤1044、根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量；

步骤1045、从第一点评时刻开始，匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以获得每一时刻的第三匹配向量；

步骤1046、从第一回复时刻开始，依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度；

步骤1047、根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量；

步骤1048、从第一回复时刻开始，匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以获得每一时刻的第四匹配向量；

所述多个匹配向量包括所述第一匹配向量、第二匹配向量、所述第三匹配向量及所述第四匹配向量。

其中，所述步骤1041-1042与步骤1043-1048可以同时进行。

其中，向量之间的匹配方法为通过上述余弦相似度的公式进行匹配，即通过步骤1041-1048整个流程后，会得到一由每一时刻的多维度的余弦相似度组合成的匹配向量序列。

其中，步骤1044及1045通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均，其中所述余弦相似度用于计算权重，即点评中的某一词与回复内容的相关性，通过该相关性，也就是通过该余弦相似度对回复时刻的向量进行加权，从而可以得到点评与回复的关系，同样的道理步骤1046及1047通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。

本实施例中，从第一时刻开始，通过对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配，通过点评或回复的余弦相似度对回复或点评中的向向量进行加权，从而能够得到真实的点评、回复之间的关系，克服了现有技术中对细节相关性的忽略的缺陷，从而进一步能够得到更真实的点评与回复相关度的反馈。

本实施例中，得到一匹配的向量序列后，便执行步骤105，如图4所示，其中，步骤105具体包括：

步骤1051、将所述匹配向量序列输入至双向LSTM模型中；

步骤1052、根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系，并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量；

步骤1053、将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。

本实施例中，通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性，通过将匹配向量序列输入至双向LSTM模型中，并且截取特定的四个向量，从而不仅可以获得整段话的完整的语义，也提高了聚合效率，并且通过双向模型也使得对后续相关度的计算更为准确。

另外本实施例还包括下述步骤：

判断所述相关度概率是否大于所述预设概率，若是，则所述点评与所述回复不匹配，若否，则所述点评与所述回复匹配。

为了更好的理解本实施例，下面对本实施例的原理进行简单的说明。

如图5所示，本实施例中，先将点评转化成一个个单词，再将单词转换成一个个词向量301，同理，将回复转换成一个个词向量311，而后将由词向量301组成的点评的词向量序列以及回复的词向量序列分别输入至302LSTM模型中编码，从而可以得到每个词向量与整句话的整体关系，其中，既包括每个词向量向前的关系以及向后的关系，接着将编码后的点评词向量与编码后的回复词向量再匹配层进行匹配，以得到点评中每个时刻的词向量与回复的相关度，以及回复的每个时刻的词向量与点评的相关度，之后将上述匹配后的包含相关度信息的向量拼接并输入至双向LSTM模型中并聚合为一个固定长度的向量，并在该模型中截取点评向前的最后一个时刻的向量304、点评向后的最后一个时刻的向量305、回复向前的最后一个时刻的向量314、回复向后的最后一个时刻的向量315并将其拼接为一拼接向量，之所以截取这四个向量是由于这四个向量包含整句话的所有信息，因此既可以反应整体语句的关系，又提高了计算的效率。接着，将点评回复相似度计算后的相似度值与上面的拼接向量拼接后，再送入全连接层、softMax层来得到最终的相似度概率，进而来判断点评与回复的关系。

下面举一个具体实例来对本实施例进行进一步的说明。

如果对于某一次入住酒店的体验，某用户的点评为“毛巾很脏”，而对于该点评的回复为“需要卫生清洁”，在执行步骤101获得上述点评及针对点评的回复后，首先通过预处理上述点评与回复，如在去除掉文字里面的表情等特殊字符等，然后通过步骤202使上述内容通过分词工具分成一个一个的单词，如点评内容“毛巾很脏”可以分割成“毛巾、很、脏”这三个单词，并且形成该三个单词组合成的序列，回复内容“需要卫生清洁”可以分割成“需要、卫生、清洁”这三个单词，并且形成该三个单词组合成的序列。而后，可以添加当前场景下的预设专业词汇至相关的点评或者回复中，如在此场景下为公寓房，可以将“公租房”这个词添加至“毛巾、很、脏”这三个单词之前。之后将点评的单词序列和回复的单词序列分别输入至词向量模型，可以得到点评向量序列，及回复向量序列，如，本实施例中，“毛巾、很、脏”这三个词分别形成a_k、b_k、c_k这三个向量，通过这三个向量形成的点评向量序列为a_kb_kc_k,同理，回复向量序列为A_kB_kC_k,其中k代表不同的维度。

接着，利用LSTM模型分别对点评向量序列a_kb_kc_k及回复向量序列A_kB_kC_k分别进行编码，可以得到每句话中每个单词与整句话的关系，这一步的原理为将点评句子视为单词按顺序构成的序列，每个单词用词嵌入表示，对应位置上有一个中间表示，然后，获得每个单词的中间表示，中间表示代表句首到该位置的语义，该单词的中间表示由当前的词语的词嵌入和前一个词的中间表示共同组成，最后，把句尾单词的中间表示作为整个对话的向量表示，分别进行前向和后向的运算，对于同一个单词的前向和后向两个向量进行融合，得到一句话的多个时刻的向量表示。同理，对于回复也通过双向的LSTM获取得多个时刻的向量化表示，如，在b_k时刻，得到的向前的向量为a_kb_k，得到的向后的向量为b_kc_k，根据上述方法可以分别得到每一时刻的编码点评向量与每一时刻的编码回复向量。

下一步，则对上一步得到的编码点评向量与编码回复向量进行匹配，本实施例中，有两种匹配方法，一种为步骤1041-1042所述的全匹配方法，另一种为步骤1043-1046所述的集中注意力匹配方法，如在点评中，在b_k时刻，通过全匹配的方法，分别将b_k时刻的编码点评向量，即b_kc_k与回复的最后一个时刻的向量，即A_kB_kC_k，由于，本实施例需要分别进行向前和向后运算,因此，点评的b_k时刻还存在向前的编码向量a_kb_k,对应的，回复的最后一时刻也存在向前的编码向量，因此，实质上存在4个比较值；通过全匹配的方法集中注意力匹配方法，依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度，如点评从a_k时刻，向后的编码向量a_kb_kc_k与回复的向后的编码，即：a_kb_kc_k分别与A_kB_kC_k、B_kC_k及C_k(实质上存在4个比较值，本实施例只从一个方向做简化性说明)得到的余弦线相似度分别为0.1、0.2及0.3，而这里的余弦相似度用于计算权重，通过该权重，可以得到加权平均后的回复向量M_k,再通过该时刻的点评向量，a_kb_kc_k与加权平均后的回复向量M_k进行匹配。本实施例中，向量中的匹配方法为通过公式

进行匹配，其中，v₁、v₂为待比较的向量，k表示向量的某一维，w_k为可训练的参数，其可通过神经网络反向传播得到。如，当比较a_kb_kc_k与M_k,时，分别针对向量中的每一个维度对该两个向量进行余弦相似度的加权比较，如，第一维比较的余弦相似度的值为0.1、第二维度为0.2、第三维为0.3，则在a_k时刻，会形成一个三维的余弦相似度向量，同样，在其它的时刻也会形成多维度的向量，将比较的所有向量拼接则会得到一个以两向量余弦相似度为基础的代表点评与回复间关系的匹配向量序列，之后再将上述反应点评与回复间关系的匹配向量序列放入双向LSTM模型中，并截取模型中针对点评的反应整体语义关系的正向最后一个向量，与反向最后一个向量以及回复的反应整体语义关系的正向最后一个向量，与反向最后一个向量这四个向量，而后将这四个向量拼接在一起形成一拼接向量。

另外，本实施例中，还可以通过编辑距离相似度等方式得到当前回复与其他回复的文本的相似度，然后将该相似度作为向量的一个维度与上一步骤得到的向量进行拼接，如，上一步得到一400维度的向量，则经过这一步的相似度计算，则可以得到一401维度的向量。

接着，将上一步的401维度的向量放入全连接层计算可以得到与本实施例中类别数目(两类，一类为是答非所问，第二为不是打非所谓)相同维度的向量，之后再经过softmax计算后则可以得到上述两个类别的概率，如，本实施例中，为答非所问的概率为0.6，不为答非所问的概率诶0.4，则，本实施例中的答复为答非所问的答复。

实施例3

本实施例提供了一种OTA酒店的点评与回复的相关度的检测***，如图6所示，所述检测***包括信息获取模块401、转换模块402、点评编码模块403、回复编码模块404、匹配模块405、第一拼接模块406、目标向量获取模块407及概率计算模块408；

信息获取模块401用于获取对所述OTA酒店的点评及回复；

转换模块402用于将所述点评及所述回复分别转换为点评向量序列与回复向量序列；

点评编码模块403用于对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量；

回复编码模块404用于对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量；

匹配模块405用于匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量，所述多个匹配向量构成一匹配向量序列；

第一拼接模块406用于捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量；

目标向量获取模块407用于将所述拼接向量输入至全连接层以得到目标向量，所述目标向量的维度与预设类别的数量相同；

概率计算模块407用于根据所述目标向量计算所述点评与所述回复的相关度概率。

其中，点评编码模块403及回复编码模块404使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。

其中，概率计算模块408通过softmax计算所述点评与所述回复的相关度概率。

本实施例中，通过转换模块将OTA酒店点评与回复向量化，通过点评编码模块及回复编码模块对向量化的点评与回复间的语义关系进行分析，并且匹配模块及第一拼接模块通过机器学习来对点评与回复之间的每一单词与整体句子进行分析比较，从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配，不但可以帮助酒店根据有效评论对现有的产品进行改进，也降低了人工成本，更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。

实施例4

本实施例是在实施例3的基础上做的进一步改进，具体而言，如图7所示，在本实施例中，转换模块402包括：预处理单元4021、分词处理单元4022、词汇添加单元4023及向量序列获取单元4024；

预处理单元4021用于预处理所述点评及所述回复；

分词处理单元4022用于将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列；

词汇添加单元4023用于将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列；

向量序列获取单元4024用于将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列；

预处理单元4021用于通过过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句，及标准化语句中的至少一种手段来进行预处理；

其中，所述分词工具为开源分词工具，包括hanlp。

其中，在分词的过程中，词汇添加单元4023可以加入需要当前场景中的一些预设专业词汇，例如：在OTA行业的酒店场景下，在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。

其中，所述词向量模型包括word2vec、glove。

其中，预处理单元4021用于通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句，并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。

本实施例中，通过所述预处理单元对点评及回复的处理可以提高之后进行向量序列转化的准确性，通过所述词汇添加单元添加预设专业词汇，可以提高分词处理步骤的准确度，通过预处理单元中的预处理过程，也避免了因为客观原因从而影响到后续相关度判断的准确度。

本实施例中，向量序列获取单元4024可以分别得到每句点评中由单词向量构成的点评向量序列以及每句回复中由单词向量构成的回复向量序列。

本实施例中，为了得到点评向量序列及回复向量序列间每个向量与整体句子间的更加准确的语义关系，所述编码点评向量包括正向编码点评向量及反向编码点评向量，所述编码回复向量包括正向编码回复向量及反向编码回复向量。

本实施例中，为了对编码点评向量中每一向量与编码回复向量的语义进行更恰当的匹配以及为了对编码回复向量中每一向量与编码点评向量的语义进行更恰当的匹配，匹配模块405根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。

其中，所述余弦相似度的计算公式为

如图8所示，本实施例中，匹配模块405包括：第一匹配单元4051、第二匹配单元4052、回复余弦计算单元4053、加权回复计算单元4054、第三匹配单元4055、点评余弦计算单元4056、加权点评计算单元4057及第四匹配单元4058；

第一匹配单元4051用于从第一点评时刻开始，依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量；

第二匹配单元4052用于从第一回复时刻开始，依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量；

回复余弦计算单元4053用于从第一点评时刻开始，依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度；

加权回复计算单元4054用于根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量；

第三匹配单元4055用于从第一点评时刻开始，匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量；

点评余弦计算单元4056用于从第一回复时刻开始，依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度；

加权点评计算单元4057用于根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量；

第四匹配单元4058用于从第一回复时刻开始，匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量；

所述多个匹配向量包括所述第一匹配向量、所述第二匹配向量、所述第三匹配向量及所述第四匹配向量。

其中，向量之间的匹配方法为通过上述余弦相似度的公式进行匹配，即通过上述4051-4058所有模块后，会得到一由每一时刻的多维度的余弦相似度组合成的匹配向量序列。

其中，回复余弦计算单元4053及加权回复计算单元4054通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均，其中所述余弦相似度用于计算权重，即点评中的某一词与回复内容的相关性，通过该相关性，也就是通过该余弦相似度对回复时刻的向量进行加权，从而可以得到点评与回复的关系，同样的点评余弦计算单元4056及加权点评计算单元4057通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。

本实施例中，从第一时刻开始，通过第一匹配单元及第二匹配单元对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配，通过所述第三匹配单元或第四匹配单元对点评或回复的余弦相似度对回复或点评中的向向量进行加权，从而能够得到真实的点评、回复之间的关系，克服了现有技术中对细节相关性的忽略的缺陷，从而进一步能够得到更真实的点评与回复相关度的反馈。

本实施例中，得到一匹配的向量序列后，便调用第一拼接模块406，如图9所示，第一拼接模块406包括输入单元4061、截取单元4062及聚合单元4063。

输入单元4061用于将所述匹配向量序列输入至双向LSTM模型中；

截取单元4062用于根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系，并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量；

聚合单元4063用于将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。

本实施例中，通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性，通过输入单元将匹配向量序列输入至双向LSTM模型中，并且通过截取单元截取特定的四个向量，从而不仅可以获得整段话的完整的语义，也提高了聚合单元的聚合效率，并且通过双向模型也使得对后续相关度的计算更为准确。

另外，本实施例还包括判断单元，用于判断所述相关度概率是否大于所述预设概率，若是，则所述点评与所述回复不匹配，若否，则所述点评与所述回复匹配。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种OTA酒店的点评与回复的相关度的检测方法，其特征在于，所述检测方法包括：

获取对所述OTA酒店的点评及回复；

根据所述目标向量计算所述点评与所述回复的相关度概率；

匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤还包括：

2.如权利要求1所述的检测方法，其特征在于，

将所述拼接向量输入至全连接层以得到目标向量的步骤前还包括：

计算每一回复与其他回复的文本相似度以得到相似度序列；

根据所述相似度序列获得相似度平均值；

和/或，

3.如权利要求1所述的检测方法，其特征在于，

对点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量的步骤中，

将所述匹配向量序列输入至双向LSTM模型中；

4.如权利要求1所述的检测方法，其特征在于，

将所述点评及所述回复分别转换为点评向量序列与回复向量序列的步骤包括：

预处理所述点评及所述回复；

和/或，

根据所述目标向量计算所述点评与所述回复的相关度概率的步骤后还包括：

判断所述相关度概率是否大于预设概率，若是，则所述点评与所述回复不匹配。

5.一种OTA酒店的点评与回复的相关度的检测***，其特征在于，所述检测***包括：信息获取模块、转换模块、点评编码模块、回复编码模块、匹配模块、第一拼接模块、目标向量获取模块及概率计算模块；

所述信息获取模块用于获取对所述OTA酒店的点评及回复；

所述概率计算模块用于根据所述目标向量计算所述点评与所述回复的相关度概率；

所述匹配模块包括第一匹配单元及第二匹配单元；

所述匹配模块还包括回复余弦计算单元、加权回复计算单元、第三匹配单元、点评余弦计算单元、加权点评计算单元及第四匹配单元；

6.如权利要求5所述的检测***，其特征在于，所述检测***还包括：文本相似度计算模块、平均值获得模块、第二拼接模块；

和/或，

7.如权利要求5所述的检测***，其特征在于，

所述第一拼接模块包括：输入单元、截取单元及聚合单元；

8.如权利要求5所述的检测***，其特征在于，所述转换模块包括预处理单元、分词处理单元、词汇添加单元及向量序列获取单元；

所述预处理单元用于预处理所述点评及所述回复；

所述预处理单元用于通过过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句，及标准化语句中的至少一种手段来进行预处理；

和/或，

所述检测***还包括判断模块，用于判断所述相关度概率是否大于预设概率，若是，则所述点评与所述回复不匹配。