CN110674256B - Ota酒店的点评与回复的相关度的检测方法及*** - Google Patents

Ota酒店的点评与回复的相关度的检测方法及*** Download PDF

Info

Publication number
CN110674256B
CN110674256B CN201910909573.9A CN201910909573A CN110674256B CN 110674256 B CN110674256 B CN 110674256B CN 201910909573 A CN201910909573 A CN 201910909573A CN 110674256 B CN110674256 B CN 110674256B
Authority
CN
China
Prior art keywords
vector
reply
comment
moment
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910909573.9A
Other languages
English (en)
Other versions
CN110674256A (zh
Inventor
江小林
罗超
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201910909573.9A priority Critical patent/CN110674256B/zh
Publication of CN110674256A publication Critical patent/CN110674256A/zh
Application granted granted Critical
Publication of CN110674256B publication Critical patent/CN110674256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种OTA酒店的点评与回复的相关度的检测方法及***,所述检测方法包括:获取点评及回复;将点评及回复分别转换为点评向量序列与回复向量序列;对点评向量序列进行编码以得到每一时刻的编码点评向量;对回复向量序列进行编码以得到每一时刻的编码回复向量;匹配每一时刻的编码点评向量与每一时刻的编码回复向量以获得多个匹配向量;捕获向量序列中匹配向量间的关系并聚合为拼接向量;将拼接向量输入全连接层以得到目标向量;根据目标向量计算点评与回复的相关度概率。本发明可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本。

Description

OTA酒店的点评与回复的相关度的检测方法及***
技术领域
本发明涉及OTA(在线旅行代理)酒店的服务领域,特别涉及一种OTA酒店的点评与回复的相关度的检测方法及***。
背景技术
对于服务型企业,用户的咨询或者反馈对企业至关重要,很多产品都会有点评功能,用户对于产品的点评,尤其是差评,能充分反映出产品存在的问题,这就需要商家针对这些评论进行合适的回复。当差评客户(除了恶意差评)得到了适当回应,会让客户觉得商家重视自己的意见,有很多的人都会改变他的负面态度。所以对于现有的产品评论,有必要检测出哪些回复是答非所问,哪些回复是针对性回答,从而进行改进。
目前针对点评的回复与点评的相关性的方法,大部分是通过设定关键词规则人工进行判定,还有一部分通过设定阈值来过滤掉不相关的问句和答句。
发明内容
本发明要解决的技术问题是为了克服现有技术中用户的点评与商家的回复的匹配不准的缺陷,提供一种能够高效、准确检测检测OTA酒店的点评与回复的相关度的检测方法及***。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种OTA酒店的点评与回复的相关度的检测方法,所述检测方法包括:
获取对所述OTA酒店的点评及回复;
将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;
对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
根据所述目标向量计算所述点评与所述回复的相关度概率。
其中,使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。
其中,通过softmax(柔性最大传输值函数)计算所述点评与所述回复的相关度概率。
本发明中,通过将OTA酒店点评与回复向量化,通过对向量化的点评与回复间的语义关系进行分析,通过机器学习来对点评与回复之间,点评内部、回复内部的每一单词与整体句子进行分析比较,从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本,更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。
较佳地,将所述拼接向量输入至全连接层以得到预设维度向量的步骤前还包括:
计算每一回复与其他回复的文本相似度以得到相似度序列;
根据所述相似度序列获得相似度平均值;
将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接;
将所述拼接向量输入至全连接层以得到目标向量的步骤包括:
将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量;
和/或,
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括:
根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
其中,可以通过编辑距离等方式实现文本相似度的计算;
其中,所述余弦相似度的计算公式为
Figure GDA0004172166090000031
其中,v1,、v2为待比较的向量,k表示向量的某一维,wk为可训练的参数,其可通过神经网络反向传播得到。
本发明中,通过比较具体某家酒店的当前回复于其它回复的文本相似度,从而可以得到相似度序列的相似度的平均值,并将该平均值作为所述拼接向量中的一个维度,进一步也使得通过拼接向量计算出的相关度概率更精确、更符合实际需求。
较佳地,
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括:
从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量;
和/或,
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括:
从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量;
从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第三匹配向量及所述第四匹配向量。
其中,通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均,其中所述余弦相似度用于计算权重,即点评中的某一词与回复内容的相关性,通过该相关性,也就是通过该余弦相似度对回复时刻的向量进行加权,从而可以得到点评与回复的关系,同样的道理,通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。
本发明中,从第一时刻开始,通过对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配,通过点评或回复的余弦相似度对回复或点评中的向向量进行加权,从而能够得到真实的点评、回复之间的关系,克服了现有技术中对细节相关性的忽略的缺陷,从而进一步能够得到更真实的点评与回复相关度的反馈。
较佳地,对点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量的步骤中,
所述编码点评向量包括正向编码点评向量及反向编码点评向量;
对回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量的步骤中,
所述编码回复向量包括正向编码回复向量及反向编码回复向量;
捕获所述向量序列中匹配向量间的关系并根据所述关系将所述向量序列中聚合为拼接向量的步骤包括:
将所述匹配向量序列输入至双向LSTM(一种机器学习模型)模型中;
根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
本发明中,通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性,通过将匹配向量序列输入至双向LSTM模型中,并且截取特定的四个向量,从而不仅可以获得整段话的完整的语义,也提高了聚合效率,并且通过双向模型也使得对后续相关度的计算更为准确。
较佳地,将所述点评及所述回复分别转换为点评向量序列与回复向量序列的步骤包括:
预处理所述点评及所述回复;
将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列;
所述预处理的步骤包括:过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句,及标准化语句中的至少一种;
和/或,
根据所述预设维度向量计算所述点评与所述回复的相关度概率的步骤后还包括:
判断所述相关度概率是否大于所述预设概率,若是,则所述点评与所述回复不匹配。
其中,所述分词工具为开源分词工具,包括hanlp(一种分词工具)。
其中,在分词的过程中,可以加入需要当前场景中的一些预设专业词汇,例如:在OTA行业的酒店场景下,在分词处理时加入该场景对应的预授权、信用度、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。
其中,所述词向量模型包括word2vec、glove。
其中,预处理的步骤包括过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句,并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句过程。
本发明中,通过对点评及回复的处理可以提高之后进行向量序列转化的准确性,通过添加预设专业词汇,可以提高分词处理步骤的准确度,通过预处理步骤,也避免了因为客观原因从而影响到后续相关度判断的准确度。
本发明中,通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复,因此,可以帮助商家进行改进,也进一步避免了潜在客户的流失。
本发明还提供了一种OTA酒店的点评与回复的相关度的检测***,所述检测***包括:信息获取模块、转换模块、点评编码模块、回复编码模块、匹配模块、第一拼接模块、目标向量获取模块及概率计算模块;
所述信息获取模块用于获取对所述OTA酒店的点评及回复;
所述转换模块用于将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
所述点评编码模块用于对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;
所述回复编码模块用于对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
所述匹配模块用于匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
所述第一拼接模块用于捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
所述目标向量获取模块用于将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
所述概率计算模块用于根据所述目标向量计算所述点评与所述回复的相关度概率。
其中,所述点评编码模块及所述回复编码模块使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。
其中,所述概率计算模块通过softmax计算所述点评与所述回复的相关度概率。
本发明中,通过所述转换模块将OTA酒店点评与回复向量化,通过所述点评编码模块及所述回复编码模块对向量化的点评与回复间的语义关系进行分析,并且所述匹配模块及所述第一拼接模块通过机器学习来对点评与回复之间的每一单词与整体句子进行分析比较,从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本,更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。
较佳地,所述检测***还包括:文本相似度计算模块、平均值获得模块、第二拼接模块;
所述文本相似度计算模块用于计算每一回复与其他回复的文本相似度以得到相似度序列;
所述平均值获得模块用于根据所述相似度序列获得相似度平均值;
所述第二拼接模块用于将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接;
所述目标向量获取模块还用于将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量;
和/或,
所述匹配模块还用于根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
其中,所述文本相似度计算模块可以通过编辑距离等方式实现文本相似度的计算。
其中,所述余弦相似度的计算公式为
Figure GDA0004172166090000081
其中,v1,、v2为待比较的向量,k表示向量的某一维,wk为可训练的参数,其可通过神经网络反向传播得到。
本发明中,通过所述文本相似度计算模块比较具体某家酒店电的当前回复于其它回复的文本相似度,从而可以通过所述平均值获得模块得到相似度序列的相似度的平均值,并通过所述第二拼接模块将该平均值作为所述拼接向量中的一个维度,进一步也使得通过拼接向量计算出的相关度概率更精确、更符合实际需求。
较佳地,所述匹配模块包括第一点评匹配单元及第一回复匹配单元;
所述第一点评匹配单元用于从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
所述第一回复匹配单元用于从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量;
和/或,
所述匹配模块包括第一匹配单元及第二匹配单元;
所述第一匹配单元用于从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
所述第二匹配单元用于从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量;
和/或,
所述匹配模块包括回复余弦计算单元、加权回复计算单元、第三匹配单元、点评余弦计算单元、加权点评计算单元及第四匹配单元;
所述回复余弦计算单元用于从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
所述加权回复计算单元用于根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
所述第三匹配单元用于从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量;
所述点评余弦计算单元用于从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
所述加权点评计算单元用于根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
所述第四匹配单元用于从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第三匹配向量及所述第四匹配向量。
本发明中,从第一时刻开始,通过第一匹配单元及第二匹配单元对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配,通过所述第三匹配单元或第四匹配单元对点评或回复的余弦相似度对回复或点评中的向向量进行加权,从而能够得到真实的点评、回复之间的关系,克服了现有技术中对细节相关性的忽略的缺陷,从而进一步能够得到更真实的点评与回复相关度的反馈。
较佳地,所述编码点评向量包括正向编码点评向量及反向编码点评向量;
所述编码回复向量包括正向编码回复向量及反向编码回复向量;
所述第一拼接模块包括:输入单元、截取单元及聚合单元;
所述输入单元用于将所述匹配向量序列输入至双向LSTM模型中;
所述截取单元用于根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
所述聚合单元用于将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
本发明中,通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性,通过输入单元将匹配向量序列输入至双向LSTM模型中,并且通过截取单元截取特定的四个向量,从而不仅可以获得整段话的完整的语义,也提高了聚合单元的聚合效率,并且通过双向模型也使得对后续相关度的计算更为准确。
较佳地,所述转换模块包括预处理单元、分词处理单元、词汇添加单元及向量序列获取单元;
所述预处理单元用于预处理所述点评及所述回复;
所述分词处理单元用于将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
所述词汇添加单元用于将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
所述向量序列获取单元用于将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列;
所述预处理包括过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句,及标准化语句中的至少一种;
和/或,
所述检测***还包括判断模块,用于判断所述相关度概率是否大于所述预设概率,若是,则所述点评与所述回复不匹配。
其中,所述分词工具为开源分词工具,包括hanlp(一种分词工具)。
其中,在分词的过程中,所述词汇添加单元可以加入需要当前场景中的一些预设专业词汇,例如:在OTA行业的酒店场景下,在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。
其中,所述词向量模型包括word2vec、glove。
其中,所述预处理单元用于通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句,并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。
本发明中,通过所述预处理单元对点评及回复的处理可以提高之后进行向量序列转化的准确性,通过所述词汇添加单元添加预设专业词汇,可以提高分词处理步骤的准确度,通过预处理单元中的预处理过程,也避免了因为客观原因从而影响到后续相关度判断的准确度。
本发明中,通过判断模块对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复,因此,可以帮助商家进行改进,也进一步避免了潜在客户的流失。
本发明的积极进步效果在于:本发明通过对OTA酒店点评与回复向量化,通过对向量化的点评与回复间的语义关系进行分析,通过机器学习来对点评与回复之间,点评内部、回复内部的每一单词与整体句子进行分析比较,从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本,更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。
附图说明
图1为本发明实施例1的OTA酒店的点评与回复的相关度的检测方法的流程图。
图2为实施例2中的步骤102的具体流程图。
图3为实施例2中的步骤104的具体流程图。
图4为实施例2中的步骤105的具体流程图。
图5为实施例2中的检测方法的原理示意图。
图6为本发明实施例3的OTA酒店的点评与回复的相关度的检测***的模块示意图。
图7为实施例4中的转换模块的模块示意图。
图8为实施例4中的匹配模块的模块示意图。
图9为实施例4中的第一拼接模块的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供了一种OTA酒店的点评与回复的相关度的检测方法,如图1所示,所述检测方法包括:
步骤101、获取对所述OTA酒店的点评及回复;
步骤102、将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
步骤103、对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
步骤104、匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
步骤105、捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
步骤106、将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
步骤107、根据所述目标向量计算所述点评与所述回复的相关度概率。
其中,在步骤106中,所述目标向量的维度与预设类别的数量相同。
本实施例中,通过对OTA酒店点评与回复向量化,通过对向量化的点评与回复间的语义关系进行分析,通过机器学习来对点评与回复之间,点评内部、回复内部的每一单词与整体句子进行分析比较,从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本,更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。
实施例2
本实施例是在实施例1的基础上做的进一步改进,具体而言,如图2所示,在本实施例中,步骤102包括:
步骤201、预处理所述点评及所述回复;
步骤202、将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
步骤203、将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
步骤204、将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列。
其中,在步骤201中,通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句,并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。
其中,在步骤202中,通过包括hanlp(一种分词处理工具)的分词工具以得到第一分词点评序列及第一分词回复序列。
其中,在步骤203中,可以加入需要当前场景中的一些预设专业词汇,例如:在OTA行业的酒店场景下,在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。
其中,在步骤204中,其中,所述词向量模型包括word2vec(一种词向量模型)、glove(一种词向量模型)。
本实施例中,通过对点评及回复的处理可以提高之后进行向量序列转化的准确性,通过添加预设专业词汇,可以提高分词处理步骤的准确度,通过预处理步骤,也避免了因为客观原因从而影响到后续相关度判断的准确度。
本实施例中,通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复,因此,可以帮助商家进行改进,也进一步避免了潜在客户的流失。
本实施例中,经过步骤204可以分别得到每句点评中由单词向量构成的点评向量序列以及每句回复中由单词向量构成的回复向量序列。
本实施例中,为了得到点评向量序列及回复向量序列间每个向量与整体句子间的更加准确的语义关系,步骤103中,所述编码点评向量包括正向编码点评向量及反向编码点评向量,所述编码回复向量包括正向编码回复向量及反向编码回复向量。
本实施例中,为了对编码点评向量中每一向量与编码回复向量的语义进行更恰当的匹配以及为了对编码回复向量中每一向量与编码点评向量的语义进行更恰当的匹配,步骤104根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
其中,所述余弦相似度的计算公式为
Figure GDA0004172166090000151
其中,v1,、v2为待比较的向量,k表示向量的某一维,wk为可训练的参数,其可通过神经网络反向传播得到。
如图3所示,本实施例中,步骤104具体可以包括下述步骤:
步骤1041、从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
步骤1042、从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
步骤1043、从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
步骤1044、根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
步骤1045、从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以获得每一时刻的第三匹配向量;
步骤1046、从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
步骤1047、根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
步骤1048、从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第一匹配向量、第二匹配向量、所述第三匹配向量及所述第四匹配向量。
其中,所述步骤1041-1042与步骤1043-1048可以同时进行。
其中,向量之间的匹配方法为通过上述余弦相似度的公式进行匹配,即通过步骤1041-1048整个流程后,会得到一由每一时刻的多维度的余弦相似度组合成的匹配向量序列。
其中,步骤1044及1045通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均,其中所述余弦相似度用于计算权重,即点评中的某一词与回复内容的相关性,通过该相关性,也就是通过该余弦相似度对回复时刻的向量进行加权,从而可以得到点评与回复的关系,同样的道理步骤1046及1047通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。
本实施例中,从第一时刻开始,通过对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配,通过点评或回复的余弦相似度对回复或点评中的向向量进行加权,从而能够得到真实的点评、回复之间的关系,克服了现有技术中对细节相关性的忽略的缺陷,从而进一步能够得到更真实的点评与回复相关度的反馈。
本实施例中,得到一匹配的向量序列后,便执行步骤105,如图4所示,其中,步骤105具体包括:
步骤1051、将所述匹配向量序列输入至双向LSTM模型中;
步骤1052、根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
步骤1053、将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
本实施例中,通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性,通过将匹配向量序列输入至双向LSTM模型中,并且截取特定的四个向量,从而不仅可以获得整段话的完整的语义,也提高了聚合效率,并且通过双向模型也使得对后续相关度的计算更为准确。
另外本实施例还包括下述步骤:
判断所述相关度概率是否大于所述预设概率,若是,则所述点评与所述回复不匹配,若否,则所述点评与所述回复匹配。
本实施例中,通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复,因此,可以帮助商家进行改进,也进一步避免了潜在客户的流失。
为了更好的理解本实施例,下面对本实施例的原理进行简单的说明。
如图5所示,本实施例中,先将点评转化成一个个单词,再将单词转换成一个个词向量301,同理,将回复转换成一个个词向量311,而后将由词向量301组成的点评的词向量序列以及回复的词向量序列分别输入至302LSTM模型中编码,从而可以得到每个词向量与整句话的整体关系,其中,既包括每个词向量向前的关系以及向后的关系,接着将编码后的点评词向量与编码后的回复词向量再匹配层进行匹配,以得到点评中每个时刻的词向量与回复的相关度,以及回复的每个时刻的词向量与点评的相关度,之后将上述匹配后的包含相关度信息的向量拼接并输入至双向LSTM模型中并聚合为一个固定长度的向量,并在该模型中截取点评向前的最后一个时刻的向量304、点评向后的最后一个时刻的向量305、回复向前的最后一个时刻的向量314、回复向后的最后一个时刻的向量315并将其拼接为一拼接向量,之所以截取这四个向量是由于这四个向量包含整句话的所有信息,因此既可以反应整体语句的关系,又提高了计算的效率。接着,将点评回复相似度计算后的相似度值与上面的拼接向量拼接后,再送入全连接层、softMax层来得到最终的相似度概率,进而来判断点评与回复的关系。
下面举一个具体实例来对本实施例进行进一步的说明。
如果对于某一次入住酒店的体验,某用户的点评为“毛巾很脏”,而对于该点评的回复为“需要卫生清洁”,在执行步骤101获得上述点评及针对点评的回复后,首先通过预处理上述点评与回复,如在去除掉文字里面的表情等特殊字符等,然后通过步骤202使上述内容通过分词工具分成一个一个的单词,如点评内容“毛巾很脏”可以分割成“毛巾、很、脏”这三个单词,并且形成该三个单词组合成的序列,回复内容“需要卫生清洁”可以分割成“需要、卫生、清洁”这三个单词,并且形成该三个单词组合成的序列。而后,可以添加当前场景下的预设专业词汇至相关的点评或者回复中,如在此场景下为公寓房,可以将“公租房”这个词添加至“毛巾、很、脏”这三个单词之前。之后将点评的单词序列和回复的单词序列分别输入至词向量模型,可以得到点评向量序列,及回复向量序列,如,本实施例中,“毛巾、很、脏”这三个词分别形成ak、bk、ck这三个向量,通过这三个向量形成的点评向量序列为akbkck,同理,回复向量序列为AkBkCk,其中k代表不同的维度。
接着,利用LSTM模型分别对点评向量序列akbkck及回复向量序列AkBkCk分别进行编码,可以得到每句话中每个单词与整句话的关系,这一步的原理为将点评句子视为单词按顺序构成的序列,每个单词用词嵌入表示,对应位置上有一个中间表示,然后,获得每个单词的中间表示,中间表示代表句首到该位置的语义,该单词的中间表示由当前的词语的词嵌入和前一个词的中间表示共同组成,最后,把句尾单词的中间表示作为整个对话的向量表示,分别进行前向和后向的运算,对于同一个单词的前向和后向两个向量进行融合,得到一句话的多个时刻的向量表示。同理,对于回复也通过双向的LSTM获取得多个时刻的向量化表示,如,在bk时刻,得到的向前的向量为akbk,得到的向后的向量为bkck,根据上述方法可以分别得到每一时刻的编码点评向量与每一时刻的编码回复向量。
下一步,则对上一步得到的编码点评向量与编码回复向量进行匹配,本实施例中,有两种匹配方法,一种为步骤1041-1042所述的全匹配方法,另一种为步骤1043-1046所述的集中注意力匹配方法,如在点评中,在bk时刻,通过全匹配的方法,分别将bk时刻的编码点评向量,即bkck与回复的最后一个时刻的向量,即AkBkCk,由于,本实施例需要分别进行向前和向后运算,因此,点评的bk时刻还存在向前的编码向量akbk,对应的,回复的最后一时刻也存在向前的编码向量,因此,实质上存在4个比较值;通过全匹配的方法集中注意力匹配方法,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度,如点评从ak时刻,向后的编码向量akbkck与回复的向后的编码,即:akbkck分别与AkBkCk、BkCk及Ck(实质上存在4个比较值,本实施例只从一个方向做简化性说明)得到的余弦线相似度分别为0.1、0.2及0.3,而这里的余弦相似度用于计算权重,通过该权重,可以得到加权平均后的回复向量Mk,再通过该时刻的点评向量,akbkck与加权平均后的回复向量Mk进行匹配。本实施例中,向量中的匹配方法为通过公式
Figure GDA0004172166090000191
进行匹配,其中,v1、v2为待比较的向量,k表示向量的某一维,wk为可训练的参数,其可通过神经网络反向传播得到。如,当比较akbkck与Mk,时,分别针对向量中的每一个维度对该两个向量进行余弦相似度的加权比较,如,第一维比较的余弦相似度的值为0.1、第二维度为0.2、第三维为0.3,则在ak时刻,会形成一个三维的余弦相似度向量,同样,在其它的时刻也会形成多维度的向量,将比较的所有向量拼接则会得到一个以两向量余弦相似度为基础的代表点评与回复间关系的匹配向量序列,之后再将上述反应点评与回复间关系的匹配向量序列放入双向LSTM模型中,并截取模型中针对点评的反应整体语义关系的正向最后一个向量,与反向最后一个向量以及回复的反应整体语义关系的正向最后一个向量,与反向最后一个向量这四个向量,而后将这四个向量拼接在一起形成一拼接向量。
另外,本实施例中,还可以通过编辑距离相似度等方式得到当前回复与其他回复的文本的相似度,然后将该相似度作为向量的一个维度与上一步骤得到的向量进行拼接,如,上一步得到一400维度的向量,则经过这一步的相似度计算,则可以得到一401维度的向量。
接着,将上一步的401维度的向量放入全连接层计算可以得到与本实施例中类别数目(两类,一类为是答非所问,第二为不是打非所谓)相同维度的向量,之后再经过softmax计算后则可以得到上述两个类别的概率,如,本实施例中,为答非所问的概率为0.6,不为答非所问的概率诶0.4,则,本实施例中的答复为答非所问的答复。
实施例3
本实施例提供了一种OTA酒店的点评与回复的相关度的检测***,如图6所示,所述检测***包括信息获取模块401、转换模块402、点评编码模块403、回复编码模块404、匹配模块405、第一拼接模块406、目标向量获取模块407及概率计算模块408;
信息获取模块401用于获取对所述OTA酒店的点评及回复;
转换模块402用于将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
点评编码模块403用于对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;
回复编码模块404用于对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
匹配模块405用于匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
第一拼接模块406用于捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
目标向量获取模块407用于将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
概率计算模块407用于根据所述目标向量计算所述点评与所述回复的相关度概率。
其中,点评编码模块403及回复编码模块404使用神经网络模型分别对点评向量序列、及回复向量序列中所有单词间的语义关系进行编码。
其中,概率计算模块408通过softmax计算所述点评与所述回复的相关度概率。
本实施例中,通过转换模块将OTA酒店点评与回复向量化,通过点评编码模块及回复编码模块对向量化的点评与回复间的语义关系进行分析,并且匹配模块及第一拼接模块通过机器学习来对点评与回复之间的每一单词与整体句子进行分析比较,从而可以有效、快速并且准确地计算出针对点评进行的回复是否与点评内容相匹配,不但可以帮助酒店根据有效评论对现有的产品进行改进,也降低了人工成本,更是在提高识别精度和召回率的情况下提升了商家的服务质量而帮助商家带来收益。
实施例4
本实施例是在实施例3的基础上做的进一步改进,具体而言,如图7所示,在本实施例中,转换模块402包括:预处理单元4021、分词处理单元4022、词汇添加单元4023及向量序列获取单元4024;
预处理单元4021用于预处理所述点评及所述回复;
分词处理单元4022用于将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
词汇添加单元4023用于将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
向量序列获取单元4024用于将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列;
预处理单元4021用于通过过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句,及标准化语句中的至少一种手段来进行预处理;
其中,所述分词工具为开源分词工具,包括hanlp。
其中,在分词的过程中,词汇添加单元4023可以加入需要当前场景中的一些预设专业词汇,例如:在OTA行业的酒店场景下,在分词处理时加入该场景对应的预授权、信用住、扣押金、返现券、大床房、到账、住二送一、住三送一、住四送一、住五送一、住六送一、住七送一、住八送一、住九送一、住十送一、满二送一、满三送一、满四送一、满五送一、满六送一、满七送一、满八送一、满九送一、满十送一、到店无房、无房涨价、坐地起价、公寓房、接送机等专业词汇。
其中,所述词向量模型包括word2vec、glove。
其中,预处理单元4021用于通过过滤掉表情等特殊字符、过滤掉不包含中文字符的语句、总结部分闲聊无效的语句,并且通过编辑距离来计算相似度以进行过滤、全角转半角、繁体转简体、大小写额转化等标准化语句的手段来进行预处理。
本实施例中,通过所述预处理单元对点评及回复的处理可以提高之后进行向量序列转化的准确性,通过所述词汇添加单元添加预设专业词汇,可以提高分词处理步骤的准确度,通过预处理单元中的预处理过程,也避免了因为客观原因从而影响到后续相关度判断的准确度。
本实施例中,向量序列获取单元4024可以分别得到每句点评中由单词向量构成的点评向量序列以及每句回复中由单词向量构成的回复向量序列。
本实施例中,为了得到点评向量序列及回复向量序列间每个向量与整体句子间的更加准确的语义关系,所述编码点评向量包括正向编码点评向量及反向编码点评向量,所述编码回复向量包括正向编码回复向量及反向编码回复向量。
本实施例中,为了对编码点评向量中每一向量与编码回复向量的语义进行更恰当的匹配以及为了对编码回复向量中每一向量与编码点评向量的语义进行更恰当的匹配,匹配模块405根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
其中,所述余弦相似度的计算公式为
Figure GDA0004172166090000231
其中,v1,、v2为待比较的向量,k表示向量的某一维,wk为可训练的参数,其可通过神经网络反向传播得到。
如图8所示,本实施例中,匹配模块405包括:第一匹配单元4051、第二匹配单元4052、回复余弦计算单元4053、加权回复计算单元4054、第三匹配单元4055、点评余弦计算单元4056、加权点评计算单元4057及第四匹配单元4058;
第一匹配单元4051用于从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
第二匹配单元4052用于从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
回复余弦计算单元4053用于从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
加权回复计算单元4054用于根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
第三匹配单元4055用于从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量;
点评余弦计算单元4056用于从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
加权点评计算单元4057用于根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
第四匹配单元4058用于从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第一匹配向量、所述第二匹配向量、所述第三匹配向量及所述第四匹配向量。
其中,向量之间的匹配方法为通过上述余弦相似度的公式进行匹配,即通过上述4051-4058所有模块后,会得到一由每一时刻的多维度的余弦相似度组合成的匹配向量序列。
其中,回复余弦计算单元4053及加权回复计算单元4054通过每一点评时刻的每一回复时刻的余弦相似度对回复的所有时刻向量进行加权取平均,其中所述余弦相似度用于计算权重,即点评中的某一词与回复内容的相关性,通过该相关性,也就是通过该余弦相似度对回复时刻的向量进行加权,从而可以得到点评与回复的关系,同样的点评余弦计算单元4056及加权点评计算单元4057通过对每一回复时刻的每一点评时刻的余弦相似度对点评的所有时刻向量进行加权取平均也可以得到回复与点评的关系。
本实施例中,从第一时刻开始,通过第一匹配单元及第二匹配单元对点评的当前时刻向量与回复的最后一时刻的向量以及对回复的当前时刻向量与点评的最后一时刻向量进行比较的全匹配,通过所述第三匹配单元或第四匹配单元对点评或回复的余弦相似度对回复或点评中的向向量进行加权,从而能够得到真实的点评、回复之间的关系,克服了现有技术中对细节相关性的忽略的缺陷,从而进一步能够得到更真实的点评与回复相关度的反馈。
本实施例中,得到一匹配的向量序列后,便调用第一拼接模块406,如图9所示,第一拼接模块406包括输入单元4061、截取单元4062及聚合单元4063。
输入单元4061用于将所述匹配向量序列输入至双向LSTM模型中;
截取单元4062用于根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
聚合单元4063用于将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
本实施例中,通过获得正向编码点评向量及反向编码点评向量从而避免了只获得单向向量的不准确性,通过输入单元将匹配向量序列输入至双向LSTM模型中,并且通过截取单元截取特定的四个向量,从而不仅可以获得整段话的完整的语义,也提高了聚合单元的聚合效率,并且通过双向模型也使得对后续相关度的计算更为准确。
另外,本实施例还包括判断单元,用于判断所述相关度概率是否大于所述预设概率,若是,则所述点评与所述回复不匹配,若否,则所述点评与所述回复匹配。
本实施例中,通过对预测出的相关度概率与预设概率的比较可以判断出哪些回复是对点评答非所问的回复,因此,可以帮助商家进行改进,也进一步避免了潜在客户的流失。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种OTA酒店的点评与回复的相关度的检测方法,其特征在于,所述检测方法包括:
获取对所述OTA酒店的点评及回复;
将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;
对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
根据所述目标向量计算所述点评与所述回复的相关度概率;
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括:
从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量;
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤还包括:
从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量;
从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第三匹配向量及所述第四匹配向量。
2.如权利要求1所述的检测方法,其特征在于,
将所述拼接向量输入至全连接层以得到目标向量的步骤前还包括:
计算每一回复与其他回复的文本相似度以得到相似度序列;
根据所述相似度序列获得相似度平均值;
将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接;
将所述拼接向量输入至全连接层以得到目标向量的步骤包括:
将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量;
和/或,
匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量的步骤包括:
根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
3.如权利要求1所述的检测方法,其特征在于,
对点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量的步骤中,
所述编码点评向量包括正向编码点评向量及反向编码点评向量;
对回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量的步骤中,
所述编码回复向量包括正向编码回复向量及反向编码回复向量;
捕获所述向量序列中匹配向量间的关系并根据所述关系将所述向量序列中聚合为拼接向量的步骤包括:
将所述匹配向量序列输入至双向LSTM模型中;
根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
4.如权利要求1所述的检测方法,其特征在于,
将所述点评及所述回复分别转换为点评向量序列与回复向量序列的步骤包括:
预处理所述点评及所述回复;
将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列;
所述预处理的步骤包括:过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句,及标准化语句中的至少一种;
和/或,
根据所述目标向量计算所述点评与所述回复的相关度概率的步骤后还包括:
判断所述相关度概率是否大于预设概率,若是,则所述点评与所述回复不匹配。
5.一种OTA酒店的点评与回复的相关度的检测***,其特征在于,所述检测***包括:信息获取模块、转换模块、点评编码模块、回复编码模块、匹配模块、第一拼接模块、目标向量获取模块及概率计算模块;
所述信息获取模块用于获取对所述OTA酒店的点评及回复;
所述转换模块用于将所述点评及所述回复分别转换为点评向量序列与回复向量序列;
所述点评编码模块用于对所述点评向量序列中向量间的语义关系进行编码以得到每一时刻的编码点评向量;
所述回复编码模块用于对所述回复向量序列中向量间的语义关系进行编码以得到每一时刻的编码回复向量;
所述匹配模块用于匹配所述每一时刻的编码点评向量与所述每一时刻的编码回复向量以获得多个匹配向量,所述多个匹配向量构成一匹配向量序列;
所述第一拼接模块用于捕获所述向量序列中匹配向量间的关系并根据所述关系将所述匹配向量序列聚合为拼接向量;
所述目标向量获取模块用于将所述拼接向量输入至全连接层以得到目标向量,所述目标向量的维度与预设类别的数量相同;
所述概率计算模块用于根据所述目标向量计算所述点评与所述回复的相关度概率;
所述匹配模块包括第一匹配单元及第二匹配单元;
所述第一匹配单元用于从第一点评时刻开始,依次匹配当前时刻的编码点评向量与最后一时刻的编码回复向量以获得每一时刻的第一匹配向量;
所述第二匹配单元用于从第一回复时刻开始,依次匹配当前时刻的编码回复向量与最后一时刻的编码点评向量以获得每一时刻的第二匹配向量;
所述多个匹配向量包括所述第一匹配向量及所述第二匹配向量;
所述匹配模块还包括回复余弦计算单元、加权回复计算单元、第三匹配单元、点评余弦计算单元、加权点评计算单元及第四匹配单元;
所述回复余弦计算单元用于从第一点评时刻开始,依次计算当前时刻的编码点评向量与每一时刻的编码回复向量以得到每一回复时刻的余弦相似度;
所述加权回复计算单元用于根据当前点评时刻的每一回复时刻的余弦相似度计算加权编码回复向量;
所述第三匹配单元用于从第一点评时刻开始,匹配每一点评时刻的编码点评向量与对应的加权编码回复向量以以获得每一时刻的第三匹配向量;
所述点评余弦计算单元用于从第一回复时刻开始,依次计算当前时刻的编码回复向量与每一时刻的编码点评向量以得到每一点评时刻的余弦相似度;
所述加权点评计算单元用于根据当前回复时刻的每一点评时刻的余弦相似度计算加权编码点评向量;
所述第四匹配单元用于从第一回复时刻开始,匹配每一回复时刻的编码点评向量与对应的加权编码点评向量以以获得每一时刻的第四匹配向量;
所述多个匹配向量包括所述第三匹配向量及所述第四匹配向量。
6.如权利要求5所述的检测***,其特征在于,所述检测***还包括:文本相似度计算模块、平均值获得模块、第二拼接模块;
所述文本相似度计算模块用于计算每一回复与其他回复的文本相似度以得到相似度序列;
所述平均值获得模块用于根据所述相似度序列获得相似度平均值;
所述第二拼接模块用于将所述相似度平均值作为所述拼接向量中的一个维数与所述拼接向量进行拼接;
所述目标向量获取模块还用于将与所述相似度平均值拼接后的拼接向量输入至全连接层以得到目标向量;
和/或,
所述匹配模块还用于根据所述每一时刻的每一维度的加权编码点评向量与所述每一时刻的对应维度的加权编码回复向量的余弦相似度以获得多个匹配向量。
7.如权利要求5所述的检测***,其特征在于,
所述编码点评向量包括正向编码点评向量及反向编码点评向量;
所述编码回复向量包括正向编码回复向量及反向编码回复向量;
所述第一拼接模块包括:输入单元、截取单元及聚合单元;
所述输入单元用于将所述匹配向量序列输入至双向LSTM模型中;
所述截取单元用于根据所述双向LSTM模型获得每一时刻的所述多个匹配向量间的关系,并截取所述LSTM模型中最后一时刻的点评正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量;
所述聚合单元用于将所述正向关系向量、点评反向关系向量、回复正向关系向量及回复反向关系向量聚合为所述拼接向量。
8.如权利要求5所述的检测***,其特征在于,所述转换模块包括预处理单元、分词处理单元、词汇添加单元及向量序列获取单元;
所述预处理单元用于预处理所述点评及所述回复;
所述分词处理单元用于将所述点评及所述回复分别输入至分词工具以得到第一分词点评序列及第一分词回复序列;
所述词汇添加单元用于将当前场景下的预设专业词汇分别添加至所述第一分词点评序列及所述第一分词回复序列以形成第二分词点评序列及第二分词回复序列;
所述向量序列获取单元用于将所述第二分词点评序列及所述第二分词回复序列分别输入至词向量模型以得到点评向量序列与回复向量序列;
所述预处理单元用于通过过滤特殊字符、过滤纯数字、过滤不包含中文字符的语句、过滤无效语句,及标准化语句中的至少一种手段来进行预处理;
和/或,
所述检测***还包括判断模块,用于判断所述相关度概率是否大于预设概率,若是,则所述点评与所述回复不匹配。
CN201910909573.9A 2019-09-25 2019-09-25 Ota酒店的点评与回复的相关度的检测方法及*** Active CN110674256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910909573.9A CN110674256B (zh) 2019-09-25 2019-09-25 Ota酒店的点评与回复的相关度的检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910909573.9A CN110674256B (zh) 2019-09-25 2019-09-25 Ota酒店的点评与回复的相关度的检测方法及***

Publications (2)

Publication Number Publication Date
CN110674256A CN110674256A (zh) 2020-01-10
CN110674256B true CN110674256B (zh) 2023-05-12

Family

ID=69079188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910909573.9A Active CN110674256B (zh) 2019-09-25 2019-09-25 Ota酒店的点评与回复的相关度的检测方法及***

Country Status (1)

Country Link
CN (1) CN110674256B (zh)

Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362452A (ja) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ連動型コメント表示方法、コメント表示システム、サーバ装置、コメント表示装置及びコメント表示プログラム
JP2008148071A (ja) * 2006-12-11 2008-06-26 Dowango:Kk 表示装置、コメント表示方法、及びプログラム
US7546352B1 (en) * 2008-08-15 2009-06-09 International Business Machines Corporation Method to automatically merge e-mail replies
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
WO2012174637A1 (en) * 2011-06-22 2012-12-27 Rogers Communications Inc. System and method for matching comment data to text data
WO2013043997A2 (en) * 2011-09-22 2013-03-28 Alibaba.Com Limited Presenting user preference activities
CN103020140A (zh) * 2012-11-21 2013-04-03 合一网络技术(北京)有限公司 一种对互联网用户评论内容自动过滤的方法和装置
WO2014067441A1 (en) * 2012-10-30 2014-05-08 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining client reviews
CN103797783A (zh) * 2012-07-17 2014-05-14 松下电器产业株式会社 评论信息生成装置及评论信息生成方法
JP2014134915A (ja) * 2013-01-09 2014-07-24 Kddi Corp マッチングサーバ
WO2014182901A1 (en) * 2013-05-08 2014-11-13 Viki, Inc. Timed comments for media
CN104484336A (zh) * 2014-11-19 2015-04-01 湖州师范学院 一种中文评论分析方法及其***
US9026592B1 (en) * 2011-10-07 2015-05-05 Google Inc. Promoting user interaction based on user activity in social networking services
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
CN105847116A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 一种评论回复信息的处理方法及装置
CN105912734A (zh) * 2016-06-22 2016-08-31 北京金山安全软件有限公司 一种用户反馈自动回复方法及装置
WO2017041372A1 (zh) * 2015-09-07 2017-03-16 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN106649410A (zh) * 2015-11-04 2017-05-10 陈包容 一种获取聊天回复内容的方法及装置
CN106982304A (zh) * 2017-02-16 2017-07-25 平安科技(深圳)有限公司 一种评分信息匹配方法和装置
CN107330130A (zh) * 2017-08-29 2017-11-07 北京易掌云峰科技有限公司 一种向人工客服推荐回复内容的对话机器人的实现方法
CN107807936A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 评论信息排序方法及装置
CN108153856A (zh) * 2017-12-22 2018-06-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
WO2018107921A1 (zh) * 2016-12-15 2018-06-21 腾讯科技(深圳)有限公司 回答语句确定方法及服务器
CN108388608A (zh) * 2018-02-06 2018-08-10 金蝶软件(中国)有限公司 基于文本感知的情感反馈方法、装置、计算机设备和存储介质
CN109472030A (zh) * 2018-11-09 2019-03-15 科大讯飞股份有限公司 一种***回复质量的评价方法及装置
CN109741200A (zh) * 2018-12-29 2019-05-10 深圳英飞拓智能技术有限公司 论坛热帖归档管理方法、装置、计算机设备和存储介质
CN109857908A (zh) * 2019-03-04 2019-06-07 北京字节跳动网络技术有限公司 用于匹配视频的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019195A1 (en) * 2014-05-20 2016-01-21 Jesse Kelly SULTANIK Method and system for posting comments on hosted web pages
US9990609B2 (en) * 2014-11-10 2018-06-05 0934781 B.C. Ltd Evaluating service providers using a social network
TW201635174A (zh) * 2015-03-30 2016-10-01 國立清華大學 訊息媒合系統及其訊息媒合方法
US10630632B2 (en) * 2015-11-12 2020-04-21 Facebook, Inc. Systems and methods for ranking comments
US10382367B2 (en) * 2016-11-23 2019-08-13 Oath Inc. Commentary generation
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN110134790B (zh) * 2019-05-17 2022-09-30 中国科学技术大学 一种语境集合与回复集合的匹配方法及装置

Patent Citations (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362452A (ja) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ連動型コメント表示方法、コメント表示システム、サーバ装置、コメント表示装置及びコメント表示プログラム
JP2008148071A (ja) * 2006-12-11 2008-06-26 Dowango:Kk 表示装置、コメント表示方法、及びプログラム
US7546352B1 (en) * 2008-08-15 2009-06-09 International Business Machines Corporation Method to automatically merge e-mail replies
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
WO2012174637A1 (en) * 2011-06-22 2012-12-27 Rogers Communications Inc. System and method for matching comment data to text data
WO2013043997A2 (en) * 2011-09-22 2013-03-28 Alibaba.Com Limited Presenting user preference activities
US9026592B1 (en) * 2011-10-07 2015-05-05 Google Inc. Promoting user interaction based on user activity in social networking services
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN103797783A (zh) * 2012-07-17 2014-05-14 松下电器产业株式会社 评论信息生成装置及评论信息生成方法
WO2014067441A1 (en) * 2012-10-30 2014-05-08 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining client reviews
CN103020140A (zh) * 2012-11-21 2013-04-03 合一网络技术(北京)有限公司 一种对互联网用户评论内容自动过滤的方法和装置
JP2014134915A (ja) * 2013-01-09 2014-07-24 Kddi Corp マッチングサーバ
WO2014182901A1 (en) * 2013-05-08 2014-11-13 Viki, Inc. Timed comments for media
CN104484336A (zh) * 2014-11-19 2015-04-01 湖州师范学院 一种中文评论分析方法及其***
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
WO2017041372A1 (zh) * 2015-09-07 2017-03-16 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN106649410A (zh) * 2015-11-04 2017-05-10 陈包容 一种获取聊天回复内容的方法及装置
CN105847116A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 一种评论回复信息的处理方法及装置
CN105912734A (zh) * 2016-06-22 2016-08-31 北京金山安全软件有限公司 一种用户反馈自动回复方法及装置
CN107807936A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 评论信息排序方法及装置
WO2018107921A1 (zh) * 2016-12-15 2018-06-21 腾讯科技(深圳)有限公司 回答语句确定方法及服务器
CN106982304A (zh) * 2017-02-16 2017-07-25 平安科技(深圳)有限公司 一种评分信息匹配方法和装置
WO2018149079A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 一种评分信息匹配方法、装置、存储介质和服务器
CN107330130A (zh) * 2017-08-29 2017-11-07 北京易掌云峰科技有限公司 一种向人工客服推荐回复内容的对话机器人的实现方法
CN108153856A (zh) * 2017-12-22 2018-06-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108388608A (zh) * 2018-02-06 2018-08-10 金蝶软件(中国)有限公司 基于文本感知的情感反馈方法、装置、计算机设备和存储介质
CN109472030A (zh) * 2018-11-09 2019-03-15 科大讯飞股份有限公司 一种***回复质量的评价方法及装置
CN109741200A (zh) * 2018-12-29 2019-05-10 深圳英飞拓智能技术有限公司 论坛热帖归档管理方法、装置、计算机设备和存储介质
CN109857908A (zh) * 2019-03-04 2019-06-07 北京字节跳动网络技术有限公司 用于匹配视频的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Victoria Browning.The Influence of Online Reviews on Consumers' Attributions of Service Quality and Control for Service Standards in Hotels.《Journal of Travel &amp Tourism Marketing 》.2013,第30卷23-40. *
酒店回复及消费者评论文本特征对酒店销量的影响研究;李华;《中国优秀硕士学位论文全文数据库 经济与管理科学》;J156-62 *

Also Published As

Publication number Publication date
CN110674256A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Agarwal et al. History for visual dialog: Do we really need it?
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及***
CN112000791A (zh) 一种电机故障知识抽取***及方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及***
CN108984530A (zh) 一种网络敏感内容的检测方法及检测***
CN111897933A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN115239937B (zh) 一种跨模态情感预测方法
CN108121702A (zh) 数学主观题评阅方法及***
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN111400478A (zh) 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN115471712A (zh) 一种基于视觉语义约束的生成零样本学习方法
CN116052858A (zh) 一种基于bert和特征融合的智能导诊方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题***
CN111488448B (zh) 一种机器阅读标注数据的生成方法和装置
CN110674256B (zh) Ota酒店的点评与回复的相关度的检测方法及***
CN117408698A (zh) 一种基于Transformer的对比多视图下庞氏骗局检测方法
CN115456176B (zh) 一种基于知识增强的文本匹配方法及***
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
CN115018819A (zh) 一种基于Transformer神经网络的焊缝点位置提取方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant