CN116127367A - 服务评价的审核方法、装置以及计算机可读存储介质 - Google Patents
服务评价的审核方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116127367A CN116127367A CN202111330965.3A CN202111330965A CN116127367A CN 116127367 A CN116127367 A CN 116127367A CN 202111330965 A CN202111330965 A CN 202111330965A CN 116127367 A CN116127367 A CN 116127367A
- Authority
- CN
- China
- Prior art keywords
- emotion
- service
- target
- service evaluation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种服务评价的审核方法、装置以及计算机可读存储介质。其中方法包括获取目标服务业务的服务评价文本,检测服务评价文本中是否包括目标健康关键词。若服务评价文本中包括目标健康关键词,将服务评价文本输出至审核平台,通过审核平台确定服务评价文本的目标审核类别。若服务评价文本不包括目标健康关键词,获取服务评价文本对应的情感特征和词向量特征,并将情感特征和词向量特征输入文本分类模型。基于文本分类模型输出的初始审核类别,确定服务评价文本的目标审核类别或将服务评价文本输出至审核平台,通过审核平台确定服务评价文本的目标审核类别。采用本申请,可以提高服务评价文本的审核效率,审核结果客观性强,适用性高。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种服务评价的审核方法、装置以及计算机可读存储介质。
背景技术
在服务行业(比如酒店、餐厅以及电子商务等服务行业)中服务提供方提供服务,用户可以订阅或者购买服务提供方提供的服务,还可在享受服务之后对服务提供方提供的服务进行评价,服务提供方可以接收到来自用户的服务评价,还可基于用户的评价提取出改进方案用于提升服务质量。为了从大量的服务评价中提取用于提升服务质量的有效信息,服务提供方对用户的服务评价进行分析(和/或审核)以从服务评价中区分出用户满意的评价和用户不满意的评价,以将用户满意的评价展示或者从用户不满意的评价中提取出改进意见等。
本申请的发明人在研究和实验过程中发现,现有技术对用户的服务评价进行分析主要是基于服务提供方的工作人员基于人工对用户提供的大量服务评价进行逐条服务评价文本的分析,人工消耗量大,审核效率低,审核结果主观性强,适用性差。
发明内容
本申请实施例提供了一种服务评价的审核方法、装置以及计算机可读存储介质,可提高服务评价审核效率,审核结果更加准确,适用性强。
第一方面,本申请实施例提供了一种服务评价的审核方法,该方法包括:获取目标服务业务的服务评价文本,检测服务评价文本中是否包括目标健康关键词。这里,目标服务业务可以是酒店、餐饮、旅游、以及电子商务等服务业务。若服务评价文本中包括目标健康关键词,则可以将该服务评价文本输出至审核平台,通过审核平台确定服务评价文本的目标审核类别。这里,审核平台可以是人工审核平台,以基于人工审核确定出服务评价文本的目标审核类别。若服务评价文本中不包括目标健康关键词,则可以获取该服务评价文本对应的情感特征和词向量特征,并将情感特征和词向量特征输入文本分类模型。基于文本分类模型输出的服务评价文本的初始审核类别,确定服务评价文本的目标审核类别或者将服务评价文本输出至审核平台,以通过审核平台确定服务评价文本的目标审核类别。在本申请实施例中,对上述服务评价文本进行目标健康关键词检测,并将包括目标健康关键词的服务评价文本输出至审核平台以获取其目标审核类别。同时在输入文本分类模型的特征元素中,增加基于目标服务业务的情感词库所构造的情感特征。业务服务器中的文本分类模型基于输入的词向量特征以及情感特征可输出服务评价文本的初始审核类别,基于上述初始审核类别确定服务评价文本的目标审核类别或者将服务评价文本输出至审核平台以获取其目标审核类别。操作简单、审核效率高,审核结果客观性强,适用性强。
结合第一方面,在第一种可能的实施方式中,可以将服务评价文本进行分词以得到多个独立的词语。将多个独立的词语与健康词库中包括的健康关键词进行比对,以检测服务评价文本中是否包括健康词库中的目标健康关键词。这里,健康关键词可以是有关不雅词汇(比如脏话等),也可以是行业敏感词(比如金钱等)等。在本申请实施例中,对于检测到包含目标健康关键词(如不雅词汇)的服务评价文本,可直接通过人工审核的方式确认审核结果,不包括目标健康关键词的服务评价文本可通过文本分类模型进行审核类别识别,从而可减少人工审核的待审核的服务评价文本的数量,提高了服务评价文本的审核效率。
结合第一方面以及第一方面第一种可能的实施方式中任一种,在第二种可能的实施方式中,获取上述服务评价文本的情感特征和词向量特征具体可为基于目标服务业务的情感词库和服务评价文本得到该服务评价文本的情感特征,基于目标特征词提取算法对上述服务评价文本进行关键词提取,并基于提取的关键词生成服务评价文本的词向量特征。在本申请实施例中,通过在词向量特征的基础上,新增基于目标服务业务的情感词库所构造的情感特征,增强了文本分类模型的特征表达能力,提高了审核准确率。
结合第一方面第二种可能的实施方式中,在第三种可能的实施方式中,基于目标服务业务的情感词库和服务评价文本得到该服务评价文本的情感特征具体可为:首先将上述服务评价文本划分为多个子句,基于目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值,并确定出各子句的句型和各句型的情感权值。这里,情感词库可以包括情感词词库、程度副词词库、疑问词词库以及转折词词库。最后基于各子句中各词语类型的词语和情感权值,以及各子句的句型和各句型的情感权值得到服务评价文本的情感特征。在本申请实施例中,通过在词向量特征的基础上,新增基于目标服务业务的情感词库所构造的情感特征,增强了文本分类模型的特征表达能力,提高了审核准确率。
结合第一方面第三种可能的实施方式中,在第四种可能的实施方式中,基于目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值具体可为:将各子句中包括的词语与目标服务业务的情感词库中的情感类词语进行匹配以确定出上述各子句中包含的积极情感词和/或消极情感词,并确定出上述各子句中包含的积极情感词和/或消极情感词所对应的情感权值。其中,上述情感词库中的情感类词语至少包括两种类型的情感词,上述至少两种类型的情感词至少包括积极情感词和消极情感词,一种类型的情感词包含一个或多个词语,一种类型的情感词对应一个情感权值。在本申请实施例中,通过情感词库确定各子句中包括的积极情感词和/或消极情感词及其所对应的情感权值,操作简单,情感特征的提取效率高。
结合第一方面第四种可能的实施方式中,在第五种可能的实施方式中,目标服务业务的情感词库中还包括程度副词,在确定出上述各子句中包含的积极情感词和/或消极情感词之后,还可以将各子句中包括的词语与目标服务业务的情感词库中的程度副词进行匹配。若从各子句中确定出情感词库中包括的目标程度副词,且目标程度副词位于上述积极情感词和/或消极情感词之前,则确定出该目标程度副词所对应的情感权值,以得到各子句中词语类型为程度副词的词语所对应的情感权值。在本申请实施例中,通过情感词库确定各子句中包括目标程度副词及其情感权值,操作简单,情感特征的提取效率高。
结合第一方面第五种可能的实施方式中,在第六种可能的实施方式中,确定出各子句的句型和各句型的情感权值具体可为:以句子为单位检测上述各子句中是否包括感叹号,若各子句中任意目标子句中包含感叹号,且上述目标子句包含目标服务业务的一个或多个情感类词语,则确定该目标子句的句型为感叹句,并确定出上述目标子句为感叹句所对应的情感权值。
结合第一方面第五种可能的实施方式中,在第七种可能的实施方式中,确定出各子句的句型和各句型的情感权值具体可为:以句子为单位检测上述各子句中是否包括问号,并基于目标服务业务的情感词库确定上述各子句中是否包含疑问词,若各子句中任意目标子句中包含问号且该目标子句包含一个或多个疑问词,则确定目标子句的句型为问句,并确定出目标子句为问句所对应的情感权值。
结合第一方面第五种可能的实施方式中,在第八种可能的实施方式中,确定出各子句的句型和各句型的情感权值具体可为将上述各子句中包括的词语与上述目标服务业务的情感词库中的转折词进行匹配,若各子句中任意目标子句包含目标服务业务的情感词库中的一个或多个目标转折词,则确定该目标子句的句型为转折句,并确定出目标子句为转折句所对应的情感权值。
在本申请实施例中,通过情感词库确定各子句的句型和各句型的情感权值,句型确定方式多样,操作简单,情感特征的提取效率高。
结合第一方面第六种可能至第一方面第八种可能的实施方式中任一种,在第九种可能的实施方式中,可以基于各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或目标程度副词及其对应情感权值计算各子句的情感得分。基于上述各子句的句型和各句型的情感权值更新上述各子句的情感得分,并基于上述各子句的情感得分得到服务评价文本的情感特征。在本申请实施例中,通过在词向量特征的基础上,新增基于目标服务业务的情感词库所构造的情感特征,增强了文本分类模型的特征表达能力,提高了审核准确率。
结合第一方面第九种可能的实施方式中,在第十种可能的实施方式中,基于各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或目标程度副词及其对应情感权值计算上述各子句的情感得分具体可为:基于上述各子句中包含的积极情感词及其对应的情感权值、和/或消极情感词及其对应的情感权值计算各子句的情感得分,上述情感得分包括积极情感得分和/或消极情感得分。基于各子句中包含的目标程度副词的情感权值更新上述各子句的情感得分,其中,上述各子句中不包含上述目标程度副词时目标程度副词的情感权值为1。在本申请实施例中,通过各子句中包含的积极情感词及其对应的情感权值、和/或消极情感词及其对应的情感权值计算各子句的情感得分,以及通过目标程度副词的情感权值更新情感得分,增强了文本分类模型的特征表达能力,提高了审核准确率。
结合第一方面第十种可能的实施方式中,在第十一种可能的实施方式中,基于各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值。基于上述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建服务评价文本的情感特征。在本申请实施例中,通过在词向量特征的基础上,新增基于目标服务业务的情感词库所构造的情感特征,增强了文本分类模型的特征表达能力,提高了审核准确率。
结合第一方面第二种可能的实施方式中,在第十二种可能的实施方式中,基于目标特征词提取算法对服务评价文本进行关键词提取,并基于提取的关键词生成上述服务评价文本的词向量特征具体可为:对服务评价文本进行分词以得到多个独立的词语,并基于目标特征词提取算法从分词得到的多个独立的词语中提取一个或者多个关键词。通过词向量转化模型对上述一个或者多个关键词进行向量化处理得到关键词向量序列,基于该关键词向量序列得到服务评价文本的词向量特征。在本申请实施例中,通过对对上述服务评价文本进行关键词提取、向量化处理并提取部分向量等处理,可以减少服务评价文本中的冗余成分,从而提高审核效率,审核准确率更高。
结合第一方面第十二种可能的实施方式中,在第十三种可能的实施方式中,目标特征词提取算法可以为词频-逆文档频率算法,基于目标特征词提取算法从多个独立的词语中提取一个或者多个关键词具体可为:使用词频-逆文档频率算法计算上述多个独立的词语各词语的词频-逆文档频率值,将各词语根据其对应的词频-逆文档频率值进行降序排序,并将排序结果中的前N个词语确定为关键词,其中N为不大于上述独立的词语的总数量的正整数。或者,选取上述多个独立的词语中词频-逆文档频率值不小于预设值的一个或者多个词语作为关键词。通过使用词频-逆文档频率算法选取出部分词语作为关键词,可以减少服务评价文本中的冗余成分,从而提高审核效率,审核准确率更高。
结合第一方面第十二种可能的实施方式中,在第十四种可能的实施方式中,目标特征词提取算法可以为卡方检验算法,基于目标特征词提取算法从多个独立的词语中提取一个或者多个关键词具体可为:通过卡方检验计算公式得到上述多个独立的词语中各词语的卡方值,将上述多个独立的词语根据各词语的卡方值进行降序排序,选取排序结果中的前M个词语作为关键词语,其中M为不大于上述独立的词语的总数量的正整数。通过使用卡方检验算法选取出部分词语作为关键词,可以减少服务评价文本中的冗余成分,从而提高审核效率,审核准确率更高。
结合第一方面第十二种可能至第一方面第十四种可能的实施方式中任一种,在第十五种可能的实施方式中,基于关键词向量序列得到服务评价文本的词向量特征具体可为:获取上述关键词向量序列中各向量之间的斯皮尔曼相关系数,若上述关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数超过目标阈值,则去除任意两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列,基于去除向量后的关键词向量序列得到词向量特征。通过基于斯皮尔曼相关系数去除部分关键词向量,可以得到更精简的词向量特征,从而提高审核效率,审核准确率更高。
结合第一方面至第一方面第十五种可能的实施方式中任一种,在第十六种可能的实施方式中,基于文本分类模型输出的服务评价文本的初始审核类别,确定服务评价文本的目标审核类别或者将服务评价文本输出至审核平台具体可为:获取上述文本分类模型(可以是基于FastText算法的文本分类模型)输出的服务评价文本的初始审核类别,这里,初始审核类别可以包括第一审核类别(即代表该服务评价文本为审核不通过、差评或者负面评价)和第二审核类别(即代表该服务评价文本为审核通过、好评或者正面评价)。若上述初始审核类别为第一审核类别,则将该服务评价文本输出至审核平台,若上述初始审核类别为第二审核类别,则将该初始审核类别确定为上述服务评价文本的目标审核类别。其中,第一审核类别包括审核不通过、第二审核类别包括审核通过,或者第一审核类别为差评,第二审核类别为好评。在本申请实施例中,将初始审核类别为第二审核类别通过人工审核以进行准确性判断和/或校正,从而提高最终的审核结果准确率,减少模型误判导致的错误审核结果。
结合第一方面第十六种可能的实施方式中,在第十七种可能的实施方式中,从目标服务业务的服务评价样本库获取至少两种审核类别的样本服务评价文本,上述至少两种类别包括第一审核类别和第二审核类别,其中任一审核类别的样本服务评价文本中包括上述样本服务评价文本的审核类别标签。将上述样本服务评价文本输入文本分类模型,通过上述文本分类模型对样本服务评价文本进行学习以获取识别任一服务评价文本的审核类别的能力。
结合第一方面第十七种可能的实施方式中,在第十七种可能的实施方式中,确定服务评价文本的目标审核类别之后,还可以将目标审核类别添加为服务评价文本的类别标签,并将上述服务评价文本及其类别标签添加至服务评价样本库中以更新上述服务评价样本库。在本申请实施例中,通过不断更新服务评价样本库包含的样本服务评价文本,并实时或定期迭代文本分类模型,可以增强模型稳健性,模型审核结果更准确。
第二方面,本申请实施例提供了一种服务评价的审核装置,该审核装置包括用于执行上述第一方面和/或第一方面的任意一种可能的实现方式所提供的服务评价的审核方法的单元和/或模块,因此也能实现第一方面提供的方法所具备的有益效果(或者优点)。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括存储器、收发器和处理器;其中,该存储器、收发器和处理器通过通信总线连接,或者处理器和收发器用于与存储器耦合。该存储器用于存储一组程序代码,该收发器和处理器用于调用该存储器中存储的程序代码执行上述第一方面和/或第一方面中任意一种可能的实现方式所提供的服务评价的审核方法,因此也能实现第一方面提供的方法所具备的有益效果。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在网络设备上运行时,使得终端设备执行上述第一方面和/或第一方面中任意一种可能的实现方式所提供的服务评价的审核方法,也能实现第一方面提供的方法所具备的有益效果。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面提供的服务评价的审核方法,也能实现第一方面提供的方法所具备的有益效果。
附图说明
图1是本申请实施例提供的服务交互示意图;
图2是本申请实施例提供的一***架构示意图;
图3是本申请实施例提供的服务评价的审核方法的一流程示意图;
图4是本申请实施例提供的服务评价的审核方法的另一流程示意图;
图5是本申请实施例提供的文本分类模型训练与优化示意图;
图6是本申请实施例提供的服务评价的审核装置的结构示意图;
图7是本申请实施例提供的终端设备的结构示意图。
具体实施方式
本申请实施例提供的服务评价的审核方法可以由终端设备或业务服务器等计算机设备(或简称设备)执行。本申请中所提到的业务服务器(或简称服务器)、设备终端、计算机设备以及设备等的描述都可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等可以运行上述应用的智能终端。其中,终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。为方便描述,下面将以设备为例进行示例说明。
本申请实施例提供的服务评价的审核方法适用于酒店、餐厅以及电子商务等服务行业的服务评价文本的审核、分类,该服务评价文本可以是用户针对酒店、餐饮、旅游、以及电子商务等服务行业的服务提供方提供的服务进行点评、心得分享或者投诉等服务评价得到的文本。上述服务行业的服务评价可以通过互联网平台获取,互联网平台可以是第三方消费点评网站、生活服务电子商务平台、在线旅行服务提供平台(比如在线旅行社(OnlineTravelAgency,OTA)以及商旅管理公司(Travel Management Companies,TMC))、网购零售平台以及各服务行业的服务提供方自主开发的消费者服务网站或移动端应用程序等,具体可根据实际应用场景确定,在此不做限制。各服务行业(酒店、餐饮、旅游、以及电子商务等)的服务提供方入驻相关互联网平台(第三方消费点评网站、生活服务电子商务平台、在线旅行社以及网购零售平台等)后,用户可以通过上述互联网平台向服务提供方预定以及使用相关产品和/或服务。此外,用户还可在使用产品或者服务结束之后根据服务提供方的产品和/或服务的体验发送服务评价到上述互联网平台。互联网平台可以将接收到的服务评价对使用该平台的所有用户展示,也可以反馈上述服务评价至入驻的服务提供方。一方面,用户可以通过互联网平台上的服务评价筛选出更优质的服务提供方,另一方面,服务提供方可以从大量的服务评价中提取出用户的改进意见从而进一步提升服务质量。以酒店服务行业为例,酒店服务行业的服务提供方(比如酒店)可以入驻在线旅行服务提供平台,比如在线旅行社(即OTA)或者商旅管理公司(即TMC)等,用户可以通过上述在线旅行服务提供平台向服务提供方(比如酒店)预定以及使用相关产品和/或服务。参见图1,图1是本申请实施例提供的服务交互示意图。如图1所示,以在线旅行社(即OTA)这种在线旅行服务提供平台为例,首先,对于与合作平台(比如OTA)合作的酒店(或简称合作酒店),合作酒店可入驻OTA,合作酒店与OTA洽谈房间价格和佣金比例等合作事项,双方达成一致后签协议上线。接着,用户(比如消费者)可以在OTA面向消费者的平台上查询并预定酒店。用户可以发送有关酒店的入住信息到OTA,OTA确认入住信息,反馈入住信息到合作酒店。OTA及合作酒店确认入住信息无误后,OTA返回该用户的预定信息到用户,用户根据平台的预定信息办理入住预定的酒店。最后,用户完成入住,确认订单完成并评价。用户可以将服务评价发送到OTA,OTA也可以反馈服务评价至对应的合作酒店。其中,上述互联网平台可以体现为单个或者多个设备(可以是终端设备或业务服务器等计算机设备),下面将以业务服务器作为本申请实施例提供的服务评价的审核方法中的执行主体进行示例说明,下文不再进行赘述。
本申请实施例提供的服务评价的审核方法可针对某一个服务业务(为方便描述,可以为目标服务业务)的服务评价进行自动审核、分类,基于审核类别(审核通过或者不通过、好评或者差评、正面评价或者负面评价等)对其进行分类,以确定出服务评价的审核类别(比如审核通过或者不通过,好评或者差评、正面评价或者负面评价等),以重点基于属于审核不通过、差评或者负面评价的服务评价中提取出对应服务业务的改进意见。这里,服务评价可以是用户针对酒店、餐饮、旅游、以及电子商务等服务行业的服务提供方提供的服务进行点评、心得分享或者投诉等得到的服务评价,服务评价中可以包括文本、图片或者语音等多种表现形式的内容。其中,当上述服务评价为图片或者上述服务评价中包括图片时,可以基于图像文字识别从上述图片中获取服务评价的服务评价文本。当上述服务评价为语音或者上述服务评价中包括语音时,可以基于语音文字识别从上述图片中获取服务评价的服务评价文本。为方便描述,下面将以服务评价文本的审核、分类为例进行示例说明,下面不再赘述。
在本申请实施例中,在对服务评价的服务评价文本进行分类之前,可以进行健康度检测,以从接收到的服务评价文本中筛选出包含目标健康关键词(比如不雅词汇、或者行业敏感词汇等等)的服务评价文本,可提高服务评价文本的审核、分类效率。此外,本申请实施例提供的服务评价的审核方法可通过文本分类模型对服务评价文本进行审核、分类,可以解决人工审核中人工消耗量大、审核效率低以及审核结果主观性强等问题。在本申请实施例提供的服务评价的审核方法中,还可在通过文本分类模型对服务评价文本进行审核、分类之前,可对上述服务评价文本进行关键词提取、向量化处理并提取部分向量等处理以减少文本中的冗余成分,并在输入文本分类模型的特征元素中,增加基于目标服务业务的情感词库所构造的情感特征。业务服务器中的文本分类模型基于输入的词向量特征以及情感特征可输出服务评价文本的审核类别,操作简单、审核效率高,审核结果客观性强,适用性强。
参见图2,图2是本申请实施例提供的一***架构示意图。如图2所示,该***架构可以包括业务服务器100以及终端集群,终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、……、终端设备200n等。其中,业务服务器100与终端集群中的各终端设备可以建立通信连接,终端集群中的各终端设备之间也可建立通信连接。换句话说,业务服务器100可与终端设备200a、终端设备200b、终端设备200c、……、终端设备200n中的各终端设备建立通信连接,例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接,终端设备200a与终端设备200c之间也可建立通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接等,具体可根据实际应用场景确定,本申请在此不做限制。
应该理解,如图2所示的终端集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图2所示的业务服务器100之间进行数据交互,使得业务服务器100可以接收来自于每个终端设备的业务数据。其中,该应用客户端可以为上述目标服务业务(可以是酒店、餐饮、旅游、以及电子商务等服务业务)对应的应用客户端,即用户可以通过上述应用客户端向目标服务业务的服务提供方预定以及使用相关产品和/或服务,用户还可在使用产品或者服务结束之后根据服务提供方的产品和/或服务的体验通过上述应用客户端发送服务评价文本至业务提供方。业务服务器100作为业务提供方的服务器,可以接收到用户通过应用客户端发布的服务评价文本,并将接收到的服务评价文本向其他用户展示以提供用户的选择参考,或者基于接收到的服务评价文本提取用于提升业务提供方服务质量的有效信息。
以酒店服务业务为例,图2所示的终端集群中的各个终端设备(即终端设备200a、终端设备200b、终端设备200c、……、终端设备200n)可以安装酒店服务业务相关的应用客户端,用户可以通过该应用客户端向业务服务器100发送预定以及使用相关产品和/或服务的业务数据,用户还可在使用产品或者服务结束之后根据服务提供方的产品和/或服务的体验通过上述应用客户端发送服务评价文本至业务服务器100。可以理解的,上述业务服务器100获取的服务评价文本来源可以是互联网平台,该互联网平台可以是OTA,即OTA可以体现为图2所示的终端集群(还可以包括支撑该平台运作的其他业务服务器等),各个终端设备可以安装OTA对应的应用客户端(简称OTA应用客户端)用以同业务服务器100进行业务数据交互。业务服务器100可以接收到用户通过OTA应用客户端发送的服务评价文本,并将接收到的服务评价文本向其他用户展示以提供用户的选择参考,或者基于接收到的服务评价文本进行审核、分类,以重点基于属于审核不通过、差评或者负面评价的服务评价文本中提取出对应服务业务的改进意见。
在业务服务器100基于接收到的服务评价文本进行审核、分类的过程中,可以针对部分服务评价文本通过人工审核的方式确认审核结果,以提高审核效率以及最终审核结果的准确率。比如上述健康度检测过程中,对于检测到包含目标健康关键词的服务评价文本,则可以从语言使用***台(或称人工审核平台)完成,审核平台用于向审核员展示接收到的服务评价文本,以供审核员基于接收到的服务评价文本确定服务评价文本的目标审核类别(即最终审核结果)或者对模型输出的服务评价文本的初始审核类别(即通过文本分类模型得到的审核结果)进行查看和/或校正操作以得到目标审核类别。
在一些可行的实施方式中,上述审核平台可以位于文本分类模型所在设备(业务服务器100),也可以单独位于其他设备(可以是终端设备200a、终端设备200b、终端设备200c、……、终端设备200n中任一终端设备)。上述审核平台可以体现为上述OTA应用客户端,适用于审核员使用OTA应用客户端对接收到的服务评价文本进行人工审核,以及对服务评价文本的初始审核类别进行查看和/或校正操作,并通过审核平台发送目标审核类别以及服务评价文本到业务服务器100。可选的,区分使用OTA应用客户端的用户和审核员,可以通过不同的登录账户来体现,即不同的登录账户具有不同的使用权限,审核员对应的登录账户可以有权限查看和/或校正服务评价文本的审核类别。或者,上述审核平台也可以是独立的应用客户端,该应用客户端只对审核员开放进行服务评价文本的审核结果查看和/或校正的操作,本申请实施例将以审核平台单独位于其他终端设备(比如终端设备200n),并且体现为OTA应用客户端进行说明。
本申请实施例提供的方法可以由如图2所示的业务服务器100执行,也可以由终端设备(如图2所示的终端设备200a、终端设备200b、……、终端设备200n中的任意一个)执行,还可以由终端设备和业务服务器共同执行,具体可根据实际应用场景确定,此处不做限制。本申请实施例将以业务服务器100作为酒店服务业务的业务提供方的服务器,用户可在使用产品或者服务结束之后通过终端设备200a中安装的OTA应用客户端发送服务评价文本至业务服务器100,以及终端设备200n作为审核平台(体现为OTA应用客户端)共同执行为例进行说明,下文不再赘述。
在一些可行的实施方式中,业务服务器100接收到来自终端设备200a的服务评价文本,上述服务评价文本由用户A通过终端设备200a中的OTA应用客户端编写并发送到业务服务器100,业务服务器100可以基于健康词库检测上述服务评价文本中是否包括目标健康关键词。如果通过比对上述服务评价文本命中包括健康词库中的一个或者多个健康关键词,则确定服务评价文本中包括健康词库中的目标健康关键词(也即此时上述一个或者多个健康关键词可为目标健康关键词)。将部分(包含目标健康关键词)服务评价文本输出至终端设备200n中的审核平台,接收设备200n中的审核平台发送的服务评价文本的目标审核类别,从而减少待审核的服务评价文本的数量,提高了审核效率。若上述服务评价文本中不包括目标健康关键词,则业务服务器100可以获取服务评价文本对应的情感特征和词向量特征。其中,业务服务器100可以基于目标服务业务(比如酒店)的情感词库和服务评价文本得到该服务评价文本的情感特征。通过加入情感特征以进行服务评价文本的审核,增强了文本分类模型的特征表达能力,可以进一步提高对服务评价文本审核的准确率,可以最大化降低审核误判。同时基于目标特征词提取算法对上述服务评价文本进行关键词提取,并基于提取的关键词生成服务评价文本的词向量特征,可以减少上述服务评价文本中的冗余词汇,同时减少了模型的训练时长以及测试时长,进一步提高文本审核的准确率和审核效率。业务服务器100可以将上述情感特征和词向量特征输入文本分类模型,基于文本分类模型得到服务评价文本的初始审核类别,若上述初始审核类别为第一审核类别(比如审核不通过、差评或者负面评价),则将该服务评价文本输出至终端设备200n中的审核平台,审核平台基于接收到的服务评价文本及其对应的初始审核类别,通过人工审核的方式对初始审核类别进行准确性判断和/或校正,并返回业务服务器100目标审核类别(校正后的初始审核类别)。若初始审核类别为第二审核类别(审核通过、好评或者正面评价),审核平台将初始审核类别确定为服务评价文本的目标审核类别并返回业务服务器100。通过审核平台对审核结果属于审核不通过、差评或者负面评价的服务评价文本进行人工审核,可以校正由于模型误判而造成的错误审核结果,从而提高最终的审核结果准确率。
参见图3,图3是本申请实施例提供的服务评价的审核方法的一流程示意图。如图3所示,该方法包括如下步骤:
S101,获取目标服务业务的服务评价文本。
在一些可行的实施方式中,业务服务器可以获取目标服务业务(比如酒店)的服务评价,上述服务评价可以是目标服务业务(比如酒店)的用户在使用产品或者服务结束之后根据服务提供方的产品和/或服务的体验进行编写,编写后通过对应的应用客户端发送服务评价文本至业务服务器。即酒店用户可以通过OTA应用客户端向酒店的服务提供方预定以及使用相关产品或者服务,在服务结束后,业务服务器可以接收到用户通过OTA应用客户端发布的服务评价。例如,用户A通过OTA应用客户端向酒店的服务提供方预定以及使用相关产品或者服务,服务结束后,业务服务器可以接收到用户A通过OTA应用客户端发布的服务评价为“酒店的环境格外赞。”等。除此之外,业务服务器接收到的服务评价包括但不限于“这次入驻的酒店非常满意!首先,酒店的周边环境十分不错。其次,酒店的服务员态度很好。最后,酒店的早餐总体上是美味的。”、“怎么会有人推荐这种酒店?”、“酒店的费用可以接收,然而服务不算满意”以及“这次入驻的酒店非常满意!首先,酒店的周边环境十分不错。其次,酒店的服务员态度很好。但是,酒店的早餐总体上是不算美味。”其中,上述服务评价的具体内容和/或表现形式可根据实际应用场景确定,在此不做限制。
可以理解的,上述服务评价可以是用户针对酒店、餐饮、旅游、以及电子商务等服务行业的服务提供方提供的服务进行点评、心得分享或者投诉等得到的服务评价,服务评价中可以包括文本、图片或者语音等多种表现形式的内容。其中,当上述服务评价为图片或者上述服务评价中包括图片时,可以基于图像文字识别从上述图片中获取服务评价的服务评价文本。当上述服务评价为语音或者上述服务评价中包括语音时,可以基于语音文字识别从上述图片中获取服务评价的服务评价文本。对服务评价进行审核可以相当于对服务评价文本进行审核,即服务评价的审核类别等同于其对应服务评价文本的审核类别。下面将以业务服务器对服务评价文本进行审核、分类以得到服务评价文本的审核结果进行描述。
S102,检测服务评价文本中是否包括目标健康关键词,若是,则执行步骤S103,否则执行步骤S104。
在一些可行的实施方式中,获取到服务评价文本之后,可以将上述服务评价文本进行分词以得到多个独立的词语。通过将将上述服务评价文本进行分词得到多个独立的词语,可以方便将服务评价文本与健康词库中包括的健康关键词进行比对,以确定服务评价文本中是否包含不雅词汇(或目标健康关键词)。具体的,针对获取的服务评价文本,使用分词工具对服务评价文本进行分词,以得到上述服务评价文本对应的多个独立的词语。这里,分词工具包括但不限于jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等。例如,获取的服务评价文本为“酒店的环境格外赞。”,通过jieba分词工具可以得到多个独立的词语,可以包括:“酒店”、“的”、“环境”、“格外”以及“赞”多个独立词语。得到分词后的独立词语,可以基于服务评价文本中的词语进行健康度检测。
在一些可行的实施方式中,可以将上述分词后得到的多个独立的词语与健康词库中包括的健康关键词进行比对,以检测服务评价文本中是否包括目标健康关键词。具体的,上述健康词库中包含多个预先设置的健康关键词,上述健康词库中的健康关键词可以是有关不雅词汇(比如脏话等),也可以是行业敏感词(比如金钱等),具体可根据实际应用场景确定,在此不做限制。这里,上述健康词库中包括的健康关键词可以从互联网的相关领域直接获取,或者直接从获取到的服务评价文本中获取,或者服务提供方自定义等等,具体可根据实际应用场景确定,在此不做限制。上述获取到的健康关键词可以放入业务服务器的指定存储空间以构成上述健康词库,还可以定期对健康词库中的词语集合进行增删等以更新健康词库中的健康关键词,其中上述定期更新健康词库中的健康关键词的频率可以是一周一次、一个月一次等,具体可根据实际应用场景需求确定,在此不做限制。
在一些可行的实施方式中,如果通过比对发现服务评价文本中包含目标健康关键词,说明该服务评价文本包含不雅词汇,此时可输出至审核平台以确定服务评价文本的目标审核类别。比如,业务服务器接收到服务评价文本,该服务评价文本分词后得到的独立词语有:“词语1”、“词语2”以及“词语3”,通过与健康词库比对后上述词语中“词语2”为目标健康关键词,则该服务评价文本健康度检测不通过,此时可将该服务评价文本输出至审核平台以通过人工审核确定服务评价文本的目标审核类别。通过将包含目标健康关键词的服务评价文本输出至审核平台以通过人工审核的方式确认审核结果,从而减少部分待审核的服务评价文本的数量,提高了服务评价文本的审核效率。
S103,通过审核平台确定服务评价文本的目标审核类别。
在一些可行的实施方式中,如果服务评价文本包括目标健康关键词(比如不雅词汇),则业务服务器可以输出上述服务评价文本至审核平台以确定服务评价文本的目标审核类别,这里,目标审核类别可以是最终确定的服务评价文本的审核类别,比如第一审核类别(即代表该服务评价文本为审核不通过、差评或者负面评价)或者第二审核类别(即代表该服务评价文本为审核通过、好评或者正面评价)。审核平台可以用于对包括目标健康关键词(或不雅词汇)的服务评价文本进行展示以供审核员对其进行审核以确定其目标审核类别。这里,审核平台可以是目标服务业务(比如酒店)对应的应用客户端(比如OTA应用客户端)。可选的,可以通过人工审核的方式确定服务评价文本的目标审核类别,该过程可以由审核员通过目标服务业务(比如酒店)对应的应用客户端(比如OTA应用客户端)完成。例如,审核员B可以使用专门用于服务评价文本人工审核的审核员账号通过指定终端设备进行OTA应用客户端登录,该账号与普通用户账号相区分,可以具有查看并审核接收到的服务评价文本的权限。登录完成后,审核员B可以在OTA应用客户端查看接收到的服务评价文本,上述服务评价文本可以是包括目标健康关键词,审核员基于该文本以及审核类别判定其目标审核类别为第二审核类别(该服务评价文本为审核不通过、差评或者负面评价)。审核完成后业务服务器可以接收到审核平台发送的该服务评价文本及其目标审核类别。通过将包含目标健康关键词的服务评价文本输出至审核平台以通过人工审核的方式确认审核结果,从而减少部分待审核的服务评价文本的数量,提高了服务评价文本的审核效率。
S104,获取服务评价文本对应的情感特征和词向量特征,并将情感特征和词向量特征输入文本分类模型。
在一些可行的实施方式中,对于不包括目标健康关键词(比如不雅词汇)的服务评价文本,可以从上述服务评价文本中提取情感特征和词向量特征,并将情感特征和词向量特征输入文本分类模型以得到其对应的初始审核类别。为方便理解,下面将分别对服务评价文本的情感特征获取和词向量特征获取进行说明:
情感特征获取:
在一些可行的实施方式中,可以通过目标服务业务(比如酒店)的情感词库和服务评价文本得到该服务评价文本的情感特征,并将上述服务评价文本划分为多个子句以方便情感特征的构建。具体的,可以依据服务评价文本中包含的汉字标点符号将服务评价文本划分为多个独立的子句,或者,也可以依据目标标点符号将服务评价文本划分为多个独立的子句,目标标点符号包括句号、问号或者感叹号等。本申请实施例将以依据目标标点符号将服务评价文本划分为多个独立的子句为例进行说明。例如,业务服务器获取到服务评价文本:“这次入驻的酒店非常满意!首先,酒店的周边环境十分不错。其次,酒店的服务员态度很好。最后,酒店的早餐总体上是美味的。”基于该服务评价文本,可以依据目标标点符号将服务评价文本划分为:“这次入驻的酒店非常满意!”、“首先,酒店的周边环境十分优雅。”、“其次,酒店的服务员很专业。”以及“最后,酒店的早餐总体上是美味的。”的四个独立的子句。
在一些可行的实施方式中,可以通过目标服务业务(如酒店服务业务)的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值,并确定出各子句的句型和各句型的情感权值。具体的,上述情感词库中可以包含多个预先设置的情感词语,也可以包含对情感词语起到程度修饰的程度副词、疑问句包含的疑问词以及转折句包含的转折词等。上述情感词库中包含的各类情感词语可以从互联网的酒店领域的网页页面直接获取,也可以根据有关领域专家的意见获取,或者直接从获取到的服务评价文本中获取,具体可根据实际应用场景确定,在此不做限制。上述获取到的词语可以放入业务服务器的指定存储空间以构成上述情感词库,还可以定期对情感词库中的词语集合进行增删等以更新情感词库中的词语,其中上述定期更新情感词库的频率可以是一周一次、一个月一次等,具体可根据实际应用场景需求确定,在此不做限制。
情感词库如下表1所示:
表1
如表1所示,情感词库可以包括情感词词库、程度副词词库、疑问词词库以及转折词词库。其中,情感词词库可以包括积极情感词和消极情感词,积极情感词可包括“舒适”、“欣喜”等词语,消极情感词可包括“失望”、“厌烦”等词语;程度副词词库又分为“Most”、“Very”、“More”、“Ish”、“Insufficiently”以及“Inverse”等词语类型,各词语类型同样有对应的词语,其中“Most”词语类型的词语可包括“非常”、“极”,“Very”词语类型的词语可包括“格外”、“特别”,“More”词语类型的词语可包括“更加”、“越发”,“Ish”词语类型的词语可包括“一些”、“一点”,“Insufficiently”词语类型的词语可包括“相对”、“微”,“Inverse”词语类型的词语可包括“不”、“别”。疑问词词库以及转折词词库分别包含了疑问词和转折词及其对应的词语,比如疑问词可以包括“怎么会”、“怎能”,转折词可以包括“但是”、“然而”。
在一些可行的实施方式中,情感词库中的各词语类型可以包含一个或多个词语,且每种词语类型中的词语均对应一个情感权值,可以是各个不同的词语对应不同的情感权值,也可以是同一词语类型的词语对应同一个情感权值,具体可根据实际应用场景确定,在此不做限制。本申请实施例以同一词语类型的词语对应同一个情感权值为例进行说明。
在一些可行的实施方式中,在将服务评价文本划分为多个子句的基础上,将各子句中包括的词语与情感词词库中的积极情感词和消极情感词进行匹配以确定出各子句中包含的积极情感词和/或消极情感词,并确定出各子句中包含的积极情感词和/或消极情感词所对应的情感权值。例如,针对上述“这次入驻的酒店非常满意!”、“首先,酒店的周边环境十分优雅。”、“其次,酒店的服务员很专业。”以及“最后,酒店的早餐总体上是美味的。”的四个独立的子句,通过情感词库匹配到各子句中包含的积极情感词分别为“满意”、“优雅”、“专业”以及“美味”,同时确定出各子句中包含的积极情感词对应的情感权值(比如2)。
在一些可行的实施方式中,通过上述情感词词库中的程度副词词库还可以确定子句中是否包括程度副词词库中的词语,以基于子句中的程度副词及对应的情感权值进一步更新子句的情感得分。可选的,若从各子句中确定出情感词库中包括的程度副词,且该程度副词位于积极情感词和/或消极情感词之前,则表明该程度副词为上述积极情感词和/或消极情感词对应的程度副词,即从中文语法的角度上可以判定该程度副词对上述积极情感词和/或消极情感词起到了积极情感和/或消极情感的加强作用。比如“非常满意”中,程度副词“非常”为积极情感词“满意”对应的程度副词。进而可确定该程度副词所对应的情感权值,以得到各子句中属于程度副词词库的词语所对应的情感权值。具体的,对于程度副词词库中不同的词语类型,不同词语类型中的词语有不同的情感权值。例如,针对上述子句“这次入驻的酒店非常满意!”匹配到该子句包含程度副词词库中“Most”词语类型的词语“非常”,确定该程度副词所对应的情感权值(比如5)。而针对上述子句“其次,酒店的服务员很专业。”匹配到该子句包含程度副词词库中“Very”词语类型的词语“很”,确定该程度副词所对应的情感权值(比如4)。除此之外,针对子句“这家酒店的环境很不好。”匹配到该子句包含程度副词词库中“Very”词语类型的词语“很”以及“Inverse”词语类型的词语“不”,分别确定上述程度副词所对应的情感权值(比如4和-1)。
在一些可行的实施方式中,在通过情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值的基础上,可以确定出各子句的句型和各句型的情感权值,以基于各子句的句型和各句型的情感权值对基于上述各子句中包括的词语类型、各词语类型的词语和情感权值得到的各子句情感得分进一步更新,可以更有效地从服务评价文本中提取对应的情感特征。具体的,如果各子句中任意子句中包含感叹号,且子句包含情感词库的一个或多个情感词词库中的词语,即表明子句中包含的感叹号对该子句中包含的情感词词库中的词语有情感程度加强作用,则可以确定该子句的句型为感叹句,并确定出子句为感叹句所对应的情感权值。例如,针对上述子句“这次入驻的酒店非常满意!”检测到该子句中包含感叹号且包含积极情感词“满意”,则确定该子句的句型为感叹句,且感叹句所对应的情感权值(比如2)。
在一些可行的实施方式中,如果各子句中任意子句中包含问号,且子句包含一个或多个疑问词词库中的词语,即表明子句中包含的问号对该子句中包含的疑问词词库中的词语有情感程度加强作用,则确定该子句的句型为问句,并确定出子句为问句所对应的情感权值。例如,从服务评价中得到子句“怎么会有人推荐这种酒店?”检测到该子句中包含问号且包含疑问词“怎么”,则确定该子句的句型为问句,且感叹句所对应的情感权值(比如-2)。
在一些可行的实施方式中,如果各子句中任意子句包含一个或多个转折词词库中的词语,则确定该子句的句型为转折句,并确定出子句为转折句所对应的情感权值。例如,从服务评价中得到子句“酒店的费用可以接收,然而服务不算满意”检测到该子句中包含转折词“然而”,则确定该子句的句型为转折句,且转折句所对应的情感权值(比如1.5)。
在一些可行的实施方式中,基于各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或程度副词及其对应情感权值可以计算各子句的情感得分,同时基于各子句的句型和各句型的情感权值更新各子句的情感得分,并根据各子句的情感得分可以得到服务评价文本的情感特征。具体的,基于各子句中包含的积极情感词及其对应的情感权值、和/或消极情感词及其对应的情感权值计算各子句的情感得分,情感得分可以包括积极情感得分和/或消极情感得分。接着基于各子句中包含的程度副词的情感权值更新各子句的情感得分,其中,各子句中不包含程度副词时程度副词的情感权值为1。得到各子句的情感得分后,基于各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值。上述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建服务评价文本的情感特征。通过加入情感特征以进行服务评价文本的审核,增强了文本分类模型的特征表达能力,可以进一步提高对服务评价文本审核的准确率。
例如,获取到服务评价文本:“这次入驻的酒店非常满意!首先,酒店的周边环境十分不错。其次,酒店的服务员态度很好。但是,酒店的早餐总体上是不算美味。”基于该服务评价文本,可以依据目标标点符号将服务评价文本划分为:“这次入驻的酒店非常满意!”、“首先,酒店的周边环境十分优雅。”、“其次,酒店的服务员很专业。”以及“但是,酒店的早餐总体上是不算美味。”的四个独立的子句。其中,在子句“这次入驻的酒店非常满意!”中有积极情感词“满意”,积极情感词对应的情感权值可以是2,且积极情感词前有对应的程度副词“非常”,程度副词对应的情感权值可以是5,此时,可将积极情感词与程度副词对应情感权值相乘,得到子句的积极情感得分10。同时该子句为感叹句,感叹句对应的情感权值可以是2,将该子句积极情感得分与感叹句对应情感权值相乘,更新该子句的积极情感得分为20,且该子句的消极情感得分为0。同理,可以计算“首先,酒店的周边环境十分优雅。”积极情感得分为10,消极情感得分为0;“其次,酒店的服务员很专业。”积极情感得分为8,消极情感得分为0;“但是,酒店的早餐总体上是不算美味。”积极情感得分为0,消极情感得分为-3。得到各子句的情感得分后,基于各子句的情感得分得到该评价文本中所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值分别为38、-3、9.5、-0.75以及35。可以选取上述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值共同作为该服务评价文本的情感特征。通过加入情感特征以进行服务评价文本的审核,增强了文本分类模型的特征表达能力,可以进一步提高对服务评价文本审核的准确率,减少审核误判。
词向量特征获取:
在一些可行的实施方式中,可以基于目标特征词提取算法对上述服务评价文本进行关键词提取,并基于提取的关键词生成上述服务评价文本的词向量特征。具体的,可以对服务评价文本进行分词以得到多个独立的词语,并基于目标特征词提取算法从多个独立的词语中提取一个或者多个关键词。通过词向量转化模型对一上述关键词进行向量化处理得到关键词向量序列,并基于关键词向量序列得到服务评价文本的词向量特征。
在一些可行的实施方式中,使用分词工具对服务评价文本进行分词,可以使用jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具对对服务评价文本进行分词以得到独立的词语,从而对上述独立的词语基于目标特征词提取算法进行关键词提取。目标特征词提取算法可以为词频-逆文档频率算法,词频-逆文档频率算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,通过对服务评价文本的分词结果中的每个词语进行计算,对计算得到的词频-逆文档频率值(或TF-IDF值)进行降序排列,可以选取排序结果中位于前面预设数目的词作为关键词。或者,选取得分高于预设值的词作为关键词,本申请实施例以选取排序结果中位于前面预设数目的词语作为关键词进行说明。具体的,词频-逆文档频率值=TF*IDF=某个词在文章中的词频(出现总次数/文章词数)*log(语料库的文档总数/包含该词的文档数+1)。例如,对于获取到的服务评价文本,分词后得到的多个独立的词语为:“隔音”、“卫生”、“太”、“赞”、“性价比”、“超”、“高”、“值得”以及“推荐”。通过词频-逆文档频率值计算公式对服务评价文本的分词结果中的每个词语进行计算,对计算得到的词频-逆文档频率值进行降序排列,排序结果为:“隔音”、“卫生”、“赞”、“性价比”、“高”、“值得”、“推荐”、“太”、“超”。选取排序结果中位于前面7个词语的词语作为关键词,则得到关键词包括:“隔音”、“卫生”、“赞”、“性价比”、“高”、“值得”以及“推荐”。
在一些可行的实施方式中,目标特征词提取算法可以为卡方检验算法,卡方检验可以用于统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小。计算每个词语对审核结果的相关性,相关性越大则越有助于文本分类模型进行分类,否则就可以将其作为无用特征抛弃。相关性可以通过卡方值(或者X2)体现,卡方值可以利用卡方检验计算公式得到,用于衡量实际值与理论值的差异程度。
卡方值计算公式为:
其中A为观察值,E为理论值,k为观察值的个数,n为频数,p为理论频率。
例如,对于获取到的服务评价文本,分词后得到的多个独立的词语为:“隔音”、“卫生”、“太”、“赞”、“性价比”、“超”、“高”、“值得”以及“推荐”。通过对服务评价文本的分词结果中的每个词语进行计算卡方值,对计算得到的卡方值值进行降序排列,排序结果为:“隔音”、“卫生”、“性价比”、“赞”、“值得”、“高”、“推荐”、“超”、“太”。选取排序结果中位于前面7个词语的词语作为关键词,则得到关键词包括:“隔音”、“卫生”、“性价比”、“赞”、“值得”、“高”以及“推荐”。
在一些可行的实施方式中,通过词向量转化模型对上述关键词进行向量化处理得到关键词向量序列,并基于关键词向量序列得到服务评价文本的词向量特征。具体的,在通过上述目标特征词提取算法得到关键词的基础上,对上述关键词通过词向量转化模型(可以是word2vec模型、CBOW模型、glove模型中的一种或多种组合)进行向量化处理,得到上述关键词的向量序列。针对上述关键词的向量序列,通过计算向量序列中各向量之间的斯皮尔曼相关系数(或spearman相关系数)。斯皮尔曼相关系数是衡量两个变量的依赖性的非参数指标,它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或-1。若关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数超过目标阈值,则去除两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列,基于上述去除向量后的关键词向量序列得到词向量特征。
上述斯皮尔曼相关系数经常用希腊字母ρ表示,假设有向量X和向量Y,斯皮尔曼相关系数计算公式为:
例如,得到关键词包括:“隔音”、“卫生”、“赞”、“性价比”、“高”、“值得”以及“推荐”,对上述关键词通过词向量转化模型进行向量化处理得到关键词的向量序列,令关键词“隔音”向量化后得到的词向量为M1,以此类推,得到关键词的向量序列可以为:M1、M2、……、M7。斯皮尔曼相关系数的目标阈值为0.6,计算上述关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数,发现词向量M3和词向量M5之间的斯皮尔曼相关系数为0.8,超过目标阈值,则去除词向量M3(或去除词向量M3)。剩余的关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数均未超过目标阈值为0.6,则关键词向量序列:M1、M2、M4、M5、M6、M7构成词向量特征。通过在构建词向量特征的过程中提取关键词,并进一步选取关键词向量作为最终词向量特征,可以减少文本中的冗余词汇,同时减少了模型的训练时长以及测试时长,进一步提高文本审核的准确率和审核效率。
在一些可行的实施方式中,将得到的情感特征和词向量特征输入文本分类模型,在进行文本数据的分类时,有多种文本分类模型可以选择,例如TextCNN、TextRNN和FastText等,本申请实施例选择基于FastText算法的文本分类模型。FastText是一种快速文本分类算法,其最大的特点是模型简单,因此在保持高精度的情况下有更快的训练速度和测试速度,比深度模型的训练要快几个数量级。FastText包括输入层、隐藏层以及输出层,上述情感特征和词向量特征通过输入层输入基于FastText算法的文本分类模型,由输出层得到分类结果。具体的,在输入层中具有n-grams特征,即文本内容按照子节顺序进行大小为N的窗口滑动操作,最终形成窗口为N的字节片段序列。n-gram中的gram根据粒度不同有不同的含义,即可以是字粒度,也可以是词粒度。以词粒度为例,对于上述关键词:“隔音”、“卫生”、“赞”、“性价比”、“高”、“值得”以及“推荐”,加入窗口N取值为2的n-grams特征得到的词语组合为:“隔音”、“卫生”、“赞”、“性价比”、“高”、“值得”、“推荐”、“隔音卫生”、“卫生赞”、“赞性价比”、“性价比高”、“高值得”以及“值得推荐”。进一步地,上述词语组合可以作为新的关键词序列,对该关键词序列进行向量化处理得到关键词向量序列:M1、M2、……、M13,基于关键词向量序列(通过计算向量序列中各向量之间的斯皮尔曼相关系数并去掉部分关键词向量)可以得到上述服务评价文本的词向量特征。将词向量特征(去掉部分关键词向量后的关键词向量序列)以及上述情感特征通过输入层输入进入隐藏层,隐藏层将输入的向量相加再求平均,得到一个新的向量,然后将这个向量输入到输出层。输出层采用了层次softmax的方法,将多分类问题转化为若干个二分类问题,从而将计算复杂度从O(V)降到O(logV),即根据每个类别建立哈弗曼树,每个类别对应一个哈夫曼编码,每个哈夫曼树节点具有一个向量作为参数进行更新,预测时隐层输出与每个哈夫曼节点向量做点乘,根据结果决定向左右哪个方向移动,最终落到某个类别对应的节点上。最终通过输出层可以得到服务评价文本为第二审核类别(审核通过、好评或者正面评价)的概率值,概率值范围在0-1之间。如果概率值超过审核门限值,则文本分类模型输出服务评价文本的初始审核类别为第二审核类别,否则输出服务评价文本的初始审核类别为第一审核类别(审核不通过、差评或者负面评价)。例如,设置上述审核门限值为0.9,如果基于词向量特征(比如关键词向量序列:M1、M2、……、M13)和情感特征(可以包括积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值)通过上述文本分类模型(如基于FastText算法的文本分类模型)得到输出概率值0.96,则可以得到该服务评价文本的初始审核类别为第二审核类别。
在一些可行的实施方式中,在通过目标特征词提取算法对上述服务评价文本进行关键词提取过程中,在对服务评价文本进行分词以得到多个独立的词语之前,可以去除服务评价文本中的无效元素,该无效元素可以包含无效文字以及无效符号。具体的,无效文字可以是“的”、“了”、“首先”等无效字词,无效符号可以是中英文标点符号等。例如,对服务评价文本“首先,酒店的周边环境十分优雅。”分词前进行无效元素去除,可以得到更新后的服务评价文本“酒店周围环境十分优雅”,对该服务评价文本进行分词得到多个独立的词语:“酒店”、“周围”、“环境”、“十分”、“优雅”。通过对服务评价文本进行无效元素处理,可以减少文本中的冗余成分,有助于关键词的提取。
参见图4,图4是本申请实施例提供的服务评价的审核方法的另一流程示意图。如图4所示,词向量特征提取方面,业务服务器首先对服务评价文本进行文本处理,其中,文本处理可以包括去除服务评价文本中的无效元素,无效元素可以包含无效文字以及无效符号。接着,业务服务器对服务评价文本进行分词以得到多个独立的词语,可以使用jieba分词工具完成。对分词后的词语进行关键词提取,可以是基于词频-逆文档频率算法计算分词结果中的每个词语的TF-IDF值,再基于TF-IDF值选取部分词语作为关键词(可以通过TF-IDF值降序排列后选取排序结果中位于前面预设数目的词语,或者选取得分高于预设值的词作为关键词)。也可以通过卡方检验算法计算分词结果中的每个词语的卡方值,再基于卡方值选取部分词语作为关键词。关键词提取完成后,业务服务器对上述关键词进行词向量转化及向量提取,通过词向量转化模型(可以是word2vec模型、CBOW模型、glove模型中的一种或多种组合)得到上述关键词的向量序列。再针对上述关键词的向量序列,计算向量序列中各向量之间的斯皮尔曼相关系数(或spearman相关系数)。若关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数超过目标阈值,则去除两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列,基于上述去除向量后的关键词向量序列得到词向量特征。最后得到的词向量特征可以是词向量序列M1、M2、……、Mn共n个词向量。业务服务器将得到的词向量特征与情感特征输入到文本分类模型(可以是基于FastText算法的文本分类模型)中,基于文本分类模型得到上述服务评价的审核结果。业务服务器通过在构建词向量特征的过程中提取关键词,并进一步选取关键词向量作为最终词向量特征,可以减少文本中的冗余词汇,也减少了模型的训练时长以及测试时长,进一步提高文本审核的准确率和审核效率。而通过加入情感特征以进行服务评价文本的审核,增强了文本分类模型的特征表达能力,可以进一步提高对服务评价文本审核的准确率。
S105,确定文本分类模型输出的服务评价文本的初始审核类别是否为第一审核类别,若是,则执行步骤S103,否则执行步骤S106。
在一些可行的实施方式中,对于不包括目标健康关键词(或不雅词汇)的服务评价文本,可以通过文本分类模型(比如基于FastText算法的文本分类模型)得到其对应的初始审核类别,初始审核类别可以包括第一审核类别(即代表该服务评价文本为审核不通过、差评或者负面评价)和第二审核类别(即代表该服务评价文本为审核通过、好评或者正面评价)。对于初始审核类别为第一审核类别的服务评价文本,可以输出上述服务评价文本及其对应初始审核类别至审核平台以确认服务评价文本的目标审核类别(通过审核平台校正初始审核类别得到)。通过对服务评价文本及其初始审核类别进行人工二次审核,可以校正由于模型误判而造成的错误审核结果,从而提高最终的审核结果准确率。
基于审核平台对上述初始审核类别进行校正如下表2所示,表2为服务评价文本的审核结构校正表:
表2
服务评价文本 | 初始审核结果 | 审核员校正结果 |
入住体验糟糕,不会再来。 | 第一审核类别 | 第一审核类别 |
隔音和卫生太差。 | 第一审核类别 | 第一审核类别 |
整体来说还不错。 | 第一审核类别 | 第二审核类别 |
如表2所示,有来自用户的服务评价包括:“入住体验糟糕,不会再来。”、“隔音和卫生太差。”以及“整体来说还不错。”,针对这几条服务评价,通过文本分类模型可以分别得到模型审核结果(或初始审核类别)均为第一审核类别(审核不通过、差评或者负面评价),将上述评价输出至审核平台,通过审核平台对初始审核类别进行校正,从审核平台得到反馈的目标审核类别。其中,服务评价“入住体验糟糕,不会再来。”和“隔音和卫生太差。”审核结果(初始审核类别)和审核员校正结果(目标审核类别)相同,说明模型预测准确。而服务评价“整体来说还不错。”的审核结果(初始审核类别)为第一审核类别,但从审核平台反馈的审核员校正结果(目标审核类别)为第二审核类别,说明模型预测有误。
S106,将初始审核类别确定为服务评价文本的目标审核类别。
在一些可行的实施方式中,业务服务器可以获取文本分类模型(比如基于FastText算法的文本分类模型)输出的服务评价文本的初始审核类别,若上述初始审核类别为第一审核类别(审核不通过、差评或者负面评价),则将该服务评价文本输出至审核平台,以通过审核平台确定服务评价文本的目标审核类别。若初始审核类别为第二审核类别(审核通过、好评或者正面评价),则将初始审核类别确定为服务评价文本的目标审核类别。例如,针对服务评价文本“酒店的周边环境十分优雅。”文本分类模型输出的服务评价文本的初始审核类别为第二审核类别,则直接将该服务评价文本的目标审核类别确定为第二审核类别。
在一些可行的实施方式中,对于目标审核类别确定为第二审核类别的服务评价文本,可以输出该服务评价文本到目标服务业务(如酒店)对应的互联网平台(OTA)进行展示,比如用户可以通过OTA相关的用户交互页面(比如网页界面、移动端应用客户端)查看展示的服务评价文本。
在一些可行的实施方式中,可以从目标服务业务(如酒店)的服务评价样本库中获取至少两种审核类别的样本服务评价文本,其中,至少两种类别包括第一审核类别和第二审核类别,任一审核类别的样本服务评价文本中均包括样本服务评价文本的审核类别标签。可以理解的,上述服务评价样本库可以是位于业务服务器中的指定存储空间,或者服务评价样本库可以体现为独立于上述业务服务器的其他设备。将上述样本服务评价文本输入文本分类模型,通过文本分类模型对样本服务评价文本进行学习以获取识别任一服务评价文本的审核类别的能力。
参见图5,是本申请实施例提供的文本分类模型训练与优化示意图。如图5所示,在文本分类模型(比如基于FastText算法的文本分类模型)搭建的初期,上述服务评价样本库中的样本服务评价文本的审核类别标签主要通过人工标注得到,上述人工标注过程可以由审核员完成。即首先与审核员沟通确定审核类别的种类,确定审核类别可以包括第一审核类别(审核不通过、差评或者负面评价)以及第二审核类别(审核通过、好评或者正面评价)。确定审核类别后,审核员可以对用于模型训练的历史服务评价文本(或称训练集中的服务评价文本)进行审核,确定历史服务评价文本的审核类别并为历史服务评价文本标注审核类别标签,将带有审核类别标签的样本服务评价文本输入评价样本库中用于文本分类模型训练。上述带有审核类别标签的样本服务评价文本中至少包括两种审核类别(第一审核类别和第二审核类别)的样本服务评价文本,上述用于模型训练的历史服务评价文本可以从互联网中有关目标服务业务的网页页面中获取,或者直接从目标服务业务的服务提供商获取。同时,在文本分类模型训练过程中,可以将服务评价文本基于训练得到的文本分类模型进行审核以得到其审核类别。可以将上述文本分类模型得到的审核类别经过审核平台审核后得到目标审核类别,添加上述目标审核类别为服务评价文本的审核类别标签,该添加有审核类别标签的服务评价文本可以作为样本服务评价文本,将该样本服务评价文本添加至服务评价样本库以用于文本分类模型训练,使其获取识别任一服务评价文本的审核类别的能力。具体的,上述文本分类模型训练过程中,可以基于输入的样本服务评价文本得到模型预测文件,上述模型预测文件可以包括文本特征文件(可以包括基于样本服务评价文本得到的情感特征以及词向量特征)和文本分类算法模型预测文件。在对样本服务评价文本或者实时获取的服务评价文本进行审核、分类时,可以将样本服务评价文本输入模型并通过执行该模型预测文件得到样本服务评价文本的审核结果。同时,还可以通过对比执行不同训练时期得到的模型预测文件时得到的审核结来选择出最优模型预测文件,以确定最终的文本分类模型,用于实时获取的服务评价文本的审核,以增强基于文本分类模型进行服务评价文本的审核的准确性,操作简单,适用性强。
在一些可行的实施方式中,在文本分类模型训练过程中,可以在服务评价样本库接收到新的样本服务评价文本后,实时将该样本服务评价文本输入上述文本分类模型用于文本分类模型训练。或者,可以定期从上述服务评价样本库中抽取部分样本服务评价文本,输入上述文本分类模型进行定期模型更新训练,其中上述定期模型更新训练的频率可以是一周一次、一个月一次等,具体可根据实际应用场景需求确定,在此不做限制。
通过不断更新服务评价样本库包含的样本服务评价文本,并实时或定期迭代文本分类模型,可以增强模型稳健性,模型审核结果更准确。自上述文本分类模型搭建以来,该文本分类模型的审核表现可如下表3所示:
表3
审核通过 | 审核不通过 | |
实际审核通过 | 131103 | 60 |
实际审核不通过 | 28 | 15905 |
如表3所示,文本分类模型共审核服务评价文本147096条,其中,审核通过服务评价文本131131条(实际审核通过131103条,实际审核不通过28条),审核通过服务评价文15965条(实际审核通过60条,实际审核不通过15906条)。由此可见,对于所有经过模型审核的服务评价文本,预测正确(审核通过且实际审核通过,审核不通过且实际审核不通过)的服务评价文本占总审核的服务评价文本比例为99.94%,即可以称该文本分类模型的准确率为99.94%。对于审核通过的服务评价文本,预测正确(实际审核通过)的服务评价文本占总审核通过的服务评价文本比例为99.97%,即可以称该文本分类模型的精确率为99.97%。而对于服务评价文本中实际为的审核通过类别的服务评价文本,模型对该部分服务评价文本审核为审核通过类别的服务评价文本占总实际为审核通过类别的服务评价文本比例为99.95%,即可以称该文本分类模型的召回率为99.97%。从各模型评估指标来看,上述文本分类模型表现稳健,预测结果准确可信。
在本申请实施例中,业务服务器可以获取服务评价文本,上述服务评价文本可以是来自相关服务业务(例如酒店)的用户,可以从相关互联网平台的应用客户端获取(比如OTA应用客户端)。基于上述服务评价文本,首先对文本进行分词处理以得到多个独立的词语,将上述分词后得到的多个独立的词语与健康词库中包括的健康关键词进行比对。如果通过比对发现服务评价文本中包含健康词库中的目标健康关键词,说明该服务评价文本包含不雅词汇,可以输出至审核平台以确定服务评价文本的目标审核类别。如果服务评价文本不包括目标健康关键词,则业务服务器可以获取该服务评价文本对应的情感特征和词向量特征。对于情感特征,可以将上述服务评价文本划分为多个子句,然后将各子句中包括的词语与情感词词库中的积极情感词和消极情感词进行匹配以确定出各子句中包含的积极情感词和/或消极情感词,并确定出各子句中包含的积极情感词和/或消极情感词所对应的情感权值。若从各子句中确定出情感词库中包括的程度副词,且该程度副词位于积极情感词和/或消极情感词之前,则确定该程度副词所对应的情感权值,以得到上述各子句中属于程度副词词库的词语所对应的情感权值。接着,如果各子句中任意子句中包含感叹号,且子句包含情感词库的一个或多个情感词词库中的词语,则确定该子句的句型为感叹句,并确定出子句为感叹句所对应的情感权值。如果各子句中任意子句中包含问号,且子句包含一个或多个疑问词词库中的词语,则确定该子句的句型为问句,并确定出子句为问句所对应的情感权值。如果各子句中任意子句包含一个或多个转折词词库中的词语,则确定该子句的句型为转折句,并确定出子句为转折句所对应的情感权值。基于各子句中包含的积极情感词及其对应的情感权值、和/或消极情感词及其对应的情感权值计算各子句的情感得分,情感得分可以包括积极情感得分和/或消极情感得分。接着基于各子句中包含的程度副词的情感权值更新各子句的情感得分。得到各子句的情感得分后,基于各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值。上述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建服务评价文本的情感特征。对于词向量特征,可以使用分词工具对服务评价文本进行分词以得到多个独立的词语,通过对分词结果中的每个词语进行词频-逆文档值(或TF-IDF值)计算,对计算得到的词频-逆文档频率值进行降序排列,选取排序结果中位于前面预设数目的词作为关键词。除此之外,还对服务评价文本的分词结果中的每个词语进行计算卡方值,对计算得到的卡方值值进行降序排列,选取排序结果中位于前面预设数目的词作为关键词。接着,对上述关键词通过词向量转化模型进行向量化处理,得到上述关键词的向量序列。针对上述关键词的向量序列,通过计算向量序列中各向量之间的斯皮尔曼相关系数,若关键词向量序列中的任意两个向量之间的斯皮尔曼相关系数超过目标阈值,则去除两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列,基于上述去除向量后的关键词向量序列得到词向量特征。最后,将得到的情感特征和词向量特征输入基于FastText算法的文本分类模型,业务服务器可以获取文本分类模型输出的服务评价文本的初始审核类别,若上述初始审核类别为第一审核类别(审核不通过、差评或者负面评价),则将该服务评价文本输出至审核平台,以通过审核平台确定服务评价文本的目标审核类别。若初始审核类别为第二审核类别(审核通过、好评或者正面评价),则将初始审核类别确定为服务评价文本的目标审核类别。由此可见,通过从服务评价文本中获取情感特征以及词向量特征,输入情感特征以及词向量特征到基于FastText算法的文本分类模型,可以自动得到服务评价文本对应的审核类别,从而解决了人工审核人工消耗量大的问题,提高了审核效率,适用性更强。
本申请实施例还提供一种服务评价的审核装置,请参考图6,图6是本申请实施例提供的服务评价的审核装置的结构示意图,在本申请实施例中,该装置可运行如下模块:
获取模块61,用于获取目标服务业务的服务评价文本;
健康检测模块62,用于检测上述获取模块61获取到的上述服务评价文本中是否包括目标健康关键词;
第一审核模块63,用于在上述健康检测模块62检测到上述服务评价文本中包括上述目标健康关键词时,将上述服务评价文本输出至审核平台,通过上述审核平台确定上述服务评价文本的目标审核类别;
特征生成模块64,用于在上述健康检测模块62检测到上述服务评价文本中不包括上述目标健康关键词时,获取上述获取模块61获取到的上述服务评价文本对应的情感特征和词向量特征,将上述情感特征和上述词向量特征输入文本分类模型;
第二审核模块65,用于基于上述文本分类模型输出的上述服务评价文本的初始审核类别,输出上述服务评价文本的目标审核类别或者将上述服务评价文本输出至上述审核平台,以通过上述审核平台输出上述服务评价文本的目标审核类别。
在一种可能的设计中,上述健康检测模块62用于:
将上述获取模块获取到的上述服务评价文本进行分词以得到多个独立的词语;
将上述多个独立的词语与健康词库中包括的健康关键词进行比对,以检测上述服务评价文本中是否包括上述健康词库中的目标健康关键词。
在一种可能的设计中,上述特征生成模块64用于:
基于上述目标服务业务的情感词库和上述获取模块获取到的上述服务评价文本得到上述服务评价文本的情感特征;
基于目标特征词提取算法对上述服务评价文本进行关键词提取,并基于提取的关键词生成上述服务评价文本的词向量特征。
在一种可能的设计中,上述特征生成模块64用于:
将上述获取模块获取到的上述服务评价文本划分为多个子句;
基于上述目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值,并确定出上述各子句的句型和各句型的情感权值;
基于上述各子句中上述各词语类型的词语和情感权值,以及上述各子句的句型和各句型的情感权值得到上述服务评价文本的情感特征。
在一种可能的设计中,上述特征生成模块64用于:
基于上述各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或上述目标程度副词及其对应情感权值计算上述各子句的情感得分;
基于上述各子句的句型和各句型的情感权值更新上述各子句的情感得分,并基于上述各子句的情感得分得到上述服务评价文本的情感特征。
在一种可能的设计中,上述特征生成模块64用于:
基于上述各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值;
基于上述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建上述服务评价文本的情感特征。
在一种可能的设计中,上述特征生成模块64用于:
对上述获取模块获取到的上述服务评价文本进行分词以得到多个独立的词语,并基于目标特征词提取算法从上述多个独立的词语中提取一个或者多个关键词;
通过词向量转化模型对上述一个或者多个关键词进行向量化处理得到关键词向量序列,基于上述关键词向量序列得到上述服务评价文本的词向量特征。
在一种可能的设计中,上述特征生成模块64用于:
获取上述关键词向量序列中各向量之间的斯皮尔曼相关系数;
若上述关键词向量序列中的任意两个向量之间的上述斯皮尔曼相关系数超过目标阈值,则去除上述任意两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列;
基于上述去除向量后的关键词向量序列得到词向量特征。
在一种可能的设计中,上述第二审核模块65用于:
获取上述文本分类模型输出的上述获取模块获取到的上述服务评价文本的初始审核类别;
若上述初始审核类别为第一审核类别,则将上述服务评价文本输出至上述审核平台;
若上述初始审核类别为第二审核类别,则将上述初始审核类别确定为上述服务评价文本的目标审核类别;
其中,上述第一审核类别包括审核不通过、上述第二审核类别包括审核通过,或者上述第一审核类别为差评,上述第二审核类别为好评。
根据上述图3所对应的实施例,图3所示的服务评价的审核方法中步骤S101至S106所描述的实现方式可由图6所示的装置的各个模块执行。例如,上述图3所示的服务评价的审核方法中步骤S101所描述的实现方式可由图6所示的装置中获取模块61来执行,步骤S102所描述的实现方式可由健康检测模块62来执行,步骤S103所描述的实现方式可由第一审核模块63和第二审核模块65来执行,步骤S104所描述的实现方式可由特征生成模块64来执行,步骤S105和步骤S106所描述的实现方式可由第二审核模块65来执行。其中,上述获取模块61、健康检测模块62、第一审核模块63、特征生成模块64以及第二审核模块65所执行的实现方式可参见上述图3所对应的实施例中各个步骤所提供的实现方式,在此不再赘述。
请参见图7,图7是本申请实施例提供的终端设备的结构示意图。如图7所示,本申请实施例提供的终端包括处理器701、存储器702、用户接口703、通信接口704、耦合器705和天线706等功能模块。上述存储器702用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器702包括但不限于RAM、ROM、EPROM、或CD-ROM等,在此不做限制。此外,上述存储器702也可以是处理器701中的存储器,在此不做限制。
存储器702存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作***:包括各种***程序,用于实现各种基础业务以及处理基于硬件的任务。
上述处理器701控制终端的操作,处理器701可以是一个或多个CPU。上述图3对应的实施例揭示的终端的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件执行图3中实施例所描述的终端的方法步骤。
上述终端的用户接口703主要用于为用户提供输入的接口,获取用户输入的数据。用户接口703可包括多媒体输入和/或输出设备7031、摄像头7032以及显示器7033等等,在此不做限制。用户接口703可以是与终端的用户进行交互的信息输入和/或输出模块,例如手机等终端的麦克风和/或喇叭,前置和/或后置摄像头以及触控屏等,在此不做限制。可选的,用户接口703还可以包括标准的有线接口、无线接口等,在此不做限制。
终端的处理器701可通过一个或者多个通信接口704和耦合器705与天线706等设备进行耦合,结合其他功能模块执行图3中实施例所描述的终端所执行的实现方式,具体可参见上述实施例提供的实现方式,在此不做限制。这里“耦合”是指两个部件彼此直接或间接地结合。这种结合可以是固定的或可移动性的,这种结合可以允许流动液、电、电信号或其它类型信号在两个部件之间通信。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在终端上运行时,使得终端执行上述图3中实施例所描述的终端所执行的实现方式,具体可参见上述实施例提供的实现方式,在此不再赘述。
本申请实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在终端设备上运行时,使得终端设备执行上述图3中实施例所描述的终端所执行的实现方式。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以上述权利要求的保护范围为准。
Claims (30)
1.一种服务评价的审核方法,其特征在于,所述方法包括:
获取目标服务业务的服务评价文本,检测所述服务评价文本中是否包括目标健康关键词;
若所述服务评价文本中包括所述目标健康关键词,则将所述服务评价文本输出至审核平台,通过所述审核平台确定所述服务评价文本的目标审核类别;
若所述服务评价文本中不包括所述目标健康关键词,则获取所述服务评价文本对应的情感特征和词向量特征,并将所述情感特征和所述词向量特征输入文本分类模型;
基于所述文本分类模型输出的所述服务评价文本的初始审核类别,确定所述服务评价文本的目标审核类别或者将所述服务评价文本输出至所述审核平台,以通过所述审核平台确定所述服务评价文本的目标审核类别。
2.根据权利要求1所述的方法,其特征在于,所述检测所述服务评价文本中是否包括目标健康关键词,包括:
将所述服务评价文本进行分词以得到多个独立的词语;
将所述多个独立的词语与健康词库中包括的健康关键词进行比对,以检测所述服务评价文本中是否包括所述健康词库中的目标健康关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述获取所述服务评价文本的情感特征和词向量特征包括:
基于所述目标服务业务的情感词库和所述服务评价文本得到所述服务评价文本的情感特征;
基于目标特征词提取算法对所述服务评价文本进行关键词提取,并基于提取的关键词生成所述服务评价文本的词向量特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标服务业务的情感词库和所述服务评价文本得到所述服务评价文本的情感特征,包括:
将所述服务评价文本划分为多个子句;
基于所述目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值,并确定出所述各子句的句型和各句型的情感权值;
基于所述各子句中所述各词语类型的词语和情感权值,以及所述各子句的句型和各句型的情感权值得到所述服务评价文本的情感特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值包括:
将所述各子句中包括的词语与所述目标服务业务的情感词库中的情感类词语进行匹配以确定出所述各子句中包含的积极情感词和/或消极情感词,并确定出所述各子句中包含的积极情感词和/或消极情感词所对应的情感权值;
其中,所述情感词库中的情感类词语至少包括两种类型的情感词,所述至少两种类型的情感词至少包括积极情感词和消极情感词,一种类型的情感词包含一个或多个词语,一种类型的情感词对应一个情感权值。
6.根据权利要求5所述的方法,其特征在于,所述目标服务业务的情感词库中还包括程度副词,所述确定出所述各子句中包含的积极情感词和/或消极情感词之后,所述方法还包括:
将所述各子句中包括的词语与所述目标服务业务的情感词库中的程度副词进行匹配;
若从所述各子句中确定出所述情感词库中包括的目标程度副词,且所述目标程度副词位于所述积极情感词和/或消极情感词之前,则确定出所述目标程度副词所对应的情感权值,以得到所述各子句中词语类型为程度副词的词语所对应的情感权值。
7.根据权利要求6所述的方法,其特征在于,所述确定出所述各子句的句型和各句型的情感权值包括:
以句子为单位检测所述各子句中是否包括感叹号;
若所述各子句中任意目标子句中包含感叹号,且所述目标子句包含所述目标服务业务的一个或多个情感类词语,则确定所述目标子句的句型为感叹句,并确定出所述目标子句为感叹句所对应的情感权值。
8.根据权利要求6所述的方法,其特征在于,所述目标服务业务的情感词库中还包括疑问词,所述确定出所述各子句的句型和各句型的情感权值包括:
以句子为单位检测所述各子句中是否包括问号,并基于所述目标服务业务的情感词库确定所述各子句中是否包含疑问词;
若所述各子句中任意目标子句中包含问号且所述目标子句包含一个或多个疑问词,则确定所述目标子句的句型为问句,并确定出所述目标子句为问句所对应的情感权值。
9.根据权利要求6所述的方法,其特征在于,所述目标服务业务的情感词库中还包括转折词,所述确定出所述各子句的句型和各句型的情感权值包括:
将所述各子句中包括的词语与所述目标服务业务的情感词库中的转折词进行匹配;
若所述各子句中任意目标子句包含所述目标服务业务的情感词库中的一个或多个目标转折词,则确定所述目标子句的句型为转折句,并确定出所述目标子句为转折句所对应的情感权值。
10.根据权利要求7-9任一项所述的方法,其特征在于,所述基于所述各子句中所述各词语类型的词语和情感权值,以及所述各子句的句型和各句型的情感权值得到所述服务评价文本的情感特征包括:
基于所述各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或所述目标程度副词及其对应情感权值计算所述各子句的情感得分;
基于所述各子句的句型和各句型的情感权值更新所述各子句的情感得分,并基于所述各子句的情感得分得到所述服务评价文本的情感特征。
11.根据权利要求10所述的方法,其特征在于,所述基于所述各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或所述目标程度副词及其对应情感权值计算所述各子句的情感得分包括:
基于所述各子句中包含的积极情感词及其对应的情感权值、和/或消极情感词及其对应的情感权值计算所述各子句的情感得分,所述情感得分包括积极情感得分和/或消极情感得分;
基于所述各子句中包含的所述目标程度副词的情感权值更新所述各子句的情感得分,其中,所述各子句中不包含所述目标程度副词时所述目标程度副词的情感权值为1。
12.根据权利要求11所述的方法,其特征在于,所述基于所述各子句的情感得分得到所述服务评价文本的情感特征包括:
基于所述各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值;
基于所述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建所述服务评价文本的情感特征。
13.根据权利要求3所述的方法,其特征在于,所述基于目标特征词提取算法对所述服务评价文本进行关键词提取,并基于提取的关键词生成所述服务评价文本的词向量特征,包括:
对所述服务评价文本进行分词以得到多个独立的词语,并基于目标特征词提取算法从所述多个独立的词语中提取一个或者多个关键词;
通过词向量转化模型对所述一个或者多个关键词进行向量化处理得到关键词向量序列,基于所述关键词向量序列得到所述服务评价文本的词向量特征。
14.根据权利要求13所述的方法,其特征在于,所述目标特征词提取算法为词频-逆文档频率算法;所述基于目标特征词提取算法从所述多个独立的词语中提取一个或者多个关键词包括:
使用词频-逆文档频率算法计算所述多个独立的词语各词语的词频-逆文档频率值;
将所述词语根据其对应的词频-逆文档频率值进行降序排序,并将排序结果中的前N个词语确定为关键词,其中N为不大于所述独立的词语的总数量的正整数;
或者,选取所述多个独立的词语中所述词频-逆文档频率值不小于预设值的一个或者多个词语作为关键词。
15.根据权利要求13所述的方法,其特征在于,所述目标特征词提取算法为卡方检验算法;所述基于目标特征词提取算法对从所述多个独立的词语中提取一个或者多个关键词包括:
通过卡方检验计算公式得到所述多个独立的词语中各词语的卡方值,将所述多个独立的词语根据各词语的卡方值进行降序排序;
选取排序结果中的前M个词语作为关键词语,其中M为不大于所述独立的词语的总数量的正整数。
16.根据权利要求13-15任一项所述的方法,其特征在于,所述基于所述关键词向量序列得到所述服务评价文本的词向量特征包括:
获取所述关键词向量序列中各向量之间的斯皮尔曼相关系数;
若所述关键词向量序列中的任意两个向量之间的所述斯皮尔曼相关系数超过目标阈值,则去除所述任意两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列;
基于所述去除向量后的关键词向量序列得到词向量特征。
17.根据权利要求1-16任一项所述的方法,其特征在于,所述基于所述文本分类模型输出的所述服务评价文本的初始审核类别,确定所述服务评价文本的目标审核类别或者将所述服务评价文本输出至所述审核平台,包括:
获取所述文本分类模型输出的所述服务评价文本的初始审核类别;
若所述初始审核类别为第一审核类别,则将所述服务评价文本输出至所述审核平台;
若所述初始审核类别为第二审核类别,则将所述初始审核类别确定为所述服务评价文本的目标审核类别;
其中,所述第一审核类别包括审核不通过、所述第二审核类别包括审核通过,或者所述第一审核类别为差评,所述第二审核类别为好评。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:
从所述目标服务业务的服务评价样本库获取至少两种审核类别的样本服务评价文本,所述至少两种类别包括第一审核类别和第二审核类别,其中任一审核类别的样本服务评价文本中包括所述样本服务评价文本的审核类别标签;
将所述样本服务评价文本输入所述文本分类模型,通过所述文本分类模型对所述样本服务评价文本进行学习以获取识别任一服务评价文本的审核类别的能力。
19.根据权利要求18所述的方法,其特征在于,确定所述服务评价文本的目标审核类别之后,所述方法还包括:
将所述目标审核类别添加为所述服务评价文本的类别标签,并将所述服务评价文本及其类别标签添加至所述服务评价样本库中以更新所述服务评价样本库。
20.一种服务评价的审核装置,其特征在于,包括:
获取模块,用于获取目标服务业务的服务评价文本;
健康检测模块,用于检测所述获取模块获取到的所述服务评价文本中是否包括目标健康关键词;
第一审核模块,用于在所述健康检测模块检测到所述服务评价文本中包括所述目标健康关键词时,将所述服务评价文本输出至审核平台,通过所述审核平台确定所述服务评价文本的目标审核类别;
特征生成模块,用于在所述健康检测模块检测到所述服务评价文本中不包括所述目标健康关键词时,获取所述获取模块获取到的所述服务评价文本对应的情感特征和词向量特征,将所述情感特征和所述词向量特征输入文本分类模型;
第二审核模块,用于基于所述文本分类模型输出的所述服务评价文本的初始审核类别,输出所述服务评价文本的目标审核类别或者将所述服务评价文本输出至所述审核平台,以通过所述审核平台输出所述服务评价文本的目标审核类别。
21.根据权利要求20所述的装置,其特征在于,所述健康检测模块用于:
将所述获取模块获取到的所述服务评价文本进行分词以得到多个独立的词语;
将所述多个独立的词语与健康词库中包括的健康关键词进行比对,以检测所述服务评价文本中是否包括所述健康词库中的目标健康关键词。
22.根据权利要求20或21所述的装置,其特征在于,所述特征生成模块用于:
基于所述目标服务业务的情感词库和所述获取模块获取到的所述服务评价文本得到所述服务评价文本的情感特征;
基于目标特征词提取算法对所述服务评价文本进行关键词提取,并基于提取的关键词生成所述服务评价文本的词向量特征。
23.根据权利要求22所述的装置,其特征在于,所述特征生成模块用于:
将所述获取模块获取到的所述服务评价文本划分为多个子句;
基于所述目标服务业务的情感词库确定出各子句中包括的词语类型、各词语类型的词语和情感权值,并确定出所述各子句的句型和各句型的情感权值;
基于所述各子句中所述各词语类型的词语和情感权值,以及所述各子句的句型和各句型的情感权值得到所述服务评价文本的情感特征。
24.根据权利要求23所述的装置,其特征在于,所述特征生成模块用于:
基于所述各子句中包含的积极情感词及其对应情感权值、消极情感词及其对应情感权值、和/或所述目标程度副词及其对应情感权值计算所述各子句的情感得分;
基于所述各子句的句型和各句型的情感权值更新所述各子句的情感得分,并基于所述各子句的情感得分得到所述服务评价文本的情感特征。
25.根据权利要求24所述的装置,其特征在于,所述特征生成模块用于:
基于所述各子句的情感得分得到所有子句的积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值;
基于所述积极情感值之和、消极情感值之和、积极情感值均值、消极情感值均值以及情感总值中的一种或多种构建所述服务评价文本的情感特征。
26.根据权利要求22所述的装置,其特征在于,所述特征生成模块用于:
对所述获取模块获取到的所述服务评价文本进行分词以得到多个独立的词语,并基于目标特征词提取算法从所述多个独立的词语中提取一个或者多个关键词;
通过词向量转化模型对所述一个或者多个关键词进行向量化处理得到关键词向量序列,基于所述关键词向量序列得到所述服务评价文本的词向量特征。
27.根据权利要求26所述的装置,其特征在于,所述特征生成模块用于:
获取所述关键词向量序列中各向量之间的斯皮尔曼相关系数;
若所述关键词向量序列中的任意两个向量之间的所述斯皮尔曼相关系数超过目标阈值,则去除所述任意两个向量中的一个向量并保留另一向量以得到去除向量后的关键词向量序列;
基于所述去除向量后的关键词向量序列得到词向量特征。
28.根据权利要求20-27任一项所述的装置,其特征在于,所述第二审核模块用于:
获取所述文本分类模型输出的所述获取模块获取到的所述服务评价文本的初始审核类别;
若所述初始审核类别为第一审核类别,则将所述服务评价文本输出至所述审核平台;
若所述初始审核类别为第二审核类别,则将所述初始审核类别确定为所述服务评价文本的目标审核类别;
其中,所述第一审核类别包括审核不通过、所述第二审核类别包括审核通过,或者所述第一审核类别为差评,所述第二审核类别为好评。
29.一种终端设备,其特征在于,所述终端设备包括:处理器、收发器和存储器;
所述处理器和所述收发器用于与所述存储器耦合,读取并运行所述存储器中的指令,以实现如权利要求1-19任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储程序指令,当所述程序指令运行时,使得如权利要求1-19任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111330965.3A CN116127367A (zh) | 2021-11-10 | 2021-11-10 | 服务评价的审核方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111330965.3A CN116127367A (zh) | 2021-11-10 | 2021-11-10 | 服务评价的审核方法、装置以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127367A true CN116127367A (zh) | 2023-05-16 |
Family
ID=86299539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111330965.3A Pending CN116127367A (zh) | 2021-11-10 | 2021-11-10 | 服务评价的审核方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127367A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493210A (zh) * | 2023-11-27 | 2024-02-02 | 中国传媒大学 | 微服务工具评价方法及*** |
-
2021
- 2021-11-10 CN CN202111330965.3A patent/CN116127367A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493210A (zh) * | 2023-11-27 | 2024-02-02 | 中国传媒大学 | 微服务工具评价方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
Riaz et al. | Opinion mining on large scale data using sentiment analysis and k-means clustering | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
US8862591B2 (en) | System and method for evaluating sentiment | |
Margaris et al. | What makes a review a reliable rating in recommender systems? | |
WO2013154502A1 (en) | Methods, apparatuses and computer-readable mediums for organizing data relating to a product | |
CN106062743A (zh) | 用于关键字建议的***和方法 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN111666757A (zh) | 商品评论情感倾向分析方法、装置、设备和可读存储介质 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
JP2022035314A (ja) | 情報処理装置及びプログラム | |
CN110362662A (zh) | 数据处理方法、装置以及计算机可读存储介质 | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
CN116821372A (zh) | 基于知识图谱的数据处理方法、装置、电子设备及介质 | |
US20190347296A1 (en) | Method of recommending at least one skin care product to a user | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN112182126A (zh) | 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质 | |
JP2016197332A (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN113763084A (zh) | 产品推荐的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |