CN111291162A - 质检例句挖掘方法、装置、设备及计算机可读存储介质 - Google Patents
质检例句挖掘方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111291162A CN111291162A CN202010123426.1A CN202010123426A CN111291162A CN 111291162 A CN111291162 A CN 111291162A CN 202010123426 A CN202010123426 A CN 202010123426A CN 111291162 A CN111291162 A CN 111291162A
- Authority
- CN
- China
- Prior art keywords
- quality
- sentence
- sentences
- quality inspection
- example sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 125
- 238000005065 mining Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003908 quality control method Methods 0.000 claims abstract description 114
- 238000012372 quality testing Methods 0.000 claims abstract description 51
- 238000007689 inspection Methods 0.000 claims description 247
- 238000012546 transfer Methods 0.000 claims description 63
- 239000011159 matrix material Substances 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 6
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种质检例句挖掘方法,包括:获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。本发明还公开了一种质检例句挖掘装置、设备及计算机可读存储介质。本发明通过质检项对应的质检例句挖掘新的质检例句,使得挖掘到的质检句子的数量远远小于质检录音文本中句子的数量,防止仅用关键词带来的句子过度召回问题,提示了人工标注的效率,提升了质检例句挖掘的准确性以及效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种质检例句挖掘方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。目前客服行业的质检考核过程通常是抽查审核客服录音,分为人工审核和机器审核两种。而对话务录音自动质检能够有效缓解人工抽样质检录音带来的质检效率低,覆盖面有限的问题,因此行业更多采用机器审核的方式。
机器审核所采用的质检模型很大程度上依赖于质检项的例句数量和质量,而质检项的例句来源于人工对通话录音文本的标注,在实际标注中,一些重要的质检项在录音文本中出现次数很少,对于这类重要但出现次数少的质检项,如果需要人工遍历整通录音去挖掘和标注质检例句,非常耗时耗力。因此,为克服上述困难,一般采用人工构造关键词词典的方式,只要录音文本中一个句子命中了关键词,就把该句子拿出来给人工标注。
但是,通过关键字的信息去召回录音文本中句子,往往会召回命中了关键词的所有句子,造成句子的过度召回,仍需要人工标注大量的句子,导致人工标注效率低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种质检例句挖掘方法、装置、设备及计算机可读存储介质,旨在解决现有通过关键字召回录音文本中的句子导致句子过度召回的技术问题。
为实现上述目的,本发明提供一种质检例句挖掘方法,所述质检例句挖掘方法包括以下步骤:
获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
进一步地,,所述基于各个质检例句,在多个质检录音文本中查找多个质检句子的步骤包括:
获取各个质检例句中的第一关键词的有向图转移向量,并基于所述有向图转移向量确定各个所述质检项对应的有向图转移矩阵;
基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子。
进一步地,所述基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子的步骤包括:
获取多个质检录音文本对应的文本片段中的第二关键词;
基于所述第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段;
若存在,则将所述目标文本片段作为所述质检句子。
进一步地,所述在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句的步骤包括
对所述质检句子进行过滤操作,以获得过滤后的质检句子;
在接收到过滤后的质检句子对应的标注信息时,基于所述标注信息,在过滤后的质检句子对中确定所述目标质检例句。
进一步地,所述对所述质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
基于所述质检例句对应的第一关键词,确定各个所述质检句子对应的权重分值;
基于所述权重分值序,对所述各个质检句子进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;
基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
进一步地,所述基于所述质检项对应的第一关键词,确定各个所述质检句子对应的权重分值的步骤包括:
获取所述第一关键词对应的权重,并基于所述第一关键词以及所述权重,确定各个所述质检句子对应的权重分值。
进一步地,所述基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
获取各个所述质检例句与所述目标质检句子之间的相似度;
基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
进一步地,所述基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
确定各个所述相似度中,是否存在大于预设相似度的目标相似度;
若存在,则在所述目标质检句子中,剔除所述目标相似度对应的质检句子,以获得过滤后的质检句子。
进一步地,所述基于所述标注信息确定目标质检例句的步骤之后,所述质检例句挖掘方法还包括:
基于所述目标质检例句更新所述质检例句,得到更新后的质检例句;
基于更新后的质检例句,确定质检模型是否收敛;
若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,直至所述质检模型收敛。
此外,为实现上述目的,本发明还提供一种质检例句挖掘装置,所述质检例句挖掘装置包括:
获取模块,用于获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
确定模块,用于在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
此外,为实现上述目的,本发明还提供一种质检例句挖掘设备,所述质检例句挖掘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的质检例句挖掘程序,所述质检例句挖掘程序被所述处理器执行时实现前述的质检例句挖掘方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有质检例句挖掘程序,所述质检例句挖掘程序被处理器执行时实现前述的质检例句挖掘方法的步骤。
本发明通过获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;而后在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句,通过质检项对应的质检例句挖掘新的质检例句,使得挖掘到的质检句子的数量远远小于质检录音文本中句子的数量,防止仅用关键词带来的句子过度召回问题,提示了人工标注的效率,大大降低了质检句子的数量,提升了质检例句挖掘的准确性以及效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中质检例句挖掘设备的结构示意图;
图2为本发明质检例句挖掘方法第一实施例的流程示意图;
图3为本发明质检例句挖掘装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中质检例句挖掘设备的结构示意图。
本发明实施例质检例句挖掘设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该质检例句挖掘设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,质检例句挖掘设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器;当然,质检例句挖掘设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的质检例句挖掘设备结构并不构成对质检例句挖掘设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及质检例句挖掘程序。
在图1所示的质检例句挖掘设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的质检例句挖掘程序。
在本实施例中,质检例句挖掘设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的质检例句挖掘程序,其中,处理器1001调用存储器1005中存储的质检例句挖掘程序时,并执行下述质检例句挖掘方法中的操作。
本发明还提供一种质检例句挖掘方法,参照图2,图2为本发明质检例句挖掘方法第一实施例的流程示意图。
本实施例中,该质检例句挖掘方法包括:
步骤S100,获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
本实施例中,预先设置多个质检项,并为每一个质检项设置多个质检例句,例如,在物业服务场景中,需要物业人员具有较好的服务态度,要求客服在电话服务过程中不允许出现客服不顾客户(业主)感受的服务表达,可定义了一个客服服务态度的质检项,例如:“你今天必须挪车”,或者“你车今天必须挪走”等表达,因此,可将类似的表达句子设置为该质检项的质检例句。
具体地,步骤S100包括:
步骤a,获取各个质检例句中的第一关键词的有向图转移向量,并基于所述有向图转移向量确定各个所述质检项对应的有向图转移矩阵;
步骤b,基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子。
本实施例中,在获取到各个质检项对应的各个质检例句后,基于各个质检例句确定各个质检项对应的有向图转移矩阵,即根据每一个质检项对应的质检例句,确定该质检项对应的有向图转移矩阵,例如,对于你今天必须挪车”,或者“你车今天必须挪走”,可以从该质检例句得到“你”后面可以转移到“今天”或者“车”,进而根据质检例句中的各个关键词的表达顺序,得到质检例句对应的有向图转移向量,即向图转移向量为{你,今天}或者{你,车},进而得到该质检项对应的有向图转移矩阵即词图,以使每一个质检项对应一有向图转移矩阵,例如,有向图转移矩阵包括向图转移向量为{你,今天}以及{你,车}。
本实施例中,在获取到有向图转移矩阵时,基于有向图转移矩阵,在多个质检录音文本中查找质检项对应的多个质检句子,即在多个质检录音文本对应的文本片段(文本句子)中,查找与有向图转移矩阵匹配的多个质检句子,具体的,查找文本片段对应的有向图转移向量中与有向图转移矩阵匹配的目标文本片段,即若文本片段对应的有向图转移向量与有向图转移矩阵的任一有向图转移向量相同,则该文本片段为目标文本片段;通过质检项对应的有向图转移矩阵挖掘质检例句,使得挖掘到的质检句子的数量远远小于质检录音文本中句子的数量,由于有向转移矩阵考虑了质检项中关键词对应的上下文,防止仅用关键词带来的句子过度召回问题,提示了人工标注的效率,大大降低了质检句子的数量,提升了质检例句挖掘的准确性以及效率。
步骤S200,在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
需要说明的是,在得到质检句子后,可显示该质检句子,以使标注人员对质检句子进行标注,以选择适合作为质检例句的正向例句,或者,将质检句子发送至标注人员对应的预设终端,以使该预设终端显示质检句子,供标注人员对质检句子进行标注,并反馈包括标注后的质检句子的标注信息。
其中,标注信息可仅包括正向例句的标注信息,也可同时包括反向例句的标注信息,以便于对后续得到的质检句子进行相应的处理,例如,存储反向例句,在每次得到质检句子时,计算质检句子与各个反向例句之间的反向相似度,若该反向相似度中存在大于预设值的目标反向相似度,则在质检句子中剔除该目标反向相似度对应的句子,得到新的质检句子,并显示新的质检句子,以使标注人员对新的质检句子进行标注。
本实施例中,在接收到质检句子对应的标注信息时,基于所述标注信息在各个所述质检句子中确定目标质检例句,即选择质检句子中标注信息为正向的句子作为目标质检例句。
具体地,步骤S200包括:
步骤c,对所述质检句子进行过滤操作,以获得过滤后的质检句子;
步骤d,在接收到过滤后的质检句子对应的标注信息时,基于所述标注信息,在过滤后的质检句子对中确定所述目标质检例句。
本实施例中,在获取到质检句子后,对质检句子进行过滤操作,以过滤掉质检句子中相似的句子,以及质检句子中与质检例句相似的句子,得到过滤后的质检句子。
需要说明的是,在得到过滤后的质检句子后,可显示该过滤后的质检句子,以使标注人员对过滤后的质检句子进行标注,选择适合作为质检例句的正向例句,或者,将过滤后的质检句子发送至标注人员对应的预设终端,以使该预设终端显示过滤后的质检句子,供标注人员对过滤后的质检句子进行标注,并反馈包括标注后的质检句子的标注信息。
本实施例中,在接收到过滤后的质检句子对应的标注信息时,基于标注信息在各个过滤后的质检句子中确定目标质检例句,即选择过滤后的质检句子中标注信息为正向的句子作为目标质检例句。
由于质检句子是基于质检项的有向图转移矩阵挖掘出来的,质检录音文本中明显不符合当前质检项的句子会被有效过滤掉,挖掘到的质检句子的数量远远小于质检录音文本中句子的数量,有效减少了人工标注的数量。并且,由于有向转移矩阵考虑了上下文,例如“你”后面可以接“今天”或者“车”,大大降低了质检句子的数量,能够防止仅用关键词“车”带来的过度召回问题,提示了人工标注的效率,进而大大提升了质检例句挖掘的准确性以及效率。
本实施例提出的质检例句挖掘方法,通过获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;接着在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句,通过质检项对应的质检例句挖掘新的质检例句,使得挖掘到的质检句子的数量远远小于质检录音文本中句子的数量,防止仅用关键词带来的句子过度召回问题,提示了人工标注的效率,大大降低了质检句子的数量,提升了质检例句挖掘的准确性以及效率。
基于第一实施例,提出本发明质检例句挖掘方法的第二实施例,在本实施例中,步骤b包括:
步骤S110,获取多个质检录音文本对应的文本片段中的第二关键词;
步骤S120,基于所述第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段;
步骤S130,若存在,则将所述目标文本片段作为所述质检句子。
本实施例中,在获取到有向图转移矩阵时,确定多个质检录音文本对应的文本片段(文本句子),得到各个质检录音文本所对应的文本片段,获取多个质检录音文本对应的文本片段中的第二关键词,并基于第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段,先确定第二关键词确定各个文本片段对应的有向图转移向量,具体的,根据第二关键词的顺序确定各个文本片段对应的有向图转移向量即关键词转移向量,在关键词转移向量中,查找与有向图转移矩阵匹配的目标文本片段,例如,若关键词转移向量与有向图转移矩阵的任一有向图转移向量相同,则该关键词转移向量对应的文本片段为目标文本片段。或者,还可分别计算关键词转移向量,与有向图转移矩阵中的各个有向图转移向量之间的句子相似度,确定各个句子相似度中大于预设阈值的目标句子相似度,并获取该目标句子相似度所对应的关键词转移向量,以得到目标关键词转移向量,并将该目标关键词转移向量对应的文本片段为目标文本片段。
本实施例提出的质检例句挖掘方法,通过获取多个质检录音文本对应的文本片段中的第二关键词;接着基于所述第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段,而后若存在,则将所述目标文本片段作为所述质检句子,能够通过有向图转移矩阵准确地到质检录音文本中质检项对应的质检句子,通过质检句子与质检项之间的关联性,大大降低了质检句子的数量,提升了质检例句挖掘的准确性以及效率。
基于第一实施例,提出本发明质检例句挖掘方法的第三实施例,在本实施例中,步骤c包括:
步骤S310,基于所述质检例句对应的第一关键词,确定各个所述质检句子对应的权重分值;
步骤S320,基于所述权重分值,对所述各个质检句子进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;
步骤S330,基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
本实施例中,在获取到质检项对应的多个质检句子时,获取质检例句中的第一关键词,以及第一关键词对应的权重,根据第一关键词对应的权重计算各个质检句子对应的权重分值,其中,可预先为各个关键词设置不同的权重,例如上例中的“挪车”和“车”的权重大于“你”的权重,将各个质检句子中的关键词计算其对应的权重分值,具体的,可将质检句子中各个关键词的权重相加得到对应的权重分值。
而后,基于所述权重分值,对各个质检句子进行排序,得到质检句子的排序表即排序结果,将排序结果中前预设个数的质检句子作为目标质检句子,即获取排序表中前预设个数的质检句子作为目标质检句子。例如,按照权重分值由大到小的顺序进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;当然,也可以按照权重分值由小到大的顺序进行排序,将排序结果中最后预设个数的质检句子作为目标质检句子。
需要说明的是,预设个数可进行合理设置,例如预设个数为5。
本实施例中,在获取到目标质检句子后,对目标质检句子进行过滤操作,以过滤掉目标质检句子中相似的句子,以及目标质检句子中与质检例句相似的句子,得到过滤后的质检句子。
进一步地,在一实施例中,步骤S310包括:
获取所述第一关键词对应的权重,并基于所述第一关键词以及所述权重,确定各个所述质检句子对应的权重分值。
本实施例中,先确定质检例句中的第一关键词,再获取各个第一关键词对应的权重,根据第一关键词以及第一关键词对应的权重计算各个质检句子对应的权重分值,例如,将各个质检句子中出现的质检例句中的关键词对应的权重相加,得到各个质检例句子的权重分值。
本实施例提出的质检例句挖掘方法,通过基于所述质检例句对应的第一关键词,确定各个所述质检句子对应的权重分值;接着基于所述权重分值,对所述各个质检句子进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;而后基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子,通过根据质检例句的关键词的权重,筛选与质检例句关联性高的质检句子,大大降低了质检句子的数量,进一步提升了质检例句挖掘的准确性以及效率。
基于第三实施例,提出本发明质检例句挖掘方法的第四实施例,在本实施例中,步骤S330包括:
步骤S331,获取各个所述质检例句与所述目标质检句子之间的相似度;
步骤S332,基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
本实施例中,在确定目标质检句子后,先确定各个质检例句中所有的词对应的句子向量,以及目标质检句子中所有的词对应的目标句子向量,而后基于句子向量以及目标句子向量确定质检例句与目标质检句子之间的相似度,即通过余弦公式计算各个句子向量与各个目标句子向量之间的相似度,而后根据相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
进一步地,在一实施例中,步骤S332包括:
步骤a,确定各个所述相似度中,是否存在大于预设相似度的目标相似度;
步骤b,若存在,则在所述目标质检句子中,剔除所述目标相似度对应的质检句子,以获得过滤后的质检句子。
本实施例中,在得到各个目标质检句子与各个质检例句之间的相似度时,确定各个相似度中是否存在大于预设相似度的目标相似度,若存在大于预设相似度的目标相似度,则在所述目标质检句子中,剔除所述目标相似度对应的质检句子,以获得过滤后的质检句子,以删除目标质检句子中与质检例句特别相似的句子。
其中,该预设相似度大于预设阈值。
需要说明的是,在得到质检句子之后,还可以确定各个质检句子之间的相似度,并判断各个质检句子之间的相似度是否存在大于预设值的相似句子相似度,若存在相似句子相似度,则在质检句子中删除相似句子相似度对应的两个句子中的任意一个,若相似句子相似度中存在同一个句子与其他句子之间的多个相似度,则在质检句子中删除其他句子。
本实施例提出的质检例句挖掘方法,通过获取各个所述质检例句与所述目标质检句子之间的相似度,基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子,通过相似度对目标质检句子进行再一次筛选过滤,以删除目标质检句子中与质检例句非常相似的句子,进一步降低了质检句子的数量,进一步提升了质检例句挖掘的准确性以及效率。
基于上述实施例,提出本发明质检例句挖掘方法的第五实施例,在本实施例中,步骤S200之后,该质检例句挖掘方法还包括:
步骤S300,基于所述目标质检例句更新所述质检例句,得到更新后的质检例句;
步骤S400,基于更新后的质检例句,确定质检模型是否收敛;
步骤S500,若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,直至所述质检模型收敛。
本实施例中,在得到目标质检例句后,目标质检例句更新所述质检例句,得到更新后的质检例句,即将目标质检例句加入质检例句中形成更新后的质检例句,并基于更新后的质检例句,对质检模型进行训练,确定质检模型是否收敛,具体地,获取采用更新前的质检例句对质检模型进行训练时的第一损失函数值,并获取基于更新后的质检例句对质检模型进行训练时的第二损失函数值,计算第二损失函数值与第一损失函数值之间的差值,若该差值小于预设差值,则判定质检模型收敛,否则判定质检模型不收敛。
而后,若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,以再次执行步骤S100至步骤S400,直至质检模型收敛。
需要说明的是,若质检模型收敛,则更新后的质检例句即为质检模型的质检例句。
本实施例提出的质检例句挖掘方法,通过基于所述目标质检例句更新所述质检例句,得到更新后的质检例句;接着基于更新后的质检例句,确定质检模型是否收敛;而后若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,直至所述质检模型收敛,通过采用新的质检例句训练质检模型,从而使得质检模型的能够快速收敛,提高质检模型的训练效率。
本发明实施例还提供一种质检例句挖掘装置,参照图3,所述质检例句挖掘装置包括:
获取模块100,用于获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
确定模块200,用于在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
进一步地,获取模块100还用于:
获取各个质检例句中的第一关键词的有向图转移向量,并基于所述有向图转移向量确定各个所述质检项对应的有向图转移矩阵;
基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子。
进一步地,获取模块100还用于:
获取多个质检录音文本对应的文本片段中的第二关键词;
基于所述第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段;
若存在,则将所述目标文本片段作为所述质检句子。
进一步地,确定模块200还用于:
对所述质检句子进行过滤操作,以获得过滤后的质检句子;
在接收到过滤后的质检句子对应的标注信息时,基于所述标注信息,在过滤后的质检句子对中确定所述目标质检例句。
进一步地,确定模块200还用于:
基于所述质检例句对应的第一关键词,确定各个所述质检句子对应的权重分值;
基于所述权重分值,对所述各个质检句子进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;
基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
进一步地,确定模块200还用于:
获取所述第一关键词对应的权重,并基于所述第一关键词以及所述权重,确定各个所述质检句子对应的权重分值。
进一步地,确定模块200还用于:
获取各个所述质检例句与所述目标质检句子之间的相似度;
基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
进一步地,确定模块200还用于:
确定各个所述相似度中,是否存在大于预设相似度的目标相似度;
若存在,则在所述目标质检句子中,剔除所述目标相似度对应的质检句子,以获得过滤后的质检句子。
进一步地,质检例句挖掘装置还包括:
更新模块,用于基于所述目标质检例句更新所述质检例句,得到更新后的质检例句;
收敛判定模块,用于基于更新后的质检例句,确定质检模型是否收敛;
循环模块,用于若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,直至所述质检模型收敛。
上述各程序模块所执行的方法可参照本发明质检例句挖掘方法各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质。
所述计算机可读存储介质上存储有质检例句挖掘程序,所述质检例句挖掘程序被处理器执行时实现如上所述的质检例句挖掘方法的步骤。
其中,在所述处理器上运行的质检例句挖掘程序被执行时所实现的方法可参照本发明质检例句挖掘方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种质检例句挖掘方法,其特征在于,所述质检例句挖掘方法包括以下步骤:
获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
2.如权利要求1所述的质检例句挖掘方法,其特征在于,所述基于各个质检例句,在多个质检录音文本中查找多个质检句子的步骤包括:
获取各个质检例句中的第一关键词的有向图转移向量,并基于所述有向图转移向量确定各个所述质检项对应的有向图转移矩阵;
基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子。
3.如权利要求2所述的质检例句挖掘方法,其特征在于,所述基于所述有向图转移矩阵,在多个质检录音文本中查找各个所述质检句子的步骤包括:
获取多个质检录音文本对应的文本片段中的第二关键词;
基于所述第二关键词,确定各个所述文本片段中是否存在与所述有向图转移矩阵匹配的目标文本片段;
若存在,则将所述目标文本片段作为所述质检句子。
4.如权利要求1所述的质检例句挖掘方法,其特征在于,所述在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句的步骤包括:
对所述质检句子进行过滤操作,以获得过滤后的质检句子;
在接收到过滤后的质检句子对应的标注信息时,基于所述标注信息,在过滤后的质检句子对中确定所述目标质检例句。
5.如权利要求4所述的质检例句挖掘方法,其特征在于,所述对所述质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
基于所述质检例句对应的第一关键词,确定各个所述质检句子对应的权重分值;
基于所述权重分值,对所述各个质检句子进行排序,将排序结果中前预设个数的质检句子作为目标质检句子;
基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
6.如权利要求5所述的质检例句挖掘方法,其特征在于,所述基于所述质检项对应的第一关键词,确定各个所述质检句子对应的权重分值的步骤包括:
获取所述第一关键词对应的权重,并基于所述第一关键词以及所述权重,确定各个所述质检句子对应的权重分值。
7.如权利要求5所述的质检例句挖掘方法,其特征在于,所述基于质检例句对所述目标质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
获取各个所述质检例句与所述目标质检句子之间的相似度;
基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子。
8.如权利要求7所述的质检例句挖掘方法,其特征在于,所述基于所述相似度对所述目标质检句子进行过滤操作,以获得过滤后的质检句子的步骤包括:
确定各个所述相似度中,是否存在大于预设相似度的目标相似度;
若存在,则在所述目标质检句子中,剔除所述目标相似度对应的质检句子,以获得过滤后的质检句子。
9.如权利要求1至8任一项所述的质检例句挖掘方法,其特征在于,所述基于所述标注信息确定目标质检例句的步骤之后,所述质检例句挖掘方法还包括:
基于所述目标质检例句更新所述质检例句,得到更新后的质检例句;
基于更新后的质检例句,确定质检模型是否收敛;
若所述质检模型未收敛,则将更新后的质检例句作为所述质检例句,并返回执行确定各个所述质检例句对应的有向图转移矩阵的步骤,直至所述质检模型收敛。
10.一种质检例句挖掘装置,其特征在于,所述质检例句挖掘装置包括:
获取模块,用于获取各个质检项对应的各个质检例句,并基于各个质检例句,在多个质检录音文本中查找多个质检句子;
确定模块,用于在接收到各个所述质检句子对应的标注信息时,基于所述标注信息,在各个所述质检句子中确定目标质检例句。
11.一种质检例句挖掘设备,其特征在于,所述质检例句挖掘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的质检例句挖掘程序,所述质检例句挖掘程序被所述处理器执行时实现如权利要求1至9中任一项所述的质检例句挖掘方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有质检例句挖掘程序,所述质检例句挖掘程序被处理器执行时实现如权利要求1至9中任一项所述的质检例句挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123426.1A CN111291162B (zh) | 2020-02-26 | 2020-02-26 | 质检例句挖掘方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123426.1A CN111291162B (zh) | 2020-02-26 | 2020-02-26 | 质检例句挖掘方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291162A true CN111291162A (zh) | 2020-06-16 |
CN111291162B CN111291162B (zh) | 2024-04-09 |
Family
ID=71021924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123426.1A Active CN111291162B (zh) | 2020-02-26 | 2020-02-26 | 质检例句挖掘方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291162B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107597A (ja) * | 2003-09-26 | 2005-04-21 | Nec Corp | 類似文検索装置、類似文検索方法、およびプログラム |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN109460455A (zh) * | 2018-10-25 | 2019-03-12 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109658923A (zh) * | 2018-10-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于人工智能的语音质检方法、设备、存储介质及装置 |
CN109815487A (zh) * | 2018-12-25 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN110334241A (zh) * | 2019-07-10 | 2019-10-15 | 深圳前海微众银行股份有限公司 | 客服录音的质检方法、装置、设备及计算机可读存储介质 |
CN110442876A (zh) * | 2019-08-09 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 文本挖掘方法、装置、终端及存储介质 |
CN110597964A (zh) * | 2019-09-27 | 2019-12-20 | 神州数码融信软件有限公司 | 一种双录质检语义分析方法、装置及双录质检*** |
WO2020034526A1 (zh) * | 2018-08-17 | 2020-02-20 | 深圳壹账通智能科技有限公司 | 保险录音的质检方法、装置、设备和计算机存储介质 |
-
2020
- 2020-02-26 CN CN202010123426.1A patent/CN111291162B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107597A (ja) * | 2003-09-26 | 2005-04-21 | Nec Corp | 類似文検索装置、類似文検索方法、およびプログラム |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
WO2020034526A1 (zh) * | 2018-08-17 | 2020-02-20 | 深圳壹账通智能科技有限公司 | 保险录音的质检方法、装置、设备和计算机存储介质 |
CN109658923A (zh) * | 2018-10-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于人工智能的语音质检方法、设备、存储介质及装置 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN109460455A (zh) * | 2018-10-25 | 2019-03-12 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
CN109815487A (zh) * | 2018-12-25 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN110334241A (zh) * | 2019-07-10 | 2019-10-15 | 深圳前海微众银行股份有限公司 | 客服录音的质检方法、装置、设备及计算机可读存储介质 |
CN110442876A (zh) * | 2019-08-09 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 文本挖掘方法、装置、终端及存储介质 |
CN110597964A (zh) * | 2019-09-27 | 2019-12-20 | 神州数码融信软件有限公司 | 一种双录质检语义分析方法、装置及双录质检*** |
Non-Patent Citations (2)
Title |
---|
DAE HOON PARK 等: "Identifying comparative claim sentences in full-text scientific articles", ACL \'12: PROCEEDINGS OF THE WORKSHOP ON DETECTING STRUCTURE IN SCHOLARLY DISCOURSE, pages 1 - 9 * |
关浩华;: "基于语音分析的智能质检关键词提取方法设计", 自动化与仪器仪表, no. 07, pages 106 - 108 * |
Also Published As
Publication number | Publication date |
---|---|
CN111291162B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5492814B2 (ja) | 検索装置、検索システム、方法およびプログラム | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN111291765A (zh) | 用于确定相似图片的方法和装置 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN109388696B (zh) | 删除谣言文章的方法、装置、存储介质及电子设备 | |
CN105302849A (zh) | 注释显示辅助设备及辅助注释显示的方法 | |
CN112328872A (zh) | 一种信息展示方法、信息搜索方法及装置 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN107545036B (zh) | 客服机器人知识库建设方法、客服机器人及可读存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110909528A (zh) | 剧本解析方法、剧本展示方法、装置和电子设备 | |
WO2017036341A1 (en) | Random index pattern matching based email relations finder system | |
CN112487159B (zh) | 检索方法、检索装置及计算机可读存储介质 | |
CN103389981A (zh) | 网络标签自动识别方法及其*** | |
CN111783786A (zh) | 图片的识别方法、***、电子设备及存储介质 | |
CN111291162B (zh) | 质检例句挖掘方法、装置、设备及计算机可读存储介质 | |
CN110362694A (zh) | 基于人工智能的文献数据检索方法、设备及可读存储介质 | |
CN114265777B (zh) | 应用程序的测试方法、装置、电子设备及存储介质 | |
CN115858742A (zh) | 问题文本扩充方法、装置、设备及存储介质 | |
CN114780712A (zh) | 一种基于质量评价的新闻专题生成方法及装置 | |
CN114492306A (zh) | 语料标注方法、装置、电子设备及存储介质 | |
CN112925910A (zh) | 一种辅助语料标注方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |