CN111291186B - 一种基于聚类算法的上下文挖掘方法、装置和电子设备 - Google Patents
一种基于聚类算法的上下文挖掘方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111291186B CN111291186B CN202010072544.4A CN202010072544A CN111291186B CN 111291186 B CN111291186 B CN 111291186B CN 202010072544 A CN202010072544 A CN 202010072544A CN 111291186 B CN111291186 B CN 111291186B
- Authority
- CN
- China
- Prior art keywords
- sentences
- sentence
- context
- keywords
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 34
- 238000010276 construction Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备,该方法和装置具体为响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种基于聚类算法的上下文挖掘方法、装置和电子设备。
背景技术
在进行对话文本分析时,如果想了解通话文本的主要内容时只能对文本内容一一查看,而一般应用场景的通话文本数量都极为巨大,从而导致目前对话文本分析的效率较低。
发明内容
有鉴于此,本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备,以提高对通话文本分析的效率。
为了解决上述问题,本发明公开了一种基于聚类算法的上下文挖掘方法,应用于电子设备,所述山下文挖掘方法包括步骤:
响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建。
可选的,所述对多个所述关键语句进行无监督聚类处理,包括:
用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
可选的,所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建,包括:
以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
将于所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
可选的,在所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建步骤之前,还包括:
将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。
另外,还提供了一种基于聚类算法的上下文挖掘装置,应用于电子设备,所述山下文挖掘装置包括:
文本筛选模块,被配置为响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
聚类处理模块,被配置为对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
构建处理模块,被配置为针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建。
可选的,所述聚类处理模块被配置为用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
可选的,所述构建处理模块包括:
语句聚类单元,被配置为以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
构建执行单元,被配置为将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
可选的,在所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建步骤之前,还包括:
聚类删除模块,被配置为在构建处理模块针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建之前,将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。
还提供了一种电子设备,设置有如上所述的上下文挖掘装置。
还提供了一种电子设备,设置有至少一个处理器和与所述处理器信号连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于获取并执行所述计算机程序或指令,以使所述电子设备实现如上所述的山下文挖掘方法。
从上述技术方案可以看出,本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备,该方法和装置具体为响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种基于聚类算法的上下文挖掘方法的流程图;
图2为本申请实施例的另一种基于聚类算法的上下文挖掘方法的流程图;
图3为本申请实施例的一种基于聚类算法的上下文挖掘装置的框图;
图4为本申请实施例的另一种基于聚类算法的上下文挖掘装置的框图;
图5为本申请实施例的一种电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本申请实施例的一种基于聚类算法的上下文挖掘方法的流程图。
参照图1所示,本实施例提供的上下文挖掘方法应用于计算机客户端、服务器等电子设备,具体通过如下方法实现对上下文的挖掘:
S1、从通话文本中筛选出关键语句和关联语句
作为应用于电子设备的方法,当接收到用户输入的挖掘请求时,根据该挖掘请求所指定的关键词从需要挖掘的通话文本中进行筛选,从中找出包含关键词的语句,即关键语句;在得到关键语句的同时,从通话文本中截取该关键语句以上及以下的多个语句。
例如,给定关键词“注销”,我们在通话文本中筛选出包含“注销”关键词的关键语句,并将命中关键词这一关键句话的上下五句话都进行截取,从而得到十个与关键语句关联的关联语句。
S2、对关键语句进行无监督聚类处理,得到多个语句聚类。
具体来说,用重复二分算法对前面得到的多个关键语句进行无监督聚类处理,从而得到多个语句聚类。例如,在对所有包含“注销”的关键语句进行聚类处理时,由于是无监督聚类,因此可以得到多个没有固定数量限制的语句聚类,例如,包括“***额度低注销”和“银行卡不用了注销”这两个语句聚类就是所有聚类中的两个。
这里的二分聚类算法是一种无监督机器学习算法,底层采用Kmeans算法实现。主要用于实现对大量无标签文本进行归类,该算法可以快速的将类别相似的文本聚集到一起。
S3、针对每个语句聚类进行上下文构建。
即在得到多个语句聚类后,针对每个语句聚类,根据相应语句聚类的关键词及其关联语句进行上下文构建,从而使用户可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等。
对于每个语句聚类来说,由于其包含有众多与相应关键词对应关联语句,因此,该上下文构建通过如下步骤实现。
首先,以关键词所在位置为序,对相应语句聚类内所有关联语句进行聚类处理,这里的聚类可以参照上述对关键语句的无监督聚类,从而得到多个关联语句聚类。
然后,将多个关联语句聚类中与该关键词紧密相关的关联语句聚类内的关联语句进与该关键语句结合在一起,从而为该关键语句构建多个关联语句,实现上下文构建。
从上述技术方案可以看出,本实施例提供了一种基于聚类算法的上下文挖掘方法,该方法应用于电子设备,具体为响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
另外,对于本实施例中在步骤S3之前,即在针对每个语句聚类件上下文构建之前,还包括如下处理步骤,如图2所示:
S21、将多个语句聚类中规模较小的语句聚类语义剔除。
即在对关键语句进行无监督聚类处理后,会得到多个语句聚类,其中有的较小,有的较大,对于较小的聚类来说,这个聚类没有普遍的意义,因此将其予以删除;或者说本步骤的实质在于选取较大的语句聚类予以保留,这样在后续处理时仅对较大的语句聚类进行上下文构建,这样可以节省计算资源。
这里所谓较大,是指规模大于预设规模阈值的语句聚类,这里的规模阈值可以在实际中根据聚类效果进行选取。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图3为本申请实施例的一种基于聚类算法的上下文挖掘装置的框图。
参照图3所示,本实施例提供的上下文挖掘装置应用于计算机客户端、服务器等电子设备,具体包括文本筛选模块10、聚类处理模块20和构建处理模块30。
文本筛选模块用于从通话文本中筛选出关键语句和关联语句
作为应用于电子设备的方法,当接收到用户输入的挖掘请求时,根据该挖掘请求所指定的关键词从需要挖掘的通话文本中进行筛选,从中找出包含关键词的语句,即关键语句;在得到关键语句的同时,从通话文本中截取该关键语句以上及以下的多个语句。
例如,给定关键词“注销”,我们在通话文本中筛选出包含“注销”关键词的关键语句,并将命中关键词这一关键句话的上下五句话都进行截取,从而得到十个与关键语句关联的关联语句。
聚类处理模块用于对关键语句进行无监督聚类处理,得到多个语句聚类。
具体来说,用重复二分算法对前面得到的多个关键语句进行无监督聚类处理,从而得到多个语句聚类。例如,在对所有包含“注销”的关键语句进行聚类处理时,由于是无监督聚类,因此可以得到多个没有固定数量限制的语句聚类,例如,包括“***额度低注销”和“银行卡不用了注销”这两个语句聚类就是所有聚类中的两个。
这里的二分聚类算法是一种无监督机器学习算法,底层采用Kmeans算法实现。主要用于实现对大量无标签文本进行归类,该算法可以快速的将类别相似的文本聚集到一起。
构建处理模块用于针对每个语句聚类进行上下文构建。
即在得到多个语句聚类后,针对每个语句聚类,根据相应语句聚类的关键词及其关联语句进行上下文构建,从而使用户可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等。
对于每个语句聚类来说,该模块包括语句聚类单元和构建执行单元。
语句聚类单元用于以关键词所在位置为序,对相应语句聚类内所有关联语句进行聚类处理,这里的聚类可以参照上述对关键语句的无监督聚类,从而得到多个关联语句聚类。
构建执行单元用于将多个关联语句聚类中与该关键词紧密相关的关联语句聚类内的关联语句进与该关键语句结合在一起,从而为该关键语句构建多个关联语句,实现上下文构建。
从上述技术方案可以看出,本实施例提供了一种基于聚类算法的上下文挖掘装置,该装置应用于电子设备,具体为响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
另外,对于本实施例中还包括距离删除模块40,如图4所示:
聚类删除模块用于在构建处理模块进行山下文构建之前,将多个语句聚类中规模较小的语句聚类语义剔除。
即在对关键语句进行无监督聚类处理后,会得到多个语句聚类,其中有的较小,有的较大,对于较小的聚类来说,这个聚类没有普遍的意义,因此将其予以删除;或者说本步骤的实质在于选取较大的语句聚类予以保留,这样在后续处理时仅对较大的语句聚类进行上下文构建,这样可以节省计算资源。
这里所谓较大,是指规模大于预设规模阈值的语句聚类,这里的规模阈值可以在实际中根据聚类效果进行选取。
实施例三
本实施例提供了一种电子设备,如计算机终端设备或者服务器,其设置有上一实施例所提供的基于聚类算法的山下文挖掘装置。该装置用于响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
实施例四
图5为本申请实施例的一种电子设备的框图。
参照图5所示,本实施例提供的电子设备包括至少一个处理器101和存储器102,两者通过数据总线103相连接。其中该存储器用于存储计算机程序或指令,处理器则用于获取并执行该计算机程序或指令,以使该电子设备实现实施例所提供的基于聚类算法的上下文挖掘方法。
该上下文挖掘方法用于响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于聚类算法的上下文挖掘方法,应用于电子设备,其特征在于,所述上下文挖掘方法包括步骤:
响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建;
所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建,包括:
以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
2.如权利要求1所述的上下文挖掘方法,其特征在于,所述对多个所述关键语句进行无监督聚类处理,包括:
用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
3.如权利要求1~2任一项所述的上下文挖掘方法,其特征在于,在所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建步骤之前,还包括:
将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。
4.一种基于聚类算法的上下文挖掘装置,应用于电子设备,其特征在于,所述上下文挖掘装置包括:
文本筛选模块,被配置为响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
聚类处理模块,被配置为对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
构建处理模块,被配置为针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建;
所述构建处理模块包括:
语句聚类单元,被配置为以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
构建执行单元,被配置为将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
5.如权利要求4所述的上下文挖掘装置,其特征在于,所述聚类处理模块被配置为用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
6.如权利要求4~5任一项所述的上下文挖掘装置,其特征在于,在所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建步骤之前,还包括:
聚类删除模块,被配置为在构建处理模块针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建之前,将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。
7.一种电子设备,其特征在于,设置有如权利要求4~6任一项所述的上下文挖掘装置。
8.一种电子设备,其特征在于,设置有至少一个处理器和与所述处理器信号连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于获取并执行所述计算机程序或指令,以使所述电子设备实现如权利要求1~3任一项所述的上下文挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010072544.4A CN111291186B (zh) | 2020-01-21 | 2020-01-21 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010072544.4A CN111291186B (zh) | 2020-01-21 | 2020-01-21 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291186A CN111291186A (zh) | 2020-06-16 |
CN111291186B true CN111291186B (zh) | 2024-01-09 |
Family
ID=71026499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010072544.4A Active CN111291186B (zh) | 2020-01-21 | 2020-01-21 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291186B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111988479B (zh) * | 2020-08-20 | 2021-04-20 | 浙江企蜂信息技术有限公司 | 通话信息处理方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与*** |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
CN106897290A (zh) * | 2015-12-17 | 2017-06-27 | ***通信集团上海有限公司 | 一种建立关键词模型的方法及装置 |
CN107590172A (zh) * | 2017-07-17 | 2018-01-16 | 北京捷通华声科技股份有限公司 | 一种大规模语音数据的核心内容挖掘方法及设备 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
CN109783623A (zh) * | 2018-12-25 | 2019-05-21 | 华东师范大学 | 一种真实场景下用户与客服对话的数据分析方法 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | ***股份有限公司 | 针对短文本的数据挖掘方法及*** |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI312129B (en) * | 2006-03-10 | 2009-07-11 | Nat Cheng Kung Universit | A video summarization system and the method thereof |
KR101536520B1 (ko) * | 2014-04-28 | 2015-07-14 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
KR101656245B1 (ko) * | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
US11645317B2 (en) * | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
-
2020
- 2020-01-21 CN CN202010072544.4A patent/CN111291186B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与*** |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
CN106897290A (zh) * | 2015-12-17 | 2017-06-27 | ***通信集团上海有限公司 | 一种建立关键词模型的方法及装置 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN107590172A (zh) * | 2017-07-17 | 2018-01-16 | 北京捷通华声科技股份有限公司 | 一种大规模语音数据的核心内容挖掘方法及设备 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | ***股份有限公司 | 针对短文本的数据挖掘方法及*** |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN109783623A (zh) * | 2018-12-25 | 2019-05-21 | 华东师范大学 | 一种真实场景下用户与客服对话的数据分析方法 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
Non-Patent Citations (3)
Title |
---|
M. Wallace ; G. Stamou.Towards a context aware mining of user interests for consumption of multimedia documents.Proceedings. IEEE International Conference on Multimedia and Expo.2002,全文. * |
汪洋.基于内容的中文Web文档聚类方法研究与应用.中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑.2006,全文. * |
高楠 ; 李利娟 ; 李伟 ; 祝建明 ; .融合语义特征的关键词提取方法.计算机科学.2020,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111291186A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109743311B (zh) | 一种WebShell检测方法、装置及存储介质 | |
CN107257390B (zh) | 一种url地址的解析方法和*** | |
US11093774B2 (en) | Optical character recognition error correction model | |
AU2017216520A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
EP3620982B1 (en) | Sample processing method and device | |
CN110837590B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN113486350B (zh) | 恶意软件的识别方法、装置、设备及存储介质 | |
CN113806653B (zh) | 页面预加载方法、装置、计算机设备及存储介质 | |
CN111816170B (zh) | 一种音频分类模型的训练和垃圾音频识别方法和装置 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
WO2019227629A1 (zh) | 文本信息的生成方法、装置、计算机设备及存储介质 | |
CN113656587A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111291186B (zh) | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 | |
CN112199374B (zh) | 针对数据缺失的数据特征挖掘方法及其相关设备 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN115827832A (zh) | 与外部事件相关的对话***内容 | |
US11074407B2 (en) | Cognitive analysis and dictionary management | |
CN111368083A (zh) | 基于意图混淆的文本分类方法、装置、设备及存储介质 | |
CN110889028A (zh) | 一种语料处理以及模型训练的方法及*** | |
US11334716B2 (en) | Document anonymization including selective token modification | |
US11036936B2 (en) | Cognitive analysis and content filtering | |
US11551006B2 (en) | Removal of personality signatures | |
CN113657120B (zh) | 人机交互意图分析方法、装置、计算机设备及存储介质 | |
CN115905462A (zh) | 一种文本数据异常值检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |