CN110083828A - 一种文本聚类方法及装置 - Google Patents

一种文本聚类方法及装置 Download PDF

Info

Publication number
CN110083828A
CN110083828A CN201910250896.1A CN201910250896A CN110083828A CN 110083828 A CN110083828 A CN 110083828A CN 201910250896 A CN201910250896 A CN 201910250896A CN 110083828 A CN110083828 A CN 110083828A
Authority
CN
China
Prior art keywords
text
clustered
feature words
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910250896.1A
Other languages
English (en)
Inventor
王晓琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Yuanguang Mobile Interconnection Technology Co ltd
Yuanguang Software Co Ltd
Original Assignee
Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd filed Critical Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd
Priority to CN201910250896.1A priority Critical patent/CN110083828A/zh
Publication of CN110083828A publication Critical patent/CN110083828A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本聚类方法及装置,解决了现有文本聚类存在的文本聚类时间长、效率低、效果差的问题。本发明中的文本聚类方法包括以下步骤:采集数据构建文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;采集各待聚类文本,获取所述各待聚类文本中的特征词;根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量;利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。本发明中方法能够有效缩短文本聚类时间、提升聚类效率、达到较好的聚类效果。

Description

一种文本聚类方法及装置
技术领域
本发明涉及自然语言文本智能分析技术领域,尤其涉及一种文本聚类方法及装置。
背景技术
文本聚类是自然语言文本智能分析技术领域的一种应用,通过利用文本之间的相似度实现相似文本的聚集,便于用户对同类别文本数据的分析处理。
目前的文本聚类方法主要包括有监督学习和无监督学习。其中,有监督学习方法需要提前获知训练集中文本所属的类别,通过建模得到训练集文本和所属类别之间的关系,进而实现未知类别文本数据的分类。但是,该方法的缺点在于,对于不属于上述类别的文本数据,无法得到其所属类别。
另一方面,如果没有已经标记的文本数据,对于文本分类、情感分析等问题,就只能用一些传统的无监督学习的方法,无监督的方法大部分是利用词向量计算句向量,然后根据句子相似度进行聚类,形成有标签的文本数据集,得到文本聚类结果。但是,现有的文本聚类方法,每次均需要统计待聚类文本中特征词的词频,得到相应的权重,当待聚类文本规模比较大时,该计算过程会延长文本聚类的时长,降低文本聚类的效率;同时,现有的权重计算方法中,词频高的特征词相对权重也高,无法充分考虑除主要特征词以外的其他特征词对整个待聚类文本的影响,聚类效果相对较差。
发明内容
鉴于上述的分析,本发明旨在提供一种文本聚类方法及装置,用以解决现有文本聚类时间长、效率低、效果差的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,提供了一种文本聚类方法,包括以下步骤:
采集数据构建文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
采集各待聚类文本,获取所述各待聚类文本中的特征词;
根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量;
利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。
在上述方案的基础上,本发明还做了如下改进:
进一步,所述根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,具体执行以下操作:
若特征词出现的频次小于频次阈值,剔除此类特征词;
将剩余各特征词词频的倒数,作为相应特征词对应的权重。
进一步,得到文本库或待聚类文本后,对文本库或待聚类文本中的数据进行分词、去停用词处理,得到文本库或待聚类文本中的所有特征词。
进一步,所述根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量,具体执行以下操作:
利用所述待聚类文本中的特征词训练word2vec模型,并利用训练好的所述word2vec模型得到各特征词对应的词向量,各特征词的词向量表示为v1×D,D为词向量的空间维度。
进一步,执行以下操作得到各待聚类文本的句向量:
根据各待聚类文本中包含的特征词,计算各待聚类文本的句向量,其中,第s个待聚类文本句向量Vs表示如下:
其中,Ns表示第s个待聚类文本句子中包含的词向量个数;vs,i表示第s个待聚类文本句子第i个词向量;ws,i表示第s个句子第i个词向量的权重为该特征词在所述数据库中对应的权重。
进一步,通过以下方式所有待聚类文本的特征向量;
根据待聚类文本中各句子的句向量,构造待聚类文本的特征向量SN*D
SN*D=[V1,V2...,VN]T (2)
其中,N表示所有待聚类文本句子的数量,D表示句向量的维度,同词向量的维度。
进一步,所述利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类,执行以下操作:
对所述待聚类文本的特征向量SN*D进行奇异值分解,得到平滑后的整个文本句向量矩阵S′N*D
根据平滑后的整个文本句向量矩阵S′N*D,利用聚类算法,对待聚类文本进行聚类。
进一步,利用层次聚类算法,实现待聚类文本的聚类:
将向量矩阵S′N*D中的每一句向量作为一个单独的簇;
计算不同簇之间的余弦距离,将所述余弦距离小于一定阈值的句向量合并为一个簇;重复该步骤,直到实现待聚类文本中所有句向量的分类。
另一方面,提供了一种与上述文本聚类方法对应的文本聚类装置,所述装置包括:
特征词权重计算模块,用于采集数据构成文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
待聚类文本特征词获取模块,用于采集各待聚类文本并获取所述各待聚类文本中的特征词;
待聚类文本特征向量获取模块,用于根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量:
文本聚类模块,用于利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。
进一步,所述根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,具体执行以下操作:
若特征词出现的频次小于频次阈值,剔除此类特征词;
将剩余各特征词词频的倒数,作为相应特征词对应的权重。
本发明有益效果如下:本发明通过预先采集大量的各类网络数据,利用各类网络数据得到大量的特征词,这些特征词的权重信息能够有效表征其出现在一般句子中的概率,并将这些特征词的权重直接作为待聚类文本中相应词向量的权重,能够有效缩短计算时间,待聚类文本的规模越大,本发明方法缩短计算时间的效果越明显。同时,通过本发明中方法设置的特征词权重,出现频率越高,相应的权重越小,使得在计算待聚类文本句向量的过程中,降低主要特征词的权重,充分考虑除主要特征词以外的其他特征词对整个待聚类文本的影响,有效提升了聚类效果。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明第一实施例中的文本聚类方法流程图;
图2为本发明第二实施例中的部分待聚类文本;
图3为本发明第二实施例中的部分聚类结果;
图4为本发明第三实施例中的文本聚类装置示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的第一实施例中,公开了一种文本聚类方法,流程图如图1所示,包括以下步骤:
步骤S1:采集网络上的各种数据构成文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
其中,本实施例通过网络爬虫算法采集各类新闻、百科、商城等各种网络数据构成文本库,所述数据具备涉及范围广、数据量大、具有代表性等特征,保证通过这种方式计算出的特征词的频率,能够代表特征词在一般自然语言环境下出现的频率;
得到文本库后,对文本库中的数据进行分词、去停用词处理,得到文本库中的所有特征词。
其中,所述分词是指按照语素对文本进行划分的手段,本发明对分词处理的方式不做限制,只要能够得到待聚类文本中的特征词即可。
所述停用词是指没有实际含义的功能词,如“吗”、“呢”、“了”、“the”等词,通过去停用词达到提升特征词质量及本文处理效率的目的。
得到文本库中的所有特征词后,计算各特征词在文本库所有特征词中出现的频次:
若某些特征词出现的频次小于频次阈值,表示很少有人用到这些词,剔除此类特征词;这样做一方面可以减少词汇表的词汇量;另一方面,当计算句向量可以忽略这些词的词向量,防止由于这些词权重大而影响句向量的表示;
将剩余各特征词词频的倒数,作为相应特征词对应的权重;
通过词频能够确定当前特征词在文本库中的权重大小,权重越大相当于该特征词在文本库中的重要程度越大,反之重要程度越小。
步骤S2:采集各待聚类文本,获取所述各待聚类文本中的特征词;
本发明中采集的待聚类文本,其内容为所述文本库中数据的子集。即,保证文本库中包含了待聚类文本的各特征词。本发明不对待聚类文本的具体形式做任何限制;待聚类文本可以是任何题材的文本,如:通过网络爬虫算法得到的网络新闻数据、中文***数据等;对待聚类文本的文件格式也没有要求,只要能够正常读取待聚类文本数据即可;
经过与上述相同的分词、去停用词处理,得到各待聚类文本中的所有特征词。
步骤S3:根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量:
步骤S31:利用所述待聚类文本中的特征词训练word2vec模型,并利用训练好的所述word2vec模型得到各特征词对应的词向量;
Word2vec是一款开放的用于产生词向量的软件工具,它根据给定的语料库,通过优化后的训练模型快速有效将句子中的每一个词映射成D维空间中的具有真实值的向量,并且这些向量获取了语法、语义特征,其核心架构包括CBOW和Skip-gram。
本发明得到的各特征词的词向量表示为v1×D,D为词向量的空间维度。
步骤S32:根据各待聚类文本中包含的特征词,计算各待聚类文本的句向量,其中,第s个待聚类文本句向量Vs表示如下:
其中,Ns表示第s个待聚类文本句子中包含的词向量个数;vs,i表示第s个待聚类文本句子第i个词向量;ws,i表示第s个句子第i个词向量的权重为该特征词在所述数据库中对应的权重。
步骤S33:根据待聚类文本中各句子的句向量,构造待聚类文本的特征向量SN*D
SN*D=[V1,V2...,VN]T (2)
其中,N表示所有待聚类文本句子的数量,D表示句向量的维度,同词向量的维度。
步骤S4:利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类:
步骤S41:对所述待聚类文本的特征向量SN*D进行奇异值分解,得到平滑后的整个文本句向量矩阵S′N*D
通过奇异值分解找出待聚类文本的特征向量的部分主轴,并从特征向量中移除所述部分主轴,达到平滑效果。
步骤S42:根据平滑后的整个文本句向量矩阵S′N*D,利用层次聚类算法,对待聚类文本进行聚类。
将向量矩阵S′N*D中的每一句向量作为一个单独的簇;
计算不同簇之间的余弦距离,将所述余弦距离小于一定阈值的句向量合并为一个簇;重复该步骤,直到实现待聚类文本中所有句向量的分类。
本发明通过预先采集大量的各类网络数据,利用各类网络数据得到大量的特征词,这些特征词的权重信息能够有效表征其出现在一般句子中的概率,并将这些特征词的权重直接作为待聚类文本中相应词向量的权重,能够有效缩短计算时间,待聚类文本的规模越大,本发明方法缩短计算时间的效果越明显。同时,通过本发明中方法设置的特征词权重,出现频率越高,相应的权重越小,使得在计算待聚类文本句向量的过程中,降低主要特征词的权重,充分考虑除主要特征词以外的其他特征词对整个待聚类文本的影响,有效提升了聚类效果。
本发明的第二实施例中,公开了一种文本聚类方法的应用实例,步骤如下:
首先利用上述方法得到存储有特征词及对应的特征词权重的数据库;
利用网络爬虫算法,爬取搜狐新闻上的数据,作为本实施例的待聚类文本,部分待聚类文本的内容如图2所示;
利用上述文本聚类方法对待聚类文本进行分类,得到聚类结果,部分聚类结果如图3所示;
通过该应用实例可以证明,本申请中的文本聚类方法能够实现相似文本的聚类,且聚类结果较为精确。
在本发明的第三实施例中,提供了一种文本聚类装置,装置示意图如图4所示,与上述文本聚类方法相对应,所述装置包括:
特征词权重计算模块,用于采集数据构成文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
待聚类文本特征词获取模块,用于采集各待聚类文本并获取所述各待聚类文本中的特征词;
待聚类文本特征向量获取模块,用于根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量:
文本聚类模块,用于利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。
进一步,所述根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,具体执行以下操作:
若特征词出现的频次小于频次阈值,剔除此类特征词;
将剩余各特征词词频的倒数,作为相应特征词对应的权重。
本发明中装置实施例的具体实施过程参见上述方法实施例即可,本实施例在此不再赘述。
由于本实施例与上述方法实施例原理相同,所以本***也具有上述方法实施例相应的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文本聚类方法,其特征在于,包括以下步骤:
采集数据构建文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
采集各待聚类文本,获取所述各待聚类文本中的特征词;
根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量;
利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,具体执行以下操作:
若特征词出现的频次小于频次阈值,剔除此类特征词;
将剩余各特征词词频的倒数,作为相应特征词对应的权重。
3.根据权利要求1或2所述的方法,其特征在于,得到文本库或待聚类文本后,对文本库或待聚类文本中的数据进行分词、去停用词处理,得到文本库或待聚类文本中的所有特征词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量,具体执行以下操作:
利用所述待聚类文本中的特征词训练word2vec模型,并利用训练好的所述word2vec模型得到各特征词对应的词向量,各特征词的词向量表示为v1×D,D为词向量的空间维度。
5.根据权利要求4所述的方法,其特征在于,执行以下操作得到各待聚类文本的句向量:
根据各待聚类文本中包含的特征词,计算各待聚类文本的句向量,其中,第s个待聚类文本句向量Vs表示如下:
其中,Ns表示第s个待聚类文本句子中包含的词向量个数;vs,i表示第s个待聚类文本句子第i个词向量;ws,i表示第s个句子第i个词向量的权重为该特征词在所述数据库中对应的权重。
6.根据权利要求5所述的方法,其特征在于,通过以下方式所有待聚类文本的特征向量;
根据待聚类文本中各句子的句向量,构造待聚类文本的特征向量SN*D
SN*D=[V1,V2...,VN]T (2)
其中,N表示所有待聚类文本句子的数量,D表示句向量的维度,同词向量的维度。
7.根据权利要求1或6所述的方法,其特征在于,所述利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类,执行以下操作:
对所述待聚类文本的特征向量SN*D进行奇异值分解,得到平滑后的整个文本句向量矩阵S′N*D
根据平滑后的整个文本句向量矩阵S′N*D,利用聚类算法,对待聚类文本进行聚类。
8.根据权利要求7所述的方法,其特征在于,利用层次聚类算法,实现待聚类文本的聚类:
将向量矩阵S′N*D中的每一句向量作为一个单独的簇;
计算不同簇之间的余弦距离,将所述余弦距离小于一定阈值的句向量合并为一个簇;重复该步骤,直到实现待聚类文本中所有句向量的分类。
9.一种采用权利要求1-8中任一文本聚类方法的文本聚类装置,其特征在于,所述装置包括:
特征词权重计算模块,用于采集数据构成文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;
待聚类文本特征词获取模块,用于采集各待聚类文本并获取所述各待聚类文本中的特征词;
待聚类文本特征向量获取模块,用于根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量:
文本聚类模块,用于利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。
10.根据权利要求9所述的装置,其特征在于,所述根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,具体执行以下操作:
若特征词出现的频次小于频次阈值,剔除此类特征词;
将剩余各特征词词频的倒数,作为相应特征词对应的权重。
CN201910250896.1A 2019-03-29 2019-03-29 一种文本聚类方法及装置 Pending CN110083828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910250896.1A CN110083828A (zh) 2019-03-29 2019-03-29 一种文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910250896.1A CN110083828A (zh) 2019-03-29 2019-03-29 一种文本聚类方法及装置

Publications (1)

Publication Number Publication Date
CN110083828A true CN110083828A (zh) 2019-08-02

Family

ID=67413950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910250896.1A Pending CN110083828A (zh) 2019-03-29 2019-03-29 一种文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN110083828A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和***
CN117891411A (zh) * 2024-03-14 2024-04-16 济宁蜗牛软件科技有限公司 一种海量档案数据优化存储方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109101479A (zh) * 2018-06-07 2018-12-28 苏宁易购集团股份有限公司 一种用于中文语句的聚类方法及装置
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109101479A (zh) * 2018-06-07 2018-12-28 苏宁易购集团股份有限公司 一种用于中文语句的聚类方法及装置
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和***
CN117891411A (zh) * 2024-03-14 2024-04-16 济宁蜗牛软件科技有限公司 一种海量档案数据优化存储方法
CN117891411B (zh) * 2024-03-14 2024-06-14 济宁蜗牛软件科技有限公司 一种海量档案数据优化存储方法

Similar Documents

Publication Publication Date Title
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN107229610A (zh) 一种情感数据的分析方法及装置
WO2018086401A1 (zh) 自动问答***中的问题聚类处理方法及装置
CN110427463A (zh) 搜索语句响应方法、装置及服务器和存储介质
CN110442718A (zh) 语句处理方法、装置及服务器和存储介质
WO2020005601A1 (en) Semantic parsing of natural language query
Lin et al. Deep structured scene parsing by learning with image descriptions
CN106897262A (zh) 一种文本分类方法和装置以及处理方法和装置
CN113961705A (zh) 一种文本分类方法及服务器
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN110929028A (zh) 一种日志分类方法及装置
CN109960791A (zh) 判断文本情感的方法及存储介质、终端
CN103020167A (zh) 一种计算机中文文本分类方法
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN110083828A (zh) 一种文本聚类方法及装置
CN110309513B (zh) 一种文本依存分析的方法和装置
CN109960730A (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
WO2024078105A1 (zh) 专利文献中的技术问题抽取方法及相关设备
CN108846142A (zh) 一种文本聚类方法、装置、设备及可读存储介质
CN110209895A (zh) 向量检索方法、装置和设备
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN114462673A (zh) 用于预测未来事件的方法、***、计算设备和可读介质
Qin et al. Research on reliability of instance and pattern in semi-supervised entity relation extraction
Zhang et al. An improved spectral clustering algorithm based on cell-like P system
CN112015857A (zh) 用户感知评价方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210729

Address after: 519000 Guangdong Zhuhai science and technology innovation coastal high beam Software Park

Applicant after: YGSOFT Inc.

Applicant after: Zhuhai Yuanguang Mobile Interconnection Technology Co.,Ltd.

Address before: 519000 room 105-4675, No. 6, Baohua Road, Hengqin new area, Zhuhai, Guangdong

Applicant before: Zhuhai Yuanguang Mobile Interconnection Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190802