CN113761192A - 文本处理方法、文本处理装置及文本处理设备 - Google Patents

文本处理方法、文本处理装置及文本处理设备 Download PDF

Info

Publication number
CN113761192A
CN113761192A CN202110542138.4A CN202110542138A CN113761192A CN 113761192 A CN113761192 A CN 113761192A CN 202110542138 A CN202110542138 A CN 202110542138A CN 113761192 A CN113761192 A CN 113761192A
Authority
CN
China
Prior art keywords
text
word
target
sequence
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110542138.4A
Other languages
English (en)
Other versions
CN113761192B (zh
Inventor
刘志煌
武睿彪
胡林红
邱伟
罗朝亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202110542138.4A priority Critical patent/CN113761192B/zh
Publication of CN113761192A publication Critical patent/CN113761192A/zh
Application granted granted Critical
Publication of CN113761192B publication Critical patent/CN113761192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种文本处理方法、文本处理装置及文本处理设备,该文本处理方法包括:获取参考文本数据和待归类文本;参考文本数据包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;对待归类文本进行预处理,得到待归类文本的目标文本特征;根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。采用本申请实施例,可以有效提升文本分类效率和文本分类准确率。

Description

文本处理方法、文本处理装置及文本处理设备
技术领域
本申请涉及人工智能领域的自然语言处理技术,尤其涉及一种文本处理方法、一种文本处理装置及一种文本处理设备。
背景技术
文本分类是文本处理过程中的关键步骤,文本分类后有利于对文本进行针对性地管理和存储。目前,文本分类主要依赖于人工,由人工确定文本所属的文本类型。例如对于民生服务和社会治理过程中产生的一些文本(例如民生事项办理文本、公文文本等等),可以由基层公务人员确定文本所属的部门(例如公安部门、财政部门、***门等等),一个部门即一个文本类型,从而实现文本分类。依赖于人工的文本分类过程不仅造成大量人力资源的浪费,并且文本分类效率和文本分类准确率均较低。因此,如何提升文本分类效率和文本分类准确率成为当前研究的热点话题。
发明内容
本申请实施例提供了一种文本处理方法、文本处理装置及文本处理设备,可以有效提升文本分类效率和文本分类准确率。
一方面,本申请实施例提供了一种文本处理方法,该文本处理方法包括:
获取参考文本数据和待归类文本;参考文本数据包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
对待归类文本进行预处理,得到待归类文本的目标文本特征;
根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;
基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
一方面,本申请实施例提供了一种文本处理装置,该文本处理装置包括:
获取单元,用于获取参考文本数据和待归类文本;参考文本数据包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
处理单元,用于对待归类文本进行预处理,得到待归类文本的目标文本特征;
处理单元,还用于根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;
处理单元,还用于基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
在一个实施例中,目标文本集合中包括N个参考文本,N为正整数;处理单元,用于基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型时,具体用于执行如下步骤:
根据N个参考文本中每个参考文本所属的文本类型,确定目标文本集合中包括Y个文本类型,Y为小于或等于N的正整数;
基于N个参考文本中属于Y个文本类型中的任一文本类型下的参考文本的数量,确定在目标文本集合中任一文本类型对应的文本数量占比;
将Y个文本类型中文本数量占比满足阈值的文本类型确定为待归类文本所属的文本类型。
在一个实施例中,处理单元,用于根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行聚类处理,得到待归类文本所在的目标文本集合时,具体用于执行如下步骤:
根据目标文本特征和多个参考文本对应的参考文本特征构建图模型;图模型由节点组成,节点包括目标节点和多个参考节点,目标节点对应待归类文本,一个参考节点对应一个参考文本;
采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。
在一个实施例中,图模型还包括边;处理单元,用于根据所述目标文本特征和所述多个参考文本对应的参考文本特征构建图模型时,具体用于执行如下步骤:
将目标文本特征进行空间点映射,得到目标节点;
将参考文本数据中的任一参考文本对应的参考文本特征进行空间点映射,得到任一参考节点;
若任意两个节点之间的特征相似度大于相似度阈值,则创建任意两个节点之间的边。
在一个实施例中,处理单元,用于采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合时,具体用于执行如下步骤:
获取图模型中节点之间的转移概率;
基于图模型中节点之间的转移概率在图模型中的多个节点之间进行随机游走,并按照随机游走过程中在图模型中所经过的节点对应的顺序,对图模型中的多个节点进行排序,得到节点序列;
获取节点序列中包括的M个序列类以及每个序列类包括的节点,M为正整数;
基于M个序列类以及每个序列类包括的节点对节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度;
基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度,并按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点;
在总平均编码长度小于编码长度阈值时,获取目标节点所在的目标序列类,并将目标序列类中包括的节点作为目标节点集合中的节点。
在一个实施例中,处理单元,用于基于M个序列类以及每个序列类包括的节点对所述节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度时,具体用于执行如下步骤:
获取M个序列类中的任一个序列类与其他序列类之间的序列类转移概率,得到M个序列类转移概率;其他序列类是M个序列类中除任一个序列类之外的M-1个序列类;
根据M个序列类转移概率计算类间编码长度;
获取任一个序列类内各个节点出现的概率,并根据任一个序列类内各个节点出现的概率以及任一个序列类与其他序列类之间的序列类转移概率,计算任一个序列类的序列类内编码长度,得到M个序列类的序列类内编码长度;
根据M个序列类的序列类内编码长度确定类内编码长度。
在一个实施例中,处理单元,用于按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点时,具体用于执行如下步骤:
按照减小总平均编码长度的原则更新M个序列类转移概率;
基于更新后的M个序列类转移概率,确定更新后的M个序列类中每个序列类包括的节点数量;
按照节点序列中各个节点由前到后的排列顺序,将节点序列按照更新后的M个序列类中每个序列类包括的节点数量重新划分为M个序列类。
在一个实施例中,处理单元,用于对待归类文本进行预处理,得到待归类文本的目标文本特征时,具体用于执行如下步骤:
对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中包括X个分词,X为正整数;
分别对X个分词中的每个分词进行词向量转换,得到X个词向量;
获取与X个分词对应的X个综合权值,一个分词对应一个综合权值;
根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
在一个实施例中,第j个分词是X个分词中的任一个,j为小于或等于X的正整数;处理单元,用于获取与X个分词对应的X个综合权值时,具体用于执行如下步骤:
将第j个分词与参考词库进行匹配,获取与第j个分词匹配的匹配词集合;参考词库包括以下至少一个:主题词库、关键词库以及类型实体词库;
根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值。
在一个实施例中,主题词库中包括多个主题词,一个主题词对应一个主题词权值;关键词库中包括多个关键词,一个关键词对应一个关键词权值;类型实体词库中包括多个类型实体词,一个类型实体词对应一个类型实体词权值;处理单元,用于根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值时,具体用于执行如下步骤:
若匹配词集合中包括一个匹配词,则将匹配词对应的权值确定为第j个分词的综合权值;
或者,若匹配词集合中包括至少两个匹配词,且至少两个匹配词属于不同的参考词库,则将至少两个匹配词中各个匹配词对应的权值中的最大权值确定为第j个分词的综合权值;
或者,若匹配词集合为空,则将主题词库中的各个主题词对应的主题词权值、关键词库中的各个关键词对应的关键词权值,以及类型实体词库中的各个类型实体词对应的类型实体词权值中的最小权值确定为第j个分词的综合权值。
在一个实施例中,主题词库是从多个文本类型下的多个参考文本中提取的,主题词库包括普通主题词库和领域主题词词库,普通主题词库中包括多个普通主题词,领域主题词库包括多个领域主题词,第一主题词是普通主题词库中的任一个普通主题词;第一主题词的主题词权值的确定过程包括:
确定第一主题词的词频以及第一主题词对应的文本频率;第一主题词的词频包括:第一主题词在多个参考文本中出现的概率;第一主题词对应的文本频率包括:多个参考文本中包含第一主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取普通主题词库中的各个普通主题词对应的文本频率,并在各个普通主题词对应的文本频率中确定普通主题词库中的最大文本频率;
根据第一主题词的词频、第一主题词对应的文本频率、以及普通主题词库中的最大文本频率,计算第一主题词的主题词权值。
在一个实施例中,第二主题词是领域主题词库中的任一个领域主题词;第二主题词的主题词权值的确定过程包括:
确定第二主题词的词频以及第二主题词对应的文本频率;第二主题词的词频包括:第二主题词在多个参考文本中出现的概率;第二主题词对应的文本频率包括:多个参考文本中包含第二主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取领域主题词库中的各个领域主题词对应的文本频率,并在各个领域主题词的文本频率中确定领域主题词库中的最大文本频率;
获取普通主题词库的各个普通主题词的主题词权值,并在各个普通主题词的主题词权值中确定所述普通主题词库中的最大主题词权值;
根据所述第二主题词的词频、所述第二主题词对应的文本频率、所述领域主题词库中的最大文本频率、以及所述普通主题词库中的最大主题词权值,计算第二主题词的主题词权值。
在一个实施例中,关键词库是从多个文本类型下的多个参考文本中提取的,目标关键词是关键词库中的任一个关键词,目标关键词属于多个文本类型中的目标文本类型;目标关键词的关键词权值的确定过程包括:
获取目标关键词的词频和目标关键词的逆文本频率;
根据目标关键词的词频和目标关键词的逆文本频率,计算目标关键词的关键词权值;
其中,目标关键词的词频包括:目标关键词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值;目标关键词的逆文本频率是指:多个文本类型下的所有参考文本的数量与多个文本类型中除目标文本类型之外的其他文本类型下的所有参考文本的数量之间的比值。
一方面,本申请实施例提供一种文本处理设备,该文本处理设备包括处理器和计算机可读存储介质,其中:
处理器,适于实现计算机程序;以及,计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的文本处理方法。
相应的,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的文本处理方法。
相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的文本处理方法。
本申请实施例中,可以获取参考文本数据和待归类文本,参考文本数据可以包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;然后,可以对待归类文本进行预处理,得到待归类文本的目标文本特征;根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;其次,可以基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。由此可见,本申请实施例可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理***的架构示意图;
图2是本申请实施例提供的一种文本处理方案的流程示意图;
图3a是本申请实施例提供的一种文本处理方案应用于智慧政务应用场景的示意图;
图3b是本申请实施例提供的一种文本处理方案应用于医疗分诊应用场景的示意图;
图4是本申请实施例提供的一种文本处理方法的流程示意图;
图5是本申请实施例提供的另一种文本处理方法的流程示意图;
图6a是本申请实施例提供的一种图模型的示意图;
图6b本申请实施例提供的一种文本聚类处理完成后的图模型的示意图;
图7是本申请实施例提供的另一种文本处理方法的流程示意图;
图8是本申请实施例提供的一种文本处理装置的结构示意图;
图9是本申请实施例提供的一种文本处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及文本分类。所谓文本分类可以是指确定文本所属的文本类型的过程,文本分类后有利于对文本进行针对性地管理和存储。本申请实施例进行了一些实践并提出了一系列能够提升文本分类效率的文本分类方案,具体如下:
(1)基于模板的文本分类方案。
基于模板的文本分类方案可以根据待归类文本的文本模板确定待归类文本所属的文本类别。具体来说,在基于模板的文本分类方案中:首先,可以由专业人员根据经验知识构建多个文本类型中每个文本类型对应的特征词库和匹配规则,以及构建文本模板生成模型;其中,多个文本类型中的任一文本类型的特征词库中可以包括该文本类型的特征词;文本模板生成模型可以用于生成待归类文本的文本模板,文本模板中可以包括从待归类文本中提取到的特征词,也就是说,文本生成模型可以用于从待归类文本中提取待归类文本的特征词。其次,可以基于各个文本类型的匹配规则分别在各个文本类型的特征词库中对待归类文本的特征词进行匹配;若匹配结果指示待归类文本的特征词在某个文本类型的特征词库中匹配成功,则可以确定待归类文本属于该匹配成功的文本类型。在此方案中,可以基于文本模板生成模型自动提取待归类文本的特征词,也可以在多个文本类型的特征词库中对待归类文本的特征词进行自动匹配,可以提升文本分类效率。但是,各个文本类型的特征词库和匹配规则的构建依赖于人工,人工构建的匹配规则和特征词库具有较低的泛化能力,因此基于模板的文本分类方案存在分类不准确的问题。
(2)基于信息检索的文本分类方案。
基于信息检索的文本分类方案可以采用模型训练预测的方式进行文本分类。具体来说,在基于信息检索的文本分类方案中:首先,可以基于样本文本数据对文本分类模型进行训练;然后,可以直接采用训练得到的文本分类模型对待归类文本进行信息检索并确定待归类文本所属的文本类型;其中,样本文本数据可以包括多个文本类型下的多个样本文本。在此方案中,可以根据文本检索模型自动确定待归类文本所属的文本类型,可以提升文本分类效率。但是在实际应用场景中,文本类型较多,各个文本类型下的样本文本的数量往往是不均衡的,例如属于公安部门的样本文本的数量往往多于属于水利部门的样本文本的数量,不均衡的样本文本数据将导致训练得到的文本分类模型的分类性能较差,很容易出现误识别,因此基于信息检索的文本分类方案也存在分类不准确的问题。
(3)基于相似度的文本分类方案。
基于相似度的文本分类方案中可以基于待归类文本与参考文本之间的相似度确定待归类文本所属的文本类型。具体来说,在基于相似度的文本分类方案中:首先,可以获取多个文本类型下的多个参考文本,计算待归类文本与各个文本类型下的参考文本之间的相似度,此处的相似度可以是指待归类文本与参考文本中相同字符的数量与待归类文本的总字符数量之间的比值;然后,可以在计算得到的待归类文本与各个参考文本的相似度中选取与待归类文本的相似度高于文本相似度阈值的参考文本,并将选取到的参考文本所属的文本类型确定为待归类文本所属的文本类型。在此方案中,可以自动计算待归类文本与参考文本之间的相似度,并基于计算得到的各个相似度自动确定待归类文本所属的文本类型,可以提升文本分类效率。但是,相似度计算忽略了文本中的一些关键特征(例如文本所描述的领域特征)之间的相似度;例如待归类文本与一个参考文本之间相同的字符数量较多,而待归类文本所描述的领域为公安领域,参考文本所描述的领域为教育领域,这样将参考文本所属的文本类型作为待归类文本所属的文本类型是不正确的,因此基于相似度的文本分类方案也存在分类不准确的问题。
由上述(1)至(3)可知,基于模板的文本分类方案、基于信息检索的文本分类方案以及基于相似度的文本分类方案相较于依赖人工的文本分类方式均能够提升文本分类效率,但却都存在文本分类不准确的问题。在此基础上,本申请实施例基于人工智能的自然语言处理技术提供了一种文本处理方案,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理作为人工智能中的关键技术之一,自然语言处理(Nat ureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提出的文本处理方案可以在提升文本分类效率的基础上,进一步提升文本分类准确率。该文本处理方案可以根据待归类文本的目标文本特征和多个文本类型下的多个参考文本的参考文本特征,对待归类文本和多个参考文本进行文本聚类处理;然后可以在文本聚类处理得到的待归类文本所在的目标文本集合中,根据目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。可见,该文本处理方案采用待归类文本的目标文本特征和参考文本的参考文本特征进行文本聚类处理,目标文本特征中携带待归类文本中的关键信息,参考文本特征中携带参考文本中的关键信息,这使得基于目标文本特征和参考文本特征的文本聚类过程更加合理准确、文本聚类过程具备更高的泛化能力。另外,本申请实施例提供的文本处理方案是基于待归类文本和已确定文本类型的参考文本的文本聚类过程,与模型训练过程不同的是,文本聚类过程对已确定文本类型的参考文本的数量不作要求,在已确定文本类型的参考文本数量较少的情况下也可实现准确地文本聚类过程,在各个文本类型中的参考文本数量不均衡的情况下也可实现准确地文本聚类过程,有效提升文本分类准确率和文本分类过程的可操作性。
下面对适于实现本申请实施例提供的文本处理方案的文本处理***进行介绍,并结合文本处理***对文本处理方案适用的应用场景进行介绍。
图1是本申请实施例提供的一种文本处理***的架构示意图,如图1所示,文本处理***10可以包括文本处理设备101和文本采集设备102。其中,文本采集设备102可以用于采集待归类文本,文本采集设备102可以包括终端。文本处理设备101可以用于对待归类文本进行文本聚类处理,确定待归类文本所属的文本类型,文本处理设备101可以包括服务器或终端。文本处理设备101和文本采集设备102之间可以通过无线通信或有线通信的方式进行直接或间接地通信连接。
需要说明的是,文本处理设备101和文本采集设备102可以是两个独立的设备;例如文本处理设备101是服务器,文本采集设备102是终端。文本处理设备101和文本采集设备102还可以集成于同一个设备中,例如文本处理设备101和文本采集设备102集成于同一个终端中;本申请实施例以文本处理设备101和文本采集设备102是两个不同的设备为例进行说明。本申请实施例提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)服务、以及大数据和人工智能平台等基础云计算服务的云服务器,也可以是区块链网络上的节点服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表等,但并不局限于此。
在由文本处理设备101和文本采集设备102组成的文本处理***10中,文本采集设备102可以用于采集待归类文本,文本处理设备101可以用于对待归类文本进行文本聚类处理,确定待归类文本所属的文本类型。具体来说,文本处理方案的处理流程可以为:首先,文本采集设备102可以采集待归类文本;在一个实施例中,文本采集设备102中可以运行有文本采集应用程序,用户可以通过文本采集应用程序输入待归类文本,从而文本采集设备102可以通过文本采集应用程序采集待归类文本。在另一个实施例中,文本采集设备102中可以运行有文本采集网址,用户可以在文本采集网址对应的网站中输入待归类文本,从而文本采集设备102可以通过文本采集网址采集待归类文本。然后,文本采集设备102采集到待归类文本之后,可以将待归类文本发送至文本处理设备101进行处理。
文本处理设备101对待归类文本的文本处理过程可参见图2,图2是本申请实施例提供的一种文本处理方案的流程示意图,如图2所示,文本处理设备101可以获取文本处理设备101中存储的多个文本类型下的多个参考文本,以及多个参考文本对应的参考文本特征;然后,文本处理设备101可以对待归类文本进行预处理,得到待归类文本的目标文本特征;根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;然后,文本处理设备101可以获取目标文本集合包括的N个参考文本,并基于N个参考文本所属的文本类型确定待归类文本所属的文本类型,N为正整数。在确定待归类文本所属的文本类型之后,文本处理设备101还可以将待归类文本作为一个参考文本,将待归类文本的目标文本特征作为一个参考文本特征进行存储,以便于参与下一个新接收的待归类文本的文本处理过程,可以有效提升文本分类效率和文本分类准确率。
可以理解的是,本申请实施例描述的文本处理***是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的文本处理方案可以应用于智慧政务、医疗分诊、文档分拣等场景中。其中:
图3a是本申请实施例提供的一种文本处理方案应用于智慧政务应用场景的示意图,如图3a所示,在智慧政务应用场景中,文本采集设备102可以通过智慧政务应用程序采集群众的待处理事项文本;群众/相关处理人员可以将待处理事项文本录入智慧政务应用程序中,从而文本采集设备102可以通过智慧政务应用程序采集群众的待处理事项文本,并将采集到待处理事项文本发送至文本处理设备101。文本处理设备101接收到待处理事项文本后,可以确定出待处理事项文本所属的文本类型,此处的文本类型可以是待处理事项文本的处理部门(例如公安部门、***门、民政部门等等);然后文本处理设备101可以将该待处理事项文本分配至所属的处理部门进行处理。例如,智慧政务应用程序采集到的待处理事项文本为“XX公园节假日早上8点施工,噪音扰民”,文本处理设备101确定出该待处理事项文本所属的处理部门为城管部门后,可以将该待处理事项文本分配至城管部门进行处理。通过本申请实施例提供的文本处理方案,在智慧政务应用场景中可以减少由基层公务人员阅读理解待处理事项文本后分配待处理事项文本至处理部门所带来的人力资源消耗,并且可以有效提升待处理事项文本的分类效率和分类准确率,满足政务管理的智能化需求。
图3b是本申请实施例提供的一种文本处理方案应用于医疗分诊应用场景的示意图,如图3b所示,在医疗分诊应用场景中,文本采集设备102可以通过文本采集应用程序采集患者的症状文本;患者/相关分诊人员可以将待分诊的症状文本录入医疗分诊应用程序中,从而文本采集设备102可以通过医疗分诊应用程序采集待分诊的症状文本,并将采集到待分诊的症状文本发送至文本处理设备101。文本处理设备101接收到待分诊的症状文本后,可以确定出待分诊的症状文本所属的文本类型,此处的文本类型可以是症状文本对应的就诊科室(例如呼吸科、骨科、传染科等等);然后文本处理设备101可以将确定出的就诊科室的科室信息(例如就诊科室的名称、就诊科室的位置、就诊医生的姓名等等)反馈至医疗分诊应用程序中,医疗分诊应用程序可以向患者输出就诊科室的科室信息,从而患者可以到相应的就诊科室就诊。例如,患者的待分诊的症状文本为“咽喉不适、声音嘶哑、喉咙痛、咳嗽等症状”,文本处理设备101确定出该症状文本对应的就诊科室为呼吸科后,可以将呼吸科的科室信息反馈至医疗分诊应用程序中。通过本申请实施例提供的文本处理方案,在医疗分诊应用场景中可以减少各个医院的分诊台护士为患者分诊所带来的人力资源消耗,并且可以有效提高症状文本的分诊效率和分诊准确率,满足医疗分诊的智能化需求。
基于上述的文本处理***和文本处理方案,本申请实施例提供了一种文本处理方法。请参见图4,图4是本申请实施例提供的一种文本处理方法的流程示意图,该文本处理方法可以由本申请实施例提供的文本处理设备执行;该文本处理方法可以包括以下步骤S401至步骤S404:
S401,获取参考文本数据和待归类文本。
参考文本数据可以包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;也就是说,参考文本是已确定文本类型的文本。表1示出了本申请实施例提供的一种参考文本数据示例:
表1
Figure BDA0003071983550000131
Figure BDA0003071983550000141
如上述表1所示的参考文本数据中包括P个文本类型下的n个参考文本,P和n均为正整数;一个参考文本对应一个参考文本特征。
可选的,在智慧政务应用场景中,参考文本可以是群众反馈的待处理事项文本,文本类型可以是待处理事项文本的处理部门。表2示出了本申请实施例提供的一种在智慧政务应用场景中的参考文本数据示例:
表2
Figure BDA0003071983550000142
Figure BDA0003071983550000151
如上述表2所示的智慧政务应用场景的参考文本数据中包括4个处理部门下的11个待处理事项文本,一个待处理事项文本对应一个待处理事项文本特征。
参考文本特征可以是对相应的参考文本进行预处理得到的;例如,目标参考文本是参考文本数据中的任一个参考文本,目标参考文本对应参考文本数据中的目标参考文本特征,目标参考文本特征可以是对目标参考文本进行预处理得到的。需要说明的是,对参考文本进行预处理的过程与本申请实施例中对待归类文本进行预处理的过程类似,具体可参见本申请实施例中对待归类文本进行预处理的相关描述。
S402,对待归类文本进行预处理,得到待归类文本的目标文本特征。
对待归类文本进行预处理,得到待归类文本的目标文本特征的过程可以包括:对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中可以包括X个分词,X为正整数;分别对X个分词中的每个分词进行词向量转换,得到X个词向量;获取与X个分词对应的X个综合权值,一个分词对应一个综合权值;根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
S403,根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合。
根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合的过程可以包括:
(1)可以根据目标文本特征和多个参考文本对应的参考文本特征构建图模型。其中,图模型可以包括待归类文本对应的目标节点,以及多个参考节点,一个参考节点对应一个参考文本,也就是说,图模型中的目标节点可以用于表示待归类文本,图模型中的一个参考节点可以用于表示参考文本数据中的一个参考文本。图模型中存在边的任意两个节点之间的特征相似度大于相似度阈值;也就是说,若图模型中的目标节点与一个参考节点之间存在边,则可以表明目标节点与此参考节点之间的特征相似度大于相似度阈值,此处特征相似度可以包括:目标节点表示的待归类文本的目标文本特征与此参考节点表示的参考文本的参考文本特征之间的特征相似度;若图模型中的第一参考节点与第二参考节点之间存在边,则可以表明第一参考节点与第二参考节点之间的特征相似度大于相似度阈值,此处特征相似度可以包括:第一参考节点表示的参考文本的参考文本特征与第二参考节点表示的参考文本的参考文本特征之间的特征相似度。
需要说明的是,目标文本特征可以是指:对待归类文本进行预处理得到的目标文本向量,参考文本特征可以是指:对参考文本进行预处理得到的参考文本向量;目标文本特征与参考文本特征之间的特征相似度可以是指:目标文本向量与参考文本向量之间的向量内积;两个参考文本特征之间的特征相似度可以是指:两个参考文本向量之间的向量内积。
(2)可以采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。详细来说,采用目标社区发现算法对图模型中的节点进行节点聚类运算可以得到M个节点集合,M个节点集合中的任一个节点集合中的各个节点对应的文本组成了此任一节点集合对应的文本集合,也就是说,对图模型中的节点进行节点聚类运算可以确定M个文本集合;目标节点集合是M个节点集合中目标节点所在的节点集合,目标文本集合是M个文本集合中待归类文本所在的文本集合,M为正整数。通过这种方式,目标文本特征中携带待归类文本中的关键信息,参考文本特征中携带参考文本中的关键信息,采用待归类文本的目标文本特征和多个参考文本对应的参考文本特征对待归类文本和多个参考文本进行文本聚类处理,有效提升了文本聚类过程的泛化性能,提升文本分类能力,进一步提升文本分类准确率。
S404,基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
目标文本集合中可以包括N个参考文本,可以获取目标文本集合包括的N个参考文本,并基于N个参考文本所属的文本类型确定待归类文本所属的文本类型。基于N个参考文本所属的文本类型确定待归类文本所属的文本类型可以包括:首先,可以根据N个参考文本中每个参考文本所属的文本类型,确定目标文本集合中包括Y个文本类型,Y为小于或等于N的正整数;并基于N个参考文本中属于Y个文本类型中的任一文本类型下的参考文本的数量,确定在目标文本集合中此任一文本类型对应的文本数量占比;此任一文本类型对应的文本数量占比可以是指:N个参考文本中属于此任一文本类型下的参考文本的数量与目标文本集合中包括的所有参考文本的数量之间的比值。然后,可以将Y个文本类型中文本数量占比满足阈值的文本类型确定为待归类文本所属的文本类型。
其中,Y个文本类型中文本数量占比满足阈值的文本类型可以包括:Y个文本类型中文本数量占比大于文本数量占比阈值的文本类型;在此情况下,若Y个文本类型中文本数量占比大于文本数量占比阈值的文本类型为多个,则可以从Y个文本类型中文本数量占比大于文本数量占比阈值的多个文本类型中随机选取任一个文本类型,也可以从Y个文本类型中文本数量占比大于文本数量占比阈值的多个文本类型中选取文本数量占比最大的文本类型。通过这种方式,可以将目标文本集合包括的Y个文本类型中文本数量占比满足阈值的文本类型确定为待归类文本所属的文本类型,有效提升了文本分类准确率。
举例来说,目标文本集合中包括12个参考文本,目标文本集合包括的12个参考文本属于3个文本类型,分别是第一文本类型下的3个参考文本、第二文本类型下的4个参考文本和第三文本类型下的5个参考文本;第一文本类型的文本数量占比为3/12,第二文本类型的文本数量占比为4/12,第三文本类型的文本数量占比为5/12;若文本数量占比阈值为4/12,则可以选取文本占比数量大于文本数量占比阈值的第三文本类型作为待归类文本所属的文本类型。
需要说明的是,在确定出待归类文本所属的文本类型之后,可以将待归类文本作为一个参考文本,将待归类文本的目标文本特征作为一个参考文本特征进行存储,以便于参与下一个新的待归类文本的文本处理过程,确定新的待归类文本所属的文本类型。通过这种方式,在确定出待归类文本所属的文本类型之后,将待归类文本作为一个参考文本加入参考文本数据中,可以不断丰富参考文本数据,不断提升文本聚类能力、文本分类能力,进一步提升文本分类准确率。
本申请实施例中,可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合包括的N个参考文本所属的文本类型自动确定待归类文本所属为文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。另外,目标文本特征中携带待归类文本中的关键信息,参考文本特征中携带参考文本中的关键信息,采用待归类文本的目标文本特征和多个参考文本对应的参考文本特征对待归类文本和多个参考文本进行文本聚类处理,可以有效提升文本聚类过程的泛化性能,进一步提升文本分类准确率。在确定出待归类文本所属的文本类型之后,将待归类文本作为一个参考文本加入参考文本数据中,可以不断丰富参考文本数据,不断提升文本聚类能力、文本分类能力,进一步提升文本分类准确率。
请参见图5,图5是本申请实施例提供的另一种文本处理方法的流程示意图,该文本处理方法可以由本申请实施例提供的文本处理设备执行;该文本处理方法可以包括以下步骤S501至步骤S505:
S501,获取参考文本数据和待归类文本。
本申请实施例中步骤S501的执行过程可参见图4所示实施例中步骤S401的具体描述,在此不再赘述。
S502,对待归类文本进行预处理,得到待归类文本的目标文本特征。
对待归类文本进行预处理,得到待归类文本的目标文本特征的过程可以包括:对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中可以包括X个分词,X为正整数;分别对X个分词中的每个分词进行词向量转换,得到X个词向量;获取与X个分词对应的X个综合权值,一个分词对应一个综合权值;根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
S503,根据目标文本特征和多个参考文本对应的参考文本特征构建图模型。
图模型是由节点和边组成的,节点可以包括目标节点和多个参考节点。对于图模型中的节点,可以将目标文本特征进行空间点映射,得到目标节点;可以将参考文本数据中的任一参考文本对应的参考文本特征进行空间点映射,得到任一参考节点。换句话说,图模型中的目标节点对应待归类文本,图模型中的一个参考节点对应一个参考文本;也就是说,图模型中的目标节点可以用于表示待归类文本,图模型中的一个参考节点可以用于表示参考文本数据中的一个参考文本。
对于图模型中的边,若图模型中的任意两个节点之间的特征相似度大于相似度阈值,则可以在此任意两个节点之间创建一条边。具体来说,第一节点和第二节点是图模型中的任意两个节点,若第一节点所对应文本的文本特征与第二节点所对应文本的文本特征之间的特征相似度大于相似度阈值,则可以创建第一节点与第二节点之间的边。在一个实施例中,第一节点可以为目标节点,第二节点可以为图模型中的任一个参考节点;若目标节点与此参考节点之间的特征相似度大于相似度阈值,则可以创建目标节点与此参考节点之间的边;此处特征相似度可以包括:目标节点表示的待归类文本的目标文本特征与此参考节点表示的参考文本的参考文本特征之间的特征相似度。在另一个实施例中,第一节点可以为第一参考节点,第二节点可以为第二参考节点,第一参考节点可以是图模型中的任一个参考节点,第二参考节点可以是图模型中除第一参考节点之外的任一个参考节点;若第一参考节点与第二参考节点之间的特征相似度大于相似度阈值,则可以创建第一参考节点与第二参考节点之间的边;此处特征相似度可以包括:第一参考节点表示的参考文本的参考文本特征与第二参考节点表示的参考文本的参考文本特征之间的特征相似度。图6a是本申请实施例提供的一种图模型的示意图,如图6a所示,黑色圆圈可以用于表示待归类文本,白色圆圈可以用于表示参考文本,圆圈之间的线段可以用于表示节点之间的边。
需要说明的是,目标文本特征可以是指:对待归类文本进行预处理得到的目标文本向量,参考文本特征可以是指:对参考文本进行预处理得到的参考文本向量;目标文本特征与参考文本特征之间的特征相似度可以是指:目标文本向量与参考文本向量之间的向量内积;两个参考文本特征之间的特征相似度可以是指:两个参考文本向量之间的向量内积。
S504,采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。
本申请实施例提及的目标社区发现算法可以是InfoMap算法。InfoMap算法可以是指一种建立在转移概率基础上的聚类和社区发现算法,通过最小信息熵原理推导;InfoMap的聚类过程是通过构造转移概率,在图模型上进行随机游走来生成节点序列,再通过对节点序列进行层次编码,最小化层次编码得到的总平均编码长度,从而完成聚类;换句话说,最小化总平均编码长度的过程即是文本聚类处理的过程。其中,层次编码可以包括类间编码和类内编码,类间编码可以得到类间编码长度,类内编码可以得到类内编码长度,总平均编码长度可以是根据类内编码长度和类间编码长度确定的。采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合的步骤可以包括子步骤s51至步骤s56:
s51,获取图模型中节点之间的转移概率。
图模型中节点之间的转移概率可以是根据图模型中节点之间的特征相似度确定的。具体来说,可以确定图模型中存在边的任意两个节点之间的特征相似度,然后将确定得到的各个特征相似度进行归一化处理,便可得到各个特征相似度分别对应的转移概率。归一化处理的过程可以包括:确定各个特征相似度的特征相似度总和,针对各个特征相似度中的任一个特征相似度,可以将该任一个特征相似度与特征相似度总和之间的比值确定为该任一个特征相似度对应的转移概率。举例来说,第i个节点和第j个节点为图模型中的两个节点,第i个节点和第j个节点之间存在边,i和j均为正整数且i不等于j;可以将第i个节点和第j个节点之间的特征相似度与特征相似度总和之间的比值确定为第i个节点和第j个节点之间的转移概率。
s52,基于图模型中节点之间的转移概率在图模型的多个节点之间进行随机游走,按照随机游走过程中在图模型中所经过的节点对应的顺序,对图模型中的多个节点进行排序,得到节点序列。
获取到图模型中节点之间的转移概率之后,可以基于图模型中节点之间的转移概率在图模型的多个节点之间进行随机游走,并按照随机游走过程中在图模型中所经过的节点对应的顺序,对图模型中的多个节点进行排序,得到节点序列。详细地说,以图模型中的第i个节点和第j个节点为例,在图模型中随机游走的过程可以为:从图模型中的第j个节点出发,按照第j个节点与第i个节点之间的转移概率跳转至第i个节点,再从第i个节点出发按照转移概率跳转至图模型中的下一个节点,重复此过程便可实现在图模型中随机游走。
本申请实施例以随机游走得到的节点序列为{节点1,节点2,…,节点n}为例进行说明,节点序列中共包括n个节点,即图模型中共包括n个节点,分别是1个目标节点和n-1个参考节点,也就是说,参考文本数据中共包括n-1个参考文本,n-1个参考文本分别对应n-1个参考文本特征,n为正整数。
s53,获取节点序列中包括的M个序列类以及每个序列类包括的节点。
在图模型中随机游走得到节点序列之后,可以获取节点序列中包括的M个序列类以及M个序列类中每个序列类包括的节点,M为正整数。
在一个实施例中,节点序列中包括的序列类的数量可以是根据参考文本数据包括的文本类型的数量确定的,也就是说,参考文本数据中包括的文本类型的数量即是节点序列中包括的序列类的数量,参考文本数据中包括M个文本类型,则节点序列中包括M个序列类。各个序列类中包括的节点的数量可以是根据参考文本数据中包括的各个文本类型下的参考文本数量确定的。例如,参考文本数据中可以包括3个文本类型下的参考文本,分别是第一文本类型下的10个参考文本,第二文本类型下的12个文本,第三文本类型下的15个文本,那么可以按照节点序列中各个节点的排列顺序将节点序列划分为3个序列类,第1个序列类中包括10个节点,第2个序列类中包括12个节点,第3个序列类中包括15个节点;容易理解的是,被划分到目标节点的序列类中的节点数量增加1,例如,目标节点被划分中第1个序列类中,则第1个序列类中的节点数量增加1,最终第一序列类中包括11个节点。
在另一个实施例中,节点序列中包括的序列类的数量以及各个序列类中包括的节点的数量还可以是随机设置的初始值;例如,可以设置节点序列中包括3个序列类,并且各个序列类中包括的节点的数量相等。又如,可以设置节点序列中包括3个序列类,并且各个序列类中包括的节点的数量不相等。
针对在图模型中随机游走得到的节点序列{节点1,节点2,…,节点n},表3示出了本申请实施例提供的一种将节点序列划分为M个序列类的示例:
表3
Figure BDA0003071983550000221
s54,基于M个序列类以及每个序列类包括的节点对节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度。
在类间编码和类内编码的过程中,可以对M个序列类采用一套编码,对M个序列类中每个序列类包括的各个节点采用另一套编码。详细来说,可以在M个序列类的每个序列类之前***一个类别标记,在M个序列类的每个序列类结束处***一个终止标记;对M个序列类采用一套编码可以包括:可以对类别标记采用一套单独的编码;例如,按照{第1个序列类,第2个序列,…,第M个序列类}的排列顺序,依次***的类别标记为{001,002,…,00M}。对M个序列类中每个序列类包括的各个节点采用另一套编码可以包括:可以对M个序列类中的每个序列类中的各个节点采用另一套单独的编码,各个序列类中的节点可以采用同一套编码;例如,按照第1个序列类中的节点{节点1,节点2}的排列顺序,对第1个序列类中包括的节点采用的编码可以为{010,011};按照第2个序列类中的节点{节点3,节点4,节点5}的排列顺序,对第2个序列类中包括的节点采用的编码可以为{010,011,012};终止标记可以均为000。表4示出了本申请实施例提供的一种类间编码和类内编码的编码结果示例:
表4
Figure BDA0003071983550000222
在一个实施例中,基于M个序列类以及每个序列类包括的节点对节点序列进行类间编码处理,确定类间编码长度的过程可以包括:
(1)获取M个序列类中的任一个序列类与其他序列类之间的序列类转移概率,得到M个序列类转移概率;其他序列类是M个序列类中除任一个序列类之外的M-1个序列类。第i个序列类是M个序列类中的任一个序列类,获取M个序列类中的第i个序列类与其他序列类之间的序列类转移概率的过程可参见下述公式1:
Figure BDA0003071983550000231
如上述公式1所示,
Figure BDA0003071983550000232
表示第i个序列类与其他序列类之间的序列类转移概率,此处其他序列类是指M个序列类中除第i个序列类之外的M-1个序列类;pα表示图模型中的节点α出现的概率,节点α出现的概率可以是指:节点α的数量与图模型中节点总数之间的比值;pα→β表示图模型中节点α与节点β之间的转移概率;也就是说,第i个序列类与其他序列类之间的序列类转移概率可以是根据属于第i个序列类的节点出现的概率,以及属于第i个序列类的节点与属于其他序列类的节点之间的转移概率计算得到的。
上述公式1的变形可参见下述公式2和公式3:
Figure BDA0003071983550000233
Figure BDA0003071983550000234
如上述公式2和公式3所示,τ表示穿越概率,表示图模型中的节点α以1-τ的概率按照转移概率pα→β随机游走,以τ的概率随机选择图模型中的任意一个节点进行跳转,τ为区间(0,1)内的实数;n表示图模型中包括的节点总数,即图模型中共包括n个节点;ni表示第i个序列类中包含的节点总数,即第i个序列类中共包括ni个节点。
(2)根据M个序列类转移概率计算类间编码长度。类间编码长度的计算过程可参见下述公式4和公式5:
Figure BDA0003071983550000235
Figure BDA0003071983550000236
如上述公式4和公式5所示,H(Q)表示类间编码长度;
Figure BDA0003071983550000237
表示第i个序列类与其他序列类之间的序列类转移概率,此处其他序列类是指M个序列类中除第i个序列类之外的M-1个序列类,i的取值范围为[1,M];
Figure BDA0003071983550000241
表示M个序列类转移概率之和。
在一个实施例中,基于M个序列类以及每个序列类包括的节点对节点序列进行类内编码处理,确定类内编码长度的过程可以包括:
(1)获取任一个序列类内各个节点出现的概率,并根据此任一个序列类内各个节点出现的概率以及此任一个序列类与其他序列类之间的序列类转移概率计算此任一个序列类的序列类内编码长度,得到M个序列类的序列类内编码长度,此处的其他序列类是指M个序列类中除此任一个序列类之外的M-1个序列类。第i个序列类是M个序列类中的任一个序列类,根据第i个序列类内各个节点出现的概率以及第i个序列类与其他序列类之间的序列类转移概率计算第i个序列类的序列类内编码长度的过程可参见下述公式6和公式7:
Figure BDA0003071983550000242
Figure BDA0003071983550000243
如上述公式6和公式7所示,H(pi)表示第i个序列类的序列类内编码长度;
Figure BDA0003071983550000244
表示第i个序列类与其他序列类之间的序列类转移概率;pα表示图模型中的节点α出现的概率,节点α出现的概率可以是指:节点α的数量与图模型中节点总数之间的比值。
(2)根据M个序列类的序列类内编码长度确定类内编码长度。类内编码长度可以是根据M个序列类的序列类内编码长度计算得到的,例如类内编码长度可以是M个序列类的序列类内编码长度之和。
s55,基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度,并按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点。
获取到类间编码长度和类内编码和长度之后,可以基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度。基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度的过程可参见下述公式8:
Figure BDA0003071983550000245
如上述公式8所示,L(M)表示对节点序列的总平均编码长度;H(Q)表示类间编码长度;
Figure BDA0003071983550000246
表示第i个序列类与其他序列类之间的序列类转移概率;
Figure BDA0003071983550000247
表示M个序列类转移概率之和;H(pi)表示第i个序列类的序列类内编码长度;
Figure BDA0003071983550000251
表示类内编码长度,i的取值范围为[1,M];M表示图模型中包括M个序列类。
确定对节点序列的总平均编码长度之后,可以按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点。具体地,可以按照减小总平均编码长度的原则更新任一个序列类与其他序列类之间的序列类转移概率,即更新M个序列类转移概率;M个序列类转移概率更新后,可以按照公式2和公式3更新ni,即更新M个序列类以及每个序列类包括的节点数量;也就是说,可以基于更新后的M个序列类转移概率,确定更新后的M个序列类中每个序列类包括的节点数量;进一步地,可按照节点序列中各个节点由前到后的排列顺序,将节点序列按照更新后的M个序列类中每个序列类包括的节点数量重新划分为M个序列类。
s56,在总平均编码长度小于编码长度阈值时,获取目标节点所在的目标序列类,并将目标序列类中包括的节点作为目标节点集合中的节点。
按照减小总平均编码长度的原则不断多次更新M个序列类以及每个序列类包括的节点之后,在总平均编码长度小于编码长度阈值时,可以获取目标节点所在的目标序列类,并将目标序列类中包括的节点作为目标节点集合中的节点,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。图6b本申请实施例提供的一种文本聚类处理完成后的图模型的示意图,图6b所示的图模型是对上述图6a所示的图模型进行文本聚类处理得到的,如图6b所示,图模型中包括的各个节点最终可以聚类为3个序列类,一个序列类对应一个节点集合,待处理文本对应的目标节点所属目标序列类,目标序列类中包括的节点组成目标节点集合。
S505,基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
本申请实施例中步骤S505的执行过程可参见图4所示实施例中步骤S404的具体描述,在此不再赘述。
本申请实施例中,可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合中包括的参考文本所属的文本类型自动确定待归类文本所属为文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。另外,本申请实施例可以根据目标文本特征以及参考文本特征构造图模型,将待归类文本以及参考文本数据中的参考文本转换为图模型中的节点,并根据目标文本特征以及参考文本特征之间、参考文本特征之间的关联关系(即特征相似度)构造转移概率,在图模型上进行随机游走,采用目标社区发现算法预测待归类文本所属的文本类型,整体文本分类效率较高,并且文本聚类过程具有较强的泛化性能,有效提升文本分类准确率。
请参见图7,图7是本申请实施例提供的另一种文本处理方法的流程示意图,该文本处理方法可以由本申请实施例提供的文本处理设备执行;该文本处理方法可以包括以下步骤S701至步骤S705:
S701,获取参考文本数据和待归类文本。
本申请实施例中步骤S701的执行过程可参见图4所示实施例中步骤S401的具体描述,在此不再赘述。
S702,对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中包括X个分词。
获取到待归类文本之后,首先可以根据停用词库对待归类文本进行停用词过滤处理,停用词过滤处理可对待归类文本中的一些无用信息进行过滤,免去对待归类文本中的无用信息进行处理,可以有效提升对待归类文本的处理效率,进而可以有效提升文本分类效率;停用词库中可以包括日期时间、姓名、邮箱、手机号码等无用词语。然后,可以对停用词过滤处理后的待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中包括X分词,X为正整数。
在一个实施例中,对停用词过滤处理后的待归类文本进行分词处理得到的分词集中还可以包括每个分词的词性,词性可以包括但不限于:非专有名词、专有名词、动词、形容词等等;其中,专有名词可以是指特定的或独一无二的人或物,专有名词可以包括人名、地名、节日名、国家名、景观名;非专有名词可以是指除专有名词之外的其他名词,例如工人、农民等等。
S703,分别对X个分词中的每个分词进行词向量转换,得到X个词向量。
对待归类文本进行分词处理得到分词集之后,可以分别对分词集中的X个分词中的每个分词进行词向量转换,得到X个词向量。其中,词向量转换又叫Word(一种文本处理工具)嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,可以将单词或短语映射为实数的向量,它涉及从每个单词或短语一维的空间到具有更低维度的连续向量空间的数学嵌入;词向量转换可以采用词向量转换工具Word2vec,Word2vec是一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。
S704,获取与X个分词对应的X个综合权值。
分别对分词集中的X个分词中的每个分词进行词向量转换,得到X个词向量之后,可以获取与X个分词对应的X个综合权值,一个分词对应一个综合权值。第j个分词是X个分词中的任一个,j为小于或等于X的正整数,获取第j个分词的综合权值的过程可以包括以下子步骤s71至s72:
s71,将第j个分词与参考词库进行匹配,获取与第j个分词匹配的匹配词集合。
参考词库可以包括以下至少一个:主题词库、关键词库、类型实体词库;主题词库、关键词库以及类型实体词库均可以是从参考文本数据包括的多个参考文本中提取到的。主题词库中可以包括多个主题词,一个主题词对应一个主题词权值;关键词库中可以包括多个关键词,一个关键词对应一个关键词权值;类型实体词库可以包括多个类型实体词,一个类型实体词对应一个类型实体词权值。
s72,根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值。
在一个实施例中,若匹配词集合中包括一个匹配词,则可以将匹配词对应的权值确定为第j个分词的综合权值;例如匹配词集合中包括一个主题词,则可以将主题词对应的主题词权值确定为第j个分词的综合权值;又如,匹配词集合中包括一个关键词,则可以将关键词对应的关键词权值确定为第j个分词的综合权值。
在另一个实施例中,若匹配词集合中包括至少两个匹配词,且至少两个匹配词属于不同的参考词库,则可以将至少两个匹配词中各个匹配词对应的权值中的最大权值确定为第j个分词的综合权值。以匹配词集合中包括主题词、关键词、类型实体词共三个匹配词为例,可以将主题词对应的主题词权值、关键词对应的关键词权值、以及类型实体词对应的类型实体词权值中的最大权值确定为第j个分词的综合权值,可参见下述公式9:
δzh=max(Wtopic,TF-IDF,δorg)公式9
如上述公式9所示,δzh表示第j个分词的综合权值,Wtopic表示主题词权值;TF-IDF表示关键词权值;δorg表示类型实体词权值。
在另一个实施例中,若匹配词集合为空,则可以将主题词库中的各个主题词对应的主题词权值、关键词库中的各个关键词对应的关键词权值,以及类型实体词库中的各个类型实体词对应的类型实体词权值中的最小权值确定为第j个分词的综合权值;也就是说,若匹配词集合为空,则可以确定主题词库中的各个主题词对应的主题词权值中的最小主题词权值,确定关键词库中的各个关键词对应的关键词权值中的最小关键词权值,以及确定类型实体词库中的各个类型实体词对应的类型实体词权值中的最小类型实体词权值,并将最小主题词权值、最小关键词权值以及最小类型实体词权值中的最小权值确定为第j个分词的综合权值,可参见下述公式10:
δzh=min(Wtopicmin,TF-IDFminorgmin)公式10
如上述公式10所示,δzh表示第j个分词的综合权值;Wtopicmin表示主题词库中的各个主题词对应的主题词权值中的最小主题词权值;TF-IDFmin表示关键词库中的各个关键词对应的关键词权值中的最小关键词权值;δorgmin表示类型实体词库中的各个类型实体词对应的类型实体词权值中的最小类型实体词权值。
主题词库、关键词库以及类型实体词库均可以是从参考文本数据包括的多个参考文本中提取到的,下面分别对主题词库中的主题词权值、关键词库中的关键词权值以及类型实体词库中的类型实体词权值进行介绍:
(1)主题词权值
主题词库可以包括普通主题词库,领域主题词库和无关主题词库。从参考文本数据包括的多个参考文本中提取主题词库的过程可以包括:首先,针对参考文本数据中的任一个参考文本,可以对该参考文本进行分词处理,得到该参考文本的参考词集,参考词集中可以包括一个或多个参考词,对参考文本进行分词处理的过程与对待归类文本进行分词处理的过程类似,可参见对待归类文本进行分词处理的相关描述。其次,针对参考词集中的任一个参考词,可以获取该参考词在各个文本类型下的参考文本中出现的频率;目标文本类型为参考文本数据中的任一个文本类型,参考词在目标文本类型下的参考文本中出现的频率可以是指:参考词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值;然后,获取该参考词在各个文本类型下的参考文本中出现的频率差值;若该参考词在各个文本类型下的参考文本中出现的频率差值大于第一频率差值阈值,则可以将该参考词添加至领域主题词库中;若该参考词在各个文本类型下的参考文本中出现的频率差值小于第二频率差值阈值,则可以将该参考词添加至无关主题词库中;若该参考词在各个文本类型下的参考文本中出现的频率差值小于或等于第一频率差值阈值,且大于或等于第二频率差值阈值,则可以将该参考词添加至普通主题词库中。
在一个实施例中,第一主题词是普通主题词库中的任一个普通主题词,第一主题词的主题词权值的确定过程可以包括:首先,可以确定第一主题词的词频以及第一主题词对应的文本频率;第一主题词的词频可以包括第一主题词在多个参考文本中出现的概率,第一主题词在多个参考文本中出现的概率可以是指:第一主题词在参考文本数据中包括的多个参考文本中出现的次数与参考文本数据中包括的多个参考文本的总词语数之间的比值;第一主题词对应的文本频率可以包括:多个文本类型下的多个参考文本中包含第一主题词的参考文本的数量与多个文本类型下的多个参考文本的总数量之间的比值。其次,可以获取普通主题词库中的各个普通主题词对应的文本频率,并在各个普通主题词对应的文本频率中确定普通主题词库中的最大文本频率;普通主题词库中的普通主题词对应的文本频率的计算过程与第一主题词对应的文本频率的计算过程类似,可参见第一主题词对应的文本频率的计算过程的相关描述。然后,可以根据第一主题词的词频、第一主题词对应的文本频率、以及普通主题词库中的最大文本频率,计算第一主题词的主题词权值。第一主题词的主题词权值的确定过程可参见下述公式11:
Figure BDA0003071983550000291
如上述公式11所示,w1表示第一主题词,第一主题词为普通主题词库中的任一个普通主题词;PWc(w1)为第一主题词的主题词权值;tfc表示第一主题词的词频;maxdfk表示普通主题词库中的最大文本频率;dfc表示第一主题词对应的文本频率;b为对数函数的底数,是一个正实数。
在另一个实施例中,第二主题词是领域主题词库中的任一个领域主题词,第二主题词的主题词权值的确定过程可以包括:首先,可以确定第二主题词的词频以及第二主题词对应的文本频率;第二主题词的词频可以包括:第二主题词在所述多个参考文本中出现的概率,第二主题词在所述多个参考文本中出现的概率可以是指:第二主题词在参考文本数据中包括的多个参考文本中出现的次数与参考文本数据中包括的多个参考文本的总词语数之间的比值;第二主题词对应的文本频率可以包括:多个文本类型下的多个参考文本中包含第二主题词的参考文本的数量与多个文本类型下的多个参考文本的总数量之间的比值。其次,可以获取领域主题词库中的各个领域主题词对应的文本频率,并在各个领域主题词的文本频率中确定领域主题词库中的最大文本频率;领域主题词库中的领域主题词对应的文本频率的计算过程与第二主题词对应的文本频率的计算过程类似,可参见第二主题词对应的文本频率的计算过程的相关描述。然后,可以获取普通主题词库的各个普通主题词的主题词权值,并在各个普通主题词的主题词权值中确定普通主题词库中的最大主题词权值;普通主题词库的各个普通主题词的主题词权值的计算过程可参见上述第一主题词的主题词权值的计算过程。从而,可以根据第二主题词的词频、第二主题词对应的文本频率、领域主题词库中的最大文本频率、以及普通主题词库中的最大主题词权值,计算第二主题词的主题词权值。第二主题词的主题词权值的确定过程可参见下述公
式12:
Figure BDA0003071983550000301
如上述公式12所示,w2表示第二主题词,第二主题词是领域主题词库中的任一个领域主题词;PWf(w2)表示第二主题词的主题词权值;tff表示第二主题词的词频;maxdfl表示领域主题词库中的最大文本频率;dff表示第二主题词对应的文本频率;maxPWc表示普通主题词库中的最大主题词权值;b为对数函数的底数,是一个正实数。
在另一个实施例中,第三主题词是无关主题词库中的任一个无关主题词,则第三主题词的主题词权值可以为0。
在一个实施例中,还可以采用词性加权值对主题词权值进行优化。具体来说,可以采用词性加权值对主题词权值进行优化,得到优化后的主题词权值,例如优化后的主题词权值可以是词性加权值与主题词权值之间的乘积;词性加权值可以包括以下任一种:专有名词加权值、非专有名词加权值、形容词加权值、动词加权值等等。采用词性加权值对主题词权值进行优化的过程可参见下述公式13:
Wtopic(w)=PW×δcx(w)公式13
如上述公式13所示,w表示主题词库中的任一个主题词,w可以表示普通主题词库中的任一个普通主题词,也可以表示领域词库中的任一个领域词;Wtopic(w)表示主题词优化后的主题词权值;PW表示主题词优化前的主题词权值,主题词优化前的主题词权值可以包括普通主题词的主题词权值或领域主题词的主题词权值;δcx(w)表示词性加权值。
在一个实施例中,还可以根据主题词库中的各个主题词提取各个文本类型的主题标签。详细地说,可以从主题词库中获取各个文本类型下的多个主题词以及每个主题词的主题词权值;然后,可以将各个文本类型下主题词权值大于主题词权值阈值的主题词分别作为各个文本类型的主题标签。通过这种方式,可以在确定待归类文本所属的文本类型后,可以将待归类文本与待归类文本所属的文本类型的主题标签进行关联存储,便于快速识别待归类文本所属的文本类型;类似地,可以将参考文本与参考文本所属的文本类型的主题标签进行关联存储,便于快速识别参考文本所属的文本类型。
(2)关键词权值
关键词库是从参考文本数据包括的多个参考文本中提取到的,从参考文本数据包括的多个参考文本中提取关键词库的过程可以包括:首先,针对参考文本数据中的任一个参考文本,可以对该参考文本进行分词处理,得到该参考文本的参考词集,参考词集中可以包括一个或多个参考词,对参考文本进行分词处理的过程与对待归类文本进行分词处理的过程类似,可参见对待归类文本进行分词处理的相关描述。其次,针对参考词集中的任一个参考词,可以按照下述公式14至公式16计算该参考词的关键词权值,若该参考词的关键词权值大于关键词权值阈值,则可以将该参考词添加至关键词库中,即该参考词可以作为关键词库中的一个关键词。
目标关键词是关键词库中的任一个关键词,目标关键词属于多个文本类型中的目标文本类型;目标关键词的关键词权值的确定过程可以包括:获取目标关键词的词频和目标关键词的逆文本频率;然后根据目标关键词的词频和目标关键词的逆文本频率,计算目标关键词的关键词权值;其中,目标关键词的词频可以包括:目标关键词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值;目标关键词的逆文本频率可以是指:多个文本类型下的所有参考文本的数量与多个文本类型中除目标文本类型之外的其他文本类型下的所有参考文本的数量之间的比值。目标关键词的关键词权值的确定过程可参见下述公式14至公式16:
Figure BDA0003071983550000321
如上述公式14所示,k表示目标关键词,目标关键词是关键词库中的任一个关键词;TF(k)表示目标关键词的词频;TT(k)表示在目标文本类型下的参考文本中出现的次数;TW表示目标文本类型下的参考文本的总词语数。
Figure BDA0003071983550000322
如上述公式5所示,IDF(k)表示目标关键词的逆文本频率;TS表示多个文本类型下的所有参考文本的数量;OT(k)表示多个文本类型中除目标文本类型之外的其他文本类型下的所有参考文本的数量。
TF-IDF(k)=TF(k)×IDF(k)公式16
如上述公式6所示,TF-IDF(k)表示目标关键词的关键词权值;TF(k)表示目标关键词的词频;IDF(k)表示目标关键词的逆文档频率;即目标关键词的关键词权值可以是目标关键词的词频与目标关键词的逆文档频率之间的乘积。
需要说明的是,目标文本类型下的目标关键词的关键词权值越大,表示目标关键词在目标文本类型中出现次数较多,在除目标文本类型之外的其他文本类型中出现的次数较少,目标关键词越作为目标文本类型的识别特征时的识别准确率越高。
(3)类型实体词权值。
类型实体词库是从参考文本数据包括的多个参考文本中提取到的,从参考文本数据包括的多个参考文本中提取类型实体词库的过程可以包括:可以采用实体词识别工具(Named Entity Recognition,NER)从各个文本类型下的参考文本中识别出类型实体词(例如警察局、派出所、教育局等等类型实体词),识别得到的各个文本类型下的类型实体词共同组成类型实体词库。实体词识别工具可以是信息提取、问答***、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位,实体词识别工具可以用于从文本中识别出实体词。
目标类型实体词是类型实体词库中的任一个类型实体词,目标类型实体词属于多个文本类型中的目标文本类型;目标类型实体词的类型实体词权值的确定过程可以包括:获取目标类型实体词在目标文本类型下的参考文本中出现的次数,获取目标文本类型下的参考文本的总词语数,将目标类型实体词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值确定为目标类型实体词的类型实体词权值。
S705,根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
获取与X个分词对应的X个综合权值之后,可以根据X个综合权值对X个词向量进行加权求和,得到待处理文本的目标文本向量,可以将待处理文本的目标文本向量作为待归类文本的目标文本特征。
S706,根据目标文本特征和多个参考文本对应的参考文本特征构建图模型。
本申请实施例中步骤S706的执行过程可参见图5所示实施例中步骤S503的具体描述,在此不再赘述。
S707,采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。
本申请实施例中步骤S707的执行过程可参见图5所示实施例中步骤S504的具体描述,在此不再赘述。
S708,基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
本申请实施例中步骤S708的执行过程可参见图4所示实施例中步骤S404的具体描述,在此不再赘述。
本申请实施例中,可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合中包括的参考文本所属的文本类型自动确定待归类文本所属为文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。另外,待归类文本的目标文本特征的确定过程是基于多个特征维度(例如主题词维度、关键词维度、类型实体词维度等等)的,综合考虑多个特征维度的目标文本特征具有待归类文本的关键信息,使得基于目标文本特征的文本聚类过程更加准确,具备更高的泛化性能,有利于提升文本分类准确率。
基于上述的方法实施例,本申请实施例还提供了一种文本处理装置。请参见图8,图8是本申请实施例提供的一种文本处理装置的结构示意图。图8所示的文本处理装置80可运行如下单元:
获取单元801,用于获取参考文本数据和待归类文本;参考文本数据包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
处理单元802,用于对待归类文本进行预处理,得到待归类文本的目标文本特征;
处理单元802,还用于根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;
处理单元802,还用于基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
在一个实施例中,目标文本集合中包括N个参考文本,N为正整数;处理单元802,用于基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型时,具体用于执行如下步骤:
根据N个参考文本中每个参考文本所属的文本类型,确定目标文本集合中包括Y个文本类型,Y为小于或等于N的正整数;
基于N个参考文本中属于Y个文本类型中的任一文本类型下的参考文本的数量,确定在目标文本集合中任一文本类型对应的文本数量占比;
将Y个文本类型中文本数量占比满足阈值的文本类型确定为待归类文本所属的文本类型。
在一个实施例中,处理单元802,用于根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行聚类处理,得到待归类文本所在的目标文本集合时,具体用于执行如下步骤:
根据目标文本特征和多个参考文本对应的参考文本特征构建图模型;图模型由节点组成,节点包括目标节点和多个参考节点,目标节点对应待归类文本,一个参考节点对应一个参考文本;
采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。
在一个实施例中,图模型还包括边;处理单元802,用于根据所述目标文本特征和所述多个参考文本对应的参考文本特征构建图模型时,具体用于执行如下步骤:
将目标文本特征进行空间点映射,得到目标节点;
将参考文本数据中的任一参考文本对应的参考文本特征进行空间点映射,得到任一参考节点;
若任意两个节点之间的特征相似度大于相似度阈值,则创建任意两个节点之间的边。
在一个实施例中,处理单元802,用于采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合时,具体用于执行如下步骤:
获取图模型中节点之间的转移概率;
基于图模型中节点之间的转移概率在图模型中的多个节点之间进行随机游走,并按照随机游走过程中在图模型中所经过的节点对应的顺序,对图模型中的多个节点进行排序,得到节点序列;
获取节点序列中包括的M个序列类以及每个序列类包括的节点,M为正整数;
基于M个序列类以及每个序列类包括的节点对节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度;
基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度,并按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点;
在总平均编码长度小于编码长度阈值时,获取目标节点所在的目标序列类,并将目标序列类中包括的节点作为目标节点集合中的节点。
在一个实施例中,处理单元802,用于基于M个序列类以及每个序列类包括的节点对所述节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度时,具体用于执行如下步骤:
获取M个序列类中的任一个序列类与其他序列类之间的序列类转移概率,得到M个序列类转移概率;其他序列类是M个序列类中除任一个序列类之外的M-1个序列类;
根据M个序列类转移概率计算类间编码长度;
获取任一个序列类内各个节点出现的概率,并根据任一个序列类内各个节点出现的概率以及任一个序列类与其他序列类之间的序列类转移概率,计算任一个序列类的序列类内编码长度,得到M个序列类的序列类内编码长度;
根据M个序列类的序列类内编码长度确定类内编码长度。
在一个实施例中,处理单元802,用于按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点时,具体用于执行如下步骤:
按照减小总平均编码长度的原则更新M个序列类转移概率;
基于更新后的M个序列类转移概率,确定更新后的M个序列类中每个序列类包括的节点数量;
按照节点序列中各个节点由前到后的排列顺序,将节点序列按照更新后的M个序列类中每个序列类包括的节点数量重新划分为M个序列类。
在一个实施例中,处理单元802,用于对待归类文本进行预处理,得到待归类文本的目标文本特征时,具体用于执行如下步骤:
对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中包括X个分词,X为正整数;
分别对X个分词中的每个分词进行词向量转换,得到X个词向量;
获取与X个分词对应的X个综合权值,一个分词对应一个综合权值;
根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
在一个实施例中,第j个分词是X个分词中的任一个,j为小于或等于X的正整数;处理单元802,用于获取与X个分词对应的X个综合权值时,具体用于执行如下步骤:
将第j个分词与参考词库进行匹配,获取与第j个分词匹配的匹配词集合;参考词库包括以下至少一个:主题词库、关键词库以及类型实体词库;
根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值。
在一个实施例中,主题词库中包括多个主题词,一个主题词对应一个主题词权值;关键词库中包括多个关键词,一个关键词对应一个关键词权值;类型实体词库中包括多个类型实体词,一个类型实体词对应一个类型实体词权值;处理单元802,用于根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值时,具体用于执行如下步骤:
若匹配词集合中包括一个匹配词,则将匹配词对应的权值确定为第j个分词的综合权值;
或者,若匹配词集合中包括至少两个匹配词,且至少两个匹配词属于不同的参考词库,则将至少两个匹配词中各个匹配词对应的权值中的最大权值确定为第j个分词的综合权值;
或者,若匹配词集合为空,则将主题词库中的各个主题词对应的主题词权值、关键词库中的各个关键词对应的关键词权值,以及类型实体词库中的各个类型实体词对应的类型实体词权值中的最小权值确定为第j个分词的综合权值。
在一个实施例中,主题词库是从多个文本类型下的多个参考文本中提取的,主题词库包括普通主题词库和领域主题词词库,普通主题词库中包括多个普通主题词,领域主题词库包括多个领域主题词,第一主题词是普通主题词库中的任一个普通主题词;第一主题词的主题词权值的确定过程包括:
确定第一主题词的词频以及第一主题词对应的文本频率;第一主题词的词频包括:第一主题词在多个参考文本中出现的概率;第一主题词对应的文本频率包括:多个参考文本中包含第一主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取普通主题词库中的各个普通主题词对应的文本频率,并在各个普通主题词对应的文本频率中确定普通主题词库中的最大文本频率;
根据第一主题词的词频、第一主题词对应的文本频率、以及普通主题词库中的最大文本频率,计算第一主题词的主题词权值。
在一个实施例中,第二主题词是领域主题词库中的任一个领域主题词;第二主题词的主题词权值的确定过程包括:
确定第二主题词的词频以及第二主题词对应的文本频率;第二主题词的词频包括:第二主题词在多个参考文本中出现的概率;第二主题词对应的文本频率包括:多个参考文本中包含第二主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取领域主题词库中的各个领域主题词对应的文本频率,并在各个领域主题词的文本频率中确定领域主题词库中的最大文本频率;
获取普通主题词库的各个普通主题词的主题词权值,并在各个普通主题词的主题词权值中确定所述普通主题词库中的最大主题词权值;
根据所述第二主题词的词频、所述第二主题词对应的文本频率、所述领域主题词库中的最大文本频率、以及所述普通主题词库中的最大主题词权值,计算第二主题词的主题词权值。
在一个实施例中,关键词库是从多个文本类型下的多个参考文本中提取的,目标关键词是关键词库中的任一个关键词,目标关键词属于多个文本类型中的目标文本类型;目标关键词的关键词权值的确定过程包括:
获取目标关键词的词频和目标关键词的逆文本频率;
根据目标关键词的词频和目标关键词的逆文本频率,计算目标关键词的关键词权值;
其中,目标关键词的词频包括:目标关键词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值;目标关键词的逆文本频率是指:多个文本类型下的所有参考文本的数量与多个文本类型中除目标文本类型之外的其他文本类型下的所有参考文本的数量之间的比值。
根据本申请的一个实施例,图4、图5以及图7所示的文本处理方法所涉及各个步骤可以是由图8所示的文本处理装置80中的各个单元来执行的。例如,图4所示的文本处理方法中步骤S401可由图8所示的文本处理装置80中的获取单元801来执行,图4所示的文本处理方法中步骤S402至步骤S404可由图8所示的文本处理装置80中的处理单元802来执行;再如,图5所示的文本处理方法中步骤S501可由图8所示的文本处理装置80中的获取单元801来执行,图5所示的文本处理方法中步骤S502至步骤S505可由图8所示的文本处理装置80中的处理单元802来执行;再如,图7所示的文本处理方法中步骤S701可由图8所示的文本处理装置80中的获取单元801来执行,图7所示的文本处理方法中步骤S702至步骤S708可由图8所示的文本处理装置80中的处理单元802来执行。
根据本申请的另一个实施例,图8所示的文本处理装置80中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,文本处理装置80也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4、图5以及图7所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的文本处理装置80,以及来实现本申请实施例的文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,可以获取参考文本数据和待归类文本,参考文本数据可以包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;然后,可以对待归类文本进行预处理,得到待归类文本的目标文本特征;根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;其次,可以获取目标文本集合包括的N个参考文本,并基于N个参考文本所属的文本类型确定待归类文本所属的文本类型,N为正整数。由此可见,本申请实施例可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合包括的N个参考文本所属的文本类型自动确定待归类文本所属为文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。
基于上述方法以及装置实施例,本申请实施例提供了一种文本处理设备。请参见图9,图9是本申请实施例提供的一种文本处理设备的结构示意图。图9所示的文本处理设备90至少包括处理器901、输入接口902、输出接口903以及计算机可读存储介质904。其中,处理器901、输入接口902、输出接口903以及计算机可读存储介质904可通过总线或其他方式连接。
计算机可读存储介质904可以存储在文本处理设备90的存储器中,所述计算机可读存储介质904用于存储计算机程序,所述计算机程序包括计算机指令,所述处理器901用于执行所述计算机可读存储介质904存储的程序指令。处理器901(或称CPU(CentralProcessing Unit,中央处理器))是文本处理设备90的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory)904,所述计算机可读存储介质904是文本处理设备90中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质904既可以包括文本处理设备90中的内置存储介质,当然也可以包括文本处理设备90支持的扩展存储介质。计算机可读存储介质904提供存储空间,该存储空间存储了文本处理设备90的操作***。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质904可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质904。
在一个实施例中,所述计算机可读存储介质904可由处理器901加载并执行计算机可读存储介质904中存放的一条或多条计算机指令,以实现上述有关图4、图5、图7所示的文本处理方法的相应步骤。具体实现中,计算机可读存储介质904中的计算机指令由处理器901加载并执行如下步骤:
获取参考文本数据和待归类文本;参考文本数据包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
对待归类文本进行预处理,得到待归类文本的目标文本特征;
根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;
基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。
在一个实施例中,目标文本集合中包括N个参考文本,N为正整数;计算机可读存储介质904中的计算机指令由处理器901加载并执行基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型时,具体用于执行如下步骤:
根据N个参考文本中每个参考文本所属的文本类型,确定目标文本集合中包括Y个文本类型,Y为小于或等于N的正整数;
基于N个参考文本中属于Y个文本类型中的任一文本类型下的参考文本的数量,确定在目标文本集合中任一文本类型对应的文本数量占比;
将Y个文本类型中文本数量占比满足阈值的文本类型确定为待归类文本所属的文本类型。
在一个实施例中,计算机可读存储介质904中的计算机指令由处理器901加载并执行根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行聚类处理,得到待归类文本所在的目标文本集合时,具体用于执行如下步骤:
根据目标文本特征和多个参考文本对应的参考文本特征构建图模型;图模型由节点组成,节点包括目标节点和多个参考节点,目标节点对应待归类文本,一个参考节点对应一个参考文本;
采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合,目标节点集合中各个节点对应的文本组成了待归类文本所在的目标文本集合。
在一个实施例中,图模型还包括边;计算机可读存储介质904中的计算机指令由处理器901加载并执行根据目标文本特征和多个参考文本对应的参考文本特征构建图模型时,具体用于执行如下步骤:
将目标文本特征进行空间点映射,得到目标节点;
将参考文本数据中的任一参考文本对应的参考文本特征进行空间点映射,得到任一参考节点;
若任意两个节点之间的特征相似度大于相似度阈值,则创建任意两个节点之间的边。
在一个实施例中,计算机可读存储介质904中的计算机指令由处理器901加载并执行采用目标社区发现算法,对图模型中的节点进行节点聚类运算,确定目标节点所在的目标节点集合时,具体用于执行如下步骤:
获取图模型中节点之间的转移概率;
基于图模型中节点之间的转移概率在图模型中的多个节点之间进行随机游走,并按照随机游走过程中在图模型中所经过的节点对应的顺序,对图模型中的多个节点进行排序,得到节点序列;
获取节点序列中包括的M个序列类以及每个序列类包括的节点,M为正整数;
基于M个序列类以及每个序列类包括的节点对节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度;
基于类间编码长度和类内编码长度确定对节点序列的总平均编码长度,并按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点;
在总平均编码长度小于编码长度阈值时,获取目标节点所在的目标序列类,并将目标序列类中包括的节点作为目标节点集合中的节点。
在一个实施例中,计算机可读存储介质904中的计算机指令由处理器901加载并执行基于M个序列类以及每个序列类包括的节点对所述节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度时,具体用于执行如下步骤:
获取M个序列类中的任一个序列类与其他序列类之间的序列类转移概率,得到M个序列类转移概率;其他序列类是M个序列类中除任一个序列类之外的M-1个序列类;
根据M个序列类转移概率计算类间编码长度;
获取任一个序列类内各个节点出现的概率,并根据任一个序列类内各个节点出现的概率以及任一个序列类与其他序列类之间的序列类转移概率,计算任一个序列类的序列类内编码长度,得到M个序列类的序列类内编码长度;
根据M个序列类的序列类内编码长度确定类内编码长度。
在一个实施例中,计算机可读存储介质904中的计算机指令由处理器901加载并执行按照减小总平均编码长度的原则更新M个序列类以及每个序列类包括的节点时,具体用于执行如下步骤:
按照减小总平均编码长度的原则更新M个序列类转移概率;
基于更新后的M个序列类转移概率,确定更新后的M个序列类中每个序列类包括的节点数量;
按照节点序列中各个节点由前到后的排列顺序,将节点序列按照更新后的M个序列类中每个序列类包括的节点数量重新划分为M个序列类。
在一个实施例中,计算机可读存储介质904中的计算机指令由处理器901加载并执行对待归类文本进行预处理,得到待归类文本的目标文本特征时,具体用于执行如下步骤:
对待归类文本进行分词处理,得到待归类文本对应的分词集,分词集中包括X个分词,X为正整数;
分别对X个分词中的每个分词进行词向量转换,得到X个词向量;
获取与X个分词对应的X个综合权值,一个分词对应一个综合权值;
根据X个综合权值对X个词向量进行加权求和,得到待归类文本的目标文本特征。
在一个实施例中,第j个分词是X个分词中的任一个,j为小于或等于X的正整数;计算机可读存储介质904中的计算机指令由处理器901加载并执行获取与X个分词对应的X个综合权值时,具体用于执行如下步骤:
将第j个分词与参考词库进行匹配,获取与第j个分词匹配的匹配词集合;参考词库包括以下至少一个:主题词库、关键词库以及类型实体词库;
根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值。
在一个实施例中,主题词库中包括多个主题词,一个主题词对应一个主题词权值;关键词库中包括多个关键词,一个关键词对应一个关键词权值;类型实体词库中包括多个类型实体词,一个类型实体词对应一个类型实体词权值;计算机可读存储介质904中的计算机指令由处理器901加载并执行根据匹配词集合中各个匹配词对应的权值确定第j个分词的综合权值时,具体用于执行如下步骤:
若匹配词集合中包括一个匹配词,则将匹配词对应的权值确定为第j个分词的综合权值;
或者,若匹配词集合中包括至少两个匹配词,且至少两个匹配词属于不同的参考词库,则将至少两个匹配词中各个匹配词对应的权值中的最大权值确定为第j个分词的综合权值;
或者,若匹配词集合为空,则将主题词库中的各个主题词对应的主题词权值、关键词库中的各个关键词对应的关键词权值,以及类型实体词库中的各个类型实体词对应的类型实体词权值中的最小权值确定为第j个分词的综合权值。
在一个实施例中,主题词库是从多个文本类型下的多个参考文本中提取的,主题词库包括普通主题词库和领域主题词词库,普通主题词库中包括多个普通主题词,领域主题词库包括多个领域主题词,第一主题词是普通主题词库中的任一个普通主题词;第一主题词的主题词权值的确定过程包括:
确定第一主题词的词频以及第一主题词对应的文本频率;第一主题词的词频包括:第一主题词在多个参考文本中出现的概率;第一主题词对应的文本频率包括:多个参考文本中包含第一主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取普通主题词库中的各个普通主题词对应的文本频率,并在各个普通主题词对应的文本频率中确定普通主题词库中的最大文本频率;
根据第一主题词的词频、第一主题词对应的文本频率、以及普通主题词库中的最大文本频率,计算第一主题词的主题词权值。
在一个实施例中,第二主题词是领域主题词库中的任一个领域主题词;第二主题词的主题词权值的确定过程包括:
确定第二主题词的词频以及第二主题词对应的文本频率;第二主题词的词频包括:第二主题词在多个参考文本中出现的概率;第二主题词对应的文本频率包括:多个参考文本中包含第二主题词的参考文本的数量与多个参考文本的总数量之间的比值;
获取领域主题词库中的各个领域主题词对应的文本频率,并在各个领域主题词的文本频率中确定领域主题词库中的最大文本频率;
获取普通主题词库的各个普通主题词的主题词权值,并在各个普通主题词的主题词权值中确定所述普通主题词库中的最大主题词权值;
根据所述第二主题词的词频、所述第二主题词对应的文本频率、所述领域主题词库中的最大文本频率、以及所述普通主题词库中的最大主题词权值,计算第二主题词的主题词权值。
在一个实施例中,关键词库是从多个文本类型下的多个参考文本中提取的,目标关键词是关键词库中的任一个关键词,目标关键词属于多个文本类型中的目标文本类型;目标关键词的关键词权值的确定过程包括:
获取目标关键词的词频和目标关键词的逆文本频率;
根据目标关键词的词频和目标关键词的逆文本频率,计算目标关键词的关键词权值;
其中,目标关键词的词频包括:目标关键词在目标文本类型下的参考文本中出现的次数与目标文本类型下的参考文本的总词语数之间的比值;目标关键词的逆文本频率是指:多个文本类型下的所有参考文本的数量与多个文本类型中除目标文本类型之外的其他文本类型下的所有参考文本的数量之间的比值。
本申请实施例中,可以获取参考文本数据和待归类文本,参考文本数据可以包括多个文本类型下的多个参考文本以及多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;然后,可以对待归类文本进行预处理,得到待归类文本的目标文本特征;根据目标文本特征和多个参考文本对应的参考文本特征对多个参考文本和待归类文本进行文本聚类处理,确定待归类文本所在的目标文本集合;其次,可以基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型。由此可见,本申请实施例可以对多个参考文本和待归类文本自动进行文本聚类处理,得到待归类文本所属的目标文本集合,然后可以基于目标文本集合中包括的参考文本所属的文本类型确定待归类文本所属的文本类型;也就是说,对于待归类文本,本申请实施例可以自动确定其所属的文本类型,相较于依赖人工的文本分类过程,本申请实施例提供的自动文本分类过程可以有效提升文本分类效率和文本分类准确率。
根据本申请的一个方面,本申请实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器901从计算机可读存储介质904中读取该计算机指令,处理器901执行该计算机指令,使得文本处理设备90执行图4、图5或图7所示的文本处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
获取参考文本数据和待归类文本;所述参考文本数据包括多个文本类型下的多个参考文本以及所述多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
对所述待归类文本进行预处理,得到所述待归类文本的目标文本特征;
根据所述目标文本特征和所述多个参考文本对应的参考文本特征对所述多个参考文本和所述待归类文本进行文本聚类处理,确定所述待归类文本所在的目标文本集合;
基于所述目标文本集合中包括的参考文本所属的文本类型确定所述待归类文本所属的文本类型。
2.如权利要求1所述的方法,其特征在于,所述目标文本集合中包括N个参考文本,N为正整数;所述基于所述目标文本集合中包括的参考文本所属的文本类型确定所述待归类文本所属的文本类型,包括:
根据所述N个参考文本中每个参考文本所属的文本类型,确定所述目标文本集合中包括Y个文本类型,Y为小于或等于N的正整数;
基于所述N个参考文本中属于所述Y个文本类型中的任一文本类型下的参考文本的数量,确定在所述目标文本集合中所述任一文本类型对应的文本数量占比;
将所述Y个文本类型中文本数量占比满足阈值的文本类型确定为所述待归类文本所属的文本类型。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标文本特征和所述多个参考文本对应的参考文本特征对所述多个参考文本和所述待归类文本进行聚类处理,得到所述待归类文本所在的目标文本集合,包括:
根据所述目标文本特征和所述多个参考文本对应的参考文本特征构建图模型;所述图模型由节点组成,所述节点包括目标节点和多个参考节点,所述目标节点对应所述待归类文本,一个参考节点对应一个参考文本;
采用目标社区发现算法,对所述图模型中的节点进行节点聚类运算,确定所述目标节点所在的目标节点集合,所述目标节点集合中各个节点对应的文本组成了所述待归类文本所在的目标文本集合。
4.如权利要求3所述的方法,其特征在于,所述图模型还包括边;所述根据所述目标文本特征和所述多个参考文本对应的参考文本特征构建图模型,包括:
将所述目标文本特征进行空间点映射,得到所述目标节点;
将所述参考文本数据中的任一参考文本对应的参考文本特征进行空间点映射,得到任一参考节点;
若任意两个节点之间的特征相似度大于相似度阈值,则创建所述任意两个节点之间的边。
5.如权利要求3所述的方法,其特征在于,所述采用目标社区发现算法,对所述图模型中的节点进行节点聚类运算,确定所述目标节点所在的目标节点集合,包括:
获取所述图模型中节点之间的转移概率;
基于所述图模型中节点之间的转移概率在所述图模型中的多个节点之间进行随机游走,并按照随机游走过程中在所述图模型中所经过的节点对应的顺序,对所述图模型中的多个节点进行排序,得到节点序列;
获取所述节点序列中包括的M个序列类以及每个序列类包括的节点,M为正整数;
基于所述M个序列类以及每个序列类包括的节点对所述节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度;
基于所述类间编码长度和所述类内编码长度确定对所述节点序列的总平均编码长度,并按照减小所述总平均编码长度的原则更新所述M个序列类以及每个序列类包括的节点;
在所述总平均编码长度小于编码长度阈值时,获取所述目标节点所在的目标序列类,并将所述目标序列类中包括的节点作为所述目标节点集合中的节点。
6.如权利要求5所述的方法,其特征在于,所述基于所述M个序列类以及每个序列类包括的节点对所述节点序列进行类间编码和类内编码处理,并确定类间编码长度和类内编码长度,包括:
获取所述M个序列类中的任一个序列类与其他序列类之间的序列类转移概率,得到M个序列类转移概率;所述其他序列类是所述M个序列类中除所述任一个序列类之外的M-1个序列类;
根据所述M个序列类转移概率计算所述类间编码长度;
获取所述任一个序列类内各个节点出现的概率,并根据所述任一个序列类内各个节点出现的概率以及所述任一个序列类与其他序列类之间的序列类转移概率,计算所述任一个序列类的序列类内编码长度,得到M个序列类的序列类内编码长度;
根据所述M个序列类的序列类内编码长度确定所述类内编码长度。
7.如权利要求6所述的方法,其特征在于,所述按照减小所述总平均编码长度的原则更新所述M个序列类以及每个序列类包括的节点,包括:
按照减小所述总平均编码长度的原则更新所述M个序列类转移概率;
基于更新后的M个序列类转移概率,确定更新后的M个序列类中每个序列类包括的节点数量;
按照所述节点序列中各个节点由前到后的排列顺序,将所述节点序列按照更新后的M个序列类中每个序列类包括的节点数量重新划分为M个序列类。
8.如权利要求1所述的方法,其特征在于,所述对所述待归类文本进行预处理,得到所述待归类文本的目标文本特征,包括:
对所述待归类文本进行分词处理,得到所述待归类文本对应的分词集,所述分词集中包括X个分词,X为正整数;
分别对所述X个分词中的每个分词进行词向量转换,得到X个词向量;
获取与所述X个分词对应的X个综合权值,一个分词对应一个综合权值;
根据所述X个综合权值对所述X个词向量进行加权求和,得到所述待归类文本的目标文本特征。
9.如权利要求8所述的方法,其特征在于,第j个分词是所述X个分词中的任一个,j为小于或等于X的正整数;所述获取与所述X个分词对应的X个综合权值,包括:
将所述第j个分词与参考词库进行匹配,获取与所述第j个分词匹配的匹配词集合;所述参考词库包括以下至少一个:主题词库、关键词库以及类型实体词库;
根据所述匹配词集合中各个匹配词对应的权值确定所述第j个分词的综合权值。
10.如权利要求9所述的方法,其特征在于,所述主题词库中包括多个主题词,一个主题词对应一个主题词权值;所述关键词库中包括多个关键词,一个关键词对应一个关键词权值;所述类型实体词库中包括多个类型实体词,一个类型实体词对应一个类型实体词权值;所述根据所述匹配词集合中各个匹配词对应的权值确定所述第j个分词的综合权值,包括:
若所述匹配词集合中包括一个匹配词,则将所述匹配词对应的权值确定为所述第j个分词的综合权值;或者,
若所述匹配词集合中包括至少两个匹配词,且所述至少两个匹配词属于不同的参考词库,则将所述至少两个匹配词中各个匹配词对应的权值中的最大权值确定为所述第j个分词的综合权值;或者,
若所述匹配词集合为空,则将所述主题词库中的各个主题词对应的主题词权值、所述关键词库中的各个关键词对应的关键词权值,以及所述类型实体词库中的各个类型实体词对应的类型实体词权值中的最小权值确定为所述第j个分词的综合权值。
11.如权利要求10所述的方法,其特征在于,所述主题词库是从所述多个文本类型下的多个参考文本中提取的,所述主题词库包括普通主题词库和领域主题词词库,所述普通主题词库中包括多个普通主题词,所述领域主题词库包括多个领域主题词,第一主题词是所述普通主题词库中的任一个普通主题词;
所述第一主题词的主题词权值的确定过程包括:
确定所述第一主题词的词频以及所述第一主题词对应的文本频率;所述第一主题词的词频包括:所述第一主题词在所述多个参考文本中出现的概率;所述第一主题词对应的文本频率包括:所述多个参考文本中包含所述第一主题词的参考文本的数量与所述多个参考文本的总数量之间的比值;
获取所述普通主题词库中的各个普通主题词对应的文本频率,并在所述各个普通主题词对应的文本频率中确定所述普通主题词库中的最大文本频率;
根据所述第一主题词的词频、所述第一主题词对应的文本频率、以及所述普通主题词库中的最大文本频率,计算所述第一主题词的主题词权值。
12.如权利要求11所述的方法,其特征在于,第二主题词是所述领域主题词库中的任一个领域主题词;所述第二主题词的主题词权值的确定过程包括:
确定所述第二主题词的词频以及所述第二主题词对应的文本频率;所述第二主题词的词频包括:所述第二主题词在所述多个参考文本中出现的概率;所述第二主题词对应的文本频率包括:所述多个参考文本中包含所述第二主题词的参考文本的数量与所述多个参考文本的总数量之间的比值;
获取所述领域主题词库中的各个领域主题词对应的文本频率,并在所述各个领域主题词的文本频率中确定所述领域主题词库中的最大文本频率;
获取所述普通主题词库的各个普通主题词的主题词权值,并在所述各个普通主题词的主题词权值中确定所述普通主题词库中的最大主题词权值;
根据所述第二主题词的词频、所述第二主题词对应的文本频率、所述领域主题词库中的最大文本频率、以及所述普通主题词库中的最大主题词权值,计算所述第二主题词的主题词权值。
13.如权利要求10所述的方法,其特征在于,所述关键词库是从所述多个文本类型下的多个参考文本中提取的,目标关键词是所述关键词库中的任一个关键词,所述目标关键词属于所述多个文本类型中的目标文本类型;所述目标关键词的关键词权值的确定过程包括:
获取所述目标关键词的词频和所述目标关键词的逆文本频率;
根据所述目标关键词的词频和所述目标关键词的逆文本频率,计算所述目标关键词的关键词权值;
其中,所述目标关键词的词频包括:所述目标关键词在所述目标文本类型下的参考文本中出现的次数与所述目标文本类型下的参考文本的总词语数之间的比值;所述目标关键词的逆文本频率是指:所述多个文本类型下的所有参考文本的数量与所述多个文本类型中除所述目标文本类型之外的其他文本类型下的所有参考文本的数量之间的比值。
14.一种文本处理装置,其特征在于,所述文本处理装置包括:
获取单元,用于获取参考文本数据和待归类文本;所述参考文本数据包括多个文本类型下的多个参考文本以及所述多个参考文本对应的参考文本特征,一个参考文本对应一个参考文本特征;
处理单元,用于对所述待归类文本进行预处理,得到所述待归类文本的目标文本特征;
所述处理单元,还用于根据所述目标文本特征和所述多个参考文本对应的参考文本特征对所述多个参考文本和所述待归类文本进行文本聚类处理,确定所述待归类文本所在的目标文本集合;
所述处理单元,还用于基于所述目标文本集合中包括的参考文本所属的文本类型确定所述待归类文本所属的文本类型。
15.一种文本处理设备,其特征在于,所述文本处理设备包括:
处理器,适于实现计算机程序;以及,
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至13任一项所述的文本处理方法。
CN202110542138.4A 2021-05-18 2021-05-18 文本处理方法、文本处理装置及文本处理设备 Active CN113761192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110542138.4A CN113761192B (zh) 2021-05-18 2021-05-18 文本处理方法、文本处理装置及文本处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110542138.4A CN113761192B (zh) 2021-05-18 2021-05-18 文本处理方法、文本处理装置及文本处理设备

Publications (2)

Publication Number Publication Date
CN113761192A true CN113761192A (zh) 2021-12-07
CN113761192B CN113761192B (zh) 2024-05-28

Family

ID=78787203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110542138.4A Active CN113761192B (zh) 2021-05-18 2021-05-18 文本处理方法、文本处理装置及文本处理设备

Country Status (1)

Country Link
CN (1) CN113761192B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742018A (zh) * 2022-06-09 2022-07-12 成都晓多科技有限公司 基于对抗训练的对比学习层次编码文本聚类方法及***
CN115767204A (zh) * 2022-11-10 2023-03-07 北京奇艺世纪科技有限公司 一种视频处理方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN110941958A (zh) * 2019-11-15 2020-03-31 腾讯云计算(北京)有限责任公司 一种文本类目标注方法、装置、电子设备及存储介质
CN111767404A (zh) * 2020-07-14 2020-10-13 腾讯科技(深圳)有限公司 一种事件挖掘方法和装置
CN112016307A (zh) * 2020-08-13 2020-12-01 深圳市欢太科技有限公司 一种文本信息的标题生成方法、电子设备和存储介质
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN110941958A (zh) * 2019-11-15 2020-03-31 腾讯云计算(北京)有限责任公司 一种文本类目标注方法、装置、电子设备及存储介质
CN111767404A (zh) * 2020-07-14 2020-10-13 腾讯科技(深圳)有限公司 一种事件挖掘方法和装置
CN112016307A (zh) * 2020-08-13 2020-12-01 深圳市欢太科技有限公司 一种文本信息的标题生成方法、电子设备和存储介质
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张振豪,过弋,韩美琪,王吉祥: "基于关键词相似度的短文本分类方法研究", 计算机应用研究, vol. 37, no. 1, 31 January 2020 (2020-01-31), pages 26 - 29 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742018A (zh) * 2022-06-09 2022-07-12 成都晓多科技有限公司 基于对抗训练的对比学习层次编码文本聚类方法及***
CN115767204A (zh) * 2022-11-10 2023-03-07 北京奇艺世纪科技有限公司 一种视频处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113761192B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111539197B (zh) 文本匹配方法和装置以及计算机***和可读存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、***及设备
CN116628186B (zh) 文本摘要生成方法及***
CN110222192A (zh) 语料库建立方法及装置
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配***
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112270189A (zh) 一种提问式的分析节点生成方法、***及存储介质
CN110287270B (zh) 实体关系挖掘方法及设备
CN114496231B (zh) 基于知识图谱的体质识别方法、装置、设备和存储介质
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant