CN111506726A - 基于词性编码的短文本聚类方法、装置及计算机设备 - Google Patents

基于词性编码的短文本聚类方法、装置及计算机设备 Download PDF

Info

Publication number
CN111506726A
CN111506726A CN202010190439.0A CN202010190439A CN111506726A CN 111506726 A CN111506726 A CN 111506726A CN 202010190439 A CN202010190439 A CN 202010190439A CN 111506726 A CN111506726 A CN 111506726A
Authority
CN
China
Prior art keywords
short text
keyword
target
speech
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010190439.0A
Other languages
English (en)
Other versions
CN111506726B (zh
Inventor
胡汉一
刘欢
夏鲁豫
陈梦霏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhu Hangzhou Technology Co ltd
Original Assignee
Dazhu Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhu Hangzhou Technology Co ltd filed Critical Dazhu Hangzhou Technology Co ltd
Priority to CN202010190439.0A priority Critical patent/CN111506726B/zh
Publication of CN111506726A publication Critical patent/CN111506726A/zh
Application granted granted Critical
Publication of CN111506726B publication Critical patent/CN111506726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于词性编码的短文本聚类方法、装置及计算机设备,涉及计算机技术领域,可以解决在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题。其中方法包括:对预处理后的目标短文本进行切词,获取得到各个关键词;确定各个所述关键词对应的目标词性;依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;根据所述编码表达向量对各个所述目标短文本进行聚类划分。本申请适用于对短文本的聚类划分。

Description

基于词性编码的短文本聚类方法、装置及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及到一种基于词性编码的短文本聚类方法、装置及计算机设备。
背景技术
随着电子设备的广泛使用,在不同领域的沟通与通信产生的自然语言文本数据呈指数级上涨,而当前计算机或人工方式处理指数级上涨的非结构化自然语言文本对计算机算力与算法处理提出了更高的要求。
文本聚类是计算机自然语言处理中的一个重要研究方向,近年来受到不同领域的广泛关注,也是处理大量非结构化文本的一个重要解决方案。其任务是通过将不同语言的文本进行编码得到向量表示,再计算文本对应的向量表示之间的相似度将相似度较近的文本归为一类,反之归为不同类。
而文本聚类中的文本编码对最终的聚类结果起到了决定性的影响,因为不同的编码方式得到文本间相似度不同。常见的文本编码方法主要是根据文本中的关键词建立词袋或组合文本中关键词词向量的方式进行编码,前者得到的编码向量维度过高且较为稀疏,而后者得到的编码向量有严重的不可解释性与信息损失等不同问题。
发明内容
有鉴于此,本申请提供了一种基于词性编码的短文本聚类方法、装置及计算机设备,主要解决在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题。
根据本申请的一个方面,提供了一种基于词性编码的短文本聚类方法,该方法包括:
对预处理后的目标短文本进行切词,获取得到各个关键词;
确定各个所述关键词对应的目标词性;
依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
根据所述编码表达向量对各个所述目标短文本进行聚类划分。
可选地,在所述对预处理后的目标短文本进行切词,获取得到各个关键词之前,具体还包括:
对目标短文本进行预处理;
所述对目标短文本进行预处理,具体包括:
滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
可选地,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体包括:
依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
可选地,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体还包括:
依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
可选地,所述确定各个所述关键词对应的目标词性,具体包括:
在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
可选地,所述依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量,具体包括:
将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
可选地,所述根据所述编码表达向量对各个所述目标短文本进行聚类划分,具体包括:
训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
根据本申请的另一个方面,提供了一种基于词性编码的短文本聚类装置,该装置包括:
获取模块,用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块,用于确定各个所述关键词对应的目标词性;
计算模块,用于依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
划分模块,用于根据所述编码表达向量对各个所述目标短文本进行聚类划分。
可选地,所述装置还包括:处理模块;
所述处理模块,用于滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
可选地,所述获取模块,具体用于依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
可选地,所述获取模块,具体还用于依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
可选地,所述确定模块,具体用于在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
可选地,所述计算模块,具体用于将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
可选地,所述划分模块,具体用于训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
根据本申请的另一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于词性编码的短文本聚类方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于词性编码的短文本聚类方法。
借由上述技术方案,本申请提供的一种基于词性编码的短文本聚类方法、装置及计算机设备,与目前短文本聚类方法相比,本申请提供一种基于词性编码的短文本纠错方法,该方法通过编码句子关键词词性以及所对应词性顺序作为短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少***与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于词性编码的短文本聚类方法的流程示意图;
图2示出了本申请实施例提供的另一种基于词性编码的短文本聚类方法的流程示意图;
图3示出了本申请实施例提供的一种基于词性编码的短文本聚类的原理示意图;
图4示出了本申请实施例提供的一种基于词性编码的短文本聚类装置的结构示意图;
图5示出了本申请实施例提供的另一种基于词性编码的短文本聚类装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题,本申请实施例提供了一种基于词性编码的短文本聚类方法,如图1所示,该方法包括:
101、对预处理后的目标短文本进行切词,获取得到各个关键词。
在具体的应用场景中,为了使得相似文本尽可能的聚成一类,需要对文本进行归一化操作,即对短文本进行预处理,其中,目标短文本为待进行聚类划分的短文本;关键词为将目标短文本进行切词处理后,得到的各个词段;切词方法,包括但不仅限于关键词词典匹配、隐马尔可夫模型(HMM)、条件随机场(CRF)、深度学习分词模型。
102、确定各个关键词对应的目标词性。
其中,目标词性可为名词、动词、形容词等,词性映射的方法,包括但不限于关键词词性表匹配或基于深度学习模型的词性标注方法。
103、依据目标词性以及各个关键词在目标短文本中的排列顺序,计算目标短文本的编码表达向量。
对于本实施例,在具体的应用场景中,可依据定长遗忘编码方法计算各个目标短文本的编码表达向量。
104、根据编码表达向量对各个目标短文本进行聚类划分。
对于本实施例,在具体的应用场景中,可利用编码表达向量计算各个目标短文本之间的相似度,来确定目标短文本的聚类属性,具体可通过编码表达向量之间的距离来判定。
通过本实施例中基于词性编码的短文本聚类方法,可提供一种基于词性编码的短文本纠错方法,该方法通过编码句子关键词词性以及所对应词性顺序作为短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少***与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,且提升文本聚类效果。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于词性编码的短文本聚类方法,如图2所示,该方法包括:
201、对目标短文本进行预处理。
对于本实施例,在具体的应用场景中,实施例步骤201具体可以包括:滤除目标短文本中的特殊字符;将目标短文本中的大写英文字母替换为小写字母;对符合预设条件的字符组合进行加密处理或替换为预设字符。
例如,若识别到短文本中存在特殊字符,如:“﹟#﹩$﹠&﹪%﹡﹡×﹦-~-―﹨~”等,则需要将其滤除;若识别到短文本中存在大写英文字母,如AABCDF,则需要将其替换为对应的小写字母aabcdf,以保证字母的大小写一致性;为了保证数据的安全性,并且能够有效进行聚类划分,需要识别短文本中特殊的字符组合,(如时间、金额、英文单词等),具体可采用加密的方式,如利用相同的特殊字符替换,比如:‘2019-12-12’替换为‘【日期】’,‘15元’、‘2万元’替换‘【金额】’;或统一替换为加密字符‘*’的方式。
202、对预处理后的目标短文本进行切词,获取得到各个关键词。
对于本实施例,在具体的应用场景中,可采用词典匹配的方法来切分关键词,当利用关键词词典匹配的方法来获取关键词时,实施例步骤202具体可以包括:依据关键词词典对目标短文本进行正则匹配,将匹配到的词切分为第一关键词;将剩余未匹配到的词确定为第二关键词,并将第二关键词作为新词更新至关键词词典中。
其中,词典匹配方法使用关键词词典对短文本进行正则匹配或建立搜索树(如Trie树,HashTrie等),所匹配到的词即为切分词(第一关键词),匹配剩余部分也成切分词(第二关键词)。
相应的,在具体的应用场景中,还可采用隐马尔可夫模型(HMM)来进行关键词的切分,当利用隐马尔可夫切词的模式来获取关键词时,实施例步骤202具体可以包括:依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;获取目标短文本的观察状态序列;根据观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
其中,隐马尔可夫模型在给定文本集合上训练隐藏状态序列(隐藏状态可为词头、词中、词尾)到观察状态序列(文本序列)的概率后,再根据所得模型参数以及新的观察序列上得到最有可能的隐藏状态序列(最大概率通路),该隐藏状态序列即为所得切词结果。例如:‘我来到北京清华大学’切分为‘我\来到\北京\清华大学’的关键词序列。
相应的,还可利用条件随机场(CRF)、深度学习分词模型等方法来获取关键词,例如,可利用大量标记好切分位置的短文本数据集训练搭建深度学习分词模型,并利用验证集中的短文本进行对模型进行验证,当判定切分结果的正确率大于预设阈值时,则判定深度学习分词模型通过训练,进而可将目标短文本输入至训练好的深度学习分词模型中,获取得到关键词的切分结果。
203、确定各个关键词对应的目标词性。
对于本实施例,在具体的应用场景中,在切分获取得到各个关键词后,在确定关键词对应的目标词性时,可同样采用多种方式,即可在关键词词性表中查询各个关键词对应的关键词词性;另一种方式,还可通过样本短文本集合训练词性标注模型;将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
204、将目标词性以及关键词在文本中的排列顺序确定为聚类编码特征。
在具体的应用场景中,可根据各个关键词目标词性以及在文本中的排列顺序确定其对应的聚类编码特征,以便根据各个聚类编码特征依次计算得出目标短文本的编码表达向量。
205、基于聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
其中,定长遗忘编码方法(Fixed-size Ordinally-Fogetting Encoding),是一种无损、唯一且编码向量有固定长度的编码方法,对于长度为T的关键词词性序列S=[w1,w2,…,wT]编码。其计算公式为:
Figure BDA0002415681280000081
其中,公式中t表示序列S中元素的序号,zt表示在t位置的定长遗忘编码向量,α表示定长遗忘因子,et表示在S序列中第t个元素wt(关键词词性元素)对应的V维度热向量。定长遗忘编码的遗忘因子α的取值范围为(0,0.5],定长遗忘向量有唯一与无损性质,在取值范围为(0.5,1)大部分取值仍有唯一与无损性,但有部分取值可能产生冲突的编码后向量,但在自然语言中出现情况极少。当t=T时,即可计算得到目标短文本的编码表达向量zt
206、根据编码表达向量对各个目标短文本进行聚类划分。
对于本实施例,在具体的应用场景中,实施例步骤206具体可以包括:训练搭建符合预设标准的短文本聚类模型;将各个目标短文本对应的编码表达向量输入短文本聚类模型中,获取得到目标短文本两两之间的目标距离;依据预设距离判定规则对目标距离进行类别划分,以便获取得到目标短文本的聚类划分结果。
其中,短文本聚类模型可选用任意模型如K-means,谱聚类等,作为优选,采用了基于树状结构的层次聚类模型(Agglomerative Clustering)。目标距离可为两个编码表达向量间的欧氏距离、切比雪夫距离、闵可夫斯基距离、曼哈顿距离等,在本实施例中,计算每两个编码表达向量之间的目标距离可欧式距离的计算方法来计算得出;
两个n维编码表达向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离公式为:
Figure BDA0002415681280000091
其中,x1i为一个目标短文本的编码表达向量,x2i为另一个目标短文本的编码表达向量,N为编码表达向量的维度,在本方案中,编码表达向量的维度为:(N-1)*(N-1),N对应目标短文本中关键词的数量。
通过上述基于词性编码的短文本聚类方法,可提供一种基于词性编码的短文本纠错方法,该方法可首先对目标短文本进行预处理,之后对预处理后的目标短文本进行切词,获取得到各个关键词,通过编码关键词的目标词性以及所对应的排列顺序,确定短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少***与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效果。
在具体的应用场景中,基于词性编码的短文本聚类的原理流程图可如图3所示,在获取到短文本后,首先对短本文进行预处理,即将输入的短文本特殊字符去除、英文大写转小写、常见字符组合(时间、金额、英文单词等)使用特殊字符替换等;之后提取短文本中关键词,并进行切分,利用词典匹配方法对切分后的各个关键词进行词性映射,或利用隐马尔可夫模型(HMM)、条件随机场(CRF)、深度学习分词模型对词性进行标注、获取;之后以目标词性以及关键词在文本中的排列顺序为聚类编码特征进行词性序列编码,进一步计算得到各个目标短文本的编码表达向量,最后利用编码表达向量进行短文本的聚类划分,将各个短文本聚类划分到对应的类别文本中,如类别1文本、类别1文本、......、类别N文本。
进一步的,作为图1和图2所示方法的具体体现,本发明实施例提供了一种基于词性编码的短文本聚类装置,如图4所示,该装置包括:获取模块31、确定模块32、计算模块33、划分模块34。
获取模块31,可用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块32,可用于确定各个关键词对应的目标词性;
计算模块33,可用于依据目标词性以及各个关键词在目标短文本中的排列顺序,计算目标短文本的编码表达向量;
划分模块34,可用于根据编码表达向量对各个目标短文本进行聚类划分。
在具体的应用场景中,为了使得相似文本尽可能的聚成一类,如图5所示,本装置还包括:处理模块35;
处理模块35,可用于对目标短文本进行预处理;
在具体的应用场景中,处理模块35,具体可用于滤除目标短文本中的特殊字符;将目标短文本中的大写英文字母替换为小写字母;对符合预设条件的字符组合进行加密处理或替换为预设字符。
相应的,为了将预处理后的目标短文本切词处理成各个关键词,获取模块31,具体可用于依据关键词词典对目标短文本进行正则匹配,将匹配到的词切分为第一关键词;将剩余未匹配到的词确定为第二关键词,并将第二关键词作为新词更新至关键词词典中。
在具体的应用场景中,为了将预处理后的目标短文本切词处理成各个关键词,获取模块31,具体还可用于依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;获取目标短文本的观察状态序列;根据观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
相应的,为了确定出各个关键词对应的目标词性,确定模块32,具体可用于在关键词词性表中确定各个关键词对应的关键词词性;或将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
在具体的应用场景中,为了计算得到目标短文本的编码表达向量,计算模块33,具体可用于将目标词性以及关键词在文本中的排列顺序确定为聚类编码特征;基于聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
相应的,为了根据编码表达向量对各个目标短文本进行聚类划分,划分模块34,具体可用于训练搭建符合预设标准的短文本聚类模型;将各个目标短文本对应的编码表达向量输入短文本聚类模型中,获取得到目标短文本两两之间的目标距离;依据预设距离判定规则对目标距离进行类别划分,以便获取得到目标短文本的聚类划分结果。
需要说明的是,本实施例提供的一种基于词性编码的短文本聚类装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的基于词性编码的短文本聚类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于词性编码的短文本聚类方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作***、网络通信模块。操作***是短文本聚类的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请可提供一种基于词性编码的短文本纠错方法,该方法可首先对目标短文本进行预处理,之后对预处理后的目标短文本进行切词,获取得到各个关键词,通过编码关键词的目标词性以及所对应的排列顺序,确定短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少***与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于词性编码的短文本聚类方法,其特征在于,包括:
对预处理后的目标短文本进行切词,获取得到各个关键词;
确定各个所述关键词对应的目标词性;
依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
根据所述编码表达向量对各个所述目标短文本进行聚类划分。
2.根据权利要求1所述的方法,其特征在于,在所述对预处理后的目标短文本进行切词,获取得到各个关键词之前,具体还包括:
对目标短文本进行预处理;
所述对目标短文本进行预处理,具体包括:
滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
3.根据权利要求2所述的方法,其特征在于,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体包括:
依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
4.根据权利要求2所述的方法,其特征在于,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体还包括:
依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
5.根据权利要求3或4任一项所述的方法,其特征在于,所述确定各个所述关键词对应的目标词性,具体包括:
在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
6.根据权利要求5所述的方法,其特征在于,所述依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量,具体包括:
将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述编码表达向量对各个所述目标短文本进行聚类划分,具体包括:
训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
8.一种基于词性编码的短文本聚类装置,其特征在于,包括:
获取模块,用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块,用于确定各个所述关键词对应的目标词性;
计算模块,用于依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
划分模块,用于根据所述编码表达向量对各个所述目标短文本进行聚类划分。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于词性编码的短文本聚类方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于词性编码的短文本聚类方法。
CN202010190439.0A 2020-03-18 2020-03-18 基于词性编码的短文本聚类方法、装置及计算机设备 Active CN111506726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010190439.0A CN111506726B (zh) 2020-03-18 2020-03-18 基于词性编码的短文本聚类方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010190439.0A CN111506726B (zh) 2020-03-18 2020-03-18 基于词性编码的短文本聚类方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111506726A true CN111506726A (zh) 2020-08-07
CN111506726B CN111506726B (zh) 2023-09-22

Family

ID=71864667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010190439.0A Active CN111506726B (zh) 2020-03-18 2020-03-18 基于词性编码的短文本聚类方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111506726B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312456A (zh) * 2021-06-28 2021-08-27 中国平安人寿保险股份有限公司 短视频文本生成方法、装置、设备及存储介质
CN116720812A (zh) * 2023-08-11 2023-09-08 合肥恒艺德机械有限公司 一种基于数据编码的大数据智慧仓储管理***
CN117313657A (zh) * 2023-11-30 2023-12-29 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
JP2016133960A (ja) * 2015-01-19 2016-07-25 日本電気株式会社 キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及***
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN109710762A (zh) * 2018-12-26 2019-05-03 南京云问网络技术有限公司 一种融合多种特征权重的短文本聚类方法
CN109800307A (zh) * 2019-01-18 2019-05-24 深圳壹账通智能科技有限公司 产品评价的分析方法、装置、计算机设备及存储介质
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
WO2019228203A1 (zh) * 2018-05-29 2019-12-05 厦门快商通信息技术有限公司 一种短文本分类方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
JP2016133960A (ja) * 2015-01-19 2016-07-25 日本電気株式会社 キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及***
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
WO2019228203A1 (zh) * 2018-05-29 2019-12-05 厦门快商通信息技术有限公司 一种短文本分类方法及***
CN109710762A (zh) * 2018-12-26 2019-05-03 南京云问网络技术有限公司 一种融合多种特征权重的短文本聚类方法
CN109800307A (zh) * 2019-01-18 2019-05-24 深圳壹账通智能科技有限公司 产品评价的分析方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王金水: "基于词性标注的文本聚类算法" *
王金水;唐郑熠;薛醒思;: "基于词性标注的文本聚类算法", 福建工程学院学报, no. 04 *
黄贤英;李沁东;刘英涛;: "结合词性的短文本相似度算法及其在文本分类中的应用", 电讯技术, no. 01 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312456A (zh) * 2021-06-28 2021-08-27 中国平安人寿保险股份有限公司 短视频文本生成方法、装置、设备及存储介质
CN116720812A (zh) * 2023-08-11 2023-09-08 合肥恒艺德机械有限公司 一种基于数据编码的大数据智慧仓储管理***
CN116720812B (zh) * 2023-08-11 2023-10-20 合肥恒艺德机械有限公司 一种基于数据编码的大数据智慧仓储管理***
CN117313657A (zh) * 2023-11-30 2023-12-29 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法
CN117313657B (zh) * 2023-11-30 2024-03-19 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法

Also Published As

Publication number Publication date
CN111506726B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN110163181B (zh) 手语识别方法及装置
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111506726B (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
WO2014022172A2 (en) Information classification based on product recognition
WO2016095645A1 (zh) 笔画输入方法、装置和***
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114492429B (zh) 文本主题的生成方法、装置、设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
Wang et al. Unsupervised language model adaptation for handwritten Chinese text recognition
CN109543002B (zh) 简写字符的还原方法、装置、设备及存储介质
Lv et al. Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN116910599A (zh) 数据聚类方法、***、电子设备及存储介质
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
CN112651590B (zh) 一种指令处理流程推荐的方法
CN112364666B (zh) 文本表征方法、装置及计算机设备
Wang et al. Topic language model adaption for recognition of homologous offline handwritten Chinese text image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant