CN106095791B - 一种基于上下文的抽象样本信息检索*** - Google Patents

一种基于上下文的抽象样本信息检索*** Download PDF

Info

Publication number
CN106095791B
CN106095791B CN201610369833.4A CN201610369833A CN106095791B CN 106095791 B CN106095791 B CN 106095791B CN 201610369833 A CN201610369833 A CN 201610369833A CN 106095791 B CN106095791 B CN 106095791B
Authority
CN
China
Prior art keywords
abstract
word
sample
term vector
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610369833.4A
Other languages
English (en)
Other versions
CN106095791A (zh
Inventor
吴�琳
韩广
袁鑫攀
李亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changyuan power (Beijing) Technology Co., Ltd.
Original Assignee
Changyuan Power (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changyuan Power (beijing) Technology Co Ltd filed Critical Changyuan Power (beijing) Technology Co Ltd
Publication of CN106095791A publication Critical patent/CN106095791A/zh
Application granted granted Critical
Publication of CN106095791B publication Critical patent/CN106095791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于上下文的抽象样本信息检索***。该***中抽象样本特征化表示方法利用Word2vector提取词义特征,获得抽象词的词向量;而后,对抽象词的词向量进行“最优适应度划分”的聚类,并根据聚类结果将抽象词替代表示为聚类质心;最后,根据质心及其所代表的抽象词的词频,构成词向量聚类质心频率模型(ST‑IDF),用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数,提高了抽象样本相似性分析的性能,提升了样本分类准确率。

Description

一种基于上下文的抽象样本信息检索***
技术领域
本发明涉及数据链报文、半结构化文本或普通文本的信息检索领域,特别涉及基于词向量(Word2vector)的样本相似性分析及分类。
背景技术
抽象词是指信息检索样本中无法被语言直接解读的特殊词语,即,无已知语言规则(词义、语法、语序)可直接地识别其实际语义。大量的抽象词不同程度地存在于信息检索的样本中,例如军用数据链报文(Link-16、Link-22)、用于数据交换的半结构化文本(XML)或普通文本。同时,存在大量的数据链报文、半结构化文本或普通文本完全采用抽象词记录信息。针对该情况,我们将信息检索任务中此类报文或文本称为抽象样本。
目前,针对信息检索任务中的抽象样本,在无法直接识别其抽象词语义的情况下,多采用基于词语统计的样本特征化表示方法。现行的基于词语统计的特征化表示方法无法有效地提取其词语语义(词义)特征,例如TF-IDF(TermFrequency-Inverse DocumentFrequency)模型与BOW(Bag of words)模型。
Word2vector是一种依据上下文关系的词语语义(词义)特征提取方法,最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时,针对在不同文档中的每个词语,Word2vector可依据其上下文关系有效地提取其语义(即词义特征),并以词向量的形式给出。必须注意的是,Word2vector的词义特征提取机制使得不同文档中相同的词所对应的词向量并不相同。所以,导致难以根据Word2vector的词向量形成信息检索样本的特征化表示,特别是难以形成VSM(向量空间模型)形式的样本特征化表示。
目前,抽象样本征化表示需要采用Word2vector作为基于上下文的词义特征提取方法,并使自身适用于现行的基于样本特征向量的信息检索算法。但是,尚未出现受明确认可的方法能够根据Word2vector词义特征提取形成VSM形式的抽象样本特征化表示。
因此急需提出一种基于上下文的抽象样本信息检索***及相应的抽象样本特征化表示方法,解决上述问题。
发明内容
在信息检索应用领域中,本发明提供了一种基于上下文的抽象样本信息检索***,并详阐述了其特征化表示方法。本发明的目的在于,克服现有技术中难以根据Word2vector的词向量形成样本的特征化表示的情况,解决抽象样本特征化表示中词义特征提取的问题。
一种基于上下文的抽象样本信息检索***,包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块,所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤:
步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词规则划分每个抽象词。
步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示。
步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类。其中,词向量聚类划分的质心称为S(表示为词向量空间中的向量),S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已知的样本分类数量为C,f(k)为体现聚类效果适应度的函数,
α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,令正整数k∈[N,N×C];当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,质心S的数量最终确定为K。然后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S,或称为用质心S代表其聚类划分内的抽象词,即将抽象词的特征近似认同为所属聚类划分的质心。
步骤4、利用ST-IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的替代表示关系,将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率;并统计词向量聚类质心的逆向文件频率;而后,参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF,ST-IDF模型属于VSM形式,用于特征化表示一个抽象样本。
步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行。
步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采用NWKNN算法对抽象样本进行类别判定。
本发明的有益效果如下:
本发明提出了一种基于上下文的信息检索***及其抽象样本特征化表示方法,它包括两个方面的改进:(1)提出了最优聚类效果适应度划分算法,并根据在最优聚类效果适应度下的词向量聚类,进行了抽象词特征替代表示;(2)提出了用于抽象样本特征化表示的词向量聚类质心频率模型——ST-IDF。
本发明首先利用Word2vector提取词义特征,获得样本中所有抽象词的词向量;而后,提出了最优聚类效果适应度划分算法,并根据最优聚类效果适应度对抽象词的词向量进行K-means聚类,并根据聚类结果将抽象词替代表示为其词向量所属聚类划分的质心(记为S);最后,将质心所代表的抽象词在样本中的出现频率计为质心S的频率,并构成词向量聚类质心频率模型——ST-IDF,用于特征化表示抽象样本。与传统的基于词语统计的样本特征化表示方法相比,ST-IDF模型包含抽象词的词义特征,且属于VSM(向量空间模型)形式,可适用于现行的基于特征向量的信息检索算法(如分类、回归、聚类)。
从实证的角度,采用信息检索领域经典样本分类算法NWKNN,在公用数据集Reuter-21758、Wikipedia XML之上,将ST-IDF模型与TF-IDF模型进行对比实验,实验结果客观地展示了本发明所述方法的明显优势,提高了抽象样本相似度计算的准确性,提升了抽象样本分类准确度,并有效拓展了信息检索领域中向量空间模型的构建方法。
附图说明
图1为本发明所述抽象样本信息检索***的数据与模块图。
图2为本发明所述信息检索方法的流程图。
图3为Word2vector方法基本原理示意图。
图4为聚类效果适应度函数图。
图5为词向量空间中根据聚类的替代表示关系示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
如图1所示,其中内容为本发明一种基于上下文的抽象样本信息检索***,包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块。
所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤:
步骤1:利用分词功能模块对样本进行抽象词的分词。当样本完全采用抽象词记录信息时,无法根据字典或词库进行样本中抽象词的分词。所以,本步骤仅将抽象词视为ASCII字符的字符串。当样本是数据链报文时,根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,根据空格及特定分词规则划分每个抽象词。将抽象词的分词记为wordi,t,词语wordi,t表示第i个样本中的第t种抽象词的分词,有i={1,2,…,|D|},|D|为数据集中D的样本数,t={1,2,…,n},n为抽象词种类数,所有样本中抽象词wordi,t的数量为N。
步骤2:利用词义特征提取模块,提取抽象词的词语语义特征。针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示。本步骤运用Word2vec工具,可获得抽象词的词向量。
Word2vec是Word2vector方法的模型实现,可基于词语的上下文关系,快速有效地训练并生成词向量。它包含了两种训练模型,CBOW与Skip_gram。作为用于训练生成词向量的软件工具,Word2vec中训练模型的基础是神经网络语言模型NNLM,其基本原理如图2所示。
根据由步骤1得到的抽象词,NNLM可计算某一个上下文的下一个词语为wordi,t的概率,即p(wordi,t=t|context),词向量是其训练的副产物。NNLM根据数据集D生成一个对应的词汇表V。V中的每一个词语都对应着一个标记wordi,t。为了确定神经网络的参数,需要通过数据集来构建训练样本并作为神经网络的输入。NNLM词语上下文样本的构建过程为:对于D中的任意一个词wordi,t,获取其上下文context(wordi,t)(例如前n-1个词),从而得到一个元组(context(wordi,t),wordi,t)。以该元组作为神经网络的输入进行训练。NNLM的输入层和传统的神经网络模型有所不同,输入的每一个节点单元不再是一个标量值,而是一个向量,向量的每一个值为变量,训练过程中要对其进行更新,这个向量就是词向量。由图2可知,对于每一个词wordi,t,NNLM都将其映射成一个向量wi,t,即为词向量。
运用Word2vec工具获得的词向量wi,t具体表示第i个样本中的第t种抽象词分词的词义特征,有i={1,2,…,|D|},|D|为样本数,所有样本中抽象词的词向量wi,t的数量为N。
步骤3:利用抽象词特征替代表示模块,用词向量聚类质心代表其聚类划分内的抽象词。首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类。词向量的K-means聚类中,采用两词向量夹角的余弦值计算二者间的距离。
根据步骤2所得,所有样本中抽象词的词向量wi,t的数量为N,词向量wi,t具体表示第i个样本中的第t种抽象词分词的词义特征。已知的样本分类数量为C,而样本数量为M。本步骤中,将词向量聚类划分的质心称为S(表示为词向量空间中的向量),S的数量k即是聚类划分个数。
为体现词向量空间中的K-means聚类效果,本发明给出聚类划分数量适应性的计算。为表示聚类划分数量适应性,令f(k)为体现聚类效果适应度的函数,
α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,具体地有:
其中,S与S′为不同聚类划分的质心向量,wi,t与w′i,t是类属于第b个聚类划分中的不同抽象词分词的词向量。
设聚类划分个数k∈[N,N×C],且为正整数,当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,f(K)是聚类效果适应度的最大值。经计算可知,函数f(k)在N到K的区间是单调递增的,在K到N×C的区间是单调递减的,函数f(k)的图像如图3所示。
所以,当f(k)=max(f(k))时,K=k,f(K)是聚类效果适应度函数的极值,即最优聚类效果适应度,K-means聚类质心S的数量最终确定为K。在确定max(f(k))、K与f(K)的过程中,为减少K-means聚类及f(k)计算的执行次数,本发明提出最优聚类效果适应度划分算法,算法中每进行一次f(k)计算则需预先执行一次质心数量为k的K-means聚类,具体如下:
最优聚类效果适应度划分算法
最优聚类效果适应度划分算法分析:根据算法的递归运算特点,其时间复杂度为Ο(log2[(N×C-N)/4],所以本步骤中实际执行的K-means聚类次数与f(k)计算次数小于等于log2[(N×C-N)/4]次;而当不采用最优聚类效果适应度划分算法时,有k={N,N+1,N+1,…,N×C},确定max(f(k))、K与f(K)的过程中所需执行的K-means聚类与f(k)计算的平均次数为(N×C-N)/2。所以,本步骤中的最优聚类效果适应度划分算法降低了聚类及适应度计算的执行次数。
最后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S。具体地,当f(k)=max(f(k))时,最优聚类效果适应度下的聚类划分数量K=k,将任意抽象词wi,t替代表示为其词向量所属聚类划分的质心S,即将抽象词的特征近似认同为所属聚类划分的质心。在任意局部词向量空间中,用质心S代表其聚类划分内的抽象词,其对应关系如图4所示。具体替代表示关系如下式所述:
其中,第b个聚类质心Sb所代表的抽象词wordi,t构成一个抽象词集合,wi,t是抽象词wordi,t的词向量,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合。
步骤4:利用ST-IDF模块,输出抽象样本特征化表示。首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的质心S与抽象词的替代表示关系,将第b个质心Sb所代表的抽象词在该样本中的出现频率计为质心Sb的频率;并统计词向量聚类质心Sb的逆向文件频率,有b={1,2,…,K}。而后,参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF,具体构成方式将进一步详细阐述。
TF-IDF模型中,样本doci的特征化表示由特征向量di实现,
di=(di(1),di(2),……,di(n))
向量di中第t维元素di(t)计算方式如下:
di(t)=TF(wordt,doci)·IDF(wordt),
TF(wordt,doci)是词语wordt在样本doci中的频率,有其计算方式
中分子是该词语在样本中的出现次数,而分母则是在文件中所有词语的出现次数之和,IDF(wordt)为词语wordt的逆向文件频率,有其计算方式
其中,D为样本doci的构成数据集,|D|为数据集D中样本的总数,|{doci|wordt∈doci}|为包含词语wordt的样本数量。
参照TF-IDF模型,ST-IDF模型具体构成如下:
SF(Sb,doci)是词向量聚类质心Sb在抽象样本doci中的频率,有其计算方式
其中,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合,TF(wi,t)表示抽象词wi,t在抽象样本doci中出现的频率,SF(Sb,doci)仅累计抽象样本doci中由质心Sb所代表的抽象词的频率。
IDF(Sb)为词向量聚类质心Sb的逆向文件频率,有其计算方式
其中,D为抽象样本doci的构成数据集,|D|为数据集D中样本的总数,为包含由质心Sb所代表的抽象词的样本的数量。
ST-IDF模型中,抽象样本doci的特征化表示由特征向量实现,
向量中第b维元素计算方式如下:
本步骤所提出的ST-IDF模型属于VSM(向量空间模型)形式,用于特征化表示一个抽象样本。
步骤5:相似度计算,实现抽象样本的相似性分析。根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度;并据此进行信息检索领域中样本分类算法的执行。
一种基于上下文的信息检索抽象样本特征化表示方法采用步骤4所提出的ST-IDF模型进行抽象样本特征化表示。任意两抽象样本doci与doc′i间相似性由相似度函数Sim(doci,doc′i)表示,其具体计算方式如下:
为ST-IDF向量空间中特征向量间夹角的余弦值。
步骤6:利用分类模块,对特征化表示后的抽象样本进行类别判定。根据相似度,采用NWKNN算法对抽象样本进行类别判定。
根据相似度函数Sim(doci,doc′i),采用信息检索领域中的经典样本分类算法——NWKNN执行抽象样本分类。NWKNN是权重邻居KNN算法,用于不均衡分类样本集的样本分类判别,其公式如下:
其中,函数score(doc,ci)计算得出将文档doc归于分类ci的评估值;函数Sim(doc,docj)表示样本doc与已知类别样本docj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值,赋值为3.5;函数δ(docj,ci)表示样本docj是否属于类别ci,若样本docj属于类别ci,则该函数取值为1,否则,该函数取值为0。
样本分类的性能评估采用F1-measure标准。该标准结合召回率Recall和准确率Precision的评估度量F1如下:
运用F1-measure标准,可观察到一个样本分类***针对数据集的分类效果。为便于比较,将总结抽象样本分类结果的宏观F1度量值Macro-F1,同时,可以得到抽象样本分类结果的Average precision。
以***XML数据Wikipedia XML为数据交换半结构化文本的数据集,以路透社文档集Reuter-21578为普通文本的数据集,采用NWKNN算法进行抽象样本分类实验,并采用F1-measure标准进行样本分类的效果评估,本发明提出的SF-IDF向量与现有技术中TF-IDF向量的分类效果对比见表1、表2:
表1 Wikipedia XML数据集上TF-IDF向量与SF-IDF向量的分类效果比较
表2 Reuter-21578数据集上TF-IDF向量与SF-IDF向量的分类效果比较
根据表1、表2所述,可见本发明提出的SF-IDF向量的分类效果明显优于现有技术中TF-IDF向量,尤其是在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%,在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%。实验结果显示,针对抽象样本相似性分类的信息检索任务,本发明所提出的ST-IDF模型相较TF-IDF模型拥有更优良的F1-measure评估结果,证明本发明所提供的特征化表示方法具备抽象样本词义特征提取的优势。

Claims (1)

1.一种基于上下文的抽象样本信息检索***,其特征在于:它包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块,所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤:
步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词规则划分每个抽象词;
步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示;
步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类,其中,词向量聚类划分的质心称为S,S表示为词向量空间中的向量,S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已知的样本分类数量为C,f(k)为体现聚类效果适应度的函数,
α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,令正整数k∈[N,N×C];当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,质心S的数量最终确定为K;然后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S,或称为用质心S代表其聚类划分内的抽象词,即将抽象词的特征认同为所属聚类划分的质心;
步骤4、利用ST-IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的替代表示关系,将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率;并统计词向量聚类质心的逆向文件频率;而后,参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF,ST-IDF模型属于VSM形式,用于特征化表示一个抽象样本;
步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行;
步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采用NWKNN算法对抽象样本进行类别判定。
CN201610369833.4A 2016-01-31 2016-05-29 一种基于上下文的抽象样本信息检索*** Active CN106095791B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016100689723 2016-01-31
CN201610068972 2016-01-31

Publications (2)

Publication Number Publication Date
CN106095791A CN106095791A (zh) 2016-11-09
CN106095791B true CN106095791B (zh) 2019-08-09

Family

ID=57230265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610369833.4A Active CN106095791B (zh) 2016-01-31 2016-05-29 一种基于上下文的抽象样本信息检索***

Country Status (1)

Country Link
CN (1) CN106095791B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502994B (zh) * 2016-11-29 2019-12-13 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106874367A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种基于舆情平台的抽样分布式聚类方法
CN110363206B (zh) * 2018-03-26 2023-06-27 阿里巴巴集团控股有限公司 数据对象的聚类、数据处理及数据识别方法
CN111241269B (zh) * 2018-11-09 2024-02-23 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN110110143B (zh) * 2019-04-15 2021-08-03 厦门网宿有限公司 一种视频分类方法及装置
CN110457470A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 一种文本分类模型学习方法及装置
CN113127636B (zh) * 2019-12-31 2024-02-13 北京国双科技有限公司 一种文本聚类类簇中心点选取方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US8364446B2 (en) * 2009-10-12 2013-01-29 National Instruments Corporation Approximating a system using an abstract geometrical space
CN104598586B (zh) * 2015-01-18 2018-04-17 北京工业大学 大规模文本分类的方法

Also Published As

Publication number Publication date
CN106095791A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106095791B (zh) 一种基于上下文的抽象样本信息检索***
Xia et al. Zero-shot user intent detection via capsule neural networks
CN107085581B (zh) 短文本分类方法和装置
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN111291678B (zh) 一种基于多特征融合的人脸图像聚类方法及装置
CN109948149B (zh) 一种文本分类方法及装置
CN102289522B (zh) 一种对于文本智能分类的方法
CN106611052A (zh) 文本标签的确定方法及装置
CN110532554A (zh) 一种中文摘要生成方法、***及存储介质
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN103559504A (zh) 图像目标类别识别方法及装置
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN103034726A (zh) 文本过滤***及方法
CN107180084A (zh) 词库更新方法及装置
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN102129477A (zh) 一种多模态联合的图像重排序方法
CN109670182A (zh) 一种基于文本哈希向量化表示的海量极短文本分类方法
CN113220865B (zh) 一种文本相似词汇检索方法、***、介质及电子设备
CN111597328A (zh) 一种新事件主题提取方法
CN102521402B (zh) 文本过滤***及方法
CN103020167A (zh) 一种计算机中文文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190628

Address after: 100095 Beijing Haidian District Gaolizhang Road No. 1 Courtyard 2 Floor 201-004

Applicant after: Changyuan power (Beijing) Technology Co., Ltd.

Address before: 250300 Shandong Province Changqing District Guyunhu Street Office Danfeng District South District 1 Building

Applicant before: Changyuan power (Shandong) Technology Co. Ltd.

GR01 Patent grant
GR01 Patent grant