CN107748783A - 一种基于句向量的多标签公司描述文本分类方法 - Google Patents
一种基于句向量的多标签公司描述文本分类方法 Download PDFInfo
- Publication number
- CN107748783A CN107748783A CN201711002965.4A CN201711002965A CN107748783A CN 107748783 A CN107748783 A CN 107748783A CN 201711002965 A CN201711002965 A CN 201711002965A CN 107748783 A CN107748783 A CN 107748783A
- Authority
- CN
- China
- Prior art keywords
- mrow
- company
- label
- training
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于句向量的多标签公司描述文本分类方法,所述方法包括以下步骤:通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述,描述文字中只保留字母和英文字符,获取TXT格式文件;对TXT格式文件依次进行词向量训练、句向量训练和PCA降维;将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练,获取训练模型;将训练模型应用在测试数据集或未标注数据集上,实现对多标签公司的文本分类。本发明提出句向量结合朴素贝叶斯多标签文本分类的方法,利用句向量和朴素贝叶斯思想有效应用在文本上,并可应用在实际问题中。
Description
技术领域
本发明涉及处理文本分类的多标签领域,尤其涉及一种基于句向量的多标签公司描述文本分类方法。
背景技术
文本分类或基于文本的其他分类问题,一直是语义处理的重点问题,尤其是多分类的问题[1][2][3]。
自动文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类主题的过程,这个工作过程通过计算机可以高效地完成。文本分类是文本挖掘的一种重要内容,它是许多数据管理任务的重要组成部分[4][5][6]。
文本分类在传统上需要先对句子或段落进行词包或者词频逆文本处理,但是对于深层语意结构并没有很好的体现,所以对深层语意结构的探究是十分有必要的,构建句向量是基础[7][8][9]。
另外,文本属于单一类别的应用虽然简单,但是并不常见,所以基于多标签的文本分类的应用更贴近实际,但面对的挑战也更多[10]。
发明内容
本发明提供了一种基于句向量的多标签公司描述文本分类方法,本发明收集数据库,对描述公司的文本进行处理,然后根据多标签训练,最后进行自动公司分类,详见下文描述:
一种基于句向量的多标签公司描述文本分类方法,所述方法包括以下步骤:
通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述,描述文字中只保留字母和英文字符,获取TXT格式文件;
对TXT格式文件依次进行词向量训练、句向量训练和PCA降维;
将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练,获取训练模型;
将训练模型应用在测试数据集或未标注数据集上,实现对多标签公司的文本分类。
其中,所述将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练具体为:
通过句向量转化后的向量特征的先验信息和标签,通过目标函数,计算出在朴素贝叶斯条件下相应标签的分类。
其中,所述目标函数具体为:
其中,t是样本,l∈Y,Y是所有标签的集合,P(*)是概率函数,代表该样本是否属于第l个标签,当b为1时属于该标签,当b为0时不属于该标签,b为是否属于该标签的标记,P(t)为数据t出现的概率,tk为第k个特征出现的概率,d为特征总数。
进一步地,所述方法还包括:
采用Hamming loss的方式进行效果估计:
其中,h()表示预测出的标签向量,xi为该样本特征,Yi表示真实的标签向量,共有Q个标签,p个样本。
本发明提供的技术方案的有益效果是:
1、本发明提出句向量结合朴素贝叶斯多标签文本分类的方法,利用句向量和朴素贝叶斯思想有效应用在文本上,并可应用在实际问题中(如公司分类);
2、本发明收集数据(三个类公司的文本描述)并验证上述想法,并解决问题(对公司进行分类,并进行推荐),具有理想的效果。
附图说明
图1为一种基于句向量的多标签公司描述文本分类方法的流程图;
图2为PCA(主成分分析)效果说明图;
图3为特征维度说明图;
图4为结果示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于句向量的多标签公司描述文本分类方法,参见图1,该方法包括以下步骤:
101:通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述,描述文字中只保留字母和英文字符,获取TXT格式文件;
102:对TXT格式文件依次进行词向量训练、句向量训练和PCA降维;
103:将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练,获取训练模型;
104:将训练模型应用在测试数据集或未标注数据集上,实现对多标签公司的文本分类。
其中,步骤103中的将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练具体为:
通过句向量转化后的向量特征的先验信息和标签,通过目标函数,计算出在朴素贝叶斯条件下相应标签的分类。
综上所述,本发明实施例通过上述步骤101-步骤104实现了收集数据库,对描述公司的文本进行处理,然后根据多标签训练,最后进行自动公司分类。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:通过爬虫技术获取公司主页上关于公司的描述文字;对描述文字进行预处理和清洗操作,获取TXT格式文件;
即,通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述(英文)。描述文字中只保留字母和英文字符,为后续预处理清除可能出现的干扰。
获取公司官网网址等信息字(一共三类公司)保存为TXT格式文件,将对应标签储存为.mat文件。
202:对TXT格式文件进行语义处理,包括:词向量训练,句向量(在词向量的基础上)训练和PCA降维等;
203:将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练,获取训练模型;
其中,该步骤203具体为:
通过样本(通过句向量转化后的向量特征)的先验信息和标签,通过目标函数,计算出在朴素贝叶斯条件下相应标签的分类。目标函数如下:
其中:t是样本,l∈Y,Y是所有标签的集合,P(*)是概率函数,代表该样本是否属于第l个标签,当b为1时属于该标签,当b为0时不属于该标签,b为是否属于该标签的标记,P(t)为数据t出现的概率,tk为第k个特征出现的概率,d为特征总数。
本发明实施例要计算的就是样本属于l类概率和样本不属于第l类的概率,并对比它们的大小,得到结果。
另外,类条件概率可以被计算为:
其中:d为总特征数,g是第k个样本的概率密度函数,mu为平均值,sigma为标准差,lb为在l和b的情况下。
把概率密度函数替换到目标函数中:
其中:
式中,为sigma的对数形式。
最后,采用Hamming loss的方式进行效果估计:
其中,h()表示预测出的标签向量,xi为该样本特征,Yi表示真实的标签向量,共有Q个标签,p个样本。
参见图2,在提取句向量的步骤之后,采取主成分分析(PCA)对特征向量进行进一步降维处理。PCA降维后可以找到有区别性特征(△),即非无用的冗余特征(×),又非两类标签共有特征(+),更非每类标签共有特征(*)。如此提取特征之后,特征向量所能代表的信息熵最大化。
204:将训练模型应用在测试数据集或未标注数据集上。
综上所述,本发明实施例通过上述步骤201-步骤204实现了收集数据库,对描述公司的文本进行处理,然后根据多标签训练,最后进行自动公司分类。
实施例3
下面结合具体的实验数据对实施例1和2中的方案进行可行性验证,详见下文描述:
数据库描述:数据集是一个Excel表格,其中包括三个表,每个表主要是某个类型的公司的描述,每个表的三列分别是名称,网址,描述,以及是否属于三个类(供应,运输,销售)。
1)数据清洗:去除网址列,把三个表的文本保存为TXT格式,把名称和描述合并成一行,标签(1代表供应链;2代表流通链;3代表服务链)储存为三个.mat文件,文本中只保留字母和英文字符,为后续预处理清除可能出现的干扰。
2)词向量训练:采取词向量表示方式,进行语义特征提取。
例如,I am in the house和I am in the restaurant,其中由于house和restaurant因为在句子中的的位置相似,且前面的词一致,所以这两个词是相近的词,他们的特征空间向量相似程度高。最后得到一个表,每个词都由一个250维的向量表示。
3)句子向量训练:在词向量的基础上,根据句子中的词,把句子转换为向量表示形式,也是250维表示一个句子,作为每个公司的特征。
4)分割数据:因为数据集不分训练集和测试集,所以需按照八二比例切割数据集,为保证随机性,实现自动随机分割程序,保证每类样本在训练集里有80%,在测试集里有20%(2344条训练集,587条测试集)
5)模型训练:选取朴素贝叶斯(Bayes)多分类模型。
6)调整参数观察结果:模型训练中的PCA降维比例,词向量训练中的维度和窗参数等参数对最终结果都有重要影响。
特征维度250维,窗参数4维,PCA降维比例为10%,参见图3。根据对比,得出最优模型,设定最优模型和参数设置:运行150次平均准确率为:0.807962784805970;最大正确率为:0.84(作为示例程序,训练集和测试集的选取已经储存),参见图4。
参考文献
[1]Z.Barutcuoglu,R.E.Schapire,O.G.Troyanskaya,Hierarchical multi-label prediction of gene function,Bioinformatics 22(7)(2006)830–836.
[2]K.Brinker,J.Fürnkranz,E.Hüllermeier,A unified model for multilabelclassification and ranking,in:Proceedings of the 17th European Conference onArtificial Intelligence,Riva del Garda,Italy,2006,pp.489–493.
[3]L.Cai,T.Hofmann,Hierarchical document categorization with supportvector machines,in:Proceedings of the 13th ACM International Conference onInformation and Knowledge Management,Washington,DC,2004,pp.78–87.
[4]A.Clare,R.D.King,Knowledge discovery in multi-label phenotypedata,in:L.De Raedt,A.Siebes(Eds.),Lecture Notes in Computer Science,vol.2168,Springer,Berlin,2001,pp.42–53.[5]D.E.Goldberg,Genetic Algorithms in Search,Optimization,and Machine Learning,Addison-Wesley,Boston,MA,1989.
[6]S.Gunal,R.Edizkan,Subspace based feature selection for patternrecognition,Information Sciences 178(19)(2008)3716–3726.
[7]F.Sebastiani,Machine learning in automated text categorization,ACMComputing Surveys34(1)(2002)1–47.
[8]M.-L.Zhang,ML-RBF:RBF neural networks for multi-label learning,Neural Processing Letters 29(2)(2009)61–74.
[9]M.-L.Zhang,Z.-H.Zhou,Ml-knn a lazy learning approach to multi-label learning,Pattern Recognition 40(7)(2007)2038–2048.
[10]C.Vens,J.Struyf,L.Schietgat,S.Dzˇeroski,H.Blockeel,Decision treesfor hierarchical multi-label classification,Machine Learning 73(2)(2008)185–214.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于句向量的多标签公司描述文本分类方法,其特征在于,所述方法包括以下步骤:
通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述,描述文字中只保留字母和英文字符,获取TXT格式文件;
对TXT格式文件依次进行词向量训练、句向量训练和PCA降维;
将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练,获取训练模型;
将训练模型应用在测试数据集或未标注数据集上,实现对多标签公司的文本分类。
2.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法,其特征在于,所述将处理后的特征向量和标签对应出来,得到数据集,将训练集输入,进行多标签朴素贝叶斯分类训练具体为:
通过句向量转化后的向量特征的先验信息和标签,通过目标函数,计算出在朴素贝叶斯条件下相应标签的分类。
3.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法,其特征在于,所述目标函数具体为:
<mrow>
<msub>
<mi>y</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<msub>
<mi>max</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>}</mo>
</mrow>
</msub>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>H</mi>
<mi>b</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>|</mo>
<msubsup>
<mi>H</mi>
<mi>b</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<msub>
<mi>max</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>}</mo>
</mrow>
</msub>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>H</mi>
<mi>b</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>K</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>d</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msubsup>
<mi>H</mi>
<mi>b</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
其中,t是样本,l∈Y,Y是所有标签的集合,P(*)是概率函数,代表该样本是否属于第l个标签,当b为1时属于该标签,当b为0时不属于该标签,b为是否属于该标签的标记,P(t)为数据t出现的概率,tk为第k个特征出现的概率,d为特征总数。
4.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法,其特征在于,所述方法还包括:
采用Hamming loss的方式进行效果估计:
<mrow>
<mi>h</mi>
<mi>l</mi>
<mi>o</mi>
<mi>s</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>p</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>p</mi>
</munderover>
<mfrac>
<mn>1</mn>
<mi>Q</mi>
</mfrac>
<mo>|</mo>
<mi>h</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
</mrow>
其中,h()表示预测出的标签向量,xi为该样本特征,Yi表示真实的标签向量,共有Q个标签,p个样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711002965.4A CN107748783A (zh) | 2017-10-24 | 2017-10-24 | 一种基于句向量的多标签公司描述文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711002965.4A CN107748783A (zh) | 2017-10-24 | 2017-10-24 | 一种基于句向量的多标签公司描述文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107748783A true CN107748783A (zh) | 2018-03-02 |
Family
ID=61254088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711002965.4A Pending CN107748783A (zh) | 2017-10-24 | 2017-10-24 | 一种基于句向量的多标签公司描述文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107748783A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804651A (zh) * | 2018-06-07 | 2018-11-13 | 南京邮电大学 | 一种基于强化贝叶斯分类的社交行为检测方法 |
CN108845560A (zh) * | 2018-05-30 | 2018-11-20 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN109063001A (zh) * | 2018-07-09 | 2018-12-21 | 北京小米移动软件有限公司 | 页面展示方法及装置 |
CN110851607A (zh) * | 2019-11-19 | 2020-02-28 | 中国银行股份有限公司 | 资讯分类模型的训练方法及装置 |
CN112860889A (zh) * | 2021-01-29 | 2021-05-28 | 太原理工大学 | 一种基于bert的多标签分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091654A1 (en) * | 2015-09-25 | 2017-03-30 | Mcafee, Inc. | Multi-label classification for overlapping classes |
CN106886569A (zh) * | 2017-01-13 | 2017-06-23 | 重庆邮电大学 | 一种基于mpi的ml‑knn多标签中文文本分类方法 |
CN107133293A (zh) * | 2017-04-25 | 2017-09-05 | 中国科学院计算技术研究所 | 一种适用于多标签分类的ML‑kNN改进方法和*** |
-
2017
- 2017-10-24 CN CN201711002965.4A patent/CN107748783A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091654A1 (en) * | 2015-09-25 | 2017-03-30 | Mcafee, Inc. | Multi-label classification for overlapping classes |
CN106886569A (zh) * | 2017-01-13 | 2017-06-23 | 重庆邮电大学 | 一种基于mpi的ml‑knn多标签中文文本分类方法 |
CN107133293A (zh) * | 2017-04-25 | 2017-09-05 | 中国科学院计算技术研究所 | 一种适用于多标签分类的ML‑kNN改进方法和*** |
Non-Patent Citations (1)
Title |
---|
MIN-LING ZHANG等: ""Feature Selection for Multi-Label Naive Bayes Classification"", 《INFORMATION SCIENCES》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108845560A (zh) * | 2018-05-30 | 2018-11-20 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN108845560B (zh) * | 2018-05-30 | 2021-07-13 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN108804651A (zh) * | 2018-06-07 | 2018-11-13 | 南京邮电大学 | 一种基于强化贝叶斯分类的社交行为检测方法 |
CN108804651B (zh) * | 2018-06-07 | 2022-08-19 | 南京邮电大学 | 一种基于强化贝叶斯分类的社交行为检测方法 |
CN109063001A (zh) * | 2018-07-09 | 2018-12-21 | 北京小米移动软件有限公司 | 页面展示方法及装置 |
CN110851607A (zh) * | 2019-11-19 | 2020-02-28 | 中国银行股份有限公司 | 资讯分类模型的训练方法及装置 |
CN112860889A (zh) * | 2021-01-29 | 2021-05-28 | 太原理工大学 | 一种基于bert的多标签分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Time series feature learning with labeled and unlabeled data | |
AU2018201670B2 (en) | BiLSTM-SIAMESE NETWORK BASED CLASSIFIER FOR IDENTIFYING TARGET CLASS OF QUERIES AND PROVIDING RESPONSES THEREOF | |
US11568315B2 (en) | Systems and methods for learning user representations for open vocabulary data sets | |
CN107748783A (zh) | 一种基于句向量的多标签公司描述文本分类方法 | |
Gürcan | Multi-class classification of turkish texts with machine learning algorithms | |
CN103782309A (zh) | 用于机器学习分类器的自动数据清除 | |
CN111753087B (zh) | 舆情文本分类方法、装置、计算机设备和存储介质 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN110807086B (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN110347791B (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
KR20190135129A (ko) | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN112417121A (zh) | 客户意图识别方法、装置、计算机设备及存储介质 | |
Singh et al. | Feature selection based classifier combination approach for handwritten Devanagari numeral recognition | |
Yousefnezhad et al. | A new selection strategy for selective cluster ensemble based on diversity and independency | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
Llerena et al. | On using sum-product networks for multi-label classification | |
Haripriya et al. | Multi label prediction using association rule generation and simple k-means | |
Wu et al. | A robust inference algorithm for crowd sourced categorization | |
Schmitt et al. | Outlier detection on semantic space for sentiment analysis with convolutional neural networks | |
CN112613318B (zh) | 实体名称归一化***及其方法、计算机可读介质 | |
Kamel et al. | Robust sentiment fusion on distribution of news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180302 |
|
WD01 | Invention patent application deemed withdrawn after publication |