CN106682217A - 一种基于自动信息筛选学习的企业二级行业分类方法 - Google Patents
一种基于自动信息筛选学习的企业二级行业分类方法 Download PDFInfo
- Publication number
- CN106682217A CN106682217A CN201611270551.5A CN201611270551A CN106682217A CN 106682217 A CN106682217 A CN 106682217A CN 201611270551 A CN201611270551 A CN 201611270551A CN 106682217 A CN106682217 A CN 106682217A
- Authority
- CN
- China
- Prior art keywords
- vector
- enterprise
- neural network
- neutral net
- gru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理领域,特别涉及一种基于自动信息筛选学习的企业二级行业分类方法;结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现现对企业的二级行业的自动分类判断。本发明利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。
Description
技术领域
本发明涉及信息处理领域,特别涉及一种基于自动信息筛选学习的企业二级行业分类方法。
背景技术
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。企业的二级行业类别较多,如果人工对海量的企业进行分类,将耗费大量的人力。
通常会借助机器学习的手段进行数据挖掘,自动完成行业分类。主流的方法分有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法,比如SVM,朴素贝叶斯等分类器完成行业分类。另一种是利用深度学习技术,比如循环神经网络完成自动的特征提取和分类任务。二级行业分类相比一级行业分类,在经营范围的描述上,不同行业之间存在更多的相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。如果使用传统的机器学习方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征组成高维向量放入不同的分类器算法中进行试验和调参,工作量大而繁重,并且都是凭借人的一些经验和猜想在进行的尝试,很可能花费了很大的精力最终效果却不显著。即便使用深度学习的方法,比如循环神经网络,虽然免去了一些人工的特征提取的工作,但是由于经营范围的描述信息通常很分散,包含了多个行业的内容,单从经营范围无法确定哪些信息对判断行业类别是有效的。比如,XX酿酒有限公司的经营范围描述是“白酒酿造,批发零售五金、日用品、饲料、建筑材料”。该描述中包含了多个行业类别,很难确定哪些内容是需要重点关注的,哪些内容是无用的,应该忽略。针对该类问题,如果人工进行判定,通常会先看一下公司名包含了“酿酒”,会将经营范围的描述重点放在“白酒酿造”,忽略其他无关的描述,最终确定该企业属于“酒、饮料和精制茶制造业”。基于人脑的这种信息处理方式的启发,本发明结合循环神经网络和门限控制的方法,构建了一个能够基于公司名自动进行信息筛选的神经网络,用于企业的二级行业分类。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于自动信息筛选学习的企业二级行业分类方法,构造行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,以实现对待分类企业二级行业的自动分类判断。
为了实现上述发明目的,本发明提供了以下技术方案:一种基于自动信息筛选学习的企业二级行业分类方法,采用结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现对企业的二级行业的自动分类判断。
具体的,所采用行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;
GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;
f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;
b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;
y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。
进一步的本发明方法包含以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,建立经营范围的词语库,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量;
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量;
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛;
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
进一步的,所述行业分类神经网络模型的向前传播包含以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
与现有技术相比,本发明的有益效果:本发明提供一种基于自动信息筛选学习的企业二级行业分类方法,本发明利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。
附图说明:
图1为本一种基于自动信息筛选学习的企业二级行业分类方法的实现步骤图。
图2为语料库的编号已经向量映射关系示意图。
图3为本发明方法中行业分类神经网络模型的向前算法过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
一种基于自动信息筛选学习的企业二级行业分类方法,采用结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现对企业的二级行业的自动分类判断。
具体的,所采用行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1和GRU2是两个GRU循环神经网络(GRU1为第一循环神经网络,GRU2为第二循环神经网络),GRU将忘记门和输入门合成了一个单一的更新门,同时还混合了细胞状态和隐藏状态。最终的模型比标准的LSTM模型要简单,效果跟LSTM不相上下。与LSTM一样,GRU用于处理序列数据,比如一段文字描述可以作为由词组成的序列输入到GRU中,该方法在自然语言处理领域中被广泛的运用。
本文的神经网络前向算法中,GRU1的输入是每一个样本的经营范围词向量序列,也就是在步骤3中处理好的经营范围的词序列所对应的词向量序列。xj是输入序列中第j个词的词向量,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,hT是最后一个词输入后生成的隐藏层状态向量,表征当前企业的经营范围。同理,GRU2的输入是每一个样本的公司名词向量序列,zj是输入序列中第j个词的词向量,sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,表征当前企业的公司名。f是用于信息筛选的控制门向量,由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示。信息筛选由完成,通过点乘运算将hT中的无用的杂乱信息丢弃,得到有效的信息,再结合公司名向量sT,通过另一个全连接的神经网络得到最后的预测向量b,其神经网络的参数分别为W和U,激活函数是tanh。向量b通过一个softmax层得到最终的每个类别的概率分布向量y。向量y中的每一维的值对应了相应类别的概率,通常选择概率值最大的类别作为最后的预测类别。
进一步的,本发明方法的待分类企业的行业预测包含如图1所示的以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,并去除标点符号和停用词等无意义的词;将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量。比如经营范围的描述是“啤酒、白酒饮料、纯净水的生产、销售”,分词处理后为“啤酒 白酒 饮料 纯净水 生产 销售”。将分词后的所有的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,比如啤酒索引是1,白酒索引是3,饮料的索引是9。最后将所有的词的索引值映射到不同的固定长度的随机向量。也就是说每一个词用都用不同的固定长度的词向量进行表示。如图2所示。公司名和经营范围在分词处理后的词序列所对应的词向量序列将作为神经网络的输入。
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量。
收集大量企业公司名和相对应的经营范围描述的数据,随机筛选其中的部分数据m条作为样本。根据经营范围对每条样本进行人工标注,标记它所属的二级行业类别。比如,XXX酒业有限责任公司的经营范围的描述是:“啤酒、白酒饮料、纯净水的生产、销售”。则将该条样本标记为“酒、饮料和精制茶制造业”。“酒、饮料和精制茶制造业”是二级行业分类的其中一个类别,二级行业分类拥有很多类别,比如:农业、林业、畜牧业、煤炭开采和洗选业、石油和天然气开采业、黑色金属矿采选业、有色金属矿采选业、非金属矿采选业、通用设备制造业、专用设备制造业、汽车制造业、酒、饮料和精制茶制造业等。(2)将二级行业分类中的所有类别进行编码,转换成计算机可识别的整数。比如整数1对应的是农业,整数15对应的是酒、饮料和精制茶制造业。再将每个类别编码转换成one-hot向量,向量的维度是总的二级行业分类类别数量,比如,农业的编码是1,向量的第一个维度的元素值为1,其余为0。如“1000000…”。该向量将作为神经网络目标变量的输入。
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;通常70%的样本作为训练样本,30%的样本作为开发样本。
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛。
在训练样本中将步骤(2)中处理的表征样本所属类别的one-hot向量和步骤3中处理的公司名和经营范围的词向量序列输入到行业分类神经网络模型中。模型首先会根据公司名和经营范围的词向量序列完成前向运算,然后通过样本的真实类别(步骤(2)中的one-hot向量)进行误差的反向传播,这个过程会自动的去修正神经网络中的权重参数。模型训练过程中,记录每一轮迭代在开发样本和训练样本上的准确率,当训练样本上的准确率不断的提升,开发样本上的准确率没有太大的变化(或者达到设置的准确率阈值)时,可以认为模型已经收敛并停止模型的训练,保存开发样本上准确率最高的一轮迭代结果对应的权重参数作为最终的预测模型。
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
进一步的,所述行业分类神经网络模型的向前传播包含如图3所示的以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
Claims (5)
1.一种基于自动信息筛选学习的企业二级行业分类方法,其特征在于,构造行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
2.如权利要求1所述的方法,其特征在于,采用的所述行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;
GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;
f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;
b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;
y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。
3.如权利要求1所述的方法,其特征在于,包含以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量;
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量;
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛;
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
4.如权利要求3所述的方法,其特征在于,所述行业分类神经网络模型的向前传播包含以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
5.如权利要求4所述的方法,其特征在于,所述步骤(1)和步骤(2)的顺序可以调换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611270551.5A CN106682217A (zh) | 2016-12-31 | 2016-12-31 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611270551.5A CN106682217A (zh) | 2016-12-31 | 2016-12-31 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106682217A true CN106682217A (zh) | 2017-05-17 |
Family
ID=58850579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611270551.5A Pending CN106682217A (zh) | 2016-12-31 | 2016-12-31 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682217A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类*** |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN108959289A (zh) * | 2017-05-18 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 网站类别获取方法和装置 |
CN109035231A (zh) * | 2018-07-20 | 2018-12-18 | 安徽农业大学 | 一种基于深度循环的小麦赤霉病的检测方法及其*** |
CN109447244A (zh) * | 2018-10-11 | 2019-03-08 | 中山大学 | 一种结合门控循环单元神经网络的广告推荐方法 |
CN109471945A (zh) * | 2018-11-12 | 2019-03-15 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN110019769A (zh) * | 2017-07-14 | 2019-07-16 | 元素征信有限责任公司 | 一种智能企业分类算法 |
CN111027318A (zh) * | 2019-10-12 | 2020-04-17 | 中国平安财产保险股份有限公司 | 基于大数据的行业分类方法、装置、设备及存储介质 |
CN111125550A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 兴趣点分类方法、装置、设备及存储介质 |
CN111860981A (zh) * | 2020-07-03 | 2020-10-30 | 航天信息(山东)科技有限公司 | 一种基于lstm深度学习的企业国民行业类别预测方法及*** |
CN113342982A (zh) * | 2021-06-24 | 2021-09-03 | 中国科学技术大学智慧城市研究院(芜湖) | 融合RoBERTa和外部知识库的企业行业分类方法 |
CN113407644A (zh) * | 2021-05-06 | 2021-09-17 | 国科元科技(北京)有限公司 | 一种基于深度学习算法的企业行业二级行业多标签分类器 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN105096171A (zh) * | 2015-09-25 | 2015-11-25 | 齐志良 | 基于互联网的互动备件平台及其互动方法 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN105550323A (zh) * | 2015-12-15 | 2016-05-04 | 北京国电通网络技术有限公司 | 一种分布式数据库负载均衡预测方法和预测分析器 |
CN105550926A (zh) * | 2016-02-02 | 2016-05-04 | 浪潮软件集团有限公司 | 一种自助办税的装置、方法及*** |
CN105787100A (zh) * | 2016-03-18 | 2016-07-20 | 浙江大学 | 一种基于深度神经网络的用户会话推荐方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成***及方法 |
CN105955953A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种分词*** |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及*** |
CN105975987A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于全自动学习的企业行业分类方法 |
US20160350646A1 (en) * | 2015-05-29 | 2016-12-01 | Sas Institute Inc. | Normalizing electronic communications using a neural network |
CN106227721A (zh) * | 2016-08-08 | 2016-12-14 | 中国科学院自动化研究所 | 汉语韵律层级结构预测*** |
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类*** |
-
2016
- 2016-12-31 CN CN201611270551.5A patent/CN106682217A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
US20160350646A1 (en) * | 2015-05-29 | 2016-12-01 | Sas Institute Inc. | Normalizing electronic communications using a neural network |
CN105096171A (zh) * | 2015-09-25 | 2015-11-25 | 齐志良 | 基于互联网的互动备件平台及其互动方法 |
CN105550323A (zh) * | 2015-12-15 | 2016-05-04 | 北京国电通网络技术有限公司 | 一种分布式数据库负载均衡预测方法和预测分析器 |
CN105550926A (zh) * | 2016-02-02 | 2016-05-04 | 浪潮软件集团有限公司 | 一种自助办税的装置、方法及*** |
CN105787100A (zh) * | 2016-03-18 | 2016-07-20 | 浙江大学 | 一种基于深度神经网络的用户会话推荐方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成***及方法 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及*** |
CN105955953A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种分词*** |
CN105975987A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于全自动学习的企业行业分类方法 |
CN106227721A (zh) * | 2016-08-08 | 2016-12-14 | 中国科学院自动化研究所 | 汉语韵律层级结构预测*** |
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类*** |
Non-Patent Citations (2)
Title |
---|
KIM J 等: "Classification performance using gated recurrent unit recurrent neural network on energy disaggregation", 《2016 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS (ICMLC)》 * |
张剑 等: "基于词向量特征的循环神经网络语言模型", 《模式识别与人工智能》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类*** |
CN108959289A (zh) * | 2017-05-18 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 网站类别获取方法和装置 |
CN110019769A (zh) * | 2017-07-14 | 2019-07-16 | 元素征信有限责任公司 | 一种智能企业分类算法 |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN107944480B (zh) * | 2017-11-16 | 2020-11-24 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN109035231A (zh) * | 2018-07-20 | 2018-12-18 | 安徽农业大学 | 一种基于深度循环的小麦赤霉病的检测方法及其*** |
CN109447244A (zh) * | 2018-10-11 | 2019-03-08 | 中山大学 | 一种结合门控循环单元神经网络的广告推荐方法 |
CN111125550A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 兴趣点分类方法、装置、设备及存储介质 |
CN111125550B (zh) * | 2018-11-01 | 2023-11-24 | 百度在线网络技术(北京)有限公司 | 兴趣点分类方法、装置、设备及存储介质 |
CN109471945A (zh) * | 2018-11-12 | 2019-03-15 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN109471945B (zh) * | 2018-11-12 | 2021-11-23 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN109710768B (zh) * | 2019-01-10 | 2020-07-28 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN111027318A (zh) * | 2019-10-12 | 2020-04-17 | 中国平安财产保险股份有限公司 | 基于大数据的行业分类方法、装置、设备及存储介质 |
CN111860981A (zh) * | 2020-07-03 | 2020-10-30 | 航天信息(山东)科技有限公司 | 一种基于lstm深度学习的企业国民行业类别预测方法及*** |
CN111860981B (zh) * | 2020-07-03 | 2024-01-19 | 航天信息(山东)科技有限公司 | 一种基于lstm深度学习的企业国民行业类别预测方法及*** |
CN113407644A (zh) * | 2021-05-06 | 2021-09-17 | 国科元科技(北京)有限公司 | 一种基于深度学习算法的企业行业二级行业多标签分类器 |
CN113342982A (zh) * | 2021-06-24 | 2021-09-03 | 中国科学技术大学智慧城市研究院(芜湖) | 融合RoBERTa和外部知识库的企业行业分类方法 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682217A (zh) | 一种基于自动信息筛选学习的企业二级行业分类方法 | |
CN106779467A (zh) | 基于自动信息筛选的企业行业分类*** | |
Mostafa et al. | Oil price forecasting using gene expression programming and artificial neural networks | |
Tomczak et al. | Classification restricted Boltzmann machine for comprehensible credit scoring model | |
Chitra et al. | Data mining techniques and its applications in banking sector | |
CN106960358A (zh) | 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测*** | |
CN106600423A (zh) | 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置 | |
CN106682208B (zh) | 基于融合特征筛选与随机森林的微博转发行为预测方法 | |
CN112231562A (zh) | 一种网络谣言识别方法及*** | |
CN104391860A (zh) | 内容类别检测方法及装置 | |
CN112967063B (zh) | 一种面向以太坊平台的庞氏骗局检测方法 | |
Nune et al. | Novel artificial neural networks and logistic approach for detecting credit card deceit | |
CN111475615A (zh) | 一种情感增强的细粒度情感预测方法、装置、***及存储介质 | |
CN108108744A (zh) | 用于辐射图像辅助分析的方法及其*** | |
CN112182152B (zh) | 基于深度学习的新浪微博用户情感影响力分析方法 | |
CN104615789A (zh) | 一种数据分类方法及装置 | |
CN110414626A (zh) | 一种猪只品种识别方法、装置和计算机可读存储介质 | |
CN115936075A (zh) | 在电商评论场景下的一种基于生成对抗网络的文本对抗样本防御方法 | |
CN110489753A (zh) | 改进特征选择的神经结构对应学习跨领域情感分类方法 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及*** | |
Roomi et al. | Classification of mangoes by object features and contour modeling | |
CN108846128A (zh) | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 | |
CN106557983B (zh) | 一种基于模糊多类svm的微博垃圾用户检测方法 | |
Sen et al. | Meta learning algorithms for credit card fraud detection | |
Kumar et al. | A recurrent neural network model for spam message detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170517 |
|
WD01 | Invention patent application deemed withdrawn after publication |