CN109871443A - 一种基于记账场景的短文本分类方法及装置 - Google Patents

一种基于记账场景的短文本分类方法及装置 Download PDF

Info

Publication number
CN109871443A
CN109871443A CN201811586935.7A CN201811586935A CN109871443A CN 109871443 A CN109871443 A CN 109871443A CN 201811586935 A CN201811586935 A CN 201811586935A CN 109871443 A CN109871443 A CN 109871443A
Authority
CN
China
Prior art keywords
text
book keeping
keeping operation
classification
internetbank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811586935.7A
Other languages
English (en)
Inventor
孙长会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Maocai Network Technology Co Ltd
Original Assignee
Hangzhou Maocai Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Maocai Network Technology Co Ltd filed Critical Hangzhou Maocai Network Technology Co Ltd
Priority to CN201811586935.7A priority Critical patent/CN109871443A/zh
Publication of CN109871443A publication Critical patent/CN109871443A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于记账场景的短文本分类方法和装置。一种基于记账场景的短文本分类方法,包括:将待分类的记账网银文本进行数据预处理,包括:分词、去除分词后的文本中的停用词和/或高频词以及提取关键词;将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别。一种基于记账场景的短文本分类装置,适用于如上所述的基于记账场景的短文本分类方法,包括:数据预处理单元和文本分类单元。本发明采用FastText文本分类模型,无需人工构造特征,特征的提取能够实现自动化;也无需提前训练词向量,词向量在模型训练过程中会自动完成。

Description

一种基于记账场景的短文本分类方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种基于记账场景的短文本分类方法和装置。
背景技术
用户网银文本记账场景中,网银文本的生成并非来自用户,而是来自各家银行机构以及第三方交易平台,由于行业内并没有统一标准及规范术语,于是就是出现了很多诸如:“网上支付”、“快捷支付”、“银联代收”、“跨行消费”等等交易文本信息,用户在使用软件记账过程中,想将该文本进行准确分类将会很困难,一方面这些文本简短且信息含义不明确,用户不知道该分到哪个类目;另一方面,如果软件类目较多,用户在人工选择类目时,需要进行多次对比和选择,会比较费时费神,可能会降低用户记账积极性,影响用户体验。
目前常见的文本分类算法有很多,比如基于字典的关键词匹配算法,基于人工设计特征的传统机器学***衡问题影响较严重,特别是在记账场景下,有些类目出现的频次少,而部分类目出现次数占总体的绝大部分,这种算法缺陷会受到很大影响。基于深度学习如CNN、LSTM等算法,通过构建多隐层的神经网络,可以学习到更加抽象的高层属性类别或特征,以发现数据的特征分布表示,进而进行文本分类,该类算法准确率较高,但是需要额外进行Word2Vec词向量训练,同时神经网络构建及调参过程也较复杂,模型训练异常耗时,一般长达几小时甚至更长时间才能完成训练。
申请号为201610285420.8的在先专利申请公开了一种短文本分类方法及装置,分类器模型选择上其使用了基于传统机器学习的SVM分类模型。如上所述,多个类别SVM分类模型,在针对上百类目分类场景,效果欠佳。该方案的不足之处在于,需要构建与类目相同数目的分类器,这个代价花费很大。如在记账场景下,拥有100个类目,那么就需要训练100个分类器,一方面数据是否能够支持模型的有效训练存在问题,另一方面每一条文本都要经过N 个分类器的分类才能判定所属类目,计算的代价巨大。
申请号为201710469373.7的在先专利申请公开了短文本分类方法及装置,其使用了基于深度学习的CNN及Bi-LSTM分类模型。该方案的不足之处在于,需要事先准备大规模语料库,并单独进行Word2Vec词向量训练,同时神经网络构建及调参过程也较复杂,模型训练一般长达几小时甚至更长时间才能完成训练,模型验证效率较低。过于复杂的神经网络,还容易出现过拟合问题。
因此在记账网银文本分类场景中,需要应对几个重要问题:(1)特征抽取,传统文本特征抽取依赖于文本字面意思的表达,或者依赖领域专家的经验构建。但是这两种方式都有一定的缺陷,文本字面意思的表达会因为分词的原因损失一定量上下文的信息,而领域专家的经验构建会因为个人的主观因素造成信息表达失衡;(2)网银文本是短文本,因此针对长文本设计的特征以及算法都有可能失效;(3)记账分类是上百类目的多分类任务,之前在二分类及少量类目分类上表现不错的算法可能会存在效果打折严重问题;(4)类目数据分布不均衡,一些类目(如餐饮、购物百货等)包含数据量较多,而另一些类目(办公花费、报刊书籍等)包含数据量偏少。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于记账场景的短文本分类方法和装置,该分类方法在数据预处理阶段,将资金流向信息及文本关键词补充到分词后的记账网银文本中,以扩充文本信息,使待分类文本具有足够的文本数据以保证精度;同时合理去除分词后的文本中的停用词、高频词汇,以降低数据噪声。采用FastText文本分类模型,FastText 模型无需人工构造特征,特征的提取能够实现自动化;也无需提前训练词向量,词向量在模型训练过程中会自动完成;FastText模型本质上属于浅层神经网络,虽然属于浅层神经网络,但无论性能、还是预测准确率都取得了较好的效果,非常适合大规模的文本分类问题。
为了实现上述的目的,本发明提供了一种基于记账场景的短文本分类方法,包括:
将待分类的记账网银文本进行数据预处理,包括:分词、去除分词后的文本中的停用词和/或高频词以及提取关键词;
将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别。
作为优选,所述去除停用词和/或高频词包括:
构建停用词、高频词库;
对比分词结果中的词汇和停用词、高频词库,检测是否有词汇出现在词库中,如果出现,则过滤掉。
作为优选,通过TextRank算法提取关键词。
作为优选,记账网银数据除了包含交易文本信息外,还会有资金流水记录,判断资金流水金额正负,若资金流水金额为正数,映射成“支出”字段补充到分词结果中;若资金流水金额为负数,映射成“收入”字段补充到分词结果中。
作为优选,建立FastText文本分类模型包括以下步骤:
1)搭建FastText分类模型,包括:添加输入层、隐含层和输出层,指定损失函数、优化器类型和评价指标;
2)将记账网银文本训练数据输入FastText分类模型,所述记账网银文本训练数据库包括多条记账网银文本和对应每条记账网银文本的所属类别;
3)按指定的优化器类型对FastText分类模型进行优化并执行步骤2),直至准确率达到预设的评价指标;
其中,记账网银文本来自第三方。
作为优选,在隐含层计算时,将输入FastText分类模型的文本的N-gram特征也加进去参与运算。
作为优选,所述输出层采用Hierarchical Softmax分类。
本发明还提供了一种基于记账场景的短文本分类装置,适用于如上所述的基于记账场景的短文本分类方法,包括:
数据预处理单元,用于将待分类的记账网银文本进行数据预处理;
文本分类单元,用于将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别并输出。
本发明还提供了一种终端,包括一个或多个处理器,以及与所述处理器通信连接的存储装置,其中,所述存储装置存储有能被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如上所述的方法。
本发明具有以下优点:
1.实现了自动化特征提取,提高特征的有效性。
2.解决了特征表达稀疏问题,模型在训练过程中自动将短文本的词特征映射到词向量空间,无需事先准备语料库及单独训练词向量。
3.解决了短文本存在的长度短造成的特征表达的问题。将资金流向信息及文本关键词补充到原始文本中,使得向量表征更有效,语义更丰富。
4.解决了上百类目的多分类问题,以及类目数据分布不均衡问题对分类算法造成的影响。
5.解决了模型训练耗时,模型验证效率低下问题。本发明单次训练仅需几分钟,准确率及召回率即可比肩单次训练需要几小时的深度学习算法。
附图说明
图1为本发明的方法流程图;
图2为数据预处理的方法流程图;
图3为FastText分类模型结构图。
具体实施方式
为了清楚起见,首先说明本发明使用的特定词或短语的定义。
FastText:Facebook推出的一个用于文本分类和计算词向量的工具。
TextRank:关键词提取,即从一段给定的文本中抽取出若干有意义的词或词组。
Hierarchical Softmax:用霍夫曼树层级关系替代扁平化的softmax层,计算时只需要沿着通向该词语的叶子节点的路径搜索,既可以提高计算速度,又可以解决不平衡分类问题。
下面结合附图对本专利的优选实施方案作进一步详细的说明。
如图1所示的一种基于记账场景的短文本分类方法,包括:
将待分类的记账网银文本进行数据预处理;
将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别。
如图2所示,所述数据预处理包括:分词、去除分词后的文本中的停用词和/或高频词以及提取关键词,针对记账网银文本长度的不确定性,数据预处理还包括提取资金流向信息,将其补充至分词后的记账网银文本中,以扩充文本信息。
其中:
分词是通过开源的分词工具或分词算法实现,例如jieba工具。
用户记账网银数据除了包含交易文本信息外,还会有资金流水记录。行业内,流水金额为正数,表示该笔资金为支出;金额流水为负数,表示该笔资金为收入。我们提出根据资金流水金额正负,映射成相应的“支出”与“收入”字段,将其补充到分词后的记账网银文本。
通过TextRank算法提取关键词,TextRank是一种基于图结构的模型,由PageRank的思想演化而来,其主要思想是:初始化图的顶点为文档中所有的词,默认顶点的权重为1或者词总数的倒数,针对特定词w,可以给其后大小为size的窗口内的各个词投票,同时增加一条从该特定词连接窗口内其余词的边,并将该条边的权重设置为1,如果该条边已经存在,则将该边的权重加1,经过特定次迭代后,每个顶点的权重代表该词的重要程度。使用TextRank算法提取网银文本关键词,并将其补充到分词后的记账网银文本。
所述去除停用词和/或高频词包括:
构建停用词、高频词库;
对比分词结果中的词汇和停用词、高频词库,检测是否有词汇出现在词库中,如果出现,则过滤掉。
通过对大量记账网银文本数据分析,我们构建了一个比较丰富的停用词、高频词库(如:“的”、“【】”等将被划分到停用词库;“支付宝”、“财付通”等将被划分到高频词库)。对分词结果中的所有词汇,检测是否有词汇出现在词库中,如果出现,则过滤掉。通过对比实验,可以看出去除停用词、高频词后,分类准确率明显提升。
由于本方案不需要额外准备语料库及单独训练词向量,至此数据预处理阶段完成,相比其他方案,本方案实施过程复杂度低,时间成本也非常低。
FastText文本分类模型的结构如图3所示,建立FastText文本分类模型包括以下步骤:
1)搭建FastText分类模型,包括:添加输入层、隐含层和输出层,指定损失函数、优化器类型和评价指标;
2)将记账网银文本训练数据输入FastText分类模型,所述记账网银文本训练数据库包括多条记账网银文本和对应每条记账网银文本的所属类别;
3)按指定的优化器类型对FastText分类模型进行优化并执行步骤2),直至准确率达到预设的评价指标;
其中,记账网银文本来自第三方。
其中,输入层(embedding层)的输入是经过数据预处理后的词汇集合的索引序列,输入层包括词向量查找表wi_,输入层将每个单词映射成向量,以便后续计算,该向量的维度自定义。FastText模型无需人工构造特征,特征的提取能够实现自动化;也无需提前训练词向量,词向量在模型训练过程中会自动完成。仅仅需要将预处理后的数据集输入进模型,模型会自动构建词典。
隐含层用于将输入的所有单词的向量进行叠加平均。为了避免丢失词顺序信息,保留一定的上下文关系,在隐含层计算中,将N-gram特征引入,具体做法是把N-gram当成一个词,也用词向量来表示,在计算隐层时,把N-gram的词向量也加进去参与运算,如:某条记账网银文本包含3个词:w1,w2,w3,当N-gram的N取2时,那么w12、w23将连同w1、w2、w3 一起参加运算。
输出层,可以采用扁平化softmax分类或hierarchical softmax分类,优选hierarchical softmax分类。采用记账网银数据中,一些类目(如餐饮、购物百货等)包含数据量很大,而另一些类目(办公花费、报刊书籍等)数据量偏少,这样生成的数据集,各个类目将会有很严重的数据倾斜。我们采用hierarchical softmax替代扁平化的softmax层,对于每个目标词,都可以在构建好的霍夫曼树上确定一条从根节点到叶子节点的路径,路径上的每个非叶子节点都会进行一次逻辑回归运算,参数保存在wo_的各行上,训练时,这条路径上的逻辑回归运算各自独立进行参数更新,并反向传播至hidden_层,以更新梯度grad_值。由于仅仅沿着霍夫曼树编码路径计算,而不需要考虑其他节点,也不依赖于其他叶子节点,所以可以很好解决数据集不平衡问题。并且,采用hierarchical softmax可以提升模型训练速度,当类目数为k,词向量维度大小为n时,计算复杂度可以从O(kn)降到O(nlog(k))。通过选择该训练策略,对于百万级别数据,在普通的CPU上既可以实现分钟级别的训练,比使用专门GPU的深度学习模型训练要快几个数量级。
综上,上述方法具有以下优点:
1.在数据预处理阶段,将资金流向信息及记账网银文本关键词组合到记账文本中,同时构建停用词库及高频词库,以过滤常用的停用词、高频词,使用这些文本预处理方法提高分类准确率及召回率;
2.采用FastText库作为记账网银文本分类模型,该库适合大规模的文本分类问题。
3.模型训练过程中,采用了N-gram的特征,以保留文本上下文关系,避免丢失词顺序信息,提高分类准确率及召回率。同时我们采用hierarchical softmax代替扁平化的softmax 层,既解决了类目不均衡问题,又提升了模型训练速度。
上述短文本分类方法,不仅仅局限于记账网银文本分类问题,还可以应用于商品文本分类、情感分析分类等等场景。
本申请实施例还提供一种是用于本实施例中的基于记账场景的短文本分类方法,包括:
数据预处理单元,用于将待分类的记账网银文本进行数据预处理;
文本分类单元,用于将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别并输出。
本发明的实施例还提供一种终端,包括一个或多个处理器,以及与所述处理器通信连接的存储装置,其中,所述存储装置存储有能被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述实施例提供的文本分类方法。
本实施例还提供一种非暂态计算机可读存储介质,该存储有计算机程序,其中,该计算机程序被处理器执行时实现上述实施例提供的文本分类方法。
本领域普通技术人员可以理解:实现上述方法的实施例全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于以计算机可读存储介质中,该程序执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种基于记账场景的短文本分类方法,其特征在于,包括:
将待分类的记账网银文本进行数据预处理,包括:分词、去除分词后的文本中的停用词和/或高频词以及提取关键词;
将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别。
2.根据权利要求1所述的一种基于记账场景的短文本分类方法,其特征在于,所述去除停用词和/或高频词包括:
构建停用词、高频词库;
对比分词结果中的词汇和停用词、高频词库,检测是否有词汇出现在词库中,如果出现,则过滤掉。
3.根据权利要求1所述的一种基于记账场景的短文本分类方法,其特征在于,通过TextRank算法提取关键词。
4.根据权利要求1所述的一种基于记账场景的短文本分类方法,其特征在于,所述数据预处理包括,提取待处理的记账网银文本的资金流向信息,补充到分词结果中。
5.根据权利要求4所述的一种基于记账场景的短文本分类方法,其特征在于,记账网银数据除了包含交易文本信息外,还会有资金流水记录,判断资金流水金额正负,若资金流水金额为正数,映射成“支出”字段补充到分词结果中;若资金流水金额为负数,映射成“收入”字段补充到分词结果中。
6.根据权利要求1所述的一种基于记账场景的短文本分类方法,其特征在于,建立FastText文本分类模型包括以下步骤:
1)搭建FastText分类模型,包括:添加输入层、隐含层和输出层,指定损失函数、优化器类型和评价指标;
2)将记账网银文本训练数据输入FastText分类模型,所述记账网银文本训练数据库包括多条记账网银文本和对应每条记账网银文本的所属类别;
3)按指定的优化器类型对FastText分类模型进行优化并执行步骤2),直至准确率达到预设的评价指标;
其中,记账网银文本来自第三方。
7.根据权利要求6所述的一种基于记账场景的短文本分类方法,其特征在于,在隐含层计算时,将输入FastText分类模型的文本的N-gram特征也加进去参与运算。
8.根据权利要求6所述的一种基于记账场景的短文本分类方法,其特征在于,所述输出层采用Hierarchical Softmax分类。
9.一种基于记账场景的短文本分类装置,适用于如权利要求1-8中任一项所述的基于记账场景的短文本分类方法,其特征在于,包括:
数据预处理单元,用于将待分类的记账网银文本进行数据预处理;
文本分类单元,用于将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别并输出。
10.一种终端,其特征在于,包括一个或多个处理器,以及与所述处理器通信连接的存储装置,其中,所述存储装置存储有能被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201811586935.7A 2018-12-25 2018-12-25 一种基于记账场景的短文本分类方法及装置 Pending CN109871443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811586935.7A CN109871443A (zh) 2018-12-25 2018-12-25 一种基于记账场景的短文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811586935.7A CN109871443A (zh) 2018-12-25 2018-12-25 一种基于记账场景的短文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN109871443A true CN109871443A (zh) 2019-06-11

Family

ID=66917268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811586935.7A Pending CN109871443A (zh) 2018-12-25 2018-12-25 一种基于记账场景的短文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN109871443A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335132A (zh) * 2019-07-15 2019-10-15 高峰宇 记账快速输入方法、***及计算机可读存储介质
CN110334186A (zh) * 2019-07-08 2019-10-15 北京三快在线科技有限公司 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110517130A (zh) * 2019-09-04 2019-11-29 厦门商集网络科技有限责任公司 一种智能记账方法及其***
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112463968A (zh) * 2020-12-11 2021-03-09 中国工商银行股份有限公司 文本分类方法、装置和电子设备
CN112685374A (zh) * 2019-10-17 2021-04-20 ***通信集团浙江有限公司 日志分类方法、装置及电子设备
CN113342981A (zh) * 2021-06-30 2021-09-03 中国工商银行股份有限公司 一种基于机器学习的需求文档分类方法及装置
CN113822659A (zh) * 2021-09-02 2021-12-21 杭州阶形网络科技有限公司 记账方法、装置和设备
CN113971805A (zh) * 2021-12-22 2022-01-25 深圳市迪博企业风险管理技术有限公司 一种结合机器视觉和语义分析的智能阅卷评分方法
CN114022086A (zh) * 2022-01-06 2022-02-08 深圳前海硬之城信息技术有限公司 基于bom识别的采购方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
CN108335127A (zh) * 2017-01-19 2018-07-27 北京京东尚科信息技术有限公司 用于基于FastText模型向用户推荐商品的方法、装置、电子设备及存储介质
CN108681538A (zh) * 2018-05-28 2018-10-19 哈尔滨工业大学 一种基于深度学习的动词短语省略消解方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
CN108335127A (zh) * 2017-01-19 2018-07-27 北京京东尚科信息技术有限公司 用于基于FastText模型向用户推荐商品的方法、装置、电子设备及存储介质
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
CN108681538A (zh) * 2018-05-28 2018-10-19 哈尔滨工业大学 一种基于深度学习的动词短语省略消解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARMAND JOULIN: "Bag of Tricks for Efficient Text Classification", 《ARVIXURL:HTTPS://ARXIV.ORG/PDF/1607.01759.PDF》 *
冯园园: "短文本分类技术及其场景应用研究——基于某某宝交易数据", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334186A (zh) * 2019-07-08 2019-10-15 北京三快在线科技有限公司 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110335132A (zh) * 2019-07-15 2019-10-15 高峰宇 记账快速输入方法、***及计算机可读存储介质
CN110517130A (zh) * 2019-09-04 2019-11-29 厦门商集网络科技有限责任公司 一种智能记账方法及其***
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置
CN112685374A (zh) * 2019-10-17 2021-04-20 ***通信集团浙江有限公司 日志分类方法、装置及电子设备
CN112685374B (zh) * 2019-10-17 2023-04-11 ***通信集团浙江有限公司 日志分类方法、装置及电子设备
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112463968A (zh) * 2020-12-11 2021-03-09 中国工商银行股份有限公司 文本分类方法、装置和电子设备
CN112463968B (zh) * 2020-12-11 2024-01-30 中国工商银行股份有限公司 文本分类方法、装置和电子设备
CN113342981A (zh) * 2021-06-30 2021-09-03 中国工商银行股份有限公司 一种基于机器学习的需求文档分类方法及装置
CN113822659A (zh) * 2021-09-02 2021-12-21 杭州阶形网络科技有限公司 记账方法、装置和设备
CN113971805A (zh) * 2021-12-22 2022-01-25 深圳市迪博企业风险管理技术有限公司 一种结合机器视觉和语义分析的智能阅卷评分方法
CN114022086A (zh) * 2022-01-06 2022-02-08 深圳前海硬之城信息技术有限公司 基于bom识别的采购方法、装置、设备及存储介质
CN114022086B (zh) * 2022-01-06 2022-04-22 深圳前海硬之城信息技术有限公司 基于bom识别的采购方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109871443A (zh) 一种基于记账场景的短文本分类方法及装置
CN107861951A (zh) 智能客服中的会话主题识别方法
Day et al. Deep learning for financial sentiment analysis on finance news providers
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
Park et al. Explainability of machine learning models for bankruptcy prediction
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与***
CN110990529B (zh) 企业的行业明细划分方法及***
CN110109902A (zh) 一种基于集成学***台推荐***
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN113886562A (zh) 一种ai简历筛选方法、***、设备和存储介质
CN113239691A (zh) 一种基于主题模型的相似诉求工单筛选方法和装置
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Trupthi et al. Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis
CN109947936A (zh) 一种基于机器学习动态检测垃圾邮件的方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN112685374A (zh) 日志分类方法、装置及电子设备
CN111930944B (zh) 文件标签分类方法及装置
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190611

RJ01 Rejection of invention patent application after publication