CN107844558A

CN107844558A - 一种分类信息的确定方法以及相关装置

Info

Publication number: CN107844558A
Application number: CN201711050364.0A
Authority: CN
Inventors: 车进; 曾晶; 陈桓; 张良杰
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-27

Abstract

本发明实施例公开了一种分类信息的确定方法，包括：获取文本信息集合，文本信息集合中包含至少一个文本信息；通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，第一分类模型为根据预设文本信息以及预设文本信息的出现频次训练得到的；通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值，第二分类模型为根据外部文本信息对应的词向量训练得到的；根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息。本发明还提供一种分类信息确定装置。本发明能够快捷并客观地对公司名称进行分类，从而提升方案的实用性。

Description

一种分类信息的确定方法以及相关装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种分类信息的确定方法以及相关装置。

背景技术

公司名称对一个企业的发展而言是至关重要的，因为公司名称它不仅关系到企业在行业内的影响力，还关系到企业所经营的产品投放市场后，消费者对该企业的认可度。公司名称可以在一定程度上反映出这个公司的经验范围以及行业分类，从而可以根据公司名称向该公司推荐与其相关业务。

目前，公司运营人员可以借助公司名称信息以及企业相关的外部数据对公司名称进行分类，分类结果能够帮助企业生成客户画像，挖掘潜在客户，有助于企业做出决策。

然而，基于人工搜索的方式对公司名称进行分类效率低下，且公司名分类局限于运营人员的主观判断，具有较强的主观性，不利于分类的准确性，从而降低方案的实用性。

发明内容

本发明实施例提供了一种分类信息的确定方法以及相关装置，能够基于统计学得到第一分类模型，并且基于大数据分析训练得到第二分类模型，利用这两个分类模型可以快捷并客观地对公司名称进行分类，从而提升方案的实用性。

有鉴于此，本发明第一方面提供了一种分类信息的确定方法，包括：

获取文本信息集合，其中，所述文本信息集合中包含至少一个文本信息；

通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，所述第一分类模型为根据预设文本信息以及所述预设文本信息的出现频次训练得到的；

通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，所述第二分类模型为根据外部文本信息对应的词向量训练得到的；

根据所述第一分类权重值和所述第二分类权重值确定所述文本信息集合的分类信息。

结合本发明实施例的第一方面，在第一种可能的实现方式中，所述通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值之前，所述方法还包括：

获取预设文本信息集合，其中，所述预设文本信息集合中包含至少一个所述预设文本信息；

获取各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次；

对各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型。

结合本发明实施例的第一方面第一种实现方式，在第二种可能的实现方式中，所述通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，包括：

将所述至少一个文本信息中各个文本信息输入至所述第一分类模型；

根据所述第一分类模型、所述各个文本信息所对应的出现频次以及所述总频次计算得到所述第一分类权重值。

结合本发明实施例的第一方面、第一方面第一种或第二种实现方式，在第三种可能的实现方式中，所述通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值之前，所述方法还包括：

获取外部文本信息集合，其中，所述预设文本信息集合中包含至少一个所述外部文本信息；

根据至少一个所述外部文本信息生成各个所述外部文本信息所对应的词向量；

对所述各个所述外部文本信息所对应的词向量进行训练，得到所述第二分类模型。

结合本发明实施例的第一方面第三种实现方式，在第四种可能的实现方式中，所述通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，包括：

将所述至少一个文本信息中各个文本信息输入至所述第二分类模型；

通过所述第二分类模型确定所述各个文本信息所对应的相似文本信息；

通过所述第二分类模型根据所述相似文本信息的出现频次、总频次以及迭代次数，确定所述第二分类权重值。

结合本发明实施例的第一方面第一种实现方式，在第五种可能的实现方式中，对每个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型之后，所述方法还包括：

根据N个所述预设文本信息的出现频次获取n个所述预设文本信息，其中，所述N为大于0的正整数，所述n为大于0且小于所述N的正整数；

接收n个所述预设文本信息所对应的标注信息，其中，所述标注信息用于表示所述预设文本信息的类型；

对n个所述预设文本信息所对应的标注信息以及类型可行度进行训练，得到所述第三分类模型，其中，所述类型可信度用于表示所述标注信息与真实信息的贴合程度。

结合本发明实施例的第一方面第五种实现方式，在第六种可能的实现方式中，所述根据所述第一分类权重值和所述第二分类权重值确定所述文本信息集合的分类信息，包括：

通过所述第三分类模型对所述第一分类权重值进行处理，获取第一子分类权重值以及第二子分类权重值，并通过所述第三分类模型对所述第二分类权重值进行处理，获取第三子分类权重值以及第四子分类权重值，其中，所述第一子分类权重值与所述第三子分类权重值属于同一类别，所述第二子分类权重值与所述第四子分类权重值属于同一类别；

根据所述第一子分类权重值与所述第三子分类权重值计算得到第一类别信息的权重值，并根据所述第二子分类权重值与所述第四子分类权重值计算得到第二类别信息的权重值；

若所述第一类别信息的权重值大于所述第二类别信息的权重值，则将所述第一类别信息确定为所述分类信息；

若所述第二类别信息的权重值大于所述第一类别信息的权重值，则将所述第二类别信息确定为所述分类信息。

本发明第二方面提供了一种分类信息确定装置，包括：

第一获取模块，用于获取文本信息集合，其中，所述文本信息集合中包含至少一个文本信息；

第一处理模块，用于通过第一分类模型对所述第一获取模块获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，所述第一分类模型为根据预设文本信息以及所述预设文本信息的出现频次训练得到的；

第二处理模块，用于通过第二分类模型对所述第一获取模块获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，所述第二分类模型为根据外部文本信息对应的词向量训练得到的；

确定模块，用于根据所述第一处理模块处理得到的所述第一分类权重值和所述第二处理模块处理得到的所述第二分类权重值确定所述文本信息集合的分类信息。

结合本发明实施例的第二方面，在第一种可能的实现方式中，所述分类信息确定装置还包括：

第二获取模块，用于所述第一处理模块通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值之前，获取预设文本信息集合，其中，所述预设文本信息集合中包含至少一个所述预设文本信息；

第三获取模块，用于获取各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次；

第一训练模块，用于对所述第三获取模块获取的各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型。

结合本发明实施例的第二方面第一种实现方式，在第二种可能的实现方式中，所述第一处理模块包括：

第一输入单元，用于将所述至少一个文本信息中各个文本信息输入至所述第一分类模型；

计算单元，用于根据所述第一分类模型、所述各个文本信息所对应的出现频次以及所述总频次计算得到所述第一分类权重值。

结合本发明实施例的第二方面、第二方面第一种或第二种实现方式，在第三种可能的实现方式中，所述分类信息确定装置还包括：

第四获取模块，用于所述第二处理模块通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值之前，获取外部文本信息集合，其中，所述预设文本信息集合中包含至少一个所述外部文本信息；

生成模块，用于根据所述第四获取模块获取的至少一个所述外部文本信息，生成各个所述外部文本信息所对应的词向量；

第二训练模块，用于对所述生成模块生成的所述各个所述外部文本信息所对应的词向量进行训练，得到所述第二分类模型。

结合本发明实施例的第二方面第三种实现方式，在第四种可能的实现方式中，所述第二处理模块包括：

第二输入单元，用于将所述至少一个文本信息中各个文本信息输入至所述第二分类模型；

第一确定单元，用于通过所述第二分类模型确定所述各个文本信息所对应的相似文本信息；

第二确定单元，用于通过所述第二分类模型根据所述相似文本信息的出现频次、总频次以及迭代次数，确定所述第二分类权重值。

结合本发明实施例的第二方面第一种实现方式，在第五种可能的实现方式中，所述分类信息确定装置还包括：

第五获取模块，用于所述第一训练模块对每个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型之后，根据N个所述预设文本信息的出现频次获取n个所述预设文本信息，其中，所述N为大于0的正整数，所述n为大于0且小于所述N的正整数；

接收模块，用于接收n个所述预设文本信息所对应的标注信息，其中，所述标注信息用于表示所述预设文本信息的类型；

第三训练模块，用于对所述接收模块接收的n个所述预设文本信息所对应的标注信息以及类型可行度进行训练，得到所述第三分类模型，其中，所述类型可信度用于表示所述标注信息与真实信息的贴合程度。

结合本发明实施例的第二方面第五种实现方式，在第六种可能的实现方式中，所述确定模块包括：

获取单元，用于通过所述第三分类模型对所述第一分类权重值进行处理，获取第一子分类权重值以及第二子分类权重值，并通过所述第三分类模型对所述第二分类权重值进行处理，获取第三子分类权重值以及第四子分类权重值，其中，所述第一子分类权重值与所述第三子分类权重值属于同一类别，所述第二子分类权重值与所述第四子分类权重值属于同一类别；

计算单元，用于根据所述获取单元获取的所述第一子分类权重值与所述第三子分类权重值计算得到第一类别信息的权重值，并所述获取单元获取的根据所述第二子分类权重值与所述第四子分类权重值计算得到第二类别信息的权重值；

第三确定单元，用于若所述第一类别信息的权重值大于所述第二类别信息的权重值，则将所述第一类别信息确定为所述分类信息；

第四确定单元，用于若所述第二类别信息的权重值大于所述第一类别信息的权重值，则将所述第二类别信息确定为所述分类信息。

本发明第三方面提供一种分类信息确定装置，所述分类信息确定装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面、第一方面第一种至第六种中任意一项所述方法的步骤。

本发明的第四方面提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种分类信息的确定方法，首先需要获取文本信息集合，其中，该文本信息集合中包含至少一个文本信息，接下来通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，第一分类模型为根据预设文本信息以及预设文本信息的出现频次训练得到的，与此同时，还需要通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，第二分类模型为根据外部文本信息对应的词向量训练得到的，最后可以根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息。通过上述方式，能够基于统计学得到第一分类模型，并且基于大数据分析训练得到第二分类模型，利用这两个分类模型可以快捷并客观地对公司名称进行分类，从而提升方案的实用性。

附图说明

图1为本发明实施例中分类信息的确定方法一个实施例示意图；

图2为本发明应用场景中分类信息的确定方法的一个流程示意图；

图3为本发明实施例中分类信息确定装置一个实施例示意图；

图4为本发明实施例中分类信息确定装置另一个实施例示意图；

图5为本发明实施例中分类信息确定装置另一个实施例示意图；

图6为本发明实施例中分类信息确定装置另一个实施例示意图；

图7为本发明实施例中分类信息确定装置另一个实施例示意图；

图8为本发明实施例中分类信息确定装置另一个实施例示意图；

图9为本发明实施例中分类信息确定装置另一个实施例示意图；

图10为本发明实施例中分类信息确定装置一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要用于对公司名称进行分类的场景，此外，还可以应用于对其他文本内容所述的领域进行分类的场景。下面将从分类信息确定装置的角度，对本发明中分类信息的确定方法进行介绍，请参阅图1，本发明实施例中分类信息的确定方法一个实施例包括：

101、获取文本信息集合，其中，文本信息集合中包含至少一个文本信息；

本实施例中，首先获取文本信息集合，具体地，文本信息集合可以是一个公司名称，比如“金蝶中国软件有限公司”，对文本信息集合进行文本分割后得到至少一个文本信息，比如“金蝶中国软件有限公司”经过文本分割后得到的文本信息分别为“金蝶”、“中国”、“软件”和“有限公司”。

其中，文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界。这种预处理在很多领域都有极为重要的应用，比如语篇理解、信息提取以及文摘生成。

102、通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，第一分类模型为根据预设文本信息以及预设文本信息的出现频次训练得到的；

本实施例中，将文本分割后的至少一个文本信息输入至第一分类模型，由第一分类模型输出每个文本信息所对应的权重值，并且根据这些权重值确定第一分类权重值。

具体地，假设文本信息集合为公司名称，可以根据不同的公司名称将其分为“科技类”或者“非科技类”。当然，在实际应用中，还可以根据需要人为设置不同数量和/或属性的类型，比如需要为公司名称设置5种类型，分别为“工业”、“农业”、“商业”、“畜牧业”和“科技业”，后续训练模型时也将输出这5种类型的训练结果。

以“金蝶中国软件有限公司”为例，对该公司名称进行文本分割后可以得到“金蝶”、“中国”、“软件”和“有限公司”这四个文本信息，其中，“金蝶”属于名称，“中国”属于地点，“软件”属于修饰定语，“有限公司”属于公司属性。将“金蝶”、“中国”、“软件”和“有限公司”输入至第一分类模型，分别得到每个文本信息的第一分类权重值，比如“软件”属于“科技类”的权重值为90，属于“非科技类”的权重值为10，那么“软件”的第一分类权重值为“科技类”90和“非科技类”10。

其中，第一分类模型是根据预设文本信息以及预设文本信息的出现频次训练得到的。第一分类模型可以采用逆向文件频率(inverse document frequency，IDF)，IDF是一个词语重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数。

103、通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，第二分类模型为根据外部文本信息对应的词向量训练得到的；

本实施例中，将文本分割后的至少一个文本信息输入至第二分类模型，由第二分类模型输出每个文本信息所对应的权重值，并且根据这些权重值确定第二分类权重值。

具体地，假设文本信息集合为公司名称，可以根据不同的公司名称将其分为“科技类”或者“非科技类”。以“金蝶中国软件有限公司”为例，对该公司名称进行文本分割后可以得到“金蝶”、“中国”、“软件”和“有限公司”这四个文本信息，其中，“金蝶”属于名称，“中国”属于地点，“软件”属于修饰定语，“有限公司”属于公司属性。将“金蝶”、“中国”、“软件”和“有限公司”输入至第二分类模型，比如“金蝶”通过第二分类模型确定与之相关的词语有“企业资源计划(enterprise resource planning，ERP)”、“用友”以及“企业管理解决方案(system applications and products，SAP)”，然后分别再确定“ERP”、“SAP”和“用友”的权重值，比如“ERP”属于“科技类”的权重值为80，属于“非科技类”的权重值为10，“SAP”属于“科技类”的权重值为50，属于“非科技类”的权重值为50，“用友”属于“科技类”的权重值为60，属于“非科技类”的权重值为40，那么“金蝶”的第二分类权重值为“科技类”190和“非科技类”100。

其中，第二分类模型是根据外部文本信息对应的词向量训练得到的。第二分类模型可以为word2vec模型，word2vec模型是开源的一种词结构化模型，核心是神经网络的方法，采用连续的词袋模型(continuous bag-of-words，CBOW)和连续跳克模型(continuousskip-gram model，Skip-Gram)两种模型，可将词语映像到同一坐标系，得出数值向量的高效工具。

需要说明的是，步骤102与步骤103之间的执行顺序可以是先执行步骤102，再执行步骤103，或者先执行步骤103，再执行步骤102，还可以是同时执行步骤102和步骤103，此处不做限定。

104、根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息。

本实施例中，假设文本信息集合为公司名称，以“金蝶中国软件有限公司”为例，通过第一分类模型和第二分类模型之后可以得到如下的分类权重值，请参阅表1，表1为一个分类权重值示意。

表1

其中，第一分类模型和第二分类模型可以无需识别“中国”和“有限公司”这两个文本信息，当然，在实际应用中，第一分类模型和第二分类模型也可以对所有的文本信息进行处理，并得到相应的分类权重值。

根据表1所示的第一分类权重值和第二分类权重值，计算得到该公司名称对应的“科技类”权重值为580，“非科技类”权重值为160，那么确定“金蝶中国软件有限公司”属于“科技类”公司。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的分类信息的确定方法第一个可选实施例中，通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值之前，还可以包括：

获取预设文本信息集合，其中，预设文本信息集合中包含至少一个预设文本信息；

获取各个预设文本信息的出现频次以及至少一个预设文本信息的总频次；

对各个预设文本信息的出现频次以及至少一个预设文本信息的总频次进行训练，得到第一分类模型。

本实施例中，介绍如何训练得到第一分类模型。具体地，首先使用已有的公司名称列表L，如表2所示，表2为一个公司名称列表L的示意。

表2

将每一个公司名称进行文本分割之后，去除省市区等有关地点的名称，以及“有限公司”等对分析没有帮助的词，得到L_i,j，其中L_i,j表示第i个公司名称的第j个词语，然后统计每个词的频次Freq_i以及总频次D，即可得到第一分类模型，也就是IDF模型。以“软件”为例，“软件”的频次Freq_i为2，总频次D为23。

可以理解的是，在训练第一分类模型的时候，一个词语的频次越高，其对应的权重越低，反之，一个词语的频次越低，其对应的权重越高。

其次，本发明实施例中，介绍了如何训练得到第一分类模型，可以先获取预设文本信息集合，其中，预设文本信息集合中包含至少一个预设文本信息，然后获取各个预设文本信息的出现频次以及至少一个预设文本信息的总频次，最后对各个预设文本信息的出现频次以及至少一个预设文本信息的总频次进行训练，得到第一分类模型。通过上述方式，能够利用统计学的原理设计出符合实际应用的第一分类模型，通过词语出现的频次来训练模型，从而提升模型的准确性和合理性。

可选地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的分类信息的确定方法第二个可选实施例中，通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值，包括：

将至少一个文本信息中各个文本信息输入至第一分类模型；

根据第一分类模型、各个文本信息所对应的出现频次以及总频次计算得到第一分类权重值。

本实施例中，将介绍如何通过第一分类模型得到第一分类权重值。具体地，第一分类模型可以是IDF模型，由图1对应的第一个实施例可知，IDF模型中使用频次Freq_i以及总频次D来计算一个词语的重要程度，由此，根据IDF模型、第i个文本信息以及总频次D计算得到第一分类权重值IDF_w，即采用如下方式对第一分类权重值进行计算。

其中，w表示公司名称。

再次，本发明实施例中，可以通过第一分类模型得到第一分类权重值，首先将至少一个文本信息中各个文本信息输入至第一分类模型，然后根据第一分类模型、各个文本信息所对应的出现频次以及总频次计算得到第一分类权重值。通过上述方式，可以采用第一分类模型输出一个公司名称中各个词语的第一分类权重值，由于第一分类模型具有较好的合理性和可靠性，因此输出的第一分类权重值也具有较好的可靠性。

可选地，在上述图1、图1对应的第一个或第二个实施例的基础上，本发明实施例提供的分类信息的确定方法第三个可选实施例中，通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值之前，还可以包括：

获取外部文本信息集合，其中，外部文本信息集合中包含至少一个外部文本信息；

根据至少一个外部文本信息生成各个外部文本信息所对应的词向量；

对各个外部文本信息所对应的词向量进行训练，得到第二分类模型。

本实施例中，介绍如何训练得到第二分类模型。具体地，首先获取外部文本信息集合，其中，外部文本信息集合中包含至少一个外部文本信息。这些外部文本信息集合即为外部文本数据，这些外部文本数据来源于新闻文本、微博短文本以及微信公众号文章等。外部文本信息即为对外部文本信息集合进行文本分割后得到的。

根据这些外部文本信息分别生成对应的词向量v_i，将这些词向量带入第二分类模型中进行训练，得到了第二分类模型(如word2vec模型)，该模型用哈夫曼树来存储每个词语的向量表示，可以快速获取每个词语的向量形式，以及每个词的近义词列表。

具体地，每当有公司名称需要进行分类的时候，我们首先需要对公司名称进行文本分割，分割为三个部分，即地点、名称以及修饰定语。以“金蝶中国软件有限公司”为例，文本分割之后“金蝶”被划分为名称，“中国”被划分为地点，“软件”被划分修饰定语。其中地点可以通过构建中国地名称库来准确识别，地点词对于公司名分类没有用处。名称和修饰定语的分割可以使用基于隐马尔可夫模型(hidden markov model，HMM)的词性识别工具和公司名称常用词词频相结合的方式进行识别。由于名称往往是词库中所没有的未识别词，而名称通常会位于修饰定语之前，所以我们对公司名称分词之后的结果进行词性查询，从前到后查询到第一个识别词，并以此作为名称和修饰定语的分界。

由于一个公司名称中所包含的内容有限，仅仅根据公司名内容机器往往无法获取更多有价值的信息，所以，我们使用第二分类模型(如word2vec模型)去发现公司名称中的每一个词的一系列相似词汇，通过多次迭代的方式发现更多的词汇，使用这些词汇的标注分类进行加权后投票的方式即可计算出每一个公司最有可能的类别。如对“金蝶中国软件有限公司”进行文本分割之后去掉无用词，并得到结果为“金蝶”、“中国”和“软件”。“金蝶”通过第二分类模型第一次可以生成得到“用友”、“ERP”以及“SAP”等一系列词，经过再一次迭代，会发现“用友”、“ERP”以及“SAP”这些词的相似词。通过对“金蝶”、“中国”以及“软件”几个词重复上述过程，即可获取得到名称中每个词最相近的一系列词。通过查询这些词的人工标注分类即可得到每一个词最有可能的类别，通过对每个词进行加权即可得到公司最有可能的类别。

需要说明的是，通常情况下，采用第二分类模型可以对一个公司名称迭代3至5次。

进一步地，本发明实施例中，介绍了如何训练得到第二分类模型，可以先获取外部文本信息集合，其中，外部文本信息集合中包含至少一个外部文本信息，然后根据至少一个外部文本信息生成各个外部文本信息所对应的词向量，最后对各个外部文本信息所对应的词向量进行训练，得到第二分类模型。通过上述方式，能够利用统计学的原理设计出符合实际应用的第一分类模型，通过词语出现的频次来训练模型，从而提升模型的准确性和合理性。

可选地，在上述图1对应的第三个实施例的基础上，本发明实施例提供的分类信息的确定方法第四个可选实施例中，通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值，可以包括：

将至少一个文本信息中各个文本信息输入至第二分类模型；

通过第二分类模型确定各个文本信息所对应的相似文本信息；

通过第二分类模型根据相似文本信息的出现频次、总频次以及迭代次数，确定第二分类权重值。

本实施例中，将介绍如何通过第二分类模型得到第二分类权重值。具体地，第二分类模型可以是word2vec模型，由图1对应的第三个实施例可知，由于我们的模型使用word2vec模型进行多次迭代，当传递次数t(例如“金蝶”这个词第一次调用word2vec模型得到“用友”、“ERP”和“SAP”等词，这个时候迭代次数为1。当计算“用友”的相似词的时候，迭代次数即为2)增加的时候词语关联度下降，我们用迭代次数的倒数来正则化IDF的计算结果，第二分类权重值可以表示为：

其中，w表示需要分类的公司名称，j表示第j种分类，t表示迭代次数。

再进一步地，本发明实施例中，可以通过第二分类模型得到第二分类权重值，首先将至少一个文本信息中各个文本信息输入至第二分类模型，然后通过第二分类模型输出各个文本信息所对应的相似文本信息，最后根据相似文本信息的出现频次、总频次以及迭代次数，确定第二分类权重值。通过上述方式，可以采用第一分类模型输出一个公司名称中各个词语的第一分类权重值，由于第一分类模型具有较好的合理性和可靠性，因此输出的第一分类权重值也具有较好的可靠性。

可选地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的分类信息的确定方法第五个可选实施例中，对每个预设文本信息的出现频次以及至少一个预设文本信息的总频次进行训练，得到第一分类模型之后，还可以包括：

根据N个预设文本信息的出现频次获取n个预设文本信息，其中，N为大于0的正整数，n为大于0且小于N的正整数；

接收n个预设文本信息所对应的标注信息，其中，标注信息用于表示预设文本信息的类型；

对n个预设文本信息所对应的标注信息以及类型可行度进行训练，得到第三分类模型，其中，类型可信度用于表示标注信息与真实信息的贴合程度。

本实施例中，根据第一分类模型输出的N个预设文本信息所对应的词频数据Freq_i，获取词频最高的n个预设文本信息，然后人工对这n个预设文本信息进行标注，标注为所给定m个分类中的一个或者多个，并标注每个分类的可信度。得到公司名常用词标注模型M，即得到第三分类模型。对于每一个词语w，它的类型标注为M_w。其中，预设文本信息即为词语。

具体地，我们使用加权和的方式计算公司名称中的每个词汇对于每一种类别的权重P_w,j，w表示词汇名称，x表示需要分类的公司名称，j表示第j种分类。设分类全集为T，则通过如下公式即可得到每个公司所属的分类。

其中，P_w,j是通过第一分类模型和第二分类模型获取的，即

因此，利用第一分类模型、第二分类模型和第三分类模型就能更准确地对公司名称进行分类。

再次，本发明实施例中，在得到第一分类模型之后，还可以进而对预设文本信息所对应的标注信息以及类型可行度进行训练，得到第三分类模型，其中，标注信息和类型可行度都是人为标注的，通过增加人工标识的己知训练样可以提高分类精准度，以及提升模型训练的准确度。

可选地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的分类信息的确定方法第五个可选实施例中，根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息，可以包括：

通过第三分类模型对第一分类权重值进行处理，获取第一子分类权重值以及第二子分类权重值，并通过第三分类模型对第二分类权重值进行处理，获取第三子分类权重值以及第四子分类权重值，其中，第一子分类权重值与第三子分类权重值属于同一类别，第二子分类权重值与第四子分类权重值属于同一类别；

根据第一子分类权重值与第三子分类权重值计算得到第一类别信息的权重值，并根据第二子分类权重值与第四子分类权重值计算得到第二类别信息的权重值；

若第一类别信息的权重值大于第二类别信息的权重值，则将第一类别信息确定为分类信息；

若第二类别信息的权重值大于第一类别信息的权重值，则将第二类别信息确定为分类信息。

本实施例中，假设文本信息集合为公司名称，以“金蝶中国软件有限公司”为例，通过第一分类模型之后可以得到第一分类权重值，通过第二分类模型之后可以得到第二分类权重值。通过第三分类模型之后，第一分类权重值对应第一子分类权重值以及第二子分类权重值，第二分类权重值对应第三子分类权重值以及第四子分类权重值。

需要说明的是，第一子分类权重值与第三子分类权重值属于同一类别，假设为“科技类”的类别，第二子分类权重值与第四子分类权重值属于同一类别，假设为“非科技类”的类别，当然，在实际应用中，还可以有更多的类别，且不同的类别也分别具有相应的权重值，此处以划分为两个类别为例进行介绍，但不应构成对本发明的限定。

具体地，若第一子分类权重值为160，第二子分类权重值为40，第三子分类权重值为420，第四子分类权重值为120，那么第一类别信息(如“科技类”)的权重值为第一子分类权重值与第三子分类权重值之和，即580，第二类别信息(如“非科技类”)的权重值为第二子分类权重值与第四子分类权重值之和，即160。

第一类别信息的权重值大于第二类别信息的权重值，那么将第一类别信息确定为分类信息，也就是将“科技类”确定为“金蝶中国软件有限公司”的分类信息。

进一步地，本发明实施例中，介绍了如何根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息。通过上述方式，可以计算得到不同类型分别对应的权重值，权重值较大的即为最终需要的分类信息，以此提升分类信息计算的可靠性。

为便于理解，下面可以以一个具体应用场景对本发明中分类信息的确定方法进行详细描述，请参阅图2，图2为本发明应用场景中分类信息的确定方法的一个流程示意图，具体为：

首先我们通过对公司名列表和互联网外部数据建模及训练得到多种统计学和神经网络模型。对于每一个输入的关键词x先进行文本分割，计算每个词语的分类权重P_w,j，通过word2vec的方式进行多次迭代(可设定生成词个数来结束迭代)，并且衰减每一次迭代的分类权重，直到输出该公司名对于各个分类的权重。

本发明最大程度的挖掘公司名中每个词汇内容的价值，并且通过统计学及大数据分析的方式，获取词汇语义与公司分类之间的价值。实验证明本发明所诉方法快捷有效。

下面对本发明中的分类信息确定装置进行详细描述，请参阅图3，图3为本发明实施例中分类信息确定装置一个实施例示意图，分类信息确定装置20包括：

第一获取模块201，用于获取文本信息集合，其中，所述文本信息集合中包含至少一个文本信息；

第一处理模块202，用于通过第一分类模型对所述第一获取模块201获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，所述第一分类模型为根据预设文本信息以及所述预设文本信息的出现频次训练得到的；

第二处理模块203，用于通过第二分类模型对所述第一获取模块201获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，所述第二分类模型为根据外部文本信息对应的词向量训练得到的；

确定模块204，用于根据所述第一处理模块202处理得到的所述第一分类权重值和所述第二处理模块203处理得到的所述第二分类权重值确定所述文本信息集合的分类信息。

本实施例中，第一获取模块201获取文本信息集合，其中，所述文本信息集合中包含至少一个文本信息，第一处理模块202通过第一分类模型对所述第一获取模块201获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，所述第一分类模型为根据预设文本信息以及所述预设文本信息的出现频次训练得到的，第二处理模块203通过第二分类模型对所述第一获取模块201获取的所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，所述第二分类模型为根据外部文本信息对应的词向量训练得到的，确定模块204根据所述第一处理模块202处理得到的所述第一分类权重值和所述第二处理模块203处理得到的所述第二分类权重值确定所述文本信息集合的分类信息。

本发明实施例中，提供了一种分类信息确定装置，首先需要获取文本信息集合，其中，该文本信息集合中包含至少一个文本信息，接下来通过第一分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第一分类权重值，其中，第一分类模型为根据预设文本信息以及预设文本信息的出现频次训练得到的，与此同时，还需要通过第二分类模型对至少一个文本信息进行处理，获取至少一个文本信息中各个文本信息所对应的第二分类权重值，其中，第二分类模型为根据外部文本信息对应的词向量训练得到的，最后可以根据第一分类权重值和第二分类权重值确定文本信息集合的分类信息。通过上述方式，能够基于统计学得到第一分类模型，并且基于大数据分析训练得到第二分类模型，利用这两个分类模型可以快捷并客观地对公司名称进行分类，从而提升方案的实用性。

可选地，在上述图3所对应的实施例的基础上，请参阅图4，本发明实施例提供的分类信息确定装置20的另一实施例中，所述分类信息确定装置20还包括：

第二获取模块205A，用于所述第一处理模块202通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值之前，获取预设文本信息集合，其中，所述预设文本信息集合中包含至少一个所述预设文本信息；

第三获取模块205B，用于获取各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次；

第一训练模块205C，用于对所述第三获取模块205B获取的各个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型。

可选地，在上述图4所对应的实施例的基础上，请参阅图5，本发明实施例提供的分类信息确定装置20的另一实施例中，

所述第一处理模块202包括：

第一输入单元2021，用于将所述至少一个文本信息中各个文本信息输入至所述第一分类模型；

计算单元2022，用于根据所述第一分类模型、所述各个文本信息所对应的出现频次以及所述总频次计算得到所述第一分类权重值。

可选地，在上述图3、图4或图5所对应的实施例的基础上，请参阅图6，本发明实施例提供的分类信息确定装置20的另一实施例中，所述分类信息确定装置20还包括：

第四获取模块206A，用于所述第二处理模块203通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值之前，获取外部文本信息集合，其中，所述预设文本信息集合中包含至少一个所述外部文本信息；

生成模块206B，用于根据所述第四获取模块206A获取的至少一个所述外部文本信息，生成各个所述外部文本信息所对应的词向量；

第二训练模块206C，用于对所述生成模块206B生成的所述各个所述外部文本信息所对应的词向量进行训练，得到所述第二分类模型。

可选地，在上述图6所对应的实施例的基础上，请参阅图7，本发明实施例提供的分类信息确定装置20的另一实施例中，

所述第二处理模,203包括：

第二输入单元2031，用于将所述至少一个文本信息中各个文本信息输入至所述第二分类模型；

第一确定单元2032，用于通过所述第二分类模型确定所述各个文本信息所对应的相似文本信息；

第二确定单元2033，用于通过所述第二分类模型根据所述相似文本信息的出现频次、总频次以及迭代次数，确定所述第二分类权重值。

可选地，在上述图4所对应的实施例的基础上，请参阅图8，本发明实施例提供的分类信息确定装置20的另一实施例中，所述分类信息确定装置20还包括：

第五获取模块207A，用于所述第一训练模块205C对每个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型之后，根据N个所述预设文本信息的出现频次获取n个所述预设文本信息，其中，所述N为大于0的正整数，所述n为大于0且小于所述N的正整数；

接收模块207B，用于接收n个所述预设文本信息所对应的标注信息，其中，所述标注信息用于表示所述预设文本信息的类型；

第三训练模块207C，用于对所述接收模块207B接收的n个所述预设文本信息所对应的标注信息以及类型可行度进行训练，得到所述第三分类模型，其中，所述类型可信度用于表示所述标注信息与真实信息的贴合程度。

可选地，在上述图8所对应的实施例的基础上，请参阅图9，本发明实施例提供的分类信息确定装置20的另一实施例中，

所述确定模块204包括：

获取单元2041，用于通过所述第三分类模型对所述第一分类权重值进行处理，获取第一子分类权重值以及第二子分类权重值，并通过所述第三分类模型对所述第二分类权重值进行处理，获取第三子分类权重值以及第四子分类权重值，其中，所述第一子分类权重值与所述第三子分类权重值属于同一类别，所述第二子分类权重值与所述第四子分类权重值属于同一类别；

计算单元2042，用于根据所述获取单元2041获取的所述第一子分类权重值与所述第三子分类权重值计算得到第一类别信息的权重值，并所述获取单元获取的根据所述第二子分类权重值与所述第四子分类权重值计算得到第二类别信息的权重值；

第三确定单元2043，用于若所述第一类别信息的权重值大于所述第二类别信息的权重值，则将所述第一类别信息确定为所述分类信息；

第四确定单元2044，用于若所述第二类别信息的权重值大于所述第一类别信息的权重值，则将所述第二类别信息确定为所述分类信息。

图10是本发明实施例分类信息确定装置30的结构示意图。分类信息确定装置30可包括输入设备310、输出设备320、处理器330和存储器330。本发明实施例中的输出设备可以是显示设备。

存储器330可以包括只读存储器和随机存取存储器，并向处理器330提供指令和数据。存储器330的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。

存储器330存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作***：包括各种***程序，用于实现各种基础业务以及处理基于硬件的任务。

本发明实施例中处理器330用于：

处理器330控制分类信息确定装置30的操作，处理器330还可以称为中央处理单元(central processing unit，CPU)。存储器330可以包括只读存储器和随机存取存储器，并向处理器330提供指令和数据。存储器330的一部分还可以包括NVRAM。具体的应用中，分类信息确定装置30的各个组件通过总线***350耦合在一起，其中总线***350除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线***350。

上述本发明实施例揭示的方法可以应用于处理器330中，或者由处理器330实现。处理器330可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器330中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器330可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330，处理器330读取存储器330中的信息，结合其硬件完成上述方法的步骤。

图10的相关描述可以参阅图1方法部分的相关描述和效果进行理解，本处不做过多赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分类信息的确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述通过第一分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第一分类权重值，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述通过第二分类模型对所述至少一个文本信息进行处理，获取所述至少一个文本信息中各个文本信息所对应的第二分类权重值，包括：

6.根据权利要求2所述的方法，其特征在于，所述对每个所述预设文本信息的出现频次以及至少一个所述预设文本信息的总频次进行训练，得到所述第一分类模型之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一分类权重值和所述第二分类权重值确定所述文本信息集合的分类信息，包括：

8.一种分类信息确定装置，其特征在于，包括：

9.根据权利要求8所述的分类信息确定装置，其特征在于，所述分类信息确定装置还包括：

10.根据权利要求9所述的分类信息确定装置，其特征在于，所述第一处理模块包括：

11.根据权利要求8至10中任一项所述的分类信息确定装置，其特征在于，所述分类信息确定装置还包括：

12.根据权利要求11所述的分类信息确定装置，其特征在于，所述第二处理模块包括：

13.根据权利要求9所述的分类信息确定装置，其特征在于，所述分类信息确定装置还包括：

14.根据权利要求13所述的分类信息确定装置，其特征在于，所述确定模块包括：

15.一种分类信息确定装置，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序和指令；

所述收发器用于在所述处理器的控制下接收或发送信息；

所述处理器用于执行所述存储器中的程序；

所述总线***用于连接所述存储器、所述收发器以及所述处理器，以使所述存储器、所述收发器以及所述处理器进行通信；

所述处理器用于调用所述存储器中的程序指令，执行如权利要求1至7中任一项所述的方法。

16.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1至7中任意一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至7中任一所述的方法。