CN117786119B

CN117786119B - 一种数据自动分类的方法、装置、设备及存储介质

Info

Publication number: CN117786119B
Application number: CN202410017934.XA
Authority: CN
Inventors: 黄智坤
Original assignee: Weijin Investment Co ltd
Current assignee: Weijin Investment Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-07-12
Anticipated expiration: 2044-01-04
Also published as: CN117786119A

Abstract

本申请提供一种数据自动分类的方法、装置、设备及存储介质，涉及自然语言处理技术领域。方法包括：获取目标新闻中的关键词，并根据所述关键词，初步确定所述目标新闻的所属行业；获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题；统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇；结合所述目标新闻的所属行业、所述目标新闻对应的主题和所述相关词汇，确定所述目标新闻的最终所述行业。本申请具有的技术效果是：用于提高新闻文本分类的准确率。

Description

一种数据自动分类的方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，具体涉及一种数据分类方法、装置、设备及存储介质。

背景技术

随着互联网的发展，新闻文本数量呈***式增长。新闻分类在整理和管理海量新闻信息中起着极为关键的作用。针对大规模新闻文本的分类一直是信息处理领域的重要任务。

然而，传统的新闻分类方法主要依赖于简单的关键词匹配。通过新闻文本中的关键词进行分类，不能充分利用新闻文本中含有的丰富语义信息，仅凭关键词进行分类，导致分类粒度粗，准确度有限。

发明内容

本申请提供一种数据自动分类的方法、装置、设备及存储介质，用于提高新闻文本分类的准确率。

第一方面，本申请提供了一种数据自动分类的方法，应用于计算机设备，所述方法包括：获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业；获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题；统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题；结合所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题，确定所述目标新闻的最终所属行业。

通过采用上述技术方案，本申请提供的新闻文本自动分类方法，通过获取目标新闻的关键词、实体词汇、高频词汇等多方面特征，并分析这些特征之间的关联性，可以实现对新闻文本深层次语义的理解，从而准确判断新闻所属的行业类别。针对同一目标新闻，会依次获取其关键词、主题词、高频词等特征。关键词可以确定新闻的初步行业类别，主题词可以判断新闻所关注的主要题材，高频词可以生成相关词汇反映次要话题，这些特征相互确认、补充，可以全面理解新闻内容。最后综合这些特征，考量其关联性，判断新闻最终所属的行业类别。相比简单匹配关键词的传统方法，本方法充分利用了新闻文本的语义信息，通过多特征的组合分析，实现了对新闻内容的深入理解，大大提高新闻文本分类的准确率。

可选的，所述获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业，包括：确定所述目标新闻中的关键词数量；若所述目标新闻中存在多个关键词，则获取各所述关键词对应的至少一个行业类别，统计各所述行业类别对应的关键词数量，将所述关键词数量最多的行业类别作为目标新闻的第一所属行业；若所述目标新闻中仅存在一个关键词，则将该关键词对应的行业类别作为目标新闻的第一所属行业。

通过采用上述技术方案，本申请在确定目标新闻第一所属行业时，充分考虑了新闻文本中关键词的数量和对应关系，使得第一所属行业的判定更加准确和全面。首先判断关键词的数量。如果仅有一个关键词，则直接利用该关键词所对应的行业类别作为第一所属行业，这可以避免单一关键词带来的分类偏差。如果存在多个关键词，则会统计各关键词所对应行业类别的数量，选择对应类别最多的行业作为第一所属行业。这种策略综合考虑了多个关键词的行业贡献，通过关键词所对应的行业加权，可以获得更可靠的第一所属行业结果。相比简单匹配关键词的传统方法，本申请通过评估关键词数量并考量关键词与行业的对应关系，充分利用了新闻文本的关键词语义信息，避免了单一关键词偏差，使第一所属行业判断更加准确全面，为后续分类提供了更好的基础。

可选的，所述获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业，包括：确定所述目标新闻中的关键词数量；若所述目标新闻中不存在所述关键词，则将所述目标新闻的标题与预设行业关键词库进行匹配，根据匹配结果，确定所述目标新闻的第一所属行业。

通过采用上述技术方案，当目标新闻文本中不存在关键词时，本申请利用新闻标题与预设行业关键词库的匹配来确定第一所属行业。这可以应对关键词为空的情况，避免无法确定第一所属行业的问题。如果目标新闻中没有提取到关键词，则将新闻标题作为备选特征，去匹配预先构建的行业关键词库，根据匹配结果判断第一所属行业。预设行业关键词库通过收集行业领域词汇构建，包含各行业的代表词汇。通过与该词库匹配，可以判断标题词汇所属的行业类别，从而确定第一所属行业。该策略提供了一种备选方案，利用新闻标题进行第一所属行业判定。这避免了无关键词时无法分类的困境。同时，也充分利用了新闻标题中的语义信息，保证了在缺少关键词时，第一所属行业判定的质量。

可选的，所述实体词汇包括人名、地名及机构名，所述获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题，包括：提取所述目标新闻的文本内容，标注所述目标新闻的文本内容中的所述人名、地名及机构名；匹配所述目标新闻的文本内容中的所述人名、地名及机构名与预先定义的多个主题相关词库；计算所述目标新闻的文本内容中的所述人名、地名及机构名与各所述主题相关词库的匹配程度；选择匹配程度最高的所述主题相关词库所对应的主题作为所述目标新闻对应的主题。

通过采用上述技术方案，本申请在确定目标新闻对应的主题时，通过分析新闻文本中的命名实体特征，实现了主题的精确判定。首先对新闻文本进行命名实体识别，提取出人名、地名和机构名等实体词汇。然后将这些实体词汇与预先构建的主题相关词库进行匹配。主题相关词库包含了各主题领域的词汇，通过计算新闻中实体词汇与各主题词库的匹配程度，选择匹配度最高的主题作为新闻对应的主题。相比直接匹配关键词的简单方法，这种基于实体识别和主题词库匹配的策略，充分挖掘利用了新闻文本的语义信息。它能够准确抽取文本的主要实体，并与主题词库进行深度匹配，从细粒度上判断新闻主题的所属，实现了主题精确判定。

可选的，所述统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题，包括：统计所述目标新闻文本内容中各词汇的出现次数；根据各所述词汇的出现次数，将各所述词汇按照出现次数进行从大到小排序，选择排名处于前N名的词汇作为所述目标新闻的相关词汇；将相关词汇与预先设置的多个次级主题词库进行匹配，将匹配程度最高的所述次级主题词库对应的次级主题确定为目标新闻的次级主题。

通过采用上述技术方案，本申请通过分析目标新闻文本的高频词汇，可以自动判断新闻的次级主题，拓展了对新闻主题的理解，为最终分类提供了更丰富的特征信息。具体来说，首先统计文本中各词汇出现的次数，根据词频将词汇排序，选取前N名的高频词汇作为相关词汇。这些高频词可以反映文本的次要话题。然后，将得到的相关词汇与预设的次级主题词库进行匹配，根据匹配程度最高的次级主题进行判定。本申请充分利用了高频词反映的新闻次级主题信息，这为新闻内容的语义理解提供了更丰富的角度。同时，次级主题也能够反映新闻与各细分行业类别的相关性。

可选的，所述结合所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题，确定所述目标新闻的最终所属行业，包括：计算所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间的关联性；若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间存在强关联性，则将所述目标新闻的第一所属行业确定为所述目标新闻的最终所属行业；若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间不存在所述强关联性，则根据所述目标新闻对应的主题和次级主题，重新确定所述目标新闻的最终所属行业。

通过采用上述技术方案，本申请在确定目标新闻的最终所属行业时，充分考虑了多个特征之间的关联性，实现了分类的精确决策。计算第一所属行业、对应主题和次级主题之间的关联度。如果它们存在强关联，则直接取第一所属行业作为最终行业。这避免了重复判断，提高了效率。如果各特征关联性较弱，则会重新根据主题和次级主题进行判断，修正第一所属行业的偏差，得到更准确的最终所属行业。这种策略可以检验和纠正第一所属行业的错误，使判断更加谨慎。本申请充分利用多个特征的关联关系，进行了深入的关联性分析，避免了过度依赖单一特征导致的错误。

可选的，所述根据所述目标新闻对应的主题和次级主题，重新确定所述目标新闻的最终所属行业，包括：判断所述目标新闻对应的主题与各行业类别之间的关联度，选择与所述目标新闻对应的主题关联度最强的行业类别作为备选行业类别；判断所述目标新闻的次级主题与所述备选行业类别之间的关联度，若所述目标新闻的次级主题与所述备选行业类别之间的关联度满足预设条件，则将所述备选行业类别确定为所述目标新闻的最终所属行业；若所述目标新闻的次级主题与所述备选行业类别之间的关联度不满足所述预设条件，则寻找所述目标新闻的次级主题所对应的行业类别，将所述目标新闻的次级主题所对应的行业类别确定为所述目标新闻的最终所属行业。

通过采用上述技术方案，当各特征关联性较弱时，本申请通过深入分析主题和次级主题与行业类别的关联，实现了最终所属行业的精确决策。首先根据新闻主题与各行业类别的关联度，选择与主题最相关的行业作为备选类别。然后判断次级主题与备选类别的关联度，如果满足条件，则直接取备选类别作为最终行业。这遵循由主题到次级主题的逻辑顺序。如果次级主题与备选类别关联度不足，则直接根据次级主题找到所对应的行业，取之为最终行业。这充分利用了次级主题反映的行业信息。该策略充分发掘主题和次级主题对行业判定的作用，实现了综合决策。主题确定备选范围，次级主题进行精确选择。这种顺序决策方式，融合了两个特征的优势，避免了单一主题可能带来的偏差，提高了判断的准确性。

第二方面，本申请提供一种数据自动分类的装置，所述装置包括：第一获取模块、第二获取模块、统计模块及结合模块；其中，所述第一获取模块，用于获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业；所述第二获取模块，用于获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题；所述统计模块，用于统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题；所述结合模块，用于结合所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题，确定所述目标新闻的最终所属行业。

第三方面，本申请提供一种电子设备，采用如下技术方案：包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如上述任一种数据自动分类的方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下技术方案：存储有能够被处理器加载并执行上述任一种数据自动分类的方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.充分利用了新闻文本的语义信息，通过多特征的组合分析，实现了对新闻内容的深入理解，大大提高新闻文本分类的准确率；

2.充分发掘主题和次级主题对行业判定的作用，实现了综合决策。主题确定备选范围，次级主题进行精确选择。这种顺序决策方式，融合了两个特征的优势，避免了单一主题可能带来的偏差，提高了判断的准确性。

附图说明

图1是本申请实施例提供的一种数据自动分类的方法的流程示意图；

图2是本申请实施例提供的一种数据自动分类的装置的结构示意图；

图3是本申请实施例提供的一种电子设备的结构示意图。

附图标记说明： 1000、电子设备；1001、处理器；1002、通信总线；1003、用户接口；1004、网络接口；1005、存储器。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，“示性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

图1是本申请实施例提供的一种数据自动分类的方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行；除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行；并且图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请公开了一种数据自动分类的方法，如图1所示，该方法包括S101-S104。

S101，获取目标新闻中的关键词，并根据关键词，确定目标新闻的第一所属行业。

在一个示例中，为了实现新闻文本的自动分类，需要首先分析新闻文本本身所包含的特征词，以判断该新闻的大类所属行业。其中，关键词是反映新闻主要内容的重要词汇，是指能够概括文章核心主题的一些重要的名词或术语。通过关键词可以直接推断出新闻所涉及的主要领域或行业。因此，本方案的第一步是从目标新闻文本中提取关键词。关键词的提取可以通过自然语言处理技术实现，如命名实体识别等，以识别目标新闻中的人名、地名、组织机构名等关键词汇。

得到关键词后，需要进一步确定这些关键词所对应的行业类别，以判断目标新闻的第一所属行业。本方案预先构建了关键词和行业类别的对应关系知识库。例如，“石油”关键词对应能源行业，“通胀”关键词对应财经行业等。对目标新闻中的每个关键词，在该知识库中查找其所对应的行业类别。如果目标新闻存在多个关键词，则统计每个关键词所对应的行业类别的数量，数量最多的行业类别可以作为该目标新闻的第一所属行业。

通过这种方式，本方案可以仅依据目标新闻本身的关键词，不需要理解其具体内容，就可以快速确定该新闻的所属大类行业，为后续的主题匹配及多角度决策提供基础。这种基于关键词匹配的第一行业分类，既简单有效，又为新闻分类提供了一个宏观上的行业视角。

在上述实施例的基础上，作为一种可选的实施例，S101中获取目标新闻中的关键词，并根据关键词，确定目标新闻的第一所属行业具体包括：

确定目标新闻中的关键词数量；若目标新闻中存在多个关键词，则获取各关键词对应的至少一个行业类别，统计各行业类别对应的关键词数量，将关键词数量最多的行业类别作为目标新闻的第一所属行业；若目标新闻中仅存在一个关键词，则将该关键词对应的行业类别作为目标新闻的第一所属行业。

在一个示例中，为准确确定目标新闻的第一所属行业，需要首先分析目标新闻文本中包含的关键词数量。关键词数量直接影响所属行业判定的策略。

具体包括：利用命名实体识别等自然语言处理技术，识别出目标新闻文本中的全部关键词，并统计关键词数量。如果关键词数量大于1个，则说明目标新闻涉及多方面内容。此时对每个关键词进行处理，在预先构建好的关键词-行业对应关系库中查找每个关键词所对应的行业类别，然后统计各个行业对应的关键词数量。最后，选择关键词数量最多的行业作为该目标新闻的第一所属行业。

如果目标新闻仅包含1个关键词，则直接根据该关键词在对应关系库中查找其所属行业，并将其确定为第一所属行业。

区分单关键词和多关键词两种情况，可以使第一所属行业的确定更加准确。当仅有单一关键词时，直接利用该关键词判断行业类别。当关键词较多时，需要统计各关键词的所属行业情况，采用关键词数量最多的行业进行第一判定。这种方式充分利用了新闻文本本身特征，有利于后续行业类别精确匹配。

假设一篇目标新闻文本中包含以下关键词：“石油”，“油价”。首先利用命名实体识别等技术，识别出上述2个关键词。然后统计关键词数量为3大于1个，因此需要进一步处理每个关键词。在预先构建的关键词-行业对应关系库中发现：“石油”关键词对应“石油”行业，“油价”关键词对应“经济”和“石油”行业。统计各关键词的所属行业，“石油”行业对应的关键词数量最多，为2个。所以确定该目标新闻文本的第一所属行业为“石油”。

在上述实施例的基础上，作为一种可选的实施例，S101中获取目标新闻获取目标新闻中的关键词，并根据关键词，确定目标新闻的第一所属行业还包括：

确定目标新闻中的关键词数量；若目标新闻中不存在关键词，则将目标新闻的标题与预设行业关键词库进行匹配，根据匹配结果，确定目标新闻的第一所属行业。

在另一个示例中，在提取出目标新闻文本中的关键词后，需要先判断关键词数量。如果数量为0，即文本中不包含关键词，则无法通过关键词直接确定第一所属行业。

此时的处理策略是，利用目标新闻的标题文本，在预先构建的行业关键词库中进行全文匹配。行业关键词库中收录了各个行业类别对应的关键词、术语等。通过计算新闻标题与各行业关键词的匹配程度，选择匹配度最高的行业作为第一所属行业。这样通过新闻标题的匹配确定第一所属行业，主要原因是标题具备概括全文的作用，通常能反映新闻的主要内容方向。当文本内容不足以提供关键词时，标题匹配可以提高第一所属行业正确率。同时，标题词汇量较少，匹配计算较为简单快速。

标题匹配适用于目标新闻本身较短或者语义不够明确，导致无法提取关键词的情况。它提供了一种简单有效的第一所属行业判断策略，也为后续主题判断及最终行业匹配提供了宏观指引，使整体分类更加准确完整。

S102，获取目标新闻的文本内容中的实体词汇，并根据实体词汇，确定目标新闻对应的主题。

在一个示例中，新闻文本中的实体词汇，如人名、地名、机构名等，能够反映新闻报道的主要参与对象或相关机构，是判断新闻主题的重要信息。因此，在得到第一所属行业后，本方案的第二步是提取目标新闻文本中的实体词汇，以锚定新闻报道的主要内容方向。

具体实现时，首先利用命名实体识别技术，从目标新闻文本中抽取出全部的人名、地名和机构名词汇，进行实体词汇的标注。然后，根据预先构建的主题词库，对抽取出的实体词汇进行匹配。主题词库中同一主题使用一组相关的实体词汇进行表示。对新闻中实体词汇与主题词库的匹配程度进行计算，选择匹配度最高的主题词库所对应的主题，作为该目标新闻文本的主题。

通过分析新闻文本的实体词汇，可以快速锁定新闻的主要报道对象及主题，比全文内容匹配更有针对性，也更简单高效。

在上述实施例的基础上，作为一种可选的实施例，S102中：实体词汇包括人名、地名及机构名，获取目标新闻的文本内容中的实体词汇，并根据实体词汇，确定目标新闻对应的主题具体包括：

提取目标新闻的文本内容，标注目标新闻的文本内容中的人名、地名及机构名；匹配所述目标新闻的文本内容中的所述人名、地名及机构名与预先定义的多个主题相关词库；计算所述目标新闻的文本内容中的所述人名、地名及机构名与各所述主题相关词库的匹配程度；选择匹配程度最高的所述主题相关词库所对应的主题作为所述目标新闻对应的主题。

在一个示例中，为准确判定新闻文本的主题，首先需要提取文本内容，利用命名实体识别技术标注出文本中的人名、地名和机构名等实体词汇。这些实体词汇能够反映新闻的主要报道对象或相关方。

然后，根据预先定义的多个主题相关词库对抽取出的实体词汇进行匹配。主题相关词库通过收集该主题的代表性实体词汇进行构建。对每个实体词汇，计算它与各个主题词库的匹配程度，选择匹配度最高的主题词库对应的主题作为最终结果。

匹配度计算可以采用词频、词向量相似度等算法。不同主题词库中的词汇组合各不相同，实体词汇与哪个主题词库匹配度最高，就确定该新闻文本的主题与之对应。

这种基于实体词汇匹配的主题确定方式，无需理解文本内容，就可以快速锁定新闻主题，并具备一定容错性。同时，主题词库可以持续扩充完善，使主题判定更加准确丰富，为后续行业分类提供有效支持。

S103，统计目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据高频词汇，生成目标新闻的相关词汇，并根据相关词汇，确定目标新闻的次级主题。

在一个示例中，新闻文本中的高频词汇能突出反映新闻的某些具体话题或次级主题。仅凭首要主题并不能完整反映新闻多样性的内容。因此，本方案的第三步是统计目标新闻文本中的词汇出现频率，提取出高频词汇，并生成相关词汇，以确定新闻的次级主题。

具体实现是先统计目标新闻文本中每个词汇的出现次数，按词频从高到低排序。选取词频大于某一预设阈值的词汇作为高频词汇。然后，通过词向量技术，计算这些高频词汇的相关词汇，扩充高频词汇集合。接着，将扩充后的高频词汇与预定的多个次级主题词库进行匹配，选择匹配度最高的次级主题词库所对应的次级主题，作为新闻文本的次级主题。

引入新闻文本的次级主题判断，可以使分类结果更具体和全面，避免只依赖大类主题造成新闻分类范围过于宽泛。高频词汇的相关词汇扩充也可以弥补部分词汇无法直接匹配上的问题。次级主题的判定为新闻分类增加了细分维度，有利于后续第一所属行业与最终所属行业的关联分析，提升分类的准确性。

在上述实施例的基础上，作为一种可选的实施例，S103中统计目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据高频词汇，生成目标新闻的相关词汇，并根据相关词汇，确定目标新闻的次级主题具体包括：

统计目标新闻文本内容中各词汇的出现次数；根据各词汇的出现次数，将各词汇按照出现次数进行从大到小排序，选择排名处于前N名的词汇作为目标新闻的相关词汇；将相关词汇与预先设置的多个次级主题词库进行匹配，将匹配程度最高的次级主题词库对应的次级主题确定为目标新闻的次级主题。

在一个示例中，为使新闻分类更加细致全面，需要进一步根据文本中的高频词汇来判断新闻的次级主题。

首先，统计目标新闻文本中每个词汇出现的次数，按照出现频率对所有词汇进行排序。然后选择排名靠前的N个词汇作为该新闻文本的高频词汇。高频表示这些词汇常常出现在当前新闻文本中，可反映文本的相关话题。得到高频词汇后，将它们与预先设置好的多个次级主题词库进行匹配。次级主题词库中收录了表示该主题的相关词汇。按照高频词汇与每个次级主题词库的匹配程度进行计算，选择匹配度最高的次级主题词库所对应的次级主题，作为该新闻文本的次级主题。引入次级主题判断，可以使新闻分类更加全面细致，避免只依赖大类主题造成范围过于宽泛的问题。高频词汇的统计则可以抓住文本具体话题的关键词。次级主题为最终行业判定提供了有价值的补充依据。

假设一篇关于电动汽车的新闻文本，经统计其词频后，提取出高频词汇：“新能源”、“续航里程”。然后，在预设的多个次级主题词库中进行匹配，其中与“新能源汽车”次级主题词库的匹配度最高。“新能源汽车”次级主题词库包含词汇：“电动汽车”、“续航”等。通过计算，上述高频词汇与该次级主题词库有较高的匹配程度。因此，可以确定该新闻文本的次级主题为“新能源汽车”。

S104，结合目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题，确定目标新闻的最终所属行业。

在一个示例中，为使新闻分类结果更加准确可靠，在得到第一所属行业、主题和次级主题后，还需要进行综合分析，最终确定目标新闻的所属行业类别。具体包括：首先计算第一所属行业与主题、次级主题的相关度或关联性。如果第一所属行业与另外两者存在强关联，则直接确定第一所属行业为目标新闻的最终所属行业。如果第一所属行业与另外两者关联性较弱，则以主题和次级主题为准，重新进行行业确定。具体是计算主题与各个行业类别的关联性，选择最相关行业类别作为备选。再计算次级主题与备选类别的关联性，如果满足要求，则确认备选类别为最终行业，否则以次级主题匹配对应的行业。

通过多角度分析证据的关联性，可以使目标新闻的最终自动分类结果更加准确可靠。第一所属行业、主题和次级主题分别提供不同视角的判断依据。本方案综合这些证据，在保证准确性的前提下，实现新闻文本的自动智能分类，达到更好的类别判定效果。

假设一则目标新闻的标题和内容提到了“公司A”“总裁A”等词汇。首先通过关键词“公司A”和“总裁A”，可以确定该新闻的第一所属行业为“IT科技”。然后获取目标新闻文本内容中的实体词汇，并根据预定义的主题词库匹配，确定该新闻主题为“科技”。统计关键词“电子商务” “新零售模式”在新闻文本中的高频出现，根据相关词汇扩充，判断出次级主题为“电子商务”。最后经过关联性分析，发现该新闻的第一所属行业“IT科技”与主题“科技”和次级主题“电子商务”具有很强的关联性。综上，最终可以确定该目标新闻的所属行业为“IT科技”，完成了通过多角度分析实现新闻文本自动分类的过程。

在上述实施例的基础上，作为一种可选的实施例，S104中：结合目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题，确定目标新闻的最终所属行业具体包括：

计算目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题之间的关联性；若目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题之间存在强关联性，则将目标新闻的第一所属行业确定为目标新闻的最终所属行业；若目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题之间不存在强关联性，则根据目标新闻对应的主题和次级主题，重新确定目标新闻的最终所属行业。

在一个示例中，为使新闻分类结果更加准确可靠，需要考量从不同侧面得到的证据之间的关联性，进行综合判断。具体是，首先计算第一所属行业、对应的主题和次级主题之间的关联度。可以采用共现分析等方法，判断三者之间的关联强度。

如果三者之间存在强关联性，则说明第一所属行业可以准确反映新闻类别，此时直接取第一所属行业作为最终分类结果。但是如果三者关联性较弱，则说明仅凭第一所属行业无法准确判定，需要重新进行判断。此时基于已匹配到的主题，计算它与各候选行业类别的关联度，选择最强关联的行业类别。再参考次级主题与该行业类别的关联性，如果满足阈值，则确认该行业类别为最终分类结果。在计算第一所属行业、主题和次级主题的关联性时，采用余弦相似度进行量化。余弦相似度的值域在[0，1]之间，0表示两个向量完全不相似，1表示两个向量完全相同。

为判断三者是否具有强关联性，需要设置一个阈值，作为判定的标准。此阈值可以通过经验赋值，也可以通过样本训练获得。常用的设置范围一般在0.7-0.9之间。具体的阈值设置需要综合考虑：三者关联性的敏感要求；样本数据的分布情况；不同阈值对分类结果的影响。在本申请中，设置0.8作为阈值。这是一个经验值，表示如果三者之间的余弦相似度都超过0.8，就认为它们具有较强的关联性。具体值还需要根据实际情况进行调整优化，以达到最佳的分类效果。

这种通过证据关联性分析的综合分类方式，可以最大程度发挥第一所属行业、主题和次级主题在不同情况下的优势，使结果更加准确可靠，达到更好的自动分类效果。

根据目标新闻对应的主题和次级主题，重新确定目标新闻的最终所属行业，包括：判断目标新闻对应的主题与各行业类别之间的关联度，选择与目标新闻对应的主题关联度最强的行业类别作为备选行业类别；判断目标新闻的次级主题与备选行业类别之间的关联度，若目标新闻的次级主题与备选行业类别之间的关联度满足预设条件，则将备选行业类别确定为目标新闻的最终所属行业；若目标新闻的次级主题与备选行业类别之间的关联度不满足预设条件，则寻找目标新闻的次级主题所对应的行业类别，将目标新闻的次级主题所对应的行业类别确定为目标新闻的最终所属行业。

在一个示例中，假设一篇新闻的主题是“文体”，次级主题是“足球”。首先，计算“文体”这个主题与各个行业类别的关联度，发现与“体育”行业关联度最强。所以，将“体育”作为备选行业类别。

然后，计算“足球”这个次级主题与“体育”行业之间的关联度。如果关联度满足预设条件(如关联度指数大于0.8)，则直接确定“体育”为最终所属行业。如果“足球”与“体育”之间关联度不足，则继续查找“足球”对应的行业类别。根据知识库，可以确定“足球”与“球类运动”行业关联度最强。因此，最后确定该篇新闻的最终所属行业为“球类运动”。这种方式充分考虑了主题与次级主题在行业判断上的作用，通过两级关联计算，可以使分类结果更加准确可靠。当主题与行业关联不够时，次级主题发挥补充作用，确保最终结果符合新闻实际内容。

基于上述方法，本申请还公开了一种数据自动分类的装置，如图2所示，图2是本申请实施例提供的一种数据自动分类的装置的结构示意图。

装置包括：第一获取模块、第二获取模块、统计模块及结合模块；其中，第一获取模块，用于获取目标新闻中的关键词，并根据关键词，确定目标新闻的第一所属行业；第二获取模块，用于获取目标新闻的文本内容中的实体词汇，并根据实体词汇，确定目标新闻对应的主题；统计模块，用于统计目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据高频词汇，生成目标新闻的相关词汇，并根据相关词汇，确定目标新闻的次级主题；结合模块，用于结合目标新闻的第一所属行业、目标新闻对应的主题及目标新闻的次级主题，确定目标新闻的最终所属行业。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参见图3，为本申请实施例提供了一种电子设备的结构示意图。如图3所示，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏（Display）、摄像头（Camera），可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行服务器的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrammableLogic Array，PLA）中的至少一种硬件形式来实现。处理器1001可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器1005包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及一种数据自动分类的方法的应用程序。

在图3所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储一种数据自动分类的方法的应用程序，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。

一种电子设备可读存储介质，所述电子设备可读存储介质存储有指令。当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种数据自动分类的方法，其特征在于，所述方法包括：获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业；

获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题；

统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题；

计算所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间的关联性；

若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间存在强关联性，则将所述目标新闻的第一所属行业确定为所述目标新闻的最终所属行业，所述强关联性表示所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间的余弦相似度超过阈值；

若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间不存在所述强关联性，则判断所述目标新闻对应的主题与各行业类别之间的关联度，选择与所述目标新闻对应的主题关联度最强的行业类别作为备选行业类别；

判断所述目标新闻的次级主题与所述备选行业类别之间的关联度，若所述目标新闻的次级主题与所述备选行业类别之间的关联度满足预设条件，则将所述备选行业类别确定为所述目标新闻的最终所属行业；

若所述目标新闻的次级主题与所述备选行业类别之间的关联度不满足所述预设条件，则寻找所述目标新闻的次级主题所对应的行业类别，将所述目标新闻的次级主题所对应的行业类别确定为所述目标新闻的最终所属行业。

2.根据权利要求1所述的数据自动分类的方法，其特征在于，所述获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业，包括：确定所述目标新闻中的关键词数量；若所述目标新闻中存在多个关键词，则获取各所述关键词对应的至少一个行业类别，统计各所述行业类别对应的关键词数量，将所述关键词数量最多的行业类别作为目标新闻的第一所属行业；若所述目标新闻中仅存在一个关键词，则将该关键词对应的行业类别作为目标新闻的第一所属行业。

3.根据权利要求1所述的数据自动分类的方法，其特征在于，所述获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业，包括：确定所述目标新闻中的关键词数量；若所述目标新闻中不存在所述关键词，则将所述目标新闻的标题与预设行业关键词库进行匹配，根据匹配结果，确定所述目标新闻的第一所属行业。

4.根据权利要求1所述的数据自动分类的方法，其特征在于，所述实体词汇包括人名、地名及机构名，所述获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题，包括：提取所述目标新闻的文本内容，标注所述目标新闻的文本内容中的所述人名、地名及机构名；匹配所述目标新闻的文本内容中的所述人名、地名及机构名与预先定义的多个主题相关词库；计算所述目标新闻的文本内容中的所述人名、地名及机构名与各所述主题相关词库的匹配程度；选择匹配程度最高的所述主题相关词库所对应的主题作为所述目标新闻对应的主题。

5.根据权利要求1所述的数据自动分类的方法，其特征在于，所述统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题，包括：统计所述目标新闻文本内容中各词汇的出现次数；根据各所述词汇的出现次数，将各所述词汇按照出现次数进行从大到小排序，选择排名处于前N名的词汇作为所述目标新闻的相关词汇；将相关词汇与预先设置的多个次级主题词库进行匹配，将匹配程度最高的所述次级主题词库对应的次级主题确定为目标新闻的次级主题。

6.一种数据自动分类的装置，其特征在于，所述装置包括：第一获取模块、第二获取模块、统计模块及结合模块；其中，所述第一获取模块，用于获取目标新闻中的关键词，并根据所述关键词，确定所述目标新闻的第一所属行业；所述第二获取模块，用于获取所述目标新闻的文本内容中的实体词汇，并根据所述实体词汇，确定所述目标新闻对应的主题；所述统计模块，用于统计所述目标新闻的文本内容中出现次数超过预设次数的高频词汇，并根据所述高频词汇，生成所述目标新闻的相关词汇，并根据所述相关词汇，确定所述目标新闻的次级主题；所述结合模块，用于计算所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间的关联性；若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间存在强关联性，则将所述目标新闻的第一所属行业确定为所述目标新闻的最终所属行业，所述强关联性表示所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间的余弦相似度超过阈值；

若所述目标新闻的第一所属行业、所述目标新闻对应的主题及所述目标新闻的次级主题之间不存在所述强关联性，则判断所述目标新闻对应的主题与各行业类别之间的关联度，选择与所述目标新闻对应的主题关联度最强的行业类别作为备选行业类别；判断所述目标新闻的次级主题与所述备选行业类别之间的关联度，若所述目标新闻的次级主题与所述备选行业类别之间的关联度满足预设条件，则将所述备选行业类别确定为所述目标新闻的最终所属行业；若所述目标新闻的次级主题与所述备选行业类别之间的关联度不满足所述预设条件，则寻找所述目标新闻的次级主题所对应的行业类别，将所述目标新闻的次级主题所对应的行业类别确定为所述目标新闻的最终所属行业。

7.一种电子设备，其特征在于，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如权利要求1-5任意一项所述的方法。

8.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1-5任意一项所述的方法的计算机程序。