CN117910479B

CN117910479B - 聚合新闻判断方法、装置、设备及介质

Info

Publication number: CN117910479B
Application number: CN202410308816.4A
Authority: CN
Inventors: 罗佳
Original assignee: Hunan Eefung Software Co ltd
Current assignee: Hunan Eefung Software Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-04
Anticipated expiration: 2044-03-19
Also published as: CN117910479A

Abstract

本发明属于计算机数据处理技术领域，涉及一种聚合新闻判断方法、装置、计算机设备及介质，该方法包括：关键词抽取步骤S1：对文章重要的关键词进行筛选；体积计算步骤S2：使用语义模型对文本关键词进行向量化，并以文章为单位组合若干词向量为矩阵，对矩阵执行正交投影操作进行降维，并计算其在空间中的体积；聚合新闻判断步骤S3：以体积为指标对文章进行聚合新闻和非聚合新闻二分类。该方法、装置、计算机设备及介质能够快速识别目标文章是否是聚合新闻，具有可信度高，计算速度快等优点。

Description

聚合新闻判断方法、装置、设备及介质

技术领域

本发明涉及计算机数据处理技术领域，具体涉及一种基于语义相关矩阵空间的聚合新闻判断方法、装置、计算机设备及计算机可读存储介质。

背景技术

聚合新闻是指将来自多个不同来源的新闻内容、报道、文章或信息整合在一起，形成一个统一的文章或页面，让用户能够一次浏览多个来源的新闻报道。这些新闻可以来自不同的新闻网站、媒体机构、博客、社交媒体或其他信息源，报道的主题内容复杂多样，可能跨行业、领域，且没有固定规律。聚合新闻在自然语言处理分析方面可能存在一些负面影响，主要包括：

信息多样性导致混淆：对于分析某一特定领域或者单个话题的内容，聚合新闻的内容多样性导致信息过于碎片化、且与被分析主题或事件不相关导致结果出错。

信息重复和冗余：聚合新闻可能包含大量重复或冗余的信息，特别是在涉及相同话题或事件的多个来源时。

信息质量不一：聚合新闻涵盖多个来源，可能导致信息质量参差不齐。一些来源可能缺乏可信度或者传递出不准确的信息，这可能对自然语言处理***产生误导。

在一般的自然语言处理和对于基于文档内容的话题抽取或事件分析中，由于聚合新闻的存在，对分析内容产生了严重的干扰。为了提升被分析数据的质量，需要对聚合新闻进行识别和过滤。因此，亟需研发一种聚合新闻的判断方法，从而判断该新闻是不是聚合类新闻。

发明内容

鉴于以上所述，本发明提供一种基于语义相关矩阵空间的聚合新闻判断方法、装置、计算机设备及及计算机可读存储介质，能够快速识别目标文章是否是聚合新闻，具有可信度高，计算速度快等优点。

本发明的技术方案：

第一方面，本发明提供一种聚合新闻判断方法，包括以下步骤：

关键词抽取步骤S1：对文章重要的关键词进行筛选；

体积计算步骤S2：使用语义模型对文本关键词进行向量化，并以文章为单位组合若干词向量为矩阵，对矩阵执行正交投影操作进行降维，并计算其在空间中的体积；

聚合新闻判断步骤S3：以体积为指标对文章进行聚合新闻和非聚合新闻二分类。

第二方面，本发明还提供一种聚合新闻的判断装置，包括：

关键词抽取模块：用于对文章重要的关键词进行筛选；

体积计算模块：用于使用语义模型对文本关键词进行向量化，并以文章为单位组合若干词向量为矩阵，对矩阵执行正交投影操作进行降维，并计算其在空间中的体积；

聚合新闻判断模块：用于以体积为指标对文章进行聚合新闻和非聚合新闻二分类。

第三方面，本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的聚合新闻判断方法的步骤。

与现有技术相比，本发明聚合新闻判断方法、装置、计算机设备及计算机可读存储介质具有如下有益效果：

1、本发明在进行完模型训练之后，后续的判断过程完全自动化，输入文章数据即可自动判断文件是否为聚合新闻。

2、本发明所使用算法全部基于向量和矩阵进行运算，利用空间思维进行语义判断，计算速度快，判断效率高，准确性高。

3、本发明在海量数据中的自然语言处理分析过程中，能快速完成聚合新闻的判定和过滤，且计算过程不依赖于外部数据、运行环境和基础设施，能够为文本的实时处理分析过程过滤无效数据，显著提升文本分析的处理速度和结果的准确性。

本发明的优选实施方案及其有益效果，将结合具体实施方式进一步详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但不应构成对本发明的限制。在附图中，

图1是本发明需要训练的模型内容示意图；

图2是本发明进行聚合新闻判断的整体流程示意图；

图3是三维向量在空间中所合围的形状示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本申请实施例提供的基于语义相关矩阵空间的聚合新闻判断方法，可以应用于如终端、服务器等计算机设备中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，便携式可穿戴设备可为头戴设备等；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

请参阅图1及图2，本发明提供一种基于语义相关矩阵空间的聚合新闻判断方法，包括如下步骤：

关键词抽取步骤S1：对文章重要的关键词进行筛选；

关键词抽取步骤S1包括：

子步骤S11：基于已有新闻文章集、网络文本数据、学术论文集等文档集合训练IDF模型。

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于衡量单词在文档中重要性的统计方法。

假设T表示文档集合中所有文档的总数，表示包含词语 t的文档数量，词语 t的逆文档频率 IDF 可以表示为： />。

子步骤S12：将待判定的新闻文章分词，计算TF-IDF值，选取TF-IDF值topN词作为该新闻的关键词。

假设 t 表示一个词语，d 表示一个文档，表示词语t在文档d中出现的次数，/>表示文档d中总词数，则词语t在文档d中的词频TF表示为:

；

将词语t 在文档 d 中的 TF 与在整个文档集中的 IDF 结合，可以得到词语 t在文档 d 中的 TF-IDF 值：

TF-IDF(t,d,T)=TF(t,d)×IDF(t,T)；

经以上处理，得到新闻文章对应的关键词列表。这些关键词具有较高的 TF-IDF值，反映了它们在当前新闻文本中的重要性和独特性。

体积计算步骤S2包括：

子步骤S21：基于已有新闻文章集，网络文本数据、学术论文集等文档集合训练Word2Vec模型，以此来学习词语之间的语义关系。

以上文档集合为D，词汇表为V，每个文档包含关键词集合/>；Word2Vec模型的训练目标是学习一个映射函数 />，将词汇表中的词语映射为d维的向量表示。

子步骤S22：将关键词抽取步骤S1中新闻对应的每个关键词通过Word2Vec模型映射成高维向量，文章的所有词组将所对应向量组合成多维矩阵A。

对于文档中的关键词/>,通过Word2Vec模型得到其向量表示/>，然后将所有关键词的向量按列组合成矩阵A，即：

；

其中，p是关键词总数，q是词向量维度。

子步骤S23：将矩阵A与A的转置矩阵相乘，进行正交投影，以将矩阵A降维并转成方阵B。

对矩阵A进行正交投影操作，得到降维后的方阵B，即：。

子步骤S24：计算矩阵B的行列式得到矩阵的体积V。

计算方阵B的行列式，即。这个行列式的值可以代表矩阵B的体积。见图3，这里使用简化后的图形表示3个3维向量在空间中合围的体积。

本步骤使用Word2Vec 模型对新闻文章中的关键词进行向量化，然后通过矩阵运算进行维度的转换和降维，并最终计算得到降维后矩阵的体积V。

聚合新闻判断步骤S3包括：

子步骤S31：随机选取一批文章，人为标注这些文章是否为聚合新闻，并以关键词抽取步骤S1及体积计算步骤S2计算每篇文章对应的矩阵体积，形成一批“文章、人工判断是否为聚合新闻、及其矩阵体积”的数据，以该数据为本算法训练集；

子步骤S32：以S31步骤生成的训练集为基础，选取矩阵体积维度的划分阈值M∈[m1,m2,m3,...,m10]作为备选阈值，训练集中矩阵体积维度大于M的文章判断为聚合新闻，反之则判断为不是聚合新闻，形成训练集所对应的“文章、机器判断是否为聚合新闻”的结果，该结果与人工判断的结果进行比较，计算M对应的准确率、召回率和F1值，迭代多次得出F1∈[f11,f12,f13,...,f110]，选取最大的F1值对应的阈值M作为唯一阈值m；

子步骤S33：对其他用于推断的的文章进行关键词抽取步骤S1及体积计算步骤S2运算，以聚合新闻唯一阈值m为基准进行判断，如果文章计算的矩阵体积大于唯一阈值m为聚合新闻，反之则为非聚合新闻。

原理说明：

TF-IDF可以计算词语在文档中的普遍重要性，从而突出文档的主题和内容。而Word2Vec基于分布假设，认为在相似上下文中出现的词语具有相似的语义，因此能够生成每个词语的稠密向量表示。因此，基于TF-IDF和Word2Vec，我们可以将文档转换为表达其语义的词矩阵。

由于聚合新闻内容通常包含各行业、各领域突发事件的描述，其在语义上普遍较为散乱和碎片化，其词向量在几何空间的方向和长度也较为离散。我们使用词向量在空间中张成的多面体的体积来评估词向量在文档中语义的离散程度。多维向量越离散，其多面体体积越大。而矩阵张成的多面体体积可以使用矩阵行列式来进行快速计算，因此该体积指标可作为评估文档是否为聚合新闻的重要特征。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供一种基于语义相关矩阵空间的聚合新闻判断装置，其包括的各模块基于语义相关矩阵空间的聚合新闻判断方法对应的实施例中的各步骤，用于实现基于语义相关矩阵空间的聚合新闻判断方法。

基于语义相关矩阵空间的聚合新闻判断装置包括：

关键词抽取模块：用于对文章重要的关键词进行筛选；

关键词抽取模块包括：

训练IDF单元：用于基于已有新闻文章集、网络文本数据、学术论文集等文档集合训练IDF模型。

分词计算单元：用于将待判定的新闻文章分词，计算TF-IDF值，选取TF-IDF值topN词作为该新闻的关键词。

；

TF-IDF(t,d,T)=TF(t,d)×IDF(t,T)；

体积计算模块包括：

训练Word2Vec单元：用于基于已有新闻文章集，网络文本数据、学术论文集等文档集合训练Word2Vec模型，以此来学习词语之间的语义关系。

映射单元：用于将关键词抽取模块中新闻对应的每个关键词通过Word2Vec模型映射成高维向量，文章的所有词组将所对应向量组合成多维矩阵A。

；

其中，p是关键词总数，q是词向量维度。

转换成方阵单元：用于将矩阵A与A的转置矩阵相乘，进行正交投影，以将矩阵A降维并转成方阵B。

对矩阵A进行正交投影操作，得到降维后的方阵B，即：。

计算体积单元：用于计算矩阵B的行列式得到矩阵的体积V。

使用Word2Vec 模型对新闻文章中的关键词进行向量化，然后通过矩阵运算进行维度的转换和降维，并最终计算得到降维后矩阵的体积V。

聚合新闻判断模块包括：

标注单元：用于随机选取一批文章，人为标注这些文章是否为聚合新闻，并以关键词抽取步骤S1及体积计算步骤S2计算每篇文章对应的矩阵体积，形成一批“文章、人工判断是否为聚合新闻、及其矩阵体积”的数据，以该数据为本算法训练集；

界限划分单元：用于以标注单元生成的训练集为基础，选取矩阵体积维度的划分阈值M∈[m1,m2,m3,...,m10]作为备选阈值，训练集中矩阵体积维度大于M的文章判断为聚合新闻，反之则判断为不是聚合新闻，形成训练集所对应的“文章、机器判断是否为聚合新闻”的结果，该结果与人工判断的结果进行比较，计算M对应的准确率、召回率和F1值，迭代多次得出F1∈[f11,f12,f13,...,f110]，选取最大的F1值对应的阈值M作为唯一阈值m；

判断单元：用于对其他用于推断的文章进行关键词抽取模块及体积计算模块运算，以聚合新闻唯一阈值m为基准进行判断，如果文章计算的矩阵体积高于唯一阈值m为聚合新闻，反之则为非聚合新闻。

应当理解的是，基于语义相关矩阵空间的聚合新闻判断装置的各模块用于执行对应方法的实施例中的各步骤，而对应方法的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅所对应方法的实施例中的相关描述，此处不再赘述。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于语义相关矩阵空间的聚合新闻判断方法的计算机设备。该计算机设备所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的计算机设备实施例中的具体限定可以参见上文中对于基于语义相关矩阵空间的聚合新闻判断方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于语义相关矩阵空间的聚合新闻判断方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现如上述实施例所述的基于语义相关矩阵空间的聚合新闻判断方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述实施例所述的基于语义相关矩阵空间的聚合新闻判断方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述实施例所述的基于语义相关矩阵空间的聚合新闻判断方法。

本发明基于语义相关矩阵空间的聚合新闻判断方法、装置、计算机设备、计算机可读存储介质及计算机程序产品具有如下有益效果：

4、本发明将文章以关键词基于语义模型转换为矩阵进行表达，使得文章能够抛开文本形式，以矩阵的方式进行计算，拓宽了文本处理的方式，加快了文本处理的速度。

5、本发明基于词向量在矩阵空间中的体积来表达文本内容的分散程度，以此作为聚合新闻的判断标准，大大提高了数据处理的准确性。

6、本发明采用的指标，都是根据前期人工对大量文本内容进行分析总结得到，对整个流程具有经验指导作用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种聚合新闻判断方法，其特征在于，包括以下步骤：

关键词抽取步骤S1：对文章重要的关键词进行筛选；

聚合新闻判断步骤S3：以体积为指标对文章进行聚合新闻和非聚合新闻二分类；

所述体积计算步骤S2包括：

子步骤S21：基于已有文档集合训练Word2Vec模型，以此来学习词语之间的语义关系；

子步骤S22：将关键词抽取步骤S1中新闻对应的每个关键词通过Word2Vec模型映射成高维向量，文章的所有词组将所对应向量组合成多维矩阵A；

子步骤S23：将矩阵A与A的转置矩阵相乘，进行正交投影，以将矩阵A降维并转成方阵B；

子步骤S24：计算矩阵B的行列式得到矩阵的体积V；

所述聚合新闻判断步骤S3包括：

2.根据权利要求1所述的聚合新闻判断方法，其特征在于，所述关键词抽取步骤S1包括：

子步骤S11：基于已有文档集合训练IDF模型；

3.一种聚合新闻的判断装置，其特征在于，包括：

关键词抽取模块：用于对文章重要的关键词进行筛选；

聚合新闻判断模块：用于以体积为指标对文章进行聚合新闻和非聚合新闻二分类；

所述体积计算模块包括：

训练Word2Vec单元：用于基于已有文档集合训练Word2Vec模型，以此来学习词语之间的语义关系；

映射单元：用于将关键词抽取模块中新闻对应的每个关键词通过Word2Vec模型映射成高维向量，文章的所有词组将所对应向量组合成多维矩阵A；

转换成方阵单元：用于将矩阵A与A的转置矩阵相乘，进行正交投影，以将矩阵A降维并转成方阵B；

计算体积单元：用于计算矩阵B的行列式得到矩阵的体积V；

所述聚合新闻判断模块包括：

4.根据权利要求3所述的聚合新闻的判断装置，其特征在于，所述关键词抽取模块包括：

训练IDF单元：用于基于已有文档集合训练IDF模型；

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述的聚合新闻判断方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的聚合新闻判断方法的步骤。