CN109918621B

CN109918621B - 基于数字指纹和语义特征的新闻文本侵权检测方法与装置

Info

Publication number: CN109918621B
Application number: CN201910119330.5A
Authority: CN
Inventors: 杨鹏; 孙麟; 李幼平; 张长江; 郑斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2023-02-28
Anticipated expiration: 2039-02-18
Also published as: CN109918621A

Abstract

本发明公开了一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置，能够通过检测文本相似性实时检测各大新闻媒体网站的新闻是否有侵权行为。本发明首先通过互联网采集新闻文本样本数据，并在新闻原文基础上构造出的侵权样本；然后利用word2vec模型实现新闻文本统一坐标系化，基于改进的局部敏感哈希方法提取文本指纹特征；接着基于长短时记忆循环神经网络模块，利用三元组损失学习文本语义特征；最后通过计算数字指纹特征和语义特征融合的相似度来判断文本是否有侵权。与现有技术相比，本发明将词语义嵌入到指纹中，更易检测出抄袭行为，并且同时利用数字特征和语义特征进行新闻文本相似度检测，能够有效提高新闻文本侵权检测的准确率。

Description

基于数字指纹和语义特征的新闻文本侵权检测方法与装置

技术领域

本发明涉及一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置，通过提取新闻文本的数字指纹特征和语义特征，利用深度学习方法提高新闻文本侵权检测准确率，属于互联网和自然语言处理技术领域。

背景技术

互联网技术的高速发展，使得互联网已经成为人们获取信息和资源的最主要途径。然而，互联网的便捷性和信息共享技术的不断升级，一方面为人们获取资料提供了方便，另一方面也为抄袭、剽窃、非法扩散等行为提供了可乘之机。互联网的核心优势，是可以近乎为零的成本快速、广泛地传播信息。这无疑为文化传媒产业的繁荣创造了得天独厚的条件，但同时也为大量盗版、侵犯版权、损害版权内容生产者利益提供了便利。

文档侵权检测主要有两类基本的检测方法：一类是基于词频统计的方法；另一类是基于字符串比较的方法。基于词频统计的方法已经成为许多文本相似度算法的基础，也广泛应用到其他的领域。但是它很大的不足之处在于，只考虑了词在上下文中的统计特性，假定关键词之间线性无关，而没有考虑词本身的语义信息，因此对于检测文本相似度具有一定的局限性。而基于字符串比较哈希去重的思想，难以直接检测出“借鉴式抄袭”等侵权行为。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置，通过数字指纹特征提取、语义特征提取和相似度检测等过程，能实时检测出互联网新闻网站的内容是否存在侵权，同时提高侵权检测准确率。

技术方案：为实现上述发明目的，本发明所述的一种基于数字指纹和语义特征的新闻文本侵权检测方法，该方法利用一种改进的LSH(Locality-Sensitive Hashing，局部敏感哈希)方法，将词与词之间的相关性作为方法的输入，提取出文本指纹特征，然后构建基于LSTM(Long Short-Term Memory，长短时记忆网络)的检测模块，利用三元组损失Triplet Loss学习文本语义特征，最后通过计算融合数字指纹和语义特征的相似度来判断新闻文本是否侵权。该方法能够从数字指纹和语义角度全方位提取新闻文本的特征，区别库中已有的新闻文本特征，从而提高检测准确率。该方法主要包括四个步骤，具体如下：

(1)通过互联网采集多个类别的新闻文本，积累样本数据集；所述数据集中的样本包括新闻文本原文以及根据抄袭规则在新闻文本原文基础上构造出的新闻文本侵权样本；

(2)基于改进LSH方法计算文本数字指纹特征，包括：利用word2vec模型计算新闻文本的词向量，并计算词语的TF(Term Frequency)值和IDF(Inverse DocumentFrequency)值，以TF值和IDF值的乘积TF-IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征；

(3)根据样本数据集构建三元组数据，将三元组数据作为LSTM网络模型的输入，利用三元组损失学习文本语义特征；其中一个三元组数据包括Anchor实例、Positive实例和Negative实例，Anchor实例为新闻文本原文、Positive实例为基于新闻文本原文构造的侵权样本、Negative实例为与Anchor实例报道相同事件但未侵权的新闻文本原文；

(4)将根据步骤(2)中方法计算得到的待检测新闻文本的数字指纹特征和基于步骤(3)中训练好的LSTM网络模型提取得到的待检测新闻文本的语义特征进行融合，计算待检测新闻文本融合特征与经过版权认证的版权库中新闻文本的融合特征的相似度，进而判断待检测新闻文本是否存在侵权行为。

在优选的实施方案中，所述步骤(1)中将从互联网采集的新闻文本以及构造的侵权样本均根据UCL标准打包成对应的UCL。

在优选的实施方案中，所述步骤(1)中构造侵权样本依据的抄袭规则包括完全复制、增删操作、同/近义词替换、调整文本结构中的一种或多种。

在优选的实施方案中，所述步骤(2)中根据如下公式计算词语的TF值：

其中，f(w,d)表示词语w在文本d中的词频，v表示文本d中出现最频繁的词语。

在优选的实施方案中，所述步骤(2)中根据如下公式计算词语的IDF值：

其中，|D|表示样本数据集中的文本总数，|{w∈d,d∈D}|为包含词语w的文本数。

在优选的实施方案中，步骤(2)中计算得到的数字指纹特征表示为：

LSH(d)表示改进后用作数字指纹特征的文本d的文本局部敏感哈希值，a_w表示文本d中词w的词向量，tfidf_w为计算的词w的TF-IDF值。

在优选的实施方案中，所述步骤(3)中LSTM网络模型训练的目标损失函数为：

其中，A_i为三元组中的Anchor实例，P_i为A_i的Positive实例，N_i为A_i的Negative实例，f(.)代表LSTM网络提取的特征，λ为尺度放大因子，α为距离间隔，N为三元组总个数，‖.‖₂表示欧氏距离，[.]₊表示max(.,0)。

在优选的实施方案中，所述步骤(4)中将待检测新闻文本的数字指纹特征和语义特征进行拼接融合得到融合特征向量，根据融合特征向量与版权库中的新闻的融合特征向量的余弦相似度判断是否存在侵权。

在优选的实施方案中，所述步骤(4)中的待检测新闻文本为用户主动提交的新闻文本或在互联网爬取的未经过版权认证的新闻文本。

本发明所述的一种基于数字指纹和语义特征的新闻文本侵权检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于数字指纹和语义特征的新闻文本侵权检测方法。

有益效果：与现有技术相比，本发明具有如下优点：

1.本发明基于改进的LSH检测方法，与传统检测方法相比，将词哈希值替换为词语义向量，更易检测出“借鉴式抄袭”等侵权行为。

2.本发明基于LSTM和三元组损失的检测方法，能够有效区分相似文本和侵权文本。

3.本发明采用数字指纹特征和语义特征融合的新闻文本侵权检测方法，对检测结果具有更高的准确率、精确率和召回率。

附图说明

图1为本发明实施例的处理流程图。

图2为本发明实施例中改进的LSH方法流程图。

图3为本发明实施例中LSTM和三元组损失的训练方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于数字指纹和语义特征的新闻文本侵权检测方法，主要包括如下具体实施步骤：

步骤1，积累样本数据集。不失一般性，本实施例首先从互联网上搜集各个类别新闻，并保证每类新闻数据均匀，所有类别的新闻共同构成样本数据集D。由于中文新闻文本暂无公开的抄袭数据，本实施例中采用手动和/或机器进行构建。该步骤具体又可以分为以下3个步骤：

子步骤1-1，新闻文本分类爬取。在互联网网站上，爬取对应类别的新闻文本，并保证每个类别的新闻数量均衡。

子步骤1-2，新闻打包成国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的UCL(Uniform Content Label，统一内容标签)。下载HTML原文信息，从中提取关键信息，根据UCL标准，将原新闻网页打包生成对应的UCL。打包UCL可以便于版权保护和认证以及使用UCL双签名机制避免信息篡改。

子步骤1-3，构建侵权样本库。通过不同的抄袭形式对新闻内容原文进行更改，同时构造对应的UCL。抄袭方法见表1。

表1常见抄袭方法

步骤2，基于改进LSH方法计算文本数字指纹特征。对数据集进行分词和停用词处理后，将词与词之间的相关性作为LSH方法修正后的输入，提取文本指纹特征，构建文本数字指纹。如图2所示，该步骤具体又可以分为以下2个步骤：

子步骤2-1，基于word2vec模型计算词向量，本实施例通过word2vec模型计算将每个词通过哈夫曼树进行编码，作为神经网络的输入进行训练。基于神经网络的语言模型的目标函数，取公式(1)所示对数似然函数：

L＝∑_w∈Clnp(w|Context(w)) (1)

其中C表示语料，w为语料中出现的词，Context(w)表示w的上下文，即w邻近词的集合。这样可以将词语映射为K维向量(a₁,a₂,…,a_k)。

子步骤2-2，计算文本局部敏感哈希值，首先利用公式(2)计算出词语的TF值：

其中，f(w,d)表示词语w在文本d中的词频，v表示该文本中出现最频繁的词语，利用公式(3)计算出词语的IDF值：

其中，|D|表示文本集中的文本总数，|{w∈d,d∈D}|为包含词语w的文本数，分母可以处理|{w∈d,d∈D}|为0的情况。

基于每个词语的TF值与IDF值，利用公式(4)计算每个词语的TF-IDF值：

tfidf_(w,D)＝tf(w,d)×idf_w,D (4)

传统的文本局部敏感哈希计算方法是将词语进行哈希计算，然后乘以TF-IDF的权重，本实施例将子步骤2-1中计算得到的词向量替代词哈希值，将词语义嵌入到指纹中，增强了文本局部敏感哈希值的相关性，同时也保持了局部敏感的特性。计算得到的数字指纹特征可以用公式(5)表示，其中，d为文本，w为文本d中出现的词，a_w表示词w的词向量，tfidf_w为公式(4)计算的词w的权重。

LSH(d)＝∑_w∈d(a_w×tfidf_w) (5)

步骤3，基于LSTM和三元组损失Triplet Loss学习文本语义特征。该步骤具体又可以分为以下3个步骤：

子步骤3-1，三元组数据构建；一个三元组数据包括Anchor实例、Positive实例和Negative实例，其中，在本实施例使用的数据集中，Anchor为原新闻样本，Positive为Anchor的侵权样本，Negative表示和Anchor相似但未侵权的新闻样本。通过优化Anchor实例与Positive实例的距离小于Anchor实例与Negative实例的距离，实现样本的相似性计算，其中所有样本均为通过步骤2-1中生成的词向量构建的新闻文本特征矩阵。

根据步骤1中收集的原文数据D_A和构建的抄袭数据D_P，构建三元组(A_i,P_i,N_i)，其中A_i为Anchor实例，P_i为A_i的Positive实例，N_i为A_i的Negative实例(N_i与A_i两篇新闻报道了同一事件，但并非是一方抄袭另一方)，同时A_i,P_i,N_i满足公式(6)：

d(A_i,P_i,)<d(A_i,N_i)<d(A_i,P_i,)+α (6)

其中d(A_i,P_i,)代表A_i与P_i之间的距离，d(A_i,N_j)代表A_i与N_i之间的距离，α为距离间隔。

本实施例中采用LSTM网络提取输入数据的低维度特征，此处的三元组数据形式为(f(A_i),f(P_i),f(N_i))，f(.)代表提取的特征，根据公式(6)，可知三元组需要满足的距离要求如式(7)所示：

子步骤3-2，训练LSTM网络模块；由公式(7)可得到网络的目标损失函数为公式(8)：

其中，λ为尺度放大因子，使用随机梯度下降和反向传播算法进行网络训练。当网络模型收敛后，即得到训练好的LSTM网络，该网络输入为文本词向量矩阵，输出为归一化的文本语义特征。

子步骤3-3，计算待检测文本语义特征；根据子步骤3-2中计算好权重的LSTM网络，将待检测文本的词向量矩阵作为输入，得到待检测文本的语义特征。

步骤4，基于数字指纹和语义特征融合的文本相似度检测；将步骤2计算的数字指纹特征和步骤3提取的语义特征进行拼接融合，计算数字指纹和语义特征融合的余弦相似度，从而判断文本是否有侵权。对于特征向量，该相关性可采用任意相关性或相似性的度量方法，本实施例以皮尔森相关系数(PCC)为例进行阐述，PCC计算公式表述如公式(9)：

其中，V_X与V_A分别表示待检测文本X和已经经过版权认证的版权库中原始文本A的数字指纹和语义特征融合向量，V_X,i表示V_X的第i个特征，

表示V_X所有特征的平均值。在具体检测场景中，待检测文本X可有两种来源，一是主动规避侵权，由用户主动提交进行和版权库中新闻进行比对；二是被动防御侵权，由爬虫***进行线上采集，所有未经过认证的新闻均为待检测文本。

基于相同的发明构思，本发明实施例还提供一种基于数字指纹和语义特征的新闻文本侵权检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于数字指纹和语义特征的新闻文本侵权检测方法。

Claims

1.一种基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述方法包括：

(2)基于改进LSH方法计算文本数字指纹特征，包括：利用word2vec模型计算新闻文本的词向量，并计算词语的TF值和IDF值，以TF值和IDF值的乘积TF-IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征；

(3)根据样本数据集构建三元组数据，将三元组数据作为LSTM网络模型的输入，利用三元组损失学习文本语义特征；包括：

(3-1)构建三元组数据，其中一个三元组数据包括Anchor实例、Positive实例和Negative实例，Anchor实例为新闻文本原文、Positive实例为基于新闻文本原文构造的侵权样本、Negative实例为与Anchor实例报道相同事件但未侵权的新闻文本原文；

(3-2)训练LSTM网络模块；LSTM网络模型训练的目标损失函数为：

其中，A_i为三元组中的Anchor实例，P_i为A_i的Positive实例，N_i为A_i的Negative实例，f(.)代表LSTM网络提取的特征，λ为尺度放大因子，α为距离间隔，N为三元组总个数，‖.‖₂表示欧氏距离，[.]₊表示max(.,0)；

(3-3)将待检测文本的词向量矩阵作为LSTM网络输入，得到待检测文本的语义特征；

2.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(1)中将从互联网采集的新闻文本以及构造的侵权样本均根据UCL标准打包成对应的UCL。

3.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(1)中构造侵权样本依据的抄袭规则包括完全复制、增删操作、同/近义词替换、调整文本结构中的一种或多种。

4.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(2)中根据如下公式计算词语的TF值：

5.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(2)中根据如下公式计算词语的IDF值：

6.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，步骤(2)中计算得到的数字指纹特征表示为：

7.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(4)中将待检测新闻文本的数字指纹特征和语义特征进行拼接融合得到融合特征向量，根据融合特征向量与版权库中的新闻的融合特征向量的余弦相似度判断是否存在侵权。

8.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法，其特征在于，所述步骤(4)中的待检测新闻文本为用户主动提交的新闻文本或在互联网爬取的未经过版权认证的新闻文本。

9.一种基于数字指纹和语义特征的新闻文本侵权检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的基于数字指纹和语义特征的新闻文本侵权检测方法。