CN109918621B - 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 - Google Patents

基于数字指纹和语义特征的新闻文本侵权检测方法与装置 Download PDF

Info

Publication number
CN109918621B
CN109918621B CN201910119330.5A CN201910119330A CN109918621B CN 109918621 B CN109918621 B CN 109918621B CN 201910119330 A CN201910119330 A CN 201910119330A CN 109918621 B CN109918621 B CN 109918621B
Authority
CN
China
Prior art keywords
text
news
infringement
word
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910119330.5A
Other languages
English (en)
Other versions
CN109918621A (zh
Inventor
杨鹏
孙麟
李幼平
张长江
郑斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910119330.5A priority Critical patent/CN109918621B/zh
Publication of CN109918621A publication Critical patent/CN109918621A/zh
Application granted granted Critical
Publication of CN109918621B publication Critical patent/CN109918621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置,能够通过检测文本相似性实时检测各大新闻媒体网站的新闻是否有侵权行为。本发明首先通过互联网采集新闻文本样本数据,并在新闻原文基础上构造出的侵权样本;然后利用word2vec模型实现新闻文本统一坐标系化,基于改进的局部敏感哈希方法提取文本指纹特征;接着基于长短时记忆循环神经网络模块,利用三元组损失学习文本语义特征;最后通过计算数字指纹特征和语义特征融合的相似度来判断文本是否有侵权。与现有技术相比,本发明将词语义嵌入到指纹中,更易检测出抄袭行为,并且同时利用数字特征和语义特征进行新闻文本相似度检测,能够有效提高新闻文本侵权检测的准确率。

Description

基于数字指纹和语义特征的新闻文本侵权检测方法与装置
技术领域
本发明涉及一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置,通过提取新闻文本的数字指纹特征和语义特征,利用深度学习方法提高新闻文本侵权检测准确率,属于互联网和自然语言处理技术领域。
背景技术
互联网技术的高速发展,使得互联网已经成为人们获取信息和资源的最主要途径。然而,互联网的便捷性和信息共享技术的不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等行为提供了可乘之机。互联网的核心优势,是可以近乎为零的成本快速、广泛地传播信息。这无疑为文化传媒产业的繁荣创造了得天独厚的条件,但同时也为大量盗版、侵犯版权、损害版权内容生产者利益提供了便利。
文档侵权检测主要有两类基本的检测方法:一类是基于词频统计的方法;另一类是基于字符串比较的方法。基于词频统计的方法已经成为许多文本相似度算法的基础,也广泛应用到其他的领域。但是它很大的不足之处在于,只考虑了词在上下文中的统计特性,假定关键词之间线性无关,而没有考虑词本身的语义信息,因此对于检测文本相似度具有一定的局限性。而基于字符串比较哈希去重的思想,难以直接检测出“借鉴式抄袭”等侵权行为。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提出一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置,通过数字指纹特征提取、语义特征提取和相似度检测等过程,能实时检测出互联网新闻网站的内容是否存在侵权,同时提高侵权检测准确率。
技术方案:为实现上述发明目的,本发明所述的一种基于数字指纹和语义特征的新闻文本侵权检测方法,该方法利用一种改进的LSH(Locality-Sensitive Hashing,局部敏感哈希)方法,将词与词之间的相关性作为方法的输入,提取出文本指纹特征,然后构建基于LSTM(Long Short-Term Memory,长短时记忆网络)的检测模块,利用三元组损失Triplet Loss学习文本语义特征,最后通过计算融合数字指纹和语义特征的相似度来判断新闻文本是否侵权。该方法能够从数字指纹和语义角度全方位提取新闻文本的特征,区别库中已有的新闻文本特征,从而提高检测准确率。该方法主要包括四个步骤,具体如下:
(1)通过互联网采集多个类别的新闻文本,积累样本数据集;所述数据集中的样本包括新闻文本原文以及根据抄袭规则在新闻文本原文基础上构造出的新闻文本侵权样本;
(2)基于改进LSH方法计算文本数字指纹特征,包括:利用word2vec模型计算新闻文本的词向量,并计算词语的TF(Term Frequency)值和IDF(Inverse DocumentFrequency)值,以TF值和IDF值的乘积TF-IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征;
(3)根据样本数据集构建三元组数据,将三元组数据作为LSTM网络模型的输入,利用三元组损失学习文本语义特征;其中一个三元组数据包括Anchor实例、Positive实例和Negative实例,Anchor实例为新闻文本原文、Positive实例为基于新闻文本原文构造的侵权样本、Negative实例为与Anchor实例报道相同事件但未侵权的新闻文本原文;
(4)将根据步骤(2)中方法计算得到的待检测新闻文本的数字指纹特征和基于步骤(3)中训练好的LSTM网络模型提取得到的待检测新闻文本的语义特征进行融合,计算待检测新闻文本融合特征与经过版权认证的版权库中新闻文本的融合特征的相似度,进而判断待检测新闻文本是否存在侵权行为。
在优选的实施方案中,所述步骤(1)中将从互联网采集的新闻文本以及构造的侵权样本均根据UCL标准打包成对应的UCL。
在优选的实施方案中,所述步骤(1)中构造侵权样本依据的抄袭规则包括完全复制、增删操作、同/近义词替换、调整文本结构中的一种或多种。
在优选的实施方案中,所述步骤(2)中根据如下公式计算词语的TF值:
Figure BDA0001971312260000021
其中,f(w,d)表示词语w在文本d中的词频,v表示文本d中出现最频繁的词语。
在优选的实施方案中,所述步骤(2)中根据如下公式计算词语的IDF值:
Figure BDA0001971312260000022
其中,|D|表示样本数据集中的文本总数,|{w∈d,d∈D}|为包含词语w的文本数。
在优选的实施方案中,步骤(2)中计算得到的数字指纹特征表示为:
Figure BDA0001971312260000031
LSH(d)表示改进后用作数字指纹特征的文本d的文本局部敏感哈希值,aw表示文本d中词w的词向量,tfidfw为计算的词w的TF-IDF值。
在优选的实施方案中,所述步骤(3)中LSTM网络模型训练的目标损失函数为:
Figure BDA0001971312260000032
其中,Ai为三元组中的Anchor实例,Pi为Ai的Positive实例,Ni为Ai的Negative实例,f(.)代表LSTM网络提取的特征,λ为尺度放大因子,α为距离间隔,N为三元组总个数,‖.‖2表示欧氏距离,[.]+表示max(.,0)。
在优选的实施方案中,所述步骤(4)中将待检测新闻文本的数字指纹特征和语义特征进行拼接融合得到融合特征向量,根据融合特征向量与版权库中的新闻的融合特征向量的余弦相似度判断是否存在侵权。
在优选的实施方案中,所述步骤(4)中的待检测新闻文本为用户主动提交的新闻文本或在互联网爬取的未经过版权认证的新闻文本。
本发明所述的一种基于数字指纹和语义特征的新闻文本侵权检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于数字指纹和语义特征的新闻文本侵权检测方法。
有益效果:与现有技术相比,本发明具有如下优点:
1.本发明基于改进的LSH检测方法,与传统检测方法相比,将词哈希值替换为词语义向量,更易检测出“借鉴式抄袭”等侵权行为。
2.本发明基于LSTM和三元组损失的检测方法,能够有效区分相似文本和侵权文本。
3.本发明采用数字指纹特征和语义特征融合的新闻文本侵权检测方法,对检测结果具有更高的准确率、精确率和召回率。
附图说明
图1为本发明实施例的处理流程图。
图2为本发明实施例中改进的LSH方法流程图。
图3为本发明实施例中LSTM和三元组损失的训练方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于数字指纹和语义特征的新闻文本侵权检测方法,主要包括如下具体实施步骤:
步骤1,积累样本数据集。不失一般性,本实施例首先从互联网上搜集各个类别新闻,并保证每类新闻数据均匀,所有类别的新闻共同构成样本数据集D。由于中文新闻文本暂无公开的抄袭数据,本实施例中采用手动和/或机器进行构建。该步骤具体又可以分为以下3个步骤:
子步骤1-1,新闻文本分类爬取。在互联网网站上,爬取对应类别的新闻文本,并保证每个类别的新闻数量均衡。
子步骤1-2,新闻打包成国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的UCL(Uniform Content Label,统一内容标签)。下载HTML原文信息,从中提取关键信息,根据UCL标准,将原新闻网页打包生成对应的UCL。打包UCL可以便于版权保护和认证以及使用UCL双签名机制避免信息篡改。
子步骤1-3,构建侵权样本库。通过不同的抄袭形式对新闻内容原文进行更改,同时构造对应的UCL。抄袭方法见表1。
表1常见抄袭方法
Figure BDA0001971312260000041
Figure BDA0001971312260000051
步骤2,基于改进LSH方法计算文本数字指纹特征。对数据集进行分词和停用词处理后,将词与词之间的相关性作为LSH方法修正后的输入,提取文本指纹特征,构建文本数字指纹。如图2所示,该步骤具体又可以分为以下2个步骤:
子步骤2-1,基于word2vec模型计算词向量,本实施例通过word2vec模型计算将每个词通过哈夫曼树进行编码,作为神经网络的输入进行训练。基于神经网络的语言模型的目标函数,取公式(1)所示对数似然函数:
L=∑w∈Clnp(w|Context(w)) (1)
其中C表示语料,w为语料中出现的词,Context(w)表示w的上下文,即w邻近词的集合。这样可以将词语映射为K维向量(a1,a2,…,ak)。
子步骤2-2,计算文本局部敏感哈希值,首先利用公式(2)计算出词语的TF值:
Figure BDA0001971312260000052
其中,f(w,d)表示词语w在文本d中的词频,v表示该文本中出现最频繁的词语,利用公式(3)计算出词语的IDF值:
Figure BDA0001971312260000053
其中,|D|表示文本集中的文本总数,|{w∈d,d∈D}|为包含词语w的文本数,分母可以处理|{w∈d,d∈D}|为0的情况。
基于每个词语的TF值与IDF值,利用公式(4)计算每个词语的TF-IDF值:
tfidf(w,D)=tf(w,d)×idfw,D (4)
传统的文本局部敏感哈希计算方法是将词语进行哈希计算,然后乘以TF-IDF的权重,本实施例将子步骤2-1中计算得到的词向量替代词哈希值,将词语义嵌入到指纹中,增强了文本局部敏感哈希值的相关性,同时也保持了局部敏感的特性。计算得到的数字指纹特征可以用公式(5)表示,其中,d为文本,w为文本d中出现的词,aw表示词w的词向量,tfidfw为公式(4)计算的词w的权重。
LSH(d)=∑w∈d(aw×tfidfw) (5)
步骤3,基于LSTM和三元组损失Triplet Loss学习文本语义特征。该步骤具体又可以分为以下3个步骤:
子步骤3-1,三元组数据构建;一个三元组数据包括Anchor实例、Positive实例和Negative实例,其中,在本实施例使用的数据集中,Anchor为原新闻样本,Positive为Anchor的侵权样本,Negative表示和Anchor相似但未侵权的新闻样本。通过优化Anchor实例与Positive实例的距离小于Anchor实例与Negative实例的距离,实现样本的相似性计算,其中所有样本均为通过步骤2-1中生成的词向量构建的新闻文本特征矩阵。
根据步骤1中收集的原文数据DA和构建的抄袭数据DP,构建三元组(Ai,Pi,Ni),其中Ai为Anchor实例,Pi为Ai的Positive实例,Ni为Ai的Negative实例(Ni与Ai两篇新闻报道了同一事件,但并非是一方抄袭另一方),同时Ai,Pi,Ni满足公式(6):
d(Ai,Pi,)<d(Ai,Ni)<d(Ai,Pi,)+α (6)
其中d(Ai,Pi,)代表Ai与Pi之间的距离,d(Ai,Nj)代表Ai与Ni之间的距离,α为距离间隔。
本实施例中采用LSTM网络提取输入数据的低维度特征,此处的三元组数据形式为(f(Ai),f(Pi),f(Ni)),f(.)代表提取的特征,根据公式(6),可知三元组需要满足的距离要求如式(7)所示:
Figure BDA0001971312260000061
子步骤3-2,训练LSTM网络模块;由公式(7)可得到网络的目标损失函数为公式(8):
Figure BDA0001971312260000062
其中,λ为尺度放大因子,使用随机梯度下降和反向传播算法进行网络训练。当网络模型收敛后,即得到训练好的LSTM网络,该网络输入为文本词向量矩阵,输出为归一化的文本语义特征。
子步骤3-3,计算待检测文本语义特征;根据子步骤3-2中计算好权重的LSTM网络,将待检测文本的词向量矩阵作为输入,得到待检测文本的语义特征。
步骤4,基于数字指纹和语义特征融合的文本相似度检测;将步骤2计算的数字指纹特征和步骤3提取的语义特征进行拼接融合,计算数字指纹和语义特征融合的余弦相似度,从而判断文本是否有侵权。对于特征向量,该相关性可采用任意相关性或相似性的度量方法,本实施例以皮尔森相关系数(PCC)为例进行阐述,PCC计算公式表述如公式(9):
Figure BDA0001971312260000071
其中,VX与VA分别表示待检测文本X和已经经过版权认证的版权库中原始文本A的数字指纹和语义特征融合向量,VX,i表示VX的第i个特征,
Figure BDA0001971312260000072
表示VX所有特征的平均值。在具体检测场景中,待检测文本X可有两种来源,一是主动规避侵权,由用户主动提交进行和版权库中新闻进行比对;二是被动防御侵权,由爬虫***进行线上采集,所有未经过认证的新闻均为待检测文本。
基于相同的发明构思,本发明实施例还提供一种基于数字指纹和语义特征的新闻文本侵权检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于数字指纹和语义特征的新闻文本侵权检测方法。

Claims (9)

1.一种基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述方法包括:
(1)通过互联网采集多个类别的新闻文本,积累样本数据集;所述数据集中的样本包括新闻文本原文以及根据抄袭规则在新闻文本原文基础上构造出的新闻文本侵权样本;
(2)基于改进LSH方法计算文本数字指纹特征,包括:利用word2vec模型计算新闻文本的词向量,并计算词语的TF值和IDF值,以TF值和IDF值的乘积TF-IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征;
(3)根据样本数据集构建三元组数据,将三元组数据作为LSTM网络模型的输入,利用三元组损失学习文本语义特征;包括:
(3-1)构建三元组数据,其中一个三元组数据包括Anchor实例、Positive实例和Negative实例,Anchor实例为新闻文本原文、Positive实例为基于新闻文本原文构造的侵权样本、Negative实例为与Anchor实例报道相同事件但未侵权的新闻文本原文;
(3-2)训练LSTM网络模块;LSTM网络模型训练的目标损失函数为:
Figure FDA0003938245260000011
其中,Ai为三元组中的Anchor实例,Pi为Ai的Positive实例,Ni为Ai的Negative实例,f(.)代表LSTM网络提取的特征,λ为尺度放大因子,α为距离间隔,N为三元组总个数,‖.‖2表示欧氏距离,[.]+表示max(.,0);
(3-3)将待检测文本的词向量矩阵作为LSTM网络输入,得到待检测文本的语义特征;
(4)将根据步骤(2)中方法计算得到的待检测新闻文本的数字指纹特征和基于步骤(3)中训练好的LSTM网络模型提取得到的待检测新闻文本的语义特征进行融合,计算待检测新闻文本融合特征与经过版权认证的版权库中新闻文本的融合特征的相似度,进而判断待检测新闻文本是否存在侵权行为。
2.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(1)中将从互联网采集的新闻文本以及构造的侵权样本均根据UCL标准打包成对应的UCL。
3.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(1)中构造侵权样本依据的抄袭规则包括完全复制、增删操作、同/近义词替换、调整文本结构中的一种或多种。
4.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(2)中根据如下公式计算词语的TF值:
Figure FDA0003938245260000021
其中,f(w,d)表示词语w在文本d中的词频,v表示文本d中出现最频繁的词语。
5.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(2)中根据如下公式计算词语的IDF值:
Figure FDA0003938245260000022
其中,|D|表示样本数据集中的文本总数,|{w∈d,d∈D}|为包含词语w的文本数。
6.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,步骤(2)中计算得到的数字指纹特征表示为:
Figure FDA0003938245260000023
LSH(d)表示改进后用作数字指纹特征的文本d的文本局部敏感哈希值,aw表示文本d中词w的词向量,tfidfw为计算的词w的TF-IDF值。
7.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(4)中将待检测新闻文本的数字指纹特征和语义特征进行拼接融合得到融合特征向量,根据融合特征向量与版权库中的新闻的融合特征向量的余弦相似度判断是否存在侵权。
8.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(4)中的待检测新闻文本为用户主动提交的新闻文本或在互联网爬取的未经过版权认证的新闻文本。
9.一种基于数字指纹和语义特征的新闻文本侵权检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的基于数字指纹和语义特征的新闻文本侵权检测方法。
CN201910119330.5A 2019-02-18 2019-02-18 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 Active CN109918621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910119330.5A CN109918621B (zh) 2019-02-18 2019-02-18 基于数字指纹和语义特征的新闻文本侵权检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910119330.5A CN109918621B (zh) 2019-02-18 2019-02-18 基于数字指纹和语义特征的新闻文本侵权检测方法与装置

Publications (2)

Publication Number Publication Date
CN109918621A CN109918621A (zh) 2019-06-21
CN109918621B true CN109918621B (zh) 2023-02-28

Family

ID=66961674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119330.5A Active CN109918621B (zh) 2019-02-18 2019-02-18 基于数字指纹和语义特征的新闻文本侵权检测方法与装置

Country Status (1)

Country Link
CN (1) CN109918621B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553839B (zh) * 2020-04-26 2024-05-10 北京中科闻歌科技股份有限公司 一种文本原创识别方法、装置、电子设备及存储介质
CN112100372B (zh) * 2020-08-20 2022-08-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
CN113111645B (zh) * 2021-04-28 2024-02-06 东南大学 一种媒体文本相似性检测方法
CN113326494B (zh) * 2021-05-31 2023-08-18 湖北微特传感物联研究院有限公司 身份信息认证方法、***、计算机设备和可读存储介质
CN113269136B (zh) * 2021-06-17 2023-11-21 南京信息工程大学 一种基于triplet loss的离线签名验证方法
CN113486176B (zh) * 2021-07-08 2022-11-04 桂林电子科技大学 一种基于二次特征放大的新闻分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976318A (zh) * 2010-11-15 2011-02-16 北京理工大学 一种基于数字指纹的代码相似度检测方法
US9298757B1 (en) * 2013-03-13 2016-03-29 International Business Machines Corporation Determining similarity of linguistic objects
CN105677661A (zh) * 2014-09-30 2016-06-15 华东师范大学 一种检测社交媒体重复数据的方法
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN113111645A (zh) * 2021-04-28 2021-07-13 东南大学 一种媒体文本相似性检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976318A (zh) * 2010-11-15 2011-02-16 北京理工大学 一种基于数字指纹的代码相似度检测方法
US9298757B1 (en) * 2013-03-13 2016-03-29 International Business Machines Corporation Determining similarity of linguistic objects
CN105677661A (zh) * 2014-09-30 2016-06-15 华东师范大学 一种检测社交媒体重复数据的方法
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN113111645A (zh) * 2021-04-28 2021-07-13 东南大学 一种媒体文本相似性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于指纹融合的跨语言剽窃检测技术;刘刚 等;《计算机应用研究》;20190131;第36卷(第1期);第168-174页 *
基于语义指纹的海量文本快速相似检测算法研究;姜雪 等;《电脑知识与技术》;20161231;第12卷(第36期);第175-177页 *

Also Published As

Publication number Publication date
CN109918621A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918621B (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和***
US9183173B2 (en) Learning element weighting for similarity measures
CN105426354B (zh) 一种句向量的融合方法和装置
CN109885773A (zh) 一种文章个性化推荐方法、***、介质及设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN109543674B (zh) 一种基于生成对抗网络的图像拷贝检测方法
Riadi Detection of cyberbullying on social media using data mining techniques
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
CN111444387A (zh) 视频分类方法、装置、计算机设备和存储介质
US20240211496A1 (en) Systems and Methods for Determining Entity Attribute Representations
CN114722141A (zh) 文本检测方法及装置
CN111967503A (zh) 多类型异常网页分类模型的构建方法、异常网页检测方法
Dutta et al. PNRank: Unsupervised ranking of person name entities from noisy OCR text
Farooq et al. Fake news detection in Urdu language using machine learning
CN112966103B (zh) 一种基于多任务学习的混合注意力机制文本标题匹配方法
CN113111645B (zh) 一种媒体文本相似性检测方法
Liu et al. Detecting web spam based on novel features from web page source code
CN111984867A (zh) 一种网络资源确定方法及装置
Wang [Retracted] Analysis of User Personalized Retrieval of Multimedia Digital Archives Dependent on BP Neural Network Algorithm
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及***
Manalu et al. The development of document similarity detector by Jaccard formulation
KR20210023916A (ko) 컨텐츠 기여도 측정 방법 및 장치
CN111597386A (zh) 一种视频采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant