CN108647225A - 一种电商黑灰产舆情自动挖掘方法和*** - Google Patents
一种电商黑灰产舆情自动挖掘方法和*** Download PDFInfo
- Publication number
- CN108647225A CN108647225A CN201810249344.4A CN201810249344A CN108647225A CN 108647225 A CN108647225 A CN 108647225A CN 201810249344 A CN201810249344 A CN 201810249344A CN 108647225 A CN108647225 A CN 108647225A
- Authority
- CN
- China
- Prior art keywords
- black
- word
- electric business
- grey black
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种电商黑灰产舆情自动挖掘方法和***,该方法包括以下步骤:(1)以种子黑词为关键词通过搜索引擎进行搜索,爬取搜索结果中网站的文本数据和网站信息数据;(2)对所述文本数据进行预处理,从预处理后的文本数据中识别获取黑词;(3)对网站信息数据进行分析,识别获取黑灰产网站;(4)将获取的黑词扩充到黑词库中;将获取的黑灰产网站扩充到黑灰产网站库中;(5)将步骤(2)获取的黑词作为种子黑词,重复步骤(1)~(4)。本发明的方法可及时发现、预警和治理电商作弊事件,实现对电商黑灰产进行实时多维度监控。
Description
技术领域
本发明涉及网络黑灰产中的安全技术领域,尤其涉及一种电商黑灰产舆情自动挖掘方法和***。
背景技术
网络黑灰产是危害互联网生态安全的重大问题之一。传统技术能够对black-hatSEO、虚假评论、人工流量、社交网络炒信等作弊行为进行检测,但随着作弊行为不断变化和转移,现有的模型和方法很快就失去适用性。因此利用海量安全相关的外部舆情文本,对网络黑灰产进行实时的分析和监控,有利于从源头上发现和打击黑灰产。
不同于传统的网络黑灰产,电商黑灰产是最近10年才兴起的一种新型黑灰产,通常是指虚假交易、刷单、刷流量等违反电商平台相关规范的作弊行为。从账号购买到刷单等黑灰产平台,再到快递空包等基础服务,电商黑灰产已经形成完整的产业链,且随着电商领域反作弊机制的完善,电商作弊行为也趋向于专业化,然而企业内部对黑灰产的分布和现状大部分靠人工分析,无法应对日益扩大的黑灰产规模。
发明内容
针对电商黑灰产的产业化、专业化、规模化的特点和黑灰产语料库、知识库几乎空白的现状,本发明提供一种电商黑灰产舆情自动挖掘方法和***,可及时发现、预警和治理电商作弊事件,实现对电商黑灰产进行实时多维度监控。
本发明提供了如下技术方案:
一种电商黑灰产舆情自动挖掘方法,包括以下步骤:
(1)以种子黑词为关键词通过搜索引擎进行搜索,爬取搜索结果中网站的文本数据和网站信息数据;
(2)对所述文本数据进行预处理,从预处理后的文本数据中识别获取黑词;
(3)对网站信息数据进行分析,识别获取黑灰产网站;
(4)将获取的黑词扩充到黑词库中;将获取的黑灰产网站扩充到黑灰产网站库中;
(5)将步骤(2)获取的黑词作为种子黑词,重复步骤(1)~(4)。
优选的,所述种子黑词的数量不少于10个。
种子黑词数量越多,获取的分析数据越多,步骤(2)中获取的黑词和黑灰产网站越多,但是种子黑词数量过多时,获取的分析数据量过于庞大,后续的分析计算量过大,使得黑词的获取效率降低,优选的,所述种子黑词的数量为10~50个。
种子黑词为人工识别出的与电商黑灰产相关的词语。
步骤(2)中,所述的预处理包括对文本数据进行去重、分句、分词、词性标注和筛选;包括以下步骤:
通过文本相关性计算对所述文本数据进行去重;
以中文形式或英文形式的逗号(,)、句号(。)、问号(?)、感叹号(!)、冒号(:)或分号(;)为分隔符,将去重后的文本数据分割成独立的句子;
对每个句子进行中文分词,将句子分割成词语序列;
对每个词语进行词性标注,剔除其中的虚词。
经过以上预处理后,爬取的文本数据转化为噪声较小(即去除了无意义虚词)的句子,每个句子是由带有词性标注的词语序列表示的,以减少后续词汇处理量。
步骤(2)中,从预处理后的文本数据中识别获取黑词,包括:
(i)从预处理后的文本数据中获取部分语料,人工标注词语类型后作为训练样本和验证样本;
(ii)初始化训练样本中每个词语的词向量;将训练样本输入双向长短期记忆网络(Bi-LSTM)中进行向量计算,得到输出向量;
(iii)将输出向量作为条件随机场(CRF)的输入,计算每个词语对应每个词语类型的概率;
(iv)使用随机梯度下降算法更新双向长短期记忆网络和条件随机场的网络参数;
(v)采用验证集测试双向长短期记忆网络和条件随机场的精确率,若所述精确率达到要求,则结束训练,否则继续训练;
(vi)双向长短期记忆网络和条件随机场对预处理后的文本数据进行预测,识别获取黑词。
双向长短期记忆网络(Bi-LSTM)是一种双向的长短期记忆网络。LSTM(Long-Shortterm memory)将基本RNN中的神经元替换为3个相互作用的门(输入门,输出门,遗忘门)和1个记忆单元(memory cell),输入门打开时新的输入才会改变网络中保存的历史状态,输出门打开时保存的历史状态会被访问到,并影响之后的输出,遗忘门用于清空之前保存的历史信息。LSTM可以使之前输入的信息一直向前传递,因而能够学习长期的依赖关系,已经在词性标注、命名实体识别等领域取得了非常好的应用效果。LSTM的输入是单方向的,只考虑的前文对后文的影响,Bi-LSTM的基本思想是对序列数据向前向后各训练一个LSTM模型,再将两个模型的输出进行组合,以达到序列中每一个节点都能完整的依赖所有上下文信息。
步骤(i)中,词语类型包括以下几类:
(a)电商上下文名词(ecn);
(b)电商上下文动词(ecv);
(c)电商黑灰产人物(ECP);
(d)电商黑灰产事物(ECI);
(e)电商黑灰产平台(ECL);
(f)电商黑灰产行为(ECA);
(g)其他黑词(OB);
(h)其他词语(other);
其中,(c)、(d)、(e)、(f)、(g)类型的词语为黑词。
所述训练集和验证集的样本总量比为2~9∶1;最优选的,所述训练集和验证集的样本总量比为9∶1。
步骤(iv)中,使用随机梯度下降(Stochastic Gradient Descent,SGD)更新网络参数,学习率(learning rate)初始时为0.002,每5次训练后通过验证集上计算一下模型的损失,如果损失值没有减小,就将学习率减小十分之一,防止过拟合。
步骤(3)中,识别获取黑灰产网站包括:
(3-1)对部分搜索结果中的网站进行人工标注,构建训练集和验证集;
(3-2)提取训练样本的url特征、文本特征及html特征;
(3-3)将非数值特征的编号作为其数值特征,对训练样本和验证样本进行归一化;
(3-4)将归一化后的训练样本作为SVM模型的输入,对SVM模型进行训练;
(3-5)通过训练好的SVM模型对可疑网站进行预测,识别获取黑灰产网站。
步骤(3-1)对网站进行人工标注是指人工区分网站是正常网站还是黑灰产网站(电商黑灰产的活动平台、连接网络、软件工具等),并进行标注。
步骤(3-2)中,所述的url特征包括URL深度、URL长度和域名长度;所述的文本特征包括网页内容的关键词、网页平均词数和网页数,其中网页内容的关键词采用TF-IDF值最大的前10个词语;所述的html特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量。
将步骤(2)和步骤(3)获取的黑词和黑灰产网站分别扩充到黑词库和黑灰产网站库中。用户可根据需要,以新获取的黑词作为种子黑词,继续重复步骤(1)~(4),重复次数根据用户的需要而定,从而可实现对电商黑灰产舆情的自动挖掘。
用户可根据黑词库中的黑词分析电商黑灰产的作弊方式,从而设计相应的反作弊测量;可将黑灰产网站库中的网站反馈给相关部门进行处理。
本发明同时还提供了一种电商黑灰产舆情自动挖掘***,包括:
数据采集模块,以种子黑词为关键词通过搜索引擎进行搜索,爬取搜索结果中网站的文本数据和网站信息数据;
分析模块,对所述文本数据进行预处理,从预处理后的文本数据中识别获取黑词;对网站信息数据进行分析,识别获取黑灰产网站;
扩充模块,包括黑词库和黑灰产网站库,将获取的黑词扩充到黑词库中并发送给数据采集模块作为种子黑词;将黑灰产网站扩充到黑灰产网站库中。
与现有技术相比,本发明的有益效果为:
(1)能够实时获取多渠道的外部信息,构建电商黑灰产的最新语料库;
(2)能够识别电商黑灰产相关的黑词和黑灰产网站,构建电商黑灰产信息库,有利于后续对电商作弊行为的检测和对黑灰产的根治;
(3)能够实现对电商黑灰产的自动挖掘,节约了人工分析成本,有利于大规模部署和实施。
附图说明
图1为电商黑灰产舆情自动挖掘***的架构示意图;
图2为电商黑灰产舆情自动挖掘方法的流程示意图;
图3为黑词识别流程示意图;
图4为基于自然语言序列标注的黑词识别模型的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
电商黑灰产舆情自动挖掘***的架构如图1所示,主要包括爬虫模块、黑词识别模块、黑产网站识别模块和黑灰产扩充模块。
爬虫模块爬取互联网中包含种子黑词的文本,通过文本相关性计算和文本去重,得到电商黑灰产舆情语料库;爬取包含种子黑词的可疑网站的网站信息;
其中舆情信息源包括:微博、新闻、论坛、贴吧、微信、政府网站、视频网站及其他;
黑词识别模块用自然语言序列标注技术,识别电商黑灰产舆情语料中的黑词;
黑产网站识别模块提取可疑网站的特征,利用训练好的分类模型,识别黑灰产网站;
黑产扩充模块将获取的黑词作为查询关键词,自动化向搜索引擎发送查询请求,由爬虫模块爬取搜索结果中的文本信息、相关搜索以及相关推荐,扩充黑词库;爬取搜索结果中网站的URL(统一资源定位符)和html信息,扩充黑灰产网站名单。
基于电商黑灰产舆情自动挖掘***的电商黑灰产舆情自动挖掘方法,包括以下步骤,如图2所示:
(1)根据黑词库中已有的黑词作为种子黑词,以种子黑词为关键词通过搜索引擎(如百度)搜索,爬取搜索结果网站的网站信息和文本信息;
(2)对爬取的文本进行预处理,包括进行去重、分句、分词和词性标注,具体如下:
以中文形式或英文形式的“,。?!:;”等标点符号为分隔符,将文本分割成独立的句子。
对每个独立的句子,采用语言技术平台(Language Technology Platform,LTP)提供的中文分词功能,将句子分为词语序列,如“刷手完成任务后就可以赚取佣金”被分为“刷手,完成,任务,后,就,可以,赚取,佣金”。
词性标注是给句子中的每个词标注词性类别,词性类别包括名词、动词、形容词、连词、副词、介词、助词、叹词、人名、地名、前缀、后缀等28类,对句子分词之后,再利用语言技术平台的词性标注功能,对句子中的词语进行词性标注,例如“刷手/n,完成/v,任务/n,后/dn,就/d,可以/v,赚取/v,佣金/n”,其中n表示一般名词,v表示一般动词,d表示副词,dn表示方向名词。
词性标注后,将连词、副词、介词、助词、叹词这五类虚词剔除,仅保留具有实际意义的实词,以减少词汇处理量。
经过以上预处理,所有文本转化为噪声较小(即去除了无意义虚词)的句子,每个句子是由带有词性标注的词语序列表示的,例如“淘宝/ni刷单/v赚取/v佣金/n”,其中,n表示名词,v表示动词,ni表示组织机构名。
(3)使用自然语言序列标注的方法识别文本中的黑词,包括以下步骤(见图3):
(3-1)对预处理后的文本语料中的词语人工标注词语类型,构建训练集和验证集;训练集中包含2700条语句,验证集中包含300条语句;
词语分为以下类型:
(a)电商上下文名词(ecn);
(b)电商上下文动词(ecv);
(c)电商黑灰产人物(ECP);
(d)电商黑灰产事物(ECI);
(e)电商黑灰产平台(ECL);
(f)电商黑灰产行为(ECA);
(g)其他黑词(OB);
(h)其他词语(other);
其中,(c)、(d)、(e)、(f)、(g)类型的词语为黑词;
(3-2)将训练集中的句子作为双向长短期记忆网络(Bi-LSTM)的输入序列输入;Bi-LSTM网络包含4层双向LSTM,如图4所示;
(3-3)使用word2vec初始化句子中每个词语的词向量,词向量维度为200;
(3-4)前向LSTM层和后向LSTM层进行状态传递和向量计算;将Bi-LSTM的输出向量作为条件随机场(CRF)的输入,计算每个词语对应每个类型的概率;
更新网络参数:使用随机梯度下降(Stochastic Gradient Descent,SGD)更新参数,学习率(learning rate)初始时为0.002,每5次训练后在验证集上计算一下模型的损失,如果损失值没有减小,就使学习率减小十分之一,防止过拟合;
(3-5)通过验证集验证模型,若模型精确率达到要求,则结束训练,否则转到(3-4)继续训练;
(3-6)结束训练后,使用训练好的模型对未标注的文本提取对应黑词类型的词语。
(4)识别黑产网站,包括以下步骤:
(4-1)对根据种子黑词爬取网站信息进行人工打标,即注明该网站是黑词网站还是正常的网站,构造训练集和验证集,训练集包括576个黑产网站和2424个正常网站,验证集包括126个黑产网站和374个正常网站;
(4-2)对训练集中的网站提取url特征、文本特征及html特征。提取的特征包括:
①文本特征包括网页内容的关键词、网页平均词数和网页数,其中网页内容关键词采用TF-IDF值最大的前10个词语;
②HTML特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量;
③URL特征包括URL深度、URL长度和域名长度。
(4-3)对特征的数值进行归一化,对于非数值特征,将该特征的编号作为其数值;
(4-4)将归一化后的特征数值作为SVM模型的输入,对SVM模型进行训练;
(4-5)通过训练好的SVM模型对可疑网站进行预测,识别获取黑灰产网站。
(5)将识别的黑词和黑产网站扩充到黑词库和黑产网站库中。用户可根据需要,将新识别出的黑词作为种子黑词,急需爬取包含种子黑词的文本信息和网站信息,继续识别黑词和黑产网站。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电商黑灰产舆情自动挖掘方法,其特征在于,包括以下步骤:
(1)以种子黑词为关键词通过搜索引擎进行搜索,爬取搜索结果中网站的文本数据和网站信息数据;
(2)对所述文本数据进行预处理,从预处理后的文本数据中识别获取黑词;
(3)对网站信息数据进行分析,识别获取黑灰产网站;
(4)将获取的黑词扩充到黑词库中;将获取的黑灰产网站扩充到黑灰产网站库中;
(5)将步骤(2)获取的黑词作为种子黑词,重复步骤(1)~(4)。
2.根据权利要求1所述的电商黑灰产舆情自动挖掘方法,其特征在于,所述种子黑词的数量不少于10个。
3.根据权利要求1所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(2)中,所述的预处理包括:
通过文本相关性计算对所述文本数据进行去重;
以中文形式或英文形式的逗号、句号、问号、感叹号、冒号或分号为分隔符,将去重后的文本数据分割成独立的句子;
对每个句子进行中文分词,将句子分割成词语序列;
对每个词语进行词性标注,剔除其中的虚词。
4.根据权利要求1或3所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(2)中,从预处理后的文本数据中识别获取黑词,包括:
(i)从预处理后的文本数据中获取部分语料,人工标注词语类型后作为训练样本和验证样本;
(ii)初始化训练样本中每个词语的词向量;将训练样本输入双向长短期记忆网络(Bi-LSTM)中进行向量计算,得到输出向量;
(iii)将输出向量作为条件随机场(CRF)的输入,计算每个词语对应每个词语类型的概率;
(iv)使用随机梯度下降算法更新双向长短期记忆网络和条件随机场的网络参数;
(v)采用验证集测试双向长短期记忆网络和条件随机场的精确率,若所述精确率达到要求,则结束训练,否则继续训练;
(vi)双向长短期记忆网络和条件随机场对预处理后的文本数据进行预测,识别获取黑词。
5.根据权利要求4所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(i)中,词语类型包括以下几类:
(a)电商上下文名词(ecn);
(b)电商上下文动词(ecv);
(c)电商黑灰产人物(ECP);
(d)电商黑灰产事物(ECI);
(e)电商黑灰产平台(ECL);
(f)电商黑灰产行为(ECA);
(g)其他黑词(OB);
(h)其他词语(other);
其中,(c)、(d)、(e)、(f)、(g)类型的词语为黑词。
6.根据权利要求4所述的电商黑灰产舆情自动挖掘方法,其特征在于,所述训练集和验证集的样本总量比为2~9∶1。
7.根据权利要求4所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(iv)中,使用随机梯度下降更新网络参数,学习率初始时为0.002,每5次训练后通过验证集上计算模型的损失,如果损失值没有减小,就将学习率减小十分之一。
8.根据权利要求1所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(3)中,识别获取黑灰产网站包括:
(3-1)对部分搜索结果中的网站进行人工标注,构建训练集和验证集;
(3-2)提取训练样本的url特征、文本特征及html特征;
(3-3)将非数值特征的编号作为其数值特征,对训练样本和验证样本进行归一化;
(3-4)将归一化后的训练样本作为SVM模型的输入,对SVM模型进行训练;
(3-5)通过训练好的SVM模型对可疑网站进行预测,识别获取黑灰产网站。
9.根据权利要求8所述的电商黑灰产舆情自动挖掘方法,其特征在于,步骤(3-2)中,所述的url特征包括URL深度、URL长度和域名长度;所述的文本特征包括网页内容的关键词、网页平均词数和网页数;所述的html特征包括超链接数量、外链数量、图片标签数量、Javascript标签数量和button标签数量。
10.一种电商黑灰产舆情自动挖掘***,其特征在于,包括:
数据采集模块,以种子黑词为关键词通过搜索引擎进行搜索,爬取搜索结果中网站的文本数据和网站信息数据;
分析模块,对所述文本数据进行预处理,从预处理后的文本数据中识别获取黑词;对网站信息数据进行分析,识别获取黑灰产网站;
扩充模块,包括黑词库和黑灰产网站库,将获取的黑词扩充到黑词库中并发送给数据采集模块作为种子黑词;将黑灰产网站扩充到黑灰产网站库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810249344.4A CN108647225A (zh) | 2018-03-23 | 2018-03-23 | 一种电商黑灰产舆情自动挖掘方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810249344.4A CN108647225A (zh) | 2018-03-23 | 2018-03-23 | 一种电商黑灰产舆情自动挖掘方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647225A true CN108647225A (zh) | 2018-10-12 |
Family
ID=63744472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810249344.4A Pending CN108647225A (zh) | 2018-03-23 | 2018-03-23 | 一种电商黑灰产舆情自动挖掘方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647225A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947913A (zh) * | 2019-01-26 | 2019-06-28 | 浙江乾冠信息安全研究院有限公司 | 一种黑灰产推广的关键词查找方法 |
CN110162621A (zh) * | 2019-02-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN110321554A (zh) * | 2019-06-03 | 2019-10-11 | 任子行网络技术股份有限公司 | 基于Bi-LSTM的不良文本检测方法及装置 |
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN110516024A (zh) * | 2019-08-30 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 地图搜索结果展现方法、装置、设备和存储介质 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111581959A (zh) * | 2019-01-30 | 2020-08-25 | 北京京东尚科信息技术有限公司 | 一种信息分析方法、终端及存储介质 |
CN112417148A (zh) * | 2020-11-11 | 2021-02-26 | 北京京航计算通讯研究所 | 一种城市内涝舆情结果获得方法及装置 |
CN112990980A (zh) * | 2021-04-09 | 2021-06-18 | 厦门市美亚柏科信息股份有限公司 | 一种基于取证数据的黑灰产广告识别方法和*** |
CN113239254A (zh) * | 2021-04-27 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 一种面向发卡平台的主动发现方法及装置 |
CN113536032A (zh) * | 2020-04-10 | 2021-10-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种视频序列信息挖掘***、方法及其应用 |
CN113887328A (zh) * | 2021-09-10 | 2022-01-04 | 天津理工大学 | 一种eca-cnn融合双通道rnn并行提取光子晶体空间透射谱时空特征的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
CN102855320A (zh) * | 2012-09-04 | 2013-01-02 | 珠海市君天电子科技有限公司 | 一种利用搜索引擎对关键词相关url的收集方法和装置 |
CN103020123A (zh) * | 2012-11-16 | 2013-04-03 | 中国科学技术大学 | 一种搜索不良视频网站的方法 |
US20150052098A1 (en) * | 2012-04-05 | 2015-02-19 | Thomson Licensing | Contextually propagating semantic knowledge over large datasets |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及***、及分类语料标注方法及*** |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
-
2018
- 2018-03-23 CN CN201810249344.4A patent/CN108647225A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150052098A1 (en) * | 2012-04-05 | 2015-02-19 | Thomson Licensing | Contextually propagating semantic knowledge over large datasets |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
CN102855320A (zh) * | 2012-09-04 | 2013-01-02 | 珠海市君天电子科技有限公司 | 一种利用搜索引擎对关键词相关url的收集方法和装置 |
CN103020123A (zh) * | 2012-11-16 | 2013-04-03 | 中国科学技术大学 | 一种搜索不良视频网站的方法 |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及***、及分类语料标注方法及*** |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
Non-Patent Citations (1)
Title |
---|
ZHIHENG HUANG: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《HTTPS://ARXIV.ORG/》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947913A (zh) * | 2019-01-26 | 2019-06-28 | 浙江乾冠信息安全研究院有限公司 | 一种黑灰产推广的关键词查找方法 |
CN111581959A (zh) * | 2019-01-30 | 2020-08-25 | 北京京东尚科信息技术有限公司 | 一种信息分析方法、终端及存储介质 |
CN110162621A (zh) * | 2019-02-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN110321554A (zh) * | 2019-06-03 | 2019-10-11 | 任子行网络技术股份有限公司 | 基于Bi-LSTM的不良文本检测方法及装置 |
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN110516024A (zh) * | 2019-08-30 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 地图搜索结果展现方法、装置、设备和存储介质 |
CN110516024B (zh) * | 2019-08-30 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 地图搜索结果展现方法、装置、设备和存储介质 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111078978B (zh) * | 2019-11-29 | 2024-02-27 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN113536032A (zh) * | 2020-04-10 | 2021-10-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种视频序列信息挖掘***、方法及其应用 |
CN112417148A (zh) * | 2020-11-11 | 2021-02-26 | 北京京航计算通讯研究所 | 一种城市内涝舆情结果获得方法及装置 |
CN112990980A (zh) * | 2021-04-09 | 2021-06-18 | 厦门市美亚柏科信息股份有限公司 | 一种基于取证数据的黑灰产广告识别方法和*** |
CN113239254A (zh) * | 2021-04-27 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 一种面向发卡平台的主动发现方法及装置 |
CN113887328A (zh) * | 2021-09-10 | 2022-01-04 | 天津理工大学 | 一种eca-cnn融合双通道rnn并行提取光子晶体空间透射谱时空特征的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和*** | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110516067A (zh) | 基于话题检测的舆情监控方法、***及存储介质 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测*** | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN103853824A (zh) | 一种基于深度语义挖掘的内文广告发布方法与*** | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110851593A (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
CN110610003A (zh) | 用于辅助文本标注的方法和*** | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |