CN107908698B - 一种主题网络爬虫方法、电子设备、存储介质、*** - Google Patents

一种主题网络爬虫方法、电子设备、存储介质、*** Download PDF

Info

Publication number
CN107908698B
CN107908698B CN201711071026.5A CN201711071026A CN107908698B CN 107908698 B CN107908698 B CN 107908698B CN 201711071026 A CN201711071026 A CN 201711071026A CN 107908698 B CN107908698 B CN 107908698B
Authority
CN
China
Prior art keywords
topic
url
text
module
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711071026.5A
Other languages
English (en)
Other versions
CN107908698A (zh
Inventor
石忠民
徐叶强
钟力
殷长涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaxing Xiaoda Intelligent Technology Co.,Ltd.
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201711071026.5A priority Critical patent/CN107908698B/zh
Publication of CN107908698A publication Critical patent/CN107908698A/zh
Application granted granted Critical
Publication of CN107908698B publication Critical patent/CN107908698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种主题网络爬虫方法,包括步骤获取主题爬虫的起始URL,将起始URL加载入种子任务队列,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,对网络文档进行主题相关性分类,获得主题相关文本,将主题相关文本结构化存储至数据仓库;本发明涉及电子设备与可读存储介质,用于执行一种主题网络爬虫方法;本发明还涉及一种主题网络爬虫***;本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。

Description

一种主题网络爬虫方法、电子设备、存储介质、***
技术领域
本发明涉及网络爬虫技术领域,尤其涉及一种主题网络爬虫方法、电子设备、存储介质、***。
背景技术
网络规模的迅速增长给人们带来极其丰富信息的同时,也给对信息的检索带来很大的挑战,网络爬虫是一种“自动化浏览网络”的程序,或者说是一种网络机器人,目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站,其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容,使得用户能够更快的通过网络爬虫检索到需要的信息,并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理,以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前,即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50%,检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。
为解决上述问题,根据在信息检索时用户只对某一主题信息感兴趣的特点,本发明通过使用文本分类的方法,针对特定主题网页,提出一种主题网络爬虫方法。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种主题网络爬虫方法,通过对爬取文档进行分类,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。
本发明的目的之一采用以下技术方案实现:
一种主题网络爬虫方法,包括以下步骤:
初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;
文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;
文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;
文本存储,将所述主题相关文本结构化存储至数据仓库。
进一步地,所述步骤文本分类包括以下步骤:
文档预处理,对所述网络文档进行分词和去除停用词处理;
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;
词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;
文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
进一步地,在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列。
进一步地,所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种主题网络爬虫方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种主题网络爬虫方法。
一种主题网络爬虫***,包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,所述初始化模块获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列,并维护所述种子任务队列的爬取顺序;所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地,所述文本分类模块对所述网络文档进行主题相关性分类,获得主题相关文本,所述文本存储模块将所述主题相关文本结构化存储至数据仓库。
进一步地,所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,所述文档预处理模块对所述网络文档进行分词和去除停用词处理;所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;所述文本分类模块采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
进一步地,还包括未爬取URL收集模块,所述未爬取URL收集模块获取所述网络文档的URL,将未爬取的URL加入所述种子任务队列。
进一步地,所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
相比现有技术,本发明的有益效果在于:
本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,在全面爬取主题相关文档和对文档内容结构化提取后,进一步提取文档中与主题相关的未爬取URL,并将未爬取URL传入种子任务队列,增加搜索引擎覆盖率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种主题网络爬虫方法流程图;
图2为本发明实施例的文本分类流程图;
图3为本发明实施例的LSTM模型示意图;
图4为本发明的一种主题网络爬虫***结构框图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
一种主题网络爬虫方法,如图1所示,包括以下步骤:
初始化主题爬虫,采用传统爬虫对互联网上与主题相关的导航类页面内容进行收集,获取大量URL作为主题爬虫的起始URL,获取主题爬虫的起始URL,将起始URL加载入种子任务队列;优选地,步骤初始化主题爬虫还包括根据爬虫需求将单个起始URL弹出种子任务队列,种子任务队列主要对种子URL进行维护,包括初始化加载URL,爬取时对单个URL的出队列操作,单文档爬取后提取的URL入队列操作。
在一实施例中,文档内容爬取,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,本实施例中采用顺序爬取种子任务队列中的URL,爬取种子任务队列中当前URL对应网络文档,并将网络文档下载至本地,对当前URL对应的网络文档进行下述未爬取URL收集、文本分类和数据存储处理,获取种子任务队列中下一URL,重复上述步骤,直至爬取完种子任务队列中全部URL。
在一实施例中,优选地,在步骤文档内容爬取和步骤文本分类之间还包括步骤未爬取URL收集,获取网络文档的URL,当网络文档的URL未爬取时,将未爬取的URL加入种子任务队列,增加搜索引擎覆盖率。
文本分类,对网络文档进行主题相关性分类,获得主题相关文本。如图2所示,优选地,步骤文本分类包括以下步骤:
文档预处理,对网络文档进行分词和去除停用词处理;优选地,步骤文档预处理具体为采用sougou语料的正向最大匹配算法和CRF分词算法结合的中文分词算法对网络文档进行分词,去除停用词处理主要包括取出文档中被广泛使用和频繁地出现在文档所有的类,如“哦”,“啊”,“嗯”,“而且”,“但是”,“这个”等,停用词主要包括语气副词,助词,连词,介词等词性的词。
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;CBOW模型是一种利用周围词预测中间词的概率模型,对于中间词Wt,利用周围的2K个词Wt-k,Wt-k+1,……,Wt-1+k,Wt+k计算Wt属于词典中某一个词的概率。对于语句S利用CBOW模型,其为自然语言概率为:
Figure BDA0001456838610000051
其中P(S)表示S为自然语言的概率,T为字典的大小,P(W1,…,Wt)表示文本中单词的联合概率,对于整个文本构建如下模型:
Figure BDA0001456838610000061
使P(S)的值尽可能的大,得到模型的目标函数:
Figure BDA0001456838610000062
对于整个文本的模型,其目标函数为:
Figure BDA0001456838610000063
求上述目标函数的最大值为CBOW模型训练目标。采用基于层次结构的训练策略,具体为采用层次Softmax算法,在输出层加入哈夫曼编码,构建一颗哈夫曼树,哈夫曼树的叶子节点都有唯一的编码,表示语料库的词语。哈夫曼树的非叶子节点代表单词的类别,输入层为上下文单词的词向量,隐藏层对输入层的词向量做向量加和运算,隐藏层的输出与输出哈夫曼树的每一个非叶子节点连接,每条连接都有对应的权值。
词向量降维,采用PCA主成分分析算法对词向量进行降维,获得降维词向量;对采用CBOW模型获得的文本分词词向量采用PCA主成分分析算法进行降维,对于矩阵A={aij}(i=1,…,m,j=1,…,n)进行降维的过程如下:
计算矩阵A每行的均值ai(i=1,2,…,n);
计算调整过的矩阵B={bik},其中bik=ajk-ak(j=1,…,m);
计算协方差矩阵S={sik};
计算S矩阵的特征值λ和特征向量e。
将特征值λ按从大到小的顺序进行排列(λ1≥λ2≥…≥λn),并依次选择对应的特征向量e构造特征向量矩阵,该特征向量矩阵中的所有行向量即表示每一个文档。
文本分类,采用引入注意力模型的LSTM模型对降维词向量进行分类,获得分类结果,在词向量编码阶段使用注意力模型,文本的输入序列x1,x2,…,xT为历史节点,对历史节点输入向量求累加求均值,得到文本总体的输入向量X',X'为词向量编码阶段的最后输入,h1,h2,h3,…,ht对应输入序列x1,x2,…,xT的隐藏层状态值,Hk对应输入的X'的隐藏层状态值,模型结构示意图如图3所示,图3中aik为历史节点对于最后节点的注意力概率,x1,x2,…,xT为文本的词语,X'为文章总体的输入向量。为减少非关键词对整个文本的语义影响,计算x1,x2,…,xT对文章的总体的影响力权重,具体计算过程如下:
计算注意力分布概率的语义编码:
Figure BDA0001456838610000071
eki=v tanh(Whk+Uhi+b)
aki为节点i对于节点k的注意力概率权重,T为输入序列的元素数目,v,W,U为权重矩阵,hk为最后输入对应的隐藏层状态,hi为输入序列第i个元素对应的隐藏层状态值;
计算注意力分布概率的语义编码和特征向量:
Figure BDA0001456838610000072
Hk′=H(C,hk,X′)
最终的语义编码是将含有历史节点的注意力概率分布语义编码和文本总体向量作为传统LSTM模块的输入,最后节点的隐藏层状态值Hk为最终的特征向量,通过上述步骤,实现针对获取文档进行所需主题的分类,从而判别文档是否属于某一主题。
文本存储,将主题相关文本结构化存储至数据仓库,由于文档数据结构不统一,采用NoSql数据库存储主题相关文本。
一种电子设备,包括:处理器;存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于执行上述一种主题网络爬虫方法;一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行上述一种主题网络爬虫方法。
一种主题网络爬虫***,如图4所示,包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,初始化模块获取主题爬虫的起始URL,将起始URL加载入种子任务队列,并维护任务队列的爬取顺序;种子任务队列主要对种子URL进行维护,包括初始化加载URL,爬取时对单个URL的出队列操作,单文档爬取后提取的URL入队列操作;文档爬取模块从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,此处网络文本为非结构化文本,文本分类模块对网络文档进行主题相关性分类,获得主题相关文本,文本存储模块将主题相关文本结构化存储至数据仓库,如采用NoSql数据库存储主题相关文本。
在一实施例中,优选地,文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,文档预处理模块对网络文档进行分词和去除停用词处理;进一步地,文档预处理模块采用sougou语料的正向最大匹配算法和CRF分词算法对网络文档进行分词。文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;词向量降维模块采用PCA主成分分析算法对词向量进行降维,获得降维词向量;文本分类模块采用LSTM模型对降维词向量进行分类,获得分类结果。
在一实施例中,优选地,还包括未爬取URL收集模块,未爬取URL收集模块获取网络文档的URL,将未爬取的URL加入种子任务队列。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (6)

1.一种主题网络爬虫方法,其特征在于包括以下步骤:
初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;
文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;
未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列;
文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;
文本存储,将所述主题相关文本结构化存储至数据仓库;
所述步骤文本分类包括以下步骤:
文档预处理,对所述网络文档进行分词和去除停用词处理;
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;
词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;
文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
2.如权利要求1所述的一种主题网络爬虫方法,其特征在于:所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
3.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-2任意一项所述的方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-2任意一项所述的方法。
5.一种主题网络爬虫***,其特征在于:包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,所述初始化模块获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列,并维护所述种子任务队列的爬取顺序;所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地,所述文本分类模块对所述网络文档进行主题相关性分类,获得主题相关文本,所述文本存储模块将所述主题相关文本结构化存储至数据仓库;还包括未爬取URL收集模块,所述未爬取URL收集模块获取所述网络文档的URL,将未爬取的URL加入所述种子任务队列;
所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,所述文档预处理模块对所述网络文档进行分词和去除停用词处理;所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;所述文本分类模块采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
6.如权利要求5所述的一种主题网络爬虫***,其特征在于:所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
CN201711071026.5A 2017-11-03 2017-11-03 一种主题网络爬虫方法、电子设备、存储介质、*** Active CN107908698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711071026.5A CN107908698B (zh) 2017-11-03 2017-11-03 一种主题网络爬虫方法、电子设备、存储介质、***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711071026.5A CN107908698B (zh) 2017-11-03 2017-11-03 一种主题网络爬虫方法、电子设备、存储介质、***

Publications (2)

Publication Number Publication Date
CN107908698A CN107908698A (zh) 2018-04-13
CN107908698B true CN107908698B (zh) 2021-04-13

Family

ID=61842571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711071026.5A Active CN107908698B (zh) 2017-11-03 2017-11-03 一种主题网络爬虫方法、电子设备、存储介质、***

Country Status (1)

Country Link
CN (1) CN107908698B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108681571B (zh) * 2018-05-05 2024-02-27 吉林大学 基于Word2Vec的主题爬虫***和方法
CN109408809A (zh) * 2018-09-25 2019-03-01 天津大学 一种基于词向量的针对汽车产品评论的情感分析方法
CN111191095A (zh) * 2018-11-14 2020-05-22 ***通信集团河北有限公司 网页数据获取方法、装置、设备及介质
CN110134858A (zh) * 2019-03-26 2019-08-16 国网重庆市电力公司 非结构化数据的转化方法、***、存储介质及电子设备
CN110532450B (zh) * 2019-05-13 2021-05-04 南京大学 一种基于改进鲨鱼搜索的主题爬虫方法
CN111767482B (zh) * 2020-05-21 2023-06-06 中国地质大学(武汉) 一种聚焦网络爬虫自适应爬取方法
CN112650570A (zh) * 2020-12-29 2021-04-13 百果园技术(新加坡)有限公司 可动态扩展的分布式爬虫***、数据处理方法及装置
CN117743838B (zh) * 2024-02-20 2024-04-30 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320375A (zh) * 2008-07-04 2008-12-10 浙江大学 基于用户点击行为的数字图书搜索方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫***的设计方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105279288A (zh) * 2015-12-04 2016-01-27 深圳大学 一种基于深度神经网络的在线内容推荐方法
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN106611055A (zh) * 2016-12-27 2017-05-03 大连理工大学 基于层叠式神经网络的中文模糊限制信息范围检测方法
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN106737692A (zh) * 2017-02-10 2017-05-31 杭州迦智科技有限公司 一种基于深度投影的机械手爪抓取规划方法及控制装置
CN107133210A (zh) * 2017-04-20 2017-09-05 中国科学院上海高等研究院 方案文本生成方法及***
CN107133928A (zh) * 2017-04-27 2017-09-05 扬州大学 一种基于迭代镜像与注册的人脸对称平面求取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320375A (zh) * 2008-07-04 2008-12-10 浙江大学 基于用户点击行为的数字图书搜索方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫***的设计方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105279288A (zh) * 2015-12-04 2016-01-27 深圳大学 一种基于深度神经网络的在线内容推荐方法
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN106611055A (zh) * 2016-12-27 2017-05-03 大连理工大学 基于层叠式神经网络的中文模糊限制信息范围检测方法
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN106737692A (zh) * 2017-02-10 2017-05-31 杭州迦智科技有限公司 一种基于深度投影的机械手爪抓取规划方法及控制装置
CN107133210A (zh) * 2017-04-20 2017-09-05 中国科学院上海高等研究院 方案文本生成方法及***
CN107133928A (zh) * 2017-04-27 2017-09-05 扬州大学 一种基于迭代镜像与注册的人脸对称平面求取方法

Also Published As

Publication number Publication date
CN107908698A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107908698B (zh) 一种主题网络爬虫方法、电子设备、存储介质、***
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN109255118B (zh) 一种关键词提取方法及装置
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
WO2017090051A1 (en) A method for text classification and feature selection using class vectors and the system thereof
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN105139237A (zh) 信息推送的方法和装置
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫***
CN110717042A (zh) 一种构建文档-关键词异构网络模型方法
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐***和方法
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Babapour et al. Web pages classification: An effective approach based on text mining techniques
CN110555154A (zh) 一种面向主题的信息检索方法
CN110020024B (zh) 一种科技文献中链接资源的分类方法、***、设备
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN108681571B (zh) 基于Word2Vec的主题爬虫***和方法
CN107766419B (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
JP2005346598A (ja) ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
CN110609997B (zh) 生成文本的摘要的方法和装置
CN111785344A (zh) 基于中医药领域专业词向量的中药处方用药安全检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220105

Address after: 314000 room 503, block C, future science and Technology Plaza, No. 136, Xiuzhou Avenue, Xincheng street, Xiuzhou District, Jiaxing City, Zhejiang Province

Patentee after: Jiaxing Xiaoda Intelligent Technology Co.,Ltd.

Address before: Room 431, 4th floor, No.1 Tiantai 1st Road, Science City, Guangzhou hi tech Industrial Development Zone, Guangdong 510000

Patentee before: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right