CN107908698A - 一种主题网络爬虫方法、电子设备、存储介质、*** - Google Patents
一种主题网络爬虫方法、电子设备、存储介质、*** Download PDFInfo
- Publication number
- CN107908698A CN107908698A CN201711071026.5A CN201711071026A CN107908698A CN 107908698 A CN107908698 A CN 107908698A CN 201711071026 A CN201711071026 A CN 201711071026A CN 107908698 A CN107908698 A CN 107908698A
- Authority
- CN
- China
- Prior art keywords
- theme
- url
- network
- text
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种主题网络爬虫方法,包括步骤获取主题爬虫的起始URL,将起始URL加载入种子任务队列,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,对网络文档进行主题相关性分类,获得主题相关文本,将主题相关文本结构化存储至数据仓库;本发明涉及电子设备与可读存储介质,用于执行一种主题网络爬虫方法;本发明还涉及一种主题网络爬虫***;本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。
Description
技术领域
本发明涉及网络爬虫技术领域,尤其涉及一种主题网络爬虫方法、电子设备、存储介质、***。
背景技术
网络规模的迅速增长给人们带来极其丰富信息的同时,也给对信息的检索带来很大的挑战,网络爬虫是一种“自动化浏览网络”的程序,或者说是一种网络机器人,目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站,其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容,使得用户能够更快的通过网络爬虫检索到需要的信息,并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理,以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前,即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50%,检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。
为解决上述问题,根据在信息检索时用户只对某一主题信息感兴趣的特点,本发明通过使用文本分类的方法,针对特定主题网页,提出一种主题网络爬虫方法。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种主题网络爬虫方法,通过对爬取文档进行分类,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。
本发明的目的之一采用以下技术方案实现:
一种主题网络爬虫方法,包括以下步骤:
初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;
文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;
文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;
文本存储,将所述主题相关文本结构化存储至数据仓库。
进一步地,所述步骤文本分类包括以下步骤:
文档预处理,对所述网络文档进行分词和去除停用词处理;
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;
词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;
文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
进一步地,在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列。
进一步地,所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种主题网络爬虫方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种主题网络爬虫方法。
一种主题网络爬虫***,包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,所述初始化模块获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列,并维护所述种子任务队列的爬取顺序;所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地,所述文本分类模块对所述网络文档进行主题相关性分类,获得主题相关文本,所述文本存储模块将所述主题相关文本结构化存储至数据仓库。
进一步地,所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,所述文档预处理模块对所述网络文档进行分词和去除停用词处理;所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;所述文本分类模块采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
进一步地,还包括未爬取URL收集模块,所述未爬取URL收集模块获取所述网络文档的URL,将未爬取的URL加入所述种子任务队列。
进一步地,所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
相比现有技术,本发明的有益效果在于:
本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,在全面爬取主题相关文档和对文档内容结构化提取后,进一步提取文档中与主题相关的未爬取URL,并将未爬取URL传入种子任务队列,增加搜索引擎覆盖率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种主题网络爬虫方法流程图;
图2为本发明实施例的文本分类流程图;
图3为本发明实施例的LSTM模型示意图;
图4为本发明的一种主题网络爬虫***结构框图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
一种主题网络爬虫方法,如图1所示,包括以下步骤:
初始化主题爬虫,采用传统爬虫对互联网上与主题相关的导航类页面内容进行收集,获取大量URL作为主题爬虫的起始URL,获取主题爬虫的起始URL,将起始URL加载入种子任务队列;优选地,步骤初始化主题爬虫还包括根据爬虫需求将单个起始URL弹出种子任务队列,种子任务队列主要对种子URL进行维护,包括初始化加载URL,爬取时对单个URL的出队列操作,单文档爬取后提取的URL入队列操作。
在一实施例中,文档内容爬取,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,本实施例中采用顺序爬取种子任务队列中的URL,爬取种子任务队列中当前URL对应网络文档,并将网络文档下载至本地,对当前URL对应的网络文档进行下述未爬取URL收集、文本分类和数据存储处理,获取种子任务队列中下一URL,重复上述步骤,直至爬取完种子任务队列中全部URL。
在一实施例中,优选地,在步骤文档内容爬取和步骤文本分类之间还包括步骤未爬取URL收集,获取网络文档的URL,当网络文档的URL未爬取时,将未爬取的URL加入种子任务队列,增加搜索引擎覆盖率。
文本分类,对网络文档进行主题相关性分类,获得主题相关文本。如图2所示,优选地,步骤文本分类包括以下步骤:
文档预处理,对网络文档进行分词和去除停用词处理;优选地,步骤文档预处理具体为采用sougou语料的正向最大匹配算法和CRF分词算法结合的中文分词算法对网络文档进行分词,去除停用词处理主要包括取出文档中被广泛使用和频繁地出现在文档所有的类,如“哦”,“啊”,“嗯”,“而且”,“但是”,“这个”等,停用词主要包括语气副词,助词,连词,介词等词性的词。
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;CBOW模型是一种利用周围词预测中间词的概率模型,对于中间词Wt,利用周围的2K个词Wt-k,Wt-k+1,……,Wt-1+k,Wt+k计算Wt属于词典中某一个词的概率。对于语句S利用CBOW模型,其为自然语言概率为:
其中P(S)表示S为自然语言的概率,T为字典的大小,P(W1,…,Wt)表示文本中单词的联合概率,对于整个文本构建如下模型:
使P(S)的值尽可能的大,得到模型的目标函数:
对于整个文本的模型,其目标函数为:
求上述目标函数的最大值为CBOW模型训练目标。采用基于层次结构的训练策略,具体为采用层次Softmax算法,在输出层加入哈夫曼编码,构建一颗哈夫曼树,哈夫曼树的叶子节点都有唯一的编码,表示语料库的词语。哈夫曼树的非叶子节点代表单词的类别,输入层为上下文单词的词向量,隐藏层对输入层的词向量做向量加和运算,隐藏层的输出与输出哈夫曼树的每一个非叶子节点连接,每条连接都有对应的权值。
词向量降维,采用PCA主成分分析算法对词向量进行降维,获得降维词向量;对采用CBOW模型获得的文本分词词向量采用PCA主成分分析算法进行降维,对于矩阵A={aij}(i=1,…,m,j=1,…,n)进行降维的过程如下:
计算矩阵A每行的均值ai(i=1,2,…,n);
计算调整过的矩阵B={bik},其中bik=ajk-ak(j=1,…,m);
计算协方差矩阵S={sik};
计算S矩阵的特征值λ和特征向量e。
将特征值λ按从大到小的顺序进行排列(λ1≥λ2≥…≥λn),并依次选择对应的特征向量e构造特征向量矩阵,该特征向量矩阵中的所有行向量即表示每一个文档。
文本分类,采用引入注意力模型的LSTM模型对降维词向量进行分类,获得分类结果,在词向量编码阶段使用注意力模型,文本的输入序列x1,x2,…,xT为历史节点,对历史节点输入向量求累加求均值,得到文本总体的输入向量X',X'为词向量编码阶段的最后输入,h1,h2,h3,…,ht对应输入序列x1,x2,…,xT的隐藏层状态值,Hk对应输入的X'的隐藏层状态值,模型结构示意图如图3所示,图3中aik为历史节点对于最后节点的注意力概率,x1,x2,…,xT为文本的词语,X'为文章总体的输入向量。为减少非关键词对整个文本的语义影响,计算x1,x2,…,xT对文章的总体的影响力权重,具体计算过程如下:
计算注意力分布概率的语义编码:
eki=v tanh(Whk+Uhi+b)
aki为节点i对于节点k的注意力概率权重,T为输入序列的元素数目,v,W,U为权重矩阵,hk为最后输入对应的隐藏层状态,hi为输入序列第i个元素对应的隐藏层状态值;
计算注意力分布概率的语义编码和特征向量:
Hk′=H(C,hk,X′)
最终的语义编码是将含有历史节点的注意力概率分布语义编码和文本总体向量作为传统LSTM模块的输入,最后节点的隐藏层状态值Hk为最终的特征向量,通过上述步骤,实现针对获取文档进行所需主题的分类,从而判别文档是否属于某一主题。
文本存储,将主题相关文本结构化存储至数据仓库,由于文档数据结构不统一,采用NoSql数据库存储主题相关文本。
一种电子设备,包括:处理器;存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于执行上述一种主题网络爬虫方法;一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行上述一种主题网络爬虫方法。
一种主题网络爬虫***,如图4所示,包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,初始化模块获取主题爬虫的起始URL,将起始URL加载入种子任务队列,并维护任务队列的爬取顺序;种子任务队列主要对种子URL进行维护,包括初始化加载URL,爬取时对单个URL的出队列操作,单文档爬取后提取的URL入队列操作;文档爬取模块从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,此处网络文本为非结构化文本,文本分类模块对网络文档进行主题相关性分类,获得主题相关文本,文本存储模块将主题相关文本结构化存储至数据仓库,如采用NoSql数据库存储主题相关文本。
在一实施例中,优选地,文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,文档预处理模块对网络文档进行分词和去除停用词处理;进一步地,文档预处理模块采用sougou语料的正向最大匹配算法和CRF分词算法对网络文档进行分词。文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;词向量降维模块采用PCA主成分分析算法对词向量进行降维,获得降维词向量;文本分类模块采用LSTM模型对降维词向量进行分类,获得分类结果。
在一实施例中,优选地,还包括未爬取URL收集模块,未爬取URL收集模块获取网络文档的URL,将未爬取的URL加入种子任务队列。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。
Claims (10)
1.一种主题网络爬虫方法,其特征在于包括以下步骤:
初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;
文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;
文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;
文本存储,将所述主题相关文本结构化存储至数据仓库。
2.如权利要求1所述的一种主题网络爬虫方法,其特征在于,所述步骤文本分类包括以下步骤:
文档预处理,对所述网络文档进行分词和去除停用词处理;
文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;
词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;
文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
3.如权利要求1所述的一种主题网络爬虫方法,其特征在于:在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列。
4.如权利要求1所述的一种主题网络爬虫方法,其特征在于:所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
5.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-4任意一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-4任意一项所述的方法。
7.一种主题网络爬虫***,其特征在于:包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,所述初始化模块获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列,并维护所述种子任务队列的爬取顺序;所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地,所述文本分类模块对所述网络文档进行主题相关性分类,获得主题相关文本,所述文本存储模块将所述主题相关文本结构化存储至数据仓库。
8.如权利要求7所述的一种主题网络爬虫***,其特征在于:所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,所述文档预处理模块对所述网络文档进行分词和去除停用词处理;所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;所述文本分类模块采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。
9.如权利要求7所述的一种主题网络爬虫***,其特征在于:还包括未爬取URL收集模块,所述未爬取URL收集模块获取所述网络文档的URL,将未爬取的URL加入所述种子任务队列。
10.如权利要求8所述的一种主题网络爬虫***,其特征在于:所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071026.5A CN107908698B (zh) | 2017-11-03 | 2017-11-03 | 一种主题网络爬虫方法、电子设备、存储介质、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071026.5A CN107908698B (zh) | 2017-11-03 | 2017-11-03 | 一种主题网络爬虫方法、电子设备、存储介质、*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107908698A true CN107908698A (zh) | 2018-04-13 |
CN107908698B CN107908698B (zh) | 2021-04-13 |
Family
ID=61842571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711071026.5A Active CN107908698B (zh) | 2017-11-03 | 2017-11-03 | 一种主题网络爬虫方法、电子设备、存储介质、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908698B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108681571A (zh) * | 2018-05-05 | 2018-10-19 | 吉林大学 | 基于Word2Vec的主题爬虫***和方法 |
CN109408809A (zh) * | 2018-09-25 | 2019-03-01 | 天津大学 | 一种基于词向量的针对汽车产品评论的情感分析方法 |
CN110134858A (zh) * | 2019-03-26 | 2019-08-16 | 国网重庆市电力公司 | 非结构化数据的转化方法、***、存储介质及电子设备 |
CN110532450A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于改进鲨鱼搜索的主题爬虫方法 |
CN111191095A (zh) * | 2018-11-14 | 2020-05-22 | ***通信集团河北有限公司 | 网页数据获取方法、装置、设备及介质 |
CN111767482A (zh) * | 2020-05-21 | 2020-10-13 | 中国地质大学(武汉) | 一种聚焦网络爬虫自适应爬取方法 |
CN112650570A (zh) * | 2020-12-29 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 可动态扩展的分布式爬虫***、数据处理方法及装置 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020194161A1 (en) * | 2001-04-12 | 2002-12-19 | Mcnamee J. Paul | Directed web crawler with machine learning |
CN101320375A (zh) * | 2008-07-04 | 2008-12-10 | 浙江大学 | 基于用户点击行为的数字图书搜索方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN105279288A (zh) * | 2015-12-04 | 2016-01-27 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
CN105740381A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法 |
CN105824904A (zh) * | 2016-03-15 | 2016-08-03 | 浙江大学 | 基于中医药领域专业词向量的中草药植物图片爬取方法 |
CN106611055A (zh) * | 2016-12-27 | 2017-05-03 | 大连理工大学 | 基于层叠式神经网络的中文模糊限制信息范围检测方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
CN106737692A (zh) * | 2017-02-10 | 2017-05-31 | 杭州迦智科技有限公司 | 一种基于深度投影的机械手爪抓取规划方法及控制装置 |
CN107133928A (zh) * | 2017-04-27 | 2017-09-05 | 扬州大学 | 一种基于迭代镜像与注册的人脸对称平面求取方法 |
CN107133210A (zh) * | 2017-04-20 | 2017-09-05 | 中国科学院上海高等研究院 | 方案文本生成方法及*** |
-
2017
- 2017-11-03 CN CN201711071026.5A patent/CN107908698B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020194161A1 (en) * | 2001-04-12 | 2002-12-19 | Mcnamee J. Paul | Directed web crawler with machine learning |
CN101320375A (zh) * | 2008-07-04 | 2008-12-10 | 浙江大学 | 基于用户点击行为的数字图书搜索方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN105279288A (zh) * | 2015-12-04 | 2016-01-27 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
CN105740381A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法 |
CN105824904A (zh) * | 2016-03-15 | 2016-08-03 | 浙江大学 | 基于中医药领域专业词向量的中草药植物图片爬取方法 |
CN106611055A (zh) * | 2016-12-27 | 2017-05-03 | 大连理工大学 | 基于层叠式神经网络的中文模糊限制信息范围检测方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
CN106737692A (zh) * | 2017-02-10 | 2017-05-31 | 杭州迦智科技有限公司 | 一种基于深度投影的机械手爪抓取规划方法及控制装置 |
CN107133210A (zh) * | 2017-04-20 | 2017-09-05 | 中国科学院上海高等研究院 | 方案文本生成方法及*** |
CN107133928A (zh) * | 2017-04-27 | 2017-09-05 | 扬州大学 | 一种基于迭代镜像与注册的人脸对称平面求取方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108681571A (zh) * | 2018-05-05 | 2018-10-19 | 吉林大学 | 基于Word2Vec的主题爬虫***和方法 |
CN108681571B (zh) * | 2018-05-05 | 2024-02-27 | 吉林大学 | 基于Word2Vec的主题爬虫***和方法 |
CN109408809A (zh) * | 2018-09-25 | 2019-03-01 | 天津大学 | 一种基于词向量的针对汽车产品评论的情感分析方法 |
CN111191095A (zh) * | 2018-11-14 | 2020-05-22 | ***通信集团河北有限公司 | 网页数据获取方法、装置、设备及介质 |
CN110134858A (zh) * | 2019-03-26 | 2019-08-16 | 国网重庆市电力公司 | 非结构化数据的转化方法、***、存储介质及电子设备 |
CN110532450A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于改进鲨鱼搜索的主题爬虫方法 |
CN111767482A (zh) * | 2020-05-21 | 2020-10-13 | 中国地质大学(武汉) | 一种聚焦网络爬虫自适应爬取方法 |
CN111767482B (zh) * | 2020-05-21 | 2023-06-06 | 中国地质大学(武汉) | 一种聚焦网络爬虫自适应爬取方法 |
CN112650570A (zh) * | 2020-12-29 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 可动态扩展的分布式爬虫***、数据处理方法及装置 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN117743838B (zh) * | 2024-02-20 | 2024-04-30 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107908698B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908698A (zh) | 一种主题网络爬虫方法、电子设备、存储介质、*** | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐***及方法 | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其*** | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
Ju et al. | An efficient method for document categorization based on word2vec and latent semantic analysis | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110717042A (zh) | 一种构建文档-关键词异构网络模型方法 | |
CN112948505A (zh) | 一种实体关系分类的模型构建方法、设备及存储介质 | |
CN111666752A (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
US20190155913A1 (en) | Document search using grammatical units | |
Gunawan et al. | Clustering articles in bahasa indonesia using self-organizing map | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN109189848A (zh) | 知识数据的抽取方法、***、计算机设备和存储介质 | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索***及方法 | |
CN116484023A (zh) | 一种基于人工智能的电力行业知识库构建方法及*** | |
using Relevance | A Meta-heuristic optimization approach for content based image retrieval using relevance feedback method | |
Zhao et al. | Commented content classification with deep neural network based on attention mechanism | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
Yang et al. | Deep Learning Agricultural Information Classification Combined With Internet of Things Technology in Agricultural Production and Economic Management | |
Yun et al. | Combining vector space features and convolution neural network for text sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220105 Address after: 314000 room 503, block C, future science and Technology Plaza, No. 136, Xiuzhou Avenue, Xincheng street, Xiuzhou District, Jiaxing City, Zhejiang Province Patentee after: Jiaxing Xiaoda Intelligent Technology Co.,Ltd. Address before: Room 431, 4th floor, No.1 Tiantai 1st Road, Science City, Guangzhou hi tech Industrial Development Zone, Guangdong 510000 Patentee before: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY Co.,Ltd. |