CN111241854A - 一种基于区块链技术的语言搜索引擎*** - Google Patents
一种基于区块链技术的语言搜索引擎*** Download PDFInfo
- Publication number
- CN111241854A CN111241854A CN201911419067.8A CN201911419067A CN111241854A CN 111241854 A CN111241854 A CN 111241854A CN 201911419067 A CN201911419067 A CN 201911419067A CN 111241854 A CN111241854 A CN 111241854A
- Authority
- CN
- China
- Prior art keywords
- module
- language
- search engine
- system based
- engine system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于区块链技术的语言搜索引擎***,由采集模块、翻译模块、提取模块、检索模块组成,其中,采集模块,用于采集用户输入的语言信息;翻译模块,用于将采集的语言信息进行翻译;提取模块,用于对翻译后的语言数据进行关键词提取;搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索;本发明的有益效果是:通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索,有助于提高语言搜索引擎的范围,提高跨语言搜索性能;通过设计的提取模块、判断模块、匹配模块有助于判断用户的意图,提高语音搜索数据的精确匹配。
Description
技术领域
本发明属于语言搜索引擎技术领域,具体涉及一种基于区块链技术的语言搜索引擎***。
背景技术
搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
近年来,随着信息技术的飞速发展,互联网成为人们发布和获取信息的重要渠道。但互联网用户分布于全世界,互联网用户和互联网内容存在着语种的多样性和不平衡性。调查显示目前互联网上用户最多的两个语种分别是英文和中文。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。
为了提高语言搜索引擎的范围,提高跨语言搜索性能,以及更精准的查找语言数据,为此我们提出一种基于区块链技术的语言搜索引擎***。
发明内容
本发明的目的在于提供一种基于区块链技术的语言搜索引擎***,提高语言搜索引擎的范围,提高跨语言搜索性能;以及更精准的查找语言数据。
为实现上述目的,本发明提供如下技术方案:一种基于区块链技术的语言搜索引擎***,由采集模块、翻译模块、提取模块、检索模块组成,其中,
采集模块,用于采集用户输入的语言信息;
翻译模块,用于将采集的语言信息进行翻译;
提取模块,用于对翻译后的语言数据进行关键词提取;
搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。
作为本发明的一种优选的技术方案,还包括反馈模块,该模块用于将搜索到的结果反馈给用户。
作为本发明的一种优选的技术方案,反馈的方式为网页。
作为本发明的一种优选的技术方案,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。
作为本发明的一种优选的技术方案,还包括判断模块,该模块用于对搜索的语言数据意图进行判断。
作为本发明的一种优选的技术方案,该***实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。
作为本发明的一种优选的技术方案,还包括限制模块,该模块用于对敏感词进行限制。
作为本发明的一种优选的技术方案,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱或短信。
作为本发明的一种优选的技术方案,还包括匹配模块,该模块用于对搜索的语言数据进行匹配。
与现有技术相比,本发明的有益效果是:
(1)通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索,有助于提高语言搜索引擎的范围,提高跨语言搜索性能;
(2)通过设计的提取模块、判断模块、匹配模块有助于判断用户的意图,提高语音搜索数据的精确匹配。
附图说明
图1为本发明的***图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供一种技术方案:一种基于区块链技术的语言搜索引擎***,由采集模块、翻译模块、提取模块、检索模块组成,其中,
采集模块,用于采集用户输入的语言信息;
翻译模块,用于将采集的语言信息进行翻译;
提取模块,用于对翻译后的语言数据进行关键词提取;
搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。
本实施例中,优选的,还包括反馈模块,该模块用于将搜索到的结果反馈给用户,反馈的方式为网页,方便用户查看反馈的数据。
本实施例中,优选的,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。
本实施例中,优选的,还包括判断模块,该模块用于对搜索的语言数据意图进行判断,提高搜索数据的精确度。
本实施例中,优选的,该***实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。
本实施例中,优选的,还包括限制模块,该模块用于对敏感词进行限制。
本实施例中,优选的,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱,有助于维护网络数据的安全,净化网络环境。
本实施例中,优选的,还包括匹配模块,该模块用于对搜索的语言数据进行匹配,进一步提高搜索数据的匹配效果。
关键词提取算法如下:
1)把给定的文本T按照完整句子进行分割;
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;
3)构建候选关键词图G=(V,E),其中V为节点集,由2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词;
4)迭代传播各节点的权重,直至收敛;
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词;
6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
实施例2
请参阅图1,本发明提供一种技术方案:一种基于区块链技术的语言搜索引擎***,由采集模块、翻译模块、提取模块、检索模块组成,其中,
采集模块,用于采集用户输入的语言信息;
翻译模块,用于将采集的语言信息进行翻译;
提取模块,用于对翻译后的语言数据进行关键词提取;
搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。
本实施例中,优选的,还包括反馈模块,该模块用于将搜索到的结果反馈给用户,反馈的方式为网页,方便用户查看反馈的数据。
本实施例中,优选的,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。
本实施例中,优选的,还包括判断模块,该模块用于对搜索的语言数据意图进行判断,提高搜索数据的精确度。
本实施例中,优选的,该***实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。
本实施例中,优选的,还包括限制模块,该模块用于对敏感词进行限制。
本实施例中,优选的,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为短信,有助于维护网络数据的安全,净化网络环境。
本实施例中,优选的,还包括匹配模块,该模块用于对搜索的语言数据进行匹配,进一步提高搜索数据的匹配效果。
关键词提取算法如下:
1)把给定的文本T按照完整句子进行分割;
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;
3)构建候选关键词图G=(V,E),其中V为节点集,由2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词;
4)迭代传播各节点的权重,直至收敛;
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词;
6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于区块链技术的语言搜索引擎***,其特征在于:由采集模块、翻译模块、提取模块、检索模块组成,其中,
采集模块,用于采集用户输入的语言信息;
翻译模块,用于将采集的语言信息进行翻译;
提取模块,用于对翻译后的语言数据进行关键词提取;
搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。
2.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括反馈模块,该模块用于将搜索到的结果反馈给用户。
3.根据权利要求2所述的一种基于区块链技术的语言搜索引擎***,其特征在于:反馈的方式为网页。
4.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。
5.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括判断模块,该模块用于对搜索的语言数据意图进行判断。
6.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:该***实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。
7.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括限制模块,该模块用于对敏感词进行限制。
8.根据权利要求7所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱或短信。
9.根据权利要求1所述的一种基于区块链技术的语言搜索引擎***,其特征在于:还包括匹配模块,该模块用于对搜索的语言数据进行匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419067.8A CN111241854A (zh) | 2019-12-31 | 2019-12-31 | 一种基于区块链技术的语言搜索引擎*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419067.8A CN111241854A (zh) | 2019-12-31 | 2019-12-31 | 一种基于区块链技术的语言搜索引擎*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241854A true CN111241854A (zh) | 2020-06-05 |
Family
ID=70875865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419067.8A Pending CN111241854A (zh) | 2019-12-31 | 2019-12-31 | 一种基于区块链技术的语言搜索引擎*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241854A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052292A (zh) * | 2020-09-14 | 2020-12-08 | 中钞***产业发展有限公司杭州区块链技术研究院 | 一种网络内容存证方法、装置、设备及存储介质 |
-
2019
- 2019-12-31 CN CN201911419067.8A patent/CN111241854A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052292A (zh) * | 2020-09-14 | 2020-12-08 | 中钞***产业发展有限公司杭州区块链技术研究院 | 一种网络内容存证方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763333B (zh) | 一种基于社会媒体的事件图谱构建方法 | |
Shinzato et al. | Tsubaki: An open search engine infrastructure for developing information access methodology | |
Gholamrezazadeh et al. | A comprehensive survey on text summarization systems | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
CN104850574B (zh) | 一种面向文本信息的敏感词过滤方法 | |
EP1793318A2 (en) | Answer determination for natural language questionning | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN101377777A (zh) | 一种自动问答方法和*** | |
CN104715064A (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN1687925A (zh) | 一种实现双语网页搜索的方法 | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
Bar-Haim et al. | From surrogacy to adoption; from bitcoin to cryptocurrency: Debate topic expansion | |
Huang et al. | An approach on Chinese microblog entity linking combining *** encyclopaedia and word2vec | |
Chang | Domain specific word extraction from hierarchical Web documents: A first step toward building lexicon trees from Web corpora | |
Sharma et al. | Phrase-based text representation for managing the web documents | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN111241854A (zh) | 一种基于区块链技术的语言搜索引擎*** | |
Gey et al. | Cross-language retrieval for the CLEF collections—comparing multiple methods of retrieval | |
CN106502980B (zh) | 一种基于文本词素切分的检索方法及*** | |
Vidya et al. | Web Page Ranking Using Multilingual Information Search Algorithm-A Novel Approach | |
Neri et al. | Mining textual data to boost information access in osint | |
Gupta et al. | Document summarisation based on sentence ranking using vector space model | |
Alashri et al. | Lexi-augmenter: Lexicon-based model for tweets sentiment analysis | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |