CN104899268A - 一种分布式企业信息垂直搜索方法 - Google Patents
一种分布式企业信息垂直搜索方法 Download PDFInfo
- Publication number
- CN104899268A CN104899268A CN201510269583.2A CN201510269583A CN104899268A CN 104899268 A CN104899268 A CN 104899268A CN 201510269583 A CN201510269583 A CN 201510269583A CN 104899268 A CN104899268 A CN 104899268A
- Authority
- CN
- China
- Prior art keywords
- module
- search
- enterprise
- information
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 230000007115 recruitment Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000002224 dissection Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000029305 taxis Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明特别涉及一种分布式企业信息垂直搜索方法。该分布式企业信息垂直搜索方法,采用数据采集模块使用网络爬虫到相关信息的网站爬取相关网页;通过数据索引模块对爬取的相关网页数据进行清洗,并建立索引;通过综合搜索模块和企业搜索模块接收查询关键词,并提交给solr服务,从建立的索引文件中进行查询;通过用户权限管理模块完成***用户权限管理,根据权限对查询结果进行按需推送。该分布式企业信息垂直搜索方法,是针对企业的专业搜索方法,是对通用搜索引擎的细分和延伸,解决了通用搜索引擎的信息量大、查询不准确、深度不够等问题,能够针对税务领域提供有特定价值的信息和相关服务。
Description
技术领域
本发明涉及搜索引擎技术领域,特别涉及一种分布式企业信息垂直搜索方法。
背景技术
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的几个搜索引擎是通用搜索引擎现如今的杰出代表,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。
全球企业都对于大数据充满了积极的热情,以后的大数据将变得无处不在。但是从大数据的应用现状来看,无论是是技术、产品还是应用还有待提升。随着Web的快速增长,各种网站也越来越多,通用的传统搜索引擎技术也呈现出了严重局限性,用户如何才能快速,准确、全面的找到与企业相关的准确、全面的信息已经成为一个难题。
针对通用搜索引擎的信息量大、查询不准确、深度不够等现有问题,本发明提出了一种分布式企业信息垂直搜索方法,旨在对企业信息进行采集整理,为税务领域提供有特定价值的信息和相关服务。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种能够深入、准确查询的分布式企业信息垂直搜索方法。
本发明是通过如下技术方案实现的:
一种分布式企业信息垂直搜索方法,其特征在于:包括数据采集模块,数据索引模块,综合搜索模块,企业搜索模块和用户权限管理模块;首先,所述数据采集模块使用网络爬虫到相关信息的网站爬取相关网页;然后,所述数据索引模块对爬取的相关网页数据进行清洗,并建立索引;第三,所述综合搜索模块和企业搜索模块接收查询关键词,并提交给solr服务,从建立的索引文件中进行查询;最后,所述用户权限管理模块完成***用户权限管理,根据权限对查询结果进行按需推送。
以税务部门提供的相关纳税人为关键词,所述数据采集模块使用网络爬虫到各搜索引擎百科、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,并将网页源文件保存到hbase数据库中。
所述数据采集模块还为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,能够保证网页信息的实时性。hbase分布式数据库可以保证各种类型数据无损失保存,并可根据需求进行横向扩展。
所述数据索引模块,对所述网页源文件进行去重、正文提取、分类、解析等清洗、处理工作,并将处理结果信息存储hbase数据库中,同时还要为网页数据及相关类别、行业信息建立全文索引文件。
所述数据索引模块网页去重、分类采用自然语言处理中的文本相似性算法进行处理,正文提取采用基于DOM树和文字-链接比以及各种过滤器实现,解析处理采用隐马尔科夫实体词识别等机器学习技术实现。
所述数据索引模块采用Solr Cloud建立分布式索引服务体系,使用solr的客户端开发API对网页源数据进行读取、格式化并提交给索引服务器建立索引文件。Solr Cloud具有集中式的配置信息、自动容错、近实时搜索、查询时自动负载均衡、通过MR批量创建索引等优势。
所述综合搜索模块查询后返回符合条件的所有网页,并按相关企业,新闻动态,股市行情,相关政策法规4个类别进行分类显示标题,标题链接具体内容。
所述企业搜索模块查询后返回符合条件的企业,按照所属行业,从业人数,区域进行搜索结果过滤,并按照综合排名,搜索量,开业日期,关注量进行排序。进入企业链接,可以查看该企业概况、企业联系方式、股市信息、企业动态、采购信息、招投标信息、产品信息、行业动态、招聘信息以及企业关系网信息。
本发明的有益效果是:该分布式企业信息垂直搜索方法,是针对企业的专业搜索方法,是对通用搜索引擎的细分和延伸,解决了通用搜索引擎的信息量大、查询不准确、深度不够等问题,能够针对税务领域提供有特定价值的信息和相关服务。
附图说明
附图1为本发明分布式企业信息垂直搜索方法逻辑流程示意图。
具体实施方式
下面结合附图对本发明进行详细说明。
该分布式企业信息垂直搜索方法,包括数据采集模块,数据索引模块,综合搜索模块,企业搜索模块和用户权限管理模块;首先,所述数据采集模块使用网络爬虫到相关信息的网站爬取相关网页;然后,所述数据索引模块对爬取的相关网页数据进行清洗,并建立索引;第三,所述综合搜索模块和企业搜索模块接收查询关键词,并提交给solr服务,从建立的索引文件中进行查询;最后,所述用户权限管理模块完成***用户权限管理,根据权限对查询结果进行按需推送。
以税务部门提供的相关纳税人为关键词,所述数据采集模块使用网络爬虫到各搜索引擎百科、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,并将网页源文件保存到hbase数据库中。
所述数据采集模块还为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,能够保证网页信息的实时性。hbase分布式数据库可以保证各种类型数据无损失保存,并可根据需求进行横向扩展。
所述数据索引模块,对所述网页源文件进行去重、正文提取、分类、解析等清洗、处理工作,并将处理结果信息存储hbase数据库中,同时还要为网页数据及相关类别、行业信息建立全文索引文件。
所述数据索引模块网页去重、分类采用自然语言处理中的文本相似性算法进行处理,正文提取采用基于DOM树和文字-链接比以及各种过滤器实现,解析处理采用隐马尔科夫实体词识别等机器学习技术实现。
所述数据索引模块采用Solr Cloud建立分布式索引服务体系,使用solr的客户端开发API对网页源数据进行读取、格式化并提交给索引服务器建立索引文件。Solr Cloud具有集中式的配置信息、自动容错、近实时搜索、查询时自动负载均衡、通过MR批量创建索引等优势。
所述综合搜索模块查询后返回符合条件的所有网页,并按相关企业,新闻动态,股市行情,相关政策法规4个类别进行分类显示标题,标题链接具体内容。
所述企业搜索模块查询后返回符合条件的企业,按照所属行业,从业人数,区域进行搜索结果过滤,并按照综合排名,搜索量,开业日期,关注量进行排序。进入企业链接,可以查看该企业概况、企业联系方式、股市信息、企业动态、采购信息、招投标信息、产品信息、行业动态、招聘信息以及企业关系网信息。
Claims (8)
1.一种分布式企业信息垂直搜索方法,其特征在于:包括数据采集模块,数据索引模块,综合搜索模块,企业搜索模块和用户权限管理模块;首先,所述数据采集模块使用网络爬虫到相关信息的网站爬取相关网页;然后,所述数据索引模块对爬取的相关网页数据进行清洗,并建立索引;第三,所述综合搜索模块和企业搜索模块接收查询关键词,并提交给solr服务,从建立的索引文件中进行查询;最后,所述用户权限管理模块完成***用户权限管理,根据权限对查询结果进行按需推送。
2.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:以税务部门提供的相关纳税人为关键词,所述数据采集模块使用网络爬虫到各搜索引擎百科、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,并将网页源文件保存到hbase数据库中。
3.根据权利要求2所述的分布式企业信息垂直搜索方法,其特征在于:所述数据采集模块还为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,能够保证网页信息的实时性。
4.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块,对所述网页源文件进行去重、正文提取、分类、解析等清洗、处理工作,并将处理结果信息存储hbase数据库中,同时还要为网页数据及相关类别、行业信息建立全文索引文件。
5.根据权利要求4所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块网页去重、分类采用自然语言处理中的文本相似性算法进行处理,正文提取采用基于DOM树和文字-链接比以及各种过滤器实现,解析处理采用隐马尔科夫实体词识别等机器学习技术实现。
6.根据权利要求4所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块采用Solr Cloud建立分布式索引服务体系,使用solr的客户端开发API对网页源数据进行读取、格式化并提交给索引服务器建立索引文件。
7.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述综合搜索模块查询后返回符合条件的所有网页,并按相关企业,新闻动态,股市行情,相关政策法规4个类别进行分类显示标题,标题链接具体内容。
8.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述企业搜索模块查询后返回符合条件的企业,按照所属行业,从业人数,区域进行搜索结果过滤,并按照综合排名,搜索量,开业日期,关注量进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510269583.2A CN104899268A (zh) | 2015-05-25 | 2015-05-25 | 一种分布式企业信息垂直搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510269583.2A CN104899268A (zh) | 2015-05-25 | 2015-05-25 | 一种分布式企业信息垂直搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104899268A true CN104899268A (zh) | 2015-09-09 |
Family
ID=54031931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510269583.2A Pending CN104899268A (zh) | 2015-05-25 | 2015-05-25 | 一种分布式企业信息垂直搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899268A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN106611027A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 网站排名数据处理方法和装置 |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
CN106777996A (zh) * | 2016-12-23 | 2017-05-31 | 浙江大学 | 一种基于Solr的体检数据搜索*** |
CN106844700A (zh) * | 2017-02-03 | 2017-06-13 | 山东浪潮商用***有限公司 | 一种基于Sorl的问税*** |
CN107066595A (zh) * | 2017-04-19 | 2017-08-18 | 济南浪潮高新科技投资发展有限公司 | 一种大数据多应用搜索服务方法及*** |
CN107247772A (zh) * | 2017-06-06 | 2017-10-13 | 合肥创旗信息科技有限公司 | 一种基于互联网的图文搜索引擎 |
CN107329968A (zh) * | 2017-05-18 | 2017-11-07 | 辛柯俊 | 一种针对企业官网的数据清洗、整合方法及*** |
CN107369120A (zh) * | 2017-07-21 | 2017-11-21 | 上海润吧信息技术有限公司 | 一种智能企业管理、服务***及企业活性分析方法 |
CN107844874A (zh) * | 2016-09-19 | 2018-03-27 | 鼎捷软件股份有限公司 | 企业营运问题分析***及其方法 |
CN107894986A (zh) * | 2017-09-26 | 2018-04-10 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107908684A (zh) * | 2017-10-31 | 2018-04-13 | 北京金堤科技有限公司 | 企业信息搜索方法及装置 |
CN107918672A (zh) * | 2017-11-29 | 2018-04-17 | 平安养老保险股份有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108009219A (zh) * | 2017-11-21 | 2018-05-08 | 国家计算机网络与信息安全管理中心 | 一种发现互联网金融舆情监管目标的方法 |
CN108052632A (zh) * | 2017-12-20 | 2018-05-18 | 成都律云科技有限公司 | 一种网络信息获取方法、***及企业信息搜索*** |
CN108875410A (zh) * | 2018-06-29 | 2018-11-23 | 北京奇虎科技有限公司 | 分布式搜索集群权限管理方法及装置、计算设备 |
CN109299397A (zh) * | 2018-12-05 | 2019-02-01 | 舒雷 | ***垂直搜索引擎 |
CN109766360A (zh) * | 2019-01-09 | 2019-05-17 | 北京一览群智数据科技有限责任公司 | 一种名单筛查方法及装置 |
CN110837595A (zh) * | 2019-11-05 | 2020-02-25 | 北京市燃气集团有限责任公司 | 一种企业信息资讯数据处理方法、***、终端及存储介质 |
CN111008265A (zh) * | 2019-12-03 | 2020-04-14 | 腾讯云计算(北京)有限责任公司 | 企业信息搜索方法及装置 |
CN112269913A (zh) * | 2020-10-28 | 2021-01-26 | 福建正孚软件有限公司 | 一种企业级全量数据智能搜索实现方法及*** |
WO2021189752A1 (zh) * | 2020-03-23 | 2021-09-30 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN115314506A (zh) * | 2022-07-05 | 2022-11-08 | 中电万维信息技术有限责任公司 | 一种软件信息采集处理*** |
US11500947B2 (en) | 2020-03-23 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search method and apparatus |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033910A (zh) * | 2010-11-19 | 2011-04-27 | 福建富士通信息软件有限公司 | 一种基于多数据源的企业搜索引擎技术 |
CN103701633A (zh) * | 2013-12-09 | 2014-04-02 | 国家电网公司 | 对分布式搜索SolrCloud进行可视化集群应用搭建和维护的*** |
CN103729463A (zh) * | 2014-01-14 | 2014-04-16 | 赛特斯信息科技股份有限公司 | 基于Lucene和Solr实现全文检索的方法 |
CN104142968A (zh) * | 2013-11-19 | 2014-11-12 | 东南大学 | 一种基于solr技术的分布式搜索方法及*** |
CN104516982A (zh) * | 2015-01-06 | 2015-04-15 | 南通大学 | 一种基于Nutch的Web信息提取方法和*** |
-
2015
- 2015-05-25 CN CN201510269583.2A patent/CN104899268A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033910A (zh) * | 2010-11-19 | 2011-04-27 | 福建富士通信息软件有限公司 | 一种基于多数据源的企业搜索引擎技术 |
CN104142968A (zh) * | 2013-11-19 | 2014-11-12 | 东南大学 | 一种基于solr技术的分布式搜索方法及*** |
CN103701633A (zh) * | 2013-12-09 | 2014-04-02 | 国家电网公司 | 对分布式搜索SolrCloud进行可视化集群应用搭建和维护的*** |
CN103729463A (zh) * | 2014-01-14 | 2014-04-16 | 赛特斯信息科技股份有限公司 | 基于Lucene和Solr实现全文检索的方法 |
CN104516982A (zh) * | 2015-01-06 | 2015-04-15 | 南通大学 | 一种基于Nutch的Web信息提取方法和*** |
Non-Patent Citations (3)
Title |
---|
傅巍玮: "分布式实时垂直搜索引擎研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张秀红等: "《现代信息检索与利用》", 31 August 2010, 北京:高等教育出版社 * |
文杰等: "《站在云端的SaaS》", 31 May 2011, 北京:清华大学出版社 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611027A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 网站排名数据处理方法和装置 |
CN106611027B (zh) * | 2015-10-27 | 2019-10-25 | 北京国双科技有限公司 | 网站排名数据处理方法和装置 |
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN105468744B (zh) * | 2015-11-25 | 2019-12-10 | 山东爱城市网信息技术有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN107844874A (zh) * | 2016-09-19 | 2018-03-27 | 鼎捷软件股份有限公司 | 企业营运问题分析***及其方法 |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
CN106777996A (zh) * | 2016-12-23 | 2017-05-31 | 浙江大学 | 一种基于Solr的体检数据搜索*** |
CN106844700A (zh) * | 2017-02-03 | 2017-06-13 | 山东浪潮商用***有限公司 | 一种基于Sorl的问税*** |
CN107066595A (zh) * | 2017-04-19 | 2017-08-18 | 济南浪潮高新科技投资发展有限公司 | 一种大数据多应用搜索服务方法及*** |
CN107329968A (zh) * | 2017-05-18 | 2017-11-07 | 辛柯俊 | 一种针对企业官网的数据清洗、整合方法及*** |
CN107247772A (zh) * | 2017-06-06 | 2017-10-13 | 合肥创旗信息科技有限公司 | 一种基于互联网的图文搜索引擎 |
CN107369120A (zh) * | 2017-07-21 | 2017-11-21 | 上海润吧信息技术有限公司 | 一种智能企业管理、服务***及企业活性分析方法 |
CN107894986B (zh) * | 2017-09-26 | 2021-03-30 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107894986A (zh) * | 2017-09-26 | 2018-04-10 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107908684A (zh) * | 2017-10-31 | 2018-04-13 | 北京金堤科技有限公司 | 企业信息搜索方法及装置 |
CN108009219A (zh) * | 2017-11-21 | 2018-05-08 | 国家计算机网络与信息安全管理中心 | 一种发现互联网金融舆情监管目标的方法 |
CN107918672A (zh) * | 2017-11-29 | 2018-04-17 | 平安养老保险股份有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN107918672B (zh) * | 2017-11-29 | 2021-04-02 | 平安养老保险股份有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108052632A (zh) * | 2017-12-20 | 2018-05-18 | 成都律云科技有限公司 | 一种网络信息获取方法、***及企业信息搜索*** |
CN108875410A (zh) * | 2018-06-29 | 2018-11-23 | 北京奇虎科技有限公司 | 分布式搜索集群权限管理方法及装置、计算设备 |
CN109299397A (zh) * | 2018-12-05 | 2019-02-01 | 舒雷 | ***垂直搜索引擎 |
CN109299397B (zh) * | 2018-12-05 | 2021-09-17 | 舒雷 | ***垂直搜索引擎 |
CN109766360A (zh) * | 2019-01-09 | 2019-05-17 | 北京一览群智数据科技有限责任公司 | 一种名单筛查方法及装置 |
CN110837595A (zh) * | 2019-11-05 | 2020-02-25 | 北京市燃气集团有限责任公司 | 一种企业信息资讯数据处理方法、***、终端及存储介质 |
CN111008265A (zh) * | 2019-12-03 | 2020-04-14 | 腾讯云计算(北京)有限责任公司 | 企业信息搜索方法及装置 |
CN111008265B (zh) * | 2019-12-03 | 2023-03-28 | 腾讯云计算(北京)有限责任公司 | 企业信息搜索方法及装置 |
WO2021189752A1 (zh) * | 2020-03-23 | 2021-09-30 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
US11500947B2 (en) | 2020-03-23 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search method and apparatus |
CN112269913A (zh) * | 2020-10-28 | 2021-01-26 | 福建正孚软件有限公司 | 一种企业级全量数据智能搜索实现方法及*** |
CN115314506A (zh) * | 2022-07-05 | 2022-11-08 | 中电万维信息技术有限责任公司 | 一种软件信息采集处理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899268A (zh) | 一种分布式企业信息垂直搜索方法 | |
CN105138652B (zh) | 一种企业关联关系识别方法及*** | |
CN102012900B (zh) | 信息检索方法和*** | |
US20150066895A1 (en) | System and method for automatic fact extraction from images of domain-specific documents with further web verification | |
CN106649223A (zh) | 基于自然语言处理的金融报告自动生成方法 | |
CN108052632B (zh) | 一种网络信息获取方法、***及企业信息搜索*** | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及*** | |
CN102129479B (zh) | 一种基于概率潜在语义分析模型的万维网服务发现方法 | |
CN102597991A (zh) | 文档分析与关联***及方法 | |
CN105335487A (zh) | 基于农业技术信息本体库的农业专家信息检索***及方法 | |
CN1963816A (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
KR102121901B1 (ko) | 정책자금 온라인 심사평가 시스템 | |
DE102006040208A1 (de) | Patentbezogenes Suchverfahren und -system | |
CA3060498A1 (en) | Method and system for integrating web-based systems with local document processing applications | |
CN107766481A (zh) | 一种发现互联网金融平台的方法和*** | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
CN111859065A (zh) | 一种基于大数据的舆情聆听*** | |
CN103365868A (zh) | 一种数据处理方法和数据处理*** | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
CN106874368B (zh) | 一种rtb竞价广告位价值分析方法及*** | |
CN116361367A (zh) | 一种高效发布招聘信息的内容识别***及方法 | |
Basyuk | Popularization of website and without anchor promotion | |
CN104820713B (zh) | 一种基于用户历史数据获得工业产品名称同义词的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150909 |