CN107122441A - 一种基于大数据的通信数据检索及呈现方法 - Google Patents

一种基于大数据的通信数据检索及呈现方法 Download PDF

Info

Publication number
CN107122441A
CN107122441A CN201710268964.8A CN201710268964A CN107122441A CN 107122441 A CN107122441 A CN 107122441A CN 201710268964 A CN201710268964 A CN 201710268964A CN 107122441 A CN107122441 A CN 107122441A
Authority
CN
China
Prior art keywords
data
index
search
retrieval
communication data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710268964.8A
Other languages
English (en)
Inventor
胡忠强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN201710268964.8A priority Critical patent/CN107122441A/zh
Publication of CN107122441A publication Critical patent/CN107122441A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的通信数据检索及呈现方法,属于通信网络运维技术领域,在不改变原有***软件架构的情况下,通过数据整合,聚合设备行为、运维行为、用户行为以及非结构化数据,引入搜索引擎技术,实现数据的快速搜索和应用的快速到达;包含海量通信数据检索和应用快速到达两个部分,全文的数据检索包括索引创建和搜索索引两个过程,索引创建将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程;搜索索引得到用户的查询请求,搜索创建的索引,然后返回结果。本发明减少在数据检索上花费的时间,还能为数据维护、应用提供快速入口。

Description

一种基于大数据的通信数据检索及呈现方法
技术领域
本发明涉及通信网络运维技术领域,具体地说是一种基于大数据的通信数据检索及呈现方法。
背景技术
移动网络资源是通信企业对外提供服务的基础,充分利用网络资源,提高资源管理水平和使用效率,是实现企业信息化的关键。通信技术发展迅速,通信网络越来越复杂,海量数据的快速搜索、面向设备/客户/网络事件的全貌信息聚合、基于相似性的协同推荐需求越来越迫切。
传统的资源检索需要定位资源所在专业、模型,再从大量数据中进行检索,快速的资源检索、呈现能为日常维护工作带来极大的便利,对实现从面向网络、面向服务到面向客户服务理念的快速转变提供有力支撑,提升运营商的全业务竞争能力。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于大数据的通信数据检索及呈现方法,减少在数据检索上花费的时间,还能为数据维护、应用提供快速入口。
一种基于大数据的通信数据检索及呈现方法,其实现过程为:
在不改变原有***软件架构的情况下,通过数据整合,聚合设备行为、运维行为、用户行为以及非结构化数据,引入搜索引擎技术,实现数据的快速搜索和应用的快速到达;包含海量通信数据检索和应用快速到达两个部分,全文的数据检索包括索引创建和搜索索引两个过程,索引创建将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程;搜索索引得到用户的查询请求,搜索创建的索引,然后返回结果;
优选的,通信数据检索从空间资源、物理资源、逻辑资源和网络资源四类进行检索。
优选的,对于通信数据根据数据维护热度,对数据进行加权,将关注度高的数据有限检索,数据模型包括专业、模型、空间、热度、数据1和数据2。
例如,寻找既包含字符串“核心”又包含字符串“站点”的文档,并优先显示关注度的数据,我们只需要以下步骤:
取出包含字符串“核心”的文档链表;
取出包含字符串“站点”的文档链表;
加入数据加权值;
通过合并链表、加权值,找出既包含“核心”又包含“站点”的文件。
这样检索出的数据就包含了专业、模型、空间、热度等特性。
对查询语句进行词法分析,语法分析,及语言处理。
词法分析主要用来识别单词和关键字,经过词法分析,得到检索词语,如上面例子:核心、站点;
语法分析主要是根据查询语句的语法规则来形成一棵语法树,如果发现查询语句不满足语法规则,则会报错;
搜索索引,得到符合语法树的文档;
根据得到的文档和查询语句的相关性,对结果进行排序,通过分析能够得到文档,对于查询结果应该按照与查询语句的相关性进行排序,越相关者越靠前;
优选的,索引过程包括:具有一系列被索引文件;被索引文件经过语法分析和语言处理形成一系列词;经过索引创建形成词典和反向索引表;通过索引存储将索引写入硬盘。
优选的,搜索过程包括用户输入查询语句;
对查询语句经过语法分析和语言分析得到一系列词;
通过语法分析得到一个查询树;
通过索引存储将索引读入到内存;
利用查询树搜索索引,从而得到每个词的文档链表,对文档链表进行交,差,并得到结果文档;
将搜索到的结果文档对查询的相关性进行排序;
返回查询结果给用户。
检索通信数据的呈现:
首先提供简洁、快速的检索入口,可输入任意关键词搜索,并可根据热度查看历史检索值;
入口提供多维度的检索功能,满足各种搜索需要;
多个关键词之间的布尔运算算法(缺省为and),支持or、关键词字串完全匹配、关键词排除;
按照专业、模型、区域、热度的综合检索,满足通信数据应用需求,如:八一立交桥基站数据使用频率高,检索时就会优先处理,并放在检索数据前列;
在数据检索基础上,出现在搜索结果中的搜索关键字用特殊字体显示,根据场景提供资源维护、GIS定位、拓扑呈现等入口,实现应用的快速到达。
本发明的一种基于大数据的通信数据检索及呈现方法,具有以下优点:
该方法基于搜索引擎技术,面向各层次用户、简单易用的数据检索工具和应用入口,是OSS领域的垂直搜索引擎,是OSS领域数据/应用聚合平台;跨界汇聚数据及应用,基于搜索引擎、框计算、语义分析等技术实现用户需求的精准识别和高效反射,实现海量数据的毫秒级搜索、面向设备/客户/网络事件的全貌信息聚合、基于相似性的协同推荐等。该发明以大数据为基础减少在数据检索上花费的时间,能为数据维护、应用提供快速入口,实用性强。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种基于大数据的通信数据检索及呈现方法,在不改变原有***软件架构的情况下,通过数据整合,聚合设备行为、运维行为、用户行为以及非结构化数据,引入搜索引擎技术,实现数据的快速搜索和应用的快速到达;包含海量通信数据检索和应用快速到达两个部分,全文的数据检索包括索引创建和搜索索引两个过程,索引创建将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程;搜索索引得到用户的查询请求,搜索创建的索引,然后返回结果。通信数据检索从空间资源、物理资源、逻辑资源和网络资源四类进行检索。
对于通信数据根据数据维护热度,对数据进行加权,将关注度高的数据有限检索,数据模型包括专业、模型、空间、热度、数据1和数据2。
例如,寻找既包含字符串“核心”又包含字符串“站点”的文档,并优先显示关注度的数据,我们只需要以下步骤:
取出包含字符串“核心”的文档链表;
取出包含字符串“站点”的文档链表;
加入数据加权值;
通过合并链表、加权值,找出既包含“核心”又包含“站点”的文件。
这样检索出的数据就包含了专业、模型、空间、热度等特性。
对查询语句进行词法分析,语法分析,及语言处理。
1、词法分析主要用来识别单词和关键字,经过词法分析,得到检索词语,如上面例子:核心、站点;
2、语法分析主要是根据查询语句的语法规则来形成一棵语法树,如果发现查询语句不满足语法规则,则会报错;
3、搜索索引,得到符合语法树的文档;
4、根据得到的文档和查询语句的相关性,对结果进行排序,通过分析能够得到文档,对于查询结果应该按照与查询语句的相关性进行排序,越相关者越靠前;
5、索引过程包括:具有一系列被索引文件;被索引文件经过语法分析和语言处理形成一系列词;经过索引创建形成词典和反向索引表;通过索引存储将索引写入硬盘。
6、搜索过程包括用户输入查询语句;
对查询语句经过语法分析和语言分析得到一系列词;
通过语法分析得到一个查询树;
通过索引存储将索引读入到内存;
利用查询树搜索索引,从而得到每个词的文档链表,对文档链表进行交,差,并得到结果文档;
将搜索到的结果文档对查询的相关性进行排序;
返回查询结果给用户。
检索通信数据的呈现:
首先提供简洁、快速的检索入口,可输入任意关键词搜索,并可根据热度查看历史检索值;
入口提供多维度的检索功能,满足各种搜索需要;
多个关键词之间的布尔运算算法(缺省为and),支持or、关键词字串完全匹配、关键词排除;
按照专业、模型、区域、热度的综合检索,满足通信数据应用需求,如:八一立交桥基站数据使用频率高,检索时就会优先处理,并放在检索数据前列;
在数据检索基础上,出现在搜索结果中的搜索关键字用特殊字体显示,根据场景提供资源维护、GIS定位、拓扑呈现等入口,实现应用的快速到达。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于大数据的通信数据检索及呈现方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种基于大数据的通信数据检索及呈现方法,其特征在于在不改变原有***软件架构的情况下,通过数据整合,聚合设备行为、运维行为、用户行为以及非结构化数据,引入搜索引擎技术,实现数据的快速搜索和应用的快速到达;包含海量通信数据检索和应用快速到达两个部分,全文的数据检索包括索引创建和搜索索引两个过程,索引创建将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程;搜索索引得到用户的查询请求,搜索创建的索引,然后返回结果。
2.根据权利要求1所述的一种基于大数据的通信数据检索及呈现方法,其特征在于通信数据检索从空间资源、物理资源、逻辑资源和网络资源四类进行检索。
3.根据权利要求1所述的一种基于大数据的通信数据检索及呈现方法,其特征在于对于通信数据根据数据维护热度,对数据进行加权,将关注度高的数据有限检索,数据模型包括专业、模型、空间、热度、数据1 和数据2。
4.根据权利要求1所述的一种基于大数据的通信数据检索及呈现方法,其特征在于索引过程包括:具有一系列被索引文件;被索引文件经过语法分析和语言处理形成一系列词;经过索引创建形成词典和反向索引表;通过索引存储将索引写入硬盘。
5.根据权利要求1所述的一种基于大数据的通信数据检索及呈现方法,其特征在于搜索过程包括:
1)、用户输入查询语句;
2)、对查询语句经过语法分析和语言分析得到一系列词;
3)、通过语法分析得到一个查询树;
4)、通过索引存储将索引读入到内存;
5)、利用查询树搜索索引,从而得到每个词的文档链表,对文档链表进行交差,并得到结果文档;
6)、将搜索到的结果文档对查询的相关性进行排序;
7)、返回查询结果给用户。
CN201710268964.8A 2017-04-24 2017-04-24 一种基于大数据的通信数据检索及呈现方法 Pending CN107122441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710268964.8A CN107122441A (zh) 2017-04-24 2017-04-24 一种基于大数据的通信数据检索及呈现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710268964.8A CN107122441A (zh) 2017-04-24 2017-04-24 一种基于大数据的通信数据检索及呈现方法

Publications (1)

Publication Number Publication Date
CN107122441A true CN107122441A (zh) 2017-09-01

Family

ID=59726478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710268964.8A Pending CN107122441A (zh) 2017-04-24 2017-04-24 一种基于大数据的通信数据检索及呈现方法

Country Status (1)

Country Link
CN (1) CN107122441A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用***有限公司 知识库检索实现方法
CN111723261A (zh) * 2019-03-22 2020-09-29 昆明逆火科技股份有限公司 基于搜索引擎的dna比对算法
CN112115361A (zh) * 2020-09-17 2020-12-22 浪潮卓数大数据产业发展有限公司 一种基于elasticsearch的数据检索优化方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用***有限公司 知识库检索实现方法
CN111723261A (zh) * 2019-03-22 2020-09-29 昆明逆火科技股份有限公司 基于搜索引擎的dna比对算法
CN112115361A (zh) * 2020-09-17 2020-12-22 浪潮卓数大数据产业发展有限公司 一种基于elasticsearch的数据检索优化方法及***
CN112115361B (zh) * 2020-09-17 2022-07-05 浪潮卓数大数据产业发展有限公司 一种基于elasticsearch的数据检索优化方法及***

Similar Documents

Publication Publication Date Title
US9720944B2 (en) Method for facet searching and search suggestions
US11403457B2 (en) Processing referral objects to add to annotated corpora of a machine learning engine
JP6346218B2 (ja) オンライン取引プラットフォームのための検索方法、装置およびサーバ
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
CN106033416A (zh) 一种字符串处理方法及装置
CN104516902A (zh) 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN112131449A (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN108027817A (zh) 基于用户的组关联建议查询
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN107122441A (zh) 一种基于大数据的通信数据检索及呈现方法
KR101683138B1 (ko) 정보검색장치 및 그 동작 방법
Li [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm
CN109783599A (zh) 基于多种存储介质的知识图谱检索方法及***
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN110555199B (zh) 基于热点素材的文章生成方法、装置、设备及存储介质
CN109918661A (zh) 同义词获取方法及装置
CN104778247B (zh) 一种基于给定数据资源的信息检索方法及装置
GB2520993A (en) Indexing presentation slides
US11170010B2 (en) Methods and systems for iterative alias extraction
US10261972B2 (en) Methods and systems for similarity matching
KR101347123B1 (ko) 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
CN104765830A (zh) 一种信息搜索方法及装置
KR20150096848A (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170901