CN101146152A - 用于电信信息台的信息采集和搜索*** - Google Patents

用于电信信息台的信息采集和搜索*** Download PDF

Info

Publication number
CN101146152A
CN101146152A CNA2006101542065A CN200610154206A CN101146152A CN 101146152 A CN101146152 A CN 101146152A CN A2006101542065 A CNA2006101542065 A CN A2006101542065A CN 200610154206 A CN200610154206 A CN 200610154206A CN 101146152 A CN101146152 A CN 101146152A
Authority
CN
China
Prior art keywords
information
module
server
database
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101542065A
Other languages
English (en)
Other versions
CN101146152B (zh
Inventor
童小兵
申红梅
铁兵
陈云海
林立宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN2006101542065A priority Critical patent/CN101146152B/zh
Publication of CN101146152A publication Critical patent/CN101146152A/zh
Application granted granted Critical
Publication of CN101146152B publication Critical patent/CN101146152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于***业务的信息采集和查询***,包括用于处理各种信息源输入的信息的信息采集服务器、用于存储***的各种数据的数据存储服务器,以及用于对信息、关键词表和业务规则进行管理并提供信息查询服务的信息管理及运营服务器。其中,所述信息采集服务器、数据存储服务器和信息管理和运营服务器通过IP网采用TCP协议彼此相连,对多个信息源进行统一采集和处理、对结构化信息和非结构化信息进行联合搜索,并对搜索的结果按照业务规则进行排队显示,以根据用户的查询需求进行信息采集和查询。该***的体系结构和功能划分比较具体、合理,易于实现,而且具备比较好的扩展性和灵活性。

Description

用于电信信息台的信息采集和搜索***
技术领域
本发明涉及一种信息采集和查询***,确切地说,涉及一种用于***业务的这类电信信息台的信息采集和搜索***的体系架构。
背景技术
互联网智能信息采集(通常称之为网络爬虫)和信息搜索(通常称之为搜索引擎)技术目前仅在互联网的搜索服务中得到了比较好的应用,该技术主要用来搜集并保存网页内容数据,并对网页一类的非结构化文本信息进行索引和查询。通过输入关键词等查询条件,***在索引数据库中查找满足条件的信息,并按照预先设定的规则进行排序显示。
电信信息台的主要业务功能是向拨打信息台接入号码的用户准确提供所需要的信息,因此只有采用具有强大的信息采集和搜索功能的***才能满足其要求。与网页搜索不同的是,在业务接入方式上,信息台采用单一的接入号码,通过呼叫中心处理用户的呼入,并在排队机上将呼叫分发到坐席。在信息索引和查询上,***具有大量的结构化信息(指按照一定格式和要求保存的数据),以及相对少的非结构化信息(文本数据),结构化信息和非结构化信息之间可以通过关键词来实现关联。目前移动、固定电话已经非常普及,因此,通过对现有的***的业务***进行改造,采用更具灵活性和扩展性的体系结构来建设新的信息采集和搜索***,可以满足***在信息运营方面的需求。
信息采集和搜索***是电信信息台业务支撑***的一个重要组成部分,对丰富信息台的业务信息、提高查询的效率和准确度、降低查无率以及开展行业首查类等新业务具有重要作用。因此,电信信息台的信息采集和搜索***需要具备信息采集、加工、存储、发布、索引、查询、业务规则管理等必要的功能。要实现上述功能,***就必须支持从各种信息源获取数据,支持协作式的内容加工流程定义,需要实现对结构化数据和非结构化数据的联合搜索,并且将搜索的结果按照业务规则的要求进行排序显示。因此,该软件***需要设计良好的体系结构,以满足信息台业务发展的需求。一个设计合理的软件***结构,对整个***的实际运行具有重大作用。
发明内容
本发明的目的是为***的语音信息查询服务提供一种新颖的信息采集和信息搜索***,该***的体系结构和功能划分比较具体、合理,易于实现,而且具备比较好的扩展性和灵活性。
为实现本发明的目的,提供了一种用于***业务的信息采集和查询***。所述***至少包括信息采集服务器、数据存储服务器以及信息管理及运营服务器,其中,所述信息采集服务器用于处理各种信息源输入的信息,并通过IP网采用TCP协议与信息管理和运营服务器相连接;所述信息管理和运营服务器用于对信息、关键词表和业务规则进行管理并提供信息查询服务,并通过IP网采用TCP协议与数据存储服务器和信息采集服务器相连接;所述数据存储服务器用于存储***的各种数据;以及所述***通过信息采集服务器、数据存储服务器、信息管理和运营服务器对多个信息源进行统一采集和处理、对结构化信息和非结构化信息进行联合搜索,并对搜索的结果按照业务规则进行排队显示,以根据用户的查询需求进行信息采集和查询。
优选地,所述信息采集和查询***中的所述信息管理和运营服务器可以和多个信息采集服务器连接,并通过TCP协议将信息采集的相关配置参数发给信息采集服务器;所述信息采集服务器还包括:互联网信息采集模块,由信息采集服务器根据接收到的参数进行配置,用于按照所设定的参数对互联网上网站的内容进行抓取并通过TCP协议将数据传送给信息管理和运营服务器;综合业务支撑***IBSS码号信息变更处理模块,用于处理从IBSS送过来的发生变更的号码及单位名称、地址等信息,并对这些信息进行格式化处理;表单输入模块,用于处理手工输入的结构化信息,该模块可以按照行业定义输入的字段,并对输入的内容进行格式检查;任务输入模块,输入信息采集人员的信息搜集任务的具体内容;以及SP/CP信息输入接口模块,用于处理从SP/CP的***送过来的信息,并将数据格式转换为XML格式。
其中,所述互联网信息采集模块所运行参数包括:统一资源定位符URL、采集时间、搜索深度、搜索广度、网站的登录参数、信息分类关键词等等;以及所述的互联网信息采集模块还用于实时动态搜集互联网上各行业网站的信息,并通过其余模块添加补充信息来源,对原有的码号信息进行扩展,补充相关的增值信息,建立***业务信息数据库。
优选地,所述信息采集和查询***中的所述数据存储服务器还包括:业务信息数据库,其是标准的关系型数据库,用于存储信息台业务所需的所有数据、关键词表和业务规则,并实现相关的检索功能;数据转换/同步网关,用于将业务信息数据库中的结构化和非结构化内容数据同步复制到全文索引数据库;以及全文索引数据库,用于对同步过来的结构化和非结构化内容数据进行全文索引,并提供关键词检索接口。
优选地,所述信息采集和查询***中的所述信息管理和运营服务器还包括:信息采编模块,用于对信息采集服务器传送过来的信息进行处理;***管理模块,用于设置***访问权限、信息处理流程管理和信息内容的管理;关键词管理模块,用于管理关键词表的内容以及与关键词相关的业务规则,实现关键词与业务规则的绑定,以及对关键词销售情况的管理;统计分析模块,用于按预定规则分别对综合信息数据库中的信息进行统计;用户查询历史模块,用于显示某个用户最近查询过的问题,以帮助坐席对用户的需求进行分析,以及该模块还用于所有用户查询过的问题进行分析,挖掘出用户的需求和热门查询;以及关键词检索模块,用于根据关键词进行检索。
其中,所述信息采编模块引入信息可信度模型,该模型根据信息的所属行业、发布时间、所属网站的重要程度、网页的连接数量等参数评估该信息的可信程度,并优先对可信程度高的信息进行处理。
其中,所述信息可信度模型是一个对信息的可信度进行评价的处理模块,是信息采编模块的前置处理模块,用于对进入信息采编模块的信息的可信度进行评价并打分,以方便信息采编人员对重要信息进行优先处理。
优选地,所述信息采编模块对信息进行的处理包括:信息自动化智能处理,包括自动分类、自动排重、字段分析;以及信息的人工处理。
其中,所述关键词检索模块还包括:第二业务信息数据库,对应于所述***中的所述业务信息数据库,用于存储和管理各本地网的关键词表、业务规则、商家合同(商家ID、关键词ID、权值)和用户查询行为记录;以及全文数据库,对应于所述***中的所述全文索引数据库,用于存储经过审核的各本地网商家信息和互联网增值信息。
其中,所述关键词检索模块还包括:业务规则引擎模块,用于将用户提交的查询进行标准化分词处理,并结合存储业务信息数据库中的业务规则生成查询条件,然后用该查询条件对全文数据库的数据进行搜索;以及检索排序引擎模块,用于对搜索的结果按照业务规则进行排序显示。
本发明的优点是:(1)独立于呼叫中心的语音处理设备,因为该***实现的是对信息内容的处理和搜索,而将语音处理的功能留给呼叫中心平台去实现。因此该***可以方便地和各种呼叫中心平台进行集成使用,适用面广、通用性强。(2)可以支持多个信息采集服务器和灵活配置:在本发明的信息采集和查询***中,每个信息管理和运营服务器可以支持一个或多个信息采集服务器,这样,随着业务发展对信息量需求的增加和对互联网的接入情况,可以灵活进行信息采集服务器进行配置。例如,本发明可以根据用户的需求,随时增加(或去掉)相应的信息采集服务器。(3)良好的可维护性:在本发明的信息采集和查询***中,若需要修改某类信息处理的流程,只需要修改这一类信息的处理流程即可,而且这种修改不会影响其它类别信息的处理流程。如果需要新增某类信息的处理流程,也可以在***中通过配置就可以完成。(4)信息采集和搜索性能的可扩展性:本发明可以根据具体的情况,将信息采集服务器、数据存储服务器、信息管理和运营服务器的软件模块设置在不同的计算上运行,以实现整个***处理容量的可伸缩部署。
该***的实施对丰富***信息台的信息资源具有重要作用,同时可以增强***的信息运营水平,促进***业务由以号码信息为主向号码+多媒体资讯服务转变,为***业务的发展提供信息支持。
附图说明
从下面对以非限制性例子的方式提供的本发明优选实施例的描述以及从附随附图中,会更加清楚本发明的这些和其他特点、优点和有益效果,其中:
图1是根据本发明的用于电信信息台的信息采集和搜索***的组成结构示意图;
图2是根据本发明的信息搜索及结果处理模块组成结构示意图,是图1的关键词检索模块的具体实现;
图3是根据本发明的用于电信信息台的信息采集和搜索***的信息处理总体流程示意图。
具体实施方式
以下通过结合附图,对本发明的优选实施方式进行描述,应该理解,在这里描述的优选实施方式并不是限制性的说明,本领域技术人员可以根据本发明的原理,对本发明作出各种修改、改进而不会脱离随附权利要求所限定保护范围。
本发明的目的是为***的语音信息查询服务提供一种新颖的信息采集和信息搜索***,该***的体系结构和功能划分比较具体、合理,易于实现,而且具备比较好的扩展性和灵活性。
从技术上来讲,根据本发明的用于诸如***的语音信息查询服务的电信信息台的信息采集和搜索***,属于互联网智能信息采集和信息搜索技术领域,是一种利用智能Web信息采集服务器自动搜索互联网上信息台所需的内容,然后通过信息采编服务器定义对内容的处理流程并对内容进行加工、管理、存储、发布,话务员利用搜索引擎查询拨打信息台的用户所需信息的***。
本发明在该信息采集和查询***结构框架的基础上,还提供了一种将结构化信息和非结构化信息进行统一存储和索引的方法。该方法是通过将结构化信息放到XML(Extensible Markup Language,可扩展标记语言)文件中,与非结构化信息统一存储在中心信息库中,然后对这些信息进行统一索引生成。
下面结合附图对本发明的优选实施方式进行描述,以具体说明本发明的实现方法。
参见图1,其中示出了根据本发明的用于电信信息台的信息采集和搜索***的组成结构示意图。优选地,本发明是一种应用于***这类电信信息台的信息采集和搜索***。所述***包括:
用于处理各种信息源输入的信息采集服务器101,该信息采集服务器101通过IP网与信息管理和运营服务器103相连接。信息管理和运营服务器103通过IP(Internet Protocol,网际协议)网采用TCP(Transfer Control Protocol,传输控制协议)将信息采集的相关配置参数发给信息采集服务器101,信息采集服务器101根据接收到的参数对互联网信息采集模块1011进行参数配置,互联网信息采集模块1011按照所设定的参数对互联网上网站的内容进行抓取并通过TCP协议将数据传送给信息管理和运营服务器103。所述的互联网信息采集模块1011用于实时动态搜集互联网上各行业网站的信息,并通过其余模块添加补充信息来源,对原有的码号信息进行扩展,补充相关的增值信息,建立***业务信息数据库。
除了互联网信息采集模块1011外,信息采集服务器101还包括:IBSS(Integrated Business Support System,综合业务支撑***)码号信息变更处理模块1012、表单输入模块1013、任务输入模块1014、SP/CP(Service Provider/Content Provider,服务提供商/内容提供商)信息输入接口模块1015。IBSS码号信息变更处理模块1012用于处理从IBSS送过来的发生变更的号码及单位名称、地址等信息,并对这些信息进行格式化处理。表单输入模块1013用于处理手工输入的结构化信息,该模块可以按照行业定义输入的字段,并对输入的内容进行格式检查。任务输入模块1014用于输入信息采集人员的信息搜集任务的具体内容,例如,某某信息采集员的信息收集任务是在某个时间内完成某某社区的餐饮商家信息调查。SP/CP信息输入接口模块1015用于处理从SP/CP的***送过来的信息,并将数据格式转换为XML格式(如下所示)。上述模块将处理结果通过TCP协议将数据传送给信息管理和运营服务器103。
上述采用XML格式来实现数据的封装并通过标准的TCP协议传输,具体如下:
<?xml version=″1.0″?>
<contentdata version=″1.0″timestamp=″″>
<structure>
<unitname>
<namestring></namestring>
<alias></alias>
<level></level>
</unitname>
<callnumber>
<first></dirst>
<second></second>
</callnumber>
<address></address>
<linkman></linkman>
</structure>
<expand>
<trade></trade>
<comment></comment>
<general situation></general situation>
</expand>
</contentdata>
用于对信息、关键词表和业务规则进行管理并提供信息查询服务的信息管理和运营服务器103,通过IP网与数据存储服务器102和信息采集服务器101相连接。信息管理和运营服务器103将信息采集服务器101传送过来的数据通过网络保存在数据存储服务器102中。信息管理和运营服务器103的功能模块对数据存储服务器102中的数据进行处理,并将结果也保存在数据存储服务器102中。该信息管理和运营服务器103可以与一个或多个信息采集服务器101相连接。如果不部署集群,信息管理和运营服务器103只与一个数据存储服务器102连接,否则与多个数据存储服务器102连接。信息管理和运营服务器103包括以下模块:信息采编模块1031、***管理模块1032、关键词管理模块1033、统计分析模块1034、用户查询历史模块1035、以及关键词检索模块1036。
信息采编模块1031用于对信息采集服务器101传送过来的信息进行处理。具体地,所述信息采编模块1031引入信息可信度模型,该模型根据信息的所属行业(由关键词判断)、发布时间、所属网站的重要程度、网页的连接数量等参数评估该信息的可信程度,并优先对可信程度高的信息进行处理。其中,所述信息可信度模型是一个对信息的可信度进行评价的处理模块,是信息采编模块的前置处理模块,用于对进入信息采编模块的信息的可信度进行评价并打分,以方便信息采编人员对重要信息进行优先处理。信息采编模块对信息进行的处理具体如下:
a)信息的自动化智能处理
●自动分类
***支持两种分类方法:基于统计原理的自动分类和基于语义规则的规则分类。自动分类技术适用于用户基于内容的分类需求,规则分类技术适用于用户基于关键词的分类需求,通过两者的结合,为用户提供多级分类支持。用户可以根据具体需求选择一种或者“两种结合”的方式进行分类支持。
第一种:基于内容、不需人工干预的文本自动分类技术。***提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构,自动生成特征模板,进行分类训练。该自动分类支持反馈学习机制,可以根据用户的反馈自动对分类模板进行完善,从而逐步增加分类的准确率。
第二种:基于规则的文本分类技术。规则的书写满足与、或、非等逻辑运算规则,具有设定词频数功能。同时***提供方便的规则定义界面,用户可以根据需求书写和调整规则,达到预期的分类目标。
●自动排重
利用内容的相似性进行排重判断,可以设定排重的标准,比如剔除内容80%一样的信息。
●字段分析
对互联网采集的信息进行字段分析,根据信息结构的要求,将有用的信息填入记录的相应字段。
b)信息的人工处理功能
信息人工处理功能主要是指信息工作人员通过***的WEB界面,进行信息筛选、编辑、加工整理,以及审核签发等,将处理后的信息从原始资料库加入到综合信息数据库。其中审核签发过程以信息工作流的方式实现。
***管理模块1032用于设置***访问权限、信息处理流程管理和信息内容的管理,具体如下:
a)用户权限管理
该项功能主要是对***的用户进行管理,包括用户的角色设定、及相应的用户权限分配。***用户角色分为***管理员、信息工作人员、服务代表三种,用户身份可以重叠。
●***管理员又分为省公司***管理员和分公司***管理员,其中省公司***管理员拥有对整个***进行管理的权限和职责,分公司***管理员拥有对分公司子***进行管理的权限和职责。具体包括:***及数据的维护及***使用状况控制及用户信息管理及权限分配;
●信息工作人员包括信息加工处理人员及信息采集人员,信息加工处理人员拥有对指定分类(主题)和密级的信息进行处理以及情报信息浏览和存储的功能,信息采集人员则主要是录入信息,及浏览部分信息的权限。
●服务代表和其他业务人员则可以浏览查询***信息。
●***管理员能修改用户的秘级、浏览信息类目等信息。
b)流程管理:***提供平台方便信息工作人员对信息按工作流程进行管理。通过工作流定制功能,信息工作人员可以通过可视化编辑制作工作流程,并可以指定流程节点的动作,每个信息结点可以指定独立的工作流程。
可以将不同工作任务定义为不同的工作流,工作流上的节点代表用户、组织机构或角色,从开始到结束遵循设定的流程,在不同的信息点之间控制流转方向。节点的定义和工作流程的安排可以通过可视化界面进行编辑。
c)内容管理:
i.设置***的具体分类树视图
ii.为每一个分类树可选择设置采集的规则,例如学习集、信息过滤等。
d)采集管理:采集的来源、周期及各种其它参数的设置。主要来源类型包括:互联网、  局域网、  指定目录扫描、  邮箱采集、BBS
i.互联网采集设置:设定下载的网址组,为每一网址组设定下载间隔时间,下载层数等参数,可为网址组添加、删除、修改下载的网址
ii.局域网采集设置:设定企业内网组或域。每组或域可自动生成计算机列表,可具体设定那些计算机需要采集。注:只能采集共享信息。
iii.指定目录扫描:设定扫描目录组,可为每一组添加、修改、删除扫描目录。
iv.邮箱采集:设定采集邮箱组,可为每一组增加、修改、删除要采集的邮箱。
v.BBS论坛采集:定制要采集的论坛。
关键词管理模块1033用于管理关键词表的内容以及与关键词相关的业务规则,实现关键词与业务规则的绑定,以及对关键词销售情况的管理。
统计分析模块1034用于按预定规则分别对综合信息数据库中的信息进行统计,例如,所述预定规则可以是:
●日期:按总数、年、月来统计***所有文章及各类别文章的数量
●来源:按以下几种来源统计分别进行按总数、年和月的统计
●上传人:按不同的上传人员的统计
●编辑者:按编辑者统计信息数量,按总数、年和月。
●查询:按被查询信息的数量排名,按总的、年和月排名。用户查询历史模块1035用于显示某个用户最近查询过的问题,以帮助坐席对用户的需求进行分析。另外,该模块也可以对所有用户查询过的问题进行分析,挖掘出用户的需求和热门查询。
关键词检索模块1036用于根据关键词进行检索,其具体实现参见图2。该关键词检索模块可以进一步包括:业务信息数据库203,其对应于图1中的业务信息数据库1021;全文数据库204,其对应于图1中的全文索引数据库1023。业务信息数据库203存储和管理各本地网的关键词表、业务规则、商家合同(商家ID、关键词ID、权值)和用户查询行为记录;全文数据库204中存储经过审核的各本地网商家信息和互联网增值信息,并维护统一的检索关键词表,该检索关键词表与业务规则没有联系,只是为了提高检索的效率。
该关键词检索模块还包括:业务规则引擎1和业务规则引擎2。其中,业务规则引擎1,用于将用户提交的查询进行标准化分词处理,并结合存储业务信息数据库203中的业务规则生成查询条件,然后用该查询条件对全文数据库204的数据进行搜索,并通过检索排序引擎2对搜索的结果按照业务规则(比如按照购买该关键字的金额排序)进行排序显示。检索过程如下:
1)话务员输入关键词编码;
2)在业务逻辑引擎中判断,如果存在多个关键词,话务员选择一个;
3)如果存在关键词的定购信息,返回排好序的商家ID和区域信息,并根据业务规则修改关键词的权值;
4)返回查询历史纪录;
5)在检索排序引擎中,通过区域信息和商家ID返回商家的具体信息;
6)利用关键词进行全文检索,返回增值信息。
用于存储***各种数据的数据存储服务器102,通过标准的关系型数据库来保存***的业务信息数据,然后通过数据同步网关将数据同步复制到全文索引数据库(搜索引擎),然后在全文索引数据库对数据生成全文索引,坐席可采用关键字进行查询。
参见图3,本发明对信息的总体处理流程主要包括信息收集、信息处理和信息服务几大环节(见图1),主要实现互联网信息及其他来源信息搜集、整理的自动化、智能化,并提供信息处理、管理和服务的平台。
***传统的信息录入和搜索过程是:通过IBSS(IntegratedBusiness Support System,综合业务支撑***)***接口送过来的码号信息进入114***的人工处理的号线台,号线台主要的处理内容是对单位名称、地址名称等进行规范化处理,处理完成的信息输入114***的数据库。当用户成功呼入114***后,坐席根据用户的需求在***上利用关键字对数据库的字段进行查询,并将查询结果反馈给用户。
本方法通过对原有的信息录入和搜索过程进行完善和扩充,分为信息收集、信息处理和信息服务三个环节,信息收集环节负责处理各种信息源输入的信息,然后将这些信息放到原始信息库301中。其中,所述信息采集例如包括;通过将员工录入的信息进行WEB录入而存储在原始信息库301中;或者通过对互联网信息进行信息自动采集、自动分类和自动去重后的信息存储在原始信息库301中;或者将SP/CP信息或已有数据库中的信息通过数据接口模块而存储在原始信息库301中。然后,信息处理环节对原始信息库301中的信息进行编辑加工处理,通过审核后发布到综合信息数据库302中,以供坐席搜索使用。另外,综合信息数据库302中的数据被同步到***业务平台数据库303,以供全省各个本地网共享使用。信息服务环节则根据用户需求,例如通过自动发布、多途径检索、信息推送定制等方式为用户/服务代表提供正确的信息。
根据本发明的一个实施例,图3中原始信息库301和综合信息数据库302中的数据优选地保存在图1中的数据存储服务器102的业务信息数据库1021中(不同的数据表),图3中***业务平台数据库303中的数据保存在图1中的数据存储服务器102的全文索引数据库1023中。
以上通过结合附图对根据本发明的***业务的信息采集及搜索***进行了阐述,但本发明并不限于此。本领域技术人员知道,依据本发明原理,可以对本发明做出各种修改、改进,而不脱离本发明随附权利要求的范围。

Claims (10)

1.一种用于***业务的信息采集和查询***,所述***至少包括信息采集服务器、数据存储服务器以及信息管理及运营服务器,其中,
所述信息采集服务器用于处理各种信息源输入的信息,并通过IP网采用TCP协议与信息管理和运营服务器相连接;
所述信息管理和运营服务器用于对信息、关键词表和业务规则进行管理并提供信息查询服务,并通过IP网采用TCP协议与数据存储服务器和信息采集服务器相连接;
所述数据存储服务器用于存储***的各种数据;以及
所述***通过信息采集服务器、数据存储服务器、信息管理和运营服务器对多个信息源进行统一采集和处理、对结构化信息和非结构化信息进行联合搜索,并对搜索的结果按照业务规则进行排队显示,以根据用户的查询需求进行信息采集和查询。
2.如权利要求1所述的信息采集和查询***,其中,
所述信息管理和运营服务器可以和多个信息采集服务器连接,并通过TCP协议将信息采集的相关配置参数发给信息采集服务器;
所述信息采集服务器还包括:
互联网信息采集模块,由信息采集服务器根据接收到的参数进行配置,用于按照所设定的参数对互联网上网站的内容进行抓取并通过TCP协议将数据传送给信息管理和运营服务器;
综合业务支撑***IBSS码号信息变更处理模块,用于处理从IBSS送过来的发生变更的号码及单位名称、地址等信息,并对这些信息进行格式化处理;
表单输入模块,用于处理手工输入的结构化信息,该模块可以按照行业定义输入的字段,并对输入的内容进行格式检查;
任务输入模块,输入信息采集人员的信息搜集任务的具体内容;以及
SP/CP信息输入接口模块,用于处理从SP/CP的***送过来的信息,并将数据格式转换为XML格式。
3.如权利要求2所述的信息采集和查询***,其中,
所述互联网信息采集模块所运行参数包括:统一资源定位符URL、采集时间、搜索深度、搜索广度、网站的登录参数、信息分类关键词等等;以及
所述的互联网信息采集模块还用于实时动态搜集互联网上各行业网站的信息,并通过其余模块添加补充信息来源,对原有的码号信息进行扩展,补充相关的增值信息,建立***业务信息数据库。
4.如权利要求1所述的信息采集和查询***,其中,所述数据存储服务器还包括:
业务信息数据库,其是标准的关系型数据库,用于存储信息台业务所需的所有数据、关键词表和业务规则,并实现相关的检索功能;
数据转换/同步网关,用于将业务信息数据库中的结构化和非结构化内容数据同步复制到全文索引数据库;以及
全文索引数据库,用于对同步过来的结构化和非结构化内容数据进行全文索引,并提供关键词检索接口。
5.如权利要求1所述的信息采集和查询***,其中,所述信息管理和运营服务器还包括:
信息采编模块,用于对信息采集服务器传送过来的信息进行处理;
***管理模块,用于设置***访问权限、信息处理流程管理和信息内容的管理;
关键词管理模块,用于管理关键词表的内容以及与关键词相关的业务规则,实现关键词与业务规则的绑定,以及对关键词销售情况的管理;
统计分析模块,用于按预定规则分别对综合信息数据库中的信息进行统计;
用户查询历史模块,用于显示某个用户最近查询过的问题,以帮助坐席对用户的需求进行分析,以及该模块还用于所有用户查询过的问题进行分析,挖掘出用户的需求和热门查询;以及
关键词检索模块,用于根据关键词进行检索。
6.如权利要求5所述的信息采集和查询***,其中,
所述信息采编模块引入信息可信度模型,该模型根据信息的所属行业、发布时间、所属网站的重要程度、网页的连接数量等参数评估该信息的可信程度,并优先对可信程度高的信息进行处理。
7.如权利要求6所述的信息采集和查询***,其中,
所述信息可信度模型是一个对信息的可信度进行评价的处理模块,是信息采编模块的前置处理模块,用于对进入信息采编模块的信息的可信度进行评价并打分,以方便信息采编人员对重要信息进行优先处理。
8.如权利要求6所述的信息采集和查询***,其中,所述信息采编模块对信息进行的处理包括:
信息自动化智能处理,包括自动分类、自动排重、字段分析;以及
信息的人工处理。
9.如权利要求5所述的信息采集和查询***,其中,所述关键词检索模块还包括:
第二业务信息数据库,对应于所述***中的所述业务信息数据库,用于存储和管理各本地网的关键词表、业务规则、商家合同(商家ID、关键词ID、权值)和用户查询行为记录;以及
全文数据库,对应于所述***中的所述全文索引数据库,用于存储经过审核的各本地网商家信息和互联网增值信息。
10.如权利要求5所述的信息采集和查询***,其中,所述关键词检索模块还包括:
业务规则引擎模块,用于将用户提交的查询进行标准化分词处理,并结合存储业务信息数据库中的业务规则生成查询条件,然后用该查询条件对全文数据库的数据进行搜索;以及
检索排序引擎模块,用于对搜索的结果按照业务规则进行排序显示。
CN2006101542065A 2006-09-14 2006-09-14 用于电信信息台的信息采集和搜索*** Active CN101146152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101542065A CN101146152B (zh) 2006-09-14 2006-09-14 用于电信信息台的信息采集和搜索***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101542065A CN101146152B (zh) 2006-09-14 2006-09-14 用于电信信息台的信息采集和搜索***

Publications (2)

Publication Number Publication Date
CN101146152A true CN101146152A (zh) 2008-03-19
CN101146152B CN101146152B (zh) 2010-10-20

Family

ID=39208429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101542065A Active CN101146152B (zh) 2006-09-14 2006-09-14 用于电信信息台的信息采集和搜索***

Country Status (1)

Country Link
CN (1) CN101146152B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及***
CN102246171A (zh) * 2008-12-11 2011-11-16 微软公司 提供具有搜索结果的最近历史
CN102279849A (zh) * 2010-06-09 2011-12-14 中兴通讯股份有限公司 一种大数据查询的方法及***
CN101710927B (zh) * 2009-11-23 2013-04-10 中国电信股份有限公司 基于语音平台提供信息服务的方法和***
CN103455605A (zh) * 2013-09-04 2013-12-18 电子科技大学 一种内网环境文件深度检索方法
CN104615696A (zh) * 2015-01-23 2015-05-13 国家电网公司 一种95598知识库***及建设方法
CN104699777A (zh) * 2015-03-10 2015-06-10 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及***
CN104735097A (zh) * 2013-12-18 2015-06-24 青岛海尔空调器有限总公司 信息的收集方法和***
CN105718605A (zh) * 2016-05-02 2016-06-29 杨鹏 一种信息封闭运行的***及其运行方法
CN105930524A (zh) * 2016-05-28 2016-09-07 徐志勇 一种面向快速服务的大数据聚合方法
CN106294847A (zh) * 2016-08-22 2017-01-04 成都天地网络科技有限公司 基于数据挖掘的业务运营***
CN107484189A (zh) * 2017-07-27 2017-12-15 北京市天元网络技术股份有限公司 Lte数据处理***
CN109376191A (zh) * 2018-09-18 2019-02-22 深圳壹账通智能科技有限公司 财报数据处理方法、装置、计算机设备和存储介质
CN110377729A (zh) * 2019-06-11 2019-10-25 福建奇点时空数字科技有限公司 一种基于社会网络模型的团建活动实体相似度计算方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN112052283A (zh) * 2020-08-07 2020-12-08 上海刀奇智能科技有限公司 一种基于大数据分析采集的信息咨询服务平台
CN115687427A (zh) * 2022-11-25 2023-02-03 贵州电网有限责任公司 一种基于大数据的信息服务***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1157958A (zh) * 1996-12-06 1997-08-27 张熹 与国际互联网络联网的信息服务***
CN1132400C (zh) * 1999-09-15 2003-12-24 华为技术有限公司 在智能网上实现信息台接入管理业务的方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246171A (zh) * 2008-12-11 2011-11-16 微软公司 提供具有搜索结果的最近历史
CN101710927B (zh) * 2009-11-23 2013-04-10 中国电信股份有限公司 基于语音平台提供信息服务的方法和***
CN102279849A (zh) * 2010-06-09 2011-12-14 中兴通讯股份有限公司 一种大数据查询的方法及***
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及***
CN103455605A (zh) * 2013-09-04 2013-12-18 电子科技大学 一种内网环境文件深度检索方法
CN103455605B (zh) * 2013-09-04 2016-06-01 电子科技大学 一种内网环境文件深度检索方法
CN104735097A (zh) * 2013-12-18 2015-06-24 青岛海尔空调器有限总公司 信息的收集方法和***
CN104615696B (zh) * 2015-01-23 2018-05-01 国家电网公司 一种95598知识库***及建设方法
CN104615696A (zh) * 2015-01-23 2015-05-13 国家电网公司 一种95598知识库***及建设方法
CN104699777B (zh) * 2015-03-10 2019-06-11 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及***
CN104699777A (zh) * 2015-03-10 2015-06-10 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及***
CN105718605A (zh) * 2016-05-02 2016-06-29 杨鹏 一种信息封闭运行的***及其运行方法
CN105930524A (zh) * 2016-05-28 2016-09-07 徐志勇 一种面向快速服务的大数据聚合方法
CN106294847A (zh) * 2016-08-22 2017-01-04 成都天地网络科技有限公司 基于数据挖掘的业务运营***
CN107484189A (zh) * 2017-07-27 2017-12-15 北京市天元网络技术股份有限公司 Lte数据处理***
CN107484189B (zh) * 2017-07-27 2020-10-16 北京市天元网络技术股份有限公司 Lte数据处理***
CN109376191A (zh) * 2018-09-18 2019-02-22 深圳壹账通智能科技有限公司 财报数据处理方法、装置、计算机设备和存储介质
CN110377729A (zh) * 2019-06-11 2019-10-25 福建奇点时空数字科技有限公司 一种基于社会网络模型的团建活动实体相似度计算方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111368092B (zh) * 2020-02-21 2020-12-04 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN112052283A (zh) * 2020-08-07 2020-12-08 上海刀奇智能科技有限公司 一种基于大数据分析采集的信息咨询服务平台
CN115687427A (zh) * 2022-11-25 2023-02-03 贵州电网有限责任公司 一种基于大数据的信息服务***及方法

Also Published As

Publication number Publication date
CN101146152B (zh) 2010-10-20

Similar Documents

Publication Publication Date Title
CN101146152B (zh) 用于电信信息台的信息采集和搜索***
CN108257043B (zh) 一种政务信息资源梳理及目录管理***和方法
US6526438B1 (en) Method for distributing information to subscribers over a network
CN112364223B (zh) 一种数字档案馆***
JP2002297883A (ja) 知識情報管理方法、知識情報生成方法、知識情報利用方法および知識情報管理装置
JP2008508575A (ja) エコシステムを使用した集約および検索の方法、並びに、それらの関連技術
WO2007043893A2 (en) Information access with usage-driven metadata feedback
WO2004049138A2 (en) Method and apparatus for combining multiple search workers
CN101796795A (zh) 分布式***
EP1031101A1 (en) Dynamic organization model and management computing system and method therefor
CN102184257A (zh) 一种统一搜索方法、装置及***
CN109213819A (zh) 一种信息资源共享***
CN111949724A (zh) 一种知识产权大数据平台
CN110765233A (zh) 基于深度挖掘和知识管理技术的智能信息检索服务***
KR20050118182A (ko) 키워드를 이용한 데이터의 등록, 검색을 지원하는 장치
CN102024207A (zh) 一种与办公软件无缝结合的知识管理***
EP3523732B1 (en) Systems and methods for efficiently distributing alert messages
US7225221B2 (en) Method and system for retrieving information, and computer product
CN201210293Y (zh) 计算机辅助报告与知识库产生***
JPH0934957A (ja) ユーザ振る舞いの解析方法及び装置
US20030014610A1 (en) Experience sharing
Apers Identifying internet-related database research
JPH07225795A (ja) 知識の集積及び共有装置
Venkatraman et al. Intelligent information retrieval and recommender system framework
KR100327722B1 (ko) 지식관리시스템의지식체계등록및검색방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant