CN105988996B - 一种索引文件生成方法及装置 - Google Patents

一种索引文件生成方法及装置 Download PDF

Info

Publication number
CN105988996B
CN105988996B CN201510039519.5A CN201510039519A CN105988996B CN 105988996 B CN105988996 B CN 105988996B CN 201510039519 A CN201510039519 A CN 201510039519A CN 105988996 B CN105988996 B CN 105988996B
Authority
CN
China
Prior art keywords
data content
field
data
rewritten
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510039519.5A
Other languages
English (en)
Other versions
CN105988996A (zh
Inventor
朱锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510039519.5A priority Critical patent/CN105988996B/zh
Publication of CN105988996A publication Critical patent/CN105988996A/zh
Application granted granted Critical
Publication of CN105988996B publication Critical patent/CN105988996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种索引文件生成方法及装置,所述方法包括:获取业务数据,业务数据包括数据内容和业务类型;根据业务类型获取相对应的配置文件,配置文件包括对字段预处理指示以及分词处理指示;根据字段预处理指示,对数据内容进行预处理,生成预处理后的数据内容;根据分词处理指示,对预处理后的数据内容分别进行分词处理,对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。本发明方案可针对多种业务类型的数据统一建立索引文件,从而可简化建立过程,并提高效率。

Description

一种索引文件生成方法及装置
技术领域
本发明属于通信技术领域,尤其涉及一种索引文件生成方法及装置。
背景技术
随着计算机及互联网技术的迅速发展,在网络设备中所存储的信息量也越来越为庞大,为了便于对这些信息进行查询,往往需要通过建立索引文件等方式来协助用户对这些信息进行访问。
在现有技术中,一般都需要根据需要进行检索的数据的业务类型生成对应的顺排索引文件,然后对该顺排索引文件进行倒排处理,得到倒排索引文件,以便用户根据该倒排索引文件对该业务类型的数据进行检索。而对于不同业务类型的数据,由于其所涉及的关键字等因素不同,所以,在现有技术中,针对不同业务类型的数据,需要独立建立一个索引生成***,以生成索引供用户进行检索。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有方案的索引生成***只能针对一种业务类型,所以,在业务类型较多的场景下,需要搭建多套索引生成***,而这种***的建立对操作人员的专业水平要求较高,整个建立的过程较为耗时,效率低。
发明内容
本发明的目的在于提供一种索引文件生成方法及装置,可针对多种业务数据类型建立索引文件,简化建立过程,提高效率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明第一方面提供一种索引文件生成方法,其中所述方法包括:
获取业务数据,所述业务数据包括数据内容和业务类型;
根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;
根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;
根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;
对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明第二方面提供一种索引文件生成装置,其中所述装置包括:
第一获取模块,用于获取业务数据,所述业务数据包括数据内容和业务类型;
第二获取模块,用于根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;
预处理模块,用于根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;
分词模块,用于根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;
索引生成模块,用于对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
相对于现有技术,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1是本发明第一实施例提供的索引文件生成方法的流程示意图;
图2a为本发明第二实施例提供的索引文件生成方法的流程示意图;
图2b和图2c为本发明提供的索引文件生成方法字段的配置界面示意图;
图3a和图3b为本发明第三实施例提供的索引文件生成方法的流程示意图;
图4为本发明第四实施例提供的索引文件生成装置的结构示意图;
图5为本发明第五实施例提供的索引文件生成装置的结构示意图;
图6为本发明第六实施例提供的服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算***、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器***、微电脑为主的***、主架构型计算机、及分布式运算环境,其中包括了任何的上述***或装置。
本文所使用的术语「模块」可看做为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
而且本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
第一实施例
请参阅图1,图1是本发明第一实施例提供的索引文件生成方法的流程示意图。所述方法步骤包括:
在步骤S101中,获取业务数据,所述业务数据包括数据内容和业务类型。
其中,所述索引文件生成方法是基于BS(浏览器browser,服务器server)的***结构的,用户通过浏览器使用该***,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。
在本实施例中,所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据可以包括视频数据、音乐数据以及图片数据等,此处不作具体限定。
可以理解的是,本实施例中的业务数据的数据格式可以分为两个部分,其中一个部分承载指示业务类型的信息,另一个部分承载该业务类型对应的数据内容。
在步骤S102中,根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示。
可以理解的是,每一种业务类型会对应一种配置文件,其中,所述配置文件是用户根据实际操作中的业务类型的特点预先配置并存储在服务器中的。
其中,所述配置文件中包含了对所述数据内容的字段进行预处理的指示,以及对所述数据内容的字段进行分词的指示,所述配置文件根据用户对各业务数据的字段的配置来生成,此处对字段的配置不作具体限定。
在步骤S103中,根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容。
在步骤S104中,根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;
在步骤S105中,对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
可以理解的是,所述步骤S103至步骤S105可具体包括:
由于每一业务类型对应一配置文件,即每一业务类型对应一字段预处理指示,各个业务类型分别根据对应的字段预处理指示,对所述数据内容进行预处理,可以体现了不同业务类型之间的个性化差异操作;预处理后,可根据平台预设的分词模板以及预置好的分词处理指示进行处理,即进行归一化操作,将不同格式的业务数据,送入顺排处理单元(FSU,Forward Sort Unit)进行顺排索引生成,归一化为统一的数据格式,得到了归一化后的顺排数据,以适应多种业务类型的数据检索。
由上述可知,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
第二实施例
请参阅图2,图2为本发明第二实施例提供的索引文件生成方法的流程示意图。其中,本发明提供的索引文件生成方法是基于BS(浏览器,服务器)的***结构的,用户通过浏览器使用该***,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。
在本发明实施例中,主要针对配置文件的生成,即字段的属性值配置进行分析,所述方法步骤包括:
在步骤S201中,分别生成对应于不同业务类型的配置文件。
可以理解的是,每一种业务类型会对应一种配置文件,其中,所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据包括视频数据、音乐数据以及图片数据。
本实施例中,所述配置文件是用户根据实际操作中的业务类型的特点预先配置并存储在服务器中的,所述配置文件中包含了对所述数据内容的字段进行预处理的指示,以及对所述数据内容的字段进行分词的指示。
在优选的实施方式中,所述配置文件可以基于以下步骤得到:
步骤(1)、获取与业务类型对应的字段配置信息;
所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;
可以理解的是,本发明业务数据中包括数据内容和业务类型,所述数据内容中包括多个文档,文档由多个字段组成,其中字段的类型可以进行预置,包括文本域字段、数值域字段以及分类域字段。
进一步的,所述文本域字段是指纯文字信息的字段,比如:“我喜欢这个歌手”、“这首歌真好听”的字段等,所述数值域字段是指代表数值的数字或字母信息的字段,比如:“1”、“5”或“one”、“five”的字段等,所述分类域字段是指指示将数据进行分类的字段,比如:一首歌曲可以将其分为“摇滚类”、“爵士类”等,一个视频可以将其分为“电影”、“综艺”、“新闻”等。
另外,每个字段包括至少一个属性,也可称配置项,所述属性值由选择框的形式进行展示,以供用户进行选择和配置。
步骤(2)、根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。
根据用户对每种类型的字段的属性的属性值的配置,得到了与所述业务类型相对应的配置文件。
基于此,在进一步优选的实施方式中,可以基于以下具体方式来对所述多个字段的属性值进行配置,即步骤(2)可以具体包括:
步骤(21)、根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段。
本实施例中,所述文本域字段主要包含的是文字信息,且希望被用户搜索到的字段;所述文本域字段的属性可以包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合。
可一并参考图2b和图2c,图2b为字段的属性配置界面示意,图2c为用户自定义字段管理界面示意,以下对所述文本域字段的上述各属性的含义进行简单说明:
a、描述:指该字段代表的含义,起提示作用,该属性对搜索结果没有影响。
b、数据长度:指该字段文本的最大长度。目前根据字段是否大于256字节分为两档,最大长度大于256字节的字段称为长文本字段,其中在整个文本域中,只有一个字段可以配置为长文本字段。
c、主键:也就是主关键字(primary key),用来唯一标识一篇文档的字段,称为doc_id。其中,该字段设置为能转化成数字的值,具体的,doc_id的值为一个64位整数。由于该值应当在uint64_t的空间中均匀,因此可优选采用Hash值等产生,其中,Hash值是根据数据内容通过逻辑运算得到的数值,不同的文档得到的Hash值不同,Hash值就成了每一个文档的身份证。
d、重要性:是表示该文本字段的重要程度,可以分为重要、一般以及不重要等。
e、分词方式:分为正常分词和前缀分词。其中,正常分词是指按照对自然语义对文本进行分词,一般情况下可默认选择该方式;前缀分词适用于搜索框提示下拉框的场景。如“内部搜索平台部”会分成“内、内部、内部搜、内部搜索……”等词,这样用户在搜索框中输入“内部”时,就可以提示“内部搜索平台部”。
可以理解的是,可以根据该分词方式的配置可以得到分词处理指示,以根据分词处理指示进行对数据内容进行分词处理。
步骤(22)、根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段。
本实施例中,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合。
所述数值域字段适用于数值类型的信息。如售价、下载量等。该字段中的字符串值必须可以转化为数字。以下对所述数值域字段的各属性的含义进行简单说明:
a、描述:指该字段代表的含义,起提示作用,该属性对搜索结果没有影响。
b、数据类型:该实施例中配置项可以设置有int8,uint8,int16,uint16,int32,uint32,int64,uint64和float几种类型可供选择。用户根据该数值可能的最大范围来选择,如果提供的数据中实际值超过配置的范围,将会出错。
c、权威:用来表示该字段可以体现这篇文档的权威性。例如,对于视频搜索,可以选择观看数作为权威性字段。只有0或1个数值域字段可以指定为权威性字段。
d、重要性:是表示该字段的重要程度,可以分为重要、一般以及不重要等。
e、主键:与文本域字段的主键定义相同,也是指主关键字,用来唯一标识一篇文档的字段。称为doc_id。其中,该字段设置为能转化成数字的值,具体的,doc_id的值为一个64位整数;由于该值应当在uint64_t的空间中均匀,因此优选采用Hash值等产生。
步骤(23)、根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到配置后的分类域字段;
本实施例中,所述分类域字段的属性包括检索指定类别;
步骤(24)、根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。
在步骤S202中,获取业务数据。
其中,所述业务数据包括数据内容和业务类型;所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据可以包括视频数据、音乐数据以及图片数据等,此处不作具体限定。
可以理解的是,在生成对应于不同业务类型的配置文件后,将所述配置文件预置于服务器中,其后,在获取到用户数据的业务数据后,触发服务器根据其业务类型,从在预置的多个配置文件中调出与业务类型对应的配置文件,从而根据配置文件进行处理,生成索引文件。
在步骤S203中,根据所述业务类型获取相对应的配置文件。
可以理解的是,每一种业务类型会对应一种配置文件,其中,所述配置文件是用户根据步骤S201中的配置信息预先生成,并存储在服务器中的。
在步骤S204中,根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容。
由于每一业务类型对应一配置文件,即每一业务类型对应一字段预处理指示,各个业务类型分别根据对应的字段预处理指示,对所述数据内容进行预处理,如对业务推送数据的某些字段进行改写,数据清洗,补充数据标签等,可以体现不同业务类型之间的个性化差异操作。
在步骤S205中,对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息。
在某些实施方式中,可以获取预置的分词模板,按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。其中,所述服务器中预先设置了多个分词模块,可包括多个业务类型的数据模板,如音乐的数据,则数据模板中可包括歌手数据库、歌名数据库以及流派数据库等,对其进行分析,则可获悉该数据内容的属性信息;比如,若该数据内容属于音乐的业务类型,则属性信息是指歌曲的下载量、播放量等数值类型的属性。
在步骤S206中,根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,并对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件。
预处理后,可根据所述属性信息以及预置好的分词处理指示进行处理,即进行归一化操作,将不同格式的业务数据,归一化为统一的数据格式,得到了归一化后的顺排数据,以适应多种业务类型的数据检索。
可以理解的是,在进行预处理后,数据会进入顺排处理单元FSU,进行顺排索引生成。通过配置文件中配置好的分词处理指示,以及根据内置的几种分词模板进行数据处理,计算出wordid,词POS信息等搜索需要使用到的数据信息,最后将统一格式的顺排索引文件输出。
可以理解的是,在生成统一数据格式的顺排索引文件之后,还可以包括:
在步骤S207中,将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
由上述可知,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
第三实施例
请参阅图3a和图3b,为本发明第三实施例提供的索引文件生成方法的流程示意图。其中,本发明提供的索引文件生成方法是基于BS(浏览器,服务器)的***结构的,用户通过浏览器使用该***,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。
在本发明实施例中,主要针对数据内容进行预处理的过程进行分析,所述方法步骤包括:
在步骤S301中,获取业务数据。
其中,所述业务数据包括数据内容和业务类型;所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据可以包括视频数据、音乐数据以及图片数据等,此处不作具体限定。
可以理解的是,在生成对应于不同业务类型的配置文件后,将所述配置文件预置于服务器中,其后,在获取到用户数据的业务数据后,触发服务器根据其业务类型,从在预置的多个配置文件中调出与业务类型对应的配置文件,从而根据配置文件进行处理,生成索引文件。
在步骤S302中,根据所述业务类型获取相对应的配置文件。
可以理解的是,每一种业务类型会对应一种配置文件,其中,所述配置文件中包含了配置文件包括对字段预处理指示以及分词处理指示,所述配置文件是用户根据实际操作中的业务类型的特点预先配置并存储在服务器中的。
较为优选的,在获取业务数据(即步骤S301)之前,还可以包括:分别生成对应于不同业务类型的配置文件,具体的,可以先获取与业务类型对应的字段配置信息,其后根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。
其中,本发明实施例中,所述字段可以包括文本域字段、数值域字段和数值域字段,各个字段分别包括对应的属性,其后可根据各字段的配置信息的指示属性进行配置,从而生成配置文件;容易想到的是,生成对应于不同业务类型的配置文件的内容可参考上述实施例的步骤S201的描述进行具体实现,此处不再赘述。
可以理解的是,所述服务器中可以包括一索引数据预处理的动态库,主要是在获取到配置文件后,可以根据配置文件中的字段预处理指示,对所述数据内容进行预处理,从而生成预处理后的数据内容。
本实施例中,对所述数据内容进行预处理主要包括数据清洗以及数据改写,其中对于数据清洗以及数据改写的执行顺序不作限定,即既可以先进行数据清洗,再进行数据改写,也可以先进行数据改写,再进行数据清洗,还可以两者同时执行,两者之间互不影响,此处举例不构成对本发明的限定。
在一种可实施方式中,在获取到配置文件后,可以执行步骤S303A:
请参阅图3a,在步骤S303A中,根据配置文件中的字段预处理指示,先进行数据清洗,再进行数据改写;其中步骤S303A可具体包括:
步骤A、判断所述数据内容中是否存在垃圾字段;
根据判断结果,执行步骤A1或步骤A2;
步骤A1、若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写;
根据步骤A1的判断结果,执行步骤A11或步骤A12;
步骤A11、若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;
步骤A12、若不需要改写,则将所述删除后的数据内容作为预处理后的数据内容;
步骤A2、若不存在垃圾字段,则判断所述数据内容是否需要改写;
根据步骤A2的判断结果,执行步骤A21或步骤A22;
步骤A21、若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;是
步骤A22、若不需要改写,则将所述数据内容作为预处理后的数据内容。
在另一种可实施方式中,在获取到配置文件后,可以执行步骤S303B:
请参阅图3b,在步骤S303B中,根据配置文件中的字段预处理指示,先进行数据改写,再进行数据清洗;其中步骤S303B可具体包括:
B、判断所述数据内容是否需要改写;
根据判断结果,执行步骤B1或步骤B2;
B1、若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段;
根据步骤B1的判断结果,执行步骤B11或步骤B12;
B11、若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容;
B12、若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;
B2、若不需要改写,则判断所述数据内容中是否存在垃圾字段;
根据步骤B2的判断结果,执行步骤B21或步骤B22;
B21、若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容;
B22、若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。
进一步的,根据步骤S303A以及步骤S303B可知,数据清洗目的是去除数据内容中的垃圾字段,如标点符号等,这些垃圾内容会影响后续的检索体验,因此应该去除;而数据改写的目的是由于数据需要进行特殊处理,如将某些字段中的中英混合名分离成两个名字等,因此需要在索引数据生成前进行数据的预处理操作。
更进一步优选的,所述服务器还可以包括一原始数据预处理的动态库,最主要是对原始的业务数据进行处理,处理完后的数据作为上述预处理操作的数据输入,主要包括数据扩展、格式检查等,其中数据扩展是指部分业务推送的数据不够全面,不能满足用户的全部搜索要求,通过抓取互联网中的其他资源,补充业务的数据。如对视频、音乐的搜索,补充大量非默认***自有资源的数据;格式检查是指对业务推送过来的数据进行正确性校验,检查是否推送了和配置不符的数据类型和字段等,本发明对原始业务数据处理的过程不作具体限定。
在步骤S304中,对预处理后的数据内容进行分析以确定所述数据内容的属性信息;
在某些实施方式中,可以获取预置的分词模板,按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。其中,所述服务器中预先设置了多个分词模块,可包括多个业务类型的数据模板,如音乐的数据,则数据模板中可包括歌手数据库、歌名数据库以及流派数据库等,对其进行分析,则可获悉该数据内容的属性信息;比如,若该数据内容属于音乐的业务类型,则属性信息是指歌曲的下载量、播放量等数值类型的属性。
在步骤S305中,根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,并对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件。
预处理后,可根据所述属性信息以及预置好的分词处理指示进行处理,即进行归一化操作,将不同格式的业务数据,归一化为统一的数据格式,得到了归一化后的顺排数据,以适应多种业务类型的数据检索。
可以理解的是,在进行预处理后,数据会进入顺排处理单元FSU进行顺排索引生成。通过配置文件中配置好的分词处理指示,以及根据内置的几种分词模板进行数据处理,计算出wordid,词POS信息等搜索需要使用到的数据信息,最后将统一格式的顺排索引文件输出。
可以理解的是,在生成统一数据格式的顺排索引文件之后,还可以包括:
在步骤S306中,将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
结合上述内容,以下以一应用场景对通过所述方法生成的索引文件进行简单分析:
可以理解的是,该生成方法是基于BS(浏览器,服务器)的***结构的,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。首先,该平台已实现页面化配置,在接入业务数据后,需要告知平台当前业务数据都有哪些数据字段,每个字段的类型及属性值等,具体实现可参考第二实施例中的关于字段配置的内容,此处不再作具体描述。
比如:对于小说搜索业务,共有六个字段,其中四个字段作为文本域字段需要建立索引,有两个字段作为数值域字段提供给相关性打分使用。选择建立索引的字段将会对每一个字段进行语义分词,计算wordid,最终建立倒排索引,这些字段就是可以被用户搜索到的字段。
其中,分词方式规定了建立文本索引时,如何切分每一个字段中的词。常用的有正常分词、前缀分词、分类索引分词等。
正常分词就是对文本进行正常的语义分词,如“今天天气真好”,会被分成今天/天气/真/好四个词。前缀分词则将上述句子分成今/今天/今天天/今天天气/今天天气真/今天天气真好六个词,这种分词方式主要用于联想词提示功能。分类索引分词是一种较高级的用法,对于一些有分类的文本可以使用,如将小说分为武侠、言情、科幻等类别,使用分类索引分词建立索引之后,业务就可按照小说的类别进行查询,如查找名为“三体”且类别为科幻的小说。
优选的实施方式中,还可以提供指定域内检索的功能。比如:如果只想搜索书名为“三体”的书,而不想搜索到作者名包含“三体”的书,则可以使用指定域内检索的功能。平台会在索引项中增加特殊的字符,以标志这是一个域内检索的索引项。当用户请求时,也会加上相应的标志进行检索,这样可以直接通过索引求交的方式排除掉其他域中有“三体”这个词命中的文档。
由上述可知,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
第四实施例
为便于更好的实施本发明实施例提供的索引文件生成方法,本发明实施例还提供一种与上述索引文件生成方法相对应的索引文件生成装置。其中名词的含义与上述索引文件生成方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图4,图4为本发明第六实施例提供的索引文件生成装置的结构示意图,其中所述装置是基于BS(浏览器,服务器)的***结构的,用户通过浏览器使用该***,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。
所述装置包括:第一获取模块401、第二获取模块402、预处理模块403、分词模块404以及索引生成模块405。
其中所述第一获取模块401,用于获取业务数据,所述业务数据包括数据内容和业务类型;所述第二获取模块402,用于根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示。
可以理解的是,所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据可以包括视频数据、音乐数据以及图片数据等,此处不作具体限定。另外,本实施例中的业务数据的数据格式可以分为两个部分,其中一个部分承载指示业务类型的信息,另一个部分承载该业务类型对应的数据内容。
其中,每一种业务类型会对应一种配置文件,所述配置文件是用户根据实际操作中的业务类型的特点预先配置并存储在索引文件生成装置中的。
进一步的,所述配置文件中包含了对所述数据内容的字段进行预处理的指示,以及对所述数据内容的字段进行分词的指示,所述配置文件根据用户对各业务数据的字段的配置来生成,此处对字段的配置不作具体限定。
所述预处理模块403,用于根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;所述分词模块404,用于根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;所述索引生成模块405,用于对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
由于每一业务类型对应一配置文件,即每一业务类型对应一字段预处理指示,各个业务类型分别根据对应的字段预处理指示,对所述数据内容进行预处理,可以体现了不同业务类型之间的个性化差异操作;预处理后,可根据平台预设的分词模板以及预置好的分词处理指示进行处理,即进行归一化操作,将不同格式的业务数据,送入顺排处理单元FSU进行顺排索引生成,归一化为统一的数据格式,得到了归一化后的顺排数据,以适应多种业务类型的数据检索。
由上述可知,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
第五实施例
请参阅图5,图5为本发明第五实施例提供的索引文件生成装置的结构示意图。需要说明的是,本发明提供的索引文件生成装置是基于BS(浏览器,服务器)的***结构的,用户通过浏览器使用该***,该***支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。
其中所述索引文件生成装置可以包括:第一获取模块501、第二获取模块502、预处理模块503、分词模块504以及索引生成模块505,可以理解的是,该实施例中上述各功能模块的功能作用可对应参考第四实施例中的第一获取模块401、第二获取模块402、预处理模块403、分词模块404以及索引生成模块405的相关描述,此处不作赘述。
所述装置还包括:配置文件生成模块506,用于获取业务数据之前,分别生成对应于不同业务类型的配置文件。
可以理解的是,每一种业务类型会对应一种配置文件,其中,所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据包括视频数据、音乐数据以及图片数据。本实施例中,所述配置文件是用户根据实际操作中的业务类型的特点预先配置并存储在服务器中的,所述配置文件中包含了对所述数据内容的字段进行预处理的指示,以及对所述数据内容的字段进行分词的指示。
在优选的实施方式中,所述配置文件可以基于以下方式得到:
所述配置文件生成模块506包括:获取单元5061以及配置单元5062;
其中所述获取单元5061,用于获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段。
可以理解的是,本发明业务数据中包括数据内容和业务类型,所述数据内容中包括多个文档,文档由多个字段组成,其中字段的类型可以进行预置,包括文本域字段、数值域字段以及分类域字段。另外,每个字段包括至少一个属性,也可称配置项,所述属性值由选择框的形式进行展示,以供用户进行选择和配置。
所述配置单元5062,用于根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。
基于此,在进一步优选的实施方式中,可以基于以下具体方式来对所述多个字段的属性值进行配置;所述配置单元5062可以包括:第一配置子单元、第二配置子单元、第三配置子单元以及生成子单元;
所述第一配置子单元,用于根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;
其中,所述文本域字段的各属性的含义简单说明如下:
描述是指该字段代表的含义,起提示作用,该属性对搜索结果没有影响;
数据长度是指该字段文本的最大长度。目前根据字段是否大于256字节分为两档,最大长度大于256字节的字段称为长文本字段,其中在整个文本域中,只有一个字段可以配置为长文本字段;
主键也就是主关键字,用来唯一标识一篇文档的字段,称为doc_id。该字段必须为能转化成数字的值。具体的,doc_id的值为一个64位整数;由于该值应当在uint64_t的空间中均匀,因此优选采用Hash值等产生,其中,Hash值是根据数据内容通过逻辑运算得到的数值,不同的文档得到的Hash值不同,Hash值就成了每一个文档的身份证;
重要性是表示该文本字段的重要程度,可以分为重要、一般以及不重要等;
分词方式分为正常分词和前缀分词。其中,正常分词是指按照对自然语义对文本进行分词,一般情况下可默认选择该方式;前缀分词适用于搜索框提示下拉框的场景。
所述第二配置子单元,用于根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;
所述数值域字段适用于数值类型的信息。如售价、下载量等。该字段中的字符串值必须可以转化为数字。其中,所述数值域字段的各属性的含义简单说明如下:
描述是指该字段代表的含义,起提示作用,该属性对搜索结果没有影响;
数据类型是该实施例中配置项可以设置有int8,uint8,int16,uint16,int32,uint32,int64,uint64和float几种类型可供选择。用户根据该数值可能的最大范围来选择,如果提供的数据中实际值超过配置的范围,将会出错;
权威用来表示该字段可以体现这篇文档的权威性。例如,对于视频搜索,可以选择观看数作为权威性字段。只有0或1个数值域字段可以指定为权威性字段;
重要性是表示该字段的重要程度,可以分为重要、一般以及不重要等;
主键与文本域字段的主键定义相同,也是指主关键字,用来唯一标识一篇文档的字段。称为doc_id。其中,该字段必须为能转化成数字的值。具体的,doc_id的值为一个64位整数;由于该值应当在uint64_t的空间中均匀,因此优选采用Hash值等产生。
所述第三配置子单元,用于根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到配置后的分类域字段,所述分类域字段的属性包括检索指定类别;所述生成子单元,用于根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。
进一步优选的,所述预处理模块503可以根据配置文件中的字段预处理指示对数据内容进行预处理,对所述数据内容进行预处理主要包括数据清洗以及数据改写,其中对于数据清洗以及数据改写的执行顺序不作限定,即既可以先进行数据清洗,再进行数据改写,也可以先进行数据改写,再进行数据清洗,还可以两者同时执行,两者之间互不影响,此处举例不构成对本发明的限定。
基于此,在一种可实施方式中,所述预处理模块503先进行数据清洗,再进行数据改写,所述预处理模块503可以包括:第一判断单元5031、第一处理单元5032以及第二处理单元5033;
其中,所述第一判断单元5031,用于判断所述数据内容中是否存在垃圾字段;
所述第一处理单元5032,用于若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;若不需要改写,则将所述删除后的数据内容作为预处理后的数据内容;
所述第二处理单元5033,用于若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。
在另一种可实施方式中,所述预处理模块503先进行数据改写,再进行数据清洗,所述预处理模块503可以包括:第二判断单元5034、第三处理单元5035以及第四处理单元5036;
其中,所述第二判断单元5034,用于判断所述数据内容是否需要改写;
所述第三处理单元5035,用于若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;
所述第四处理单元5036,用于若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。
更进一步的,所述分词模块504可以包括:属性信息确定单元,用于对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息;分词单元,用于根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,生成分词处理后的数据内容。
在某些实施方式中,所述属性信息确定单元可以包括:获取子单元,用于获取预置的分词模板;确定子单元,用于按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。其中,所述服务器中预先设置了多个分词模块,可包括多个业务类型的数据模板,如音乐的数据,则数据模板中可包括歌手数据库、歌名数据库以及流派数据库等,对其进行分析,则可获悉该数据内容的属性信息。
预处理后,可根据所述属性信息以及预置好的分词处理指示进行处理,即进行归一化操作,将不同格式的业务数据,归一化为统一的数据格式,得到了归一化后的顺排数据,以适应多种业务类型的数据检索。
可以理解的是,在进行预处理后,数据会进入顺排处理单元FSU进行顺排索引生成。通过配置文件中配置好的分词处理指示,以及根据内置的几种分词模板进行数据处理,计算出wordid,词POS信息等搜索需要使用到的数据信息,最后将统一格式的顺排索引文件输出。
可以理解的是,在生成统一数据格式的顺排索引文件之后,所述装置还可以包括:转换模块507,用于将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
由上述可知,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
第六实施例
本发明实施例还提供一种服务器,其中可以集成本发明实施例的索引文件生成装置,如图6所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、射频(Radio Frequency,RF)电路603、电源604、输入单元605、以及显示单元606等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
RF电路603可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器601处理;另外,将涉及上行的数据发送给基站。通常,RF电路603包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,LowNoise Amplifier)、双工器等。此外,RF电路603还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System ofMobilecommunication)、通用分组无线服务(GPRS,General PacketRadio Service)、码分多址(CDMA,Code DivisionMultiple Access)、宽带码分多址(WCDMA,Wideband Code DivisionMultiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,ShortMessaging Service)等。
服务器还包括给各个部件供电的电源604(比如电池),优选的,电源可以通过电源管理***与处理器601逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元605,该输入单元605可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元606,该显示单元606可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元608可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。
具体在本实施例中,服务器中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
优选的,所述处理器601还用于:分别生成对应于不同业务类型的配置文件。
进一步的,获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。
优选的,所述处理器601还用于:判断所述数据内容中是否存在垃圾字段;
若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;若不需要改写,则将所述删除后的数据内容作为预处理后的数据内容;
若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。
优选的,所述处理器601还用于:判断所述数据内容是否需要改写;
若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;
若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。
优选的,所述处理器601还用于:
根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;
根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;
根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到配置后的分类域字段,所述分类域字段的属性包括检索指定类别;
根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。
优选的,所述处理器601还用于:对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息;根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,生成分词处理后的数据内容。
进一步的,将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
优选的,所述处理器601还用于:获取预置的分词模板;按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。
可以理解的是,在上述的实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文对应的索引文件生成方法的详细描述,此处不再赘述。
由上述可知,本实施例提供的服务器,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本发明针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。
本发明实施例提供的所述索引文件生成装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述索引文件生成装置与上文实施例中相对应的索引文件生成方法属于同一构思,在所述索引文件生成装置上可以对应运行所述索引文件生成方法实施例中提供的任一方法,其具体实现过程详见对应的所述索引文件生成方法实施例,此处不再赘述。
需要说明的是,对本发明所述索引文件生成方法而言,本领域普通测试人员可以理解实现本发明实施例所述索引文件生成方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述索引文件生成方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)等。
对本发明实施例的索引文件生成装置而言,其各功能模块可以分别集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种索引文件生成方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种索引文件生成方法,其特征在于,所述方法包括:
获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;
根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件,以分别生成对应于多种不同业务类型的配置文件;
获取业务数据,所述业务数据包括数据内容和业务类型;
根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示,其中,每一业务类型对应一字段预处理指示;
针对各个业务类型,根据对应的字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,以体现不同业务类型之间的个性化差异操作,其中对所述数据内容进行预处理包括数据清洗以及数据改写;
按照预置的分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息,所述预置的分词模板包括不同业务类型的数据模板;
根据所述分词处理指示以及所述属性信息,对所述预处理后的数据内容分别进行分词处理,并对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件,以对不同业务类型的数据进行归一化操作,其中所述数据格式分为两个部分,其中一个部分承载指示业务类型的信息,另一个部分承载该业务类型对应的数据内容。
2.根据权利要求1所述的索引文件生成方法,其特征在于,所述根据对应的字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:
判断所述数据内容中是否存在垃圾字段;
若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;
若不需要改写,则将所述删除后的数据内容作为预处理后的数据内容;
若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。
3.根据权利要求1所述的索引文件生成方法,其特征在于,所述根据对应的字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:
判断所述数据内容是否需要改写;
若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;
若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。
4.根据权利要求1所述的索引文件生成方法,其特征在于,所述根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件,包括:
根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;
根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;
根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到配置后的分类域字段,所述分类域字段的属性包括检索指定类别;
根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。
5.根据权利要求1所述的索引文件生成方法,其特征在于,所述对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件之后,还包括:
将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
6.一种索引文件生成装置,其特征在于,所述装置包括:
配置文件生成模块,包括获取单元、配置单元;
所述获取单元,用于获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;
所述配置单元,用于根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件,以分别生成对应于多种不同业务类型的配置文件;
第一获取模块,用于获取业务数据,所述业务数据包括数据内容和业务类型;
第二获取模块,用于根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示,其中,每一业务类型对应一字段预处理指示;
预处理模块,用于针对各个业务类型,根据对应的字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,以体现不同业务类型之间的个性化差异操作,其中对所述数据内容进行预处理包括数据清洗以及数据改写;
分词模块,包括属性信息确定单元、分词单元;
所述属性信息确定单元,用于按照预置的分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息,所述预置的分词模板包括不同业务类型的数据模板;
所述分词单元,用于根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词;
索引生成模块,用于对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件,以对不同业务类型的数据进行归一化操作,其中所述数据格式分为两个部分,其中一个部分承载指示业务类型的信息,另一个部分承载该业务类型对应的数据内容。
7.根据权利要求6所述的索引文件生成装置,其特征在于,所述预处理模块,包括:
第一判断单元,用于判断所述数据内容中是否存在垃圾字段;
第一处理单元,用于若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;若不需要改写,则将所述删除后的数据内容作为预处理后的数据内容;
第二处理单元,用于若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。
8.根据权利要求6所述的索引文件生成装置,其特征在于,所述预处理模块,包括:
第二判断单元,用于判断所述数据内容是否需要改写;
第三处理单元,用于若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;
第四处理单元,用于若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。
9.根据权利要求6所述的索引文件生成装置,其特征在于,所述配置单元,包括:
第一配置子单元,用于根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;
第二配置子单元,用于根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;
第三配置子单元,用于根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到配置后的分类域字段,所述分类域字段的属性包括检索指定类别;
生成子单元,用于根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。
10.根据权利要求6所述的索引文件生成装置,其特征在于,所述装置还包括:
转换模块,用于将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。
11.一种计算机可读存储介质,其存储有计算机程序,其中,所述计算机程序使得计算机执行如权利要求1至5任一项所述的方法。
12.一种服务器,包括处理器和存储器,所述存储器存储有用于索引文件生成的计算机程序,其中,所述处理器加载所述存储器的计算机程序执行如权利要求1至5任一项所述的方法。
CN201510039519.5A 2015-01-27 2015-01-27 一种索引文件生成方法及装置 Active CN105988996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510039519.5A CN105988996B (zh) 2015-01-27 2015-01-27 一种索引文件生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510039519.5A CN105988996B (zh) 2015-01-27 2015-01-27 一种索引文件生成方法及装置

Publications (2)

Publication Number Publication Date
CN105988996A CN105988996A (zh) 2016-10-05
CN105988996B true CN105988996B (zh) 2020-04-10

Family

ID=57034424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510039519.5A Active CN105988996B (zh) 2015-01-27 2015-01-27 一种索引文件生成方法及装置

Country Status (1)

Country Link
CN (1) CN105988996B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241713B (zh) * 2016-12-27 2021-12-28 南京烽火星空通信发展有限公司 一种基于多元切分的倒排索引检索方法
CN107179953B (zh) * 2017-03-31 2020-04-03 北京奇艺世纪科技有限公司 一种索引文件生成方法、装置及***
CN107256206B (zh) * 2017-05-24 2021-04-30 北京京东尚科信息技术有限公司 字符流格式转换的方法和装置
CN109327321B (zh) * 2017-08-01 2021-10-15 中兴通讯股份有限公司 网络模型业务执行方法、装置、sdn控制器及可读存储介质
CN108062297B (zh) * 2017-11-22 2021-06-15 深圳市亿图软件有限公司 一种pdf文件文本域的创建方法、创建装置及终端设备
CN109241098B (zh) * 2018-08-08 2022-02-18 南京中新赛克科技有限责任公司 一种分布式数据库的查询优化方法
CN109783444A (zh) * 2018-12-26 2019-05-21 亚信科技(中国)有限公司 多通道文件索引方法、装置、计算机设备和存储介质
CN110427368B (zh) * 2019-07-12 2022-07-12 深圳绿米联创科技有限公司 数据处理方法、装置、电子设备及存储介质
CN110489417B (zh) * 2019-07-25 2023-03-28 深圳壹账通智能科技有限公司 一种数据处理方法及相关设备
CN110990126A (zh) * 2019-12-12 2020-04-10 北京明略软件***有限公司 基于js的快捷前端业务页面实现方法及装置
CN113468393A (zh) * 2021-06-09 2021-10-01 北京达佳互联信息技术有限公司 索引生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567418A (zh) * 2010-12-23 2012-07-11 北大方正集团有限公司 一种数据整合、搜索的方法及装置
CN104199977A (zh) * 2014-09-24 2014-12-10 浪潮软件股份有限公司 一种基于数据库中数据创建信息搜索的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032703A1 (en) * 2008-05-30 2014-01-30 Matthew A. Wormley System and method for an expandable computer storage system
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567418A (zh) * 2010-12-23 2012-07-11 北大方正集团有限公司 一种数据整合、搜索的方法及装置
CN104199977A (zh) * 2014-09-24 2014-12-10 浪潮软件股份有限公司 一种基于数据库中数据创建信息搜索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
企业非结构化数据检索研究;徐树振 等;《信息技术》;20140425(第4期);第196-200页 *

Also Published As

Publication number Publication date
CN105988996A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN105988996B (zh) 一种索引文件生成方法及装置
US9336202B2 (en) Method and system relating to salient content extraction for electronic content
US10235427B2 (en) Entity-driven logic for improved name-searching in mixed-entity lists
WO2019086996A1 (en) Ranking of documents based on their semantic richness
EP3016003A1 (en) Search method, apparatus and device and non-volatile computer storage medium
US20200204688A1 (en) Picture book sharing method and apparatus and system using the same
CN111666383A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
CN110245357B (zh) 主实体识别方法和装置
CN102004633B (zh) 一种处理控件属性的方法及装置
CN111858581B (zh) 一种分页查询的方法、装置、存储介质和电子设备
CN101777067A (zh) 一种用于移动通讯设备终端的网页内容识别管理***
CN104978341A (zh) 一种文件处理方法、设备和网络***
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN112115228A (zh) 搜索方法、装置、终端及存储介质
WO2018133228A1 (zh) 一种管理应用片段的方法和终端设备
US11669555B2 (en) System and method of creating index
CN109803173B (zh) 一种视频转码方法、装置及存储设备
CN112307273A (zh) 信息查询方法、装置及电子设备
CN112052361A (zh) 搜索方法、装置、终端及存储介质
CN113127502B (zh) 关系型数据库动态扩展的方法、装置及终端设备
CN115422131B (zh) 业务审核知识库检索方法、装置、设备和计算机可读介质
CN117593059B (zh) 搜索广告过滤方法、装置、存储介质以及电子设备
JP2010501927A (ja) コンテンツ検索システムを搭載した情報端末機
CN117149951A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN112380410A (zh) 信息处理方法、装置和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant