CN1845104B - 信息智能检索加工的***和方法 - Google Patents

信息智能检索加工的***和方法 Download PDF

Info

Publication number
CN1845104B
CN1845104B CN2006100813676A CN200610081367A CN1845104B CN 1845104 B CN1845104 B CN 1845104B CN 2006100813676 A CN2006100813676 A CN 2006100813676A CN 200610081367 A CN200610081367 A CN 200610081367A CN 1845104 B CN1845104 B CN 1845104B
Authority
CN
China
Prior art keywords
data
search
information
processing
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006100813676A
Other languages
English (en)
Other versions
CN1845104A (zh
Inventor
赵开灏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2006100813676A priority Critical patent/CN1845104B/zh
Publication of CN1845104A publication Critical patent/CN1845104A/zh
Priority to JP2007132174A priority patent/JP2007317188A/ja
Priority to PCT/CN2007/001662 priority patent/WO2007143899A1/zh
Priority to US11/918,551 priority patent/US20080235190A1/en
Priority to SM200800032T priority patent/SMAP200800032A/it
Priority to DE112007000053T priority patent/DE112007000053T5/de
Priority to KR1020070049690A priority patent/KR20070112730A/ko
Application granted granted Critical
Publication of CN1845104B publication Critical patent/CN1845104B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息智能检索加工的***和方法,该***包括数据智能加工子***、加工用数据库、发布与管理模块、检索用数据库、智能检索服务子***,其中发布与管理模块包括数据发布与同步模块、数据开放管理模块;该***对数据进行加工,将数据分为12大类。本发明的信息智能检索加工的方法,包括:输入检索条件;预处理;搜索请求细分为简单直接搜索、高级组合搜索、分类浏览搜索、全文检索以及智能逻辑搜索,前三种搜索方式将直接通过关系搜索引擎进行搜索,全文检索将通过全文检索引擎进行检索,智能逻辑搜索将通过逻辑关系演算进行查询条件重组后再由关系搜索引擎进行搜索;获得搜索结果后,返回搜索结果。

Description

信息智能检索加工的***和方法
技术领域
本发明涉及一种信息智能检索加工的***和方法,尤其涉及一种文本、图像、音频、视频的智能检索加工的***和方法。
背景技术
数据信息和文档的有效检索和加工,是数据库应用领域中的核心和重要内容,广泛存在于各种电子数据、文献、商业数据库资源和互联网内容搜索的应用当中。
目前这一领域中的数据信息检索技术,一般是基于关键词的统计方法,用关键词的布尔表达式作为查询语句。对于文件数据库,使用关键词加关键词出现在文件中位置的字典,通过比较查询语句的关键词与文件数据库字典中的关键词,找到相应文件。另外,有些改进采用了模糊逻辑模型、向量空间模型和概率检索模型等。
但是这些方式只能实现以整篇文档为单位的检索,而且对于检索关键词与整篇文档之间的相似性程度,目前均处于努力提高和改善阶段,尚无满意的解决方案,导致无法实现信息检索结果的精准。如:无法找到同义不同形的关键词,或找到的是同形不同义的关键词。对于整篇文档内部包含的各类数据和信息,这些方式无法进行单独识别、区分,并进行基于知识属性关系的加工和利用,更无法实现不同文档内容之间的交叉分析和比较,以及在不同文档之间实现信息内容的多次加工利用。
目前各种数据库中的知识处理和检索结果均以整篇文档为最小单位,由于整篇文档中所含的知识属性非常丰富,所以这种方式在知识处理和检索结果提供环节均存在问题。
在知识处理环节,目前操作都是通过主题词标引、个别关键词标注、文档摘要方式对整篇文档进行属性标识,并作为检索过程中的检索关键词,这种方式远不能完全反映整篇文档中的全部知识信息,最终结果表现为检索结果中的文档缺失。
在检索结果提供环节,整篇文档中所携带的大量非相关信息会产生信息冗余和噪音,影响结果的精准,最终结果表现为检索结果中的文档泛滥、有效性降低。
发明内容
为了解决上述存在的问题,本发明提供一种新型的信息智能检索加工***和方法,可以解决数据信息和文档中所包含的各类的检索问题,更可以满足文档中不同关键词之间、不同文档间的关键词之间,进行信息、知识的比较、分析、重新建立关系等信息数据的智能加工要求,能够支持诸如“隐含指代”等较为复杂的搜索请求;同时通过***支持的多格式位置表达技术,包含文本、图像、音频、视频等多种介质格式在内的内容都可以得到检索和加工。
本发明通过以下方案实现:一种信息智能检索加工的***,包括数据智能加工子***、加工用数据库、发布与管理模块、检索用数据库、智能检索服务子***,其中发布与管理模块包括数据发布与同步模块、数据开放管理模块;
其中所述数据智能加工子***对数据进行智能加工,将数据处理成深度拆解和标引的单元内容以及灵活准确的智能索引信息,存入加工用数据库中,加工用数据库中还存储着大量标志信息以及为了加快加工而生成的中间结果;
所述发布与管理模块完成将经过审批的内容和索引信息与智能检索服务子***显示的数据进行同步;数据同步由数据发布与同步模块执行,将加工用数据库的内容同步到检索用数据库,将检索过程中的反馈信息从检索用数据库同步到加工用数据库中;数据开放管理模块负责对数据访问进行权限设置;
所述智能检索服务子***提供智能检索服务平台,对来自用户的搜索请求进行统一处理,查询检索用数据库,智能检索相关内容。
一种信息智能检索加工的方法,其步骤为:
1、输入检索条件;除了目前大多数的检索服务***提供的关键词输入和索引浏览两种输入方式之外,本***中还可通过字根、笔顺输入法输入Unicode字库中包含或未包含的大量偏稀汉字;
2、对检索条件进行预处理,这其中包含了代码转换和索引复杂度评估;
3、搜索请求细分为常规的简单直接搜索、高级组合搜索、分类浏览搜索、全文检索以及智能逻辑搜索,前三种搜索方式将直接通过关系搜索引擎进行搜索,全文检索将通过全文检索引擎进行检索,而智能逻辑搜索将会通过逻辑关系演算进行查询条件重组后再由关系搜索引擎进行搜索;
4、通过关系搜索引擎或全文检索引擎获得搜索结果后,返回搜索结果。
本发明建立以深度拆解和标引文本内容以及建立高度灵活智能索引机制为基础的多介质检索方法和索引***。通过设计和实现三元关系模型以及对汉字字词之间关系的多角度描述;建立了灵活高效的交叉索引体系;并且在这个交叉索引***基础上,实现了具有语义分析功能的智能检索技术;同时通过对内容标引方法的规范化,使得字词和内容的关联比对更加智能化,能够支持诸如“隐含指代”等较为复杂的搜索请求;同时通过智能***支持的多格式位置表达技术,包含文字以及图像、表格、音频、视频等多种介质格式在内的内容都可以得到检索。
本发明具有如下显著优点:
1、能够实现信息内容检索的精准化,真正符合检索意愿,最大限度减少检索结果的冗余。
2、能够满足检索过程中的使用者随机需求。
3、能够通过***丰富的知识背景和准确的知识发散路径,提供基于知识而非信息的检索结果。
4、能够实现任意知识源间基于知识元层次的全新的信息内容组合和知识组合,实现任意信息内容基于人、事、时、地、物等人类基本生产、生活、活动通用属性之间的交叉比对,实现对文本、图像、音频、视频等多种介质格式在内的内容进行二次加工,可自动生成二次、三次或多次文献。
5、能够实现对海量知识的活化和二次加工,实现信息向知识的快速有序转化。
6、涵盖人类生产、生活、活动中的各方面及不同的知识点,解决了海量信息检索中最佳知识路径问题,体现出较好的完备性。
7、完全对应于人类对知识的主观需求,具有很好的通用性和适用性,可正向、逆向进行检索,便于查询与记忆,操作方便,不需培训。
附图说明
图1是本发明的索引三元关系模型的典型情况;
图2是本发明的实施例中人物索引关键词之间的关系;
图3是本发明的实施例中关系关键词之间的关系;
图4是本发明的实施例中“逆关系”的推演路径;
图5是本发明的实施例中“二次传递”的推演路径;
图6是本发明的实施例中“相同主词”的推演路径;
图7是本发明的实施例中“对称”的推演路径;
图8是本发明的***框图;
图9是本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行更详细的描述。
本发明的出发点是拆解被搜索或处理的信息内容的内在含义和结构,在此基础上构建搜索和加工体系。因此,本发明将完全不受文本比对的限制,能够一方面做到含义的精确,即不包含无关或仅仅是字面相同的信息;一方面做到信息的完备,即能够包含字面不同但含义相同或具有用户指定关联特征的信息。
另一方面,本发明建立了高度灵活的智能索引机制,并在此基础上一方面充分保证各种分类信息的科学性,另一方面具备符合人们各种习惯和约定的易用性。
本发明并不排斥现有的搜索引擎和搜索服务***,相反地,本发明可以和现有搜索引擎和搜索服务***很好的集成,在不同的搜索需求下发挥相应的功能,并组合出更强大的搜索服务能力。
本发明中,准确的内容检索的实现,是对以“知识”形式出现的检索结果进行拆解。这种拆解包括两个层次,一是对检索结果本身进行拆分,形成了以完整、独立含义为特征的“知识单元”或“知识片”;二是对内容中包含的关键词进行了提取,增加关键词的含义相关度信息及加强了具有“隐含指代”等关系的有效关键词,丰富了主要信息的知识属性。去除了相关度不大的无效关键词,以此减少所有数据源中相对检索来说次要的信息对主要的信息的干扰。
本发明的智能检索方式,结合了按索引分类浏览和按文本关键词匹配两种常用的检索方式。和常用的搜索引擎不同的是,本发明中按索引分类浏览除了能按照常见的学科、习惯等分类方法按照成员隶属关系逐级细分以外,还提供了基于等价别名关系和背景参考关系两种横向拓展的检索途径。和常见***中的相关链接跳转不同,这种横向检索途径依旧是按照索引分类进行的,具有明确的指向性。和常用的搜索引擎不同的另一方面在于,本发明中按文本关键词匹配进行检索可能会检索到同名不同义的关键词,这是检索用户可以通过***提示,清楚地了解同名不同义的关键词的相关信息,直接进行快捷的二次检索,定位自己所需要的结果集。
本发明提出按照自然语义,以表达完整自然语义的最小单元作为知识单元的划分标准,这既可以在知识处理时穷尽每一个知识单元的属性,又可以在检索结果呈现时反应精准,减少信息噪音。
本发明的信息智能检索加工***是完全依照人性自然需求本能的思维逻辑进行分类的***。本发明根据人类检索和使用知识的思维方式,将信息数据分为12大类,即人物、事件、时间、地点、物品、生物、衣物、食物、住物、行物、育物、乐物(简称人、事、时、地、物、生、衣、食、住、行、育、乐),每个大类再细分为若干子类,如人物的子类有人之姓名、人之性别、人之籍贯等等;每个子类又有若干子类,如人之姓名又分为姓赵、姓张、姓李等等。这样形成树状多层次结构,作为索引结构30层就足以表达各种细分数据。每个大类和其子类的索引都用相应代码表示,在此基础上再进行索引的二次加工,穷尽索引结构的背景信息进行标引,重新排序和聚类,形成高度灵活、准确、多维指向、互有交叉的智能化索引。
将各种信息数据,包括各种文献、电子数据,按照其内容长度或容量划分为若干知识单元,文本知识单元容量为600个字符以内,对该知识单元编号。然后,对每个知识单元的内容进行分析、拆解,把各关键词按照上述分类方法,编号后对应到上述关系树的子类上。
本发明的分类方法与过去传统的专业分类逻辑有本质上的区别,完全打破传统的分类概念。目前其他各种专业的分类方法,主要基于符合专业的结构层次,并非首要考虑满足人的自然知识需求,通用性程度不高。对于用户基于自然知识需求的检索要求,实现过程中转换的复杂程度较高,并不适用。
本发明的另一大特点是可以包含其他各种专业分类法,由于本发明的分类方法着眼于符合人类基本知识需求,其分类角度的普适性使其可以涵盖和包容其他各种基于专业的分类方法,这样就可以将各种不同的分类方法进行统一和整合,为知识处理和使用的整合创造技术条件。
本发明中,构建高度灵活智能索引机制的实现,是建立了一种自包含、自组织的三元关系模型。各种常见语言都具有主要语法结构:(主语、谓语、宾语),本发明对这种三元关系进行了模拟,实现了基于三元关系模型的数据表达、存储和检索。
如图1所示,本发明的三元关系模型采用三元组Ka,Kr,Kb形式,其中Ka代表关键词a,Kb代表关键词b,Kr代表关键词a和关键词b之间的关系。该三元组形式表示和实现关键词之间的三种类型的关联关系,包括成员隶属关系、等价别名关系以及背景参考关系。
每种类型中可以不断细分,同时各种关系之间仍能实现三种类型的关联。在这种三元关系模型的基础上进行演算,可以进行包含逻辑含义的检索,有别于单纯进行关键词组合的查询方式。
Krr代表关系关键词之间的关系,如逆关系、二次传递、相同主词、对称等,Kr′代表Kr根据Krr推导出的关系,由此Ka′关键词和Kb′关键词具有了新的关系Kr′。
图2为人物索引关键词之间的关系的一个例子:如果***中的人物关键词包含了以下三个三元组:
(张老三,儿子,张三)(张三,儿子,张小三)(张三,儿子,张小四)。
同时,图3所示,***中定义了以下针对关系关键词的三元组:
(儿子,逆关系,父亲)(儿子,二次传递,孙子)(儿子,相同主词,兄弟)(兄弟,对称,兄弟)。
那么***可以在不增加其它信息的情况下,自动推演出以下结论:
如图4所示,根据“逆关系”可以推演出:(张三,父亲,张老三)(张小三,父亲,张三)(张小四,父亲,张三)。
如图5所示,根据“二次传递”关系可以推演出:(张老三,孙子,张小三)(张老三,孙子,张小四)。
如图6、图7所示,根据“相同主词”关系可以推演出:(张小三,兄弟,张小四)并在此基础上根据“对称”关系推演出(张小四,兄弟,张小三)。
注意:推演的先后次序根据实际情况可能不同。
以上结果只是应用一次关系关键词三元组的结论,如果多次、组合应用,可以产生出更多的逻辑结果。
和目前已有检索***相比,上述推演具有以下特点:
1、基础数据量大幅度减少:上例中,基础数据仅有3个人物三元组和4个关系三元组,而目前已有检索***为了满足不同的检索要求,需要完备的基础数据,上例中所有推演的结论都需要作为基础数据进入***。
2、可检索数据的大幅度增加:从上例的推演可以看出,用户可以检索的数据,不再是仅仅依赖于基础数据量,同时也和关系三元组的数量相关。由于关系三元组具有很强的通用性,因此,当增加一个关系三元组,带来的可检索数据的增加将会是成倍甚至是几何级数的。
3、数据关系一致性更强:由于大量结论是***经过逻辑推演得到的,因此具有严密的逻辑性。而目前已有检索***由于基础数据都是独立进入数据库的,因此可能会有同时出现(张老三,儿子,张三)(张三,兄弟,张老三)的情况,数据一致性得不到保障。
4、关系的扩展性:从上例的推演可以看出,只要是符合逻辑的关系三元组就可以在***中进行定义,从这个意义上说,一方面根据生活经验以及现有的科技发展状况总结出来的关系可以通过这个***实现,同时随着社会、科技的不断进步,新的关系将不断出现,而这些新的关系同样也可以在***中实现;并且对于了新定义的关系三元组,所有以前的数据将马上得到相应的组织以备查询。
本发明采用了知识单元标引方法,类似关键词的三元模型,知识单元的标引采用(C,R,K)组和(Ca,R,Cb)三元组进行表示和实现,其中C表示知识单元的内容,K表示关键词,R代表知识单元和关键词之间的关系;Ca代表知识单元a的内容,Cb代表知识单元b的内容,R代表知识单元a和知识单元b之间的关系。该方法记录知识单元中关键词的位置、长度、相关度等以及知识单元之间的相互引用等关联知识。通过这种标引,一方面知识单元能够以结构化的方式呈现,满足用户对关联信息的需要,同时另一方面,也可以按照知识来源的最初模式进行呈现。
另外,通过(C,R,K)三元组,标引方法很好的解决了知识单元中的“指代”关系,例如,对于一个知识单元中出现的代词“他”,通过在三元组中确定实际的指代目标,***就可以向用户提供针对指代目标的检索,而不仅限于文字上的相同或近似。
图8说明了本发明中信息智能检索加工***的整体结构。本***包括数据智能加工子***1、加工用数据库2、发布与管理模块3、检索用数据库6、智能检索服务子***7,其中发布与管理模块3包括数据发布与同步模块4、数据开放管理模块5。
数据加工由数据智能加工子***1完成。数据将在这里从不同介质的各种来源经处理后成为经深度拆解和标引的文本或其他介质格式内容以及灵活准确的智能索引信息。这个阶段主要对加工用数据库2进行操作,除了最终用于检索的各项信息外,加工用数据库2中还存储着大量标志信息以及为了加快加工而生成的中间结果。
在数据加工阶段,整个处理过程被分为三个步骤:
(1)首先,基础数据加工,这是针对文本内容正确性的加工步骤。在这一步中***将对进入数据库的数据进行校对,校对的内容包括文字、目录和段落层次、注释的引用等。本发明还能够支持标准Unicode字库中包含或未包含的大量偏稀汉字,即所谓异体字或图像字的查询和显示,这是通过对异体字或图像字进行编号实现。
(2)其次,在基础数据的正确性得到保证的前提下,进行知识单元智能加工。在这一步骤中,***将对原来以自然段为基础单元的数据进行拆解,形成具有独立完整含义的“知识单元”。同时在这个步骤中,***还将建立起“知识单元”和索引关键词之间的关联关系。
(3)数据加工的第三个步骤为智能索引加工,和上一个步骤知识单元智能加工在实际操作中是并行进行的,智能索引加工需要对来自知识单元智能加工中提取的关键词进行索引化处理,再将经索引化处理过的结果进行二次加工,编制出灵活准确、多维指向、互为交叉的智能化索引。
(4)智能化索引反作用于知识单元过程,可根据使用者的随机需求形成新的分类、排序与聚类,生成二次、三次或多次文献、表单、图像、音频、视频。
数据智能加工子***1还包括工序管理和控制模块,对这些步骤中的中间结果、数据状态进行管理。这个模块本身不对数据产生直接的影响,而是对数据的流向进行监控和管理。
发布与管理模块3承担发布与管理的任务。该模块主要完成将后台经过审批的内容与索引信息和前台数据进行同步。实现过程是双向的,主要的数据流是从加工用数据库2流向检索用数据库6,但与此同时,一些检索过程中的反馈信息也将从检索用数据库6同步到加工用数据库7中,这些数据同步的过程将由数据发布与同步模块4执行。发布与管理模块3还有一个重要的任务,就是对数据访问进行权限设置,由数据开放管理模块5承担的功能。
由网络用户发起的检索操作,由智能检索服务子***7完成。用户发起的检索请求,包括横向的通用检索以及纵向的专用检索(通用检索请求指使用常用的关键词或关键词的组合的检索请求,而专用检索请求指通过本***提供的分类法的检索请求),将被转换为相应的内部检索请求,对内容和索引信息进行智能检索。另外,在这个阶段,***还提供公共的访问接口,为一些专业检索请求服务,如其它网站可以通过链接到本***提供专业检索服务。
本***提供了一个公共的智能检索平台——智能搜索服务平台,对来自不同用户的各种搜索请求进行统一处理。在此基础上,***自身提供了以获取丰富关联内容为目的的横向的网站通用检索服务8功能和以获取深层次知识为目的的纵向的网站专用检索服务9。另外,前面提到的公共的访问接口,是以专业检索服务10的形式提供的。
图9说明了使用本发明的信息智能检索加工的方法,对于用户11的检索请求,本发明是如何进行处理的。图中的方框表示了各种处理操作,圆柱图表示了包含索引数据61和内容数据62的检索用数据库6。图中的实线箭头表示了操作的流程,而虚线箭头则代表主要的数据流向。
在实际的操作中,用户11主要通过***提供的网站或者通过开放接口接入本***的其它***的用户界面输入检索条件12。除了提供的关键词输入和索引浏览两种输入方式之外,本***中还提供了使用拼音或笔顺的输入方式来输入Unicode字库中包含或未包含的大量偏稀汉字。
在***获得了用户的检索请求后,本***将对检索条件进行预处理13。这其中既包含了常用的代码转换14技术,同时也包含了索引复杂度评估15技术。在经过了预处理条件13后,搜索请求会被细分为常规的简单直接搜索16、高级组合搜索17、分类浏览搜索18、全文检索19以及智能逻辑搜索20,前三种常规搜索方式将直接通过关系搜索引擎22进行搜索,全文检索19将直接通过全文检索引擎23进行检索,而智能逻辑搜索20将会通过逻辑关系演算进行查询条件重组后再由关系搜索引擎22进行搜索,该逻辑关系演算是基于上述三元关系模型、分类索引库和知识单元标引的方法。在最终通过关系搜索引擎22和全文检索引擎23获得搜索结果后,***会使用能充分体现搜索条件和搜索结果的内在逻辑联系的界面返回搜索结果24。
本发明涉及的***和方法,可以应用于计算机单机、局域网络、企业内部网络(Intranet)、互联网(Internet)等多种环境下,***使用者可以扩展为有信息内容检索需求的任意人群。
本发明能够实现信息内容的智能化检索和加工,真正符合检索意愿,最大限度减少检索结果的冗余,实现任意知识源间基于知识元层次的全新的信息内容和知识的智能化组合,实现任意信息内容基于人、事、时、地、物等人类基本生产、生活、活动通用属性之间的智能化分类、排序、聚类过程。
本发明的特定实施例已对发明内容做了详尽说明。对本领域一般技术人员而言,在不背离本发明原理的前提下对它所做的任何显而易见的改动,都构成对本发明专利的侵犯,将承担相应的法律责任。

Claims (7)

1.一种信息智能检索加工的***,其特征包括数据智能加工子***、加工用数据库、发布与管理模块、检索用数据库、智能检索服务子***,其中发布与管理模块包括数据发布与同步模块、数据开放管理模块;
其中所述数据智能加工子***对文本、图像、音频、视频数据进行加工,将数据处理成深度拆解和标引的知识单元内容以及灵活准确的索引信息,存入加工用数据库中,加工用数据库中还存储着大量标志信息以及为了加快加工而生成的中间结果;
所述发布与管理模块完成将经过审批的内容和索引信息与智能检索服务子***显示的数据进行同步;数据开放管理模块负责对数据访问进行权限设置;
所述智能检索服务子***提供智能检索服务平台,对来自用户的搜索请求进行统一处理,查询检索用数据库,智能检索相关内容。
2.根据权利要求1所述的信息智能检索加工的***,其特征在于:所述数据智能加工子***对数据进行加工,将数据分为12大类,即人物、事件、时间、地点、物品、生物、衣物、食物、住物、行物、育物、乐物。
3.根据权利要求2所述的信息智能检索加工的***,其特征在于:每个大类再细分为若干子类,每个子类又有若干子类,将形成的树状多层次结构,作为索引结构。树状结构中的知识条目节点具有多种交叉隶属关系;每个大类和其子类的索引都用代码表示。
4.根据权利要求3所述的信息智能检索加工的***,其特征在于:所述子类小于等于30层。
5.根据权利要求1所述的信息智能检索加工的***,其特征在于:所述数据智能加工子***对数据进行加工,将信息数据,按照其内容长度或容量划分为若干个知识单元。
6.根据权利要求5所述的信息智能检索加工的***,其特征在于:一个文本知识单元容量为600个字符以内。
7.根据权利要求1所述的信息智能检索加工的***,其特征在于:所述的数据智能加工子***采用三元关系模型,三元组Ka,Kr,Kb形式,其中Ka代表关键词a,Kb代表关键词b,Kr代表关键词a和关键词b之间的关系,该三元组形式表示和实现关键词之间的三种类型的关联关系,包括成员隶属关系、等价别名关系以及背景参考关系。
CN2006100813676A 2006-05-22 2006-05-22 信息智能检索加工的***和方法 Expired - Fee Related CN1845104B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2006100813676A CN1845104B (zh) 2006-05-22 2006-05-22 信息智能检索加工的***和方法
JP2007132174A JP2007317188A (ja) 2006-05-22 2007-05-17 データインテリジェント加工システム及びその方法
PCT/CN2007/001662 WO2007143899A1 (fr) 2006-05-22 2007-05-22 Système et procédé pour l'extraction intelligente et le traitement d'informations
US11/918,551 US20080235190A1 (en) 2006-05-22 2007-05-22 Method and System For Intelligently Retrieving and Refining Information
SM200800032T SMAP200800032A (it) 2006-05-22 2007-05-22 Sistema e metodo per ricercare e elaborare informazioni in modo intelligente
DE112007000053T DE112007000053T5 (de) 2006-05-22 2007-05-22 System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
KR1020070049690A KR20070112730A (ko) 2006-05-22 2007-05-22 지능형 정보 검색 처리 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100813676A CN1845104B (zh) 2006-05-22 2006-05-22 信息智能检索加工的***和方法

Publications (2)

Publication Number Publication Date
CN1845104A CN1845104A (zh) 2006-10-11
CN1845104B true CN1845104B (zh) 2012-04-25

Family

ID=37064032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100813676A Expired - Fee Related CN1845104B (zh) 2006-05-22 2006-05-22 信息智能检索加工的***和方法

Country Status (7)

Country Link
US (1) US20080235190A1 (zh)
JP (1) JP2007317188A (zh)
KR (1) KR20070112730A (zh)
CN (1) CN1845104B (zh)
DE (1) DE112007000053T5 (zh)
SM (1) SMAP200800032A (zh)
WO (1) WO2007143899A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000627B (zh) * 2007-01-15 2010-05-19 北京搜狗科技发展有限公司 一种相关信息的发布方法和装置
US8572102B2 (en) * 2007-08-31 2013-10-29 Disney Enterprises, Inc. Method and system for making dynamic graphical web content searchable
CN101425061B (zh) * 2007-10-31 2010-12-08 财团法人资讯工业策进会 概念关联网络的数据标签建构方法与***
CN102043817B (zh) * 2009-10-12 2014-11-12 深圳市世纪光速信息技术有限公司 呈现人物关联词的方法和装置
CN102004775A (zh) * 2010-11-19 2011-04-06 福建富士通信息软件有限公司 一种基于智能搜索的福富企业搜索引擎技术
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102129539A (zh) * 2011-03-11 2011-07-20 清华大学 基于访问控制列表的数据资源权限管理方法
CN102857483B (zh) 2011-06-30 2016-06-29 国际商业机器公司 预取数据的方法、设备和装置
CN103814374B (zh) * 2011-06-30 2018-11-27 阿科尼克斯有限公司 信息管理***及方法
US10929391B2 (en) 2011-08-26 2021-02-23 Google Llc System and method for identifying availability of media items
CN102521267B (zh) * 2011-11-21 2014-01-22 沈文策 站内信息搜索方法和搜索***
CN102880625A (zh) * 2012-04-11 2013-01-16 佳都新太科技股份有限公司 一种基于族性检索的通用数据库检索新方法
CN102693320B (zh) * 2012-06-01 2015-03-25 中国科学技术大学 一种搜索方法及装置
WO2014005268A1 (zh) * 2012-07-02 2014-01-09 华为技术有限公司 资源访问方法及装置
DE102013000369A1 (de) * 2013-01-11 2014-07-17 Audi Ag Verfahren zum Betreiben eines Infotainmentsystem
CN103077162A (zh) * 2013-01-23 2013-05-01 北京理工大学 Word文档中参考文献编排装置
CN105095319B (zh) * 2014-05-23 2019-04-19 邓寅生 基于时间序列化的文档的标识、关联、搜索及展现的***
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的***
CN104915449B (zh) * 2015-06-30 2018-11-09 河海大学 一种基于水利对象分类标签的分面检索***及方法
CN106453449A (zh) * 2015-08-06 2017-02-22 泰兴市智瀚科技有限公司 信息即时推送的方法和分布式***服务器
CN106202019B (zh) * 2016-07-14 2018-12-11 长安大学 一种更改word/wps文档中参考文献上标顺序及编号顺序的方法
CN106844698B (zh) * 2017-01-26 2020-07-10 四川省和信源创劳务有限公司 一种数字云服务平台
CN106844714A (zh) * 2017-02-08 2017-06-13 河海大学常州校区 一种知识库管理***
CN107122436A (zh) * 2017-04-19 2017-09-01 重庆水利电力职业技术学院 大数据统计分析***
CN108304531B (zh) * 2018-01-26 2020-11-03 中国信息通信研究院 一种数字对象标识符引用关系的可视化方法及装置
CN108804863A (zh) * 2018-05-04 2018-11-13 深圳晶泰科技有限公司 通用力场数据库及其更新方法和检索方法
CN109726299B (zh) * 2018-12-19 2023-03-17 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法
CN110442670B (zh) * 2019-06-11 2023-05-26 天津交通职业学院 一种基于文本标引的消费者画像生成方法
US11250060B2 (en) * 2020-04-03 2022-02-15 Carlos E. Lopez-Nieto Graphic representation of the composition of a database and selection tool
CN111523019B (zh) * 2020-04-23 2023-05-09 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112052369A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种大数据智能检索方法
CN112434125A (zh) * 2020-11-30 2021-03-02 中国人寿保险股份有限公司 索引结构、非结构化数据的检索方法、装置和设备
CN112948533A (zh) * 2021-04-13 2021-06-11 天津禄智技术有限公司 一种多次检索和排序的文本检索方法
CN113190692B (zh) * 2021-05-28 2022-06-24 山东顺势教育科技有限公司 一种知识图谱的自适应检索方法、***及装置
CN114238588B (zh) * 2022-02-24 2022-06-17 江西医之健科技有限公司 数据检索方法、***、可读存储介质及计算机设备
CN114860778A (zh) * 2022-05-30 2022-08-05 上海博般数据技术有限公司 电网计量数据的检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1432943A (zh) * 2002-01-17 2003-07-30 北京标杆网络技术有限公司 标杆智能搜索引擎***
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999005614A1 (en) * 1997-07-23 1999-02-04 Datops S.A. Information mining tool
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US7523114B2 (en) * 2000-04-24 2009-04-21 Ebay Inc. Method and system for categorizing items in both actual and virtual categories
US20040221236A1 (en) * 2001-09-20 2004-11-04 Choi Kam Chung Happy, interesting, quick learning inputting method of Chinese characters in stroke character pattern codes
GB2382170B (en) * 2001-11-16 2005-04-13 Inventec Corp Method for synchronously updating screen data of database application program at clients over network
CN1152334C (zh) * 2002-11-18 2004-06-02 北京慧讯信息技术有限公司 自主智能异构数据集成***
JP2004206629A (ja) * 2002-12-26 2004-07-22 Hitachi Ltd 異種データソース統合検索サーバシステム
JP4634736B2 (ja) * 2004-04-22 2011-02-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
CN100543729C (zh) * 2004-06-24 2009-09-23 北京数码大方科技有限公司 动态对象存取***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1432943A (zh) * 2002-01-17 2003-07-30 北京标杆网络技术有限公司 标杆智能搜索引擎***

Also Published As

Publication number Publication date
JP2007317188A (ja) 2007-12-06
DE112007000053T5 (de) 2008-08-28
KR20070112730A (ko) 2007-11-27
SMP200800032B (it) 2008-05-14
CN1845104A (zh) 2006-10-11
US20080235190A1 (en) 2008-09-25
WO2007143899A1 (fr) 2007-12-21
SMAP200800032A (it) 2008-05-14

Similar Documents

Publication Publication Date Title
CN1845104B (zh) 信息智能检索加工的***和方法
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成***
Kiryakov et al. Semantic annotation, indexing, and retrieval
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US20060206466A1 (en) Evaluating relevance of results in a semi-structured data-base system
CN114218400A (zh) 基于语义的数据湖查询***及方法
CN101894143A (zh) 一种联邦检索及检索结果集成展现方法及***
Bellare et al. Woo: A scalable and multi-tenant platform for continuous knowledge base synthesis
Remi et al. Domain ontology driven fuzzy semantic information retrieval
US9063957B2 (en) Query systems
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
Bordawekar et al. Exploiting Latent Information in Relational Databases via Word Embedding and Application to Degrees of Disclosure.
Abiteboul et al. Constructing and querying peer-to-peer warehouses of XML resources
CN113094449A (zh) 基于分布式键值库的大规模知识图谱存储方案
CN109783599A (zh) 基于多种存储介质的知识图谱检索方法及***
CN115587082A (zh) 多模态数据存储管理的方法及***
Shakhovska et al. Big Data Model" Entity and Features"
Rogushina et al. Use of ontologies for metadata records analysis in big data
Kettouch et al. Using semantic similarity for schema matching of semi-structured and linked data
De Melo et al. Searching the web of data
Rapti et al. A survey: Mining linked cultural heritage data
Chen et al. A semantic based information retrieval model for blog
Vagena et al. Semantic search over XML document streams
Czerski et al. What NEKST?—semantic search engine for polish internet
Mule et al. Context based information retrieval based on ontological concepts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120425

Termination date: 20120522