CN106503265A - 基于权值的结构化搜索***及其搜索方法 - Google Patents

基于权值的结构化搜索***及其搜索方法 Download PDF

Info

Publication number
CN106503265A
CN106503265A CN201611077910.5A CN201611077910A CN106503265A CN 106503265 A CN106503265 A CN 106503265A CN 201611077910 A CN201611077910 A CN 201611077910A CN 106503265 A CN106503265 A CN 106503265A
Authority
CN
China
Prior art keywords
search
weights
module
tree
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611077910.5A
Other languages
English (en)
Inventor
贺长征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Terui Semitool Medical Technology Co Ltd
Original Assignee
Beijing Terui Semitool Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Terui Semitool Medical Technology Co Ltd filed Critical Beijing Terui Semitool Medical Technology Co Ltd
Priority to CN201611077910.5A priority Critical patent/CN106503265A/zh
Publication of CN106503265A publication Critical patent/CN106503265A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于权值的结构化搜索***,包括结构树模块,用于对数据存储模块中的每条非结构化数据进行分词,将其拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个文本结构树;搜索树模块,用于接收客户端的搜索表达式,对搜索表达式进行分词,将其拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个搜索树;分析模块,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块,用于将匹配值以分值从大到小进行排序,将搜索结果显示到客户端。本发明还公开了一种基于权值的结构化搜索***的搜索方法。本发明能够对自由文本等非结构化数据进行精确有效的搜索。

Description

基于权值的结构化搜索***及其搜索方法
技术领域
本发明涉及医疗信息领域,更具体地,涉及一种基于权值的结构化搜索***及其搜索方法。
背景技术
随着信息技术的发展和医疗信息化的建设,现在医院及各种医疗机构早已实施了各类信息化***软件,如“HIS(医院信息管理***)”、“EMR(电子病历***)”、“PACS(医学影像存档及传输***)”、“RIS(影像信息管理***)”等。随着信息化***遍布各个医疗领域,多年以来,生成并积攒了大批数据,各***产生的数据主要有如下两类:
1结构化数据:如患者姓名、性别等人口学信息。信息***通常将该类每项信息都单独保存在数据库不同的字段中,可以方便的获取查询等。
2非结构化数据:如患者的主诉、病史、影像学报告等。该部分通常为描述性语言,大段的自由语言文本。由于该类信息为医生录入或是患者口述,所以语言极不规范,信息***通常将其作为一个整体保存。
对于上述结构化数据的搜索早已比较成熟,信息***可以很简单采用结构化查询语言(SQL)等数据库工具来进行搜索,但是对于像患者的影像学表现及诊断等非结构化数据,虽然其中包含极其有价值的信息,却并没有特别有效的方法来精确的搜索并应用,现有的软件对于非结构化数据的搜索方法主要有如下两种:
1利用数据库工具按“关键字”进行搜索:如用关系数据库的结构化查询语言(SQL)来进行匹配查询(like),即查找所有包含该“关键字”的数据,但是存在很多弊端,无法得到准确可信的搜索结果,例如:
1.1无法处理同义词:比如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思。
1.2只能定义简单关键词,无法进行多词精确查询:例如要查询所有“第5胸椎骨折”的患者,由于汉语语言的复杂性,实际描述会诸如“胸椎5可见骨折”、“T5发现骨折”、“骨折出现在第5胸椎上”等等,所以搜索结果的有效性极低。
1.3无法对范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等。
2自然语言搜索引擎:类似百度、谷歌等搜索引擎。相对于上面的方法,该方法虽然有一定的改善,比如对于同义词的处理,但是由于医疗领域的特殊性,仍然无法得到精确的搜索结果,主要缺陷有三点:
2.1关键词没有逻辑相关性,故无法进行多词精确查询:例如要查询“第5胸椎骨折”,实际上***会按“第5胸椎”、“骨折”两个词或是“第5”、“胸椎”、“骨折”三个词来进行搜索,由于只是按关键词分别搜索,所以会找出很多不符合的内容,例如如下描述“第5胸椎增生,第7胸椎骨折”,而很多真正符合的内容而由于关键字不匹配而无法搜索到,例如如下描述“第3-6胸椎骨折”(第3-6胸椎实际包含第3、第4、第5、第6胸椎);
2.2同样无法对于范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等;
2.3搜索结果相关性没有量化指标:搜索完通常会列出大量的搜索结果,但是该结果与实际用户相要的结果是否完全相符?如果不相符,匹配度多少?没有一个量化指标,需要用户一一进行筛选判断。
因此以上无论何种方法,都无法精确有效的进行搜索。随着医疗信息***的普及及深入应用,越来越多的非结构化数据正在产生,其中蕴含着大量极其有价值的信息,因此如何帮助医生及其他用户方便准确的搜索到感兴趣数据也日益迫切。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于权值的结构化搜索***及其搜索方法,能够解决现有技术中存在的搜索手段的局限性,由于搜索结果有效性低而无法得到精确的搜索结果的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于权值的结构化搜索***,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,数据存储模块,与结构树模块相连,用于存储非结构化数据;结构树模块,分别与数据存储模块和分析模块相连,用于对每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块,与分析模块相连,用于接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块,分别与搜索树模块和结构树模块相连,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块,与分析模块相连,用于将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
优选地,该***还包括:同义词转换模块,分别与结构树模块和搜索树模块相连,用于对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
优选地,该***还包括:范围值识别模块,分别与结构树模块和搜索树模块相连,用于识别关键词词汇的范围值。
优选地,搜索树模块还包括运算符处理单元,用于对搜索表达式中的逻辑运算符进行识别与处理。
优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。
优选地,显示模块还包括星级显示单元,用于根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。
另一方面,本发明还提供了一种基于权值的结构化搜索***的搜索方法,包括:结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
优选地,在建立文本结构树或搜索树之前,该方法还包括:同义词转换模块对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
优选地,在建立文本结构树或搜索树之前,该方法还包括:范围值识别模块识别关键词词汇的范围值。
优选地,在建立搜索树之前,该方法还包括:运算符处理单元对搜索表达式中的逻辑运算符进行识别与处理。
优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。
优选地,该方法还包括:星级显示单元根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。
本发明的技术效果:
1.由于本发明中设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;
2.由于本发明设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;
3.基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;
4.由于本发明还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例一的基于权值的结构化搜索***结构示意图;
图2示出了根据本发明实施例一的基于权值的结构化搜索***的文本结构树示意图;
图3示出了根据本发明实施例一的基于权值的结构化搜索***的搜索树示意图;
图4示出了根据本发明实施例一的基于权值的结构化搜索***中分析模块计算的搜索树与每个文本结构树的匹配值示意图;
图5示出了根据本发明实施例一的基于权值的结构化搜索***的文本结构树示意图;
图6示出了根据本发明实施例一的基于权值的结构化搜索***的搜索树示意图;
图7示出了根据本发明实施例一的基于权值的结构化搜索***中分析模块计算的搜索树与每个文本结构树的匹配值示意图;
图8示出了根据本发明实施例一的基于权值的结构化搜索***的搜索结果显示示意图;
图9示出了根据本发明实施例二的基于权值的结构化搜索***结构示意图;
图10示出了根据本发明实施例三的基于权值的结构化搜索***结构示意图;
图11示出了根据本发明实施例四的基于权值的结构化搜索***结构示意图;
图12示出了根据本发明实施例五的基于权值的结构化搜索***结构示意图;
图13示出了根据本发明实施例五的基于权值的结构化搜索***的搜索结果显示示意图;
图14示出了根据本发明实施例五的基于权值的结构化搜索***的搜索结果显示示意图;
图15示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法流程图;
图16示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中文本结构树示意图;
图17示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索树示意图;
图18示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;
图19示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中文本结构树示意图;
图20示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索树示意图;
图21示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;
图22示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图;
图23示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图;
图24示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
实施例一
图1示出了根据本发明实施例一的基于权值的结构化搜索***结构示意图;如图1所示,该***包括:数据存储模块10、结构树模块20、搜索树模块30、分析模块40和显示模块50,其中,
数据存储模块10,与结构树模块20相连,用于存储非结构化数据;
这里所提及的非结构化数据为医生录入或是患者口述,如患者主诉、病史、影像学报告等等;
结构树模块20,分别与数据存储模块10和分析模块40相连,用于对每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;
图2示出了根据本发明实施例一的基于权值的结构化搜索***的文本结构树示意图;如图2所示,结构树模块根据语义学将语句拆分成单独的关键词词汇;
搜索树模块30,与分析模块40相连,用于接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;
图3示出了根据本发明实施例一的基于权值的结构化搜索***的搜索树示意图;如图3所示,搜索树模块针对用户输入的搜索表达式来对搜索条件进行结构化重构;
其中,上述对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定;
分析模块40,分别与搜索树模块20和结构树模块30相连,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;
图4示出了根据本发明实施例一的基于权值的结构化搜索***中分析模块计算的搜索树与每个文本结构树的匹配值示意图;如图4所示;
显示模块50,与分析模块40相连,用于将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
下面以一个例子来具体说明本实施例:
图5示出了根据本发明实施例一的基于权值的结构化搜索***的文本结构树示意图;图6示出了根据本发明实施例一的基于权值的结构化搜索***的搜索树示意图;图7示出了根据本发明实施例一的基于权值的结构化搜索***中分析模块计算的搜索树与每个文本结构树的匹配值示意图;图8示出了根据本发明实施例一的基于权值的结构化搜索***的搜索结果显示示意图;如图5、图6、图7、图8所示,
例如医生书写了如下描述:
“食管下段管壁明显不均匀增厚,并见软组织肿块影形成,最厚层面约2.8厘米”
***将其进行结构化重构后生成如图5所示的文本结构树;
若用户搜索如下搜索表达式:
“肿块影最厚大于约2.6厘米”
***将其进行结构化重构后生成如图6所示的搜索树;
分析模块将搜索树与文本结构树进行匹配,计算得出匹配度,得到分值为10分,如图7、图8所示。
本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信。
实施例二
图9示出了根据本发明实施例二的基于权值的结构化搜索***结构示意图;如图9所示,该***还包括:同义词转换模块60,分别与结构树模块20和搜索树模块30相连,用于对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
例如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思,此时,同义词转换模块根据同义词字典进行同义词归一,来解决同义词问题,提高了搜索结果的有效性。
实施例三
图10示出了根据本发明实施例三的基于权值的结构化搜索***结构示意图;如图10所示,该***还包括:范围值识别模块70,分别与结构树模块20和搜索树模块30相连,用于识别关键词词汇的范围值。
例如面积、长度、体积、容量等,解决现有技术中无法搜索范围值区间的问题,诸如搜索“肿瘤直径介于2-3CM之间”等。
本发明的实施例设置了范围值识别模块,可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理范围值的问题,使搜索结果更加精确,不会落下有价值的信息。
实施例四
图11示出了根据本发明实施例四的基于权值的结构化搜索***结构示意图;如图11所示,搜索树模块30还包括运算符处理单元302,用于对搜索表达式中的逻辑运算符进行识别与处理。
例如并且、包含、或者、大于等等。
本发明的实施例基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作。
实施例五
图12示出了根据本发明实施例五的基于权值的结构化搜索***结构示意图;图13示出了根据本发明实施例五的基于权值的结构化搜索***的搜索结果显示示意图;如图12、图13所示,显示模块50还包括星级显示单元502,用于根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。
从0-10最高5星,可以分10级,如下:
图14示出了根据本发明实施例五的基于权值的结构化搜索***的搜索结果显示示意图;
例如,实施例一中的搜索“肿块影最厚大于约2.6厘米”的搜索结果显示如图14所示。
由于本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。
实施例六
图15示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法流程图,如图15所示,该方法包括以下步骤:
步骤S601,结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;图16示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中文本结构树示意图(如图16所示)
这里所提及的非结构化数据为医生录入或是患者口述,如患者主诉、病史、影像学报告等等;
步骤S602,搜索树模块接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;图17示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索树示意图(如图17所示)
其中,上述对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定;
步骤S603,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;图18示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图(如图18所示)
步骤S604,显示模块将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
下面以一个例子来具体说明本实施例:
例如医生书写了如下描述:
“食管下段管壁明显不均匀增厚,并见软组织肿块影形成,最厚层面约2.8厘米”
***将其进行结构化重构后生成如图19所示的文本结构树;图19示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中文本结构树示意图;
若用户搜索如下搜索表达式:
“肿块影最厚大于约2.6厘米”
***将其进行结构化重构后生成如图20所示的搜索树;图20示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索树示意图;
分析模块将搜索树与文本结构树进行匹配,计算得出匹配度,得到分值为10分;图21示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;图22示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图;如图21、图22所示。
其中,在建立文本结构树或搜索树之前,该方法还包括:同义词转换模块对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思,此时,同义词转换模块根据同义词字典进行同义词归一,来解决同义词问题,提高了搜索结果的有效性。
在建立文本结构树或搜索树之前,该方法还包括:范围值识别模块识别关键词词汇的范围值。
例如面积、长度、体积、容量等,解决现有技术中无法搜索范围值区间的问题,诸如搜索“肿瘤直径介于2-3CM之间”等。
在建立搜索树之前,该方法还包括:运算符处理单元对搜索表达式中的逻辑运算符进行识别与处理。例如并且、包含、或者、大于等等。
该方法还包括:星级显示单元根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。图23示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图(如图23所示)。
从0-10最高5星,可以分10级,如下:
图24示出了根据本发明实施例六的基于权值的结构化搜索***的搜索方法中搜索结果显示示意图;
例如,搜索“肿块影最厚大于约2.6厘米”的搜索结果显示如图24所示。
本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。
从以上描述中,可以看出,本发明的上述实施例实现了如下技术效果:本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。
显然,本本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于权值的结构化搜索***,其特征在于,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,
所述数据存储模块,与所述结构树模块相连,用于存储非结构化数据;
所述结构树模块,分别与所述数据存储模块和所述分析模块相连,用于对每条所述非结构化数据进行分词处理,将所述非结构化数据拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;
所述搜索树模块,与所述分析模块相连,用于接收来自于客户端的搜索表达式,对所述搜索表达式进行分词处理,将所述搜索表达式拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;
所述分析模块,分别与所述搜索树模块和所述结构树模块相连,用于将所述搜索树与所有的所述文本结构树进行匹配,根据所述权值计算得出匹配值;
所述显示模块,与所述分析模块相连,用于将所述匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
2.根据权利要求1所述的基于权值的结构化搜索***,其特征在于,该***还包括同义词转换模块,分别与所述结构树模块和所述搜索树模块相连,用于对所述关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
3.根据权利要求1所述的基于权值的结构化搜索***,其特征在于,该***还包括范围值识别模块,分别与所述结构树模块和所述搜索树模块相连,用于识别所述关键词词汇的范围值。
4.根据权利要求1所述的基于权值的结构化搜索***,其特征在于,所述搜索树模块还包括运算符处理单元,用于对所述搜索表达式中的逻辑运算符进行识别与处理。
5.根据权利要求1所述的基于权值的结构化搜索***,其特征在于,所述对每个所述关键词词汇定义权值,是根据所述非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。
6.根据权利要求1所述的基于权值的结构化搜索***,其特征在于,所述显示模块还包括星级显示单元,用于根据所述匹配值来确定星的个数,并将所述星的个数以及所述匹配值同时显示到所述客户端。
7.一种基于权值的结构化搜索***的搜索方法,其特征在于,包括:
结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将所述非结构化数据拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;
搜索树模块接收来自于客户端的搜索表达式,对所述搜索表达式进行分词处理,将所述搜索表达式拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;
分析模块将所述搜索树与所有的所述文本结构树进行匹配,根据所述权值计算得出匹配值;
显示模块将所述匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
8.根据权利要求7所述的基于权值的结构化搜索***的搜索方法,其特征在于,在建立所述文本结构树或所述搜索树之前,该方法还包括:同义词转换模块对所述关键词词汇进行同义词转换,根据同义词字典进行同义词归一。
9.根据权利要求7所述的基于权值的结构化搜索***的搜索方法,其特征在于,在建立所述文本结构树或所述搜索树之前,该方法还包括:范围值识别模块识别所述关键词词汇的范围值。
10.根据权利要求7所述的基于权值的结构化搜索***的搜索方法,其特征在于,在建立所述搜索树之前,该方法还包括:运算符处理单元对所述搜索表达式中的逻辑运算符进行识别与处理。
11.根据权利要求7所述的基于权值的结构化搜索***的搜索方法,其特征在于,所述对每个所述关键词词汇定义权值,是根据所述非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。
12.根据权利要求7所述的基于权值的结构化搜索***的搜索方法,其特征在于,该方法还包括:星级显示单元根据所述匹配值来确定星的个数,并将所述星的个数以及所述匹配值同时显示到所述客户端。
CN201611077910.5A 2016-11-30 2016-11-30 基于权值的结构化搜索***及其搜索方法 Pending CN106503265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611077910.5A CN106503265A (zh) 2016-11-30 2016-11-30 基于权值的结构化搜索***及其搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611077910.5A CN106503265A (zh) 2016-11-30 2016-11-30 基于权值的结构化搜索***及其搜索方法

Publications (1)

Publication Number Publication Date
CN106503265A true CN106503265A (zh) 2017-03-15

Family

ID=58327973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611077910.5A Pending CN106503265A (zh) 2016-11-30 2016-11-30 基于权值的结构化搜索***及其搜索方法

Country Status (1)

Country Link
CN (1) CN106503265A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
WO2019028631A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种技术秘密的相对秘密性判断方法
CN110209829A (zh) * 2018-02-12 2019-09-06 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN111309870A (zh) * 2020-03-04 2020-06-19 平安养老保险股份有限公司 数据快速搜索方法、装置及计算机设备
CN111309853A (zh) * 2019-09-03 2020-06-19 东南大学 一种基于结构化信息的代码搜索方法
CN112069305A (zh) * 2020-11-13 2020-12-11 北京智慧星光信息技术有限公司 数据筛选方法、装置及电子设备
CN113254588A (zh) * 2021-06-02 2021-08-13 竹间智能科技(上海)有限公司 一种数据搜索方法及***
CN114006719A (zh) * 2021-09-14 2022-02-01 国科信创科技有限公司 基于态势感知的ai验证方法、装置及***
CN114564938A (zh) * 2020-11-27 2022-05-31 阿里巴巴集团控股有限公司 文档的解析方法及装置、存储介质和处理器

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004721A1 (en) * 2004-04-23 2006-01-05 Bedworth Mark D System, method and technique for searching structured databases
CN101093493A (zh) * 2006-06-23 2007-12-26 国际商业机器公司 数据库查询语言转换方法、转换装置、数据库查询***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US20100281063A1 (en) * 2009-05-01 2010-11-04 Brother Kogyo Kabushiki Kaisha Distributed storage system, management apparatus, node apparatus, recording medium on which node program is recorded, page information acquisition method, recording medium on which page information sending program is recorded, and page information sending method
CN103324678A (zh) * 2013-05-27 2013-09-25 俞声 信息检索方法和装置
CN104252533A (zh) * 2014-09-12 2014-12-31 百度在线网络技术(北京)有限公司 搜索方法和搜索装置
CN105843960A (zh) * 2016-04-18 2016-08-10 上海泥娃通信科技有限公司 基于语义树的索引方法和***
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答***及方法
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004721A1 (en) * 2004-04-23 2006-01-05 Bedworth Mark D System, method and technique for searching structured databases
CN101093493A (zh) * 2006-06-23 2007-12-26 国际商业机器公司 数据库查询语言转换方法、转换装置、数据库查询***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US20100281063A1 (en) * 2009-05-01 2010-11-04 Brother Kogyo Kabushiki Kaisha Distributed storage system, management apparatus, node apparatus, recording medium on which node program is recorded, page information acquisition method, recording medium on which page information sending program is recorded, and page information sending method
CN103324678A (zh) * 2013-05-27 2013-09-25 俞声 信息检索方法和装置
CN104252533A (zh) * 2014-09-12 2014-12-31 百度在线网络技术(北京)有限公司 搜索方法和搜索装置
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答***及方法
CN105843960A (zh) * 2016-04-18 2016-08-10 上海泥娃通信科技有限公司 基于语义树的索引方法和***
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘琼: ""基于本体的非结构化文本查询方法研究及应用"", 《第二十二届全国计算机信息管理学术研讨会论文集》, 31 December 2008 (2008-12-31), pages 123 - 129 *
温树田: "中医药文献信息检索与利用", 第四军医大学出版社, pages: 180 - 181 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019028631A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种技术秘密的相对秘密性判断方法
US11232140B2 (en) 2017-08-22 2022-01-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing information
CN107491534B (zh) * 2017-08-22 2020-11-20 北京百度网讯科技有限公司 信息处理方法和装置
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
CN110209829A (zh) * 2018-02-12 2019-09-06 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN111309853B (zh) * 2019-09-03 2024-03-22 东南大学 一种基于结构化信息的代码搜索方法
CN111309853A (zh) * 2019-09-03 2020-06-19 东南大学 一种基于结构化信息的代码搜索方法
CN111309870B (zh) * 2020-03-04 2022-11-18 平安养老保险股份有限公司 数据快速搜索方法、装置及计算机设备
CN111309870A (zh) * 2020-03-04 2020-06-19 平安养老保险股份有限公司 数据快速搜索方法、装置及计算机设备
CN112069305B (zh) * 2020-11-13 2021-03-30 北京智慧星光信息技术有限公司 数据筛选方法、装置及电子设备
CN112069305A (zh) * 2020-11-13 2020-12-11 北京智慧星光信息技术有限公司 数据筛选方法、装置及电子设备
CN114564938A (zh) * 2020-11-27 2022-05-31 阿里巴巴集团控股有限公司 文档的解析方法及装置、存储介质和处理器
CN113254588A (zh) * 2021-06-02 2021-08-13 竹间智能科技(上海)有限公司 一种数据搜索方法及***
CN113254588B (zh) * 2021-06-02 2023-08-22 竹间智能科技(上海)有限公司 一种数据搜索方法及***
CN114006719A (zh) * 2021-09-14 2022-02-01 国科信创科技有限公司 基于态势感知的ai验证方法、装置及***
CN114006719B (zh) * 2021-09-14 2023-10-13 国科信创科技有限公司 基于态势感知的ai验证方法、装置及***

Similar Documents

Publication Publication Date Title
CN106503265A (zh) 基于权值的结构化搜索***及其搜索方法
US10282389B2 (en) NLP-based entity recognition and disambiguation
US20160171095A1 (en) Identifying and Displaying Relationships Between Candidate Answers
CN106875941A (zh) 一种服务机器人的语音语义识别方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
US10339143B2 (en) Systems and methods for relation extraction for Chinese clinical documents
EP1941346A2 (en) Document processing
CN106776888A (zh) 智能结构化搜索***及其搜索方法
US11630874B2 (en) Method and system for context-sensitive assessment of clinical findings
CN106777996A (zh) 一种基于Solr的体检数据搜索***
CN111046272A (zh) 一种基于医疗知识图谱的智能问答***
CN109346171A (zh) 一种辅助诊断方法、装置和计算机设备
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN114610902A (zh) 一种基于知识图谱的家禽疾病诊断***
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
JP6850405B2 (ja) 生物学的体系情報検索システム及び方法
CN111582039B (zh) 基于深度学习与大数据的手语识别与转换***及方法
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
CN111428478B (zh) 一种词条同义判别的寻证方法、装置、设备和存储介质
KR102182619B1 (ko) 온톨로지 기반의 프레임을 이용한 지식 추출 시스템
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备
Müller et al. Analyzing web log files of the Health On the Net HONmedia search engine to define typical image search tasks for image retrieval evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination