CN107133271B - 语义脑图实时表达***及其操作方法 - Google Patents
语义脑图实时表达***及其操作方法 Download PDFInfo
- Publication number
- CN107133271B CN107133271B CN201710213799.6A CN201710213799A CN107133271B CN 107133271 B CN107133271 B CN 107133271B CN 201710213799 A CN201710213799 A CN 201710213799A CN 107133271 B CN107133271 B CN 107133271B
- Authority
- CN
- China
- Prior art keywords
- node
- text
- nodes
- semantic
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义脑图实时表达***及其操作方法,该***包括关联矩阵、聚焦关联操作模块,关联矩阵与聚焦关联操作模块相连,其中:关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块等,聚焦关联操作模块包括聚焦节点、聚焦关联节点等。本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,用以实时帮助用户更好地鉴别和发现相关兴趣文献。
Description
技术领域
本发明涉及一种表达***及其操作方法,特别是涉及一种语义脑图实时表达***及其操作方法。
背景技术
就文献搜索引擎而言,通常是依据搜索提问给出一组相关文献列表。也有不少搜索引擎在文献检出结果中,试图对文献的某些特征进一步细分和聚类(比如将搜索结果按年代细分聚类或者按作者细分聚类等等),以帮助用户更好地区分和识别相关兴趣文献。
现有的搜索结果呈现模式缺乏实时深层次地揭示文献中文本信息之间的复杂语义网络关系的手段,也不能够同时揭示这些相关文本信息之间的共现文献指引。
发明内容
本发明所要解决的技术问题是提供一种语义脑图实时表达***及其操作方法,其能够以文献中的文本特征词构建一个m行乘n列关联矩阵,并在此关联矩阵基础上,揭示文本信息之间多层次的语义网络关系,以及揭示相关文本信息之间的共现文献指引;本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,用以实时帮助用户更好地鉴别和发现相关兴趣文献。
本发明是通过下述技术方案来解决上述技术问题的:一种语义脑图实时表达***,其包括:
关联矩阵,与聚焦关联操作模块相连,关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,可以是1到m个文本特征词,初始值可以是用户的搜索提问词,m为自然数;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者用于减少层级复杂性而将关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块,其包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
优选地,所述赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
优选地,所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示,关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词,n为自然数。
本发明还提供一种语义脑图实时表达***的操作方法,其包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点等四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点,以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,***弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
本发明的积极进步效果在于:本发明能够通过关联矩阵的呈现模式能够揭示一个搜索主题下语义概念的扩展关联和多层次的语义网络关系,能够揭示关联矩阵中任一节点相互间的的直接联想关系,每个语义节点的不同角标能够揭示该节点在搜索结果中的相关文献数,揭示相关节点之间的同句或同篇共现文献数及其链接,关联矩阵列内语义节点保有语义权重的有序性。本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,以实时帮助用户更好地鉴别和启发相关兴趣文献。
附图说明
图1为本发明的结构示意图。
图2为本发明显示界面的结构示意图。
图3为本发明的聚焦节点的结构示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明语义脑图实时表达***包括关联矩阵、聚焦关联操作模块,关联矩阵与聚焦关联操作模块相连,其中:
关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,可以是1到m个文本特征词(m为自然数),初始值可以是用户的搜索提问词;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者用于减少层级复杂性而将关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
所述赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示(n为自然数),关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词。
本发明语义脑图实时表达***的操作方法包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N(前N个,N为自然数)篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关(具有同句共现关系)的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧(前期)中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词(保持关联矩阵每列节点的先后有序)作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点等四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点(加亮显示),以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,***弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
所述步骤九十五对实时搜索语义脑图中文献检出文献文本内容的一个语义关联揭示,将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维脑图,以帮助用户更好地区分和识别相关兴趣文献。
所述启发式发散思维脑图具有以下特性:
一、使用关联矩阵揭示语义网络关系,将语义脑图定义为一个m行乘n列的关联矩阵。中,以起点节点词作为第一起始列,后续的第n列数据是由前n-1列的节点元素在文献搜索结果中推导而得;
二、揭示多层次的语义网络关系,在语义脑图中,由任意核心节点词起始,推导并揭示核心节点的直接关联节点、间接关联节点和弱关联节点等四个层级关系表达;
三、关联矩阵的每个语义节点同时揭示该节点在搜索结果中的相关文献数,利用语义节点的右上角的角标所显示的相关文献数,以达到搜索结果进一步聚类细分的指引目的;
四、揭示相关节点之间的共现文献数,当选中任意一个节点作为兴趣点时(我们称之为聚焦节点),***会推导并揭示当前脑图中该兴趣节点的所有直接关联节点,同时揭示聚焦节点与各个关联节点之间同篇共现的相关文献数(通过节点左上标方式);揭示聚焦节点与各个关联节点之间同句共现的相关文献数(通过节点左下标方式);
五、语义脑图的列内语义节点有序性,语义脑图单一列的向量空间内,所有节点之间依据该文本自由词的语义权重和文献时序权重,反映列内语义节点的先后有序特性。
本发明是依据搜索结果中的文本特征词构建一幅动态语义脑图;并提供一组针对此脑图的启发式语义关联操作;以激发读者在搜索过程中的发散思维和迅速定位检索命中文献。
实施例
本实施例中的***包括一个语义脑图显示界面,该语义脑图显示界面是一个20行乘6列的关联矩阵,矩阵中的各个节点元素是从搜索文本文献中分解提取的文本特征词。
如图2所示,在实施例中,关联矩阵的节点有四种不同类型:
起始节点,例如:当前用户的搜索词是“bronchitis”(支气管炎);
直接关联节点,例如:第2列第1行节点元素是“antibiotic”(抗生素),第6列第8行节点元素是“cytokines”(细胞因子);
间接关联节点,例如:第2列第9行节点元素是“sleep apnoea”(睡眠磨牙),第4列第10行节点元素是“emphysema”(气肿);
弱关联节点,例如:第5列第2行节点元素是“IL-1”(白细胞介素-1),第5列第6行节点元素是“lung tissues”(肺部组织);
关联矩阵中的各个元素(节点)右上角角标,用于标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数。
第2列第1行节点“antibiotic”(抗生素)的权重序值(重要程度)大于等于同列第2行节点“asthma”(哮喘),第2行节点的权重序值大于同列第3行节点“chronic bronchitis”(慢性支气管炎),依次类推。
本实施例是针对实时文献搜索结果的一种启发式知识关联与发散思维表达模式,是对实时文献搜索结果语义层面的再加工、整合和文献内容的深度揭示。
如图3所示,在本实施例中,语义脑图实时表达***包括:
聚焦关联操作,选取关联矩阵任意节点,使之成为当前聚焦节点;例如:选取第6列第7行节点元素“cytokines”(细胞因子)作为当前感兴趣的聚焦节点,则语义脑图显示界面的第2列第5行节点元素“pneumonia”(肺炎)、第5列第2行节点元素是“IL-1”(白细胞介素-1)以及第5列第6行节点元素“lung tissues”(肺部组织)等节点被提示为当前聚焦节点的直接关联节点;
聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数。
聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种语义脑图实时表达***,其特征在于,其包括:
关联矩阵,与聚焦关联操作模块相连,关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,是1到m个文本特征词,初始值是用户的搜索提问词,m为自然数;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者为了减少层级复杂性而用于标注关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块,其包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
2.如权利要求1所述的语义脑图实时表达***,其特征在于,赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
3.如权利要求1所述的语义脑图实时表达***,其特征在于,所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示,关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词,n为自然数。
4.一种语义脑图实时表达***的操作方法,其特征在于,其包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点,以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,***弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710213799.6A CN107133271B (zh) | 2017-04-01 | 2017-04-01 | 语义脑图实时表达***及其操作方法 |
US16/314,840 US10970489B2 (en) | 2017-04-01 | 2018-03-30 | System for real-time expression of semantic mind map, and operation method therefor |
PCT/CN2018/081327 WO2018177411A1 (zh) | 2017-04-01 | 2018-03-30 | 语义脑图实时表达***及其操作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710213799.6A CN107133271B (zh) | 2017-04-01 | 2017-04-01 | 语义脑图实时表达***及其操作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107133271A CN107133271A (zh) | 2017-09-05 |
CN107133271B true CN107133271B (zh) | 2021-04-06 |
Family
ID=59715997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710213799.6A Active CN107133271B (zh) | 2017-04-01 | 2017-04-01 | 语义脑图实时表达***及其操作方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10970489B2 (zh) |
CN (1) | CN107133271B (zh) |
WO (1) | WO2018177411A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133271B (zh) * | 2017-04-01 | 2021-04-06 | 上海半坡网络技术有限公司 | 语义脑图实时表达***及其操作方法 |
US11023481B2 (en) * | 2018-08-08 | 2021-06-01 | commos inc. | Navigation platform for performing search queries |
US11587347B2 (en) * | 2021-01-21 | 2023-02-21 | International Business Machines Corporation | Pre-processing a table in a document for natural language processing |
CN113050933B (zh) * | 2021-06-02 | 2022-04-12 | 上海钛米机器人股份有限公司 | 脑图数据处理方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1852124A (zh) * | 2006-05-18 | 2006-10-25 | 复旦大学 | 播存网格环境下客户端资源检索及自动下载方法 |
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索***及其使用方法 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN104933032A (zh) * | 2015-06-29 | 2015-09-23 | 电子科技大学 | 一种基于复杂网络的博客关键词提取方法 |
CN105069080A (zh) * | 2015-07-31 | 2015-11-18 | 中国农业科学院农业信息研究所 | 一种文献检索方法及*** |
US20160012044A1 (en) * | 2014-07-14 | 2016-01-14 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US9558265B1 (en) * | 2016-05-12 | 2017-01-31 | Quid, Inc. | Facilitating targeted analysis via graph generation based on an influencing parameter |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145677B2 (en) * | 2007-03-27 | 2012-03-27 | Faleh Jassem Al-Shameri | Automated generation of metadata for mining image and text data |
CN101281530A (zh) * | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
CN102222115B (zh) | 2011-07-12 | 2013-09-11 | 厦门大学 | 基于关键词共现的研究热点边连通度分析方法 |
US20170103439A1 (en) * | 2015-10-07 | 2017-04-13 | Gastown Data Sciences | Searching Evidence to Recommend Organizations |
US9436760B1 (en) * | 2016-02-05 | 2016-09-06 | Quid, Inc. | Measuring accuracy of semantic graphs with exogenous datasets |
US9645999B1 (en) * | 2016-08-02 | 2017-05-09 | Quid, Inc. | Adjustment of document relationship graphs |
CN107133271B (zh) | 2017-04-01 | 2021-04-06 | 上海半坡网络技术有限公司 | 语义脑图实时表达***及其操作方法 |
-
2017
- 2017-04-01 CN CN201710213799.6A patent/CN107133271B/zh active Active
-
2018
- 2018-03-30 WO PCT/CN2018/081327 patent/WO2018177411A1/zh active Application Filing
- 2018-03-30 US US16/314,840 patent/US10970489B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索***及其使用方法 |
CN1852124A (zh) * | 2006-05-18 | 2006-10-25 | 复旦大学 | 播存网格环境下客户端资源检索及自动下载方法 |
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
US20160012044A1 (en) * | 2014-07-14 | 2016-01-14 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104933032A (zh) * | 2015-06-29 | 2015-09-23 | 电子科技大学 | 一种基于复杂网络的博客关键词提取方法 |
CN105069080A (zh) * | 2015-07-31 | 2015-11-18 | 中国农业科学院农业信息研究所 | 一种文献检索方法及*** |
US9558265B1 (en) * | 2016-05-12 | 2017-01-31 | Quid, Inc. | Facilitating targeted analysis via graph generation based on an influencing parameter |
Non-Patent Citations (1)
Title |
---|
数字图书馆协同阅览服务平台的设计与实现;邱君瑞,等;《数字图书馆论坛》;20120924;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107133271A (zh) | 2017-09-05 |
US20200012722A1 (en) | 2020-01-09 |
WO2018177411A1 (zh) | 2018-10-04 |
US10970489B2 (en) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
CN107133271B (zh) | 语义脑图实时表达***及其操作方法 | |
CN102662930B (zh) | 一种语料标注方法及装置 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及*** | |
CN106940788B (zh) | 智能评分方法及装置、计算机设备及计算机可读介质 | |
List et al. | Using phylogenetic networks to model Chinese dialect history | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、***、装置 | |
US6360197B1 (en) | Method and apparatus for identifying erroneous characters in text | |
JP5235918B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
Ronan et al. | Determining light verb constructions in contemporary British and Irish English | |
EP3726401A1 (en) | Encoding textual information for text analysis | |
CN109165040A (zh) | 一种基于随机森林模型的代码抄袭嫌疑检测的方法 | |
Sardinha | An assessment of metaphor retrieval methods | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
Fraga et al. | I saw this somewhere else: The Spanish Ambiguous Words (SAW) database | |
CN112800182A (zh) | 试题生成方法及装置 | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN110705306B (zh) | 一种作文文题一致性的测评方法 | |
JP2018066800A (ja) | 日本語音声認識モデル学習装置及びプログラム | |
Haghdoost et al. | Building a morphological network for persian on top of a morpheme-segmented lexicon | |
Lahbari et al. | A rule-based method for Arabic question classification | |
CN114997157A (zh) | 一种基于深度学习的新冠肺炎症状文本数据识别方法及装置 | |
US7546233B2 (en) | Succession Chinese character input method | |
Elwert | Network analysis between distant reading and close reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |