CN101211344A - 文本信息遍历的快速四维可视化方法 - Google Patents
文本信息遍历的快速四维可视化方法 Download PDFInfo
- Publication number
- CN101211344A CN101211344A CNA2006101483476A CN200610148347A CN101211344A CN 101211344 A CN101211344 A CN 101211344A CN A2006101483476 A CNA2006101483476 A CN A2006101483476A CN 200610148347 A CN200610148347 A CN 200610148347A CN 101211344 A CN101211344 A CN 101211344A
- Authority
- CN
- China
- Prior art keywords
- text
- cluster
- coordinate
- dimensional
- barycenter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种新的文本信息遍历的快速四维可视化方法。(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。
Description
技术领域
本发明属于计算机信息检索和存储领域,针对关于文本的信息遍历提供了一种新的自动四维可视化表示方法(为用户构建多维索引)。该方法建立在三维可视化和人机互动的基础上。
背景技术
目前的文本可视化方法主要包括:传统的图表可视化方法,例如直方图、单位的组织结构图、商品目录、数据库中的实体-属性关联图等。存在缺点是:不能对任意文本进行可视化,也不能适应海量数据库的可视化。计算机“可视查询”工具,通过图形方法或者数据抽象的方法对文本库进行可视化,可以被任何用户用于任何环境,但仍不适合规模比较庞大的文本数据库。目前研究人员已经为基于文本的大型信息数据库创建了分析***,它们依靠布尔查询、文档列表和大量的人工消耗来进行分类、编辑和对数据进行结构化。在许多诸如市场分析、气象预测评估、环境监测甚至国家安全情报搜集分析领域,分析人员的任务是仔细辨别大量的数据以得出合适的信息认知模式以及满足跨越不同数据源之间的不规则模式。但随着开放的数字资源存指数级别增长,面对海量的文档数据,用户将面临如下问题:文档归类困难,文档很难被识别,存储空间增加,检索的速度降低。现有的三维可视化方法也存在处理过程过于简单、容易丢失文本信息以及人机互动不强的缺点。
发明内容
为了克服上述已有技术存在的缺点,本发明为海量文本信息的检索分析处理提供了新的基于向量空间维数变换文本空间化表示和向量处理方法,可以根据实际需求进行任意维数的可视化,增加了用户喜好参数作为第四维数。
本发明的基本思想是根据用户输入,提取特征向量的数目,得出文本检索分析的最佳维数,以此来决定和显示文本数据库中相关文本的内容和上下文。所有文本采用相关大小值、峰值(表示文本主题在空间中按照重要性排列的顺序值)、内容以及用户输入的附加特征值来表示。(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。
本发明可以根据用户输入特征和***规定特征对文本进行有效分类,将传统的文本数据集合转换为三维的形式,并在三维可视化的基础上把用户也作为一维。为海量文本的查询分析提供了更加直观、形象和简便的方法,人机互动性大大增强,更能满足不同用户需求,并容易编程实现。
附图说明
附图1是文本数据库在二维平面的表示图。
附图2是图1的一维表示图。
附图3是图2的平滑转换图。
附图4是文本数据库的四维表示图。
具体实施方式
具体实现步骤如下:
(1)文本的预处理。设置待处理文本的数量N,输入文本。将自然语言文本转换为可视化形式,用以下统计属性作为衡量个体文本的特征值:X=(文本编号,文本大小,文本格式,文本中的关键词的出现位置和次数,每个词语的位置、出现次数和相邻词语的编号,用户访问该文本的次数,用预先获取的语言知识定义的语义以及用户可能输入的特征值)。用文本的特征值来表示文本。
(2)根据特征值求出任意两个文本间的欧氏距离Dij=(Xi-Xj)2/2(其中Xi、Xj表示第i和第j个文本的特征向量),将该距离作为文本间的相似度,并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合。
(3)对文本特征向量进行聚类。(a)当文本特征向量个数M小于或等于N时,采用K均值(或称ISODATA)聚类算法进行数据聚类:(i)设c为聚类数目,max为允许进行迭代的最大次数,Th为进行连续迭代时允许的最小偏差阈值。聚类误差值E为每个特征向量与质心的平方偏差的总和。(ii)当k=1时,按照用户访问次数从大到小(比如至少大于100次)选择c个特征向量作为初始质心mj (k),将文本特征向量集中的每一个Xi分配到与它相距最近(即相似度最小)的质心mj (k)代表的聚类中。计算出E(k)。(iii)计算分配后新的质心mj (k+1)以及误差值E(k+1)。(iv)重复步骤(ii)和(iii),直到k大于或等于max或者满足||E(k+1)-E(k)||小于Th,聚类结束。
(b)当文本特征向量个数大于N时。采用基于知识库集合的启发式方法,主要根据文本大小、相似度等特征来确定初始的质心mj (k),确保质心之间相似度最大(即距离最远)和聚类数目较小,并将这些初始质心放入多维文本空间中,其余步骤与K均值算法相同。
(4)对步骤(3)中划分好的高维空间聚类的质心坐标进行规则处理,求出每个文本特征向量到每个聚类质心的欧氏距离,并据此构造一个欧氏距离矩阵,并将该矩阵与高维空间的每个文本特征向量相乘,高维文本特征向量及聚类质心的坐标就被转换为二维平面坐标(即文本和聚类质心的坐标对)。
(5)步骤(4)产生了文本的二维可视化表示,但对于许多应用以及用户来说是不够的。因此,利用文本所属主题term和用户喜好参数userfrequency(即访问频率)分别得出文本的第三维z和第四维u。输入文本相关主题term集合,主题编号为I,设某个主题在某个聚类里出现的频率为fn,若第n个主题在第k个聚类里出现的频率最大,则第k个聚类里所有文本的第三维坐标zk=I;设用户访问某个主题在一定时间t内的次数为n,则与该主题相关的第k个聚类里所有文本的第四维坐标为uk=n/t。
(6)将文本库中所有文本用四维坐标(x,y,z,u)进行表示,提供一个用户可操作的可视化结果。
Claims (2)
1.一种文本信息遍历的快速四维可视化方法,其特征在于,(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。
2.按照权利要求1所述的一种文本信息遍历的快速四维可视化方法,其特征在于,(1)文本的预处理,设置待处理文本的数量N,输入文本,将自然语言文本转换为可视化形式,用以下统计属性作为衡量个体文本的特征值:X=文本编号,文本大小,文本格式,文本中的关键词的出现位置和次数,每个词语的位置、出现次数和相邻词语的编号,用户访问该文本的次数,用预先获取的语言知识定义的语义以及用户可能输入的特征值,用文本的特征值来表示文本,其中Xi、Xj表示第i和第j个文本的特征向量,将该距离作为文本间的相似度,并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合;
(3)对文本特征向量进行聚类,(a)当文本特征向量个数M小于或等于N时,采用K均值聚类算法进行数据聚类:(i)设c为聚类数目,max为允许进行迭代的最大次数,Th为进行连续迭代时允许的最小偏差阈值,聚类误差值E为每个特征向量与质心的平方偏差的总和,(ii)当k=1时,按照用户访问次数从大到小选择c个特征向量作为初始质心mj (k),将文本特征向量集中的每一个Xi分配到与它相距最近即相似度最小的质心mj (k)代表的聚类中,计算出E(k),(iii)计算分配后新的质心mj (k+1)以及误差值E(k+1),(iv)重复步骤(ii)和(iii),直到k大于或等于max或者满足||E(k+1)-E(k)||小于Th,聚类结束;
(b)当文本特征向量个数大于N时,采用基于知识库集合的启发式方法,根据文本大小、相似度等特征来确定初始的质心mj (k),确保质心之间相似度最大即距离最远和聚类数目较小,并将这些初始质心放入多维文本空间中,其余步骤与K均值算法相同;
(4)对步骤(3)中划分好的高维空间聚类的质心坐标进行规则处理,求出每个文本特征向量到每个聚类质心的欧氏距离,并据此构造一个欧氏距离矩阵,并将该矩阵与高维空间的每个文本特征向量相乘,高维文本特征向量及聚类质心的坐标就被转换为二维平面坐标即文本和聚类质心的坐标对;
(5)步骤(4)产生了文本的二维可视化表示,利用文本所属主题term和用户喜好参数即访问频率分别得出文本的第三维z和第四维u,输入文本相关主题term集合,主题编号为I,设某个主题在某个聚类里出现的频率为fn,若第n个主题在第k个聚类里出现的频率最大,则第k个聚类里所有文本的第三维坐标zk=I;设用户访问某个主题在一定时间t内的次数为n,则与该主题相关的第k个聚类里所有文本的第四维坐标为uk=n/t;
(6)将文本库中所有文本用四维坐标(x,y,z,u)进行表示,提供一个用户可操作的可视化结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101483476A CN101211344A (zh) | 2006-12-29 | 2006-12-29 | 文本信息遍历的快速四维可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101483476A CN101211344A (zh) | 2006-12-29 | 2006-12-29 | 文本信息遍历的快速四维可视化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101211344A true CN101211344A (zh) | 2008-07-02 |
Family
ID=39611376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101483476A Pending CN101211344A (zh) | 2006-12-29 | 2006-12-29 | 文本信息遍历的快速四维可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101211344A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110166A (zh) * | 2011-03-01 | 2011-06-29 | 浙江大学 | 基于浏览器的本体3d可视化和编辑的***及方法 |
CN102591924A (zh) * | 2010-12-13 | 2012-07-18 | 微软公司 | 靶心多维数据可视化 |
CN102663089A (zh) * | 2012-04-09 | 2012-09-12 | 中国科学院软件研究所 | 一种基于球极映射的非结构化数据可视化方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103077157A (zh) * | 2013-01-22 | 2013-05-01 | 清华大学 | 一种文本集合相似性的可视化方法和装置 |
CN103646035A (zh) * | 2013-11-14 | 2014-03-19 | 北京锐安科技有限公司 | 一种基于启发式方法的信息搜索方法 |
CN105630748A (zh) * | 2014-10-31 | 2016-06-01 | 富士通株式会社 | 信息处理设备和信息处理方法 |
CN107038193A (zh) * | 2016-11-17 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 一种文本信息的处理方法和装置 |
CN107169119A (zh) * | 2017-05-26 | 2017-09-15 | 九次方大数据信息集团有限公司 | 基于数据结构识别的自动化可视化呈现方法与*** |
CN107632998A (zh) * | 2017-07-24 | 2018-01-26 | 电子科技大学 | 一种基于人体形态的多维数据可视化方法 |
CN108509981A (zh) * | 2018-03-05 | 2018-09-07 | 天津工业大学 | 基于序列顶点特征的三维物体内部部件自动划分方法 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
-
2006
- 2006-12-29 CN CNA2006101483476A patent/CN101211344A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591924B (zh) * | 2010-12-13 | 2016-01-20 | 微软技术许可有限责任公司 | 靶心多维数据可视化 |
CN102591924A (zh) * | 2010-12-13 | 2012-07-18 | 微软公司 | 靶心多维数据可视化 |
CN102110166A (zh) * | 2011-03-01 | 2011-06-29 | 浙江大学 | 基于浏览器的本体3d可视化和编辑的***及方法 |
CN102110166B (zh) * | 2011-03-01 | 2013-07-31 | 浙江大学 | 基于浏览器的本体3d可视化和编辑的***及方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN102999483B (zh) * | 2011-09-16 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN102663089A (zh) * | 2012-04-09 | 2012-09-12 | 中国科学院软件研究所 | 一种基于球极映射的非结构化数据可视化方法 |
CN103077157A (zh) * | 2013-01-22 | 2013-05-01 | 清华大学 | 一种文本集合相似性的可视化方法和装置 |
CN103077157B (zh) * | 2013-01-22 | 2015-08-19 | 清华大学 | 一种文本集合相似性的可视化方法和装置 |
CN103646035A (zh) * | 2013-11-14 | 2014-03-19 | 北京锐安科技有限公司 | 一种基于启发式方法的信息搜索方法 |
CN103646035B (zh) * | 2013-11-14 | 2017-07-07 | 北京锐安科技有限公司 | 一种基于启发式方法的信息搜索方法 |
CN105630748A (zh) * | 2014-10-31 | 2016-06-01 | 富士通株式会社 | 信息处理设备和信息处理方法 |
CN107038193A (zh) * | 2016-11-17 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 一种文本信息的处理方法和装置 |
CN107169119A (zh) * | 2017-05-26 | 2017-09-15 | 九次方大数据信息集团有限公司 | 基于数据结构识别的自动化可视化呈现方法与*** |
CN107632998A (zh) * | 2017-07-24 | 2018-01-26 | 电子科技大学 | 一种基于人体形态的多维数据可视化方法 |
CN107632998B (zh) * | 2017-07-24 | 2021-04-23 | 电子科技大学 | 一种基于人体形态的多维数据可视化方法 |
CN108509981A (zh) * | 2018-03-05 | 2018-09-07 | 天津工业大学 | 基于序列顶点特征的三维物体内部部件自动划分方法 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101211344A (zh) | 文本信息遍历的快速四维可视化方法 | |
JP6190887B2 (ja) | 画像検索システムおよび情報記録媒体 | |
Liu et al. | Region-based image retrieval with high-level semantics using decision tree learning | |
CN104850633B (zh) | 一种基于手绘草图部件分割的三维模型检索***及方法 | |
CN102902826B (zh) | 一种基于基准图像索引的图像快速检索方法 | |
US20160283490A1 (en) | Method and System for Visualizing Documents | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及*** | |
CN102663138A (zh) | 一种公式查询条件的输入方法与装置 | |
Mishra et al. | Image mining in the context of content based image retrieval: a perspective | |
Martinet et al. | A relational vector space model using an advanced weighting scheme for image retrieval | |
Han et al. | Tree-based visualization and optimization for image collection | |
CN111143400A (zh) | 一种全栈式检索方法、***、引擎及电子设备 | |
Tsai et al. | Qualitative evaluation of automatic assignment of keywords to images | |
da Fonseca | Sketch-based retrieval in large sets of drawings | |
Plant et al. | Visualising image databases | |
Leng et al. | Support vector machine active learning for 3d model retrieval | |
CN114077682A (zh) | 一种图像检索智能识别匹配处理方法、***和存储介质 | |
Munarko et al. | HII: Histogram Inverted Index for Fast Images Retrieval. | |
Yan et al. | Research on Application Value Analysis of Real Estate Registration Based on Big Data Mining | |
Wilkins et al. | Text based approaches for content-based image retrieval on large image collections | |
Gupta et al. | A new approach for cbir feedback based image classifier | |
CN118069791B (zh) | 一种电子档案智能检索方法及*** | |
Yang et al. | A Data Mining Model and Methods Based on Multimedia Database | |
Kuo et al. | Constructing a discriminative visual vocabulary with macro and micro sense of visual words | |
Shinde et al. | Retrieval of efficiently classified, re-ranked images using histogram based score computation algorithm extended with the elimination of duplicate images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080702 |