CN101211344A

CN101211344A - 文本信息遍历的快速四维可视化方法

Info

Publication number: CN101211344A
Application number: CNA2006101483476A
Authority: CN
Inventors: 蔡阳波; 陈勇
Original assignee: SHANGHAI XINSHENG ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: SHANGHAI XINSHENG ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2006-12-29
Filing date: 2006-12-29
Publication date: 2008-07-02

Abstract

本发明提供了一种新的文本信息遍历的快速四维可视化方法。(1)构建待分析的文本的数据库；(2)接受用户输入，将输入值与固定特征值结合，创建高维的特征向量，每个高维的特征向量表示独立文本集合的主题属性；(3)将得到的高维特征组成聚类，每个聚类按照与某个主题属性的关联度进行初步划分；(4)计算出每个聚类的质心坐标，质心被投影到二维平面；(5)为每个文本建立一个向量，每个向量包含该文本到质心的距离；(6)创建文本分层，每个分层都与相应的聚类关联，用坐标(x，y)表示与每个分层相关联的文本；(7)应用一个转换函数求出每个文本的z坐标以及u坐标，得出四维可视化表示，并将该坐标叠加到其他分层上。

Description

文本信息遍历的快速四维可视化方法

技术领域

本发明属于计算机信息检索和存储领域，针对关于文本的信息遍历提供了一种新的自动四维可视化表示方法(为用户构建多维索引)。该方法建立在三维可视化和人机互动的基础上。

背景技术

目前的文本可视化方法主要包括：传统的图表可视化方法，例如直方图、单位的组织结构图、商品目录、数据库中的实体-属性关联图等。存在缺点是：不能对任意文本进行可视化，也不能适应海量数据库的可视化。计算机“可视查询”工具，通过图形方法或者数据抽象的方法对文本库进行可视化，可以被任何用户用于任何环境，但仍不适合规模比较庞大的文本数据库。目前研究人员已经为基于文本的大型信息数据库创建了分析***，它们依靠布尔查询、文档列表和大量的人工消耗来进行分类、编辑和对数据进行结构化。在许多诸如市场分析、气象预测评估、环境监测甚至国家安全情报搜集分析领域，分析人员的任务是仔细辨别大量的数据以得出合适的信息认知模式以及满足跨越不同数据源之间的不规则模式。但随着开放的数字资源存指数级别增长，面对海量的文档数据，用户将面临如下问题：文档归类困难，文档很难被识别，存储空间增加，检索的速度降低。现有的三维可视化方法也存在处理过程过于简单、容易丢失文本信息以及人机互动不强的缺点。

发明内容

为了克服上述已有技术存在的缺点，本发明为海量文本信息的检索分析处理提供了新的基于向量空间维数变换文本空间化表示和向量处理方法，可以根据实际需求进行任意维数的可视化，增加了用户喜好参数作为第四维数。

本发明的基本思想是根据用户输入，提取特征向量的数目，得出文本检索分析的最佳维数，以此来决定和显示文本数据库中相关文本的内容和上下文。所有文本采用相关大小值、峰值(表示文本主题在空间中按照重要性排列的顺序值)、内容以及用户输入的附加特征值来表示。(1)构建待分析的文本的数据库；(2)接受用户输入，将输入值与固定特征值结合，创建高维的特征向量，每个高维的特征向量表示独立文本集合的主题属性；(3)将得到的高维特征组成聚类，每个聚类按照与某个主题属性的关联度进行初步划分；(4)计算出每个聚类的质心坐标，质心被投影到二维平面；(5)为每个文本建立一个向量，每个向量包含该文本到质心的距离；(6)创建文本分层，每个分层都与相应的聚类关联，用坐标(x，y)表示与每个分层相关联的文本；(7)应用一个转换函数求出每个文本的z坐标以及u坐标，得出四维可视化表示，并将该坐标叠加到其他分层上。

本发明可以根据用户输入特征和***规定特征对文本进行有效分类，将传统的文本数据集合转换为三维的形式，并在三维可视化的基础上把用户也作为一维。为海量文本的查询分析提供了更加直观、形象和简便的方法，人机互动性大大增强，更能满足不同用户需求，并容易编程实现。

附图说明

附图1是文本数据库在二维平面的表示图。

附图2是图1的一维表示图。

附图3是图2的平滑转换图。

附图4是文本数据库的四维表示图。

具体实施方式

具体实现步骤如下：

(1)文本的预处理。设置待处理文本的数量N，输入文本。将自然语言文本转换为可视化形式，用以下统计属性作为衡量个体文本的特征值：X＝(文本编号，文本大小，文本格式，文本中的关键词的出现位置和次数，每个词语的位置、出现次数和相邻词语的编号，用户访问该文本的次数，用预先获取的语言知识定义的语义以及用户可能输入的特征值)。用文本的特征值来表示文本。

(2)根据特征值求出任意两个文本间的欧氏距离Dij＝(Xi-Xj)²/2(其中Xi、Xj表示第i和第j个文本的特征向量)，将该距离作为文本间的相似度，并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合。

(3)对文本特征向量进行聚类。(a)当文本特征向量个数M小于或等于N时，采用K均值(或称ISODATA)聚类算法进行数据聚类：(i)设c为聚类数目，max为允许进行迭代的最大次数，Th为进行连续迭代时允许的最小偏差阈值。聚类误差值E为每个特征向量与质心的平方偏差的总和。(ii)当k＝1时，按照用户访问次数从大到小(比如至少大于100次)选择c个特征向量作为初始质心m_j ^(k)，将文本特征向量集中的每一个Xi分配到与它相距最近(即相似度最小)的质心m_j ^(k)代表的聚类中。计算出E^(k)。(iii)计算分配后新的质心m_j ^(k+1)以及误差值E^(k+1)。(iv)重复步骤(ii)和(iii)，直到k大于或等于max或者满足||E^(k+1)-E^(k)||小于Th，聚类结束。

(b)当文本特征向量个数大于N时。采用基于知识库集合的启发式方法，主要根据文本大小、相似度等特征来确定初始的质心m_j ^(k)，确保质心之间相似度最大(即距离最远)和聚类数目较小，并将这些初始质心放入多维文本空间中，其余步骤与K均值算法相同。

(4)对步骤(3)中划分好的高维空间聚类的质心坐标进行规则处理，求出每个文本特征向量到每个聚类质心的欧氏距离，并据此构造一个欧氏距离矩阵，并将该矩阵与高维空间的每个文本特征向量相乘，高维文本特征向量及聚类质心的坐标就被转换为二维平面坐标(即文本和聚类质心的坐标对)。

(5)步骤(4)产生了文本的二维可视化表示，但对于许多应用以及用户来说是不够的。因此，利用文本所属主题term和用户喜好参数userfrequency(即访问频率)分别得出文本的第三维z和第四维u。输入文本相关主题term集合，主题编号为I，设某个主题在某个聚类里出现的频率为f_n，若第n个主题在第k个聚类里出现的频率最大，则第k个聚类里所有文本的第三维坐标z_k＝I；设用户访问某个主题在一定时间t内的次数为n，则与该主题相关的第k个聚类里所有文本的第四维坐标为u_k＝n/t。

(6)将文本库中所有文本用四维坐标(x，y，z，u)进行表示，提供一个用户可操作的可视化结果。

Claims

1.一种文本信息遍历的快速四维可视化方法，其特征在于，(1)构建待分析的文本的数据库；(2)接受用户输入，将输入值与固定特征值结合，创建高维的特征向量，每个高维的特征向量表示独立文本集合的主题属性；(3)将得到的高维特征组成聚类，每个聚类按照与某个主题属性的关联度进行初步划分；(4)计算出每个聚类的质心坐标，质心被投影到二维平面；(5)为每个文本建立一个向量，每个向量包含该文本到质心的距离；(6)创建文本分层，每个分层都与相应的聚类关联，用坐标(x，y)表示与每个分层相关联的文本；(7)应用一个转换函数求出每个文本的z坐标以及u坐标，得出四维可视化表示，并将该坐标叠加到其他分层上。

2.按照权利要求1所述的一种文本信息遍历的快速四维可视化方法，其特征在于，(1)文本的预处理，设置待处理文本的数量N，输入文本，将自然语言文本转换为可视化形式，用以下统计属性作为衡量个体文本的特征值：X＝文本编号，文本大小，文本格式，文本中的关键词的出现位置和次数，每个词语的位置、出现次数和相邻词语的编号，用户访问该文本的次数，用预先获取的语言知识定义的语义以及用户可能输入的特征值，用文本的特征值来表示文本，其中Xi、Xj表示第i和第j个文本的特征向量，将该距离作为文本间的相似度，并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合；

(3)对文本特征向量进行聚类，(a)当文本特征向量个数M小于或等于N时，采用K均值聚类算法进行数据聚类：(i)设c为聚类数目，max为允许进行迭代的最大次数，Th为进行连续迭代时允许的最小偏差阈值，聚类误差值E为每个特征向量与质心的平方偏差的总和，(ii)当k＝1时，按照用户访问次数从大到小选择c个特征向量作为初始质心m_j ^(k)，将文本特征向量集中的每一个Xi分配到与它相距最近即相似度最小的质心m_j ^(k)代表的聚类中，计算出E^(k)，(iii)计算分配后新的质心m_j ^(k+1)以及误差值E^(k+1)，(iv)重复步骤(ii)和(iii)，直到k大于或等于max或者满足||E^(k+1)-E^(k)||小于Th，聚类结束；

(b)当文本特征向量个数大于N时，采用基于知识库集合的启发式方法，根据文本大小、相似度等特征来确定初始的质心m_j ^(k)，确保质心之间相似度最大即距离最远和聚类数目较小，并将这些初始质心放入多维文本空间中，其余步骤与K均值算法相同；

(4)对步骤(3)中划分好的高维空间聚类的质心坐标进行规则处理，求出每个文本特征向量到每个聚类质心的欧氏距离，并据此构造一个欧氏距离矩阵，并将该矩阵与高维空间的每个文本特征向量相乘，高维文本特征向量及聚类质心的坐标就被转换为二维平面坐标即文本和聚类质心的坐标对；

(5)步骤(4)产生了文本的二维可视化表示，利用文本所属主题term和用户喜好参数即访问频率分别得出文本的第三维z和第四维u，输入文本相关主题term集合，主题编号为I，设某个主题在某个聚类里出现的频率为f_n，若第n个主题在第k个聚类里出现的频率最大，则第k个聚类里所有文本的第三维坐标z_k＝I；设用户访问某个主题在一定时间t内的次数为n，则与该主题相关的第k个聚类里所有文本的第四维坐标为u_k＝n/t；