CN106156196A - 提取文本特征的装置和方法 - Google Patents
提取文本特征的装置和方法 Download PDFInfo
- Publication number
- CN106156196A CN106156196A CN201510193912.XA CN201510193912A CN106156196A CN 106156196 A CN106156196 A CN 106156196A CN 201510193912 A CN201510193912 A CN 201510193912A CN 106156196 A CN106156196 A CN 106156196A
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- weight
- comparator matrix
- calculate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及提取文本特征的装置和方法。一种提取文本特征的装置,包括:分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。根据本发明的装置和方法,将词性和词性组合对文本特征的贡献融入特征提取方法中,对文本信息的提取更加充分,处理实时数据的速度更快。
Description
技术领域
本发明涉及信息处理领域,更具体地涉及一种提取文本特征的装置和方法。
背景技术
随着互联网信息不断的增长,文本数据越来越多,同时随着网络的飞速发展,为人们提供了简便的信息获取途径,网页、邮件、电子书籍等电子文档的数量越来越多,人们获得大量信息的同时,也不得不花大量的时间来阅读和整理这些信息,因此怎样简便、快捷、准确地获取这些文本的关键信息就变得异常重要。由于中文基础性分词领域的处理比较复杂,导致了中文信息抽取技术相对落后,因此中文文本的信息提取技术越来越重要。
一类传统的文本提取方法是计算文档词频,即在训练文本集中对每个特征计算它的文档频数和词频,这样的计算方法存在的问题是:(1)没有考虑词性对文本特征的贡献(2)没有考虑语义结构对文本特征的描述。
目前,在大部分的文本特征提取方法及其改良方法中,所采用的传统的词频逆向文档频率方法只是单一的计算词频,没有引入词性和句子结构对文本特征提取的影响因素。同时,不同的文本语言,其句子结构差距较大,很难将统一的提取方法应用于不同文本语言。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种提取文本特征的装置,包括:分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
根据本发明的一个方面,提供了一种提取文本特征的方法,包括:对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;计算每个词的重要程度;计算每个词的词性的权重;计算每个词与其相邻词的词性组合的权重;以及对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了根据本发明的一个实施例的提取文本特征的方法100的示例性过程的流程图;
图2是示出图1中的步骤S106的一种示例性过程的流程图;
图3示出了词性权重的计算过程的一个具体示例;
图4是示出图1中的步骤S108的一种示例性过程的流程图;
图5是示出词性和词性组合的层次结构图;
图6示出了根据本发明的一个实施例的提取文本特征的方法的***结构图;
图7是示出根据本发明的一个实施例的提取文本特征的装置700的示例性配置的框图;
图8是示出图7中的词性权重计算单元706的一种示例性配置的框图;
图9是示出图7中的词性组合权重计算单元708的一种示例性配置的框图;以及
图10是示出可以用于实施本发明的提取文本特征的装置和方法的计算设备的示例性结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出一种基于词性和词的相对位置以及词的重要程度的文本特征提取方法。本发明在文本特征提取方法上与传统方法有本质的区别。传统的方法只考虑了词的重要程度,例如词频或者逆向词频作为文本特征。为了引入词性和词的相对位置对特征的贡献,本发明通过计算词性的权重和词的相对位置的权重,再将这两个权重与词的重要程度结合来确定最终的文本特征。这样就将词性和词的位置信息对文本特征的贡献融入特征提取方法中。
下面结合附图详细说明根据本发明的一个实施例的提取文本特征的方法和装置。
图1示出了根据本发明的一个实施例的提取文本特征的方法100的示例性过程的流程图。
首先,在步骤S102中,对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合。这里,每个词与其相邻词的词性组合也即表示以上所述词的相对位置的信息。
在一个示例中,可以基于隐马尔可夫模型进行分词来得到分词、词性和每个词与其相邻词的词性组合。
对文档进行分词可采用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
接下来,在步骤S104中,计算每个词的重要程度。可以用词频、词频-逆向文件频率(TF-IDF)等来表示词的重要程度。在下面的说明中,都以词频-逆向文件频率为例来表示词的重要程度。
接下来,在步骤S106中,计算每个词的词性的权重。
图2是示出图1中的步骤S106的一种示例性过程的流程图。
如图2所示,在计算词性的权重时,首先在步骤S1062中构造词性比较矩阵。即根据词性的重要程度,两两比较所给出的所有词性之间的重要程度,之后给出打分,用所有打分来构造词性比较矩阵。在一个示例中,可以基于层次分析法来构造词性比较矩阵。
在一个示例中,可以采用下面的表1进行打分,来构建词性比较矩阵。
表1 1-9得分表
也就是说,当两个因素同样重要时,得分为1,当因素1比因素2稍微重要则得分为2,那么因素2与因素1比较时,得分为1/2,以此类推,可两两比较所有词性的重要程度来进行打分。
用所有打分可以构造如下词性比较矩阵A。
接着,在步骤S1064中,计算词性比较矩阵的最大特征根所对应的特征向量。然后,在步骤S1066中,对特征向量进行归一化得到词性的权重。
在一个示例中,在计算词性比较矩阵的最大特征根所对应的特征向量的步骤之前,还包括确定该词性比较矩阵的逻辑是否成立的步骤(图中未示出)。
在一个示例中,通过对词性比较矩阵进行一致性检验,来确定该词性比较矩阵的逻辑是否成立。
图3示出了词性权重的计算过程的一个具体示例。
首先,在步骤S301中输入所构造的比较矩阵。
在步骤S302中,计算该矩阵的特征最大根。
在步骤S303中,计算一致性指标CI=(λmax-m)/(m-1),查找相应的平均随机一致性指标RI,然后计算一致性比例CR=CI/RI。
在步骤S304中,进行判断,当CR<0.1时,认为该矩阵的一致性是可接受的,其逻辑可以成立,继续执行步骤S305;如果不满足CR<0.1,则通过修改打分来调整比较矩阵,并重复执行以上步骤S302至步骤S304。
在步骤S305中,计算最大特征根对应的特征向量。
最后,在步骤S306中,对计算得到的特征向量进行归一化,可以得到词性的权重。
在计算每个词的词性的权重的步骤S106之后,在步骤S108中,计算每个词与其相邻词的词性组合的权重。
计算每个词与其相邻词的词性组合的权重的方法与计算词性的权重的方法类似。图4是示出图1中的步骤S108的一种示例性过程的流程图。
首先,在步骤S1082中构造每个词性的相对位置比较矩阵,即比较词性组合与词性组合之间重要程度,给出打分,用所有打分来构造词性组合比较矩阵。这里也采用表1来进行打分。
接着,在步骤S1084中,计算词性组合比较矩阵的最大特征根所对应的特征向量。然后,在步骤S1086中,对特征向量进行归一化得到词性组合的权重。
在一个示例中,在计算词性组合比较矩阵的最大特征根所对应的特征向量的步骤之前,还包括确定该词性组合比较矩阵的逻辑是否成立的步骤(图中未示出)。
在一个示例中,通过对词性组合比较矩阵进行一致性检验,来确定该词性组合比较矩阵的逻辑是否成立。
可以采用与图3示出的词性权重的计算方法相同的方法来计算词性组合的权重。
下面结合图5来说明利用以上方法来计算词性权重和词性组合权重的一个示例性计算过程。图5是示出词性和词性组合的层次结构图。这里,以一个句子中只有四类词性,即名词、动词、形容词和副词为例进行说明。
首先基于层次分析法(AHP)构建如图5所示的层次结构,根据该层次结构以及上述表1可以构造词性比较矩阵A如下。
按照上述方法可以计算出矩阵A的一致性比例CR=(4.06-4)/(4-1)*(1/0.9)=0.022<0.1,从而计算得到词性权重为[0.0650.1630.5880.183]。
同样道理,可以构造名词与其他词性组合的比较矩阵B1:
动词与其他词性组合的比较矩阵B2:
形容词与其他词性组合的比较矩阵B3:
副词与其他词性组合的比较矩阵B4:
对于词性组合比较矩阵B1-B4,可以分别计算出其一致性比例CR为:
CRB1=0.04<0.1,
CRB2=0<0.1,
CRB3=0.06<0.1,
CRB4=0.0015<0.1,
从而,分别计算出其权重为:
WB1=[0.250.0780.480.19],
WB2=[0.0830.420.420.083],
WB3=[0.0700.510.280.14],
WB4=[0.280.0990.520.099]。
最后,在步骤S110中,根据每个词的重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
在一个示例中,可以通过将词的词频-逆向文档频率乘以词性的权重再乘以词性组合的权重来得到最终的文本特征。
图6示出了根据本发明的一个实施例的提取文本特征的方法的***结构图。
下面结合图6说明提取文本特征的一个示例性方法。
首先,使用下面的等式(1)对输入文本进行分词:
输出词xi以及词性和它的位置信息。
根据得到的词xi,使用下面的等式(2)可以计算词频-逆向文档频率
在等式(2)中,Tfi是词频,表示某个给定的词在该文档中出现的频率,其中,是词xi在文档中出现的次数,是在文档中所有词的出现次数之和。
Idfi是逆向文档频率,是一个词普遍重要程度的度量,可以由总文档数目除以包含该词的文档的数目,再将得到的商取对数得到。
在式(2)中,其中,|D|是语料库中的文件总数,{j:xi∈dj}表示包含该词的文档数目。
然后,计算Tfi与Idfi的乘积来得到词频-逆向文档频率
接着,基于AHP模型,采用上述计算词性的权重和词性组合的权重的方法,分别计算得到词性的权重和词性组合的权重
最后,通过等式(3)可以计算得到最终的文本特征
本领域技术人员可以理解,计算文本特征的公式不限于上述等式(3),例如,也可以采用下面的等式(4)或(5)进行计算。
其中,m和n是任意整数。
图7是示出根据本发明的一个实施例的提取文本特征的装置700的示例性配置的框图。
如图7所示,提取文本特征的装置700包括分词单元702、重要性计算单元704、词性权重计算单元706、词性组合权重计算单元708和文本特征提取单元710。
其中,分词单元702被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合。
重要性计算单元704被配置为计算每个词的重要程度。
词性权重计算单元706被配置为计算每个词的词性的权重。
词性组合权重计算单元708被配置为计算每个词与其相邻词的词性组合的权重。
文本特征提取单元710被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
图8是示出图7中的词性权重计算单元706的一种示例性配置的框图。
如图8所述,词性权重计算单元706包括第一比较矩阵构造子单元7062、第一特征向量构造子单元7064和词性权重计算子单元7066。
第一比较矩阵构造子单元7062被配置为对词性的重要程度两两进行比较并打分,构造第一比较矩阵。
第一特征向量构造子单元7064被配置为计算所述第一比较矩阵的最大特征根所对应的第一特征向量。
词性权重计算子单元7066被配置为对所述第一特征向量进行归一化得到所述词性的权重。
图9是示出图7中的词性组合权重计算单元708的一种示例性配置的框图。
如图9所示,词性组合权重计算单元708包括第二比较矩阵构造子单元7082、第二特征向量构造子单元7084和词性组合权重计算子单元7086。
第二比较矩阵构造子单元7082被配置为对词性组合的重要程度两两进行比较并打分,构造第二比较矩阵。
第二特征向量构造子单元7084被配置为计算第二比较矩阵的最大特征根所对应的第二特征向量。
词性组合权重计算子单元7086被配置为对第二特征向量进行归一化得到词性组合的权重。
在一个示例中,词性权重计算单元706还包括第一逻辑确定子单元(图中未示出)。第一逻辑确定子单元被配置为确定第一比较矩阵的逻辑是否成立。
在一个示例中,词性组合权重计算单元708还包括第二逻辑确定子单元(图中未示出)。第二逻辑确定子单元被配置为确定第二比较矩阵的逻辑是否成立。
在一个示例中,第一逻辑确定子单元进一步被配置为通过对第一比较矩阵进行一致性检验,来确定第一比较矩阵的逻辑是否成立。
在一个示例中,第二逻辑确定子单元进一步被配置为通过对第二比较矩阵进行一致性检验,来确定第二比较矩阵的逻辑是否成立。
在一个示例中,分词单元702进一步被配置为基于隐马尔可夫模型来进行分词。
在一个示例中,第一比较矩阵构造子单元7062进一步被配置为基于层次分析法来构造第一比较矩阵。
在一个示例中,第二比较矩阵构造子单元7064进一步被配置为基于层次分析法来构造所述第二比较矩阵。
在一个示例中,重要性计算单元704进一步被配置为计算词的词频-逆向文档频率。
其中,文本特征提取单元710进一步被配置为:对于每个词,通过将该词的词频-逆向文档频率乘以词性的权重再乘以词性组合的权重来提取该词的文本特征。
关于提取文本特征的装置700的各个部分的操作和功能的细节可以参照结合图1-6描述的本发明的提取文本特征的方法的实施例,这里不再详细描述。
在此需要说明的是,图7-9所示的提取文本特征的装置700及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图7-9所示的结构框图进行修改。
本发明提出一种基于词性和词性组合以及词的重要程度的文本特征提取方法。本发明具有以下优势:
(1)利用词性和词的位置(即词性组合)来反映文本的特征,弥补了单一词频和逆向文档词频(TFIDF)特征对信息提取不充分的缺陷。
(2)引入层次分析法,就可以将不同语言,以及不同人对语言的理解融入特征提取过程中。
(3)词性和词性组合的权重是预先计算好的,对处理实时的数据,速度更快。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此链路。输入/输出接口1005也链路到总线1004。
下述部件链路到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可链路到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
1.一种提取文本特征的装置,包括:
分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;
重要性计算单元,被配置为计算每个词的重要程度;
词性权重计算单元,被配置为计算每个词的词性的权重;
词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及
文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
2.根据附记1所述的装置,其中,所述词性权重计算单元包括:
第一比较矩阵构造子单元,被配置为对词性的重要程度两两进行比较并打分,构造第一比较矩阵;
第一特征向量构造子单元,被配置为计算所述第一比较矩阵的最大特征根所对应的第一特征向量;以及
词性权重计算子单元,被配置为对所述第一特征向量进行归一化得到所述词性的权重。
3.根据附记2所述的装置,其中,所述词性组合权重计算单元包括:
第二比较矩阵构造子单元,被配置为对词性组合的重要程度两两进行比较并打分,构造第二比较矩阵;
第二特征向量构造子单元,被配置为计算所述第二比较矩阵的最大特征根所对应的第二特征向量;以及
词性组合权重计算子单元,被配置为对所述第二特征向量进行归一化得到所述词性组合的权重。
4.根据附记3所述的装置,其中,所述词性权重计算单元还包括第一逻辑确定子单元,被配置为确定所述第一比较矩阵的逻辑是否成立,以及所述词性组合权重计算单元还包括第二逻辑确定子单元,被配置为确定所述第二比较矩阵的逻辑是否成立。
5.根据附记4所述的装置,其中,所述第一逻辑确定子单元进一步被配置为通过对所述第一比较矩阵进行一致性检验,来确定所述第一比较矩阵的逻辑是否成立,以及所述第二逻辑确定子单元进一步被配置为通过对所述第二比较矩阵进行一致性检验,来确定所述第二比较矩阵的逻辑是否成立。
6.根据附记1所述的装置,其中,所述分词单元进一步被配置为基于隐马尔可夫模型来进行所述分词。
7.根据附记3所述的装置,其中,所述第一比较矩阵构造子单元进一步被配置为基于层次分析法来构造所述第一比较矩阵,以及所述第二比较矩阵构造子单元进一步被配置为基于层次分析法来构造所述第二比较矩阵。
8.根据附记1所述的装置,其中,所述重要程度计算单元进一步被配置为计算该词的词频-逆向文档频率。
9.根据附记8所述的装置,其中,所述文本特征提取单元进一步被配置为:对于每个词,通过将该词的词频-逆向文档频率乘以词性的权重再乘以词性组合的权重来提取该词的文本特征。
10.一种提取文本特征的方法,包括:
对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;
计算每个词的重要程度;
计算每个词的词性的权重;
计算每个词与其相邻词的词性组合的权重;以及
对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
11.根据附记10所述的方法,其中,所述词性的权重通过以下方法来计算:
对词性的重要程度两两进行比较并打分,构造第一比较矩阵;
计算所述第一比较矩阵的最大特征根所对应的第一特征向量;以及
对所述第一特征向量进行归一化得到所述词性的权重。
12.根据附记11所述的方法,其中,所述词性组合的权重通过以下方法来计算:
对词性组合的重要程度两两进行比较并打分,构造第二比较矩阵;
计算所述第二比较矩阵的最大特征根所对应的第二特征向量;以及
对所述第二特征向量进行归一化得到所述词性组合的权重。
13.根据附记12所述的方法,其中,在根据所述第一比较矩阵计算所述第一特征向量之前先确定所述第一比较矩阵的逻辑是否成立,并且在根据所述第二比较矩阵计算所述第二特征向量之前先确定所述第二比较矩阵的逻辑是否成立。
14.根据附记13所述的方法,其中,通过对所述第一比较矩阵或所述第二比较矩阵与随机矩阵进行一致性检验,来确定所述第一比较矩阵或所述第二比较矩阵的逻辑是否成立。
15.根据附记10所述的方法,其中,基于隐马尔可夫模型来进行所述分词。
16.根据附记12所述的方法,其中,基于层次分析法来构造所述第一比较矩阵和所述第二比较矩阵。
17.根据附记10所述的方法,其中,计算每个词的重要程度包括计算该词的词频-逆向文档频率。
18.根据附记17所述的方法,其中,对于每个词,通过将该词的词频-逆向文档频率乘以词性的权重再乘以词性组合的权重来得到该词的文本特征。
Claims (10)
1.一种提取文本特征的装置,包括:
分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;
重要性计算单元,被配置为计算每个词的重要程度;
词性权重计算单元,被配置为计算每个词的词性的权重;
词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及
文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
2.根据权利要求1所述的装置,其中,所述词性权重计算单元包括:
第一比较矩阵构造子单元,被配置为对词性的重要程度两两进行比较并打分,构造第一比较矩阵;
第一特征向量构造子单元,被配置为计算所述第一比较矩阵的最大特征根所对应的第一特征向量;以及
词性权重计算子单元,被配置为对所述第一特征向量进行归一化得到所述词性的权重。
3.根据权利要求2所述的装置,其中,所述词性组合权重计算单元包括:
第二比较矩阵构造子单元,被配置为对词性组合的重要程度两两进行比较并打分,构造第二比较矩阵;
第二特征向量构造子单元,被配置为计算所述第二比较矩阵的最大特征根所对应的第二特征向量;以及
词性组合权重计算子单元,被配置为对所述第二特征向量进行归一化得到所述词性组合的权重。
4.根据权利要求3所述的装置,其中,所述词性权重计算单元还包括第一逻辑确定子单元,被配置为确定所述第一比较矩阵的逻辑是否成立,以及所述词性组合权重计算单元还包括第二逻辑确定子单元,被配置为确定所述第二比较矩阵的逻辑是否成立。
5.根据权利要求4所述的装置,其中,所述第一逻辑确定子单元进一步被配置为通过对所述第一比较矩阵进行一致性检验,来确定所述第一比较矩阵的逻辑是否成立,以及所述第二逻辑确定子单元进一步被配置为通过对所述第二比较矩阵进行一致性检验,来确定所述第二比较矩阵的逻辑是否成立。
6.根据权利要求1所述的装置,其中,所述分词单元进一步被配置为基于隐马尔可夫模型来进行所述分词。
7.根据权利要求3所述的装置,其中,所述第一比较矩阵构造子单元进一步被配置为基于层次分析法来构造所述第一比较矩阵,以及所述第二比较矩阵构造子单元进一步被配置为基于层次分析法来构造所述第二比较矩阵。
8.根据权利要求1所述的装置,其中,所述重要程度计算单元进一步被配置为计算词的词频-逆向文档频率。
9.根据权利要求8所述的装置,其中,所述文本特征提取单元进一步被配置为:对于每个词,通过将该词的词频-逆向文档频率乘以词性的权重再乘以词性组合的权重来提取该词的文本特征。
10.一种提取文本特征的方法,包括:
对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;
计算每个词的重要程度;
计算每个词的词性的权重;
计算每个词与其相邻词的词性组合的权重;以及
对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510193912.XA CN106156196A (zh) | 2015-04-22 | 2015-04-22 | 提取文本特征的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510193912.XA CN106156196A (zh) | 2015-04-22 | 2015-04-22 | 提取文本特征的装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156196A true CN106156196A (zh) | 2016-11-23 |
Family
ID=57346298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510193912.XA Pending CN106156196A (zh) | 2015-04-22 | 2015-04-22 | 提取文本特征的装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156196A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598945A (zh) * | 2016-12-02 | 2017-04-26 | 北京小米移动软件有限公司 | 模板检验方法及装置 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108733653A (zh) * | 2018-05-18 | 2018-11-02 | 华中科技大学 | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 |
CN109190123A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN110147421A (zh) * | 2019-05-10 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
CN110413956A (zh) * | 2018-04-28 | 2019-11-05 | 南京云问网络技术有限公司 | 一种基于bootstrapping的文本相似度计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
CN103123624A (zh) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 确定中心词的方法及装置、搜索方法及装置 |
CN104199811A (zh) * | 2014-09-10 | 2014-12-10 | 携程计算机技术(上海)有限公司 | 短句解析模型建立方法及*** |
WO2015019723A1 (ja) * | 2013-08-07 | 2015-02-12 | シャープ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム、および電子機器 |
-
2015
- 2015-04-22 CN CN201510193912.XA patent/CN106156196A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
CN103123624A (zh) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 确定中心词的方法及装置、搜索方法及装置 |
WO2015019723A1 (ja) * | 2013-08-07 | 2015-02-12 | シャープ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム、および電子機器 |
CN104199811A (zh) * | 2014-09-10 | 2014-12-10 | 携程计算机技术(上海)有限公司 | 短句解析模型建立方法及*** |
Non-Patent Citations (1)
Title |
---|
卢伟胜等: "基于词性标注序列特征提取的微博情感分类", 《计算机应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598945A (zh) * | 2016-12-02 | 2017-04-26 | 北京小米移动软件有限公司 | 模板检验方法及装置 |
CN106598945B (zh) * | 2016-12-02 | 2019-08-06 | 北京小米移动软件有限公司 | 模板检验方法及装置 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
WO2019153737A1 (zh) * | 2018-02-12 | 2019-08-15 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
US11403680B2 (en) | 2018-02-12 | 2022-08-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus for evaluating review, device and storage medium |
CN110413956A (zh) * | 2018-04-28 | 2019-11-05 | 南京云问网络技术有限公司 | 一种基于bootstrapping的文本相似度计算方法 |
CN110413956B (zh) * | 2018-04-28 | 2023-08-01 | 南京云问网络技术有限公司 | 一种基于bootstrapping的文本相似度计算方法 |
CN108733653A (zh) * | 2018-05-18 | 2018-11-02 | 华中科技大学 | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 |
CN108733653B (zh) * | 2018-05-18 | 2020-07-10 | 华中科技大学 | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 |
CN109190123B (zh) * | 2018-09-14 | 2020-03-27 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109190123A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN110147421B (zh) * | 2019-05-10 | 2022-06-21 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
CN110147421A (zh) * | 2019-05-10 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156196A (zh) | 提取文本特征的装置和方法 | |
Khuc et al. | Towards building large-scale distributed systems for twitter sentiment analysis | |
CN102955772B (zh) | 一种基于语义的相似度计算方法和装置 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN106055623A (zh) | 一种跨语言推荐方法和*** | |
Ferrández et al. | Aligning FrameNet and WordNet based on Semantic Neighborhoods. | |
KR101717230B1 (ko) | 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 | |
Zotova et al. | Multilingual stance detection in tweets: The Catalonia independence corpus | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
Alian et al. | Arabic semantic similarity approaches-review | |
Khan et al. | Genetic semantic graph approach for multi-document abstractive summarization | |
Tang et al. | Integrating topic, sentiment, and syntax for modeling online reviews: a topic model approach | |
Naser-Karajah et al. | Current trends and approaches in synonyms extraction: Potential adaptation to arabic | |
Utomo et al. | New instances classification framework on Quran ontology applied to question answering system | |
Banerjee et al. | Generating abstractive summaries from meeting transcripts | |
Galitsky et al. | Improving text retrieval efficiency with pattern structures on parse thickets | |
Hu et al. | Residual-duet network with tree dependency representation for chinese question-answering sentiment analysis | |
Zhang et al. | Improving entity linking in Chinese domain by sense embedding based on graph clustering | |
Chen et al. | Sentiment analysis for cantonese opinion mining | |
Tsumuraya et al. | Semantic search of Japanese sentences using distributed representations | |
CN103678355A (zh) | 文本挖掘方法和文本挖掘装置 | |
Volkovskiy et al. | Mathematical model for automatic creation the semantic thesaurus for the scientific text | |
JP2002297635A (ja) | 要約文作成システム及びその方法 | |
Li et al. | A novel semantic similarity measure within sentences | |
Xu et al. | A hybrid topic model for multi-document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161123 |
|
WD01 | Invention patent application deemed withdrawn after publication |