CN102629266A - 一种基于调和级数的文本图结构表示模型 - Google Patents

一种基于调和级数的文本图结构表示模型 Download PDF

Info

Publication number
CN102629266A
CN102629266A CN2012100594049A CN201210059404A CN102629266A CN 102629266 A CN102629266 A CN 102629266A CN 2012100594049 A CN2012100594049 A CN 2012100594049A CN 201210059404 A CN201210059404 A CN 201210059404A CN 102629266 A CN102629266 A CN 102629266A
Authority
CN
China
Prior art keywords
keyword
text
harmonic progression
keywords
graph structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100594049A
Other languages
English (en)
Inventor
陈雪
吴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2012100594049A priority Critical patent/CN102629266A/zh
Publication of CN102629266A publication Critical patent/CN102629266A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于调和级数的文本图结构表示模型。该方法具体步骤如下:(1)打开领域文集中的单篇文本;(2)将文本内容按照重要性程度由大到小重新排列;(3)对文本进行分词并保留标点符号;(4)统计关键词和关键词对的出现次数;(5)以关键词为图的节点,将共现次数不为0的关键词对进行连接;(6)使用调和级数法对关键词和关键词对的权重进行计算。该方法避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算;该方法简便易操作,效果好,并且能够兼具TFIDF的功能。

Description

一种基于调和级数的文本图结构表示模型
技术领域
  本发明涉及一种文本的表示模型,具体是涉及采用图结构对文本进行表示,使用调和级数对关键词和关键词对进行权重计算的模型,是一种基于调和级数的文本图结构表示模型。
背景技术
  人类善于处理非结构化文本,因为非结构化文本符合人类语言表达习惯,更重要的是人类具有很强的逻辑推理能力。而机器则善于处理结构化文本,例如图和表。人机交互时,必然需要将人类可理解的非结构化文本转化为机器可理解的结构化文本,这就需要文本表示模型。
目前应用最广的文本表示模型是向量空间模型。向量空间模型将文本表示成一个权值向量,向量中的每一项均由词项组成,而每个词项的权重由TFIDF方法确定。其中TFIDF方法用词项权重公式计算一个词项对于文集中的单篇文本的重要程度。TFIDF方法的词项权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下:
                                                 
Figure 2012100594049100002DEST_PATH_IMAGE001
   其中,TFi为词项i的词频,即词项i在文本中出现的次数;IDFi为词项i的逆文档频率,它由log(N/ni)计算;N为文本集的文本总数;ni为文本集中包含词项i的文本数。
 但是使用向量空间模型结合TFIDF方法对文本进行表示时,存在以下不足:
  (1)向量空间模型把文本看成词项的集合,把词项与词项之间的关系看成是独立的,这样就损失了大量的文本结构信息。
 (2)TFIDF方法在计算词项的词频时,没有考虑它们所处位置因素对它们权重的影响,而单独考虑出现次数或共现次数,并不足以表达其实际权重。
(3)TFIDF方法在计算词项的逆文档频率时,需要基于领域的文本集,而无法针对单篇的文本。
发明内容
  本发明的目的在于针对向量空间模型与TFIDF方法的不足,提供一种基于调和级数的文本图结构表示模型,该模型能够避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算。
   为了达到上述的目的,本发明的构思如下:采用图结构模型对单篇文本进行表示,避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算;所述的图结构模型是:使用图结构对文本的关键词及其之间的关系进行组织,再通过调和级数法进行权重的计算。
       根据上述的发明思想,本发明采用下述技术方案:
      一种基于调和级数的文本图结构表示模型,其特征在于,其具体步骤如下:
      (1)打开领域文集中的单篇文本;
     (2)将文本内容按照重要性程度由大到小重新排列;
      (3)对文本进行分词并保留标点符号;
     (4)统计关键词和关键词对的出现次数;
     (5)以关键词为图的节点,将共现次数不为0的关键词对进行连接;
   (6)使用调和级数法对关键词和关键词对的权重进行计算.
    所述的调和级数法,记为HP,其关键词和关键词对权重计算式如下:
   
   其中,n为关键词和关键词对的出现次数,
Figure 683998DEST_PATH_IMAGE004
为欧拉常数,
Figure 2012100594049100002DEST_PATH_IMAGE005
    本发明的一种基于调和级数的文本图结构表示模型与现有的技术相比较,具有如下突出特点和优点:在没有领域文本集,无法确定关键词在文本集中的区分能力的情况下,能够通过扫描单篇文本,用关键词的出现次数与出现位置来确定关键词的权重;虽然只使用出现次数对权重进行评价,但是简便易操作,而且效果好;由于调和级数法中的对数是可扩展的数量级,因此能够兼具TFIDF的功能,而且更加简便。
附图说明
图1是本发明的一种基于调和级数的文本图结构表示模型的流程图。
具体实施方式
 以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于调和级数的文本图结构表示模型,其特征在于:采用图结构模型对单篇文本进行表示,其中使用调和级数法对关键词和关键词对的权重进行计算;
  所述的图结构模型就是将文本的关键词根据关键词对在同一个句子中的共现关系建立连接关系;
所述的调和级数法,其关键词和关键词对权重计算式如下:
Figure 444143DEST_PATH_IMAGE003
,n为关键词和关键词对的出现次数,
Figure 711176DEST_PATH_IMAGE004
为欧拉常数,
Figure 910077DEST_PATH_IMAGE005
  实施例二:本基于调和级数的文本图结构表示模型,从TKDE的2011年到2012年的70篇论文进行文本的表示。如图1所示,本实施例的一种基于调和级数的文本图结构表示模型,其步骤如下:
S1. 打开领域文集中的单篇文本,例如,打开2011年24卷第1期中的单篇论文;
S2. 将文本内容按照重要性程度由大到小重新排列,例如,按照标题、摘要、引言和总结顺序进行重新排列;
  S3. 对文本进行分词并保留标点符号,例如,保留句点。
  S4. 统计关键词和关键词对的出现次数,记为n。
  S5. 以关键词为图的节点,将共现次数不为0的关键词对进行连接。
  S6. 使用调和级数法对关键词和关键词对的权重进行计算;调和级数法公式,记为HP,其关键词和关键词对权重计算式如下:
  
Figure 765906DEST_PATH_IMAGE003
其中,n为关键词和关键词对的出现次数,
Figure 759270DEST_PATH_IMAGE004
为欧拉常数,
Figure 513599DEST_PATH_IMAGE005

Claims (2)

1.一种基于调和级数的文本图结构表示模型,其特征在于:采用图结构模型对单篇文本进行表示,其中使用调和级数法对关键词和关键词对的权重进行计算;所述的图结构模型就是将文本的关键词根据关键词对在同一个句子中的共现关系建立连接关系;其具体步骤如下:
打开领域文集中的单篇文本;
将文本内容按照重要性程度由大到小重新排列;
对文本进行分词并保留标点符号;
统计关键词和关键词对的出现次数;
以关键词为图的节点,将共现次数不为0的关键词对进行连接;
使用调和级数法对关键词和关键词对的权重进行计算。
2.按权利要求1所述的基于调和级数的文本图结构表示模型,其特征在于:所述步骤(6)中的调和级数法,其关键词和关键词对权重计算式如下:
其中,n为关键词和关键词对的出现次数,
Figure 2012100594049100001DEST_PATH_IMAGE004
为欧拉常数,
Figure 2012100594049100001DEST_PATH_IMAGE006
CN2012100594049A 2012-03-08 2012-03-08 一种基于调和级数的文本图结构表示模型 Pending CN102629266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100594049A CN102629266A (zh) 2012-03-08 2012-03-08 一种基于调和级数的文本图结构表示模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100594049A CN102629266A (zh) 2012-03-08 2012-03-08 一种基于调和级数的文本图结构表示模型

Publications (1)

Publication Number Publication Date
CN102629266A true CN102629266A (zh) 2012-08-08

Family

ID=46587526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100594049A Pending CN102629266A (zh) 2012-03-08 2012-03-08 一种基于调和级数的文本图结构表示模型

Country Status (1)

Country Link
CN (1) CN102629266A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111941A1 (en) * 2000-12-19 2002-08-15 Xerox Corporation Apparatus and method for information retrieval
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111941A1 (en) * 2000-12-19 2002-08-15 Xerox Corporation Apparatus and method for information retrieval
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘巧凤: "基于图结构的中文文本聚类方法研究", 《万方硕士学位论文》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN103744835B (zh) * 2014-01-02 2016-12-07 上海大学 一种基于主题模型的文本关键词提取方法
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法

Similar Documents

Publication Publication Date Title
CN101067808B (zh) 文本关键词的提取方法
Rychlý A Lexicographer-Friendly Association Score.
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN104102681B (zh) 一种微博关键事件获取方法和装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN103514213B (zh) 词语提取方法及装置
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及***
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN102955857A (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN102411564A (zh) 一种电子作业抄袭检测方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN102779119B (zh) 一种抽取关键词的方法及装置
Lalji et al. Twitter sentiment analysis using hybrid approach
CN102629266A (zh) 一种基于调和级数的文本图结构表示模型
Pande et al. Application of natural language processing tools in stemming
CN104572736A (zh) 基于社交网络的关键词提取方法及装置
CN103164394B (zh) 一种基于万有引力的文本相似度计算方法
CN102591976A (zh) 基于句子级别的文本特征提取方法和文档拷贝检测***
Sharaff et al. Document Summarization by Agglomerative nested clustering approach
Gupta et al. Improving unsupervised stemming by using partial lemmatization coupled with data-based heuristics for Hindi
CN104035969A (zh) 社交网络中的特征词库构建方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120808