CN107122494A - 基于社团发现的主题模型构建方法 - Google Patents
基于社团发现的主题模型构建方法 Download PDFInfo
- Publication number
- CN107122494A CN107122494A CN201710361414.0A CN201710361414A CN107122494A CN 107122494 A CN107122494 A CN 107122494A CN 201710361414 A CN201710361414 A CN 201710361414A CN 107122494 A CN107122494 A CN 107122494A
- Authority
- CN
- China
- Prior art keywords
- short text
- topic model
- construction method
- community discovery
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims description 15
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000009193 crawling Effects 0.000 claims abstract description 8
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 2
- 206010068052 Mosaicism Diseases 0.000 abstract description 5
- 210000003765 sex chromosome Anatomy 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000005354 coacervation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于社团发现的主题模型构建的方法的技术方案,先后包括如下步骤:基于短文本数据提取蕴含的关系网络;采用社团发现算法将关系网络划分成多个社团;将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,并将得到的多个长文档构成长文档集合;针对长文档集合进行主题挖掘,得到基于社团发现的TMCD主题模型。该方法从数据中内在蕴含的社团关系的角度出发,以社团发现算法为基础进行短文本的自扩展,解决了数据稀疏性问题。
Description
技术领域
本发明涉及一种基于社团发现的主题模型构建方法,尤其涉及内部蕴含社会网络的社交型短文本数据主题挖掘的技术。
背景技术
在当前的网络环境下,随着各种线上平台的丰富,大量的社交型数据被产生出来,社交网络俨然已经成为了一个进行信息挖掘的数据源泉。在此场景下产生的数据,大部分又以短文本的形式呈现。相对于长文本,短文本表达的语义简练,传递信息的速度快,是信息传播的一个明显发展趋势。短文本正在成为当今社会最重要的信息载体之一。
目前在对这些数据的分析方法中,通过主题模型挖掘文本内涵的语义信息是一种很有效的方式。经典的主题模型算法,如PLSA、LDA等主要基于双模式和词共现关系对文本进行语义分析。这类算法在对长篇的文档进行处理时效果是显著的,而在针对短文本时,因为词共现关系不足,使算法面临数据稀疏性问题,会严重影响模型质量。
现阶段学术界针对这种短文本的主题模型主要有下面五种处理方案:1)采用简单的拼接,把短文本直接连在一起;2)用引入外界资料库的方法将短文本聚合成长文本;3)从一种启发式的方法来实现,如基于推特内容的标签信息、内容发送的时间流信息或者发送内容的作者等对文本进行扩展;4)对文本的主题采用宽松的假设,假设一个短文本中只包含一个主题;5)对建模对象进行改变。比较有代表性的是Yan等人在2013年提出的BTM模型。
以上方案或强行抹去了文档的边界或受到外界资料的干扰等,具有诸多不足之处。
发明内容
本发明提出一种基于社团发现的主题模型(即TMCD模型,Topic Model based onCommunity Detection)构建方法,该方法可针对社交型数据集构建主题模型,即采用社会发现算法为社交型短文本数据的主题挖掘提供解决方案。TMCD模型从数据中内在蕴含的社团关系的角度出发,以社团发现算法为基础进行短文本的自扩展,解决了数据稀疏性问题。
为解决上述问题,本发明所公开的基于社团发现的主题模型构建的方法的技术方案包括如下步骤:
步骤1、基于短文本数据提取蕴含的关系网络;
步骤2、采用社团发现算法将关系网络划分成多个社团;
步骤3、将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,
并将得到的多个长文档构成长文档集合;
步骤4、针对长文档集合进行主题挖掘,得到基于社团发现的TMCD主题模型。
进一步的,步骤1中关系网络的提取过程是:采用短文本数据中的主体作为结点,通过主体间交互关系进行关联并抽象形成边,将得到的结点和边共同形成一关系网络。
进一步的,以主体间交互关系的密切程度作为边的权重,以关联的主被动关系作为边的方向。
进一步的,步骤2中所述的社团发现算法包括凝聚、***、标签传播和全局探索中的一种或多种。
进一步的,步骤3中是采用自扩展方法对短文本进行扩充。
进一步的,所述短文本数据是内部蕴含着社会网络的社交型数据,所述关系网络是社会网络。
本发明所公开的基于社团发现的主题模型构建方法,为社交型短文本数据的主题挖掘提供了新的解决方案,具有以下有益效果:
(1)该方法通过挖掘数据内部蕴含的社团网络关联来作为文本分类依据,在此基础上完成对短文本的扩充,进而解决短文本主题挖掘中数据稀疏性的问题,为此类社交型短文本数据集主题模型构建提供了解决方案。
(2)该方法通过基于内容相似性的自扩展方法,在不引入外界帮助数据的情况下,解决了现有短文本主题建模解决方案中因简单拼接所有具有内容相关性和不具备内容相关性的文本而导致的强行抹去了文档的边界的问题或因为引入了外部辅助语料库而带来的外部噪音干扰问题,并从根本上避免了词共现关系不足对主题模型的影响。
附图说明
图1为主题模型中文档-主题-词语之间的关系示意图。
图2为社会网络示意图。
图3为实施例中针对社交型数据集的主题模型构建方法的流程图。
图4为图3中短文本扩充部分的流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示为主题模型中文档、主题、词汇之间的关系。在数据引入“主题”这一概念后,主题就可以作为联系文档与词的“桥梁”,通过观测文档与主题之间的概率分布以及主题与词汇之间的概率分布即可通过相关数学模型得到主体的分布情况。在获取主题与词关系时,词共现关系的多少会影响到观测结果的准确度,此准确度也会进一步影响最终主题模型的质量。对于长文本来说,在观测时有足够多的词共现关系作为支撑,而短文本则缺乏足够的词共现关系,也就是出现了数据的稀疏性问题。本发明提出的TMCD模型构建方法正是针对此问题的解决而展开的。
如图2所示,实施例中TMCD模型针对社交型数据,通过对数据集中的关键主体(即数据集中产生数据的对象,一般为联系人)和主体间的关联(即产生数据的传播途径)进行抽象后得到的主题模型,会呈现出一个明显的社会网络。这里的抽象是指把数据集中有实际意义的联系人和联系人之间的关系等抽象为社会网络中的结点和边。其中,抽象数据集中的主体对象为结点,如社交数据中以联系人为结点;抽象主体间关联为边,以关联的密切程度作为边的权重,如社交数据中联系人互发消息作为边,发消息的条数作为权重,以发消息的主被动关系作为边的方向。得到的社会网络的一个重要特征就是蕴含着社团结构,而社团结构是指社会网络通过一些算法作用可被划分为若干社团,且同一社团中的数据具有相似性。在划分的结果中,社团内部的结点关系较为密切,联系紧密,而社团间的结点联系比较稀疏。
如图3为实施例中一种针对社交型数据集的主题模型构建方法的流程图,该方法基于社团发现进行模型构建,包括如下步骤:
步骤1:根据社交型数据内部的主体和主体间数据的传播关系提取蕴含的社会网络。其中,社交型数据包含所有内部蕴含着社会网络的数据集,如:QQ、微信等即时通信中联系人实时生成的信息构成的数据集,微博、知乎等在线社交平台由转发、评论数据产生的数据集等。具体提取过程如下:
1)采用抽象数据(即社交型数据)中的主体作为结点,其中,抽象数据中的主体包含可以作为构建的社会网络中结点的对象,如人、物或事件等;
2)通过主体间交互关系进行关联,抽象形成边,其中,交互关系包含所有可以在两个主体间形成有效关联的关系,如:由即时通信中消息的传递构成主体联系人的关联,在线社交平台中转发、评论、分享构成的主体关联等;
3)基于上述步骤抽象得到的结点和边形成一个明显的社会网络。
步骤2:采用社团发现算法将社会网络划分成多个社团结构。社团发现算法包括所有可以针对社会网络进行有效社团划分的算法,包括但不限于基于凝聚过程、***过程、标签传播和全局探索(包括谱分析)思路实现的算法,这也是大部分社团发现算法的设计思想,几乎涵盖所有可以有效划分的社团发现算法。
步骤3:依据社团结构划分结果对各社团中包含的短文本进行扩充。扩充方法主要包括如下子步骤:
1)提取各个划分出的社团下包含的多个结点所对应的短文本数据;
2)通过基于自扩展的传统扩充方法把短文本扩充为长文档;
3)基于上述步骤可以得到若干个(取决于划分出社团的数目)由社会网络中具有文本相似性的数据自扩充得到的包含丰富词共现关系的长文档,并将各社团扩充后得到的长文档构成一个长文档集合。
值得说明的是,基于自身数据集进行扩展,不引入外界帮助数据,具体可以直接拼接法为例作说明,即,将提取出的短文本直接进行连接,这种扩充方法本身不会考虑文本是否具有相似性,此场景下具体操作为把所有位于同一社团下多个结点所对应的文本扩充作为一个长的文档。
步骤4:针对长文档集合进行主题建模,并得到TMCD模型。使用传统的主题模型构建方法(如:LDA、概率潜在语义分析PLSA等),以文档中丰富的词共现关系得到词-主题的观测结果,再结合观测到的文档-主题结果,通过一定的数学方法(如:吉布斯采样等)完成主题分析和挖掘过程,得到针对社交型数据集的TMCD模型。该TMCD模型将直观的输出文档中包含的主题情况和对应关键词等信息,相较于直接把传统主题模型方法作用在短文本上,TMCD模型额外进行了基于社团发现的文本扩充过程,使得文本中有足够的词共现关系,从而大幅提高主题挖掘的结果的质量。
如图4所示为实施例中步骤3的第2)子步骤所述的短文本扩充部分的流程图,具体包括以下步骤:
S3-1为短文本提取操作,按照图3步骤2中社团划分的结果提取一个未扩充社团中所包含的多个结点,然后从每个结点的信息中提取对应的短文本数据;
S3-2为短文本扩充操作,把步骤3-1中提取的短文本通过基于自扩充方式进行扩展,此处以自扩充方式中的直接拼接法为例作说明,即把提取出的短文本直接进行连接,把所有位于此社团的文本扩充成一个长的文档;
S3-3为判断条件,判断是否所有短文本以按照社团划分结果进行了扩充操作。若有未进行扩充的社团则进入步骤3-1,否则进入步骤3-4;
S3-4为返回扩充后的长文档集,依据社团划分结果的短文本扩充步骤结束。
综上所述,实施例中,基于社会发现的主题模型构建的方法为社交型数据集的主题的挖掘提供了一种新的思路,该方法通过对社交型数据集内部蕴含的社团结构的发现,并以此为基础进行短文本的自扩充形成长的文档集,解决了直接在短文本上进行主题挖掘所面临的数据稀疏性问题,大幅度提高了主题模型的质量,为社交型数据集的主题模型提供了解决方案。
虽然本发明已在较佳的实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (6)
1.一种基于社团发现的主题模型构建方法,其特征在于,包括如下步骤:
步骤1、基于短文本数据提取蕴含的关系网络;
步骤2、采用社团发现算法将关系网络划分成多个社团;
步骤3、将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,并将得到的多个长文档构成长文档集合;
步骤4、针对长文档集合进行主题挖掘,得到基于社团发现的TMCD主题模型。
2.如权利要求1所述的主题模型构建方法,其特征在于,步骤1中关系网络的提取过程是:采用短文本数据中的主体作为结点,通过主体间交互关系进行关联并抽象形成边,将得到的结点和边共同形成一关系网络。
3.如权利要求2所述的主题模型构建方法,其特征在于,以主体间交互关系的密切程度作为边的权重,以关联的主被动关系作为边的方向。
4.如权利要求1所述的主题模型构建方法,其特征在于,步骤2中所述的社团发现算法包括凝聚、***、标签传播和全局探索中的一种或多种。
5.如权利要求1所述的主题模型构建方法,其特征在于,步骤3中是采用自扩展方法对短文本进行扩充。
6.如权利要求1至5任意一项所述的主题模型构建方法,其特征在于,所述短文本数据是内部蕴含着社会网络的社交型数据,所述关系网络是社会网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710361414.0A CN107122494B (zh) | 2017-05-22 | 2017-05-22 | 基于社团发现的主题模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710361414.0A CN107122494B (zh) | 2017-05-22 | 2017-05-22 | 基于社团发现的主题模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122494A true CN107122494A (zh) | 2017-09-01 |
CN107122494B CN107122494B (zh) | 2020-06-26 |
Family
ID=59727788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710361414.0A Active CN107122494B (zh) | 2017-05-22 | 2017-05-22 | 基于社团发现的主题模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122494B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681557A (zh) * | 2018-04-08 | 2018-10-19 | 中国科学院信息工程研究所 | 基于自扩充表示和相似双向约束的短文本主题发现方法及*** |
CN110264372A (zh) * | 2019-05-16 | 2019-09-20 | 西安交通大学 | 一种基于节点表示的主题社团发现方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877407B2 (en) * | 1998-10-05 | 2011-01-25 | Smith Iii Julius O | Method and apparatus for facilitating use of hypertext links on the world wide web |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
EP2751720A1 (en) * | 2011-08-31 | 2014-07-09 | Metaswitch Networks Ltd | Processing communications data |
CN104123336A (zh) * | 2014-05-21 | 2014-10-29 | 深圳北航新兴产业技术研究院 | 深度玻尔兹曼机模型及短文本主题分类***和方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
-
2017
- 2017-05-22 CN CN201710361414.0A patent/CN107122494B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877407B2 (en) * | 1998-10-05 | 2011-01-25 | Smith Iii Julius O | Method and apparatus for facilitating use of hypertext links on the world wide web |
EP2751720A1 (en) * | 2011-08-31 | 2014-07-09 | Metaswitch Networks Ltd | Processing communications data |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN104123336A (zh) * | 2014-05-21 | 2014-10-29 | 深圳北航新兴产业技术研究院 | 深度玻尔兹曼机模型及短文本主题分类***和方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
Non-Patent Citations (3)
Title |
---|
LIN T TIAN: "The dual-sparse topic model:mining focused topics and focused terms in short text", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON WORLD WIDEWEB" INTERNATIONAL WORLD WIDE WEB CONFERENCES STEERING COMMITTEE》 * |
熊小兵: "微博网络传播行为中的关键问题研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
陈静,刘琰,王煦中: "主题概率模型在微博主题挖掘方面的研究综述", 《信息工程大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681557A (zh) * | 2018-04-08 | 2018-10-19 | 中国科学院信息工程研究所 | 基于自扩充表示和相似双向约束的短文本主题发现方法及*** |
CN110264372A (zh) * | 2019-05-16 | 2019-09-20 | 西安交通大学 | 一种基于节点表示的主题社团发现方法 |
CN110264372B (zh) * | 2019-05-16 | 2022-03-08 | 西安交通大学 | 一种基于节点表示的主题社团发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107122494B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及*** | |
CN106910501B (zh) | 文本实体提取方法及装置 | |
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN110941692B (zh) | 互联网政治外交类新闻事件抽取方法 | |
CN104182535B (zh) | 一种人物关系抽取方法和装置 | |
CN103955531A (zh) | 基于命名实体库的在线知识地图 | |
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN106934032A (zh) | 一种城市知识图谱构建方法及装置 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN103365978A (zh) | 基于lda主题模型的中医药数据挖掘方法 | |
CN102955853B (zh) | 一种跨语言文摘的生成方法及装置 | |
CN103927179B (zh) | 一种基于WordNet的程序可读性分析方法 | |
CN103631862B (zh) | 基于微博的事件特征演化挖掘方法及*** | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN107608948A (zh) | 一种文本信息抽取模型的构建方法及装置 | |
CN109101583A (zh) | 一种针对非结构化文本的知识图谱构建方法及*** | |
Garanina et al. | Ontology population as algebraic information system processing based on multi-agent natural language text analysis algorithms | |
CN107122494A (zh) | 基于社团发现的主题模型构建方法 | |
CN106462579B (zh) | 为选定上下文构造词典 | |
CN110222139A (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
CN104217026B (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
CN110990451B (zh) | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |