CN108536674A - 一种基于语义的典型意见聚合方法 - Google Patents

一种基于语义的典型意见聚合方法 Download PDF

Info

Publication number
CN108536674A
CN108536674A CN201810233779.XA CN201810233779A CN108536674A CN 108536674 A CN108536674 A CN 108536674A CN 201810233779 A CN201810233779 A CN 201810233779A CN 108536674 A CN108536674 A CN 108536674A
Authority
CN
China
Prior art keywords
word
trunk
semantic
vector
polymerization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810233779.XA
Other languages
English (en)
Inventor
陈石
王悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wei Mdt Infotech Ltd
Original Assignee
Shanghai Wei Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wei Mdt Infotech Ltd filed Critical Shanghai Wei Mdt Infotech Ltd
Priority to CN201810233779.XA priority Critical patent/CN108536674A/zh
Publication of CN108536674A publication Critical patent/CN108536674A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义的典型意见聚合方法,它涉及文本类数据分析领域。包括以下步骤:(1)、对文字内容进行中文分句、分词;(2)、使用词嵌入(Word Embedding)相关算法训练词向量模型;(3)、对原文字内容进行句法分析,并提取主干;(4)、处理主干各个词语,得到每一句的主干向量;(5)、以主干向量为特征,对数据进行聚类;(6)、根据具体情况调整参数,并筛选最终结果。本发明主要是通过对自然语言的语义级理解,结合基于密度的聚类方法,实现对于大量文本类数据的典型意见抽取和热点发现。其设计合理,结果精准,人为干预少,可以让商业分析人员快速从文本类数据中获得总结性结论,大幅减少人工工作量,并可以得到传统技术方法无法获取的有效信息。

Description

一种基于语义的典型意见聚合方法
技术领域
本发明涉及的是文本类数据分析领域,具体涉及一种基于语义的典型意见聚合方法。
背景技术
随着互联网和信息技术的发展和普及,大量文本类数据在日常和商业行为中被产生并记录下来,这些文字数据包含着用户的想法、意见、以及对未来有重要影响的舆论趋势。
目前已经有相关技术方法,可以从文本类数据提取典型意见或热点,但现有的这些技术方法主要是从文字匹配次数统计的角度去实现。这类技术方法的核心思路是:对大量的文本类数据进行中文分词,指定或不指定词语,进行基于频数的权重统计,最后以频数权重较高的词语作为典型意见或热点。
采用这类方法的优点是简单快速,对已经明确的意见方向可以直接统计频数权重并判断其是否是典型或热点,例如,企业想了解用户对其手机电池的意见,可以直接统计“电池耐用”、“充电速度”、“耗电快”等短语的出现次数,然后将出现较多的作为典型或热点。但这类方法的缺点也很明显:1.它需要设定意见方向的短语搭配组合,这就很大程度上限制了可以发现的内容,导致分析结果有偏,且统计不完整;如果不做设定,则只能计算到词语粒度,而无法分析短语搭配组合,这样的热点数量众多,无效内容比例高,且意思表达不明确。2.它仅仅是从字面统计的角度去处理,而实际情况中,自然语言往往存在大量的相同含义但不同表达形式的内容,这就导致了严重的统计错误或遗漏。
综上所述,本发明设计一种从大量文字信息中提取典型意见或热点的技术方法,主要应用在舆情分析、社交网络分析、客服对话分析等场景。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于语义的典型意见聚合方法,主要是通过对自然语言的语义级理解,结合基于密度的聚类方法,实现对于大量文本类数据的典型意见抽取和热点发现。其设计合理,结果精准,人为干预少,可以让商业分析人员快速从文本类数据中获得总结性结论,大幅减少人工工作量,并可以得到传统技术方法无法获取的有效信息。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于语义的典型意见聚合方法,包括以下步骤:
1、对文字内容进行中文分句、分词;
2、使用词嵌入(Word Embedding)相关算法法训练词向量模型;
3、对原文字内容进行句法分析,并提取主干;
4、处理主干各个词语,得到每一句的主干向量;
5、以主干向量为特征,对数据进行聚类;
6、根据具体情况调整参数,并筛选最终结果。
作为优选,所述的步骤1是将每一条记录进行中文分句和分词。分句时,对每一篇文档,以句号、问号、感叹号、分号、省略号为分隔符做切分,并进行句编号,形成“文档编号-句编号”的对应。分词时,对每一篇文档进行中文分词,分词方法不限,分词结果不再区分文档或句子,只要以分隔符分开。
作为优选,所述的步骤2将分词的结果使用词嵌入(Word Embedding)相关算法进行模型训练,包括word2vec、fasttext、wordrank等。
作为优选,所述的步骤3对分句后的每句话进行句法分析,提取内容包含但不仅限于如下关系:主谓关系,定中关系,状中结构,动宾关系。
作为优选,所述的步骤4将主干各部分的词语词向量汇总得到主干向量,常用做法为词向量直接相加,得到的汇总向量即为主干向量。
作为优选,所述的步骤5利用主干向量,进行基于密度的聚类;得到的结果为:文档-句子-类别编号-类别代表句。
作为优选,所述的步骤6循环调参。根据上一次结果得到的类别个数,各类别包含文档数等指标,调整参数,最终得到最优结果。
本发明的有益效果:
1.本发明对于文本类数据的分析是基于语义的,它能够将相同含义但不同表达方式的内容聚合到一起,大幅提升典型或热点内容聚合的准确度和覆盖率;
2.本发明采用了句法分析,能够提取到包含了完整意思的句子主干成分,而不再是单个的词语或短语,这样对于典型意见或热点的分析更符合人的理解,也更能够帮助到商业应用;
3.基于密度的聚类,不再是简单的词频统计,可以发现更广泛的意见内容,且更加精准;
4.整个算法流程人为干预少,可以减少人工工作量并提升时间效率。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的步骤流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1,本具体实施方式采用以下技术方案:一种基于语义的典型意见聚合方法,包括以下步骤:
1、对文字内容进行中文分句、分词;
2、使用词嵌入(Word Embedding)相关算法训练词向量模型;
3、对原文字内容进行句法分析,并提取主干;
4、处理主干各个词语,得到每一句的主干向量;
5、以主干向量为特征,对数据进行聚类;
6、根据具体情况调整参数,并筛选最终结果。
定义文本类数据中,每一条记录为一个文档,例如一条评论、一条微博、一篇文章,每一个文档都有一个文档编号进行独立区分。对于本发明,文档数据量越大,效果越好,带来的有益提升越高。
值得注意的是,所述的步骤1是将每一条记录进行中文分句和分词。分句时,对每一篇文档,以句号、问号、感叹号、分号、省略号为分隔符做切分,并进行句编号,形成“文档编号-句编号”的对应。分词时,对每一篇文档进行中文分词,分词方法不限(目前常见的中文分词算法有基于HMM的分词模型,基于CRF的分词模型,基于深度学习的分词模型等),分词结果不再区分文档或句子,只要以分隔符(如空格)分开即可。
值得注意的是,所述的步骤2将分词的结果使用词嵌入(Word Embedding)相关算法进行模型训练。使用目前常用的word2vec模型,也可以是fasttext、wordrank等算法,处理全量文档的分词结果数据,得到的结果为每个词的词向量。
值得注意的是,所述的步骤3对分句后的每句话进行句法分析,提取内容包含但不仅限于如下关系:主谓关系,定中关系,状中结构,动宾关系。如“这款手机的性价比真的是非常非常高”,提取到主谓关系为“性价比+高”。
值得注意的是,所述的步骤4将主干各部分的词语词向量汇总得到主干向量,常用做法为词向量直接相加,如“性价比+高”,把“性价比”的对应的词向量和“高”的词向量直接相加,得到的汇总向量即为主干向量。
值得注意的是,所述的步骤5利用主干向量,进行基于密度的聚类。聚类方法可以是任意聚类算法,常采用基于密度的聚类,例如DBSCAN聚类法,得到的结果为:文档-句子-类别编号-类别代表句。
此外,所述的步骤6循环调参。根据上一次结果得到的类别个数,各类别包含文档数等指标,调整参数,最终得到最优结果。
本具体实施方式应用在舆情分析和社交分析等商业场景中,可以帮助企业更高效地获取更大的价值。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于语义的典型意见聚合方法,其特征在于,包括以下步骤:
(1)、对文字内容进行中文分句、分词;
(2)、使用词嵌入相关算法法训练词向量模型;
(3)、对原文字内容进行句法分析,并提取主干;
(4)、处理主干各个词语,得到每一句的主干向量;
(5)、以主干向量为特征,对数据进行聚类;
(6)、根据具体情况调整参数,并筛选最终结果。
2.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(1)是将每一条记录进行中文分句和分词;分句时,对每一篇文档,以句号、问号、感叹号、分号、省略号为分隔符做切分,并进行句编号,形成“文档编号-句编号”的对应;分词时,对每一篇文档进行中文分词,分词方法不限,分词结果不再区分文档或句子,只要以分隔符分开。
3.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(2)将分词的结果使用词嵌入相关算法进行模型训练,包括word2vec、fasttext、wordrank。
4.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(3)对分句后的每句话进行句法分析,提取内容包含但不仅限于如下关系:主谓关系,定中关系,状中结构,动宾关系。
5.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(4)将主干各部分的词语词向量汇总得到主干向量,常用做法为词向量直接相加,得到的汇总向量即为主干向量。
6.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(5)利用主干向量,进行基于密度的聚类;得到的结果为:文档-句子-类别编号-类别代表句。
7.根据权利要求1所述的一种基于语义的典型意见聚合方法,其特征在于,所述的步骤(6)循环调参;根据上一次结果得到的类别个数,各类别包含文档数等指标,调整参数,最终得到最优结果。
CN201810233779.XA 2018-03-21 2018-03-21 一种基于语义的典型意见聚合方法 Pending CN108536674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233779.XA CN108536674A (zh) 2018-03-21 2018-03-21 一种基于语义的典型意见聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233779.XA CN108536674A (zh) 2018-03-21 2018-03-21 一种基于语义的典型意见聚合方法

Publications (1)

Publication Number Publication Date
CN108536674A true CN108536674A (zh) 2018-09-14

Family

ID=63484462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233779.XA Pending CN108536674A (zh) 2018-03-21 2018-03-21 一种基于语义的典型意见聚合方法

Country Status (1)

Country Link
CN (1) CN108536674A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
WO2020108430A1 (zh) * 2018-11-28 2020-06-04 南京航空航天大学 一种微博情感分析方法及***
CN112201339A (zh) * 2019-07-08 2021-01-08 四川大学华西医院 一种精神医学辅助诊断***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321243A1 (en) * 2014-01-10 2016-11-03 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106547734A (zh) * 2016-10-21 2017-03-29 上海智臻智能网络科技股份有限公司 一种问句信息处理方法及装置
CN106649783A (zh) * 2016-12-28 2017-05-10 上海智臻智能网络科技股份有限公司 一种同义词挖掘方法和装置
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解***与方法
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107704558A (zh) * 2017-09-28 2018-02-16 北京车慧互动广告有限公司 一种用户意见抽取方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321243A1 (en) * 2014-01-10 2016-11-03 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106547734A (zh) * 2016-10-21 2017-03-29 上海智臻智能网络科技股份有限公司 一种问句信息处理方法及装置
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN106649783A (zh) * 2016-12-28 2017-05-10 上海智臻智能网络科技股份有限公司 一种同义词挖掘方法和装置
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解***与方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107704558A (zh) * 2017-09-28 2018-02-16 北京车慧互动广告有限公司 一种用户意见抽取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
火贪三刀: "用户评论标签的抽取", 《CSDN》 *
相若晨: "中文文本情感分析研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020108430A1 (zh) * 2018-11-28 2020-06-04 南京航空航天大学 一种微博情感分析方法及***
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN110232125B (zh) * 2019-06-11 2020-10-02 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN112201339A (zh) * 2019-07-08 2021-01-08 四川大学华西医院 一种精神医学辅助诊断***

Similar Documents

Publication Publication Date Title
CN105589844B (zh) 一种用于多轮问答***中缺失语义补充的方法
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及***
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN105893524B (zh) 一种智能问答方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN103488623A (zh) 多种语言文本数据分类处理方法
CN103150432A (zh) 一种网络舆情分析方法
CN108536674A (zh) 一种基于语义的典型意见聚合方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN108536762A (zh) 一种大批量文本数据自动分析方案
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN102682120A (zh) 一种网络评论精华文章的获取方法、装置和***
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN109783623A (zh) 一种真实场景下用户与客服对话的数据分析方法
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN109117477A (zh) 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN109947934A (zh) 针对短文本的数据挖掘方法及***
CN110222250A (zh) 一种面向微博的突发事件触发词识别方法
CN105786781A (zh) 一种基于主题模型的职位描述文本相似度计算方法
CN109033166A (zh) 一种人物属性抽取训练数据集构建方法
CN107526792A (zh) 一种中文问句关键词快速提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication