CN108363692B - 一种句子相似度的计算方法及基于该方法的舆情监督方法 - Google Patents

一种句子相似度的计算方法及基于该方法的舆情监督方法 Download PDF

Info

Publication number
CN108363692B
CN108363692B CN201810148814.8A CN201810148814A CN108363692B CN 108363692 B CN108363692 B CN 108363692B CN 201810148814 A CN201810148814 A CN 201810148814A CN 108363692 B CN108363692 B CN 108363692B
Authority
CN
China
Prior art keywords
sentence
emotion
similarity
library
short sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810148814.8A
Other languages
English (en)
Other versions
CN108363692A (zh
Inventor
马晓敏
李为民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhiku 2861 Information Technology Co ltd
Original Assignee
Chengdu Zhiku 2861 Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhiku 2861 Information Technology Co ltd filed Critical Chengdu Zhiku 2861 Information Technology Co ltd
Priority to CN201810148814.8A priority Critical patent/CN108363692B/zh
Publication of CN108363692A publication Critical patent/CN108363692A/zh
Application granted granted Critical
Publication of CN108363692B publication Critical patent/CN108363692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种句子相似度的计算方法及基于该方法的舆情监督方法,该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。

Description

一种句子相似度的计算方法及基于该方法的舆情监督方法
技术领域
本发明涉及一种文字处理方法,具体涉及一种句子相似度的计算方法及基于该方法的舆情监督方法。
背景技术
随着经济全球化及国际互联网的飞速发展,自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域,人们需要对语言文字进行翻译时,需要采用人工翻译,耗时耗力,而随着计算机软硬件技术的高速发展,计算机翻译及计算机辅助翻译得到了越来越广泛的应用。对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题,传统的对比方法多采用单一层次上的对比,比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等,但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比,比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比,比如适用于新闻英语的对比方法不适用于口语英语的对比。
国家专利局专利号为CN201110303522.5的发明专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,该专利对句子相似度对比的方法采用了词汇差异的对比方法,这种方法适用于词汇差异明显的语言和场合,在对词汇差异不明显而句型差异明显的语言和场合,对比效果较差。
发明内容
本发明所要解决的技术问题是现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量,单个词的特征被减弱,目的在于提供一种句子相似度的计算方法及基于该方法的舆情监督方法,解决现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量,单个词的特征被减弱的问题。
本发明通过下述技术方案实现:
一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子 b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b)。
进一步的,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
进一步的,所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
进一步的,所述步骤D中计算两个句子的相似度sim(a,b)的方法是:
Figure GDA0002919672600000021
两个句子的相似度定义为两个句向量的内积归一化后的值,即
Figure GDA0002919672600000022
可知,两个句子完全相同时,m=n=t,两个句向量是各维均为1的t维向量,相似度sim=1;两个句子中有意义的词相差极远时,t=m+n,两个句向量是各维均近似为0的t维向量,相似度sim≈0。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型BOW,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响。
一种舆情监督方法,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有库中短句与待识别短句相似度大于阈值,则累加该库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;
2、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;
3、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
附图说明
此处所说明的附图用来提供对本发明 实施例的进一步理解,构成本申请的一部分,并不构成对本发明 实施例的限定。在附图中:
图1为本发明句子相似度的计算示意图;
图2为本发明基于句子相似度的舆情监督示意图;
图3为本发明较长时期内的情绪值变化示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子 b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b)。
进一步的,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
进一步的,所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
进一步的,所述步骤D中计算两个句子的相似度sim(a,b)的方法是:
Figure GDA0002919672600000041
两个句子的相似度定义为两个句向量的内积归一化后的值,即
Figure GDA0002919672600000042
可知,两个句子完全相同时,m=n=t,两个句向量是各维均为1的t维向量,相似度sim=1;两个句子中有意义的词相差极远时,t=m+n,两个句向量是各维均近似为0的t维向量,相似度sim≈0。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型BOW,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响。
实施例2
如图2所示,一种舆情监督方法,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有库中短句与待识别短句相似度大于阈值,则累加该库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
实施例3
如图3所示,对于待识别长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气,特地查了相关的资料才真的也是屡次罚款未果,真是苦了这里的老百姓!!!”,清洗并切分后得到3个短句:短句1“那个臭鸡蛋的味道也是最近才知道是明治橡胶厂排放的臭气”、短句2“特地查了相关的资料才真的也是屡次罚款未果”、短句3“真是苦了这里的老百姓”。
短句1“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”,其TextRank词组为['空气','橡胶厂','臭气','鸡蛋','味道','排放','最近','知道'],共8个词。
和情况库中的TextRank词组对比时,如遇到['刺鼻','味道','一股','空气'](原句为“空气中都有一股刺鼻的味道”),去重后得到的词列表为['空气','橡胶厂','臭气','鸡蛋','味道','排放 ','最近','知道','刺鼻','一股'],共10个词。
依所述步骤C,待识别短句的句向量为[1,1,1,1,1,1,1,1,0.78,0.54],其中前8维词语完全与 TextRank词组一致,所以为1,后2维为相似度最大的词的相似度。库中句子的句向量为 [1,0.31,0.75,0.21,1,0.24,0.18,0.19,1,1]。
依所述步骤D,计算出待识别句子与库中句子的相似度为0.52,大于经多次测试后得到的经验阈值0.38,因此认为待识别长句表达了与情况库对应的舆情事件。继续计算剩余两个短句与情况库的相似度,没有大于0.38的。
接着依次计算切分后的3个短句与情绪库中的相似度。
对短句1:其与情绪库中的3个句子相似度大于经验阈值0.38,因此情绪值为这3个句子的平均权重1.57,即
Figure GDA0002919672600000061
其中Wi为命中的句子的权重。
对短句2:其与情绪库中的1个句子相似度大于经验阈值0.38,因此情绪值为该句子的权重0.85.
对短句3:其与情绪库中的9个句子相似度大于经验阈值0.38,因此情绪值为这9个句子的平均权重2.64,即
Figure GDA0002919672600000062
其中Wi为命中的句子的权重。
最后计算待识别长句的情绪值为这3个短句的平均情绪值1.69,即
Figure GDA0002919672600000063
其中为Qi为各短句的情绪值。
综合整个计算过程以及情况库的标签,可以知道,长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气,特地查了相关的资料才真的也是屡次罚款未果,真是苦了这里的老百姓!!!”描述了一个污染情况,具体为“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”,污染类型为空气污染;发言者对该情况的情绪值为2.64,属于负面情绪,较激动。
实施例4
通过实施例3所述方法,结合一组长句的识别结果,可以确定,发言者所在的地区发生了一起空气污染事件,引起了当地民众的不满。
对发言的来源进行回溯分析和持续监测,发现在过去比较长的一段时间内,针对此事件的讨论的情绪值一直在1.93到2.36之间,处于较高的水平,但上升趋势较小。符合感性认知,即该起空气污染已存在了很长时间,民众积怨已久,但未引起监管部门重视。
而当前监测情绪值已突破了2.50,说明民众的情绪已进入上升期。如果企业再不整改、监管部门继续无视,民众情绪就可能爆发,事态扩大。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,其特征在于,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b);
所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
2.根据权利要求1所述的一种句子相似度的计算方法,其特征在于,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
3.根据权利要求1所述的一种句子相似度的计算方法,其特征在于,所述步骤D中计算两个句子的相似度sim(a,b)的方法是:
Figure FDA0002931179540000011
4.根据权利要求1所述的一种句子相似度的计算方法,其特征在于,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度的计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
5.根据权利要求4所述的一种句子相似度的计算方法,其特征在于,所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与情况库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有情绪库中短句与待识别短句相似度大于阈值,则累加该情绪库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
CN201810148814.8A 2018-02-13 2018-02-13 一种句子相似度的计算方法及基于该方法的舆情监督方法 Active CN108363692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810148814.8A CN108363692B (zh) 2018-02-13 2018-02-13 一种句子相似度的计算方法及基于该方法的舆情监督方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810148814.8A CN108363692B (zh) 2018-02-13 2018-02-13 一种句子相似度的计算方法及基于该方法的舆情监督方法

Publications (2)

Publication Number Publication Date
CN108363692A CN108363692A (zh) 2018-08-03
CN108363692B true CN108363692B (zh) 2021-04-02

Family

ID=63002639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810148814.8A Active CN108363692B (zh) 2018-02-13 2018-02-13 一种句子相似度的计算方法及基于该方法的舆情监督方法

Country Status (1)

Country Link
CN (1) CN108363692B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191469B (zh) * 2019-12-17 2023-09-19 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN111414765B (zh) * 2020-03-20 2023-07-25 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN114722774B (zh) * 2022-04-07 2024-01-30 平安科技(深圳)有限公司 数据压缩方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及***
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法

Also Published As

Publication number Publication date
CN108363692A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363692B (zh) 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109241530B (zh) 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
Sridhar Unsupervised topic modeling for short texts using distributed representations of words
CN107085581B (zh) 短文本分类方法和装置
Creutz et al. Inducing the morphological lexicon of a natural language from unannotated text
CN103268339B (zh) 微博消息中命名实体识别方法及***
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN103049501A (zh) 基于互信息和条件随机场模型的中文领域术语识别方法
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN105374352A (zh) 一种语音激活方法及***
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN112380349A (zh) 商品性别分类方法、装置及电子设备
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN111260428A (zh) 一种商品推荐方法和装置
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN114428854A (zh) 一种基于长度归一化和主动学习的变长文本分类方法
CN114491062A (zh) 一种融合知识图谱和主题模型的短文本分类方法
Richards et al. Using word burst analysis to rescore keyword search candidates on low-resource languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant