CN107451126B - 一种近义词筛选方法及*** - Google Patents
一种近义词筛选方法及*** Download PDFInfo
- Publication number
- CN107451126B CN107451126B CN201710719167.7A CN201710719167A CN107451126B CN 107451126 B CN107451126 B CN 107451126B CN 201710719167 A CN201710719167 A CN 201710719167A CN 107451126 B CN107451126 B CN 107451126B
- Authority
- CN
- China
- Prior art keywords
- words
- word
- similar meaning
- candidate
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种近义词筛选方法,包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
Description
技术领域
本发明涉及人工智能领域,特别是一种近义词筛选方法及***。
背景技术
在聊天机器人设计中,经常需要让计算机理解用户的同一句话,用不同的表达形式,以提高机器人对句子的识别水平,其中近义词的变换是最常用办法。近义词在信息抽取、问答***、数据挖掘等基础应用中发挥重要的作用。现有的近义词挖掘方法要么词语的覆盖面窄,要么获取的近义词较陈旧,要么近义词的质量不高,这些问题都影响近义词在自然语言处理领域的应用。
现有技术在进行近义词挖掘时所采用的方法主要包括:
1、依靠本体词典或知识库的规则方法。例如用同义词词林,查找同义词来获取。
2、基于搜索日志对用户行为的同义词自动挖掘的方法。例如,根据大量用户的不同输入词和相同页面的点击操作,及网页开发者对页面的关键词描述等。来挖掘用户之间用不同输入词表达出来的同义关系。
3、利用神经网络语言模型学习词向量化表示,通过计算词向量的余弦相似度来衡量词汇语义上相似的方法。
然而,现有技术中仍然存在以下的缺点和不足:
1、对于依靠本体词典或知识库的规则方法,由于词典和知识库大多依赖人工构建,其时效性和覆盖面都比较差。
2、基于搜索日志行为的方法需要利用同义词集的结构模板,可拓展性和覆盖面都不好。
3、通过神经网络语言模型的词向量化表示的余弦相似度来衡量词汇语义上的相似度,这类方法有一定效果,但是现有的方法不能获取较高质量的近义词。神经网络语言模型的词向量能一定程度反映语义的相似性,但是获取的相似词中有一些词语在语义上并不相近,这些方法都不能把非近义词有效去除从而得到质量较高的近义词。
综上,现有技术的近义词获取方法在获取的近义词时,不能同时达到覆盖面广,时效性好,质量较高的要求,还不能满足自然语言处理的需求,也难以提高聊天机器人理解句子的水平。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种近义词筛选方法及***。
本发明通过以下的方案实现:一种近义词筛选方法,包括以下步骤:
训练大语料词语的词向量具体包括:
抓取原始数据;
预处理大语料:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练词向量模型:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量;挖掘大语料词语的近义词,具体包括:
获取候选近义词集合;
更新近义词相似度:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度;
筛选获得近义词列表。
作为本发明的进一步改进,所述抓取原始数据具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
作为本发明的进一步改进,所述步骤:获取候选近义词集合中,具体包括:
计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
作为本发明的进一步改进,所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
本发明还提供了一种近义词筛选***,其包括:
词向量训练模块,用于训练大语料词语的词向量;
所述词向量训练模块具体包括:
抓取模块;
预处理模块,用于去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练模块,用于根据预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量;
近义词挖掘模块,用于挖掘大语料词语的近义词;所述近义词挖掘模块具体包括:
候选集合获取模块,用于获取候选近义词集合;
更新模块,通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度;
筛选模块,用于筛选获得近义词列表。
作为本发明的进一步改进,所述词向量训练模块具体包括:
抓取模块,用于通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
作为本发明的进一步改进,所述候选集合获取模块具体包括:
计算模块,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
过滤模块,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
作为本发明的进一步改进,所述更新模块具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
作为本发明的进一步改进,所述筛选模块具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的近义词筛选方法的步骤流程图。
图2是本发明的近义词筛选***的模块框图。
具体实施方式
以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
请同时参阅图1,其为本发明的近义词筛选方法的步骤流程图。本发明提供了一种近义词筛选方法,包括以下步骤:
S1:训练大语料词语的词向量。
进一步,所述步骤S1中具体包括:
S11:抓取原始数据。具体的,S11具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据,例如:各种类型的新闻文本,各种题材的小说文本,全部条目的百科文本。
S12:预处理大语料。所述步骤S12中具体为:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词,从而避免错过同一个语义的词语的不同表述。
S13:训练词向量模型。所述步骤S13中,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
S2:挖掘大语料词语的近义词。所述步骤S2中,具体包括:
S21:获取候选近义词集合。具体的所述步骤S21中包括:
S211:计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数。比如,可以将余弦相似度前10个作为候选词。
S212:对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。比如:对前10个候选词进行过滤,将相似度低于0.5的过滤等等,具体可以根据实际情况设置不同的阈值。
S22:更新近义词相似度。
具体的,所述步骤S22具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
S23:筛选获得近义词列表。
具体的,所述步骤S23具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
以下结合具体的例子,说明本发明的近义词筛选方法的应用:
第一、语料训练。具体的,对每个中文单词,找到和它语义接近的其它汉语单词,可以采用Word Embedding技术来实现这个语义的关联。采用的工具是Word2Vec,采用整个百度百科作为训练数据,这样就能得到每个中文单词对应的词向量,这是一种低维度向量形式的单词表示,能够表征单词的部分语义及语法含义。
第二、近义词挖掘。对于任意两个已经用WordEmbedding形式表示的单词,我们可以简单通过计算两个向量之间的Cosine相似性,得出两个单词语义接近程度。
于是,某个单词,我们可以从所有其它单词中找出和这个单词语义最接近的一部分单词,也就是Cosine得分最高的一批单词。例如:对于目标词,“歌曲”可以得出挖掘的结果:歌词:0.87,首歌:0.91,颂歌:0.93,曲调:0.69,进行曲:0.75,唱歌:0.58
对某个单词W找出语义最接近的单词列表后对其进行过滤,过滤规则是:先抽取超过一定阈值的词,例如相似度超过0.5的所有词。接着,根据词性过滤,把这些单词中词性和W相同的留下来,不同的过滤掉。例如,上面的‘唱歌’是动词,因此可以被过滤。这步其实是很关键的,对于后面最终产生的句子语义一致性及可读性有很大影响。主要原因是,尽管理论上通过Word Embedding可以找到语义相似的其它单词,但是其实还是有不少看上去不合理的内容,这是Word Embedding本身产生方式决定的,增加合理的过滤措施能够极大改善句子生成质量,而根据词性过滤就是一个简单易行的方法。
最后,对挖掘到的关键词,进行两两的关键词相似度计算,并把计算结果进行求和与平均,得到一个最终的得分。例如‘首歌’得跟其他的除了目标词之外的,‘歌词’、‘进行曲’等各个词,进行相似度计算,然后取平均值。接着对‘颂歌’进行计算。并对结果按分数高低排序。其中,排序最高的为最适合的近义词。
请同时参阅图2,其为本发明的近义词筛选***的模块框图。为了实现上述的方法,本发明还提供了一种近义词筛选***,其包括:词向量训练模块1和近义词挖掘模块2。
所述词向量训练模块1,用于训练大语料词语的词向量。
所述近义词挖掘模块2,用于挖掘大语料词语的近义词。
进一步,所述词向量训练模块1具体包括:抓取模块11、预处理模块12和训练模块13。
所述抓取模块11,用于抓取原始数据,具体通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
所述预处理模块12,用于预处理大语料,具体包括:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词。
所述训练模块13,用于训练词向量模型,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
具体的,所述近义词挖掘模块2具体包括:候选集合获取模块21、更新模块22和筛选模块23。
所述候选集合获取模块21,用于获取候选近义词集合。
进一步,所述候选集合获取模块具体包括:计算模块211和过滤模块212。
所述计算模块211,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数。
所述过滤模块212,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
所述更新模块22,用于更新近义词相似度,具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
所述筛选模块23,用于筛选获得近义词列表,具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种近义词筛选方法,其特征在于:包括以下步骤:
训练大语料词语的词向量,具体包括:
抓取原始数据;
预处理大语料:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练词向量模型:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,
并获取大语料中每个词的词向量;
挖掘大语料词语的近义词,具体包括:
获取候选近义词集合;
更新近义词相似度:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度;
筛选获得近义词列表。
2.根据权利要求1所述近义词筛选方法,其特征在于:所述
抓取原始数据具体为抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
3.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:获取候选近义词集合中,具体包括:
计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
4.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
5.一种近义词筛选***,其特征在于:包括:
词向量训练模块,用于训练大语料词语的词向量;
所述词向量训练模块具体包括:
抓取模块;
预处理模块,用于去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练模块,用于根据预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量;
近义词挖掘模块,用于挖掘大语料词语的近义词;所述近义词挖掘模块具体包括:
候选集合获取模块,用于获取候选近义词集合;
更新模块,通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度;
筛选模块,用于筛选获得近义词列表。
6.根据权利要求5所述近义词筛选***,其特征在于:所述
抓取模块,用于通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
7.根据权利要求5所述近义词筛选***,其特征在于:所述候选集合获取模块具体包括:
计算模块,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
过滤模块,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
8.根据权利要求5所述近义词筛选***,其特征在于:所述筛选模块具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710719167.7A CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710719167.7A CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451126A CN107451126A (zh) | 2017-12-08 |
CN107451126B true CN107451126B (zh) | 2020-07-28 |
Family
ID=60492895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710719167.7A Active CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451126B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
CN108153735B (zh) * | 2017-12-28 | 2021-05-18 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及*** |
CN108255810B (zh) * | 2018-01-10 | 2019-04-09 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN109213916A (zh) * | 2018-09-14 | 2019-01-15 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109543175B (zh) * | 2018-10-11 | 2020-06-02 | 北京诺道认知医学科技有限公司 | 一种查找同义词的方法及装置 |
CN109508414B (zh) * | 2018-11-13 | 2021-02-09 | 北京奇艺世纪科技有限公司 | 一种同义词挖掘方法及装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
CN110309280B (zh) * | 2019-05-27 | 2021-11-09 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110377904A (zh) * | 2019-06-25 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于语料库的近义词辨析方法 |
CN110263347A (zh) * | 2019-06-26 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种同义词的构建方法及相关装置 |
CN110427613B (zh) * | 2019-07-16 | 2022-12-13 | 深圳供电局有限公司 | 一种近义词发现方法及其***、计算机可读存储介质 |
CN110688838B (zh) * | 2019-10-08 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN111078893A (zh) * | 2019-12-11 | 2020-04-28 | 竹间智能科技(上海)有限公司 | 一种大规模高效获取识别对话意图用语料的方法 |
CN111477216B (zh) * | 2020-04-09 | 2024-02-23 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及*** |
CN112232065B (zh) * | 2020-10-29 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112329455A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 一种基于语料库的近义词辨析方法 |
CN112632969B (zh) * | 2020-12-13 | 2022-06-21 | 复旦大学 | 一种增量式行业词典更新方法和*** |
CN112559711A (zh) * | 2020-12-23 | 2021-03-26 | 作业帮教育科技(北京)有限公司 | 一种同义文本提示方法、装置及电子设备 |
CN114861638B (zh) * | 2022-06-10 | 2024-05-24 | 安徽工程大学 | 一种中文同义词扩展方法及装置 |
CN115238679A (zh) * | 2022-07-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和*** |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN106649816B (zh) * | 2016-12-29 | 2020-06-09 | 北京奇虎科技有限公司 | 一种同义词的过滤方法及装置 |
-
2017
- 2017-08-21 CN CN201710719167.7A patent/CN107451126B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和*** |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107451126A (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451126B (zh) | 一种近义词筛选方法及*** | |
Deepak et al. | A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN111950273B (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
WO2017084267A1 (zh) | 一种关键词提取方法和装置 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN107608999A (zh) | 一种适用于自动问答***的问句分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
US10592542B2 (en) | Document ranking by contextual vectors from natural language query | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及*** | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
Zhang et al. | Research on keyword extraction of Word2vec model in Chinese corpus | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CN112632272B (zh) | 基于句法分析的微博情感分类方法和*** | |
Jawad et al. | Combination of convolution neural networks and deep neural networks for fake news detection | |
CN112749255A (zh) | 一种基于es的人机交互用语义识别意图匹配方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |