CN104375989A - 自然语言文本关键词关联网络构建*** - Google Patents
自然语言文本关键词关联网络构建*** Download PDFInfo
- Publication number
- CN104375989A CN104375989A CN201410719646.5A CN201410719646A CN104375989A CN 104375989 A CN104375989 A CN 104375989A CN 201410719646 A CN201410719646 A CN 201410719646A CN 104375989 A CN104375989 A CN 104375989A
- Authority
- CN
- China
- Prior art keywords
- word
- module
- words
- natural language
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种自然语言文本关键词关联网络构建***,包括分词模块、统计模块、训练模块、关联度计算模块和生成模块;分词模块,用于构建关键词的词典,根据词典对目标语料库进行分词操作,得到多个词;统计模块,用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度;训练模块,用于以统计出的频度为训练条件,采用神经网络训练语言模型,并获得词向量;关联度计算模块,用于计算两个词的词向量的相似度,作为两个词语义相关性的度量,生成两个词之间语义关联度;生成模块,用于根据所述语义关联度,按照两个词之间的所述语义关联度的高低,生成文本关键词关联网络。该***,能够有效地提高有关项目中文本关联网络的精确度。
Description
技术领域
本发明属于自然语言处理技术领域,更具体地说,特别涉及一种自然语言文本关键词关联网络构建***。
背景技术
一般情况下,对海量科技项目数据处理或者专家信息数据总结评价,借助计算机处理显得尤为必要,在自然语言处理技术中,由于中文自身的语言特点,中文处理比以拉丁语系为主的西文处理要复杂得多。而使得计算机能够处理自然语言的一个前提是文本量化。文本量化的一个处理手段是提取文本内容中的特征词,即从各类科技文献、科技项目立项和评审等文本材料中抽取出行业或领域关键词,再通过关键词匹配等构建文本之间的关联网络。
对于中文处理来说,量化关联度的一个前提是对文本进行分词,在进行分词操作得到词表后,当前最常用的词表示方法是把每个词表示为一个很长的向量,向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词,即对文本中的每个词赋予了一个数字编码。该***为稀疏方式存储,非常简洁实用。但是,任意两个词之间都是孤立的,向量无法表示词之间的关系。因此,不同字组成的同义词,例如“话筒”和“麦克风”,通过这种表示方法无法体现其相同的意义。这就导致了有时关联度很高的关键词不会被识别,使得构建的关联网络精度不高。
发明内容
本发明要解决的技术问题是提供一种自然语言文本关键词关联网络构建***,用以解决上述技术问题。
本发明提供了一种自然语言文本关键词关联网络构建***,包括分词模块、统计模块、训练模块、关联度计算模块和生成模块;
所述分词模块,用于构建关键词的词典,根据所述词典对目标语料库进行分词操作,得到多个词;
所述统计模块,用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度;
所述训练模块,用于以统计出的频度为训练条件,采用神经网络训练语言模型,并获得词向量;
所述关联度计算模块,用于计算两个词的词向量的相似度,作为两个词语义相关性的度量,生成两个词之间语义关联度;
所述生成模块,用于根据所述语义关联度,按照两个词之间的所述语义关联度的高低,生成文本关键词关联网络。
其中,所述分词模块包括构建词典子模块;
所述构建词典子模块,用于通过爬虫技术爬取目标语料库中的关键词信息,将得到的多个关键词汇总为词典。
其中,所述分词模块还包括用于基于字符串匹配进行分词的第一分词子模块,以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。
其中,所述词向量为维度小于等于100的低维实数向量。
其中,所述统计模块包括元组划分模块;
所述元组划分模块,用于对切分后的多个词,按照相邻出现的1、2···N个词为一个元组,进行元组划分,统计每个词在前N-1个词出现的条件下出现的概率。
其中,所述训练模块,用于:
采用三层的神经网络训练语言模型,将前N-1个向量首尾相接拼起来,形成一个(N-1)m维的向量,作为所述神经网络的第一层,m为所述词向量的维度;
使用d+Hx计算得到第二层,并使用tanh作为激活函数,d是一个偏置项;
第三层输出V个节点yi,后使用softmax激活函数将输出值y归一化成概率,yi表示下一个词为i的未归一化log概率,y的计算公式为:
y=b+Wx+Utanh(d+Hx)
其中U是第二层到第三层的参数,b也为一个偏置项;
用随机梯度下降法把所述语言模型优化出来。
其中,所述关联度计算模块,用于计算两个词的词向量的余弦距离。
本发明提供了一种自然语言文本关键词关联网络构建***,分词模块对中文自然语言文本进行分词后,统计模块基于N元统计语言模型统计前后词关联出现的频度,训练模块以统计出的频度为训练条件,采用神经网络训练语言模型,并获得词向量,以两个词向量的相似度,度量两个词之间语义关联度,进而构建关联网络,即将中文的语义信息通过概率统计的方式,结合神经网络进行语言模型的训练,量化为词向量信息,这样构建的关联网络,结合了语义信息,相比单纯的对不同字词进行编码而不考虑语义的关联方式,显然关联的精度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自然语言文本关键词关联网络构建***结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步的详细说明。
本发明实施例提供了一种自然语言文本关键词关联网络构建***。
参见图1所示,该***包括分词模块、统计模块、训练模块、关联度计算模块和生成模块。
其中分词模块,用于构建关键词的词典,根据词典对目标语料库进行分词操作,得到多个词。
分词模块包括构建词典子模块,用于通过爬虫技术爬取目标语料库中的关键词信息,将得到的多个关键词汇总为词典,并依据词典对语料库进行分词操作。
优选地,分词模块还包括用于基于字符串匹配进行分词的第一分词子模块,以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。即分词操作包括基于字符串匹配进行分词,优选地,还应结合基于语义理解进行分词方法和/或基于字相邻共现频度统计进行分词方法,综合进行分词,得到词表。采用单一的分词方式,可能准确度不高,因此,将基于字符串匹配和基于理解以及基于统计这三种方式进行合理搭配和结合运用,可提高分词的准确度。
优选地,可利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,n-gram模型用于消除分词歧义,第一文本包括以空格为间隔的词串;当第一文本中包括目标词串时,将目标词串添加至词典,得到更新后的词典,目标词串为未存储在所述词典中的词串。根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本进行分词,分别得到第二文本和第三文本。从第二本文以及第三文本中选取词长期望和词长方差符合要求的文本作为分词结果。
更优地,对已分词的语料进行训练得到CRF模型;采用所述CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中;循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。
统计模块,用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度。
统计模块包括元组划分模块。元组划分模块,用于对切分后的多个词,按照相邻出现的1、2···N个词为一个元组,进行元组划分,统计每个词在前N-1个词出现的条件下出现的概率。
其中N为自然数,即不为0的实数整数。
N元统计语言模型的形式化描述:给定一个词串,其为自然语言的概率P(w1,w2,…,wt),w1到wt依次表示文本中的各个词,则有如下推论:
P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt-1)
其中P(w1)表示第一个词w1出现的概率,P(w2|w1)是在已知第一个词的前提下,第二个词出现的概率,以次类推。可以看出,词w的出现概率取决于它前面所有词,因常用的自然语言中的词语量都非常大,导致计算P(w1,w2,…,wt)非常复杂,因此当前的自然语言处理领域都考虑使用N元语言模型,N元模型假定每个词出现的概率只与前面出现的N-1个词有关系,因此用P(wt|wt-n+1,…,wt-1)近似求解P(wt|w1,w2,…,wt-1)。
例如,以3元语言模型为例,假定整个语料库已经被切分成词串w1,w2,…,wn,则可以得到所有连续的1元组(<w1>,<w2>,<w3>,…,<wn>)、2元组(<w1,w2>,<w2,w3>,…,<wn-1,wn>)和3元组(<w1,w2,w3>,<w2,w3,w4>,…,<wn-2,wn-1,wn>),进而统计出每个词wt在前2个词wt-1,wt-2出现的条件下出现的概率。
训练模块,用于以统计出的频度为训练条件,采用神经网络训练语言模型,并获得词向量。
本发明实施例中所使用的词向量是一种形如[0.792,-0.177,-0.107,0.109,-0.542,...]的低维实数向量,维度一般不超过100,可以为50或者100这样的整数。这种词向量可通过衡量彼此之间的距离得到语义相似度,同时高维词表的表示复杂度极大的降低。
本发明中的词向量通过利用前馈或递归神经网络训练语言模型得到,以C(w)表示词w所对应的词向量,神经网络的输入是前N-1个词wt-n+1,…,wt-1个词对应的词向量,输出是一个向量,向量中的第i个元素表示下一个词是wi的概率,进而利用语料库获得的N元组计算出的统计概率作为训练条件,进而不断调整神经网络各层权重,优化结束后获得了语言模型和词向量。
作为一种可实施方式,本发明实施例使用一个三层的神经网络来构建语言模型。
wt-n+1,…,wt-1是前N-1个词,需要根据这已知的N-1个词预测下一个词wt。C(w)表示词w所对应的词向量,整个模型中使用的是一套唯一的词向量,存在矩阵C(一个|V|×m的矩阵)中。其中|V|表示词表的大小(语料中的总词数),m表示词向量的维度。C到C(w)的转化就是从矩阵中取出一行。
网络的第一层(输入层)是将C(wt-n+1),…,C(wt-2),C(wt-1)这N-1个向量首尾相接拼起来,形成一个(N-1)m维的向量。
网络的第二层(隐藏层)如同普通的神经网络,直接使用d+Hx计算得到。d是一个偏置项。在此之后,使用tanh作为激活函数。
网络的第三层(输出层)一共有|V|个节点,每个节点yi表示下一个词为i的未归一化log概率。最后使用softmax激活函数将输出值y归一化成概率。最终,y的计算公式为:
y=b+Wx+Utanh(d+Hx)
式子中的U(一个|V|×h的矩阵)是隐藏层到输出层的参数,整个模型的多数计算集中在U和隐藏层的矩阵乘法中。最后用随机梯度下降法把这个模型优化出来。一般神经网络的输入层只是一个输入值,而本模型的输入层也是参数(存在C中),也需要优化的。优化结束后同时产生了词向量和语言模型。
更优地,采用如下神经网络算法表示语言模型:
yj=C(wj)Th
其中,C(w)便是词向量。其中,h表示n-gram三层神经网络中的第二层隐藏层,带有语义信息。Hi是一个m×m的矩阵,该矩阵可以理解为第i个词经过Hi变换之后对第t个词产生的贡献。因此这里的隐藏层是对前t-1个词的总结,即隐藏层h是对下一个词的一种预测。
yj是预测下一个词为wj的log概率,由C(wj)和h的内积计算获得,可以直接反应两个词的相似度。如果各词向量的模基本一致,内积的数值大小即可反应两个向量的余弦值大小。
优选地,也可将大词表拆分为多个小词表;将每个小词表对应一个神经网络语言模型,每个神经网络语言模型的输入维数相同且独立进行第一次训练;将各神经网络语言模型的输出向量合并并进行第二次训练;得到归一化的神经网络语言模型。
关联度计算模块,用于计算两个词的词向量的相似度,作为两个词语义相关性的度量,生成两个词之间语义关联度。
利用向量空间模型VSM(Vector Space Model)对两个词的向量进行距离计算作为两个词语义相关性的度量,生成两个词之间语义关联度,进而构造出整个关键词语义网络。计算两个词的词向量的相似度包括计算两个词的词向量的余弦距离。
每个词表示为一个浮点向量,可以表示为高维空间中的一个向量,利用两个向量之间的夹角计算两个向量的距离并表示他们的相似程度。
生成模块,用于根据所述语义关联度,按照两个词之间的所述语义关联度的高低,生成文本关键词关联网络。
无论科技项目、科技成果还是专家信息都是以文本形式进行描述和表达。在对大型科技成果数据库、专家信息库以及文献库等数据库中的内容进行量化、比较、评价等分析操作时,需要计算机能够理解各种文本内容的语义,才能更为准确的进行相关计算。例如分析项目之间是否具有相似性、模糊检索时均需要用到文本相似度计算;专家专业能力分析中需要将用于描述专家的关键词和项目关键词进行模式匹配分析等。
此外,现有的关键词网络多通过人工方式构建词库实现,对于新出现的词以及不在词库中的词无法识别。在中文信息处理中通常使用的分词算法无法识别特定行业的关键词,而且待评项目往往由于涉及科技创新,会创造出一些新的专业术语和名词。因此,不仅需要识别关键词,还需要依赖于关键词的语义相关性进行更为准确的关键词关联识别,即结合自然语言处理、信息检索、模式识别等技术,根据现有的信息形成语料库,通过统计手段分析关键词之间的相关性。
因此,本发明实施例提供的关联网络构建***,可用于量化评价科技项目、科技成果,以及专家评估和遴选等应用领域。由于采用了可计算距离的词向量算法,因此可以获得词向量的语义相似度,进而生成的词语义网络可以较好的表示各个词之间的近似关系。同时该***在应用于处理大规模预料库时,词向量维度较低,一般不超过100,相对于现在常用的稀疏词向量表示方式,复杂度大为降低。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种自然语言文本关键词关联网络构建***,其特征在于,包括分词模块、统计模块、训练模块、关联度计算模块和生成模块;
所述分词模块,用于构建关键词的词典,根据所述词典对目标语料库进行分词操作,得到多个词;
所述统计模块,用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度;
所述训练模块,用于以统计出的频度为训练条件,采用神经网络训练语言模型,并获得词向量;
所述关联度计算模块,用于计算两个词的词向量的相似度,作为两个词语义相关性的度量,生成两个词之间语义关联度;
所述生成模块,用于根据所述语义关联度,按照两个词之间的所述语义关联度的高低,生成文本关键词关联网络。
2.根据权利要求1所述的自然语言文本关键词关联网络构建***,其特征在于,所述分词模块包括构建词典子模块;
所述构建词典子模块,用于通过爬虫技术爬取目标语料库中的关键词信息,将得到的多个关键词汇总为词典。
3.根据权利要求2所述的自然语言文本关键词关联网络构建***,其特征在于,所述分词模块还包括用于基于字符串匹配进行分词的第一分词子模块,以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。
4.根据权利要求1所述的自然语言文本关键词关联网络构建***,其特征在于,所述词向量为维度小于等于100的低维实数向量。
5.根据权利要求1所述的自然语言文本关键词关联网络构建***,其特征在于,所述统计模块包括元组划分模块;
所述元组划分模块,用于对切分后的多个词,按照相邻出现的1、2···N个词为一个元组,进行元组划分,统计每个词在前N-1个词出现的条件下出现的概率。
6.根据权利要求1所述的自然语言文本关键词关联网络构建***,其特征在于,所述训练模块,用于:
采用三层的神经网络训练语言模型,将前N-1个向量首尾相接拼起来,形成一个(N-1)m维的向量,作为所述神经网络的第一层,m为所述词向量的维度;
使用d+Hx计算得到第二层,并使用tanh作为激活函数,d是一个偏置项;
第三层输出V个节点yi,后使用softmax激活函数将输出值y归一化成概率,yi表示下一个词为i的未归一化log概率,y的计算公式为:
y=b+Wx+Utanh(d+Hx)
其中U是第二层到第三层的参数,b也为一个偏置项;
用随机梯度下降法把所述语言模型优化出来。
7.根据权利要求1所述的自然语言文本关键词关联网络构建***,其特征在于,所述关联度计算模块,用于计算两个词的词向量的余弦距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410719646.5A CN104375989A (zh) | 2014-12-01 | 2014-12-01 | 自然语言文本关键词关联网络构建*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410719646.5A CN104375989A (zh) | 2014-12-01 | 2014-12-01 | 自然语言文本关键词关联网络构建*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104375989A true CN104375989A (zh) | 2015-02-25 |
Family
ID=52554911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410719646.5A Pending CN104375989A (zh) | 2014-12-01 | 2014-12-01 | 自然语言文本关键词关联网络构建*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104375989A (zh) |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN106021572A (zh) * | 2016-05-31 | 2016-10-12 | 北京百度网讯科技有限公司 | 二元特征词典的构建方法和装置 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106250490A (zh) * | 2016-08-01 | 2016-12-21 | 乐视控股(北京)有限公司 | 一种文本基因提取方法、装置及电子设备 |
CN106372086A (zh) * | 2015-07-23 | 2017-02-01 | 华中师范大学 | 一种获取词向量的方法和装置 |
CN106503231A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取*** |
CN106815592A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和错别字识别方法及装置 |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和*** |
CN107146604A (zh) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN107665222A (zh) * | 2016-07-29 | 2018-02-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN107861945A (zh) * | 2017-11-01 | 2018-03-30 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN107918825A (zh) * | 2017-11-13 | 2018-04-17 | 珠海金山网络游戏科技有限公司 | 一种基于应用安装偏好判定用户年龄段的方法和装置 |
CN107992501A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 社交网络信息识别方法、处理方法及装置 |
CN108846023A (zh) * | 2018-05-24 | 2018-11-20 | 普强信息技术(北京)有限公司 | 文本的非常规特性挖掘方法及装置 |
CN109299865A (zh) * | 2018-09-06 | 2019-02-01 | 西南大学 | 基于语义分析的心理测评***及方法、信息数据处理终端 |
CN109325509A (zh) * | 2017-07-31 | 2019-02-12 | 北京国双科技有限公司 | 相似度确定方法及装置 |
CN109614617A (zh) * | 2018-06-01 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 支持极性区分和多义的词向量生成方法及装置 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送***及方法 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN109918654A (zh) * | 2019-02-21 | 2019-06-21 | 北京一品智尚信息科技有限公司 | 一种logo释义方法、设备及介质 |
CN109918663A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种语义匹配方法、装置及存储介质 |
CN110100244A (zh) * | 2016-10-18 | 2019-08-06 | 三星电子株式会社 | 电子装置及其控制方法 |
CN110309290A (zh) * | 2018-03-20 | 2019-10-08 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘程序以及文本挖掘装置 |
CN110516259A (zh) * | 2019-08-30 | 2019-11-29 | 盈盛智创科技(广州)有限公司 | 一种技术关键词的识别方法、装置、计算机设备和存储介质 |
WO2019228016A1 (zh) * | 2018-05-31 | 2019-12-05 | 阿里巴巴集团控股有限公司 | 一种智能写作方法和装置 |
CN110688847A (zh) * | 2019-08-23 | 2020-01-14 | 上海市研发公共服务平台管理中心 | 技术合同判定方法、装置、计算机设备和存储介质 |
CN110705280A (zh) * | 2019-08-23 | 2020-01-17 | 上海市研发公共服务平台管理中心 | 技术合同认定模型创建方法、装置、设备和存储介质 |
CN110874408A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 模型训练方法、文本识别方法、装置及计算设备 |
WO2020052069A1 (zh) * | 2018-09-14 | 2020-03-19 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN110909539A (zh) * | 2019-10-15 | 2020-03-24 | 平安科技(深圳)有限公司 | 语料库的词语生成方法、***、计算机设备和存储介质 |
CN111090996A (zh) * | 2019-12-02 | 2020-05-01 | 东软集团股份有限公司 | 一种分词的方法、装置及存储介质 |
CN111130877A (zh) * | 2019-12-23 | 2020-05-08 | 国网江苏省电力有限公司信息通信分公司 | 一种基于nlp的网络日志处理***及方法 |
CN111444326A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111859924A (zh) * | 2020-07-21 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN112148886A (zh) * | 2020-09-04 | 2020-12-29 | 上海晏鼠计算机技术股份有限公司 | 一种内容知识图谱的构建方法及*** |
US10922486B2 (en) | 2019-03-13 | 2021-02-16 | International Business Machines Corporation | Parse tree based vectorization for natural language processing |
CN114154513A (zh) * | 2022-02-07 | 2022-03-08 | 杭州远传新业科技有限公司 | 一种领域语义网自动构建方法及*** |
CN116108466A (zh) * | 2022-12-28 | 2023-05-12 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于统计语言模型的加密方法 |
CN116992834A (zh) * | 2023-09-27 | 2023-11-03 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、***、介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140588A (zh) * | 2007-10-10 | 2008-03-12 | 华为技术有限公司 | 一种关联关系搜索结果的排序方法及装置 |
CN101446959A (zh) * | 2008-12-30 | 2009-06-03 | 深圳市迅雷网络技术有限公司 | 一种基于互联网的新闻推荐方法和*** |
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
US20130246322A1 (en) * | 2012-03-15 | 2013-09-19 | Cept Systems Gmbh | Methods, Apparatus and Products for Semantic Processing of Text |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
-
2014
- 2014-12-01 CN CN201410719646.5A patent/CN104375989A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140588A (zh) * | 2007-10-10 | 2008-03-12 | 华为技术有限公司 | 一种关联关系搜索结果的排序方法及装置 |
CN101446959A (zh) * | 2008-12-30 | 2009-06-03 | 深圳市迅雷网络技术有限公司 | 一种基于互联网的新闻推荐方法和*** |
US20130246322A1 (en) * | 2012-03-15 | 2013-09-19 | Cept Systems Gmbh | Methods, Apparatus and Products for Semantic Processing of Text |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
Non-Patent Citations (4)
Title |
---|
刘代志: "地球物理环境探测和目标信息获取与处理", 《地球物理环境探测和目标信息获取与处理》 * |
唐涛: "网络舆情治理研究", 《网络舆情治理研究》 * |
王晓龙等: "计算机自然语言处理", 《计算机自然语言处理》 * |
罗灏: "基于语义的科技项目相似度计算研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033445B (zh) * | 2015-03-16 | 2019-10-25 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN104881400B (zh) * | 2015-05-19 | 2018-01-19 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
CN106372086B (zh) * | 2015-07-23 | 2019-12-03 | 华中师范大学 | 一种获取词向量的方法和装置 |
CN106372086A (zh) * | 2015-07-23 | 2017-02-01 | 华中师范大学 | 一种获取词向量的方法和装置 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN106815592A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和错别字识别方法及装置 |
CN106815592B (zh) * | 2015-11-27 | 2019-12-03 | 北京国双科技有限公司 | 文本数据处理方法及装置和错别字识别方法及装置 |
CN106021572A (zh) * | 2016-05-31 | 2016-10-12 | 北京百度网讯科技有限公司 | 二元特征词典的构建方法和装置 |
CN106021572B (zh) * | 2016-05-31 | 2019-05-31 | 北京百度网讯科技有限公司 | 二元特征词典的构建方法和装置 |
US10831993B2 (en) | 2016-05-31 | 2020-11-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for constructing binary feature dictionary |
WO2017206492A1 (zh) * | 2016-05-31 | 2017-12-07 | 北京百度网讯科技有限公司 | 二元特征词典的构建方法和装置 |
CN107665222A (zh) * | 2016-07-29 | 2018-02-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN106250490A (zh) * | 2016-08-01 | 2016-12-21 | 乐视控股(北京)有限公司 | 一种文本基因提取方法、装置及电子设备 |
CN110100244A (zh) * | 2016-10-18 | 2019-08-06 | 三星电子株式会社 | 电子装置及其控制方法 |
CN110100244B (zh) * | 2016-10-18 | 2023-08-01 | 三星电子株式会社 | 电子装置及其控制方法 |
CN107992501A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 社交网络信息识别方法、处理方法及装置 |
CN107992501B (zh) * | 2016-10-27 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 社交网络信息识别方法、处理方法及装置 |
CN106503231B (zh) * | 2016-10-31 | 2020-02-04 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106503231A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取*** |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和*** |
CN107146604B (zh) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN107146604A (zh) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN109325509A (zh) * | 2017-07-31 | 2019-02-12 | 北京国双科技有限公司 | 相似度确定方法及装置 |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN107861945A (zh) * | 2017-11-01 | 2018-03-30 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN107918825A (zh) * | 2017-11-13 | 2018-04-17 | 珠海金山网络游戏科技有限公司 | 一种基于应用安装偏好判定用户年龄段的方法和装置 |
CN110309290B (zh) * | 2018-03-20 | 2023-06-06 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘程序以及文本挖掘装置 |
CN110309290A (zh) * | 2018-03-20 | 2019-10-08 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘程序以及文本挖掘装置 |
CN108846023A (zh) * | 2018-05-24 | 2018-11-20 | 普强信息技术(北京)有限公司 | 文本的非常规特性挖掘方法及装置 |
WO2019228016A1 (zh) * | 2018-05-31 | 2019-12-05 | 阿里巴巴集团控股有限公司 | 一种智能写作方法和装置 |
CN109614617B (zh) * | 2018-06-01 | 2022-12-16 | 安徽省泰岳祥升软件有限公司 | 支持极性区分和多义的词向量生成方法及装置 |
CN109614617A (zh) * | 2018-06-01 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 支持极性区分和多义的词向量生成方法及装置 |
CN110874408A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 模型训练方法、文本识别方法、装置及计算设备 |
CN110874408B (zh) * | 2018-08-29 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、文本识别方法、装置及计算设备 |
CN109299865A (zh) * | 2018-09-06 | 2019-02-01 | 西南大学 | 基于语义分析的心理测评***及方法、信息数据处理终端 |
CN109299865B (zh) * | 2018-09-06 | 2021-12-17 | 西南大学 | 基于语义分析的心理测评***及方法、信息数据处理终端 |
WO2020052069A1 (zh) * | 2018-09-14 | 2020-03-19 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送***及方法 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN109918654B (zh) * | 2019-02-21 | 2022-12-27 | 厦门一品威客网络科技股份有限公司 | 一种logo释义方法、设备及介质 |
CN109918654A (zh) * | 2019-02-21 | 2019-06-21 | 北京一品智尚信息科技有限公司 | 一种logo释义方法、设备及介质 |
CN109918663A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种语义匹配方法、装置及存储介质 |
US10922486B2 (en) | 2019-03-13 | 2021-02-16 | International Business Machines Corporation | Parse tree based vectorization for natural language processing |
CN110705280A (zh) * | 2019-08-23 | 2020-01-17 | 上海市研发公共服务平台管理中心 | 技术合同认定模型创建方法、装置、设备和存储介质 |
CN110688847A (zh) * | 2019-08-23 | 2020-01-14 | 上海市研发公共服务平台管理中心 | 技术合同判定方法、装置、计算机设备和存储介质 |
CN110516259A (zh) * | 2019-08-30 | 2019-11-29 | 盈盛智创科技(广州)有限公司 | 一种技术关键词的识别方法、装置、计算机设备和存储介质 |
CN110516259B (zh) * | 2019-08-30 | 2023-03-07 | 盈盛智创科技(广州)有限公司 | 一种技术关键词的识别方法、装置、计算机设备和存储介质 |
CN110909539A (zh) * | 2019-10-15 | 2020-03-24 | 平安科技(深圳)有限公司 | 语料库的词语生成方法、***、计算机设备和存储介质 |
CN111090996A (zh) * | 2019-12-02 | 2020-05-01 | 东软集团股份有限公司 | 一种分词的方法、装置及存储介质 |
CN111130877B (zh) * | 2019-12-23 | 2022-10-04 | 国网江苏省电力有限公司信息通信分公司 | 一种基于nlp的网络日志处理***及方法 |
CN111130877A (zh) * | 2019-12-23 | 2020-05-08 | 国网江苏省电力有限公司信息通信分公司 | 一种基于nlp的网络日志处理***及方法 |
CN111444326B (zh) * | 2020-03-30 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111444326A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111581952B (zh) * | 2020-05-20 | 2023-10-03 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111859924A (zh) * | 2020-07-21 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN111859924B (zh) * | 2020-07-21 | 2024-04-05 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN112148886A (zh) * | 2020-09-04 | 2020-12-29 | 上海晏鼠计算机技术股份有限公司 | 一种内容知识图谱的构建方法及*** |
CN114154513A (zh) * | 2022-02-07 | 2022-03-08 | 杭州远传新业科技有限公司 | 一种领域语义网自动构建方法及*** |
CN116108466A (zh) * | 2022-12-28 | 2023-05-12 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于统计语言模型的加密方法 |
CN116108466B (zh) * | 2022-12-28 | 2023-10-13 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于统计语言模型的加密方法 |
CN116992834A (zh) * | 2023-09-27 | 2023-11-03 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、***、介质及电子设备 |
CN116992834B (zh) * | 2023-09-27 | 2024-01-05 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、***、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104375989A (zh) | 自然语言文本关键词关联网络构建*** | |
CN104391963A (zh) | 一种自然语言文本关键词关联网络构建方法 | |
Spedicato | Discrete Time Markov Chains with R. | |
CN110704598B (zh) | 一种语句信息的抽取方法、抽取装置及可读存储介质 | |
Lalapura et al. | Recurrent neural networks for edge intelligence: a survey | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
CA3034918A1 (en) | Pointer sentinel mixture architecture | |
Amine et al. | Evaluation of text clustering methods using wordnet. | |
CN104834747A (zh) | 基于卷积神经网络的短文本分类方法 | |
CN110458181A (zh) | 一种基于宽度随机森林的句法依存模型、训练方法和分析方法 | |
Belanger et al. | A linear dynamical system model for text | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111581954B (zh) | 一种基于语法依存信息的文本事件抽取方法及装置 | |
CN110851584B (zh) | 一种法律条文精准推荐***和方法 | |
Filippone et al. | Enabling scalable stochastic gradient-based inference for Gaussian processes by employing the Unbiased LInear System SolvEr (ULISSE) | |
Chakraborty | Simulation free reliability analysis: A physics-informed deep learning based approach | |
CN109033084B (zh) | 一种语义层次树构建方法以及装置 | |
CN110197252A (zh) | 基于距离的深度学习 | |
Malec et al. | Inductive logic programming meets relational databases: An application to statistical relational learning | |
Tiwari et al. | Next word prediction using deep learning | |
Han et al. | Automatic business process structure discovery using ordered neurons LSTM: a preliminary study | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
Omar | Performance Evaluation Of Supervised Machine Learning Classifiers For Mapping Natural Language Text To Entity Relationship Models | |
CN114154505A (zh) | 一种面向电力规划评审领域的命名实体识别方法 | |
Van Ban et al. | Querying Data with Fuzzy Information in Object-Oriented Databases Based on Hedge Algebraic Semantic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150225 |
|
RJ01 | Rejection of invention patent application after publication |