CN106610951A - 改进的基于语义分析的文本相似度求解算法 - Google Patents
改进的基于语义分析的文本相似度求解算法 Download PDFInfo
- Publication number
- CN106610951A CN106610951A CN201610864853.9A CN201610864853A CN106610951A CN 106610951 A CN106610951 A CN 106610951A CN 201610864853 A CN201610864853 A CN 201610864853A CN 106610951 A CN106610951 A CN 106610951A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- information
- similarity
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
改进的基于语义分析的文本相似度求解算法,先对两文本进行分词和去停用词处理,基于改进的信息论方法,计算词汇在文本中权重,根据词汇位置信息和词性,得到词汇位置和词性的权重,综合上述三因子,构造提取文本词汇的目标函数,最后,根据语义相似度分别对上述两特征词汇实施进一步降维处理得到两特征词汇向量,再根据皮尔森相关系数求解文本间的文本相似度。本发明比传统文本相似度计算方法准确度更高,适用性更广,具有更大的应用价值,可以精确计算不同词汇对文本思想的贡献度,解决了“一词多义”与“一义多词”的问题,更符合经验值,同时为后续的文本聚类提供良好的理论基础。
Description
技术领域
本发明涉及语义网络技术领域,具体涉及一种改进的基于语义分析的文本相似度求解算法。
背景技术
目前,常用的计算文本相似度方法主要有两种:一种是基于数理统计的方法,另外一种是基于语义分析的方法。基于数理统计的方法是根据词形和词频进行计算,而语义分析则是利用文本内部词汇的内在语义联系进行计算。向量空间模型(Vector Space Model简称VSM)是计算文本相似度的经典方法,该方法没有考虑词汇的语义信息和词汇之间的语义联系,因此不能真实的反应文本之间的相似情况,此外VSM没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小,所以用向量空间模型来计算文本相似度是有缺陷的。为了提高文本相似度计算的准确性和解决“一词多义”与“一义多词”等现象,本发明提供了改进的基于语义分析的文本相似度求解算法。
发明内容
针对于文本中特征词汇中不同词汇对文本的重要程度的差异问题、“一词多义”与“一义多词”问题以及提高文本相似度计算的准确性问题,本发明提供了改进的基于语义分析的文本相似度求解算法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化文本语料库模块,对待比较文本(W1,W2)的进行预处理。
步骤2:基于信息论方法,计算词汇在文本中权重值WI。
步骤3:根据词汇位置信息和词性,计算词汇在文本中的权重值
步骤4:综合考虑上述三因子,构造提取文本(W1,W2)中的特征值目标函数分别提取文本(W1,W2)中的特征值。
步骤5:利用词汇语义相似度sim(c1i,c1i+1)对上述得到的特征词汇集合进行降维处理
步骤6:根据皮尔森相关系数求解待比较文本(W1,W2)间的文本相似度sim(W1,W2)。
本发明有益效果是:
1、此方法比传统的文本相似度计算方法得到的结果具有更高的准确性,更符合人工提取的结果。
2、此方法在信息检索、机器翻译、自动问答***等领域都具有更好的适用性。
3、此算法具有更大的利用价值。
4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。
5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。
6、为后续的文本聚类提供良好的理论基础。
7、此方法处理了“一词多义”与“一义多词”的问题
8、此方法着重在语义分析的角度来计算两文本间的相似度,更符合人们的经验值。
附图说明
图1改进的基于语义分析的文本相似度求解算法的结构流程图
图2中文文本预处理过程流程图
图3 n元语法分词算法图
具体实施方式
为了解决文本中特征词汇中不同词汇对文本的重要程度的差异问题、“一词多义”与“一义多词”问题以及提高文本相似度计算的准确性问题,结合图1-图3对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化文本语料库模块,对待比较文本(W1,W2)的进行预处理,其具体描述过程如下:
综合分词和删除停用词技术,中文文本预处理过程流程图如图2。
这里分词方法利用一种基于信息论中文自动分词算法,其具体分词和去停用词处理步骤如下:
步骤1.1:利用停用表分别对文本(W1,W2)进行去停用词处理。
步骤1.2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
把待分词的汉字串完整的扫描一遍,在***的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤1.3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图3所示。
步骤1.4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。
在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信
息量X(Ci,Ci+1)。既有下式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。
x(Ci)1=-P(Ci)1lnp(Ci)1
上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。
x(Ci)2=-p(Ci)2lnp(Ci)2
上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。
同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。
同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。
x(Ci,Ci+1)2=-P(ChCi+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。
综上可得每条相邻路径的权值为
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
步骤1.5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。
假设经过取路径中词的数量最少操作,排除了m条路径,m<n。即剩下(n-m)路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。
权值最大的一条路径:
步骤2:基于信息论方法,计算词汇在文本中权重值WI,其具体计算过程如下:
基于信息论词频的计算公式有:
上式为词汇关于词频在文档中所具有的信息量,p(c1,2)分别为词c1、c2在文本中的概率值。
基于信息论文档频率的计算公式有:
为词汇关于文档频率在文档库中所具有的信息量,为分别含有c1、c2的文档数,N为文档库中文档的总个数。
综上所述,有基于信息论计算词汇权重的函数,归一化后,如下式:
步骤3:根据词汇位置信息和词性,计算词汇在文本中的权重值其具体计算过程如下:
根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想,特征词在文本中出现的次数越多,越具有文本含义的代表性。通过步骤2得到词汇在文本的权重值,取前n个特征词汇。对这些词汇进行位置权重划分。
在文本中每个特征词至少出现一次,文本特征词c(1,2)i构成的位置向量,如下:
从词性的角度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当定语的角色。词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样。经过相关领域专家调查可得,名词、动词、形容词、副词等词性在文本中的权重系数ai。
则综合考虑每个特征词位置与词性的权重函数为:
上式k为特征词ci出现在文本中的段落数,qh为含有特征词ci的第h段对文本思想的贡献值,ai为词性对文本思想的贡献值,ai、qh值由相应文本领域专家经过调研可以得出。nh为特征词ci在第h段出现的次数。
步骤4:综合考虑上述三因子,构造提取文本(W1,W2)中的特征词目标函数分别提取文本(W1,W2)中的特征词,其具体计算过程如下:
提取文本(W1,W2)中特征词汇的目标函数为:
步骤5:利用词汇语义相似度sim(c1i,c1i+1)对上述得到的特征词汇集合进行降维处理,需先计算概念间的相似度sim(g1,g2),其具体计算过程如下:
利用《知网》数据库,假设特征词汇(c_1i,c_(1i+1))对应的概念集合分别为对此概念进行两两比较,找到相似度最大的两概念,即为特征词汇(c1i,c1i+1)间的相似度sim(c1i,c1i+1)。
步骤5.1)基于信息论的方法计算概念间的相似度sim(g1,g2)
基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度。概念是对其祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量来衡量两个概念的共享信息。
求解其共同父节点在树状层次结构中的信息量值I(pr)
根据图2,得出两本体概念(g1,g2)共同父节点在树状层次结构中每层出现的概率值p(pr)
p(pr)=(p1(pr),p2(pr),…,pk(pr))
上式k为两本体概念(g1,g2)共同父节点在树状层次结构中的层数。
E[p(pr)]为两本体概念(g1,g2)共同父节点在树状层次结构中的概率均值。
分别求解两本体概念(g1,g2)在树状层次结构中的信息量值I(g1)、I(g2),其具体求解过程如下:
求解两本体概念的在树状层次结构中的信息量值I(g1)、I(g2)
同理,根据图2,得出两本体概念(g1,g2)在树状层次结构中每层的概率值p(g1)、p(g2)
p(g1)=(p1(g1),p2(g1),...,pi(g1))
P(g2)=(p1(g2),p2(g2),…,pj(g2))
上式i为本体概念g1在树状层次结构中的层数,同理,j为本体概念g2在树状层次结构中的层数。
上式E[p(g1)]、E[p(g2)]分别为两本体概念(g1,g2)在树状层次结构中的概率均值。
由此可得两本体概念的在树状层次结构中的信息量值I(g1)、I(g2)
基于信息量,可以得出两本体概念间的语义相似度sim(g1,g2),其具体计算过程如下:
两本体概念(g1,g2)的共同父节点包含的信息量仅仅只能表示两概念包含的相同信息。根据经验可得两本体概念(g1,g2)间的语义相似度sim(g1,g2)。
步骤5.2)根据步骤5.1可以得出概念相似度矩阵,如下:
即
对特征词汇集合进行降维处理,有下式
sim(c1i,c1i+1)≥α
当特征词汇两两间相似度满足设定好的阈值α,则合并为一词,即相似度最大的两词汇之一,其权重值需重新分配,即为:
同理,即可得文本2中特征词汇集合的降维向量。
步骤:6:根据皮尔森相关系数求解待比较文本(W1,W2)间的文本相似度sim(W1,W2)。
根据步骤4计算得出的特征词汇权重值,相关领域专家选取前m位关键词,这里m<20,既分别有文本(W1,W2)对应的特征词向量。
文本W1对应的特征词的平均权重函数为
同理,文本W2对应特征词的平均权重函数为
根据皮尔森相关系数,即可得文本(W1,W2)间的文本相似度sim(W1,W2),有下式:
改进的基于语义分析的文本相似度求解算法,其伪代码计算过程:
输入:待比较文本(W1,W2)。
输出:文本(W1,W2)间的相似度sim(W1,W2)。
Claims (4)
1.改进的基于语义分析的文本相似度求解算法,本发明涉及语义网络技术领域,具体涉及一种改进的基于语义分析的文本相似度求解算法,其特征是,包括如下步骤:
步骤1:初始化文本语料库模块,对待比较文本的进行预处理,其具体处理过程如下:
综合分词和删除停用词技术,中文文本预处理过程流程图如图2
这里分词方法利用一种基于信息论中文自动分词算法,其具体分词和去停用词处理步骤如下:
步骤1.1:利用停用表分别对文本进行去停用词处理
步骤1.2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
把待分词的汉字串完整的扫描一遍,在***的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空
步骤1.3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为,其结构图如图3所示
步骤1.4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为,即n条路径词的个数集合为
得
在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小
在统计语料库中,计算每个词的信息量,再求解路径相邻词的共现信息量,既有下式:
上式为文本语料库中词的信息量,为含词的文本信息量
上式为在文本语料库中的概率,n为含词的文本语料库的个数
上式为含词的文本数概率值,N为统计语料库中文本总数
同理
为在文本语料库中词的共现信息量,为相邻词共现的文本信息量
同理
上式为在文本语料库中词的共现概率,m为在文本库中词共现的文本数量
为文本库中相邻词共现的文本数概率
综上可得每条相邻路径的权值为
步骤1.5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为
假设经过取路径中词的数量最少操作,排除了m条路径,m<n,即剩下(n-m)路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第条路径的长度
权值最大的一条路径:
步骤2:基于信息论方法,计算词汇在文本中权重值,其具体计算过程如下:
基于信息论词频的计算公式有:
上式为词汇关于词频在文档中所具有的信息量,分别为词、在文本中的概率值
基于信息论文档频率的计算公式有:
为词汇关于文档频率在文档库中所具有的信息量,为分别含有、的文档数,N为文档库中文档的总个数
综上所述,有基于信息论计算词汇权重的函数,归一化后,如下式:
步骤3:根据词汇位置信息和词性,计算词汇在文本中的权重值
步骤4:综合考虑上述三因子,构造提取文本中的特征值目标函数,分别提取文本中的特征值
步骤5:利用词汇语义相似度对上述得到的特征词汇集合进行降维处理
步骤6:根据皮尔森相关系数求解待比较文本间的文本相似度,其具体计算过程如下:
根据步骤4计算得出的特征词汇权重值,相关领域专家选取前m位关键词,这里m<20,既分别有文本对应的特征词向量
文本对应的特征词的平均权重函数为:
同理,文本对应特征词的平均权重函数为:
根据皮尔森相关系数,即可得文本间的文本相似度,有下式:
。
2.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法,其特征是,以上所述步骤3中的具体计算过程如下:
步骤3:根据词汇位置信息和词性,计算词汇在文本中的权重值,其具体计算过程如下:
根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想,特征词在文本中出现的次数越多,越具有文本含义的代表性,通过步骤2得到词汇在文本的权重值,取前n个特征词汇,对这些词汇进行位置权重划分
在文本中每个特征词至少出现一次,文本特征词构成的位置向量,如下:
从词性的角度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当定语的角色,词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样,经过相关领域专家调查可得,名词、动词、形容词、副词等词性在文本中的权重系数
则综合考虑每个特征词位置与词性的权重函数为:
上式k为特征词出现在文本中的段落数,为含有特征词的第h段对文本思想的贡献值,为词性对文本思想的贡献值,、值由相应文本领域专家经过调研可以得出,为特征词在第h段出现的次数。
3.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:综合考虑上述三因子,构造提取文本中的特征词目标函数,分别提取文本中的特征词,其具体计算过程如下:
提取文本中特征词汇的目标函数为:
。
4.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法,其特征是,以上所述步骤5中的具体计算过程如下:
步骤5:利用词汇语义相似度对上述得到的特征词汇集合进行降维处理,需先计算概念间的相似度,其具体计算过程如下:
利用《知网》数据库,假设特征词汇对应的概念集合分别为、,对此概念进行两两比较,找到相似度最大的两概念,即为特征词汇间的相似度
步骤5.1)基于信息论的方法计算概念间的相似度
基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度,概念是对其祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量来衡量两个概念的共享信息
求解其共同父节点在树状层次结构中的信息量值
根据图2,得出两本体概念共同父节点在树状层次结构中每层出现的概率值
上式k为两本体概念共同父节点在树状层次结构中的层数
为两本体概念共同父节点在树状层次结构中的概率均值
分别求解两本体概念在树状层次结构中的信息量值、,其具体求解过程如下:
求解两本体概念的在树状层次结构中的信息量值、
同理,根据图2,得出两本体概念在树状层次结构中每层的概率值、
上式i为本体概念在树状层次结构中的层数,同理,j为本体概念在树状层次结构中的层数
上式、分别为两本体概念在树状层次结构中的概率均值
由此可得两本体概念的在树状层次结构中的信息量值、
基于信息量,可以得出两本体概念间的语义相似度,其具体计算过程如下:
两本体概念的共同父节点包含的信息量仅仅只能表示两概念包含的相同信息,根据经验可得两本体概念间的语义相似度
步骤5.2)根据步骤5.1可以得出概念相似度矩阵,如下:
即
对特征词汇集合进行降维处理,有下式
当特征词汇两两间相似度满足设定好的阈值,则合并为一词,即相似度最大的两词汇之一,其权重值需重新分配,即为:
同理,即可得文本2中特征词汇集合的降维向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610864853.9A CN106610951A (zh) | 2016-09-29 | 2016-09-29 | 改进的基于语义分析的文本相似度求解算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610864853.9A CN106610951A (zh) | 2016-09-29 | 2016-09-29 | 改进的基于语义分析的文本相似度求解算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106610951A true CN106610951A (zh) | 2017-05-03 |
Family
ID=58615303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610864853.9A Pending CN106610951A (zh) | 2016-09-29 | 2016-09-29 | 改进的基于语义分析的文本相似度求解算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106610951A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291808A (zh) * | 2017-05-16 | 2017-10-24 | 南京邮电大学 | 一种基于语义的云制造大数据分类方法 |
CN107943965A (zh) * | 2017-11-27 | 2018-04-20 | 福建中金在线信息科技有限公司 | 相似文章检索方法及装置 |
CN108153730A (zh) * | 2017-12-25 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种多义词词向量训练方法及装置 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109165291A (zh) * | 2018-06-29 | 2019-01-08 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
WO2019056692A1 (zh) * | 2017-09-25 | 2019-03-28 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN109697452A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 数据对象的处理方法、处理装置及处理*** |
CN110222192A (zh) * | 2019-05-20 | 2019-09-10 | 国网电子商务有限公司 | 语料库建立方法及装置 |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110309263A (zh) * | 2019-06-06 | 2019-10-08 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
CN110874392A (zh) * | 2019-11-20 | 2020-03-10 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN112231439A (zh) * | 2020-09-27 | 2021-01-15 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种文本语义分析与特征值提取的方法 |
CN112348535A (zh) * | 2020-11-04 | 2021-02-09 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及*** |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN115858765A (zh) * | 2023-01-08 | 2023-03-28 | 山东谷联网络技术有限公司 | 一种基于数据对比分析的自动评分的智能考试平台 |
CN115905506A (zh) * | 2023-02-21 | 2023-04-04 | 江西省科技事务中心 | 基础理论文件推送方法、***、计算机及可读存储介质 |
CN117725146A (zh) * | 2023-12-22 | 2024-03-19 | 中信出版集团股份有限公司 | 一种基于人工智能的网络信息加工处理***和方法 |
-
2016
- 2016-09-29 CN CN201610864853.9A patent/CN106610951A/zh active Pending
Non-Patent Citations (3)
Title |
---|
BECK_ZHOU: ""中文分词语言模型和动态规划"", 《CSDN博客HTTPS://BLOG.CSDN.BET/ZHOUBL668/ARTICLE/DETAILS/68964》 * |
刘景方 等: ""一种改进的本体概念语义相似度算法研究"", 《武汉理工大学学报》 * |
蒋健洪 等: ""词典与统计方法结合的中文分词模型研究及应用"", 《计算机工程与设计》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291808A (zh) * | 2017-05-16 | 2017-10-24 | 南京邮电大学 | 一种基于语义的云制造大数据分类方法 |
WO2019056692A1 (zh) * | 2017-09-25 | 2019-03-28 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN109697452A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 数据对象的处理方法、处理装置及处理*** |
CN107943965A (zh) * | 2017-11-27 | 2018-04-20 | 福建中金在线信息科技有限公司 | 相似文章检索方法及装置 |
CN108153730A (zh) * | 2017-12-25 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种多义词词向量训练方法及装置 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109165291B (zh) * | 2018-06-29 | 2021-07-09 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
CN109165291A (zh) * | 2018-06-29 | 2019-01-08 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110232185B (zh) * | 2019-01-07 | 2023-09-19 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110222192A (zh) * | 2019-05-20 | 2019-09-10 | 国网电子商务有限公司 | 语料库建立方法及装置 |
CN110309263A (zh) * | 2019-06-06 | 2019-10-08 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
CN110874392A (zh) * | 2019-11-20 | 2020-03-10 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN110874392B (zh) * | 2019-11-20 | 2023-10-24 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN112231439A (zh) * | 2020-09-27 | 2021-01-15 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种文本语义分析与特征值提取的方法 |
CN112348535A (zh) * | 2020-11-04 | 2021-02-09 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及*** |
CN112348535B (zh) * | 2020-11-04 | 2023-09-12 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及*** |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN112580352B (zh) * | 2021-03-01 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN115858765A (zh) * | 2023-01-08 | 2023-03-28 | 山东谷联网络技术有限公司 | 一种基于数据对比分析的自动评分的智能考试平台 |
CN115905506A (zh) * | 2023-02-21 | 2023-04-04 | 江西省科技事务中心 | 基础理论文件推送方法、***、计算机及可读存储介质 |
CN117725146A (zh) * | 2023-12-22 | 2024-03-19 | 中信出版集团股份有限公司 | 一种基于人工智能的网络信息加工处理***和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN106570112A (zh) | 基于改进的蚁群算法实现文本聚类 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
Rahimi et al. | An overview on extractive text summarization | |
CN106528621A (zh) | 一种改进的密度文本聚类算法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN106598941A (zh) | 一种全局优化文本关键词质量的算法 | |
CN106610954A (zh) | 基于统计学的文本特征词汇提取方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN106610952A (zh) | 一种混合的文本特征词汇提取方法 | |
CN106610953A (zh) | 基于基尼指数求解文本相似度的方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
Gupta | Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN107038155A (zh) | 基于改进的小世界网络模型实现文本特征的提取方法 | |
CN107092595A (zh) | 新的关键词提取技术 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和*** | |
CN107102986A (zh) | 文档中多主题的关键词提取技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |