CN108549634A - 一种中文专利文本相似度计算方法 - Google Patents

一种中文专利文本相似度计算方法 Download PDF

Info

Publication number
CN108549634A
CN108549634A CN201810310198.1A CN201810310198A CN108549634A CN 108549634 A CN108549634 A CN 108549634A CN 201810310198 A CN201810310198 A CN 201810310198A CN 108549634 A CN108549634 A CN 108549634A
Authority
CN
China
Prior art keywords
sentence
similarity
word
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810310198.1A
Other languages
English (en)
Inventor
吕学强
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201810310198.1A priority Critical patent/CN108549634A/zh
Publication of CN108549634A publication Critical patent/CN108549634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种中文专利文本相似度计算方法,包括:对文本进行分词;对分词结果计算TF‑IDF值,抽取TF‑IDF值较高的作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本的关键句,基于关键句的句子相似度计算文本的相似度。本发明利用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领域本体来进行专利文本相似度的计算,计算结果的正确率和召回率较高,能够更准确地描述专利之间的相似程度,能够加快专利审查的速度,可以很好地满足实际应用的需要。

Description

一种中文专利文本相似度计算方法
技术领域
本发明属于文本信息处理技术领域,具体涉及一种中文专利文本相似度计 算方法。
背景技术
当今互联网时代,专利作为记录人类成果的载体,包含了大量的科技成果 和创新技术。科学技术的快速发展使得每年的专利申请量急剧增加。传统的检 索方式通过检索词进行匹配返回的结果,一般是以检索词出现的数量作为专利 的相关性,并没有考虑到专利本身所包含的语义信息。专利审查的本质是审查 专利相似度高的相关专利,这其中,最重要的一点就是计算专利文本相似度。 文本相似度,一般计算方法是利用向量空间模型对文本表示,之后直接在向量 空间中计算向量相似度作为文本相似度。近些年,本体,作为一种新的知识表 示和描述形式,被广泛应用到语义网、信息检索等各方面,越来越多的研究者开始重视使用本体来进行语义分析。
文本相似度方法主要可以分为两类:一种是利用向量空间模型将文本转化 成向量的形式,再进行计算,一种是利用语义词典法表示不同长短文本之间的 联系,通过关键词匹配数量来反映文本间的相似度。现有技术的计算中文专利 文本的相似度的方法存在语义信息丢失的问题,且现有技术对中文文本相似度 的计算不准确,计算结果的正确率和召回率较低,不能准确反映专利文本的相 似度,不能满足实际应用的需要。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的中文专利文本相似度计算方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种中文专利文本相似度计算方法,包括计算句子相似度的步骤。
进一步地,所述计算方法包括:
对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为 关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值 作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的 权重,依次选取待对比文本和对比文本的关键句。
进一步地,将词语相似度转化为概念在本体中的相似度来计算;概念在本 体中的相似度计算公式为:
其中w1和w2表示两个词语,dis(w1,w2)表示w1和w2在领域本体中的语义距离。
进一步地,加入最小公共父节点位置和节点局部密度,概念在本体中的相 似度计算公式为:
其中r表示树的根节点,com表示w1和w2的最小公共父节点,dis(r,com)表示 最小公共父节点的深度,num(w1)表示w1节点的兄弟节点个数。
进一步地,基于word2vec计算词语相似度,CBOW模型的输入层为当前 词的前后n个词向量,通过中间的隐层对这2n个词向量进行累加得到Wx;输 出层为一个Huffman树,是由语料库中的词作为叶子节点,各词的频次作为权 值来构建的;通过随机梯度算法对Wx进行预测,使得p(w|context(w))值最大化, context(w)指w的前后的n个词;通过word2vec对语料进行训练,得到所有词的 词向量;计算词语之间的相似度就转化为计算词语对应词向量的相似度,计算 公式为:
其中w1和w2分别为两个词语经过训练后得到的词向量;x1i和x2i分别表示 两个词语的词向量对应的在向量空间中第i维的值。
进一步地,利用本体和word2vec分别计算出两种词语相似度simow(w1,w2)和 simrw(w1,w2),结合得到词语相似度,公式为:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集 合,则将利用word2vec得到的相似度作为词语相似度,若两者均属于本体概念 集合,则取本体词语相似度和word2vec词语相似度平均值作为最终的词语相似 度。
进一步地,句子相似度计算方法如下:
假设有两个句子分别为S1=(w11,w12,...,w1n)和S2=(w21,w22,...,w2m),其中w11,w12,w21,w22为句子经过分词并去停用词后得到的实词,定义(w1i,w2j)为句子S1和S2词的一个映射,如果对于任意k、l,simw(w1i,w2j)>simw(w1k,w2l)恒成立, 那么就认为在两个句子中w1i和w2j是语义关系最为相近的词对,得到一组语义关 系最为相近的词对后,分别从两个句子中去除该词,并重新计算,直到其中一 个句子词表中不存在词语,其计算公式为:
simws(S1,S2)表示S2相对于S1所得的实体词相似度。
进一步地,利用专利领域本体的非分类关系为基础计算句子中的关系相似 度,步骤如下:
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅 保留动词词性、名词词性的词语,得到两个句子的有序词表,定义第一个句子 的有序词表为S1(w11:pos11,w12:pos12,...,w1n:pos1n),将另一个句子的有序 词表定义为S2(w21:pos21,w22:pos22,...,w2m:pos2m);对每一个句子的词 表,选取其中的动词和在其前后的名词构成SAO结构词组P(n1,v,n2);将每个 句子的有序词表转化为词组集合S1=(P11,P12,...,P1n)和S2=(P21,P22,...,P2m),得到 非分类关系集合,假设已有的非分类关系集合为NR(r1,r2,...,rl),rl为非分类 集合中的一个具有SAO结构的词组;通过计算两个句子词组集合在非分类关系 集合NR中出现的次数计算句子的非分类关系相似度,其计算公式为:
其中,num(S1)表示S1集合中的词组属于非分类关系集合NR的个数, com(S1,S2)表示句子词组集合S1和S2的交集,表示S1和S2的共有词组集合。
句子之间总体相似度的计算公式为
sims(S1,S2)=βsimws(S1,S2)+(1-β)simps(S1,S2),
其中β表示实体词相似度在句子相似度中所占的比重,sims(S1,S2)表示S2相 对于S1的句子相似度。
进一步地,在已有的词语相似度和句子相似度的基础上计算文本相似度, 步骤为:
首先对文本进行分词,之后对分词结果计算TF-IDF值,抽取TF-IDF值较 高的作为关键词,定位关键词所在的句子作为关键句;计算每个关键句的对文 本的权重;选取关键句所包含的关键词集合中TF-IDF值最大的关键词,并将 该词的权值作为关键句的权重w(S),最后得到两个文本的句子集合,令
D1(S11:w(S11),S12:w(S12),...,S1n:w(S1n))表示文本D1的句子集合, D2(S21:w(S21),S22:w(S22),...,S2m:w(S2m))表示D2的句子集合;
定义(S1i,S2j)为两个文本中的一组句子对应,若对于任意的l、k, sims(S1i,S2j)≥sims(S1l,S2k)恒成立,则认为S1i和S2j是两个文本中关系最为 紧密的句子,其中sims(S1i,S2j)通过句子相似度进行计算得出。
进一步地,两个文本D1和D2的相似度计算公式为:
其中,sims(S1i,S1j)代表句子词组集合S1i与句子词组集合S1j之间的总体相 似度,w(S1i)代表句子词组集合S1i的关键句的权重,w(S1j)代表句子词组集合 S1j的关键句的权重。
本发明提供的中文专利文本相似度计算方法,提出了一种层次化计算文本 相似度的方法,将文本相似度的计算分为词语、句子、文本三个层面,从下向 上进行计算,该方法以句子为粒度对文本相似度进行计算,利用已有领域本体 和word2vec结合计算词语相似度,并在计算句子相似度时加入了根据非分类关 系得到的关系相似度,最后根据不同句子的权重来计算文本相似度;本发明利 用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领 域本体来进行专利文本相似度的计算,计算结果准确,计算结果的正确率和召 回率较高,能够更准确地描述专利之间的相似程度,能够加快专利审查的速度, 同时对用户来说也能够更加有效地对专利资源进行分析,可以很好地满足实际 应用的需要。
附图说明
图1为CBOW模型图;
图2为Skip-gram模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保 护的范围。
词语相似度是指词语之间语义相似性的一种度量。词语在领域本体中以概 念的方式呈现出来,词语的相似度计算就可以转化为概念在本体中的相似度计 算。采用已有的领域本体,为了避免领域本体中不包含的词语无法计算相似度 的问题,引入word2vec与本体相结合计算词语的相似度。
(1)基于本体计算词语相似度
领域本体中包含的概念通过上下位的分类关系构成了一个树状的层次结 构,概念间的相似度可以通过计算概念在本体树中的语义距离得到。寻找两个 概念的最小公共父节点,计算其最小公共父节点到两个概念之间的距离之和作 为概念在本体中的语义距离。
相似度计算公式为:
其中w1和w2表示两个词语,dis(w1,w2)表示w1和w2在领域本体中的语义距离。
词语间的相似度,不仅仅与概念间语义距离有关,还与其最小公共父节点 在领域本体构建的树中的位置和概念周围兄弟节点个数有关。在概念间语义距 离相同的情况下,其最小公共父节点在树中的层次越深,词语的相似度就越大。 同样地,词语对应的概念周围的兄弟节点越多,局部密度越大,那么说明该概 念节点细化程度越大,词语的相似度就越大。加入最小公共父节点位置和节点 局部密度后计算公式如下:
其中r表示树的根节点,com表示w1和w2的最小公共父节点,dis(r,com)表示 最小公共父节点的深度,num(w1)表示w1节点的兄弟节点个数。
(2)基于word2vec计算词语相似度
word2vec是Google的一款能够将词语转化为实数值向量的开源工具,其利 用深度学习的思想,可以通过训练,把词语简化为K维向量空间中的一个向量, 这样词语语义上的相似度就可以转化为词向量的运算。
word2vec使用的是Hinton在1986年提出的Distributed representation的词 向量表示方式,其基本思想是利用训练模型将词语映射到一个K维的向量空间, 每个词语都可以由一个K维的向量表示。K是超参数,需要提前指定。将词语 转化为向量表示后,就可以利用计算向量间的距离来表示词语之间的语义相似 度。word2vec有CBOW模型(ContinuousBag-of-Words Model)和Skip-gram 模型,两种模型结构如图1和图2所示。其中CBOW模型利用当前词的上下文 中的2n个词(图1中n为2)去预测当前词,Skip-gram模型则是利用当前词 预测其上下文中的2n个词(图2中n为2)。
CBOW模型的输入层为当前词的前后n个词向量,通过中间的隐层对这2n 个词向量进行累加得到Wx。输出层为一个Huffman树,是由语料库中的词作为 叶子节点,各词的频次作为权值来构建的。通过随机梯度算法对Wx进行预测, 使得p(w|context(w))值最大化,context(w)指w的前后的n个词。当训练完成时, 便可以得到所有的词的词向量w。Skip-gram模型的训练过程与CBOW模型训 练过程类似。
通过word2vec对语料进行训练,得到所有词的词向量。计算词语之间的相 似度就转化为计算词语对应词向量的相似度。一般对于空间向量相似度的计算 可以采用余弦相似度算法,具体算法如下:
其中w1和w2分别为两个词语经过训练后得到的词向量。x1i和x2i分别表示 两个词语的词向量对应的在向量空间中第i维的值。
(3)词语相似度
利用本体和word2vec分别计算出两种词语相似度simow(w1,w2)和 simrw(w1,w2),结合得到词语相似度,公式如下:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集 合,则将利用word2vec得到的相似度作为词语相似度,若两者均属于本体概念 集合,则取本体词语相似度和word2vec词语相似度平均值作为最终的词语相似 度。
句子相似度计算,一般以文本中有意义的实词为主,通过计算实词间的词 语相似度得到句子相似度。在本发明中以公式(4)描述的词语相似度与专利领域 本体的非分类关系为基础来计算句子相似度。
假设有两个句子分别为S1=(w11,w12,...,w1n)和S2=(w21,w22,...,w2m)。其中w11,w12,w21,w22为句子经过分词并去停用词后得到的实词。定义(w1i,w2j)为句子S1和S2词的一个映射,如果对于任意k、l,simw(w1i,w2j)>simw(w1k,w2l)恒成立, simw(w1i,w2j)由公式(4)计算得到。那么就认为在两个句子中w1i和w2j是语义关系 最为相近的词对,得到一组语义关系最为相近的词对后,分别从两个句子中去 除该词,并重新计算,直到其中一个句子词表中不存在词语,其计算公式如下:
由于句子的长短不同,两个句子共有的相近词对组对于每个句子的相似度 是不同的,本发明以simws(S1,S2)表示S2相对于S1所得的实体词相似度。
上式只关注了两个句子中最为相近的实体词的相似度,但并没有考虑句子 中语义相近的词组的相似度。利用专利领域本体的非分类关系为基础,计算句 子中的关系相似度。
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅 保留动词词性,名词词性的词语。得到两个句子的有序词表,定义第一个句子 的有序词表为S1(w11:pos11,w12:pos12,...,w1n:pos1n),同样地,将另一个句 子的有序词表定义为S2(w21:pos21,w22:pos22,...,w2m:pos2m)。对每一个 句子的词表,选取其中的动词和在其前后的名词构成SAO结构词组 P(n1,v,n2)。将每个句子的有序词表转化为词组集合S1=(P11,P12,...,P1n)和 S2=(P21,P22,...,P2m)。得到非分类关系集合,假设已有的非分类关系集合为 NR(r1,r2,...,rl),rl为非分类集合中的一个具有SAO结构的词组。通过计算 两个句子词组集合在非分类关系集合NR中出现的次数计算句子的非分类关系 相似度。其计算公式如下:
其中,num(S1)表示S1集合中的词组属于非分类关系集合NR的个数, com(S1,S2)表示句子词组集合S1和S2的交集,表示S1和S2的共有词组集合。
根据公式(5)得到的实体词相似度和公式(6)得到的非分类关系相似度,得到 句子之间总体相似度,计算方法如公式(7)所示。
sims(S1,S2)=βsimws(S1,S2)+(1-β)simps(S1,S2) (7),
其中β表示实体词相似度在句子相似度中所占的比重,sims(S1,S2)表示S2相 对于S1的句子相似度。
在已有的词语相似度和句子相似度的基础上计算文本相似度。对于文本来 说,并不是所有的词语和句子都与文本表达的主要含义相关,关键词和关键词 所在的关键句子更能够表达文本的含义,其他的主要起到连接的功能。在计算 文本相似度的过程中,通过计算关键词和关键句的相似度得到的结果,与两个 文档本身表达的含义有极其密切的联系,能够更加准确地表示文本间的相似性。
选取文本中的关键词时,需要计算文本中每一个词对与文本的重要程度, 一般采用词频-逆文档频率(Term frequency-Inverse document frequency),即 TF-IDF计算方法,该方法计算相对较为简单且有较高的正确率和召回率,在计 算权重中被广泛使用。在一个文本中某个词语出现的频率越高,该词在其他文 本中出现的频率越低,那么该词就越能代表这个文本中的主题,对这个文本的 重要程度就越高。
计算文本相似度时,首先对文本进行分词,之后对分词结果计算TF-IDF值, 抽取TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句。不同 的关键句包含不同的关键词,由于包含关键词的数量和权重本身的不同,每个 关键句对文本的重要程度也不一样,需要计算每个关键句的对文本的权重。每 个关键句对于文本的重要程度主要依赖于其包含的关键词,选取关键句所包含 的关键词集合中TF-IDF值最大的关键词,并将该词的权值作为关键句的权重 w(S)。最后得到两个文本的句子集合,令
D1(S11:w(S11),S12:w(S12),...,S1n:w(S1n))表示文本D1的句子集合,D2(S21:w(S21),S22:w(S22),...,S2m:w(S2m))表示D2的句子集合。
定义(S1i,S2j)为两个文本中的一组句子对应,若对于任意的l、k, sims(S1i,S2j)≥sims(S1l,S2k)恒成立,则认为S1i和S2j是两个文本中关系最为 紧密的句子,其中sims(S1i,S2j)通过句子相似度进行计算得出。
与句子相似度计算相似,由于两个文本的句子数目不同,计算两个文本中 相似度最相近的句子对集合对于不同的文本所得到的相似度是不同的,以 sim(D1,D2)表示以D1为基准,D2相对于D1的文本相似度。
两个文本的相似度计算公式如下所示:
上式不仅涉及两个文本中所有的关键句,还考虑了关键句对于整个文档的 一个重要程度,能够很好地反映文本之间的相似度。
本实施例采用已有的新能源汽车领域本体,采用的语料是新能源汽车领域 中文专利同一类别下的50篇专利文本。
选取其中一篇专利作为待对比文本N,其他所有专利作为对比文本D,利 用本发明的中文专利文本相似度计算方法,计算中文专利文本相似度,具体步 骤如下:
1)对所有专利文本进行分句处理;
2)通过Hanlp工具,加入新能源领域汽车领域词典,对分句后的结果进行 分词,并保留每个词语的词性,利用停用词表去除停用词;
3)计算所有专利文本的TF-IDF值并将其由大到小排列,取排前20名的词 语作为关键词,并根据关键词,标记关键词所在的关键句,并将关键句中关键 词最大的权值作为关键句的权值,得到每个文本的关键句集合 D(S1:w(S1),S2:w(S2),...,Sn:w(Sn));
4)依次选取待对比文本N和对比文本D的关键句,并依照句子相似度算法 和词语相似度算法计算实体词相似度和关系相似度;
5)利用已有的两个文本N和D的句子相似度计算两个文本的相似度。
对于文本相似度计算方法的性能评价一般采用正确率(P)、召回率(R)和F值作为性能评价指标。定义T(t)表示标注值为t的数量,C(t)表示计算的文本 相似度的值在t所表示的范围的数量,TC(t)表示标注值为t且计算值在t表示 范围内的数量。具体的评价指标定义如下:
正确率P:
召回率R:
F值:
通过本发明的方法得到的中文专利文本相似度计算结果的正确率、召回率 和F值都很高,远高于现有技术的计算结果的正确率、召回率和F值。
本发明提供的中文专利文本相似度计算方法,提出了一种层次化计算文本 相似度的方法,将文本相似度的计算分为词语、句子、文本三个层面,从下向 上进行计算,该方法以句子为粒度对文本相似度进行计算,利用已有领域本体 和word2vec结合计算词语相似度,并在计算句子相似度时加入了根据非分类关 系得到的关系相似度,最后根据不同句子的权重来计算文本相似度;本发明利 用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领 域本体来进行专利文本相似度的计算,计算结果准确,计算结果的正确率和召 回率较高,使得文本间相关性的描述更加准确,能够更准确地描述专利之间的 相似程度,能够加快专利审查的速度,同时对用户来说也能够更加有效地对专 利资源进行分析,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。

Claims (10)

1.一种中文专利文本相似度计算方法,其特征在于,包括计算句子相似度的步骤。
2.根据权利要求1所述的中文专利文本相似度计算方法,其特征在于,所述计算方法包括:
对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本的关键句。
3.根据权利要求1-2所述的中文专利文本相似度计算方法,其特征在于,将词语相似度转化为概念在本体中的相似度来计算;概念在本体中的相似度计算公式为:
其中w1和w2表示两个词语,dis(w1,w2)表示w1和w2在领域本体中的语义距离。
4.根据权利要求1-3所述的中文专利文本相似度计算方法,其特征在于,加入最小公共父节点位置和节点局部密度,概念在本体中的相似度计算公式为:
其中r表示树的根节点,com表示w1和w2的最小公共父节点,dis(r,com)表示最小公共父节点的深度,num(w1)表示w1节点的兄弟节点个数。
5.根据权利要求1-4所述的中文专利文本相似度计算方法,其特征在于,基于word2vec计算词语相似度,CBOW模型的输入层为当前词的前后n个词向量,通过中间的隐层对这2n个词向量进行累加得到Wx;输出层为一个Huffman树,是由语料库中的词作为叶子节点,各词的频次作为权值来构建的;通过随机梯度算法对Wx进行预测,使得p(w|context(w))值最大化,context(w)指w的前后的n个词;通过word2vec对语料进行训练,得到所有词的词向量;计算词语之间的相似度就转化为计算词语对应词向量的相似度,计算公式为:
其中w1和w2分别为两个词语经过训练后得到的词向量;x1i和x2i分别表示两个词语的词向量对应的在向量空间中第i维的值。
6.根据权利要求1-5所述的中文专利文本相似度计算方法,其特征在于,利用本体和word2vec分别计算出两种词语相似度simow(w1,w2)和simrw(w1,w2),结合得到词语相似度,公式为:
其中S表示本体中的概念集合,如果两个词语中有一个不属于本体概念集合,则将利用word2vec得到的相似度作为词语相似度,若两者均属于本体概念集合,则取本体词语相似度和word2vec词语相似度平均值作为最终的词语相似度。
7.根据权利要求1-6所述的中文专利文本相似度计算方法,其特征在于,句子相似度计算方法如下:
假设有两个句子分别为S1=(w11,w12,...,w1n)和S2=(w21,w22,...,w2m),其中w11,w12,w21,w22为句子经过分词并去停用词后得到的实词,定义(w1i,w2j)为句子S1和S2词的一个映射,如果对于任意k、l,simw(w1i,w2j)>simw(w1k,w2l)恒成立,那么就认为在两个句子中w1i和w2j是语义关系最为相近的词对,得到一组语义关系最为相近的词对后,分别从两个句子中去除该词,并重新计算,直到其中一个句子词表中不存在词语,其计算公式为:
simws(S1,S2)表示S2相对于S1所得的实体词相似度。
8.根据权利要求1-7所述的中文专利文本相似度计算方法,其特征在于,利用专利领域本体的非分类关系为基础计算句子中的关系相似度,步骤如下:
对两个句子进行词性标注,利用停用词表去除停用词,去除其他词性,仅保留动词词性、名词词性的词语,得到两个句子的有序词表,定义第一个句子的有序词表为S1(w11:pos11,w12:pos12,...,w1n:pos1n),将另一个句子的有序词表定义为S2(w21:pos21,w22:pos22,...,w2m:pos2m);对每一个句子的词表,选取其中的动词和在其前后的名词构成SAO结构词组P(n1,v,n2);将每个句子的有序词表转化为词组集合S1=(P11,P12,...,P1n)和S2=(P21,P22,...,P2m),得到非分类关系集合,假设已有的非分类关系集合为NR(r1,r2,...,rl),rl为非分类集合中的一个具有SAO结构的词组;通过计算两个句子词组集合在非分类关系集合NR中出现的次数计算句子的非分类关系相似度,其计算公式为:
其中,num(S1)表示S1集合中的词组属于非分类关系集合NR的个数,com(S1,S2)表示句子词组集合S1和S2的交集,表示S1和S2的共有词组集合。
句子之间总体相似度的计算公式为
sims(S1,S2)=βsimws(S1,S2)+(1-β)simps(S1,S2),
其中β表示实体词相似度在句子相似度中所占的比重,sims(S1,S2)表示S2相对于S1的句子相似度。
9.根据权利要求1-8所述的中文专利文本相似度计算方法,其特征在于,在已有的词语相似度和句子相似度的基础上计算文本相似度,步骤为:
首先对文本进行分词,之后对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句;计算每个关键句的对文本的权重;选取关键句所包含的关键词集合中TF-IDF值最大的关键词,并将该词的权值作为关键句的权重w(S),最后得到两个文本的句子集合,令
D1(S11:w(S11),S12:w(S12),...,S1n:w(S1n))表示文本D1的句子集合,D2(S21:w(S21),S22:w(S22),...,S2m:w(S2m))表示D2的句子集合;
定义(S1i,S2j)为两个文本中的一组句子对应,若对于任意的l、k,sims(S1i,S2j)≥sims(S1l,S2k)恒成立,则认为S1i和S2j是两个文本中关系最为紧密的句子,其中sims(S1i,S2j)通过句子相似度进行计算得出。
10.根据权利要求1-9所述的中文专利文本相似度计算方法,其特征在于,两个文本D1和D2的相似度计算公式为:
其中,sims(S1i,S1j)代表句子词组集合S1i与句子词组集合S1j之间的总体相似度,w(S1i)代表句子词组集合S1i的关键句的权重,w(S1j)代表句子词组集合S1j的关键句的权重。
CN201810310198.1A 2018-04-09 2018-04-09 一种中文专利文本相似度计算方法 Pending CN108549634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810310198.1A CN108549634A (zh) 2018-04-09 2018-04-09 一种中文专利文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810310198.1A CN108549634A (zh) 2018-04-09 2018-04-09 一种中文专利文本相似度计算方法

Publications (1)

Publication Number Publication Date
CN108549634A true CN108549634A (zh) 2018-09-18

Family

ID=63514291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810310198.1A Pending CN108549634A (zh) 2018-04-09 2018-04-09 一种中文专利文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN108549634A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及***
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110297918A (zh) * 2019-06-25 2019-10-01 深圳市酷开网络科技有限公司 一种计算影视内容相关程度的方法、智能终端及存储介质
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN110457435A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利新颖性分析***及其分析方法
CN110516216A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作模板库构建方法
CN110532396A (zh) * 2019-06-11 2019-12-03 福建奇点时空数字科技有限公司 一种基于空间向量模型的实体相似度计算方法
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及***
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111767724A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种文本相似度计算方法及***
CN111814456A (zh) * 2020-05-25 2020-10-23 国网上海市电力公司 一种基于动词的中文文本相似度计算方法
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN112163418A (zh) * 2020-08-31 2021-01-01 深圳市修远文化创意有限公司 一种文本比对方法及相关装置
CN112380830A (zh) * 2020-06-18 2021-02-19 达而观信息科技(上海)有限公司 不同文档中相关句子的匹配方法、***和计算机可读存储介质
CN115563515A (zh) * 2022-12-07 2023-01-03 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250547A1 (en) * 2001-08-13 2010-09-30 Xerox Corporation System for Automatically Generating Queries
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250547A1 (en) * 2001-08-13 2010-09-30 Xerox Corporation System for Automatically Generating Queries
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI LU等: "Joint semantic similarity assessment with raw corpus and structured ontology for semantic-oriented service discovery", 《PERSONAL AND UBIQUITOUS COMPUTING》 *
王晋 等: "基于领域本体的文本相似度算法", 《苏州大学学报(工科版)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及***
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN109657213B (zh) * 2018-12-21 2023-07-28 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及***
CN110516216A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作模板库构建方法
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110134792B (zh) * 2019-05-22 2022-03-08 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN110532396A (zh) * 2019-06-11 2019-12-03 福建奇点时空数字科技有限公司 一种基于空间向量模型的实体相似度计算方法
CN110209822B (zh) * 2019-06-11 2021-12-21 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110297918A (zh) * 2019-06-25 2019-10-01 深圳市酷开网络科技有限公司 一种计算影视内容相关程度的方法、智能终端及存储介质
CN110457435A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利新颖性分析***及其分析方法
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111814456A (zh) * 2020-05-25 2020-10-23 国网上海市电力公司 一种基于动词的中文文本相似度计算方法
CN111767724A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种文本相似度计算方法及***
CN112380830A (zh) * 2020-06-18 2021-02-19 达而观信息科技(上海)有限公司 不同文档中相关句子的匹配方法、***和计算机可读存储介质
CN112380830B (zh) * 2020-06-18 2024-05-17 达观数据有限公司 不同文档中相关句子的匹配方法、***和计算机可读存储介质
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN112163418A (zh) * 2020-08-31 2021-01-01 深圳市修远文化创意有限公司 一种文本比对方法及相关装置
CN115563515A (zh) * 2022-12-07 2023-01-03 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108549634A (zh) 一种中文专利文本相似度计算方法
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
US10867256B2 (en) Method and system to provide related data
CN107229610A (zh) 一种情感数据的分析方法及装置
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
Wang et al. Common sense knowledge for handwritten chinese text recognition
CN109190117A (zh) 一种基于词向量的短文本语义相似度计算方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
WO2020005601A1 (en) Semantic parsing of natural language query
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及***
CN110134925A (zh) 一种中文专利文本相似度计算方法
CN109408802A (zh) 一种提升句向量语义的方法、***及存储介质
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
Toshevska et al. Comparative analysis of word embeddings for capturing word similarities
CN116304748B (zh) 一种文本相似度计算方法、***、设备及介质
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN114997288A (zh) 一种设计资源关联方法
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN114757184B (zh) 实现航空领域知识问答的方法和***
Song et al. Improving embedding-based unsupervised keyphrase extraction by incorporating structural information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180918