CN106610942A - 一种基于上下文窗口的词语语义相似度求解方法 - Google Patents
一种基于上下文窗口的词语语义相似度求解方法 Download PDFInfo
- Publication number
- CN106610942A CN106610942A CN201610833572.7A CN201610833572A CN106610942A CN 106610942 A CN106610942 A CN 106610942A CN 201610833572 A CN201610833572 A CN 201610833572A CN 106610942 A CN106610942 A CN 106610942A
- Authority
- CN
- China
- Prior art keywords
- context
- word
- window
- compared
- contextual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于上下文窗口的词语语义相似度求解方法,在统计方法模块中输入待比较词,确定待比较词的上下文范围,找出范围内权重最大的两句子,计算两句子之间的相似度,最后通过句子的相似度求解出待比较词的相似度。本发明对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足;上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识;权重贡献值线性与信噪比要更好,易于后续计算简便;权重贡献值归一化曲线准确率更高;考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响;应用基于上下文窗口技术求解词语语义相似度得以实现,计算精度、准确度都更高。
Description
技术领域
本发明涉及语义网络技术领域,具体涉及一种基于上下文窗口的词语语义相似度求解方法。
背景技术
自从进入21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类:第一,基于语义词典的词语语义相似度计算方法,这种方法简单有效、易于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典;第二,基于语料库的词语语义相似度计算方法,这种方法利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础,但上下文“窗口”开多大为宜,为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,以及实现词语语义相似度的量化计算,本发明提供了一种基于上下文窗口的词语语义相似度求解方法。
发明内容
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,为实现词语语义相似度的量化计算,本发明提供了一种基于上下文窗口的词语语义相似度求解方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化统计方法模块。
步骤2:将待比较词C∈(c1,c2)输入初始化统计方法模块中。
步骤3:分别确定待比较词C∈(c1,c2)的上下文词语范围“窗口”。
步骤4:根据步骤3得到的上下文词范围,分别找到待比较词C∈(c1,c2)所对应的权重最大的两句子maxweight(C∈(c1,c2))。
步骤5:计算这两句子maxweight(C∈(c1,c2))的相似度
步骤6:由步骤5得到的两句子相似度计算待比较词(c1,c2)的相似度sim(c1,c2)。
本发明有益效果是:
1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足。
2、上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识。
4、权重贡献值weight(C,Cij∈(1,2,…2n))的线性与信噪比要更好,易于后续计算简便。
5、权重贡献值weight(C,Cij∈(1,2,…2n))的归一化曲线准确率更高
6、考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。
7、应用基于上下文窗口技术求解词语语义相似度得以实现,计算精度、准确度都更高。
附图说明
表1为-j映射到weight(C,Cij∈(1,2,…2n))的离散表格。
图1为一种基于上下文窗口的词语语义相似度求解方法构造流程图。
图2为上下文位置权重贡献值离散图与归一化处理后的连续函数f(-j)曲线。
具体实施方式
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,为实现词语语义相似度的量化计算,结合图1对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化统计方法模块
步骤2:将待比较词C∈(c1,c2)输入初始化统计方法模块中。
步骤3:分别确定待比较词C∈(c1,c2)的上下文词语范围“窗口”,需先求出位置信息Jsx、上下文位置权重值weight(C,Cij∈(1,2,…2n)),其具体计算过程如下:
3.1)先假设待比较词C∈(c1,c2)上下文语境的位置信息Jsx
从语料中提取每个待比较词C∈(c1,c2)上下文左右各n个位置的上下文词语构成其“待比较词上下文矩阵Jsx”,其矩阵如下所示:
上式矩阵行i∈(1,2,…,m),i为第i个上下文语境,列j∈(1,2,…,n)为C∈(c1,c2)上下文左边n个位置,列j∈(n+1,n+2,…,n+n)为C∈(c1,c2)上下文右边n个位置。Cij为第i个上下文语境中第j个位置词。
3.2)计算每个上下文位置对待比较词C∈(c1,c2)的权重weight(C,Cij∈(1,2,…2n))
上式weight(C,Cij∈(1,2,…2n))分别为第i语境中位置为j时的上下文词对关键词的权重贡献值,p(C/Cij∈(1,2,…2n)为每个上下文位置已知对应的关键词C的条件统计概率,fre(C,Cij∈(1,2,…2n))为上下文位置词与C共现的概率,T为语料或文本中所有出现词的总个数,这些都可以基于语料库很容易统计出。
3.3)对待比较词C∈(c1,c2)语境中上下文词位置权重值weight(C,Cij∈(1,2,…2n))进行归一化曲线处理,其具体描述过程如下:
3.3.1)先对待比较词语境中的上下文词位置j进行归一化处理以待比较词C∈(c1,c2)为原点,上下文词位置距离待比较词的相对距离如下式:
上式左边位置相对距离为负值,右边位置相对距离为正值。
3.3.2)利用相对误差法对误差点丢弃
上述左右位置相对距离d为自变量横坐标x,根据上述步骤3得到的为对应weight(C,Cij∈(1,2,…2n))为纵坐标值,其为一离散图,连接一条包含点最多的直线——即参考直线,如下:
ax+by+c=0
计算不在这条直线上的点(x′,y′)到它的距离:
设置误差边界条件:d>θ
当满足上述边界条件则丢弃这一点(x′,y′),反之,连接成曲线。
3.3.3)归一化曲线
根据自变量横坐标d可得两条曲线,即f(-j)、f(j′-n)。
例如:
表1
上下文位置(-j) | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 |
weight(C,Cij∈(1,2,…2n)) | 2.18 | 1.99 | 1.87 | 1.77 | 1.60 | 1.50 | 1.30 | 1.20 | 1.10 |
其曲线如图2所示
根据图2中的数据可得令x=-j f(-j)=ax3+bx2+cx+d
同理可得令x′=j′-n f(j′-n)=a′(x′)3+b′(x′)2+c′x′+d′
3.4)基于上下文信息损失量计算关键词语境中上下文窗口的左右窗口n值,其具体计算过程如下:
上式P左为左边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定左边窗口的n值。
同理右边窗口的确定,有下式:
上式P右为右边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定右边窗口的n值。
这里左窗口的n值大小不一定等于右边窗口大小,主要根据上两式计算可得。
步骤4:根据步骤3得到的上下文词范围,分别找到待比较词C∈(c1,c2)所对应的权重最大的两句子maxweight(C∈(c1,c2)),需先知每个语境窗口下的权重值weight(C),其具体计算过程如下:
4.1)每个语境窗口下的权重值weight(C)
4.2)待比较词C∈(c1,c2)所对应的权重最大的两句子maxweight(C∈(c1,c2))
maxweight(C∈(c1,c2))=max[weight(C)i=1,2,…,m]
步骤5:计算这两句子maxweight(C∈(c1,c2))的相似度
根据上下文本计算得出的maxweight(C)∈(maxweight(c1),maxweight(c2))、词性、与待比较词C∈(c1,c2)成分关系、以及在文本中所处的位置分别构成一向量,即得
则两句子相似度为
步骤6:由步骤5得到的两句子相似度计算待比较词(c1,c2)的相似度sim(c1,c2)
上式α为一调节因子,α∈(0,1),由相应专家给定其值。
Claims (5)
1.一种基于上下文窗口的词语语义相似度求解方法,本发明涉及语义网络技术领域,具体涉及一种基于上下文窗口的词语语义相似度求解方法,其特征是,包括如下步骤:
步骤1:初始化统计方法模块
步骤2:将待比较词输入初始化统计方法模块中
步骤3:分别确定待比较词的上下文词语范围“窗口”
步骤4:根据步骤3得到的上下文词范围,分别找到待比较词所对应的权重最大的两句子
步骤5:计算这两句子的相似度
步骤6:由步骤5得到的两句子相似度计算待比较词的相似度。
2.根据权利要求1中所述的一种基于上下文窗口的词语语义相似度求解方法,其特征是,以上所述步骤3的具体计算过程如下:
步骤3:分别确定待比较词的上下文词语范围“窗口”,需先求出位置信息上下文位置权重值其具体计算过程如下:
3.1)先假设待比较词上下文语境的位置信息
从语料中提取每个待比较词上下文左右各n个位置的上下文词语构成其“待比较词上下文矩阵”,其矩阵如下所示:
上式矩阵行i为第i个上下文语境,列为上下文左边n个位置,列为上下文右边n个位置为第i个上下文语境中第j个位置词
3.2)计算每个上下文位置对待比较词的权重
上式分别为第i语境中位置为j时的上下文词对关键词的权重贡献值,为每个上下文位置已知对应的关键词C的条件统计概率,为上下文位置词与C共现的概率,T为语料或文本中所有出现词的总个数,这些都可以基于语料库很容易统计出
3.3)对待比较词语境中上下文词位置权重值
进行归一化曲线处理,其具体描述过程如下:
3.3.1)先对待比较词语境中的上下文词位置j进行归一化处理
以待比较词为原点,上下文词位置距离待比较词的相对距离如下式:
上式左边位置相对距离为负值,右边位置相对距离为正值
3.3.2)利用相对误差法对误差点丢弃
上述左右位置相对距离为自变量横坐标x,根据上述步骤3得到的为对应为纵坐标值,其为一离散图,连接一条包含点最多的直线——即参考直线,如下:
计算不在这条直线上的点到它的距离:
设置误差边界条件:
当满足上述边界条件则丢弃这一点反之,连接成曲线
3.3.3)归一化曲线
根据自变量横坐标d可得两条曲线,即
3.4)基于上下文信息损失量计算关键词语境中上下文窗口的左右窗口n值,其具体计算过程如下:
上式为左边窗口允许的一个信息损失量的边界条件,为用户允许的一个阈值,只有满足这个边界条件,就可以确定左边窗口的n值
同理右边窗口的确定,有下式:
上式为右边窗口允许的一个信息损失量的边界条件,为用户允许的一个阈值,只有满足这个边界条件,就可以确定右边窗口的n值
这里左窗口的n值大小不一定等于右边窗口大小,主要根据上两式计算可得。
3.根据权利要求1中所述的一种基于上下文窗口的词语语义相似度求解方法,其特征是,以上所述步骤4中各具体计算过程如下:
步骤4:根据步骤3得到的上下文词范围,分别找到待比较词所对应的权重最大的两句子需先知每个语境窗口下的权重值其具体计算过程如下:
4.1)每个语境窗口下的权重值
4.2)待比较词所对应的权重最大的两句子
。
4.根据权利要求1中所述的一种基于上下文窗口的词语语义相似度求解方法,其特征是,以上所述步骤5中的具体计算过程如下:
步骤5:计算这两句子的相似度
根据上下文本计算得出的
词性、与待比较词成分关系、以及在文本中所处的位置分别构成一向量,即得
则两句子相似度为。
5.根据权利要求1中所述的一种基于上下文窗口的词语语义相似度求解方法,其特征是,以上所述步骤6中的具体计算过程如下:
步骤6:由步骤5得到的两句子相似度计算待比较词的相似度
上式为一调节因子,由相应专家给定其值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610602053X | 2016-07-27 | ||
CN201610602053 | 2016-07-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106610942A true CN106610942A (zh) | 2017-05-03 |
Family
ID=58615025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610833572.7A Pending CN106610942A (zh) | 2016-07-27 | 2016-09-20 | 一种基于上下文窗口的词语语义相似度求解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106610942A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110078A (zh) * | 2018-01-11 | 2019-08-09 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN111062220A (zh) * | 2020-03-13 | 2020-04-24 | 成都晓多科技有限公司 | 一种基于记忆遗忘装置的端到端意图识别***和方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
-
2016
- 2016-09-20 CN CN201610833572.7A patent/CN106610942A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
Non-Patent Citations (2)
Title |
---|
崔春华 等: ""基于本体的概念相似度计算的改进"", 《世界科技研究与发展》 * |
鲁松 等: ""自然语言处理中词语上下文有效范围的定量描述"", 《计算机学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110078A (zh) * | 2018-01-11 | 2019-08-09 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110110078B (zh) * | 2018-01-11 | 2024-04-30 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN111062220A (zh) * | 2020-03-13 | 2020-04-24 | 成都晓多科技有限公司 | 一种基于记忆遗忘装置的端到端意图识别***和方法 |
CN111062220B (zh) * | 2020-03-13 | 2020-06-16 | 成都晓多科技有限公司 | 一种基于记忆遗忘装置的端到端意图识别***和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065544A1 (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN106776534B (zh) | 词向量模型的增量式学习方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
Jiang et al. | “Low-resource” text classification: A parameter-free classification method with compressors | |
CN109359291A (zh) | 一种命名实体识别方法 | |
WO2021022816A1 (zh) | 一种基于深度学习网络的意图识别方法 | |
CN106202065B (zh) | 一种跨语言话题检测方法及*** | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN107423288A (zh) | 一种基于无监督学习的中文分词***及方法 | |
CN105701223A (zh) | 基于Spark Streaming的财经信息情感趋势分析方法 | |
CN109684449A (zh) | 一种基于注意力机制的自然语言语义表征方法 | |
WO2023004528A1 (zh) | 一种基于分布式***的并行化命名实体识别方法及装置 | |
CN112417891A (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
CN107391482A (zh) | 一种基于句模进行模糊匹配与剪枝的方法 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN110334362B (zh) | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN106610942A (zh) | 一种基于上下文窗口的词语语义相似度求解方法 | |
CN107038155A (zh) | 基于改进的小世界网络模型实现文本特征的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |
|
WD01 | Invention patent application deemed withdrawn after publication |