CN105608136A - 一种基于汉语复句的语义相关度计算方法 - Google Patents
一种基于汉语复句的语义相关度计算方法 Download PDFInfo
- Publication number
- CN105608136A CN105608136A CN201510951633.5A CN201510951633A CN105608136A CN 105608136 A CN105608136 A CN 105608136A CN 201510951633 A CN201510951633 A CN 201510951633A CN 105608136 A CN105608136 A CN 105608136A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- frequency
- complex sentence
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及中文信息处理领域,提供一种基于汉语复句的语义相关度计算方法,本发明方法利用搜索引擎和汉语复句语料库统计特定词语的频率,同时考虑词语共现、关系标记搭配距离、词间距对语义相关度的影响,不仅能够计算词语的相关度,而且能够表明相关的性质与类别。与通过短文计算相关度的方法相比,本方法选取的计算对象范围小,因而结果更准确,且计算复杂度小。
Description
技术领域
本发明涉及中文信息处理领域,是一种应用于信息检索***、文档自动文摘、问答***、机器翻译中的关键技术,具体说的是一种基于汉语复句的语义相关度计算方法。
背景技术
语义相关度计算是中文信息处理领域的重要研究课题,在信息检索、语义消岐、文本分类中起着重要的作用。
语义相关度的计算方法主要有三类:基于词典的方法、基于统计的方法、基于***的方法。基于词典的方法主要是利用WordNet、HowNet两种语义词典进行计算。基于统计的方法主要通过统计词语在语料库中出现的频率来计算语义相关度。基于***的方法主要是用WikiRelated算法进行语义相关度计算。
基于语义词典的计算方法的核心是语义词典,而语义词典在很大程度上受规模和构建者的影响,所以基于语义词典的语义相关度计算方法正确率不高。基于统计的语义相关度计算方法一般是以计算机为载体承载的语言知识资源为基础,对语料信息进行挖掘,通过统计的方法计算其相关度,与基于词典的方法相比其准确率有了很大提高。基于***的方法把需要计算语义相关度的两个词语放到***中查找,然后通过查找得到的页面和类别等信息计算出词语的相关度,***能够获取词典或语料中未收录的词,但其搜索的词大多数处于不同的语境下因而影响了准确率。
发明内容
本发明的目的是为了克服上述现有技术的不足之处,提出一种基于汉语复句的语义相关度计算方法,它能够解决词典规模受限、不同语境对语义相关度影响的问题,进而提高相关度计算的准确率。同时,本发明还能标明相关度的性质与类别。
本发明的目的是由以下技术方案实现的。
一种基于汉语复句的语义相关度计算方法,给定两个特定的词语c1、c2,计算c1、c2之间的语义相关度,该方法包括以下步骤:
(1)在汉语复句语料库(CCCS)中,假设汉语复句语料库的总词量为W1,给定词c1在汉语复句语料库中出现的频数记为f(c1),给定词c2在汉语复句语料库中出现的频数记为f(c2),给定词c1与c2同时在一条复句中出现的频数记为f(c1,c2);
(2)对汉语复句语料库中抽取的复句进行依存句法分析,计算给定词c1和c2之间间隔的单词数,该单词数为c1和c2之间的跨度d;同时提取该复句不同分句中的关系标记以及关系标记间的搭配距离m;
(3)假设搜索引擎的总索引量为W2,利用搜索引擎搜索给定词c1,其在网页中出现的频数记为f(c1’),利用搜索引擎搜索给定词c2,其在网页中出现的频数记为f(c2’),给定词c1、c2在网页中同时出现的频数记为f(c1’,c2’);
(4)令W=W1+W2,F(c1)=f(c1)+f(c1’),F(c2)=f(c2)+f(c2’),F(c1,c2)=f(c1,c2)+f(c1’,c2’),其中,F(c1)、F(c2)为c1、c2在汉语复句语料库和搜索引擎中共出现的频数,F(c1,c2)为c1、c2在汉语复句语料库和搜索引擎中共现的频数,为了尽可能将计算结果压缩在[0,1]区间内,对词语出现的频数取对数再进行概率计算,c1的概率计算公式为:;
(5)给定词c1与c2共现的概率为:;
(6)根据关系标记搭配理论,将词语共现作为语义相关度计算的考虑因素之一,提出如下语义相关度计算公式:;其中λ是一个可调节参数,其取值范围是0~1;
(7)相关度结果以向量V(v1,v2,…v13)的形式表示,其中,v1~v12分别表示12种关系类别:因果、推断、假设、条件、目的、并列、连贯、递进、选择、转折、让步、假转的值,v13为其它不明确类型的相关度。
在上述技术方案中,步骤(2)中所述的依存句法分析的具体方式为使用哈尔滨工业大学开发的语言云平台LTP-Cloud,调用相应的API接口对语句进行依存句法分析。
在上述技术方案中,步骤(2)中所述的提取关系标记以及关系标记搭配距离m的具体方式为利用匹配算法,将复句中的词与汉语复句关系词搭配库(该库由华中师范大学建立,并记载于《复句关系标记的搭配研究》一书中)中的词进行匹配提取关系标记和关系标记搭配距离m。
在上述技术方案中,步骤(2)中计算给定词之间的跨度d的具体方式为使用依存句法分析后的语句,分词后的语句都有位置标志,该标志记录词语在复句中所处的位置,提取给定词的位置标志,进行相减得到给定词之间的词间距,即跨度d。
在上述技术方案中,统计给定词出现的频数和共现频数的具体方式为利用查找的方式统计给定词在汉语复句语料库中出现的频数,或将给定词放在搜索引擎上进行搜索,获取网页中返回的结果总数,将在汉语复句语料库中出现的频数和搜索引擎返回的结果数相累加则为给定词出现的频数。
本发明方法考虑了词语共现、关系标记搭配距离、词间距对语义相关度的影响,不仅能够计算词语的相关度,而且能够表明相关的性质与类别。与通过短文计算相关度的方法相比,本方法选取的计算对象范围小,因而结果更准确,且计算复杂度小。
具体实施方式
下面对本发明作进一步的详细描述。
本发明的实质是利用搜索引擎和汉语复句语料库统计特定词语的频率,词语在搜索引擎中搜索到的句子中共现的频率与已有的汉语复句语料库中共现的频率需要设置适当的系数进行调和。词语共现在不同类别复句中,复句的类别对整体相关度影响也不同,需要设计相应的系数。
本发明方法的具体实施步骤如下:
(1)在汉语复句语料库(CCCS)中,假设汉语复句语料库的总词量为W1,给定词c1在汉语复句语料库中出现的频数记为f(c1),给定词c2在汉语复句语料库中出现的频数记为f(c2),给定词c1与c2同时在一条复句中出现的频数记为f(c1,c2);
(2)对汉语复句语料库中抽取的复句进行依存句法分析,计算给定词c1和c2之间间隔的单词数,该单词数为c1和c2之间的跨度d;同时提取该复句不同分句中的关系标记以及关系标记间的搭配距离m;如表1所示,记录的是关系标记的搭配距离部分数据表,该搭配距离可在汉语复句关系词搭配库中直接提取。
表1
(3)假设搜索引擎的总索引量为W2,利用搜索引擎搜索给定词c1,其在网页中出现的频数记为f(c1’),利用搜索引擎搜索给定词c2,其在网页中出现的频数记为f(c2’),给定词c1、c2在网页中同时出现的频数记为f(c1’,c2’);
(4)令W=W1+W2,F(c1)=f(c1)+f(c1’),F(c2)=f(c2)+f(c2’),F(c1,c2)=f(c1,c2)+f(c1’,c2’),其中,F(c1)、F(c2)为c1、c2在汉语复句语料库和搜索引擎中共出现的频数,F(c1,c2)为c1、c2在汉语复句语料库和搜索引擎中共现的频数,为了尽可能将计算结果压缩在[0,1]区间内,对词语出现的频数取对数再进行概率计算,c1的概率计算公式为:;
(5)给定词c1与c2共现的概率为:;
(6)根据关系标记搭配理论,在一定的语境下,词语共现在一定程度上可以反映词c1和c2的语义相关度。基于此,本发明方法提出如下语义相关度计算公式:;其中λ是一个可调节参数,其取值范围是0~1,实验证明当λ取值为0.3时,效果最佳;
(7)相关度结果以向量V(v1,v2,…v13)的形式表示,其中,v1~v12分别表示12种关系类别:因果、推断、假设、条件、目的、并列、连贯、递进、选择、转折、让步、假转的值,v13为其它不明确类型的相关度,例如无标复句的关联类别。如“既有硬件,又有软件。(并列复句)”一句中,“软件”、“硬件”两词进行语义相关度计算,得到的结果为(0,0,0,0,0,0.17101624,0,0,0,0,0,0,0),其中向量中的0.17101624代表的是“软件”与“硬件”的并列复句的语义相关度。
如表2所示,为利用本发明方法与利用百度搜索引擎计算语义相关度的实验测试部分示例结果表。
表2
综上所述,本发明方法涉及的一种基于汉语复句的语义相关度计算方法,利用汉语复句关系标记及搭配理论的研究成果,不仅计算出两个词语的相关度,同时标明了相关度的“性质与类别”,有利于更加准确理解词语的语义,计算结果更加准确,计算复杂度更小,有广泛的应用前景。
Claims (5)
1.一种基于汉语复句的语义相关度计算方法,其特征在于给定两个特定的词语c1、c2,计算c1、c2之间的语义相关度,该方法包括以下步骤:
(1)在汉语复句语料库中,假设汉语复句语料库的总词量为W1,给定词c1在汉语复句语料库中出现的频数记为f(c1),给定词c2在汉语复句语料库中出现的频数记为f(c2),给定词c1与c2同时在一条复句中出现的频数记为f(c1,c2);
(2)对汉语复句语料库中抽取的复句进行依存句法分析,计算给定词c1和c2之间间隔的单词数,该单词数为c1和c2之间的跨度d;同时提取该复句不同分句中的关系标记以及关系标记间的搭配距离m;
(3)假设搜索引擎的总索引量为W2,利用搜索引擎搜索给定词c1,其在网页中出现的频数记为f(c1’),利用搜索引擎搜索给定词c2,其在网页中出现的频数记为f(c2’),给定词c1、c2在网页中同时出现的频数记为f(c1’,c2’);
(4)令W=W1+W2,F(c1)=f(c1)+f(c1’),F(c2)=f(c2)+f(c2’),F(c1,c2)=f(c1,c2)+f(c1’,c2’),其中,F(c1)、F(c2)为c1、c2在汉语复句语料库和搜索引擎中共出现的频数,F(c1,c2)为c1、c2在汉语复句语料库和搜索引擎中共现的频数,为了尽可能将计算结果压缩在[0,1]区间内,对词语出现的频数取对数再进行概率计算,c1的概率计算公式为:;
(5)给定词c1与c2共现的概率为:;
(6)根据关系标记搭配理论,将词语共现作为语义相关度计算的考虑因素之一,提出如下语义相关度计算公式:;其中λ是一个可调节参数,其取值范围是0~1;
(7)相关度结果以向量V(v1,v2,…v13)的形式表示,其中,v1~v12分别表示12种关系类别:因果、推断、假设、条件、目的、并列、连贯、递进、选择、转折、让步、假转的值,v13为其它不明确类型的相关度。
2.根据权利要求1所述的基于汉语复句的语义相关度计算方法,其特征在于:步骤(2)中所述的依存句法分析的具体方式为使用哈尔滨工业大学开发的语言云平台LTP-Cloud,调用相应的API接口对语句进行依存句法分析。
3.根据权利要求1所述的基于汉语复句的语义相关度计算方法,其特征在于:步骤(2)中所述的提取关系标记以及关系标记搭配距离m的具体方式为利用匹配算法,将复句中的词与汉语复句关系词搭配库中的词进行匹配,提取关系标记,进而提取关系标记搭配距离m。
4.根据权利要求1所述的基于汉语复句的语义相关度计算方法,其特征在于:步骤(2)中计算给定词之间的跨度d的具体方式为使用依存句法分析后的语句,分词后的语句都有位置标志,该标志记录词语在复句中所处的位置,提取给定词的位置标志,进行相减得到给定词之间的词间距,即跨度d。
5.根据权利要求1所述的基于汉语复句的语义相关度计算方法,其特征在于:统计给定词出现的频数和共现频数的具体方式为利用查找的方式统计给定词在汉语复句语料库中出现的频数,或将给定词放在搜索引擎上进行搜索,获取网页中返回的结果总数,将在汉语复句语料库中出现的频数和搜索引擎返回的结果数相累加则为给定词出现的频数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510951633.5A CN105608136B (zh) | 2015-12-17 | 2015-12-17 | 一种基于汉语复句的语义相关度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510951633.5A CN105608136B (zh) | 2015-12-17 | 2015-12-17 | 一种基于汉语复句的语义相关度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105608136A true CN105608136A (zh) | 2016-05-25 |
CN105608136B CN105608136B (zh) | 2019-03-19 |
Family
ID=55988076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510951633.5A Expired - Fee Related CN105608136B (zh) | 2015-12-17 | 2015-12-17 | 一种基于汉语复句的语义相关度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608136B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018001101A1 (zh) * | 2016-06-29 | 2018-01-04 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN108171570A (zh) * | 2017-12-15 | 2018-06-15 | 北京小度信息科技有限公司 | 一种数据筛选方法、装置及终端 |
CN111078971A (zh) * | 2019-11-19 | 2020-04-28 | 平安金融管理学院(中国·深圳) | 简历文件的筛选方法、装置、终端及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
-
2015
- 2015-12-17 CN CN201510951633.5A patent/CN105608136B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
Non-Patent Citations (2)
Title |
---|
MIN LI 等: "Research and Implementation on semantic relevancy computing between words", 《2011 4TH IEEE INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND INFORMATION TECHNOLOGY》 * |
姚双云: "复句关系标记的搭配研究与相关解释", 《中国博士学位论文全文数据库 哲学与人文科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018001101A1 (zh) * | 2016-06-29 | 2018-01-04 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN108171570A (zh) * | 2017-12-15 | 2018-06-15 | 北京小度信息科技有限公司 | 一种数据筛选方法、装置及终端 |
CN108171570B (zh) * | 2017-12-15 | 2021-04-27 | 北京星选科技有限公司 | 一种数据筛选方法、装置及终端 |
CN111078971A (zh) * | 2019-11-19 | 2020-04-28 | 平安金融管理学院(中国·深圳) | 简历文件的筛选方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105608136B (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182445B2 (en) | Method, apparatus, server, and storage medium for recalling for search | |
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN104216968A (zh) | 一种基于文件相似度的排重方法及*** | |
CN103455562A (zh) | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 | |
Akour et al. | QArabPro: A rule based question answering system for reading comprehension tests in Arabic | |
Bharadwaj et al. | Language independent identification of parallel sentences using wikipedia | |
Li et al. | Apply event extraction techniques to the judicial field | |
CN105608136A (zh) | 一种基于汉语复句的语义相关度计算方法 | |
CN105426379A (zh) | 基于词语位置的关键字权值计算方法 | |
CN101763403A (zh) | 面向多语言信息检索***的查询翻译方法 | |
Song et al. | Improving embedding-based unsupervised keyphrase extraction by incorporating structural information | |
CN109344233A (zh) | 一种中文人名识别方法 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
CN111814025A (zh) | 一种观点提取方法及装置 | |
Erdmann et al. | Calculating wikipedia article similarity using machine translation evaluation metrics | |
Tohti et al. | Efficient Term Extraction and Indexing Approach in Small-Scale Web Search of Uyghur Language. | |
Jahan et al. | Automated text summarization of sinhala online articles | |
Yuan et al. | Research on cross-language text similarity calculation | |
JP2013182580A (ja) | 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム | |
Xu et al. | Study on Hot Topic Discovery from Chinese Texts. | |
Liu et al. | A Distributional Semantics Based Syntagmatic Association Measuring Method. | |
Akmal Jahan et al. | Automated text summarization of Sinhala online articles | |
Nuo et al. | Tibetan multi-word expressions identification framework based on news corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190319 Termination date: 20201217 |
|
CF01 | Termination of patent right due to non-payment of annual fee |