CN110442861B - 一种基于真实世界统计的中文专业术语与新词发现的方法 - Google Patents
一种基于真实世界统计的中文专业术语与新词发现的方法 Download PDFInfo
- Publication number
- CN110442861B CN110442861B CN201910608625.9A CN201910608625A CN110442861B CN 110442861 B CN110442861 B CN 110442861B CN 201910608625 A CN201910608625 A CN 201910608625A CN 110442861 B CN110442861 B CN 110442861B
- Authority
- CN
- China
- Prior art keywords
- word
- value
- words
- pmi
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于真实世界统计的中文专业术语与新词发现的方法。本发明使用了点间互信息(PMI)以及邻接熵(BE)来判断来寻找“种子”(具有高聚合性的词),采用这两个方法的原因主要是他们都属于无监督学习并且有着互补的作用。在找到“种子”之后,我们用基于16亿字的真实世界语料中所提炼出的统计信息来筛选出新词。
Description
技术领域
本发明涉及一种基于真实世界统计的中文专业术语与新词发现的方法,用于专业领域中文文本中的新词以及专业术语的检测。
背景技术
分词在中文自然语言处理(NLP)中有着重要的地位,它是进行自然语言处理的首要工作。在目前的自然语言处理过程中,对于一些专业性很强的文本构建一个专业词字典是提高分词质量的一个有效方法。如何在专业领域高效的建立专业词字典是一个困难的工作,目前大量的方法都是基于人工标注的深度学习算法,这个过程被称为实体名称识别。但是在没有专业人员帮助或者现存字典的情况下,它没法处理像药物名称或是手术名称这类的专业医疗文本。
以医学领域的药物名称为例,见表1
表1:药品名中英文对照表(部分)
可以看到,对于这样的一个专业文本大多数非专业人士根本不可能完成进行准确的标注工作。比如“多瑞吉(芬太尼透皮贴剂)”,这个词可以被分成两部分:“多瑞吉”和“芬太尼透皮贴剂”。但是第二部分由于存在音译词与专业名词,这会容易让人无从下手。它的正确分法是“芬太尼”、“透”、“皮贴剂”。“透”这个词容易被人合并到其他词内。同样的问题在类似的文本中会经常出现,此类专业类型的文本的标注难度极大,传统的NLP处理方法对这类专业文本的处理效果极差,远远不能满足实际应用要求。
发明内容
本发明的目的是:基于信息熵、邻接熵来判定一个词的凝固程度,从而实现文本中新词和专业术语的发现。
为了达到上述目的,本发明的技术方案是提供了一种基于真实世界统计的中文专业术语与新词发现的方法,其特征在于,包括以下步骤:
步骤1、收集来自于各个新闻媒体的新闻语料,将该新闻语料定义为新闻文本,将医疗机构临床药物名称作为对照医学专业测试文本,将该对照医学专业测试文本定义为专业文本;
步骤2、对新闻文本及专业文本分别使用二元切词,舍弃新闻文本切词结果中的非中文字符后获得候选词,统计候选词的出现次数和频率,剔除频率较低的候选词后,对每个剩余的候选词进行PMI值的计算,PMI值是一个计算候选词中两个字之间凝固程度的标准,PMI值越高则代表两个字之间的联系更紧密,计算每个候选词的PMI值后,将PMI值在一分位后的候选词舍弃,从而获得目标词;
式中,Hr(x)表示目标词x的右邻接熵,Hl(x)表示目标词x的左邻接熵,Hr(xl)表示目标词x中位于左边的字xl的右邻接熵,Hl(xr)表示目标词x中位于右边的字xr的左邻接熵;
步骤5、获得每个目标词的分数值,设目标词x的分数值为Score(x),则有:
式中,λ表示权值,pmi′表示目标词x的PMI值;
步骤6、将分数值大于设定阈值的目标词作为种子词;
步骤7、完成了种子词的生成后,得到一张二元字符的词组表,词组表中词的凝固程度高,认为所需要提取的专业术语已经通过二元词的形式从新闻文本中提取出来,把词组表中的二元词整合在一起。
优选地,步骤2中,设新闻文本通过二元切词获得的任意一个候选词的PMI值为pmi′,则有:
式中,x表示专业文本通过二元切词获得的候选词中的一个字,另一个字为y,p(x)表示字x在专业文本中出现的频率,p(y)表示字y在专业文本中出现的频率,p(x,y)表示词xy在专业文本中出现的频率;x′表示新闻文本通过二元切词获得的候选词中的一个字,x′=x,另一个字为y′,y′=y,p(x′)表示字x′在新闻文本中出现的频率,p(y′)表示字y′在新闻文本中出现的频率,p(x′,y′)表示词x′y′在新闻文本中出现的频率。
优选地,步骤7中,把词组表中的二元词整合在一起时,通过使用条件概率来把词组表中的二元词重新组合或者延长。
本发明使用了点间互信息(PMI)以及邻接熵(BE)来判断来寻找“种子”(具有高聚合性的词),采用这两个方法的原因主要是他们都属于无监督学习并且有着互补的作用。在找到“种子”之后,我们用基于16亿字的真实世界语料中所提炼出的统计信息来筛选出新词。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供了一种基于真实世界统计的中文专业术语与新词发现的方法,包括以下步骤:
第一步,收集来自于新浪新闻、中国日报、腾讯新闻、百度新闻和***网络媒体的新闻语料(以下简称新闻文本)。使用医疗机构临床药物名称作为对照医学专业测试文本(以下简称专业文本)。
第二步,对新闻文本、专业文本分别使用二元切词,舍弃切词结果中的非中文字符。获得的结果包含候选词、候选词出现次数和候选词频率,表2中是对1G新闻文本进行了上述操作并且展示了部分结果。剔除频率低于α的候选词。对剔除低频词后的每个候选词进行PMI和BE值的计算来得到每个二元字符的词凝固度。
候选词 | 候选词出现次数 | 候选词出现频率 |
表示 | 544435 | 0.00133 |
产品 | 422727 | 0.00103 |
编辑 | 372018 | 0.00091 |
报道 | 259518 | 0.00063 |
北京 | 249406 | 0.00060 |
出现 | 245255 | 0.00059 |
部分 | 240593 | 0.00058 |
成为 | 229208 | 0.00056 |
的一 | 226781 | 0.00055 |
第一 | 224486 | 0.00054 |
表2:1G新闻文本二元切词后的候选词、候选词出现次数以及候选词频率(部分)
第三步,计算第二步得到的每个候选词PMI值
PMI值是一个计算两个词之间凝固程度的标准,它的值越高则代表两个字之间的联系更紧密,数学上PMI值可以表示为pmi:
式(1)中,x表示一个词,y表示另一个词,P(x)表示词x在文本中出现的频率,P(y)表示词x在文本中出现的频率,P(x,y)表示词xy在文本中出现的频率。
将计算PMI值的式(1)应用到本发明后,对其进行修正,计算得到第二步获得的新闻文本通过二元切词后的候选词的修正后的PMI值pmi′,则有:
式(2)中,x表示专业文本通过二元切词获得的候选词中的一个字,另一个字为y;x′表示新闻文本通过二元切词获得的候选词中的一个字,x′=x,另一个字为y′,y′=y,本发明意在通过x′y′来校正xy。
本发明希望通过新闻文本下的候选词来修正专业文本,专业文本是本发明的测试对象,本发明的目标是挖掘里面的词。但是传统方法挖出来的词存在各种各样的问题。所以,本发明通过新闻文本,也就是真实世界的数据来进行校正。
对所有候选词的PMI值做降序排序,随后舍弃PMI值在第一四分位数(样本中所有数值由小到大排列后第25%的数字)后的候选词,从而获得目标词。
以下步骤,本发明将计算目标词的BE值,BE(邻接熵)是用来判断词凝固度的另一个标准。对于一个目标词x,我们定义xi作为它的邻近字符。x的单向邻接熵就可以写作:H(x)=-∑ip(xi)log2 p(xi),p(xi)表示词xi在文本中出现的频率。它表明了一个目标词左右两侧字出现的多样性。数值越高代表这个词会在文中更多的出现,反之则说明这个词不会出现在文中的很多地方,它更倾向于与邻接的词合并成一个新词。
式(4)、(5)中,Hr(x)表示目标词x的右邻接熵,Hl(x)表示目标词x的左邻接熵,Hr(xl)表示目标词x中位于左边的字xl的右邻接熵,Hl(xr)表示目标词x中位于右边的字xr的左邻接熵。
xlr代表的是目标词x左边那个词的右邻接熵,xrl代表的是目标词x右边那个词的左邻接熵。
式(6)、(7)中,表示所有目标词的BE值的均值,Std(BE(x))表示BE(x)的标准差。式(6)通过结合内部邻接熵和外部邻接熵得到一个新的数值,这个数值的大小可以表达候选词的凝固程度。在理想情况下,希望看到的种子词是可以在多种语境下都存在并且词的内部凝固程度很高,从数学上可以表示为式(6)。
本发明需要把BE和PMI结合来计算所有“种子”的词凝固程度,因此对最终的结果需要做归一化的处理。在不知道整体的样本分布和参数的情况下,本发明使用t分布进行归一化处理,如式(7)所示。
第六步,获得每个目标词的分数值,设目标词x的分数值为Score(x),则有:
式(7)中,λ表示权值,pmi′表示目标词x的PMI值。
为了得到更高质量的种子词,本发明在结合PMI和BE的时候需要给他们添加权重,本发明引入了λ作为参数参与计算,如式(7)所示。
第七步,将分数值大于设定阈值的目标词作为种子词。分数值越大,则表明候选的种子词更像是一个固定搭配;反之,这说明这个词不足以成为一个新词或者候选词。
第八步,完成了种子词的生成后,得到一张二元字符的词组表,这些词的凝固程度都很高。由于结合了真实世界的统计量作为筛选条件,可以认为所需要提取的专业术语已经通过二元词的形式提取出来。之后需要把这些二元词整合在一起。本发明通过使用条件概率来把这些分散的字符串重新组合或者延长。
比如,从“二甲”这个词出发,我们始终把字符串内的最后一个词作为出发点。所以对于“二甲”来说,我们选择“甲”作为出发点。下一步测试寻找“种子”表内所有以“甲”作为开头的词语。这些词语的出现概率语贝叶斯条件概率的形式一致
随后本发明会给出一个阀值来确定哪些词可以作为延长的对象。比如,“注射”的候选词会有“射液”、“射剂”等,将这些词重新组合后会得到三元的新词。不断的迭代运算直到没有下一个词或者所有的候选词都无法达到设定的阀值。至此完成所有专业词发现。
以下以具体实例来进一步说明本发明:
步骤1,收集来自于新浪新闻、中国日报、腾讯新闻、百度新闻和***网络媒体,时间跨度为2014年到2018年,领域涵盖了体育、娱乐、政治、科学、艺术和文化等领域,每一篇新闻的字数大约在1000字,共计8GB的新闻数据,总字数达到了16亿字的新闻语料(以下简称新闻文本)。使用医疗机构临床药物名称作为对照医学专业测试文本(以下简称专业文本)。
步骤2:生成二元词表并且舍弃出现频率小于5的候选词。随后就算出每个词PMI,并且舍弃PMI<0的字符因为这表示了他们不足以成为一个词。
步骤3:设置权重λ=0.3,计算出每个候选者的BE并且与PMI结合成为一个新的量,记为score。最后,找到score的一分位数值并且舍弃小于这个值的候选词。
完成了上述的所有过程后会得到一张具有统计意义并且词凝固度很高的表格。表3是对这张“种子”表做降序排列后的结果,表中显示了凝固程度排名较高的结果。这些“种子”的共有特点是他们在现实中出现但很少被使用,此外在我们的测试文本中大量且经常一起出现。因此,我们相信他们可以作为高质量的种子,并且已经做好了拓展词长度的准备。
排序 | 候选词 | Socre |
1 | 医辩 | 14.919 |
2 | 叉配 | 13.762 |
3 | 点配 | 12.535 |
4 | 量泵 | 12.414 |
5 | 腔或 | 12.385 |
6 | 云芝 | 11.798 |
7 | 查与 | 11.794 |
8 | 备仪 | 11.537 |
9 | 两面 | 10.590 |
10 | 学检 | 10.178 |
表3:测试文本中词凝聚度最高的10个词以及他们的得分
步骤4,生成名为Continue与stop的列表。其中,Continue中存放还可以被继续拓展长度的词语;stop中存放已经无法被继续拓展长度的词语。开始拓展词的长度,设置概率阀值为0.3,这表明了这个词只有在Pnext>0.3的情况下才会被视为可以拓展的候选词。如果当前的词依然可以找到拓展词那就把它放入Continue的列表;反之,则放入stop的列表。
Claims (1)
1.一种基于真实世界统计的中文专业术语与新词发现的方法,其特征在于,包括以下步骤:
步骤1、收集来自于各个新闻媒体的新闻语料,将该新闻语料定义为新闻文本,将医疗机构临床药物名称作为对照医学专业测试文本,将该对照医学专业测试文本定义为专业文本;
步骤2、对新闻文本及专业文本分别使用二元切词,舍弃新闻文本切词结果中的非中文字符后获得候选词,统计候选词的出现次数和频率,剔除频率小于5的候选词后,对每个剩余的候选词进行PMI值的计算,PMI值是一个计算候选词中两个字之间凝固程度的标准,PMI值越高则代表两个字之间的联系更紧密,计算每个候选词的PMI值后,将PMI值在一分位后的候选词舍弃,从而获得目标词;设新闻文本通过二元切词获得的任意一个候选词的PMI值为pmi′,则有:
式中,x表示专业文本通过二元切词获得的候选词中的一个字,另一个字为y,p(x)表示字x在专业文本中出现的频率,p(y)表示字y在专业文本中出现的频率,p(x,y)表示词xy在专业文本中出现的频率;x′表示新闻文本通过二元切词获得的候选词中的一个字,x′=x,另一个字为y′,y′=y,p(x′)表示字x′在新闻文本中出现的频率,p(y′)表示字y′在新闻文本中出现的频率,p(x′,y′)表示词x′y′在新闻文本中出现的频率;
式中,Hr(x)表示目标词x的右邻接熵,Hl(x)表示目标词x的左邻接熵,Hr(xl)表示目标词x中位于左边的字xl的右邻接熵,Hl(xr)表示目标词x中位于右边的字xr的左邻接熵;
步骤5、获得每个目标词的分数值,设目标词x的分数值为Score(x),则有:
式中,λ表示权值,pmi′表示目标词x的PMI值;
步骤6、将分数值大于设定阈值的目标词作为种子词;
步骤7、完成了种子词的生成后,得到一张二元字符的词组表,词组表中词的凝固程度高,认为所需要提取的专业术语已经通过二元词的形式从新闻文本中提取出来,把词组表中的二元词整合在一起;把词组表中的二元词整合在一起时,通过使用条件概率来把词组表中的二元词重新组合或者延长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608625.9A CN110442861B (zh) | 2019-07-08 | 2019-07-08 | 一种基于真实世界统计的中文专业术语与新词发现的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608625.9A CN110442861B (zh) | 2019-07-08 | 2019-07-08 | 一种基于真实世界统计的中文专业术语与新词发现的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442861A CN110442861A (zh) | 2019-11-12 |
CN110442861B true CN110442861B (zh) | 2023-04-07 |
Family
ID=68429578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910608625.9A Active CN110442861B (zh) | 2019-07-08 | 2019-07-08 | 一种基于真实世界统计的中文专业术语与新词发现的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442861B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988953B (zh) * | 2021-04-26 | 2021-09-03 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224682A (zh) * | 2015-10-27 | 2016-01-06 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和*** |
CN106126606A (zh) * | 2016-06-21 | 2016-11-16 | 国家计算机网络与信息安全管理中心 | 一种短文本新词发现方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108845982A (zh) * | 2017-12-08 | 2018-11-20 | 昆明理工大学 | 一种基于词的关联特征的中文分词方法 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN108959259A (zh) * | 2018-07-05 | 2018-12-07 | 第四范式(北京)技术有限公司 | 新词发现方法及*** |
-
2019
- 2019-07-08 CN CN201910608625.9A patent/CN110442861B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224682A (zh) * | 2015-10-27 | 2016-01-06 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和*** |
CN106126606A (zh) * | 2016-06-21 | 2016-11-16 | 国家计算机网络与信息安全管理中心 | 一种短文本新词发现方法 |
CN108845982A (zh) * | 2017-12-08 | 2018-11-20 | 昆明理工大学 | 一种基于词的关联特征的中文分词方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN108959259A (zh) * | 2018-07-05 | 2018-12-07 | 第四范式(北京)技术有限公司 | 新词发现方法及*** |
Non-Patent Citations (2)
Title |
---|
Liang Yang 等.Extraction New Sentiment Words in Weibo Based on Relative Branch Entropy.《China Conference on Information Retrieval》.2018,全文. * |
刘伟童 ; 刘培玉 ; 刘文锋 ; 李娜娜 ; .基于互信息和邻接熵的新词发现算法.计算机应用研究.2018,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110442861A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899260B (zh) | 一种中文病理文本结构化处理方法 | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
RU2018119771A (ru) | Сопоставление больниц из обезличенных баз данных здравоохранения без очевидных квазиидентификаторов | |
CN111899890B (zh) | 基于比特串哈希的医疗数据相似度检测***与方法 | |
CN107679036A (zh) | 一种错别字监测方法及*** | |
CN110502750A (zh) | 中医文本分词过程中的消歧方法、***、设备及介质 | |
CN109344250A (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
DE102013202365A1 (de) | Herausziehen von informationen aus krankenakten | |
CN113343703B (zh) | 医学实体的分类提取方法、装置、电子设备及存储介质 | |
CN109947951A (zh) | 一种可自动更新的用于金融文本分析的情感字典构建方法 | |
CN110929498A (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN109215798B (zh) | 一种面向中医古文的知识库构建方法 | |
CN106959943B (zh) | 语种识别更新方法及装置 | |
CN109471950A (zh) | 腹部超声文本数据的结构化知识网络的构建方法 | |
CN105488098A (zh) | 一种基于领域差异性的新词提取方法 | |
CN110442861B (zh) | 一种基于真实世界统计的中文专业术语与新词发现的方法 | |
Zweigenbaum et al. | Multiple Methods for Multi-class, Multi-label ICD-10 Coding of Multi-granularity, Multilingual Death Certificates. | |
US11556706B2 (en) | Effective retrieval of text data based on semantic attributes between morphemes | |
CN112632910A (zh) | 手术编码方法以及电子设备、存储装置 | |
Schraagen | Aspects of record linkage | |
Gafni | Child phonology analyzer: Processing and analyzing transcribed speech. | |
CN111339778A (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN111104481A (zh) | 一种识别匹配字段的方法、装置及设备 | |
CN106844325A (zh) | 医疗信息处理方法和医疗信息处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |