CN108509419A

CN108509419A - 中医药古籍文献分词和词性标引方法及***

Info

Publication number: CN108509419A
Application number: CN201810233868.4A
Authority: CN
Inventors: 付先军; 李学博; 王振国; 陈晓康; 桑晓明; 鞠芳凝; 周扬; 陈聪; 邵欣欣
Original assignee: Shandong University of Traditional Chinese Medicine
Current assignee: Shandong University of Traditional Chinese Medicine
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-07
Anticipated expiration: 2038-03-21
Also published as: CN108509419B

Abstract

本发明公开了中医药古籍文献分词和词性标引方法及***；所述方法，包括：步骤(1)：构建中医药分词词典；步骤(2)：采用中医药分词词典对待分词的文本进行分词处理和词性标注；步骤(3)：判断待分词的文本是否全部分词成功；对分词成功的分词结果直接输出；步骤(4)：对分词失败的文本，采用ansj词典再次进行分词处理；得到最终的分词结果。

Description

中医药古籍文献分词和词性标引方法及***

技术领域

本发明涉及中医药古籍文献分词和词性标引方法及***。

背景技术

文献对人类的文明、社会的进步至关重要，是一切科学研究的基础。中医药文献是中国古代文献的重要组成部分，是研究古代医家临床用药经验的重要基础，不但综合了中医药的理、法、方、药等知识，还蕴藏着中医药几千年发展过程中积累的学术思想和临床用药经验，挖掘这些宝贵的文化遗产是中医药学术传承与创新的重要前提和基础。中医药理论的现代诠释，中医病证、治法、方药的现代研究，都离不开对古典医药，如“青蒿素”的发现就离不开《肘后备急方》等中医药古典文献中获取的灵感。

中医药文献的整理分析是以分词和词性标注为基础的。分词是将连续字序列按照一定规范重新组合成词序列的过程，现阶段国内外有关中文分词理论、方法和技术的研究多数仍处理论或实验阶段且偏向自然语言处理和信息检索，成型可用的中文分词软件较少；而专门针对中医药分词及词性标注的软件和方法尚未见报道，由于中医药专业术语的特殊性，应用一般中文分词软件对中医药文献进行的分词结果准确率和召回率都比较低，有报道最高的盘古分词对中医文献分词的准确率也就0.735，召回率只有0.663，其他的中文分词***的准确率和召回率、综合分类率(F1)甚至在0.5以下，如PHP Analysis准确率只有0.312，召回率只有0.369，而且都不能针对中医药的专业特征进行特定的词性标注。这大大制约了中医药文献的利用和发掘。而且大多软件需要配置环境，对***有特定要求，可移植性比较差，不易操作。

因此，构建一种适合中医药文献特征、准确率和召回率高、能进行符合中医药专业术语特征的词性标注的中医药文献分词与词性标注***和方法，突破当今制约中医药文献挖掘和知识发现的主要技术瓶颈，对于中医药的传承与创新，发挥中医药的原创优势具有十分重要的意义。

发明内容

本发明的目的是提供中医药古籍文献分词和词性标引方法及***，能够提高中医药古籍文献分词的准确性和召回率，并能够进行符合中医药专业术语特征的词性标注，解决目前中文分词***对中医药文献分词准确率和召回率低，无法进行中医药专业词性标注的难题，经过我们对《伤寒论》文本的分词和词性标注进行了应用，发现本分词***较一般的中文分词***具有更高的准确率和召回率，而且对《伤寒论》文献的词性标注，也非常接近专业人员的水平。

本发明的第一方面，提供了中医药古籍文献分词及词性标引方法；

中医药古籍文献分词及词性标引方法，包括：

步骤(1)：构建中医药分词词典；

步骤(2)：采用中医药分词词典对待分词的文本进行分词处理和词性标注；

步骤(3)：判断待分词的文本是否全部分词成功；对分词成功的分词结果直接输出；

步骤(4)：对分词失败的文本，采用ansj词典再次进行分词处理；得到最终的分词结果。

进一步的，所述步骤(1)构建中医药分词词典的步骤为：

步骤(101)：构建中医药专业术语词库；

步骤(102)：对中医药专业术语词库中的词进行词性分类与标记；

步骤(103)：采用三列式词典构建方法构建中医药分词词典。

进一步的，所述步骤(101)构建中医药专业术语词库的步骤为：

从中医药古籍文献和中医药词典中提取中医药专业术语；

所述中医药专业术语，包括：中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。

进一步的，所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为：

参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分，结合中医药名词术语的特征，将中医药名词分为若干类词性，构建14类分类词性表，14类分类词性包括：1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词；每类词分为若干级亚类，根据词性的级别，按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。

每类词分为若干级亚类，比如中医诊法包括四诊亚类，四诊包括望诊、闻诊、问诊、切诊，望诊包括舌诊，舌诊包括舌象，舌象包括舌苔和舌质，舌苔包括苔色和苔质，最多有7级亚类。

进一步的，所述步骤(103)采用三列式词典构建方法构建中医药分词词典，中医药分词词典分为三列，分别是：

第1列为中医药专业词语，如贼、朱砂安神丸等；

第2列为词性分类字母，如朱砂安神丸属于词性中的方剂分类中的重镇安神剂，词性分类字母为FCzzasj；

第3列为词性分级标识。如方剂分类中的重镇安神剂属于分级中的第4级，标注为4。

进一步的，所述步骤(2)步骤为：

步骤(201)：应用词袋模型对待分词文本进行关键词抽取；

步骤(202)：使用中医药分词词典中的已有词训练条件随机场CRF模型，使用条件随机场CRF模型发现新词，并将新词纳入中医药分词词典；

步骤(203)：使用分词词典中的全部已有词构建双数组Tire树；

步骤(204)：将待分词文本中抽取的关键词与双数组Tire树进行单串模式匹配，使用双数组Tire树来对当前抽取的关键词进行分词，得到分词结果；

步骤(205)：训练隐马尔科夫模型：将分词词典中每个已有词作为观察状态序列，每个词的词性作为隐含状态序列进行隐马尔科夫模型训练，得到训练好的隐马尔科夫模型；

步骤(206)：使用训练好的隐马尔科夫模型进行词性标注：将步骤(204)中得到的分词结果中的词序列作为观察状态序列输入到训练好的隐马尔科夫模型，通过viterbi算法产生当前观察状态序列的隐含状态序列，从而得到相应的隐藏状态，隐藏状态即为待分词文本的词性，从而完成词性标注。

进一步的，步骤(3)判断待分词的文本是否全部分词成功，判断标准为：

若每个分词结果都带有词性标注字母，则表示分词成功，否则，表示分词失败。

本发明的第二方面，提供了中医药古籍文献分词及词性标引***；

中医药古籍文献分词及词性标引***，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

本发明对中医药古籍文献分词的召回率和准确率远远高于现有技术。

本发明首次实现了中医药专业词性标注，为中医药文献挖掘和知识发现提供了基础。

本发明的两次分词处理，保证了分词结果的完整性和精确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

如图1所示，中医药古籍文献分词及词性标引方法，包括：

步骤(1)：构建中医药分词词典；

进一步的，所述步骤(1)构建中医药分词词典的步骤为：

步骤(101)：构建中医药专业术语词库；

步骤(103)：采用三列式词典构建方法构建中医药分词词典。

1.中医药分词词典的构建

1.1中医药专业术语词库构建

目前一般的中文分词软件对中医药分词准确度差异的主要原因之一是对中医证候、经络、穴位等术语识别能力不同，因此本***首先构建了完善的中医药术语词库。采用网络爬虫、人工神经网络以及人工校正、提取、标准化处理方法，从中医药古籍文献、各种中医药词典中，提取并构建了一个涵盖中药药名、方剂名称等中医药专业术语的专用词库，涉及中医药相关词155,343条，是目前收词量最多的中医药专业术语词库。

表1.中医药分词词库构成表

1.2中医药专用词性标注方法

词性标注(Part-of-Speech tagging或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，一般来说，现在的词性标注多是确定每个词是名词、动词、形容词或其他词性的过程。这种词性的标注对于中医药文献的文本挖掘和分析意义并不是很大，基于此，我们结合中医药专业特点，按照中医药理论体系的分类方法，将中医药名词分为14类818个词性：中医理论基础、中医诊法、中药、方剂相关名词、伤寒与温病、治则、治法、中医药相关学科、中医古籍、中医药机构、中医药仪器设备、医药卫生人员名称、地理名称和其它。

并采用了一阶隐马模型，在这个隐马尔可夫模型中，隐状态是818个词性，显状态是818个字母缩写，为了与一般的词性标注相区别，前面加FC。

同时根据词性的级别，尽量按照从低到高的优先顺序进行标注。

表2.中医药专业词性构成表(部分)

1.3中医药分词词典的构建和扩展

分词词典是本***的核心部分，对分词结果的准确率和速度都会产生重要影响，本***基于以上的中医药专业术语词库和词性标注方法，采用3列式词典构建方法，第1列为中医药专业名词术语，第2列为词性标注字母，第3列为分级标志。

1.4tire树(字典树)构造过程

(1)建立根节点root,令base[root]＝1

(2)找出root的子节点集{root.childreni}(i＝1...n),使得check[root.childreni]＝base[root]＝1

(3)对each element in root.children:

1)找到{elemenet.childreni}(i＝1...n)，注意若一个字符位于字符序列的结尾，则其孩子节点包括一个空节点，其code值设置为0找到一个值begin使得每一个check[begini+element.childreni.code]＝0

2)设置base[element.childreni]＝begini

3)对element.childreni递归执行步骤3，若遍历到某个element，其没有children，即叶节点，则设置base[element]为负值

2.中医药文献分词算法及词性标注

本分词***的核心算法为Ansj的开源代码，是一个Java中文分词工具，基于中科院的ictclas中文分词算法，比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。

在此基础上应用我们自己构建的中医药专业词典代替默认词典，利用Ansj的词典作为补充，基于HMM的进行词性标注。

3.中医药文献分词及词性标注服务***的构建与使用

中医古籍文献分词***采用Java语言开发，***包含分词架构和用户界面。用户界面采用网页形式呈现给用户，用户通过网页进行登录、注册，未登录用户只可访问站点，不可使用分词功能。登录用户可以通过复制粘贴文本的形式提交需分词文本，也可以通过上传txt文本形式提交分词文本，分词结果也有两种方式，复制和txt文本下载。

4.实施效果

4.1提高分词准确率和召回率

以《伤寒论》洁古本全文的文字内容作为测试文本，以Ansj原程序作为对比，进行了分词测试，结果发现，中医药古籍文献分词***分词的召回率和准确率远远高于Ansj源程序及***词库，测试文本中中医药专有名词比如太阳病、汗出、恶风、脉缓等，用Ansj源程序及***词库无法识别，也就不能进行正确的分词，而中医药古籍文献分词***都能准确识别并进行分词。

表3分词效果比较

4.2实现了中医药专业词性标注

在准确分词的基础上，实现了准确的专有词性标注，如表3所示，“太阳病”、“中风”准确标注了FCbm，表示这个词是“中医病名”；“发热”、“汗出”、“脉缓”标注为FCzz，表示这些词是中医中的症状名称，这对于后期的文本挖掘中的统计分析和知识发现具有重要意义。

4.3***操作简单、可移植性强

中医古籍文献分词***采用Java语言开发，可读性强，易于扩展，易于修改。***包括用户登录、注册以及用户权限控制，未登录用户只可访问站点，不可使用分词功能。***界面友好、易于使用的，具有人性化的提示。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.中医药古籍文献分词及词性标引方法，其特征是，包括：

步骤(1)：构建中医药分词词典；

2.如权利要求1所述的中医药古籍文献分词及词性标引方法，其特征是，所述步骤(1)构建中医药分词词典的步骤为：

步骤(101)：构建中医药专业术语词库；

步骤(103)：采用三列式词典构建方法构建中医药分词词典。

3.如权利要求2所述的中医药古籍文献分词及词性标引方法，其特征是，所述步骤(101)构建中医药专业术语词库的步骤为：

从中医药古籍文献和中医药词典中提取中医药专业术语。

4.如权利要求3所述的中医药古籍文献分词及词性标引方法，其特征是，所述中医药专业术语，包括：中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。

5.如权利要求2所述的中医药古籍文献分词及词性标引方法，其特征是，所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为：

参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分，结合中医药名词术语的特征，将中医药名词分为若干类词性，构建14类分类词性表，14类分类词性包括：1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词；

每类词分为若干级亚类，根据词性的级别，按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。

6.如权利要求2所述的中医药古籍文献分词及词性标引方法，其特征是，

所述步骤(103)采用三列式词典构建方法构建中医药分词词典，中医药分词词典分为三列，分别是：第1列为中医药专业词语；第2列为词性分类字母；第3列为词性分级标识。

7.如权利要求1所述的中医药古籍文献分词及词性标引方法，其特征是，所述步骤(2)步骤为：

步骤(201)：应用词袋模型对待分词文本进行关键词抽取；

步骤(203)：使用分词词典中的全部已有词构建双数组Tire树；

8.如权利要求1所述的中医药古籍文献分词及词性标引方法，其特征是，

步骤(3)判断待分词的文本是否全部分词成功，判断标准为：

9.中医药古籍文献分词及词性标引***，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-8任一所述的步骤。

10.一种计算机可读存储介质，其特征是，其上运行有计算机指令，所述计算机指令被处理器运行时，完成权利要求1-8任一所述的步骤。