CN111259667A - 一种中医分词算法 - Google Patents
一种中医分词算法 Download PDFInfo
- Publication number
- CN111259667A CN111259667A CN202010045614.7A CN202010045614A CN111259667A CN 111259667 A CN111259667 A CN 111259667A CN 202010045614 A CN202010045614 A CN 202010045614A CN 111259667 A CN111259667 A CN 111259667A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- word segmentation
- traditional chinese
- corpus
- segmentation algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 54
- 239000003814 drug Substances 0.000 title claims abstract description 39
- 238000011160 research Methods 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical compound CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 description 1
- 208000019505 Deglutition disease Diseases 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 241001522129 Pinellia Species 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000014103 egg white Nutrition 0.000 description 1
- 210000000969 egg white Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种中医分词算法,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N‑最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注,本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗***奠定基础,提升基础语义组件的效果。
Description
技术领域
本发明涉及自然语言处理的应用技术领域,具体是一种中医分词算法。
背景技术
中文的特点是没有类似空格之类显示标示词的边界标志,因此,如何对词进行切分,即中文分词的研究,是中文信息处理的基础与关键。一个成熟的自动分词***能够为语言的深入研究提供数据支持,也是句法分析、全文检索等复杂信息处理***的前提。对于一般的文献,中文分词的算法已经比较成熟,已有多种开源中文分词软件,但对于专业领域的文献,中文分词的研究才刚起步。中医医案文献是诊疗过程的记录,是理法方药的具体体现,是继承、学习、研究中医的重要资料,信息含量大,属于专业领域的文献。
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。目前开源的分词对通用领域分词效果尚可,但是对于中医描述,偏古文的分词效果比较差。
发明内容
本发明的目的在于提供一种中医分词算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种中医分词算法,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。
作为本发明的进一步方案:在完成原子切分的同时还需要完成大小写、简繁体、全角半角的规范。
作为本发明的进一步方案:所述语料库是基于实际使用中真实出现过的语言材料,是自然语言处理研究的基础资源。
作为本发明的进一步方案:所述语料库中文本的切分单位包括词、短语和中医术语。
作为本发明的进一步方案:所述人名标注为nr,地名标注为ns。
作为本发明的进一步方案:所述名词均标注为n,动词均标注为v。
作为本发明的进一步方案:所述语料库中对文本进行人工分词与词性标注部分为标注语料库。
与现有技术相比,本发明的有益效果是:本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗***奠定基础,提升基础语义组件的效果。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1,汉语分词的主要瓶颈是切分排歧和未登录词识别,采用层叠隐马模型(hierarchical hidden Markov model,HHMM)的词法分析框架较好地解决了这一问题。该模型是中国科学院计算技术研究所在传统隐马模型(hidden Markov model,HMM)基础上进行扩展及泛化后提出的,基于这一框架研制的汉语词法分析***(Institute ofComputing Technology Chinese Lexical Analysis System,ICTCLAS),将中文分词、词性标注、命名体识别、切分排歧等词法分析任务整合到一个相对统一的理论模型中,是目前最好的汉语词法分析***之一,分词精度达到98.45%。
本研究基于python实现了ICTCLAS的算法,本发明实施例中,一种中医分词算法,首先是对中医医案的文本进行原子切分,同时完成大小写、简繁体、全角半角的规范,其次引入中医领域词典完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。
语料库是基于实际使用中真实出现过的语言材料,是自然语言处理研究的基础资源。标注语料库是对文本进行人工分词与词性标注的语料库,限于时间与精力,本研究所建立的中医医案文献标注语料库仅收录了医案20000例,涉及内、外、妇、儿各科,共174 418字符。语料库的选材以正式出版的中医医案为语料来源,从各科医案文献中随机选取一定数量的医案,分别选取1911年以前的古代医案文献300例,1949年以后的现代医案文献300例。
语料库中文本的切分单位包括词、短语、中医术语和其他切分单位,词性标记依据《计算所汉语词性标记集(ICTPOS3.0)》,人名标注为nr,地名标注为ns,其他则仅取其第一级的词性标注,如名词均标注为n,动词均标注为v,对于其下一级的词性则未做区分标注,如名词下一级的机构团体名、名词性语素和动词下一级的副动词、名动词、趋向动词等,标点符号标注为w。此外,针对中医领域词典,增加了专门的中医术语词性标记中药名zym、中医症状zzz、中医方剂名zfm、中医病名zbm、中医其他术语zo。在标注时,词(切分单位)之间用空格分隔,词(切分单位)与词性标记间用“/”号分隔,标注语料样例如下:
患者/n男性/n。/w咽中痛/zzz,/w声/n瘖/zzz,/w吞咽困难/zzz。/w两寸脉/zo独/d浮/a虚/a。/w方/n用/v苦酒汤/zfm。/w取/v鸡子白/zym以/p清火/zo润肺/zo,/w半夏/zym破结/zo散邪/zo,/w合/v苦酒/zym散瘀/zo解毒/zo。/w仅/d服/v一/m剂/q,/w痛/zzz止/v,/w声/n开/v。/w。
实施例2,在实施例1的基础上,本发明通过以下4个基本指标对分词结果进行评测:准确率(Precision)、召回率(Recall)、F-评价(F-score,综合准确率和召回率的评价指标)、词性标注准确率(Accuracy)。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种中医分词算法,其特征在于,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。
2.根据权利要求1所述的一种中医分词算法,其特征在于,在完成原子切分的同时还需要完成大小写、简繁体、全角半角的规范。
3.根据权利要求1所述的一种中医分词算法,其特征在于,所述语料库是基于实际使用中真实出现过的语言材料,是自然语言处理研究的基础资源。
4.根据权利要求3所述的一种中医分词算法,其特征在于,所述语料库中文本的切分单位包括词、短语和中医术语。
5.根据权利要求4所述的一种中医分词算法,其特征在于,所述人名标注为nr,地名标注为ns。
6.根据权利要求4所述的一种中医分词算法,其特征在于,所述名词均标注为n,动词均标注为v。
7.根据权利要求3所述的一种中医分词算法,其特征在于,所述语料库中对文本进行人工分词与词性标注部分为标注语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045614.7A CN111259667A (zh) | 2020-01-16 | 2020-01-16 | 一种中医分词算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045614.7A CN111259667A (zh) | 2020-01-16 | 2020-01-16 | 一种中医分词算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259667A true CN111259667A (zh) | 2020-06-09 |
Family
ID=70950567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010045614.7A Pending CN111259667A (zh) | 2020-01-16 | 2020-01-16 | 一种中医分词算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259667A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767734A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种基于多层隐马模型的分词方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU4693597A (en) * | 1996-10-29 | 1998-05-22 | Commonwealth Scientific And Industrial Research Organisation | Stable expression of triple helical proteins |
WO2004020595A2 (en) * | 2002-08-29 | 2004-03-11 | Five Prime Therapeutics, Inc. | Novel human polypeptides encoded by polynucleotides |
AU2013231105A1 (en) * | 2008-03-26 | 2013-10-10 | Theranos Ip Company, Llc | Methods and systems for assessing clinical outcomes |
AU2014265116A1 (en) * | 2008-10-17 | 2014-12-11 | Xenon Pharmaceuticals Inc. | Spiro-oxindole compounds and their use as therapeutic agents |
AU2015242981A1 (en) * | 2003-06-27 | 2015-11-05 | Amgen Fremont Inc. | Antibodies directed to the deletion mutants of epidermal growth factor receptor and uses thereof |
CN106844351A (zh) * | 2017-02-24 | 2017-06-13 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的医疗机构组织类实体识别方法及装置 |
CN107491439A (zh) * | 2017-09-07 | 2017-12-19 | 成都信息工程大学 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
CN110134766A (zh) * | 2019-05-09 | 2019-08-16 | 北京科技大学 | 一种面向中医古籍文献的分词方法和装置 |
CN110502750A (zh) * | 2019-08-06 | 2019-11-26 | 山东师范大学 | 中医文本分词过程中的消歧方法、***、设备及介质 |
-
2020
- 2020-01-16 CN CN202010045614.7A patent/CN111259667A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU4693597A (en) * | 1996-10-29 | 1998-05-22 | Commonwealth Scientific And Industrial Research Organisation | Stable expression of triple helical proteins |
WO2004020595A2 (en) * | 2002-08-29 | 2004-03-11 | Five Prime Therapeutics, Inc. | Novel human polypeptides encoded by polynucleotides |
AU2015242981A1 (en) * | 2003-06-27 | 2015-11-05 | Amgen Fremont Inc. | Antibodies directed to the deletion mutants of epidermal growth factor receptor and uses thereof |
AU2013231105A1 (en) * | 2008-03-26 | 2013-10-10 | Theranos Ip Company, Llc | Methods and systems for assessing clinical outcomes |
AU2014265116A1 (en) * | 2008-10-17 | 2014-12-11 | Xenon Pharmaceuticals Inc. | Spiro-oxindole compounds and their use as therapeutic agents |
CN106844351A (zh) * | 2017-02-24 | 2017-06-13 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的医疗机构组织类实体识别方法及装置 |
CN107491439A (zh) * | 2017-09-07 | 2017-12-19 | 成都信息工程大学 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
CN110134766A (zh) * | 2019-05-09 | 2019-08-16 | 北京科技大学 | 一种面向中医古籍文献的分词方法和装置 |
CN110502750A (zh) * | 2019-08-06 | 2019-11-26 | 山东师范大学 | 中医文本分词过程中的消歧方法、***、设备及介质 |
Non-Patent Citations (2)
Title |
---|
O.ANWAR BÉG;M.J.UDDIN;T.BÉG;R.REDDY GORLA;: "Numerical simulation of self-similar thermal convection from a spinning cone in anisotropic porous medium", JOURNAL OF HYDRODYNAMICS, no. 02 * |
张帆;刘晓峰;孙燕;: "中医医案文献自动分词研究", 中国中医药信息杂志, no. 02, pages 1 - 3 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767734A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种基于多层隐马模型的分词方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daud et al. | Urdu language processing: a survey | |
Jacquemin et al. | NLP for term variant extraction: synergy between morphology, lexicon, and syntax | |
Miller et al. | A novel use of statistical parsing to extract information from text | |
Jacquemin | Spotting and discovering terms through natural language processing | |
Church | Phonological parsing and lexical retrieval | |
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Nakov et al. | Using verbs to characterize noun-noun relations | |
Fürstenau et al. | Semi-supervised semantic role labeling | |
Guo et al. | Dependency-based n-gram models for general purpose sentence realisation | |
Civit et al. | Building cast3lb: A spanish treebank | |
Adler | Hebrew morphological disambiguation: An unsupervised stochastic word-based approach | |
Dang | Investigations into the role of lexical semantics in word sense disambiguation | |
Krieger et al. | Information Extraction from German Patient Records via Hybrid Parsing and Relation Extraction Strategies. | |
CN111259667A (zh) | 一种中医分词算法 | |
Marciniak et al. | Nested term recognition driven by word connection strength | |
Pirkola | Studies on linguistic problems and methods in text retrieval: the effects of anaphor and ellipsis resolution in proximity searching, and translation and query structuring methods in cross-language retrieval | |
Don | Processing natural Malay texts: A data-driven approach | |
CN111222325A (zh) | 一种双向栈式循环神经网络的医疗语义标注方法和*** | |
El-Kahlout et al. | Turkish constituent chunking with morphological and contextual features | |
Dandapat | Part-of-Speech tagging for Bengali | |
Taljard et al. | On the development of a tagset for Northern Sotho with special reference to the issue of standardisation | |
Cloeren | Tagsets | |
Frunza | Automatic identification of cognates, false friends, and partial cognates | |
Kaufmann et al. | Syntactic language modeling with formal grammars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |