CN108509419A - 中医药古籍文献分词和词性标引方法及*** - Google Patents

中医药古籍文献分词和词性标引方法及*** Download PDF

Info

Publication number
CN108509419A
CN108509419A CN201810233868.4A CN201810233868A CN108509419A CN 108509419 A CN108509419 A CN 108509419A CN 201810233868 A CN201810233868 A CN 201810233868A CN 108509419 A CN108509419 A CN 108509419A
Authority
CN
China
Prior art keywords
chinese medicine
speech
traditional chinese
dictionary
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810233868.4A
Other languages
English (en)
Other versions
CN108509419B (zh
Inventor
付先军
李学博
王振国
陈晓康
桑晓明
鞠芳凝
周扬
陈聪
邵欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Traditional Chinese Medicine
Original Assignee
Shandong University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Traditional Chinese Medicine filed Critical Shandong University of Traditional Chinese Medicine
Priority to CN201810233868.4A priority Critical patent/CN108509419B/zh
Publication of CN108509419A publication Critical patent/CN108509419A/zh
Application granted granted Critical
Publication of CN108509419B publication Critical patent/CN108509419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了中医药古籍文献分词和词性标引方法及***;所述方法,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。

Description

中医药古籍文献分词和词性标引方法及***
技术领域
本发明涉及中医药古籍文献分词和词性标引方法及***。
背景技术
文献对人类的文明、社会的进步至关重要,是一切科学研究的基础。中医药文献是中国古代文献的重要组成部分,是研究古代医家临床用药经验的重要基础,不但综合了中医药的理、法、方、药等知识,还蕴藏着中医药几千年发展过程中积累的学术思想和临床用药经验,挖掘这些宝贵的文化遗产是中医药学术传承与创新的重要前提和基础。中医药理论的现代诠释,中医病证、治法、方药的现代研究,都离不开对古典医药,如“青蒿素”的发现就离不开《肘后备急方》等中医药古典文献中获取的灵感。
中医药文献的整理分析是以分词和词性标注为基础的。分词是将连续字序列按照一定规范重新组合成词序列的过程,现阶段国内外有关中文分词理论、方法和技术的研究多数仍处理论或实验阶段且偏向自然语言处理和信息检索,成型可用的中文分词软件较少;而专门针对中医药分词及词性标注的软件和方法尚未见报道,由于中医药专业术语的特殊性,应用一般中文分词软件对中医药文献进行的分词结果准确率和召回率都比较低,有报道最高的盘古分词对中医文献分词的准确率也就0.735,召回率只有0.663,其他的中文分词***的准确率和召回率、综合分类率(F1)甚至在0.5以下,如PHP Analysis准确率只有0.312,召回率只有0.369,而且都不能针对中医药的专业特征进行特定的词性标注。这大大制约了中医药文献的利用和发掘。而且大多软件需要配置环境,对***有特定要求,可移植性比较差,不易操作。
因此,构建一种适合中医药文献特征、准确率和召回率高、能进行符合中医药专业术语特征的词性标注的中医药文献分词与词性标注***和方法,突破当今制约中医药文献挖掘和知识发现的主要技术瓶颈,对于中医药的传承与创新,发挥中医药的原创优势具有十分重要的意义。
发明内容
本发明的目的是提供中医药古籍文献分词和词性标引方法及***,能够提高中医药古籍文献分词的准确性和召回率,并能够进行符合中医药专业术语特征的词性标注,解决目前中文分词***对中医药文献分词准确率和召回率低,无法进行中医药专业词性标注的难题,经过我们对《伤寒论》文本的分词和词性标注进行了应用,发现本分词***较一般的中文分词***具有更高的准确率和召回率,而且对《伤寒论》文献的词性标注,也非常接近专业人员的水平。
本发明的第一方面,提供了中医药古籍文献分词及词性标引方法;
中医药古籍文献分词及词性标引方法,包括:
步骤(1):构建中医药分词词典;
步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;
步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;
步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。
进一步的,所述步骤(1)构建中医药分词词典的步骤为:
步骤(101):构建中医药专业术语词库;
步骤(102):对中医药专业术语词库中的词进行词性分类与标记;
步骤(103):采用三列式词典构建方法构建中医药分词词典。
进一步的,所述步骤(101)构建中医药专业术语词库的步骤为:
从中医药古籍文献和中医药词典中提取中医药专业术语;
所述中医药专业术语,包括:中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。
进一步的,所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为:
参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分,结合中医药名词术语的特征,将中医药名词分为若干类词性,构建14类分类词性表,14类分类词性包括:1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词;每类词分为若干级亚类,根据词性的级别,按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。
每类词分为若干级亚类,比如中医诊法包括四诊亚类,四诊包括望诊、闻诊、问诊、切诊,望诊包括舌诊,舌诊包括舌象,舌象包括舌苔和舌质,舌苔包括苔色和苔质,最多有7级亚类。
进一步的,所述步骤(103)采用三列式词典构建方法构建中医药分词词典,中医药分词词典分为三列,分别是:
第1列为中医药专业词语,如贼、朱砂安神丸等;
第2列为词性分类字母,如朱砂安神丸属于词性中的方剂分类中的重镇安神剂,词性分类字母为FCzzasj;
第3列为词性分级标识。如方剂分类中的重镇安神剂属于分级中的第4级,标注为4。
进一步的,所述步骤(2)步骤为:
步骤(201):应用词袋模型对待分词文本进行关键词抽取;
步骤(202):使用中医药分词词典中的已有词训练条件随机场CRF模型,使用条件随机场CRF模型发现新词,并将新词纳入中医药分词词典;
步骤(203):使用分词词典中的全部已有词构建双数组Tire树;
步骤(204):将待分词文本中抽取的关键词与双数组Tire树进行单串模式匹配,使用双数组Tire树来对当前抽取的关键词进行分词,得到分词结果;
步骤(205):训练隐马尔科夫模型:将分词词典中每个已有词作为观察状态序列,每个词的词性作为隐含状态序列进行隐马尔科夫模型训练,得到训练好的隐马尔科夫模型;
步骤(206):使用训练好的隐马尔科夫模型进行词性标注:将步骤(204)中得到的分词结果中的词序列作为观察状态序列输入到训练好的隐马尔科夫模型,通过viterbi算法产生当前观察状态序列的隐含状态序列,从而得到相应的隐藏状态,隐藏状态即为待分词文本的词性,从而完成词性标注。
进一步的,步骤(3)判断待分词的文本是否全部分词成功,判断标准为:
若每个分词结果都带有词性标注字母,则表示分词成功,否则,表示分词失败。
本发明的第二方面,提供了中医药古籍文献分词及词性标引***;
中医药古籍文献分词及词性标引***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
本发明对中医药古籍文献分词的召回率和准确率远远高于现有技术。
本发明首次实现了中医药专业词性标注,为中医药文献挖掘和知识发现提供了基础。
本发明的两次分词处理,保证了分词结果的完整性和精确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
如图1所示,中医药古籍文献分词及词性标引方法,包括:
步骤(1):构建中医药分词词典;
步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;
步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;
步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。
进一步的,所述步骤(1)构建中医药分词词典的步骤为:
步骤(101):构建中医药专业术语词库;
步骤(102):对中医药专业术语词库中的词进行词性分类与标记;
步骤(103):采用三列式词典构建方法构建中医药分词词典。
1.中医药分词词典的构建
1.1中医药专业术语词库构建
目前一般的中文分词软件对中医药分词准确度差异的主要原因之一是对中医证候、经络、穴位等术语识别能力不同,因此本***首先构建了完善的中医药术语词库。采用网络爬虫、人工神经网络以及人工校正、提取、标准化处理方法,从中医药古籍文献、各种中医药词典中,提取并构建了一个涵盖中药药名、方剂名称等中医药专业术语的专用词库,涉及中医药相关词155,343条,是目前收词量最多的中医药专业术语词库。
表1.中医药分词词库构成表
1.2中医药专用词性标注方法
词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,一般来说,现在的词性标注多是确定每个词是名词、动词、形容词或其他词性的过程。这种词性的标注对于中医药文献的文本挖掘和分析意义并不是很大,基于此,我们结合中医药专业特点,按照中医药理论体系的分类方法,将中医药名词分为14类818个词性:中医理论基础、中医诊法、中药、方剂相关名词、伤寒与温病、治则、治法、中医药相关学科、中医古籍、中医药机构、中医药仪器设备、医药卫生人员名称、地理名称和其它。
并采用了一阶隐马模型,在这个隐马尔可夫模型中,隐状态是818个词性,显状态是818个字母缩写,为了与一般的词性标注相区别,前面加FC。
同时根据词性的级别,尽量按照从低到高的优先顺序进行标注。
表2.中医药专业词性构成表(部分)
1.3中医药分词词典的构建和扩展
分词词典是本***的核心部分,对分词结果的准确率和速度都会产生重要影响,本***基于以上的中医药专业术语词库和词性标注方法,采用3列式词典构建方法,第1列为中医药专业名词术语,第2列为词性标注字母,第3列为分级标志。
1.4tire树(字典树)构造过程
(1)建立根节点root,令base[root]=1
(2)找出root的子节点集{root.childreni}(i=1...n),使得check[root.childreni]=base[root]=1
(3)对each element in root.children:
1)找到{elemenet.childreni}(i=1...n),注意若一个字符位于字符序列的结尾,则其孩子节点包括一个空节点,其code值设置为0找到一个值begin使得每一个check[begini+element.childreni.code]=0
2)设置base[element.childreni]=begini
3)对element.childreni递归执行步骤3,若遍历到某个element,其没有children,即叶节点,则设置base[element]为负值
2.中医药文献分词算法及词性标注
本分词***的核心算法为Ansj的开源代码,是一个Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
在此基础上应用我们自己构建的中医药专业词典代替默认词典,利用Ansj的词典作为补充,基于HMM的进行词性标注。
3.中医药文献分词及词性标注服务***的构建与使用
中医古籍文献分词***采用Java语言开发,***包含分词架构和用户界面。用户界面采用网页形式呈现给用户,用户通过网页进行登录、注册,未登录用户只可访问站点,不可使用分词功能。登录用户可以通过复制粘贴文本的形式提交需分词文本,也可以通过上传txt文本形式提交分词文本,分词结果也有两种方式,复制和txt文本下载。
4.实施效果
4.1提高分词准确率和召回率
以《伤寒论》洁古本全文的文字内容作为测试文本,以Ansj原程序作为对比,进行了分词测试,结果发现,中医药古籍文献分词***分词的召回率和准确率远远高于Ansj源程序及***词库,测试文本中中医药专有名词比如太阳病、汗出、恶风、脉缓等,用Ansj源程序及***词库无法识别,也就不能进行正确的分词,而中医药古籍文献分词***都能准确识别并进行分词。
表3分词效果比较
4.2实现了中医药专业词性标注
在准确分词的基础上,实现了准确的专有词性标注,如表3所示,“太阳病”、“中风”准确标注了FCbm,表示这个词是“中医病名”;“发热”、“汗出”、“脉缓”标注为FCzz,表示这些词是中医中的症状名称,这对于后期的文本挖掘中的统计分析和知识发现具有重要意义。
4.3***操作简单、可移植性强
中医古籍文献分词***采用Java语言开发,可读性强,易于扩展,易于修改。***包括用户登录、注册以及用户权限控制,未登录用户只可访问站点,不可使用分词功能。***界面友好、易于使用的,具有人性化的提示。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.中医药古籍文献分词及词性标引方法,其特征是,包括:
步骤(1):构建中医药分词词典;
步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;
步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;
步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。
2.如权利要求1所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(1)构建中医药分词词典的步骤为:
步骤(101):构建中医药专业术语词库;
步骤(102):对中医药专业术语词库中的词进行词性分类与标记;
步骤(103):采用三列式词典构建方法构建中医药分词词典。
3.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(101)构建中医药专业术语词库的步骤为:
从中医药古籍文献和中医药词典中提取中医药专业术语。
4.如权利要求3所述的中医药古籍文献分词及词性标引方法,其特征是,所述中医药专业术语,包括:中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。
5.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为:
参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分,结合中医药名词术语的特征,将中医药名词分为若干类词性,构建14类分类词性表,14类分类词性包括:1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词;
每类词分为若干级亚类,根据词性的级别,按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。
6.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,
所述步骤(103)采用三列式词典构建方法构建中医药分词词典,中医药分词词典分为三列,分别是:第1列为中医药专业词语;第2列为词性分类字母;第3列为词性分级标识。
7.如权利要求1所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(2)步骤为:
步骤(201):应用词袋模型对待分词文本进行关键词抽取;
步骤(202):使用中医药分词词典中的已有词训练条件随机场CRF模型,使用条件随机场CRF模型发现新词,并将新词纳入中医药分词词典;
步骤(203):使用分词词典中的全部已有词构建双数组Tire树;
步骤(204):将待分词文本中抽取的关键词与双数组Tire树进行单串模式匹配,使用双数组Tire树来对当前抽取的关键词进行分词,得到分词结果;
步骤(205):训练隐马尔科夫模型:将分词词典中每个已有词作为观察状态序列,每个词的词性作为隐含状态序列进行隐马尔科夫模型训练,得到训练好的隐马尔科夫模型;
步骤(206):使用训练好的隐马尔科夫模型进行词性标注:将步骤(204)中得到的分词结果中的词序列作为观察状态序列输入到训练好的隐马尔科夫模型,通过viterbi算法产生当前观察状态序列的隐含状态序列,从而得到相应的隐藏状态,隐藏状态即为待分词文本的词性,从而完成词性标注。
8.如权利要求1所述的中医药古籍文献分词及词性标引方法,其特征是,
步骤(3)判断待分词的文本是否全部分词成功,判断标准为:
若每个分词结果都带有词性标注字母,则表示分词成功,否则,表示分词失败。
9.中医药古籍文献分词及词性标引***,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-8任一所述的步骤。
10.一种计算机可读存储介质,其特征是,其上运行有计算机指令,所述计算机指令被处理器运行时,完成权利要求1-8任一所述的步骤。
CN201810233868.4A 2018-03-21 2018-03-21 中医药古籍文献分词和词性标引方法及*** Active CN108509419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233868.4A CN108509419B (zh) 2018-03-21 2018-03-21 中医药古籍文献分词和词性标引方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233868.4A CN108509419B (zh) 2018-03-21 2018-03-21 中医药古籍文献分词和词性标引方法及***

Publications (2)

Publication Number Publication Date
CN108509419A true CN108509419A (zh) 2018-09-07
CN108509419B CN108509419B (zh) 2022-02-22

Family

ID=63377776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233868.4A Active CN108509419B (zh) 2018-03-21 2018-03-21 中医药古籍文献分词和词性标引方法及***

Country Status (1)

Country Link
CN (1) CN108509419B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及***
CN110134766A (zh) * 2019-05-09 2019-08-16 北京科技大学 一种面向中医古籍文献的分词方法和装置
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及***
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、***、设备及介质
CN111488497A (zh) * 2019-01-25 2020-08-04 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731395A (zh) * 2005-08-18 2006-02-08 山东中医药大学 中医药古文献数据库
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102541865A (zh) * 2010-12-15 2012-07-04 盛乐信息技术(上海)有限公司 利用分词过程中识别的新词改善分词性能的方法
CN103365992A (zh) * 2013-07-03 2013-10-23 深圳市华傲数据技术有限公司 一种基于一维线性空间实现Trie树的词典检索方法
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107092674A (zh) * 2017-04-14 2017-08-25 福建工程学院 一种中医针灸领域事件触发词的自动抽取方法及***
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机***
CN107179085A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种面向稀疏浮动车数据的条件随机场地图匹配方法
CN107562834A (zh) * 2017-08-23 2018-01-09 四川长虹电器股份有限公司 地理位置标准化提取的方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731395A (zh) * 2005-08-18 2006-02-08 山东中医药大学 中医药古文献数据库
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102541865A (zh) * 2010-12-15 2012-07-04 盛乐信息技术(上海)有限公司 利用分词过程中识别的新词改善分词性能的方法
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN103365992A (zh) * 2013-07-03 2013-10-23 深圳市华傲数据技术有限公司 一种基于一维线性空间实现Trie树的词典检索方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN107179085A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种面向稀疏浮动车数据的条件随机场地图匹配方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107092674A (zh) * 2017-04-14 2017-08-25 福建工程学院 一种中医针灸领域事件触发词的自动抽取方法及***
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机***
CN107562834A (zh) * 2017-08-23 2018-01-09 四川长虹电器股份有限公司 地理位置标准化提取的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YANG HAIFENG 等: "Applicability of commonly used Chinese word segmentation software in the field of TCM text and literature research", 《WORLD SCIENCE AND TECHNOLOGYTCM MODERNIZATION》 *
ZHOU X. 等: "Text mining for traditional Chinese medical knowledge discovery:A survey", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
刘凯: "基于条件随机场的中医病历命名实体抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
蒋建洪 等: "词典与统计方法结合的中文分词模型研究及应用", 《计算机工程与设计》 *
韩雅丽 等: "文献计量学视角的中医药文献信息化研究现状探讨", 《世界科学技术-中医药现代化》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488497B (zh) * 2019-01-25 2023-05-12 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN111488497A (zh) * 2019-01-25 2020-08-04 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN109829159B (zh) * 2019-01-29 2020-02-18 南京师范大学 一种古汉语文本的一体化自动词法分析方法及***
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及***
CN110134766A (zh) * 2019-05-09 2019-08-16 北京科技大学 一种面向中医古籍文献的分词方法和装置
CN110134766B (zh) * 2019-05-09 2021-06-25 北京科技大学 一种面向中医古籍文献的分词方法和装置
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及***
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、***、设备及介质
CN111104801B (zh) * 2019-12-26 2023-09-26 济南大学 基于网址域名的文本分词方法、***、设备及介质
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置

Also Published As

Publication number Publication date
CN108509419B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN108509419A (zh) 中医药古籍文献分词和词性标引方法及***
CN105894088B (zh) 基于深度学习及分布式语义特征医学信息抽取***及方法
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
Névéol et al. CLEF eHealth 2018 Multilingual Information Extraction Task Overview: ICD10 Coding of Death Certificates in French, Hungarian and Italian.
CN110838368B (zh) 一种基于中医临床知识图谱的主动问诊机器人
CN109190113B (zh) 一种中医理论典籍的知识图谱构建方法
CN108549639A (zh) 基于多特征模板修正的中医医案命名识别方法及***
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN111048167B (zh) 一种层级式病例结构化方法及***
CN107391906A (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN104484845B (zh) 基于医学信息本体数据库的疾病自我分析平台
Barhoom et al. Sarcasm detection in headline news using machine and deep learning algorithms
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN106844351A (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
Ji et al. A BILSTM-CRF method to Chinese electronic medical record named entity recognition
Steinert Assyrian and Babylonian scholarly text catalogues: medicine, magic and divination
CN105389470A (zh) 一种中医针灸领域实体关系自动抽取的实现方法
CN109215798B (zh) 一种面向中医古文的知识库构建方法
CN112949308A (zh) 基于功能结构的中文电子病历命名实体识别方法及***
CN108647203A (zh) 一种中医病情文本相似度的计算方法
Oleynik et al. HPI-DHC at TREC 2018 Precision Medicine Track.
CN106886565A (zh) 一种基础房型自动聚合方法
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
CN109284391A (zh) 一种文献自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant