CN108021553A - 疾病术语的词处理方法、装置及计算机设备 - Google Patents

疾病术语的词处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN108021553A
CN108021553A CN201711107945.3A CN201711107945A CN108021553A CN 108021553 A CN108021553 A CN 108021553A CN 201711107945 A CN201711107945 A CN 201711107945A CN 108021553 A CN108021553 A CN 108021553A
Authority
CN
China
Prior art keywords
disease
term
candidate
name
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711107945.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yi Yi Intelligent Technology Co Ltd
Original Assignee
Beijing Yi Yi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yi Yi Intelligent Technology Co Ltd filed Critical Beijing Yi Yi Intelligent Technology Co Ltd
Publication of CN108021553A publication Critical patent/CN108021553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种疾病术语的词处理方法,包括:切分待处理的疾病名称,得到多个疾病分词;将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;获取各个候选疾病术语与疾病名称的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;选择候选疾病术语集合中,排位前列的候选疾病术语,作为所述疾病名称的词处理疾病术语。上述疾病名称的词处理方法,能够对疾病名称进行自动化规范。本发明还涉及一种疾病术语的词处理装置及设备。

Description

疾病术语的词处理方法、装置及计算机设备
技术领域
本发明涉及医疗领域,特别是涉及一种疾病术语的词处理方法、装置及计算机设备。
背景技术
目前,随着医学技术、计算机技术的发展,与疾病相关的文献和数据越来越多,面对这些数据,需要根据不同的疾病对这些数据进行区分,以用于快速的查询及诊疗数据的词处理管理。
国际疾病分类(International Classification of disease,ICD)是依据疾病的特征,将疾病分门别类,给予疾病标准名称,并用编码的方法来表示疾病的***。为了进行疾病统计、相关研究以及国际交流,该***的设立希望医生在录入患者的疾病信息时可以录入标准的疾病名称。
但是,在实际录入时,由于医生工作繁忙以及学习背景的不同,会大量使用简写、缩写、英文、连写等不规范疾病术语来快速录入疾病,偶尔也会出现包含错别字的疾病名称,例如在录入疾病时,使用“慢阻肺”而非“慢性阻塞性肺疾病”,难以自动识别出是何种疾病,不利于疾病的统计及研究。如何对这些不规范疾病术语进行规范处理,以便于后续疾病的研究,成为亟待解决的问题。
发明内容
基于此,有必要提供一种疾病术语的词处理方法、装置及计算机设备。
一种疾病术语的词处理方法,其中,所述方法包括:
切分待处理的疾病名称,得到多个疾病分词;
将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;
获取所述候选疾病术语集合中的各个候选疾病术语与所述待处理的疾病名称之间的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;
选择候选疾病术语集合中,预设个数的排序靠前的候选疾病术语,作为所述疾病名称的规范化疾病术语。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤包括:
获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的部位信息;
根据所述部位信息,在所述初选疾病术语集合中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的疾病核心词;
将所述疾病核心词在所述复选疾病术语集合中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语。
作为其中一个实施例,所述获取多个候选疾病术语与疾病名称的相似度,并按照相似度对所述候选疾病术语集中的候选疾病术语进行排序的步骤包括:
获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度;
对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对所述多个候选疾病术语进行排序。
作为其中一个实施例,所述切分所述疾病名称,得到多个疾病分词的步骤包括:
将所述疾病名称与疾病分词数据库中的每一个疾病分词类别进行匹配,得到所述多个疾病分词;
其中,所述疾病分词类别包括病因、部位、描述、核心词、补充信息及疾病属性中的至少一种。
作为其中一个实施例,所述切分待处理的疾病名称,得到多个疾病分词的步骤之前还包括:
对所述疾病名称进行字符转换,使所述疾病名称中的字符属性相同;
其中,所述字符转换包括语种转换、同义词替换、全角字符与半角字符转换中的至少一种。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语的步骤之前还包括:
获取标准疾病语料;
对所述标准疾病语料进行分词,建立库,作为标准疾病语料库;
所述分词库包括病因库、部位库、病理库、临床表现库及疾病核心词中的至少一种。
上述疾病名称的词处理方法,通过切分疾病名称以及基于标准疾病语料库,能够对疾病名称进行自动化规范,并且对于词处理后的疾病名称具有很高的识别精确率。
一种疾病术语的词处理装置,其中,所述疾病术语的词处理装置包括:
分词切分模块,用于切分待处理的疾病名称,得到多个疾病分词;
候选术语筛选模块,用于将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语;
候选术语排序模块,用于获取多个候选疾病术语与疾病名称的相似度,并按照相似度对多个候选疾病术语进行排序;
候选术语处理模块,用于选择多个候选疾病术语中,排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,其中,所述计算机指令在被所述处理器执行时实现上述任一实施例所述方法的步骤。
上述疾病名称的词处理装置及计算机设备,能够用于切分疾病分词,并基于标准疾病语料库对疾病名称进行自动化规范,并且对于词处理后的疾病名称具有很高的识别精确率。
附图说明
图1为一个实施例提供的疾病术语词处理方法的流程图;
图2为一个实施例提供的候选疾病术语集合获取方法的流程图;
图3为一个实施例提供的根据相似度对候选疾病术语进行排序的方法的流程图;
图4为一个实施例提供的建立标准疾病语料库的方法的流程图;
图5为另一个实施例提供的疾病术语的词处理方法的流程图;
图6为一个实施例提供的疾病术语的词处理装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明一个实施例提供一种疾病术语的词处理方法,所述方法包括:
步骤S110,切分待处理的疾病名称,得到多个疾病分词。
具体地,对于输入的医疗文本,如电子病历、医学教科书、论文,通过对医疗文本中待处理的疾病名称进行切分,得到多个疾病分词。同时,可以灵活选择分词工具,采用JIEBA分词等分词工具对医疗文本进行切分,也可以采用专门的医学语料库对医疗文本进行切分,获得多个分词。
步骤S120,将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语。
标准疾病语料库为存储有标准疾病名称的数据库,可用于对疾病名称进行规范。通过将待处理的疾病名称,与标准疾病语料库中的标准疾病名称进行匹配,从而能够得到与待处理的疾病名称匹配的候选疾病术语。
步骤S130,获取各个候选疾病术语与所述疾病名称的相似度,并按照相似度对多个候选疾病术语进行排序。
在得到多个候选疾病术语之后,可以计算各个候选疾病术语与待处理的疾病名称之间的相似度。另外,在获取到各个候选疾病术语与待处理的疾病名称之间的相似度之后,可以按照相似度的大小,对多个候选疾病术语进行排序。
步骤S140,选择多个候选疾病术语中,排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
在对多个候选疾病术语进行排序之后,可以选择排位前列的候选疾病术语,作为所述待处理的疾病名称的疾病术语。例如,可只选择排首位的候选疾病术语,作为待处理疾病名称的疾病术语。另外,也可选择排前三位的候选疾病术语,共同作为待处理疾病名称的疾病术语。
上述实施例提供的疾病名称的词处理方法,通过切分并基于标准疾病语料库,能够对疾病名称进行自动化规范,可以灵活解决多种不规范的词语形式,并且对于处理后的疾病名称具有很高的识别精确率。
在其中一个实施例中,请一并参阅图2,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语的步骤包括:
步骤S121,获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串。
为了便于识别,可将待处理的疾病名称中的首字母进行拼合,得到首字母字符串。如“慢阻肺”,则获取的首字母字符串为“MZF”。
步骤S122,在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称集合作为初选疾病术语集合。
然后将该首字母字符串,在标准疾病语料库中进行匹配,得到与该首字母字符串匹配的标准疾病名称,作为初选疾病术语。通过首字母字符串匹配的方式,能够快速、准确地在标准疾病语料库中,搜索到与疾病分词相对比较接近的标准疾病名称,作为初选疾病术语。可以理解,该初选疾病术语也可直接作为候选疾病术语。
在其中一个实施例中,在通过首字母字符串匹配的方式得到初选疾病术语之后,还包括:
步骤S123,获取所述多个疾病分词中的部位信息。
在待处理的疾病名称中,疾病分词中可能包含部位信息。该部位信息为对所患疾病部位进行描述,例如“肺部”、“呼吸道”、“脑”等。该部位信息能够用于相对精确地定位患者所患疾病的部位。
步骤S124,根据所述部位信息,在所述初选疾病术语中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
因此,通过在标准疾病语料库中,对部位信息进行匹配,如果在标准疾病语料库中,能够从初选疾病术语中找到与部位对应的疾病名称,也就能够得到与待处理的疾病名称的疾病分词更加接近的初选疾病名称集合,作为复选疾病术语集合。可以理解,该复选疾病术语集合也可直接作为候选疾病术语。
进一步,如果在获得的某个初选疾病术语中,未检索到与诊疗部位对应的疾病名称,则可将该初选疾病术语从候选疾病术语中删除,剩余的初选疾病术语,作为复选疾病术语集合。
在其中一个实施例中,得到所述复选疾病术语之后,还可包括:
步骤S125,获取所述多个疾病分词中的疾病核心词。
疾病核心词为描述疾病病症性质的词汇,通过该疾病核心词,可以判断所患疾病为何种疾病,例如“感染”、“结核”、“麻疹”等等。通过对疾病分词中的疾病核心词进行筛选,能够得到该疾病分词所对应的病症性质。
步骤S126,将所述疾病核心词在所述复选疾病术语集合中进行筛选,获得与所述疾病核心词匹配的复选疾病术语集合,作为所述候选疾病术语集合。
通过在复选疾病术语集合中,根据疾病核心词再次进行匹配,得到复选疾病术语中,包含疾病核心词的复选疾病术语,作为候选疾病术语集合。
进一步,如果在复选疾病术语中,未检索到疾病核心词,还可将该复选疾病术语从复选疾病术语集合中删除,以提高后续匹配的精度与速度。
在其中一个实施例中,请一并参阅图3,所述获取多个候选疾病术语与疾病名称的相似度,并按照相似度对候选疾病术语集中的候选疾病术语进行排序的步骤包括:
步骤S131,获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度;
步骤S132,对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
步骤S133,根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对候选疾病术语集中的候选疾病术语进行排序。
在步骤S131中,可以以“词”为单位,评估所述疾病名称与每一候选疾病术语的相似性,计算以词为粒度的向量空间余弦(cosin)相似度;可以以“字”为单位,评估所述疾病名称与每一候选疾病术语的相似性,计算以字为粒度的编辑距离(levenshtein)相似度;以“字”为单位,从字重合的角度,计算以字为粒度的重合度。
在步骤S132中,可以根据向量空间余弦相似度、编辑距离相似度、字符重合度的权值,进行加权处理,得到综合相似度。向量空间余弦相似度、编辑距离相似度、字符重合度的权值可以根据效率、准确度的不同实际需要进行设置。
在步骤S133中,可以根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、或者综合相似度中的至少一种对所述多个候选疾病术语进行排序。也就是说,可以仅根据向量空间余弦相似度、编辑距离相似度以及字符重合度中的一种或多种对候选疾病术语进行排序,以提高效率;也可根据综合相似度对候选疾病术语进行排序,以提高准确度。
例如,如果在疾病名称中出现错别字,如“脑梗寒”,则通过相似度计算与脑梗寒匹配的候选疾病术语包括“脑梗塞”;而对于简写、缩写,例如“慢阻肺”,则可通过相似度匹配,得到候选疾病术语包括“慢性阻塞性肺部疾病”等等。
在其中一个实施例中,所述切分所述疾病名称,得到多个疾病分词的步骤包括:
将所述疾病名称与疾病分词数据库中的每一个疾病分词类别进行匹配,得到所述多个疾病分词;其中,所述疾病分词类别包括病因、部位、描述、核心词、补充信息及疾病属性中的至少一种。
疾病分词数据库主要包括病因、部位、描述、核心词、补充信息及疾病属性等多个类别,根据上述多个类别,对疾病名称进行拆分,从而形成多个疾病分词。病因例如“EB病毒”等等;部位即为病患部位;而描述包括病理和临床表现等等,临床表现例如症状、体征、分期分型、性别、年龄、急慢性、发病时间等等;补充信息为附加的诊疗信息,如疾病、经细菌学和组织学所证实的;疾病属性例如伴/不伴等等。
在其中一个实施例中,所述切分待处理的疾病名称,得到多个疾病分词步骤之前还包括:
对所述疾病名称进行字符转换,使所述疾病名称中的字符属性相同;
其中,所述字符转换包括语种转换、同义词替换、全角字符与半角字符转换中的至少一种。
获取到待处理的疾病名称之后,由于疾病名称中,可能为纯英文或包含中英文,也可能包含全角字符、半角字符,则还可对上述不同属性的字符进行转换,使疾病名称中的字符属性都相同。另外,还可利用同义词库,对待处理的疾病名称,进行同义词的替换,以便于提高后续匹配的速度和精度,以提高后续的识别度。
例如,若疾病名称中包含“COPD”,则进行中文转换,得到“慢性阻塞性肺疾病”。而对于“L4-5椎间盘突出”,可进行中英文转换,也可以中文为主进行相似度匹配,即设置中文字符的权值较高。
在其中一个实施例中,在所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤之前还包括:
步骤S102,获取标准疾病语料。
步骤S104,对所述标准疾病语料进行分词,建立分词库,作为标准疾病语料库;所述分词库包括病因库、部位库、病理库、临床表现库及疾病核心词中的至少一种。
上述分词库的组合,可作为标准疾病语料库。
基于病因、部位、病历、临床表现及疾病核心词,构建5个疾病名称专属库:病因库、部位库、病理库、临床表现库及疾病核心词。
进一步,请参阅表1,ICD疾病名称的构成为:“疾病名称+逗号+补充信息”或“疾病名称+伴/不伴信息”。因此,还可再对ICD疾病名称的分词,将ICD疾病名称拆分为:部位、病因、描述(包括病理及临床表现)、核心词、补充信息及伴/不伴,等等,从而能够对待处理的疾病名称进一步细化,也使词处理的结果更加的准确。
表格1 ICD疾病名称拆分示例
可以理解,若在标准疾病语料库中,检索到与所述待处理的疾病名称匹配一致的标准疾病术语,则可直接将该标准疾病术语,作为待处理的疾病名称的疾病术语。
在其中一个实施例中,请一并参阅图5,提供一种疾病术语的词处理方法的流程图,包括:
步骤1,对待处理的疾病名称进行字符转换,使疾病名称中的字符属性相同;
步骤2.1,切分待处理的疾病名称,得到多个疾病分词;
步骤2.2,获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
步骤4.1,在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合;
步骤4.2,根据所述诊疗部位信息,在初选疾病术语集合中进行筛选,获得与部位匹配的初选疾病术语作为复选疾病术语集合;
步骤4.3,将疾病核心词在所述复选疾病术语中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语;
步骤5.1,获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度;
步骤5.2,获取所述疾病名称与每一候选疾病术语的编辑距离相似度;
步骤5.3,获取所述疾病名称与每一候选疾病术语的字符重合度;
步骤5.4,对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
步骤5.5,根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对所述多个候选疾病术语进行排序;
步骤6,选择排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
在其中一个实施例中,所述方法还包括:
步骤3,若在标准疾病语料库中,检索到与所述待处理的疾病名称匹配一致的标准疾病术语,则将该标准疾病术语,作为待处理的疾病名称的疾病术语。
请参阅图6,本发明一个实施例还提供一种疾病术语的词处理装置,所述疾病术语的词处理装置包括:
分词切分模块1002,用于切分待处理的疾病名称,得到多个疾病分词。
对于输入的医疗文本,如电子病历、医学教科书、论文,分词切分模块1002可对医疗文本中待处理的疾病名称进行切分,得到多个疾病分词。同时,可以灵活选择分词工具,采用JIEBA分词等分词工具对医疗文本进行切分,也可以采用专门的医学语料库对医疗文本进行切分,获得多个分词。
候选术语筛选模块1004,用于将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语。
标准疾病语料库为存储有标准疾病名称的数据库,可用于对疾病名称进行规范。候选术语筛选模块1004将待处理的疾病名称,与标准疾病语料库中的标准疾病名称进行匹配,从而能够得到与待处理的疾病名称匹配的候选疾病术语。
候选术语排序模块1006,用于获取多个候选疾病术语与疾病名称的相似度,并按照相似度对多个候选疾病术语进行排序。
在得到多个候选疾病术语之后,候选术语排序模块1006可以计算各个候选疾病术语与待处理的疾病名称之间的相似度。另外,在获取到各个候选疾病术语与待处理的疾病名称之间的相似度之后,可以按照相似度的大小,对多个候选疾病术语进行排序。
候选术语处理模块1008,用于选择多个候选疾病术语中,排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
在对多个候选疾病术语进行排序之后,候选术语处理模块1008可以选择排位前列的候选疾病术语,作为所述待处理的疾病名称的疾病术语。例如,可只选择排首位的候选疾病术语,作为待处理疾病名称的疾病术语。另外,也可选择排前三位的候选疾病术语,共同作为待处理疾病名称的疾病术语。
上述实施例提供的疾病名称的词处理装置,通过切分得到疾病分词并基于标准疾病语料库,能够对疾病名称进行自动化规范,并且对于词处理后的疾病名称具有很高的识别精确率。
在其中一个实施例中,所述候选术语筛选模块1004包括:
字符串获取单元,用于获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
候选词初选单元,用于在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合。
在其中一个实施例中,所述候选术语筛选模块1004还包括:
部位获取单元,用于获取所述多个疾病分词中的部位信息;
候选词复选单元,用于根据所述诊疗部位信息,在所述初选疾病术语集合中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
在其中一个实施例中,候选术语筛选模块1004还包括:
核心词获取单元,用于获取所述多个疾病分词中的疾病核心词;
候选术语确定单元,用于将所述疾病核心词在所述复选疾病术语中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语。
在其中一个实施例中,候选术语排序模块1006包括:
相似度获取单元,用于获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度中的至少一种;
综合相似度获取单元,用于对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
候选术语排序单元,用于根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对所述多个候选疾病术语进行排序。
在其中一个实施例中,分词切分模块1002还用于:
将所述疾病名称与疾病分词数据库中的每一个疾病分词类别进行匹配,得到所述多个疾病分词;
其中,所述疾病分词类别包括病因、部位、描述、核心词、补充信息及疾病属性中的至少一种。
在其中一个实施例中,候选术语筛选模块1004还用于:
对所述疾病名称进行字符转换,使所述疾病名称中的字符属性相同;
其中,所述字符转换包括语种转换、同义词替换、全角字符与半角字符转换中的至少一种。
在其中一个实施例中,分词切分模块1002还用于:
获取标准疾病语料;
对所述标准疾病语料进行分词,建立分词库,作为标准疾病语料库;
所述分词库包括病因库、部位库、病理库、临床表现库及疾病核心词中的至少一种。
本发明一个实施例中,还提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,所述计算机指令在被所述处理器执行时实现疾病术语的词处理方法,所述方法包括:
切分待处理的疾病名称,得到多个疾病分词;
将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;
获取各个候选疾病术语与疾病名称的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;
选择候选疾病术语集合中,排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
在其中一个实施例中,所述处理器执行的所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤包括:
获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合。
在其中一个实施例中,所述处理器执行的所述获得与所述首字母字符串匹配的标准疾病名称集合作为初选疾病术语集合的步骤之后还包括:
获取所述多个疾病分词中的部位信息;
根据所述部位信息,在所述初选疾病术语集合中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
在其中一个实施例中,所述处理器执行的所述获得与所述部位匹配的初选疾病术语集合作为复选疾病术语集合之后的步骤还包括:
获取所述多个疾病分词中的疾病核心词;
将所述疾病核心词在所述复选疾病术语中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语。
在其中一个实施例中,所述处理器执行的所述获取多个候选疾病术语与疾病名称的相似度,并按照相似度对所述候选疾病术语集中的候选疾病术语进行排序的步骤包括:
获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度;
对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对所述多个候选疾病术语进行排序。
在其中一个实施例中,所述处理器执行的所述切分所述疾病名称,得到多个疾病分词的步骤包括:
将所述疾病名称与疾病分词数据库中的每一个疾病分词类别进行匹配,得到所述多个疾病分词;
其中,所述疾病分词类别包括病因、部位、描述、核心词、补充信息及疾病属性中的至少一种。
在其中一个实施例中,所述处理器执行的所述获取待处理的疾病名称的步骤之后还包括:
对所述疾病名称进行字符转换,使所述疾病名称中的字符属性相同;
其中,所述字符转换包括语种转换、同义词替换、全角字符与半角字符转换中的至少一种。
在其中一个实施例中,所述处理器执行的所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语的步骤之前还包括:
获取标准疾病语料;
对所述标准疾病语料进行分词,建立分词库,作为标准疾病语料库;
所述分词库包括病因库、部位库、病理库、临床表现库及疾病核心词中的至少一种。
上述实施例提供的计算机设备,能够通过切分得到疾病分词并基于标准疾病语料库,能够对疾病名称进行自动化规范,并且对于词处理后的疾病名称具有很高的识别精确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种疾病术语的词处理方法,其特征在于,所述方法包括:
切分待处理的疾病名称,得到多个疾病分词;
将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;
获取所述候选疾病术语集合中的各个候选疾病术语与所述待处理的疾病名称之间的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;
选择候选疾病术语集合中,预设个数的排序靠前的候选疾病术语,作为所述疾病名称的规范化疾病术语。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤包括:
获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的部位信息;
根据所述部位信息,在所述初选疾病术语集合中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
4.根据权利要求3所述的方法,其特征在于,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的疾病核心词;
将所述疾病核心词在所述复选疾病术语集合中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语。
5.根据权利要求1所述的方法,其特征在于,所述获取多个候选疾病术语与疾病名称的相似度,并按照相似度对所述候选疾病术语集中的候选疾病术语进行排序的步骤包括:
获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度;
对所述向量空间余弦相似度、编辑距离相似度以及字符重合度进行加权计算,得到所述疾病名称与每一候选疾病术语的综合相似度;
根据所述向量空间余弦相似度、编辑距离相似度、字符重合度、综合相似度中的至少一种对所述多个候选疾病术语进行排序。
6.根据权利要求1所述的方法,其特征在于,所述切分所述疾病名称,得到多个疾病分词的步骤包括:
将所述疾病名称与疾病分词数据库中的每一个疾病分词类别进行匹配,得到所述多个疾病分词;
其中,所述疾病分词类别包括病因、部位、描述、核心词、补充信息及疾病属性中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述切分待处理的疾病名称,得到多个疾病分词的步骤之前还包括:
对所述疾病名称进行字符转换,使所述疾病名称中的字符属性相同;
其中,所述字符转换包括语种转换、同义词替换、全角字符与半角字符转换中的至少一种。
8.根据权利要求1所述的方法,其特征在于,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语的步骤之前还包括:
获取标准疾病语料;
对所述标准疾病语料进行分词,建立库,作为标准疾病语料库;
所述分词库包括病因库、部位库、病理库、临床表现库及疾病核心词中的至少一种。
9.一种疾病术语的词处理装置,其特征在于,所述疾病术语的词处理装置包括:
分词切分模块,用于切分待处理的疾病名称,得到多个疾病分词;
候选术语筛选模块,用于将所述多个疾病分词在标准疾病语料库中进行匹配,得到多个候选疾病术语;
候选术语排序模块,用于获取多个候选疾病术语与疾病名称的相似度,并按照相似度对多个候选疾病术语进行排序;
候选术语处理模块,用于选择多个候选疾病术语中,排位前列的候选疾病术语,作为所述疾病名称的疾病术语。
10.一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,其特征在于,所述计算机指令在被所述处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN201711107945.3A 2017-09-30 2017-11-10 疾病术语的词处理方法、装置及计算机设备 Pending CN108021553A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017109162274 2017-09-30
CN201710916227 2017-09-30

Publications (1)

Publication Number Publication Date
CN108021553A true CN108021553A (zh) 2018-05-11

Family

ID=62080472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107945.3A Pending CN108021553A (zh) 2017-09-30 2017-11-10 疾病术语的词处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN108021553A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109582797A (zh) * 2018-12-13 2019-04-05 泰康保险集团股份有限公司 获取疾病分类推荐的方法、装置、介质及电子设备
CN109615533A (zh) * 2018-10-24 2019-04-12 平安健康保险股份有限公司 医院效率分析方法及***
CN109994215A (zh) * 2019-04-25 2019-07-09 清华大学 疾病自动编码***、方法、设备和存储介质
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
CN110851595A (zh) * 2019-10-08 2020-02-28 云知声智能科技股份有限公司 一种疾病术语核心词汇的标识方法及装置
CN110956043A (zh) * 2019-12-17 2020-04-03 人和未来生物科技(长沙)有限公司 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质
CN111046660A (zh) * 2019-11-21 2020-04-21 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111063446A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 用于标准化医疗文本数据的方法、装置、设备及存储介质
CN111126055A (zh) * 2019-10-28 2020-05-08 国电南瑞科技股份有限公司 电网设备名称匹配方法及***
CN111325032A (zh) * 2020-02-21 2020-06-23 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111563139A (zh) * 2020-07-15 2020-08-21 平安国际智慧城市科技股份有限公司 Ocr识别***药品名的校验方法、装置及计算机设备
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111666754A (zh) * 2020-05-28 2020-09-15 平安医疗健康管理股份有限公司 基于电子疾病文本的实体识别方法、***和计算机设备
CN111859942A (zh) * 2020-07-02 2020-10-30 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN111898376A (zh) * 2020-07-01 2020-11-06 拉扎斯网络科技(上海)有限公司 一种名称数据处理方法、装置、存储介质及计算机设备
CN112022140A (zh) * 2020-07-03 2020-12-04 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及***
CN112149006A (zh) * 2019-11-20 2020-12-29 广州市疾病预防控制中心(广州市卫生检验中心) 一种疾病信息的数据展现方法、装置、设备及存储介质
CN112163146A (zh) * 2019-11-20 2021-01-01 广州市疾病预防控制中心(广州市卫生检验中心) 一种疾病信息的数据处理方法、装置、设备及存储介质
CN112307763A (zh) * 2020-12-30 2021-02-02 望海康信(北京)科技股份公司 术语标准化方法、***及相应设备和存储介质
CN112507107A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 术语匹配方法、装置、终端和计算机可读存储介质
CN112580360A (zh) * 2020-11-11 2021-03-30 上海数创医疗科技有限公司 一种心电术语语义匹配装置
CN112633005A (zh) * 2020-11-11 2021-04-09 上海数创医疗科技有限公司 一种心电术语语义匹配方法
CN112687397A (zh) * 2020-12-31 2021-04-20 四川大学华西医院 罕见病知识库的处理方法及装置、可读存储介质
CN112992376A (zh) * 2021-03-04 2021-06-18 山东大学 基于权重调整的疾病名称匹配方法及***
CN113077912A (zh) * 2021-04-01 2021-07-06 深圳鸿祥源科技有限公司 一种基于5g网络的医疗物联网监测***及方法
CN113128216A (zh) * 2019-12-31 2021-07-16 ***通信集团贵州有限公司 一种语言识别方法、***及装置
CN113722418A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种临床病案标准化方法、装置、设备及介质
CN114220536A (zh) * 2021-12-10 2022-03-22 深圳市北科瑞声科技股份有限公司 基于机器学习的疾病分析方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050181350A1 (en) * 2004-02-18 2005-08-18 Anuthep Benja-Athon Pattern of medical words and terms
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储***及中医症状信息存储方法
CN105045853A (zh) * 2015-07-07 2015-11-11 浪潮通用软件有限公司 一种行业数据匹配的方法和装置
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及***
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其***
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050181350A1 (en) * 2004-02-18 2005-08-18 Anuthep Benja-Athon Pattern of medical words and terms
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储***及中医症状信息存储方法
CN105045853A (zh) * 2015-07-07 2015-11-11 浪潮通用软件有限公司 一种行业数据匹配的方法和装置
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及***
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其***
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920453B (zh) * 2018-06-08 2023-03-24 国家食品药品监督管理总局药品评价中心 数据处理方法、装置、电子设备及计算机可读介质
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109615533A (zh) * 2018-10-24 2019-04-12 平安健康保险股份有限公司 医院效率分析方法及***
CN109582797A (zh) * 2018-12-13 2019-04-05 泰康保险集团股份有限公司 获取疾病分类推荐的方法、装置、介质及电子设备
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
CN109994215A (zh) * 2019-04-25 2019-07-09 清华大学 疾病自动编码***、方法、设备和存储介质
CN112507107A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 术语匹配方法、装置、终端和计算机可读存储介质
CN110851595A (zh) * 2019-10-08 2020-02-28 云知声智能科技股份有限公司 一种疾病术语核心词汇的标识方法及装置
CN111126055A (zh) * 2019-10-28 2020-05-08 国电南瑞科技股份有限公司 电网设备名称匹配方法及***
CN112163146A (zh) * 2019-11-20 2021-01-01 广州市疾病预防控制中心(广州市卫生检验中心) 一种疾病信息的数据处理方法、装置、设备及存储介质
CN112149006A (zh) * 2019-11-20 2020-12-29 广州市疾病预防控制中心(广州市卫生检验中心) 一种疾病信息的数据展现方法、装置、设备及存储介质
CN111046660A (zh) * 2019-11-21 2020-04-21 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111046660B (zh) * 2019-11-21 2023-05-09 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN110956043A (zh) * 2019-12-17 2020-04-03 人和未来生物科技(长沙)有限公司 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质
CN111063446A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 用于标准化医疗文本数据的方法、装置、设备及存储介质
CN113128216A (zh) * 2019-12-31 2021-07-16 ***通信集团贵州有限公司 一种语言识别方法、***及装置
CN111325032B (zh) * 2020-02-21 2023-06-16 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111325032A (zh) * 2020-02-21 2020-06-23 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111581976B (zh) * 2020-03-27 2023-07-21 深圳平安医疗健康科技服务有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111666754B (zh) * 2020-05-28 2023-02-03 深圳平安医疗健康科技服务有限公司 基于电子疾病文本的实体识别方法、***和计算机设备
CN111666754A (zh) * 2020-05-28 2020-09-15 平安医疗健康管理股份有限公司 基于电子疾病文本的实体识别方法、***和计算机设备
CN111898376A (zh) * 2020-07-01 2020-11-06 拉扎斯网络科技(上海)有限公司 一种名称数据处理方法、装置、存储介质及计算机设备
CN111898376B (zh) * 2020-07-01 2024-04-26 拉扎斯网络科技(上海)有限公司 一种名称数据处理方法、装置、存储介质及计算机设备
CN111859942A (zh) * 2020-07-02 2020-10-30 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN111859942B (zh) * 2020-07-02 2021-07-13 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN112022140A (zh) * 2020-07-03 2020-12-04 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及***
CN111563139A (zh) * 2020-07-15 2020-08-21 平安国际智慧城市科技股份有限公司 Ocr识别***药品名的校验方法、装置及计算机设备
CN112633005A (zh) * 2020-11-11 2021-04-09 上海数创医疗科技有限公司 一种心电术语语义匹配方法
CN112580360A (zh) * 2020-11-11 2021-03-30 上海数创医疗科技有限公司 一种心电术语语义匹配装置
CN112633005B (zh) * 2020-11-11 2024-06-21 上海数创医疗科技有限公司 一种心电术语语义匹配方法
CN112307763A (zh) * 2020-12-30 2021-02-02 望海康信(北京)科技股份公司 术语标准化方法、***及相应设备和存储介质
CN112687397A (zh) * 2020-12-31 2021-04-20 四川大学华西医院 罕见病知识库的处理方法及装置、可读存储介质
CN112687397B (zh) * 2020-12-31 2023-05-09 四川大学华西医院 罕见病知识库的处理方法及装置、可读存储介质
CN112992376A (zh) * 2021-03-04 2021-06-18 山东大学 基于权重调整的疾病名称匹配方法及***
CN113077912A (zh) * 2021-04-01 2021-07-06 深圳鸿祥源科技有限公司 一种基于5g网络的医疗物联网监测***及方法
CN113077912B (zh) * 2021-04-01 2021-12-14 深圳鸿祥源科技有限公司 一种基于5g网络的医疗物联网监测***及方法
CN113722418A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种临床病案标准化方法、装置、设备及介质
CN114220536A (zh) * 2021-12-10 2022-03-22 深圳市北科瑞声科技股份有限公司 基于机器学习的疾病分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108021553A (zh) 疾病术语的词处理方法、装置及计算机设备
List et al. Sequence comparison in computational historical linguistics
JP7028858B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US20190251471A1 (en) Machine learning device
US20110314024A1 (en) Semantic content searching
US20140047327A1 (en) Document creation and management systems and methods
JP2006260318A (ja) 読影レポート入力支援方法及び読影レポート入力支援システム
CA3032614C (en) Localization platform that leverages previously translated content
US20060047647A1 (en) Method and apparatus for retrieving data
US20140181056A1 (en) System and method of quality assessment of a search index
CN114996388A (zh) 一种诊断名称标准化的智能匹配方法及***
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
GB2537965A (en) Recommending form fragments
JP2021523509A (ja) エキスパートレポートエディタ
US20100010806A1 (en) Storage system for symptom information of Traditional Chinese Medicine (TCM) and method for storing TCM symptom information
US8805095B2 (en) Analysing character strings
Zweigenbaum et al. Multiple Methods for Multi-class, Multi-label ICD-10 Coding of Multi-granularity, Multilingual Death Certificates.
JP2007140861A (ja) 情報処理システム、情報処理方法、およびプログラム
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US20230281392A1 (en) Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
Fort et al. Annotating football matches: Influence of the source medium on manual annotation
JP6210865B2 (ja) データ検索システムおよびデータ検索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511