CN112163407A - 一种基于语义依存关系的医疗文本标注方法 - Google Patents
一种基于语义依存关系的医疗文本标注方法 Download PDFInfo
- Publication number
- CN112163407A CN112163407A CN202011175306.2A CN202011175306A CN112163407A CN 112163407 A CN112163407 A CN 112163407A CN 202011175306 A CN202011175306 A CN 202011175306A CN 112163407 A CN112163407 A CN 112163407A
- Authority
- CN
- China
- Prior art keywords
- semantic
- graph
- dependencies
- dependency
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 26
- 230000004048 modification Effects 0.000 claims abstract description 21
- 238000012986 modification Methods 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000003745 diagnosis Methods 0.000 claims abstract description 13
- 239000003607 modifier Substances 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 9
- 210000004072 lung Anatomy 0.000 description 11
- 210000000038 chest Anatomy 0.000 description 7
- 210000004224 pleura Anatomy 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 210000003492 pulmonary vein Anatomy 0.000 description 2
- 206010016100 Faeces discoloured Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于语义依存关系的医疗文本标注方法,包括以下步骤:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;进行文本标注。
Description
技术领域
本申请涉及自然语言处理和医疗大数据领域,尤其涉及一种基于语义依存关系的医疗文本标注方法。
背景技术
医疗机构在治疗的过程中,产生了大量医疗文本,医疗文本蕴含丰富的医疗信息。研究医疗文本的语义描述,对包括医疗辅助决策,治疗效果预测,病人生存率预测等后续下游任务,具有重要意义。
语义依存分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
常见的医疗文本标注方法包括命名实体标注,事件标注。命名实体标注不包括实体间关系,事件描述实体的简单关系,两者都无法覆盖医疗文本中复杂语义关系。本专利提出一种基于语义依存关系的医疗文本标注方法,能够有效标注医疗文本中复杂的语义信息,对提升下游任务的性能具有重要意义。
发明内容
为了提升下游任务的性能,更好地描述医疗实体的语义依存关系,本专利申请一种基于语义依存关系的医疗文本标注方法,包含以下步骤:
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值,存在隐式提示属性名称的情况;
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词,其作用于一个或多个客观存在实体,存在隐式提示施事实体的情况;
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体;
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体是基于修饰的语义依存。
语义远程依赖存在于以下情况:基于修饰的语义依存中,修饰词与主体词间隔其他语义词。
语义并列存在于以下情况:多个基于主体的语义依存中,共用一个主体;基于关系或动作的语义依存中,共用一个动作;基于修饰的语义依存,共用一个修饰词。
步骤三:根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;
身体结构实体语义图基于修饰的语义依存,具有语义远程依赖,语义并列的特点,用于描述医学部位实体名称,由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体;
关系描述语义图基于关系或动作的语义依存,具有语义并列,语义嵌套的特点,用于描述两个医学实体的关系,由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成;
属性描述语义图,基于主体的语义依存,具有语义并列,语义嵌套的特点,用于描述医学部位的属性,由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成;
手术操作语义图是一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、一个身体结构实体作为操作受施主体组成;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个***位方法和视图词组成。
步骤四:进行文本标注。
上述技术方案中的语义依存关系的医疗文本标注方法,首先分析医疗文本中的语义依存类型和语义特点,然后分析医疗文本中的语义特点,根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图,最后进行标注。不同于常见的命名实体标注和事件标注,本发明利用医疗文本的语义特点和语义依存类型进行标注,从而更多地覆盖医疗文本中复杂语义关系,对提升下游任务的性能具有重要意义。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图和本说明书获得其他的附图。
图1为本申请的一种基于语义依存关系的医疗文本标注方法;
图2为关系描述类型语义图;
具体实施方式
下面对本发明做进一步说明。
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称。此外存在隐式提示属性名称的情况,如“大便黑”中,“大便”是为核心主体词,“黑”是属性值,隐式提示属性名称为“颜色”。
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词或动作词作用于一个或多个客观存在实体。“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词。此外存在隐式提示施事实体的情况,例如“于右胸第4肋腋前线作小切口”中,“右胸第4肋腋前线”是受施主体词,作小切口是动作词,隐式提示施事实体是“医生”。
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体。例如“进胸后探及右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词。
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系。
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体允许存在基于修饰的语义依存。“右下肺叶肿块,约3*2cm大小”是一个基于主体的语义依存。例如“右下肺叶肿块”作为核心主体词中存在基于修饰的语义依存,“右下肺叶”是修饰词,“肿块”是核心主体词。
语义远程依赖存在于以下情况:基于修饰的语义依存允许修饰词与主体词间隔其他语义词。例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,“第7腋中线”是核心主体词,“右胸”是修饰词,中间间隔“第4肋腋前线”。
语义并列存在于以下情况:多个基于主体的语义依存或基于关系或动作的语义依存共用一个主体,如“肿块位于右肺上叶尖段,直径约1.0cm,质地硬”中,两个基于主体的语义依存和一个基于关系的语义依存共用一个主体“肿块”;基于修饰的语义依存共用一个修饰词,例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,两个基于修饰的语义依存共用修饰词“右胸”。
步骤三:面向标注需求,根据语义类型和语义特点,制定模板语义图;模板语义图包括五类:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;针对常见的语义类型,在模板语义图中制定标签槽,标签槽隐式表示中心实体和该实体的关系。
身体结构实体语义图由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体。例如“右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词;
关系描述语义图由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成。例如“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词,否定词和程度词为空;
属性描述语义图由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称,否定词和程度词为空;
手术操作语义图一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、多个受施身体结构实体作为操作受施主体。例如“以EC60切割缝合器切断上叶尖段肺静脉”中,“EC60切割缝合器”是所用器械,“上叶尖段肺静脉”是受施身体结构实体;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个***位方法和视图词组成。例如“较05.11.29老片病灶明显好转”中,“05.11.29”是相较的前时间点,“病灶”是疾病,“明显”是程度词,“趋势”是好转。
步骤四:进行文本标注。
Claims (4)
1.一种基于语义依存关系的医疗文本标注方法,其特征在于,包括以下步骤:
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;
步骤三:根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;
步骤四:进行文本标注,得到标注后的医疗语料。
2.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤一,分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存,其特征还包括:
主体语义依存,其特征为包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值;
关系或动作语义依存,其特征为包含以下实体或关系:一个关系词,其作用于一个或多个客观存在实体;
修饰语义依存,其特征为:包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体;基于修饰的语义依存,共用一个修饰词。
3.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤二,分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系,其特征包括:
语义嵌套,其特征为基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体中,允许存在基于修饰的语义依存。
语义远程依赖,其特征为基于修饰的语义依存中,允许修饰词与主体词间隔其他语义词。
语义并列,其特征为多个基于主体的语义依存中,共用一个主体;基于关系或动作的语义依存中,共用一个动作。
4.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤三,根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图,其特征包括:
身体结构实体语义图基于修饰的语义依存,具有语义远程依赖,语义并列的特点,用于描述医学部位实体名称;
关系描述语义图基于关系或动作的语义依存,具有语义并列,语义嵌套的特点,用于描述两个医学实体的关系;
属性描述语义图基于主体的语义依存,具有语义并列,语义嵌套的特点,用于描述医学部位的属性;
手术操作语义图是一类特殊关系描述语义图,用于描述手术操作;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175306.2A CN112163407A (zh) | 2020-10-29 | 2020-10-29 | 一种基于语义依存关系的医疗文本标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175306.2A CN112163407A (zh) | 2020-10-29 | 2020-10-29 | 一种基于语义依存关系的医疗文本标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163407A true CN112163407A (zh) | 2021-01-01 |
Family
ID=73865072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011175306.2A Pending CN112163407A (zh) | 2020-10-29 | 2020-10-29 | 一种基于语义依存关系的医疗文本标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163407A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065029A (ja) * | 2005-08-29 | 2007-03-15 | Nippon Hoso Kyokai <Nhk> | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム |
CN106991015A (zh) * | 2017-03-17 | 2017-07-28 | 浙江大学 | 一种基于消息语义标注的医疗信息***集成监控方法 |
CN107610740A (zh) * | 2017-07-27 | 2018-01-19 | 康美健康云服务有限公司 | 用于医疗的语义分析方法、电子设备、存储介质以及*** |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和*** |
-
2020
- 2020-10-29 CN CN202011175306.2A patent/CN112163407A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065029A (ja) * | 2005-08-29 | 2007-03-15 | Nippon Hoso Kyokai <Nhk> | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム |
CN106991015A (zh) * | 2017-03-17 | 2017-07-28 | 浙江大学 | 一种基于消息语义标注的医疗信息***集成监控方法 |
CN107610740A (zh) * | 2017-07-27 | 2018-01-19 | 康美健康云服务有限公司 | 用于医疗的语义分析方法、电子设备、存储介质以及*** |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和*** |
Non-Patent Citations (4)
Title |
---|
TIMOTHY DOZAT: "Simpler but More Accurate Semantic Dependency Parsing", PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, vol. 2, 31 July 2018 (2018-07-31), pages 484 * |
周晓进等: "面向中文电子病历的多粒度医疗实体识别", 计算机科学, vol. 48, no. 4, pages 237 - 242 * |
唐国强等: "融入语言模型和注意力机制的临床电子病历命名实体识别", 计算机科学, vol. 47, no. 3, 22 November 2019 (2019-11-22), pages 211 - 216 * |
铉静等: "基于句法依存卷积神经网络的句子相似度计算", 重庆大学学报, vol. 43, no. 9, 15 September 2020 (2020-09-15), pages 41 - 53 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7008772B2 (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
RU2703679C2 (ru) | Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов | |
US8498870B2 (en) | Medical ontology based data and voice command processing system | |
CN110277149A (zh) | 电子病历的处理方法、装置及设备 | |
JP4649405B2 (ja) | 構造化文書作成方法ならびに装置 | |
US20090299977A1 (en) | Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records | |
CN109920540A (zh) | 辅助诊疗决策***的构建方法、装置及计算机设备 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
EP3100190A1 (en) | A context sensitive medical data entry system | |
Rector | Description logics in medical informatics | |
Kirchhoff et al. | Unsupervised resolution of acronyms and abbreviations in nursing notes using document-level context models | |
Abbas et al. | Clinical concept extraction with lexical semantics to support automatic annotation | |
Lamba et al. | Predictive analytics and machine learning for medical informatics: A survey of tasks and techniques | |
Fisher et al. | Why Is inflectional morphology difficult to borrow?—Distributing and lexicalizing plural allomorphy in Pennsylvania Dutch | |
Bachleitner et al. | Autologous unilateral breast reconstruction with venous supercharged IMAP-flaps: a step by step guide of the split breast technique | |
CN112163407A (zh) | 一种基于语义依存关系的医疗文本标注方法 | |
van Mens et al. | Clarifying diagnoses to laymen by employing the SNOMED CT hierarchy | |
Ceusters et al. | Syntactic-Semantic Tagging of Medical Texts: The Multitale Project | |
Clarkson et al. | Variation in the representation of human anatomy within digital resources: implications for data integration | |
Kocijan et al. | Detecting Latin-based medical terminology in Croatian texts | |
EP4270402A1 (en) | Genogram creation and diagnosis | |
CN103530513A (zh) | 一种实现电子病历快速录入的输入*** | |
Yu | Mining symptom and disease web data with NLP and Open Linked Data | |
WO2021107142A1 (ja) | 文書作成支援装置、方法およびプログラム | |
Mykowiecka et al. | Interpretable Segmentation of Medical Free-Text Records Based on Word Embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |