CN108932223A - 未登录属性抽取方法和装置 - Google Patents

未登录属性抽取方法和装置 Download PDF

Info

Publication number
CN108932223A
CN108932223A CN201710374631.3A CN201710374631A CN108932223A CN 108932223 A CN108932223 A CN 108932223A CN 201710374631 A CN201710374631 A CN 201710374631A CN 108932223 A CN108932223 A CN 108932223A
Authority
CN
China
Prior art keywords
attribute
logged
center object
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710374631.3A
Other languages
English (en)
Inventor
张碧川
黄耀海
郭瑞山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201710374631.3A priority Critical patent/CN108932223A/zh
Publication of CN108932223A publication Critical patent/CN108932223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种从医学文档中抽取未登录属性的未登录属性抽取方法和装置。所述未登录属性抽取装置包括:获取单元,配置为从文本文档中获取文本语句;属性抽取单元,配置为从所述文本语句中抽取已登录属性、候选未登录属性、所述已登录属性之间的关系以及所述已登录属性与所述候选未登录属性之间的关系;未登录属性识别单元,配置为在所述候选未登录属性满足通用属性结构的一部分的情况下将所述候选未登录属性识别为未登录属性。

Description

未登录属性抽取方法和装置
技术领域
本发明涉及文本分析及数据挖掘领域,尤其涉及抽取文本文档中的未登录属性的方法及装置。
背景技术
在进行文本分析及数据挖掘时,为了从文本文档(例如医学文档)中抽取不同对象的属性,使用自然语言处理技术来抽取属于不同类别并显示对象的一个方面的词语。举例来说,在医学文档中,异常可以是一个对象,位置、大小、形状是异常的属性。当前,新的属性正快速生成并出现,所以,之前预定义的属性类别无法涵盖新遇到的医学文档中的所有属性。因此,需要一种识别新生成的或未登录的属性的技术。基于识别未登录属性的技术,人类可以快速理解一个特定领域的属性,并定义属性的语义类别,以实现属性抽取技术。
通常,属性识别技术包括文本文档的属性抽取处理和属性验证处理。美国专利US8311807B2公开了一种示例性技术,该技术包括:根据预确定的未登录词语抽取规则,从文本文档中抽取候选未登录词语,然后基于从文本文档中检索到的候选未登录词语的出现频率的信息,在候选未登录词语中验证未登录词语。日本专利JP3743204B2公开了另一种示例性技术,一种数据分析支持方法。根据该日本专利公开的方法,可基于出现频率或位置抽取未登录属性。
但是,在医学文档中,中心对象通常为医学发现或医学诊断,不同的医学发现具有并非普遍存在的特定属性。即,大多数特定属性为未登录属性并具有较低的出现频率。另一方面,一些并非属性但具有较高出现频率的常用词语可能会被识别为属性。因此,基于出现频率或位置来识别这些属性是非常困难的。
发明内容
因此,鉴于上面的背景技术中的记载,本公开旨在解决上述问题。
根据本发明的一个方面,提供一种未登录属性抽取装置,所述装置包括:获取单元,配置为从文本文档中获取文本语句;属性抽取单元,配置为从所述文本语句中抽取已登录属性、候选未登录属性、所述已登录属性之间的关系以及所述已登录属性与所述候选未登录属性之间的关系;未登录属性识别单元,配置为在所述候选未登录属性满足通用属性结构的一部分的情况下,将所述候选未登录属性识别为未登录属性。
利用本发明,将改进用于文本分析及数据挖掘的未登录属性,从而提高属性抽取的精度。
根据以下参照附图的描述,本发明的其他特性特征和优点将显而易见。
附图说明
并入本说明书中并构成本说明书一部分的附图以图示方式说明本发明的实施例,并且与文字描述一起用来解释本发明的原理。
图1A例示从医学文档中抽取属性以获取结构化信息的示例。
图1B例示根据本发明使用从结构化信息中获取的通用属性结构识别未登录属性的示例。
图2是示意性地示出可实现根据本发明实施例的技术的硬件配置的框图。
图3是例示根据本发明第一实施例的未登录属性识别装置的配置的框图。
图4示意性地示出根据本发明实施例的未登录属性识别过程的流程图。
图5示意性地示出根据本发明的如图4中所示的步骤S430的流程图。
图6是例示根据本发明第二实施例的特定属性结构生成装置的配置的框图。
具体实施方式
下面将参照附图详细地描述本发明的示例性实施例。应注意,下面的描述实质上仅为说明性和示例性的,并且决不意图限制本发明及其应用或用途。除非另有具体说明,否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外,本领域的技术人员已知的技术、方法和设备可能不会被详细地讨论,但在适当的情形中其应当是本说明书的一部分。
请注意,相似的附图标记和字母指代附图中相似的项目,因此,一旦一个项目在一个附图中被定义,则不必在下面的附图中对其进行讨论。
在本公开中,术语“第一”、“第二”等仅用来区分元件或步骤,而并不意图表示时间顺序、优先级或重要性。
可以从图像文档、文本文档或医学文档中抽取文本语句。在本公开中,从医学文档中抽取的文本语句仅为用于说明的示例,并不意图限制本发明的范围。
医学文档可以是包括观察(或发现)部分和印象(或诊断)部分的任何与诊断相关的文档。医学文档可以包括放射学报告,例如计算机断层成像(CT)诊断报告、核磁共振(NMR)诊断报告等,以及其他类型的报告,例如临床报告、术前及术后报告、入院记录、出院小结等。异常意为人体部位的异常表现。疾病意为人体部位的病症或病变。
本发明的发明人发现,作家总是使用自然语言描述一个对象,例如电影、歌曲、人物或组织;记录该对象的一些属性,其中一个属性描述该对象的一个方面。所以,自然语言在结构层面上必定有共同点(例如,一个中心对象与其属性)。
以医学文档为例,对于书写医学诊断报告的各个部分,“发现和诊断”是医学诊断报告的主要部分,因为医生需要将发现和诊断显示给相关阅读者(例如,患者和/或其他相关医生)。在每个语句中,医生应该让阅读者明白中心对象是什么,该对象的属性是什么,所以,即使每个语句在表层形式上互不相似,但大部分语句具有相似结构,因此,我们可以捕捉这些结构化信息来识别医学文档中的未登录属性。也就是说,属性抽取可以集中在从文本文档中抽取结构化信息,所述结构化信息通常由一个中心对象以及该中心对象的属性组成。
因此,本发明的发明人认为,可以根据从医学文档中获取的结构化信息抽取大部分的未登录属性。
图1A例示从医学文档中抽取属性以获取结构化信息的示例。举例来说,从医学文档抽取的文本语句可以是“右肺S4に,直径2.5cmの結節が認められます(右肺S4可见一直径2.5cm的结节)”。从文本语句中抽取的属性包含位置属性(例如,右肺S4(右肺S4))、大小属性(例如,直径2.5cm(直径2.5cm))、异常属性(例如,結節(结节))以及断言属性(例如,認められます(可见))。异常属性是语句的核心信息,书写其他属性是为了显示异常的细节。此外,也可以抽取属性之间的关系。中心对象与属性之间的关系可以是一对一、一对多或多对一的对应关系。在抽取中心对象与属性之间关系的情况下,意味着所述中心对象与所述属性是相关的,也就是说,所述属性可以描述所述中心对象。因此,中心对象与属性之间的关系是指二者之间的关联关系。此处,属性包含已登录属性和未登录属性。此外,可以从医学文档的其他语句中抽取属性以及属性之间的关系。
假定每个属性(不管是已登录属性还是未登录属性)都可以映射为结构化元素;属性之间的关系也可以映射为结构化元素以生成属性结构。每个结构化元素可以是一个结构化类型,例如,中心对象类型、属性方面类型、属性内容类型、属性比较标记类型、连接词类型、判断词类型及自相关类型。
此外,属性内容类型还可以包含几个子类型,例如,判断、数字(例如,百分比、日期)、可替换部分(例如,类型A、类型B、早期、晚期)。
如图1A中所示,结节属于中心对象类型,位置属性、大小属性和断言属性为属性方面类型,右肺S4、直径2.5cm和可见为属性内容类型。
属性可以映射为有限的结构化类型,例如有一个中心对象以及显示中心对象细节的其他属性,它们可以是同一属性方面或不同属性方面,所以,一个中心对象具有若干属性方面,不同中心对象的同一属性方面具有不同的属性内容。在医学文档中,医生无法记录一个对象的所有属性方面。举例来说,如图1A中所示,中心对象(例如,結節(结节))具有三个属性方面,包含位置、大小及判断(例如,認められます(断言))。
此外,本发明的发明人发现医学文档中的大量语句中存在具有属性的中心对象,并且发现可以根据结构化信息和一些预定义的涵盖文档医生书写的大部分结构化信息的通用属性结构来抽取未登录属性。此处,所述通用属性结构可以基于结构化信息进行预定义,并且可以手动确定或从训练数据归纳。所述通用属性结构包含至少三个具有关系的结构化元素;其中一个结构化元素为未登录属性,并且所述未登录属性与其他两个结构化元素具有关系;所述通用属性结构的至少两个结构化元素可以均为中心对象,或者一个为中心对象而另一个为描述中心对象的属性。
此外,对于不同的属性,它们可能具有不同的特定属性结构,但在更高的结构化层面上,它们可能共享相同的通用属性结构。虽然医生会用不同的表述结构书写不同的语句来描述一个对象,但根据对医学文档的大量语句中的属性的观察,主要的通用属性结构并不多,有如下四种预定义的通用属性结构作为本公开的示例:
a)如图1B中的S1所示的通用属性结构,包括两个中心对象和一个与中心对象相关的位置标记词语;然后将所述位置标记词语设置为未登录属性。
b)如图1B中的S4所示的通用属性结构,包括一个中心对象、一个中心对象属性、一个与中心对象和中心对象属性相关的唯一属性值(例如,如图1B中所示的“唯一值”);然后将所述唯一属性值设置为未登录属性。
c)如图1B中的S2所示的通用属性结构,包括一个中心对象、一个中心对象属性、一个表示特定类别的词语(例如,如图1B中所示的“未知”)以及一个与所述词语相关的枚举值词语(例如,如图1B中所示的“可替换值”),所述枚举值词语与中心对象以及中心对象属性具有关系;然后将所述表示特定类别的词语和所述枚举值词语设置为未登录属性。
d)如图1B中的S3所示的通用属性结构,包括一个中心对象、一个中心对象属性、一个表示特定类别的词语(例如,如图1B中所示的“未知”)以及与一个所述词语相关的修饰值词语(例如,如图1B中所示的“修饰参数”),所述修饰值词语与中心对象以及中心对象属性具有关系;然后将所述表示特定类别的词语和所述修饰值词语设置为未登录属性。
图1B例示根据本发明使用从结构化信息中获取的通用属性结构识别未登录属性的示例。如图1B中所示,有四种通用属性结构(S1、S2、S3、S4),并且每种通用属性结构由三个具有关系的结构化元素组成。所述结构化元素包含不同的结构类型,例如,中心对象类型(例如中心对象)、属性内容类型(例如判断)。连接属性的线代表中心对象与不同属性之间的关系。
如图1B中所示,每种通用属性结构包含一个未登录属性。举例来说,通用属性结构S1包含两个中心对象和一个位置标记,所述位置标记被设置为未登录属性。如果从医学文档中抽取的结构化信息能够与通用属性结构S1匹配,则所述结构化信息中的候选未登录属性可被识别为未登录属性。因此,其他三种通用属性结构S2、S3和S4也包含其各自的未登录属性,如图1B的未登录属性栏中所示,分别为未知可替换值、未知修饰参数以及唯一值。
因此,根据本发明,在未登录属性识别处理期间,分析和共享医学文档的不同语句之间相似的结构化信息可改进未登录属性识别。
(硬件配置)
首先将参照图2描述可实现下文中描述的技术的硬件配置。图2是示意性地示出可实现根据本发明实施例的技术的硬件配置的框图。
硬件配置200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和***总线280。此外,硬件配置200可通过诸如工作站、服务器、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。
在第一实现方式中,根据本发明识别医学文档中的未登录属性的过程由硬件或固件配置并且用作硬件配置200的模块或组件。例如,将在下文中参照图3详细描述的装置300用作硬件配置200的模块或组件。在第二实现方式中,根据本发明识别医学文档中的未登录属性的过程由存储在ROM 230或硬盘240中且由CPU 210执行的软件配置。例如,将在下文中参照图4详细描述的过程400用作存储在ROM 230或硬盘240中的程序。
CPU 210是任何合适的可编程控制设备(诸如,处理器),并可通过执行存储在ROM230或硬盘240(诸如,存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM 220被用来临时存储从ROM 230或硬盘240加载的程序或数据,并且也被用作CPU 210在其中执行各种过程(诸如,实施下文中将参照图4和图5详细描述的技术)以及其他可用功能的空间。硬盘240存储多种信息,诸如操作***(OS)、各种应用、控制程序、由制造商预存储或预定义的数据以及由制造商预存储或预生成的模型和/或分类器。
在一种实现方式中,输入设备250用于允许用户与硬件配置200交互。在一个实例中,用户可以通过输入设备250输入文本文档。在另一实例中,用户可以通过输入设备250触发本发明的对应过程。此外,输入设备250可采用各种形式,诸如按钮、键盘或触摸屏。在另一种实现方式中,输入设备250用于接收从诸如数码相机和/或电子医学文档管理***的特殊电子设备输出的文本/属性。
在一种实现方式中,输出设备260用于向用户显示未登录属性识别结果(例如,新的异常、新类型的中心对象的属性方面等)。而且,输出设备260可采用各种形式,诸如阴极射线管(CRT)或液晶显示器和/或打印机。在另一种实现方式中,输出设备260用于向文本/属性分析和识别的后续过程(例如,诊断分析、患者追踪、医学发现、异常检测、属性确认和/或识别,等等)输出未登录属性的识别结果。
网络接口270提供用于将硬件配置200连接到网络的接口。例如,硬件配置200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。或者,可以为硬件配置200提供无线接口,以进行无线数据通信。***总线280可以提供用于在CPU 210、RAM 220、ROM230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线,但是***总线280并不限于任何特定的数据传输技术。
上述硬件配置200仅仅是说明性的,并且决不意图限制本发明、其应用或用途。而且,为了简明起见,在图2中只示出一个硬件配置。但是,也可以根据需要使用多个硬件配置。
(未登录属性识别处理)
(第一实施例)
本发明的主要目的是如上所述根据医学文档中的结构化信息和预定义通用属性结构识别未登录属性。下面将参照图3至图6描述根据本发明从医学文档中识别未登录属性的过程。
图3是例示根据本发明第一实施例的未登录属性识别处理装置300的配置的框图。其中,图3中所示的部分或全部模块可由专用硬件实现。图4中所示的流程图400是图3中所示的装置300的对应过程。
如图3中所示,装置300包括医学文档获取单元310、属性抽取单元320、未登录属性识别单元330以及未登录属性获取单元340。
首先,图2中所示的输入设备250从特殊电子设备或用户接收医学文档。然后,输入设备250经由***总线280将接收的医学文档传输到医学文档获取单元310。接下来,医学文档获取单元310经由***总线280从输入设备250获取医学文档。
此外,医学文档获取单元310执行如图4中所示的步骤S410,从接收的医学文档中获取文本语句。如图4中所示,在获取步骤S410中,医学文档获取单元310从接收的医学文档中获取文本语句。
在步骤S410中,医学文档获取单元310从医学文档中获取文本语句。在一种实现方式中,医学文档获取单元310获取医学文档并从所述医学文档中抽取一个文本语句。举例来说,文本语句可以是“右肺S4に,直径2.5cmの結節が認められます(右肺S4可见一直径2.5cm的结节)”,如上面结合图1A所述。另一个文本语句可以是“舟状骨Herbert分類type Aの骨折の可能性があります(有可能舟状骨Herbert A型骨折)”。
接下来,属性抽取单元320经由***总线280从医学文档获取单元310获取文本语句。
属性抽取单元320从文本语句中抽取属性,包含已登录属性和至少一个候选未登录属性。属性抽取单元320还抽取属性之间的关系。可以使用深入研究属性的自然语言处理(natural language processing,NLP)方法抽取属性和/或属性之间的关系。通常使用基于规则的方法或机器学习方法。所述关系可以是预定义类型或代表中心对象属性和从属属性的简单修饰关系。在本发明中,简单关系或预定义关系类型均可使用。
如上所述,医学文档获取单元310从医学文档抽取许多文本语句,因此,属性抽取单元320可执行如图4中所示的属性抽取步骤S420,以从文本语句中抽取属性,所述属性包含已登录属性和至少一个候选未登录属性。
在步骤S420中,属性抽取单元320从文本语句中抽取已登录属性和候选未登录属性。在一种实现方式中,属性抽取与命名实体抽取(named entity extraction,NEE)类似,但标准NEE仅处理诸如人物、组织或国家等特定类型的实体。在特定领域中,属性抽取可以使用类似NEE的技术抽取属性。类似NEE的技术包含基于规则的方法和基于机器学习的方法。
已登录属性抽取具有预确定的属性标签定义,如下表1中所示的示例均为带有标签的属性:
表1
属性抽取方法通常基于注解数据进行训练,并且可从获取的文本语句中抽取定义中的属性。属性抽取单元320从文本语句中抽取属性:“舟状骨Herbert分類type Aの骨折の可能性があります(有可能舟状骨Herbert A型骨折)”。此处,如表2中所示,“舟状骨(舟状骨)”为已登录属性并属于人体部位的属性。“骨折”(骨折)为已登录属性并属于疾病的属性。“可能性があります(有可能)”为已登录属性并属于断言的属性。“Herbert分類type A(Herbert A型)”由于不属于任何预确定的属性,因此为候选未登录属性。
表2
此外,属性抽取单元320从文本语句中抽取关系:“舟状骨Herbert分類type Aの骨折の可能性があります(有可能舟状骨Herbert A型骨折)”。疾病(例如,骨折(骨折))为中心对象类型的属性,人体部位(例如,舟状骨(舟状骨))、断言(例如,可能性があります(有可能))以及候选未登录属性(例如,Herbert分類type A(Herbert A型))为属性方面类型,即中心对象的从属属性。因此,它们全部与中心对象属性有关系。也就是说,所有从属属性都用于从不同方面描述中心对象的属性。
此外,在此步骤中,停止字列表作为一个选项可用于从文本语句中识别候选未登录属性。既不是带有标签的属性也不是停止字(例如,“の”(的)、“を”(构成宾语成分的助词))的词语可为候选未登录属性。
因此,根据以上所述,属性抽取单元320从医学文档获取单元310从医学文档中抽取的每个文本语句中抽取属性及属性之间的关系。
接下来,未登录属性识别单元330经由***总线280从属性抽取单元320获取属性及属性之间的关系。
未登录属性识别单元330基于上面结合图1B所述的通用属性结构从自文本语句中抽取的候选未登录属性中识别未登录属性。所以,未登录属性识别单元330执行图4中所示的未登录属性识别步骤S430,确定候选未登录属性是否为未登录属性。
在步骤S430中,未登录属性识别单元330使用一组通用属性结构识别未登录属性。
在一种实现方式中,未登录属性识别单元330运用上面结合图1B所述的一组通用属性结构,从候选未登录属性中识别未登录属性。下面将结合图5描述使用四种通用属性结构识别未登录属性的示例。
图5中所示的流程图500是根据本发明的图4中所示的未登录属性识别步骤S430的对应过程。
现在转到图5,在步骤S510中,未登录属性识别单元330将已登录属性和候选未登录属性映射为结构化元素。由于已登录属性的属性类型已知,因此未登录属性识别单元330根据预定义的映射列表映射已登录属性。可以根据候选未登录属性的特征对其进行映射,所述特征包含在语句中的分布、频率、位置信息、与其他属性的关系、形态学特征以及领域知识等。可以从文本语句和医学文档中抽取这些特征。接下来,未登录属性识别单元330根据所述特征确定未登录属性的结构化元素。举例来说,上面列出的语句中的“Herbert分類type A(Herbert A型)”包含英语词汇以及可替换标记“A”。其可被映射为如下表3中所示的“未知-可替换”内容。未登录属性识别单元330将属性之间的关系映射为结构化元素,因此结构化元素之间有关系。
表3
如上所述,结构化元素包含如下类型:中心对象类型、属性方面类型、属性内容类型、属性比较标记类型、连接词类型、判断词类型以及自相关类型。属性内容类型可进一步分为二值属性类型、数字属性类型、有限可替换属性类型(其中每个可替换属性在预确定的词典中进行定义)、无限可替换属性类型(其中每个可替换属性为在预确定的词典中定义的特定概念的实例)、同现属性类型(通常与对应的属性方面同时出现)。
将已登录属性和候选未登录属性映射为具有关系的结构化元素之后,在步骤S520中,未登录属性识别单元330确定所述具有关系的结构化元素是否满足预定义的通用属性结构。此处,未登录属性识别单元330确定所述具有关系的结构化元素是否满足至少一个通用属性结构,即在所述具有关系的结构化元素与一个通用属性结构匹配的情况下,通用属性结构定义的位置中的候选未登录属性被确定为一个未登录属性。
因此,满足如图1B中S2所示的具有可替换值的通用属性结构。该通用属性结构的结构化意义是:一个中心对象被某一未知内容修饰,该未知内容具有可替换值,并且医生根据修饰语和中心对象给出主观判断。因此,具有可替换值的未知内容一定是显示所述中心对象的某一方面的属性,即使当前并未对其进行定义。
基于具有可替换值的通用属性结构,未登录属性识别单元330将候选未登录属性确定为未登录属性。
接下来,未登录属性获取单元340经由***总线280从未登录属性识别单元330获取未登录属性。
因此,未登录属性获取单元340从医学文档的文本语句中获取未登录属性,并经由***总线280将获取的未登录属性输出到输出设备260进行进一步处理。举例来说,未登录属性获取单元340输出词语“Herbert分類type A(Herbert A型)”作为一个未登录属性。此外,未登录属性获取单元340可将未登录属性存储到RAM 220、ROM 230或硬盘240中。(第二实施例)
在未登录属性获取单元340获取未登录属性后,输出设备260可在用户搜索医学文档并想查看患者健康状况时将未登录属性显示给用户。
在另一种实现方式中,为了提高属性抽取的检索精度,本发明提供了根据结合过程400的装置600的第二实施例。
如图6中所示,本发明可以根据未登录属性生成特定属性结构。然后,用户可以使用所述特定属性结构从医学文档中抽取新属性,以提高属性抽取的检索精度。
图6是例示根据本发明第二实施例的属性抽取装置600的配置的框图。其中,图6中所示的部分或全部模块可由专用硬件实现。如图6中所示,装置600包括装置300和特定属性结构生成单元610。
装置300如上所述从医学文档中获取未登录属性。接下来,特定属性结构生成单元610执行图4中所示的特定属性结构生成步骤S450,以根据未登录属性生成特定属性结构。特定属性结构可由结构化元素以及未登录属性内部的一个或多个特定部分和可替换部分组成;还可包含特定部分、可替换部分以及结构化元素之间的关系。
在一种实现方式中,特定属性结构生成单元610通过至少一个以下步骤将未登录属性分成特定部分和可替换部分,以生成特定属性结构:
首先,特定属性结构生成单元610通过分析未登录属性识别未登录属性的核心部分和修饰语部分,然后将所述核心部分指定为特定部分,将所述修饰语部分指定为可替换部分。
其次,特定属性结构生成单元610识别未登录属性的数字部分,然后将所述数字部分指定为可替换部分。
第三,特定属性结构生成单元610识别未登录属性和至少一个其他属性的相同内容,然后将所述内容指定为特定部分。
最后,特定属性结构生成单元610识别未登录属性的无限集中的词语,然后将所述无限集中的词语指定为可替换部分。
根据识别的未登录属性,特定属性结构生成单元610找到对应的通用属性结构的一个具体实例,以生成特定属性结构。在遇到另一个具有此属性的文本语句的情况下,特定属性结构可只抽取此属性。因为自然语言在表层形式上非常自由,根据未登录属性生成越多的特定属性结构,就能从医学文档中识别越多的未登录属性的特定部分和可替换部分;因此,属性抽取就能达到更高的精度。
(第三实施例)
装置600可进一步包括属性更新单元,以根据生成的新的特定属性结构更新预确定的属性抽取方法。根据新的特定属性结构,将从医学文档中抽取更多的未登录属性,从而达到更高的精度。
(发明应用)
根据以上所述的用于未登录属性识别处理的装置和方法,本发明可识别不同的未登录属性,而且,根据所述未登录属性生成特定属性结构。
在一种实现方式中,医学文档获取单元310执行步骤S410以从医学文档中获取文本语句,例如,所述文本语句可以是“結節は有意な腫大に接しています(探及结节明显肿大)”。
属性抽取单元320执行步骤S420以从文本语句中抽取已登录属性和至少一个候选未登录属性,还抽取属性之间的关系。即,“結節(结节)”和“腫大(肿大)”是异常,是已登录属性,“接しています(探及)”是候选未登录属性。
接下来,未登录属性识别单元330执行步骤S430,以通过将已登录属性和候选未登录属性映射为具有关系的结构化元素并确定所述具有关系的结构化元素是否满足至少一个通用属性结构,来识别所述候选未登录属性是否为未登录属性。即,“結節(结节)”和“腫大(肿大)”是异常,所以属于中心对象属性类型。候选未登录属性“接しています(探及)”是两个中心对象之间的位置标记,属于连接关系属性类型。因此,未登录属性识别单元330将已登录属性和候选未登录属性以及已登录属性和候选未登录属性之间的关系映射为结构化元素。因此,在具有关系的结构化元素与其中一个通用属性结构匹配的情况下,候选未登录属性可被识别为未登录属性。结构化意义是两个中心对象由某一未知内容连接,该未知内容表示位置,因此,该未知内容一定是显示所述中心对象的某一位置关系,即使当前并未对其进行定义。基于可替换值,候选未登录属性“接しています(探及)”被识别为未登录属性。即,候选未登录属性“接しています(探及)”与通用属性结构的位置标记匹配,因此,所述候选未登录属性被识别为未登录属性。
未登录属性获取单元340执行步骤S440以获取未登录属性,所述未登录属性可被输出或用于进一步处理。
特定属性结构生成单元610执行步骤S450以根据未登录属性生成特定属性结构。即,特定属性结构包含两个中心对象和未登录属性“接する(探及)”。此外,特定属性结构可用于属性抽取。
在另一种实现方式中,医学文档获取单元310执行步骤S410以从接收的医学文档中获取文本语句,例如,文本语句可以是“血腫が術後普通に見られる所見である(血肿术后通常可见)”。
属性抽取单元320执行步骤S420以从文本语句中抽取已登录属性和至少一个候选未登录属性,并且还抽取属性之间的关系。即,“血腫(血肿)”是异常,“見られる所見である(可见)”是断言,二者均为已登录属性。“術後普通(术后通常)”是候选未登录属性。
接下来,未登录属性识别单元330执行步骤S430,以通过将已登录属性和候选未登录属性映射为具有关系的结构化元素并确定所述具有关系的结构化元素是否满足至少一个通用属性结构,来识别所述候选未登录属性是否为未登录属性。即,“血腫(血肿)”是异常,所以属于中心对象属性类型。“見られる所見である(可见)”是断言,所以属于内容属性类型。候选未登录属性“術後普通(术后通常)”是文本语句中的唯一值。唯一值意思是不会在已登录属性中找到。因此,未登录属性识别单元330将已登录属性和候选未登录属性以及已登录属性和候选未登录属性之间的关系映射为结构化元素。因此,在具有关系的结构化元素与其中一个通用属性结构匹配的情况下,候选未登录属性可被识别为未登录属性。结构化意义是一个中心对象被唯一修饰语修饰,所以唯一修饰语一定是由医生书写的将此对象区别于所有其他对象的某一属性。基于所述唯一值,候选未登录属性“術後普通(术后通常)”被识别为未登录属性。即,候选未登录属性“術後普通(术后通常)”与通用属性结构的唯一值匹配,因此,所述候选未登录属性被识别为未登录属性。
未登录属性获取单元340执行步骤S440以获取未登录属性,所述未登录属性可被输出或用于进一步处理。
特定属性结构生成单元610执行步骤S450以根据未登录属性生成特定属性结构。即,特定属性结构包含一个中心对象和未登录属性“術後普通(术后通常)”。此外,特定属性结构可用于属性抽取。
在另一种实现方式中,医学文档获取单元310执行步骤S410以从接收的医学文档中获取文本语句,例如,所述文本语句可以是“メラニン含有量の多い転移を疑います(怀疑黑色素含量多的转移)”。
属性抽取单元320执行步骤S420以从文本语句中抽取已登录属性和至少一个候选未登录属性,并且还抽取属性之间的关系。即,“転移(转移)”是异常,“疑います(怀疑)”是断言,二者均为已登录属性。“メラニン含有量多い(黑色素含量多)”是候选未登录属性。
接下来,未登录属性识别单元330执行步骤S430,以通过将已登录属性和候选未登录属性映射为具有关系的结构化元素并确定所述具有关系的结构化元素是否满足至少一个通用属性结构,来识别所述候选未登录属性是否为未登录属性。即,“転移(转移)”是异常,所以属于中心对象属性类型。“疑います(怀疑)”是断言,所以属于内容属性类型。候选未登录属性“メラニン含有量多い(黑色素含量多)”是文本语句中的具有修饰参数的未知内容。因此,未登录属性识别单元330将已登录属性和候选未登录属性以及已登录属性和候选未登录属性之间的关系映射为结构化元素。因此,在具有关系的结构化元素与其中一个通用属性结构匹配的情况下,候选未登录属性可被识别为未登录属性。结构化意义是一个中心对象与未知内容相关,并且所述未知内容由特定参数修饰,所以所述具有特定参数的未知内容一定是属性。基于修饰语,候选未登录属性“メラニン含有量多い(黑色素含量多)”被识别为未登录属性。即,候选未登录属性“メラニン含有量多い(黑色素含量多)”与通用属性结构的修饰语匹配,因此,所述候选未登录属性被识别为未登录属性。
未登录属性获取单元340执行步骤S440以获取未登录属性,所述未登录属性可被输出或用于进一步处理。
特定属性结构生成单元610执行步骤S450以根据未登录属性生成特定属性结构。即,特定属性结构包含一个中心对象和未登录属性“メラニン含有量(黑色素含量)”。此外,特定属性结构可用于属性抽取。
在另一种实现方式中,特定属性结构生成单元610生成特定属性结构之后生成特定属性有助于属性抽取。此实施例将存储整个特定属性结构,以建立特定属性结构实例数据库。在此实施例中,通用属性结构指的是许多具体结构的抽象形式。
在另一种实施方式中,属性抽取装置可通过聚类未登录属性来生成属性类别;并将所述属性类别设置为中心对象的属性类型,并将所述类别中聚类的未登录属性设置为所述属性类型的属性内容。属性抽取装置可通过执行以下步骤来聚类未登录属性:计算未登录属性与已登录属性集中的属性之间的第一相关度,计算所述未登录属性与其他未登录属性之间的第二相关度;基于第一相关度与第二相关度聚类未登录属性。
在另一种实现方式中,在用户遇到新领域的情况下,为了从此领域中抽取结构化信息,需要使用本发明来定义属性类型,同时从文本中抽取属性。
上述所有单元是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如,现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如,计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而,当存在执行特定过程的步骤的情况下,可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开中,只要它们所构成的技术方案是完整的、适用的即可。
可以以各种方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明,否则本方法的步骤的上述顺序仅旨在是说明性的,并且本发明的方法的步骤不局限于上述具体描述的顺序。此外,在一些实施例中,本发明还可以被实施为在记录介质中记录的程序,其包括用于实现根据本发明的方法的机器可读指令。因此,本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已经通过示例详细地展示了本发明的一些具体实施例,但是本领域的技术人员应该理解,上述示例仅旨在是说明性的,而不限制本发明的范围。本领域的技术人员应该理解,上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求限定。

Claims (17)

1.一种未登录属性抽取装置,所述未登录属性抽取装置包括:
获取单元,配置为从文本文档中获取文本语句;
属性抽取单元,配置为从所述文本语句中抽取已登录属性、候选未登录属性、所述已登录属性之间的关系以及所述已登录属性与所述候选未登录属性之间的关系;
未登录属性识别单元,配置为在所述候选未登录属性满足通用属性结构的一部分的情况下,将所述候选未登录属性识别为未登录属性。
2.根据权利要求1所述的未登录属性抽取装置,其中,所述通用属性结构是预定义的,并且包含未登录属性、至少两个结构化元素、所述至少两个结构化元素之间的关系以及所述未登录属性与所述至少两个结构化元素之间的关系。
3.根据权利要求1所述的未登录属性抽取装置,其中,所述未登录属性识别单元执行如下操作:
将所述已登录属性、所述候选未登录属性以及所述已登录属性和所述候选未登录属性之间的关系映射为结构化元素;
确定所述具有关系的结构化元素是否满足所述通用属性结构,在所述具有关系的结构化元素与所述通用属性结构匹配的情况下,被映射为所述具有关系的结构化元素的所述候选未登录属性为未登录属性。
4.根据权利要求2或3所述的未登录属性抽取装置,所述未登录属性抽取装置还包括:
特定属性结构生成单元,配置为根据所述未登录属性生成特定属性结构,其中,所述特定属性结构由所述结构化元素以及所述未登录属性内部的至少一个特定部分和可替换部分组成,并且还包含所述特定部分、所述可替换部分和所述结构化元素之间的关系。
5.根据权利要求4所述的未登录属性抽取装置,其中,
所述特定属性结构生成单元将所述未登录属性分成所述特定部分和所述可替换部分,并且通过分析所述未登录属性来识别所述未登录属性的核心部分和修饰语部分,并将所述核心部分指定为所述特定部分,将所述修饰语部分指定为所述可替换部分。
6.根据权利要求4所述的未登录属性抽取装置,其中,
所述特定属性结构生成单元识别所述未登录属性的数字部分,然后将所述数字部分指定为所述可替换部分。
7.根据权利要求4所述的未登录属性抽取装置,其中,
所述特定属性结构生成单元识别所述未登录属性和至少一个其他属性的相同内容,然后将所述内容指定为所述特定部分。
8.根据权利要求4所述的未登录属性抽取装置,其中,
所述特定属性结构生成单元识别所述未登录属性的无限集中的词语,然后将所述无限集中的所述词语指定为可替换部分。
9.根据权利要求2所述的未登录属性抽取装置,其中,所述结构化元素包括从中心对象类型、属性方面类型、属性内容类型、属性比较标记类型、连接词类型、判断词类型或自相关类型中选择的至少两个结构化类型。
10.根据权利要求3所述的未登录属性抽取装置,其中,将所述候选未登录属性映射为所述结构化元素,包括:
从所述文本语句和医学文档中抽取候选未登录属性的特征;
根据所述特征确定所述候选未登录属性的所述结构化元素。
11.根据权利要求2所述的未登录属性抽取装置,其中,所述通用属性结构的所述结构化元素为以下项目之一:
a)包括两个中心对象和至少一个与中心对象相关的位置标记词;
b)包括一个中心对象、一个中心对象属性、以及一个与所述中心对象和所述中心对象属性相关的唯一属性值;
c)包括一个中心对象、一个中心对象属性、一个表示特定类别的词语以及一个与所述词语相关的枚举值词语,所述枚举值词语与所述中心对象以及所述中心对象属性具有关系;或
d)包括一个中心对象、一个中心对象属性、一个表示特定类别的词语以及一个与所述词语相关的修饰值词语,所述修饰值词语与所述中心对象以及所述中心对象属性具有关系。
12.一种未登录属性抽取方法,所述未登录属性抽取方法包括:
文本语句获取步骤,用于从文本文档中获取文本语句;
属性抽取步骤,用于从所述文本语句中抽取已登录属性、候选未登录属性、所述已登录属性之间的关系以及所述已登录属性与所述候选未登录属性之间的关系;
未登录属性识别步骤,用于在所述候选未登录属性满足通用属性结构的一部分的情况下,将所述候选未登录属性识别为未登录属性。
13.根据权利要求12所述的未登录属性抽取方法,其中,所述通用属性结构是预定义的,并且包含未登录属性、至少两个结构化元素、所述至少两个结构化元素之间的关系以及所述未登录属性与所述至少两个结构化元素之间的关系。
14.根据权利要求12所述的未登录属性抽取方法,其中,所述未登录属性识别步骤包括:
将所述已登录属性和所述候选未登录属性以及所述已登录属性和所述候选未登录属性之间的关系映射为结构化元素;
确定所述具有关系的结构化元素是否满足所述通用属性结构,在所述具有关系的结构化元素与所述通用属性结构匹配的情况下,被映射为所述具有关系的结构化元素的所述候选未登录属性为未登录属性。
15.根据权利要求13或14所述的未登录属性抽取方法,所述未登录属性抽取方法还包括:
特定属性结构生成步骤,用于根据所述未登录属性生成特定属性结构,其中,所述特定属性结构由所述结构化元素和所述未登录属性内部的至少一个特定部分和可替换部分组成,并且还包含所述特定部分、所述可替换部分和所述结构化元素之间的关系。
16.根据权利要求15所述的未登录属性抽取方法,其中,
在所述特定属性结构生成步骤中,将所述未登录属性分成所述特定部分和所述可替换部分,并且通过分析所述未登录属性来识别所述未登录属性的核心部分和修饰语部分,并将所述核心部分指定为所述特定部分,将所述修饰语部分指定为所述可替换部分。
17.根据权利要求13所述的未登录属性抽取方法,其中,所述通用属性结构的所述结构化元素为以下项目之一:
a)包括两个中心对象和至少一个与中心对象相关的位置标记词;
b)包括一个中心对象、一个中心对象属性、以及一个与所述中心对象和所述中心对象属性相关的唯一属性值;
c)包括一个中心对象、一个中心对象属性、一个表示特定类别的词语以及与一个所述词语相关的枚举值词语,所述枚举值词语与所述中心对象以及所述中心对象属性具有关系;或
d)包括一个中心对象、一个中心对象的一个属性、一个表示特定类别的一个词语以及一个与所述词语相关的一个修饰值词语,所述修饰值词语与所述中心对象以及所述中心对象的所述属性具有关系。
CN201710374631.3A 2017-05-24 2017-05-24 未登录属性抽取方法和装置 Pending CN108932223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710374631.3A CN108932223A (zh) 2017-05-24 2017-05-24 未登录属性抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710374631.3A CN108932223A (zh) 2017-05-24 2017-05-24 未登录属性抽取方法和装置

Publications (1)

Publication Number Publication Date
CN108932223A true CN108932223A (zh) 2018-12-04

Family

ID=64450510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710374631.3A Pending CN108932223A (zh) 2017-05-24 2017-05-24 未登录属性抽取方法和装置

Country Status (1)

Country Link
CN (1) CN108932223A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933672A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 处理查询的方法、装置、电子设备和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933672A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 处理查询的方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
Olczak et al. Artificial intelligence for analyzing orthopedic trauma radiographs: deep learning algorithms—are they on par with humans for diagnosing fractures?
Magge et al. Overview of the sixth social media mining for health applications (# SMM4H) shared tasks at NAACL 2021
CN105940401B (zh) 用于提供可执行注释的***和方法
US8700589B2 (en) System for linking medical terms for a medical knowledge base
CN106415555B (zh) 用于病理学报告与放射学报告的相关联的***和方法
Marelli et al. Compounding as Abstract Operation in Semantic Space: Investigating relational effects through a large-scale, data-driven computational model
US10628476B2 (en) Information processing apparatus, information processing method, information processing system, and storage medium
RU2686627C1 (ru) Автоматическое создание ориентированной на показатели продольной области для просмотра показателей пациента
De Lusignan et al. Defining datasets and creating data dictionaries for quality improvement and research in chronic disease using routinely collected data: an ontology-driven approach
JP2014505950A (ja) 撮像プロトコルの更新及び/又はリコメンダ
CN106233289A (zh) 用于患者历史的可视化的方法和***
US20100010806A1 (en) Storage system for symptom information of Traditional Chinese Medicine (TCM) and method for storing TCM symptom information
CN110688421B (zh) 一种智能化的可定制的数据治理和分析方法
US9881004B2 (en) Gender and name translation from a first to a second language
CN113553840A (zh) 一种文本信息处理方法、装置、设备及存储介质
WO2021157718A1 (ja) 文書作成支援装置、文書作成支援方法及びプログラム
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
CN108932223A (zh) 未登录属性抽取方法和装置
JP7518971B2 (ja) 情報判断の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN117672440A (zh) 基于神经网络的电子病历文本信息抽取方法及***
CN112101034B (zh) 一种判别医学实体的属性的方法、装置及相关产品
CN108009157A (zh) 一种语句归类方法及装置
WO2022079593A1 (en) A system and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history
Fieder et al. Counting on number: effects of number information on grammatical processing of mass and count nouns
Kite et al. Aboriginal and Torres Strait Islander peoples' perceptions of quality of life and wellbeing and how they are measured: a systematic review protocol

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181204