CN107229609B

CN107229609B - 用于分割文本的方法和设备

Info

Publication number: CN107229609B
Application number: CN201610177984.XA
Authority: CN
Inventors: 黄耀海; 胡钦谙; 郭瑞山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2021-08-13
Anticipated expiration: 2036-03-25
Also published as: CN107229609A; US20190354886A1; WO2017164203A1; JP6646757B2; JP2019512801A

Abstract

本发明提供了用于分割文本的方法和设备。一种用于分割包括多个句子的文本的方法包括：从所述文本中提取多个证据和多个推论；对于所述多个推论中的每一个推论，基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置，其中所述优先位置表示该证据在用来作出该推论的证据的序列中最可能处于的位置；以及通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。通过利用本发明，分割将更为准确。

Description

用于分割文本的方法和设备

技术领域

本发明涉及用于分割文本的方法和设备，并且特别涉及用于根据主题将文本分割成多个部分的方法和设备。

背景技术

在现有技术中，已经提出了几种用于将文本分割成多个片段的方法。例如，美国申请公开US2014/0052753A1(METHOD,DEVICE AND SYSTEM FOR PROCESSING PUBLIC OPINIONTOPICS)公开了确定舆情话题是否符合报警条件的方法，其包括使用词汇特征(例如概念)对文本进行分割。

然而，在那些现有技术中存在一些缺点，诸如准确性低等。准确性低的原因可能是分割得到的文本片段与概念之间的映射有时不一致。例如，在分割医疗成像报告(诸如放射学报告)的情况下，医师经常在该报告中针对一个身体部位写出多于一个诊断。当使用身体部位作为概念来分割医疗成像报告时，对于一个身体部位的连续的多个诊断将被分在同一片段中，而不能彼此区分开。也就是说，在分割时，将遗漏对于一个身体部位的连续的多个诊断之间的边界。

图1示出CT图像诊断报告以作为医疗成像报告的示例，图2示出对于图1中示出的医疗成像报告的文本的分割的期望结果，并且图3示出通过使用现有技术方法获得的对于图1中示出的医疗成像报告的文本的分割结果。

在该示例中，待分割的文本是该报告的“发现”部分。期望的是，将文本分割成多个片段，其中每个片段对应于报告的“诊断”部分中列出的生理失调(disorder)中的一个，并且因此能够容易地将写出的生理失调中的每一个与其对应的发现(即，发现的异常)关联。因此，期望的分割结果包括5个片段，如图2所示。然而，如图3所示，现有技术方法仅识别出4个片段。这是因为，在该报告中，两个生理失调(即，“肺癌”和“肺气肿”)都涉及身体部位“肺”，并且根据现有技术的方法，“发现”部分中的与身体部位“肺”关联的所有句子将被分割到同一片段中。也就是说，将遗漏对应于“肺癌”的句子与对应于“肺气肿”的句子之间的分割边界。

在医疗成像报告领域中，医师经常在报告中针对一个身体部位写出多于一个诊断。当然，在与医疗成像报告领域类似的其它种类的文本领域中存在同样的问题。因此，为了解决上述问题，需要新的文本分割技术。

发明内容

深入研究之后，本发明的发明人发现了，写医疗成像报告或类似报告的写作者在作出推论时具有对发现或做出诊断的证据(以下称为证据)进行排序的特定的偏好或惯例。以医疗成像报告为例，下面的表1列出几种排序规则及其示例。一般，放射科医师喜欢把具有显著诊断意义的发现写在不具有显著诊断意义的发现前面；把一般的发现写在对发现的详细描写前面；以及把对诊断呈阳性的发现写在对诊断呈阴性的发现前面。另外，一些发现是为诊断疾病所必需的，而其它发现是可选的。放射科医师通常把必需的发现写在可选的发现前面。

ID	对发现进行排序的规则	示例
			1	显著的->不显著的	结节->肥大
2	一般的->详细的	结节->子结节
			3	阳性->阴性	***病(+)->胸腔积液(-)
4	必需的->可选的	结节->***病

表1

因此，文本的一个片段中的句子的序列(每个句子包含证据)一般遵循特定的规则，该规则可以凭经验或通过分析分割历史而获得。也就是说，一些类型的句子总是位于片段的开头附近或在片段的开头处，即，片段的开始，并且其它一些类型的句子大部分位于片段的尾部附近或尾部处，即，片段的结束。另外，一些类型的句子可能大部分位于片段的中间附近或中间处。通过根据特定的规则估计每个句子在片段中最可能的位置，能够容易地确定不同片段之间的边界。因此，本发明的发明人提出了一种新的分割方法，其基于文本和/或分割历史确定每个证据(对应于每个句子)在对于一个推论的片段中的优先位置(即，最可能的位置)，并且然后基于证据的优先位置将文本分割成多个片段。

换句话说，本发明的一个概念是，在医疗报告中，用于描述一个医疗现象的片段(例如，一个完整的诊断)的句子序列的开始句子和结束句子总是包含某些特定的医学术语(诸如，异常，生理失调)，因此，本发明能够通过确定这些特定的医学术语在句子序列中的位置(诸如，头部、尾部)来确定医疗现象片段之间的边界。当然，本领域技术人员容易理解，本发明的这个概念不限于医疗报告，并且还能够被应用于与医疗报告类似的其它报告。

本发明的一个方面提供了一种用于分割包括多个句子的文本的方法，其包括：提取步骤，从所述文本中提取多个证据和多个推论；确定步骤，对于所述多个推论中的每一个推论，基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置，其中所述优先位置表示该证据在用来作出该推论的证据的序列中最可能处于的位置；以及分割步骤，通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

利用根据本发明的文本分割方法和设备，分割将更为准确，并且使得更容易分析和比较专业报告，因此节省用户的时间。根据本发明的文本分割技术对医疗成像报告尤其有用，医疗成像报告通常在一个报告中作出若干诊断，该医疗成像报告诸如为放射学报告、核磁共振成像报告、医疗超声检查或超声报告、核医学报告、弹性成像报告、触觉成像报告、光声成像报告、热成像报告等。

根据参照附图的以下描述，本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1示出CT图像诊断报告作为医疗成像报告的示例。

图2示出对于图1中示出的医疗成像报告的文本的分割的期望结果。

图3示出通过使用现有技术方法获得的对于图1中示出的医疗成像报告的文本的分割结果。

图4是示出根据本发明的第一实施例的用于分割包括多个句子的文本的方法的流程图。

图5是示出根据本发明的第一实施例的用于分割包括多个句子的文本的文本分割设备的框图。

图6是示出根据本发明的第一实施例的用于分割包括多个句子的文本的另一种文本分割设备的框图。

图7示出对于第一实施例的文本分割方法的第一具体示例、及其提取的证据和推论。

图8(a)到图8(c)示出第一示例中的基于分割历史确定的优先位置。

图9示出第一具体示例的分割结果。

图10示出对于第一实施例的文本分割方法的第二具体示例的处理和结果。

图11示出根据本发明的示例性实施例的通用的硬件环境，在此公开的每个实施例可应用于其中。

图12是示出根据本发明的第二实施例的用于显示文本的方法的流程图。

图13示出了根据本发明的第二实施例的方法的示例性显示结果。

图14是示出根据本发明的第二实施例的用于显示文本的设备的框图。

图15是示出根据本发明的第三实施例的用于链接文本的方法的流程图。

图16是示出根据本发明的第三实施例的用于链接文本的设备的框图。

图17是示出根据本发明的第四实施例的用于提取诊断对象的方法的流程图，其中所述诊断对象为一组与诊断有关的实体。

图18是示出根据本发明的第四实施例的用于提取诊断对象的设备的框图。

图19是示出根据本发明的第五实施例的用于为给定的推论建议证据的方法的流程图。

图20是示出根据本发明的第五实施例的用于为给定的推论建议证据的设备的框图。

具体实施方式

下面将参考附图来详细描述本发明的实施例。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

首先，将说明在本公开的上下文中的一些术语的含义。

在本发明中待分割的文本一般包含多个句子，该多个句子描述多个证据和/或发现，并且基于这些证据和/或发现作出多于一个推论。在这种文本中，文本的某个片段中的句子的排序一般遵循特定的规则，该规则可以凭经验或通过分析分割历史而获得。因此，通过基于文本和/或分割历史确定每个证据和/或发现的优先位置，能够容易地确定片段边界。优先位置表示证据和/或发现在用来作出推论的证据的序列中最可能处于的位置。

该文本可以是医疗成像报告的文本，该医疗成像报告诸如为放射学报告、核磁共振成像报告、医疗超声检查或超声报告、核医学报告、弹性成像报告、触觉成像报告、光声成像报告、热成像报告等。当然，本领域技术人员容易理解，在本发明中待分割的文本不限于医疗成像报告，而是能够是任何种类的文本，只要它包含多个证据和多个推论即可。这种文本的示例包括：临床报告、手术前的报告和手术后的报告、入院记录、出院小结等。

(第一实施例)

如图4所示，在提取步骤410中，从所述文本中提取多个证据和多个推论。

在一些示例中，证据和推论可以是实体或者命名实体。

在一个实施方式中，所述提取步骤410可以包括：根据预定义的词汇表来从所述文本中识别证据和/或推论。上述识别操作能够通过本领域中已知的任何种类的适当方法实现。例如，词汇表可以是通过用户或实验基于文本中讨论的内容而预定义的。词汇表可以包括这种文本中可能存在的证据和/或推论的所有实体或常见的实体。可以通过例如搜索和匹配词汇表中的实体与文本而从文本中识别出证据和/或推论。

可替代地，所述提取步骤410可以包括：通过使用实体识别技术来从所述文本中提取实体以作为证据和/或推论。上述提取操作能够通过本领域中已知的任何种类的适当方法(例如，通过任何已知命名实体识别(NER)方法)来实现。

在其它示例中，证据和/或推论可以是由实体及实体之间的关系构成的事实。相应地，在另一实施方式中，所述提取步骤410可以包括：通过使用实体识别技术和关系提取技术来从所述文本中提取由实体及实体之间的关系构成的事实以作为证据和/或推论。上述提取操作能够通过本领域中已知的任何种类的适当方法(例如，通过本领域中的任何已知的命名实体识别(NER)方法和任何已知的关系提取方法)来实现。

在一些情况中，还可以从文本中识别出证据的特性。例如，证据的特性可以是证据的极性，即，“阴性”或“阳性”。“阴性”证据意指，文本中其对应的句子是表示未找到该证据的否定句，或明确地叙述该证据是不显著的。例如，对于句子“未看到胸腔积液”，其提取的证据“胸腔积液”是“阴性”证据。相反，“阳性”证据意指，文本中其对应的句子是表示找到该证据的肯定句，或明确地叙述该证据是显著的。例如，对于句子“在右肺S4的***中，观察到直径2.5cm的结节”，其提取的证据“结节”是“阳性”证据。可以通过例如确定其对应句子是肯定句还是否定句来识别证据的极性。

接下来，在确定步骤420中，对于所述多个推论中的每一个推论，基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置，其中所述优先位置表示该证据在用来作出该推论的证据的序列中最可能处于的位置。

在一个实施方式中，确定步骤420可以包括：对于多个推论中的每一个推论，基于所述文本中的证据的特性和/或分割历史来确定多个证据中的每一个证据的优先位置的分类值或者数值。

在一些情况中，用来作出推论的证据的序列中的所有位置能够被分类成多个种类，诸如“头部位置”、“中间位置”、“尾部位置”等。然后可以给每个种类分配一个分类值(诸如，‘尾部’、‘中间’、‘头部’等)。因此，可以由分类值表示优先位置。

例如，优先位置的分类值可以至少包括‘尾部’和‘头部’，并且可以根据证据的极性(阳性或阴性)来确定。在证据的极性为阴性的情况下可以确定所述证据的优先位置为‘尾部’，并且在证据的极性为阳性的情况下可以确定所述证据的优先位置为‘头部’。

可替代地，可以通过如下操作来确定优先位置的分类值：计算证据属于与各个分类值对应的每个种类的概率，并且然后基于所计算的概率来选择分类值中的一个分类值以作为证据的优先位置。在一些示例中，可以以简单的方式选择与最高概率关联的分类值作为优先位置。可以基于分割历史和/或文本中的证据的特性计算概率。

在其它一些情况中，优先位置可以由数值来表示。可以通过如下操作来确定优先位置的数值：计算和规格化证据在每个分割历史中用来作出推论的证据的序列中的位置；以及对证据在所有分割历史中的位置求平均值以作为证据的优先位置的数值。

例如，计算和规格化证据的位置的步骤可以包括：计算在每个分割历史中用来作出推论的证据的序列中证据到尾部位置的距离，并且将所述距离规格化到从0到1的数值范围以作为证据的位置。在一个示例中，在每个分割历史中，当证据恰好处于与推论有关的分割片段的尾部时，证据的距离为0，并且当证据恰好处于该片段的头部时，证据的距离为1。可以通过本领域中任何已知的距离计算方法来计算和规格化证据的位置与尾部位置之间的距离，而不会受特别地限制。

接下来，如图4所示，在分割步骤430中，通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

在一个实施方式中，在确定片段边界之前，可以滤掉不满足推论所施加的约束的候选片段边界。例如，在必须通过使用三个连续的特定证据才能作出推论(例如，某个诊断必须由三个连续的特殊步骤来确定)的情况下，这些连续的证据之中的两个证据之间的边界不可能是片段边界，并且需要被滤掉。也就是说，在用来作出推论的证据的序列必须由两个或更多个特定证据构成的情况下，在确定片段边界之前，可以滤掉所述两个或更多个特定证据之间的候选的片段边界。

在一些示例中，可以通过使用预定义的规则或使用机器学习算法基于优先位置来确定片段边界。

该规则可以通过用户或通过实验预定义。例如，对于两个连续的句子，在前一句子的优先位置为尾部位置而后一句子的优先位置为头部位置的情况下，它通常意味着下一片段的头部跟随着前一片段的尾部。也就是说，在这两个连续的句子之间存在片段边界。

因此，在如上所述地确定优先位置的分类值的情况下，所述分割步骤可以包括：在两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据并且后一句子包含具有‘头部’的优先位置的证据的情况下，将所述两个连续句子之间的边界确定为片段边界。

在其它示例中，在如上所述地确定优先位置的数值的情况下，所述分割步骤可以包括：在两个连续句子中包含的证据的优先位置的数值之间的差值大于预定义的阈值的情况下，将所述两个连续句子之间的边界确定为片段边界。另外，如果数值表示到尾部位置的距离，则前一句子的优先位置的数值需要小于后一句子的优先位置的数值。

在另一实施例中，可以通过使用机器学习算法基于优先位置来分割文本。例如，机器学习算法通过使用优先位置作为特征来为句子分配分数以便确定它是否作为一个新的片段的开始；可替代地，机器学习算法通过使用优先位置作为特征来从一组候选分割方式中选出最佳的分割方式。机器学习算法可以通过本领域中已知的任何技术(诸如基于HMM或CRF的序列标记技术等)实现。

在另一实施方式中，根据本实施例的方法还可以包括：从所述文本中提取身体部位并且基于所述身体部位将所述文本分割成多个部分；以及对于所分割的部分中的一个或更多个部分，通过基于证据的优先位置将一个部分中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述部分分割成多个片段。

这种实施方式可以是根据本发明的分割方法与现有技术分割方法的组合。首先，利用现有技术分割方法，通过提取身体部位作为话题，基于话题将文本预先分割成多个部分。每个部分对应于一个身体部位，如图3所示。然后，在存在与同一身体部位有关的多于一个推论的情况下，通过利用如上所述的根据本发明的文本分割方法将对应于这个身体部位的部分进一步分割成多个片段。这种组合实现方式能够结合根据本发明的分割方法和现有技术分割方法两者的优点。

在上述的文本分割方法中，所述文本可以为医疗成像报告。在这种情况下，所述证据对应于所成像的对象的异常，并且所述推论包括所成像的对象的生理失调。另外，例如，可以仅对医疗成像报告中的记录发现(包含证据)的部分进行分割。

图5是示出根据本发明第一实施例的用于分割包括多个句子的文本的文本分割设备500的框图。

如图5所示，文本分割设备500包括：提取单元510、确定单元520和分割单元530。

更具体地，提取单元510被配置用于从所述文本中提取多个证据和多个推论。

确定单元520被配置用于，对于所述多个推论中的每一个推论，基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置，其中所述优先位置表示该证据在用来作出该推论的证据的序列中最可能处于的位置。

分割单元530被配置用于通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

设备500中的各个单元能够被配置为执行图4中的流程图中示出的各个步骤。

图6是示出根据本发明第一实施例的用于分割包括多个句子的文本的另一种文本分割设备600的框图。

如图6所示，文本分割设备600包括：处理器610和存储装置620。

更具体地，存储装置620存储计算机执行的指令，所述指令能够使得处理器610执行以下操作：

从所述文本中提取多个证据和多个推论；

对于所述多个推论中的每一个推论，基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置，其中所述优先位置表示所述证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

设备600可以适于通过修改所存储的计算机执行的指令来执行如上所述的根据本发明的文本分割方法中的各个操作。

另外，用于执行图4中示出的方法的第一实施例的设备还能够通过在下文中将详细描述的图11中示出的硬件环境具体实现。

利用上述的文本分割方法和设备，能够提高分割的准确性。

[第一示例]

接下来，为了让本领域技术人员更好地和充分地理解本发明，将详细描述上述第一实施例的文本分割方法的第一具体示例。该示例仅仅是示例性的，而不意图限制本发明。

为了更好显示本发明的操作和效果，仅取图1中示出的医疗成像报告的一部分作为待分割文本的示例。待分割部分仅包含与肺有关的发现，即，第1个句子到第11个句子，如图7所示。在这种情况下，从每个句子中提取一个异常作为证据。并且从文本中提取生理失调作为推论，如图7所示。可以通过使用预定义的词汇表或通过使用任何已知的实体识别技术来提取异常和生理失调。

对于每一对证据和推论，可以基于分割历史统计地计算所述证据在用来作出所述推论的证据的序列中的优先位置。

具体地，已经提取了医疗成像报告的历史中的生理失调和异常的序列。那些医疗成像报告已经被分割以使得一个片段中的所有异常与一个特定的生理失调有关。此外，记录在作出特定的诊断(即，生理失调)时异常所处的位置。

在该示例中，该位置是作为‘头部’、‘中间’或‘尾部’的分类值。然后对于每一对异常和生理失调，对历史中的异常的位置为‘头部’的次数进行计数，对历史中的异常的位置为‘中间’的次数进行计数，并且对历史中的异常的位置为‘尾部’的次数进行计数。相应地，计算对于各个位置(即，‘头部’、‘中间’和‘尾部’)的概率。然后，选择具有大于预定义阈值的概率的位置作为对于这对异常和生理失调的优先位置，如图8(a)和图8(b)所示。

在该示例中，对于每个异常，将分别针对两个生理失调的两个优先位置结合以获得最终的优先位置，如图8(c)所示。可以通过以简单规则对两个分类值求平均来实现结合。不用说，两个相同位置被结合成相同位置。另外，‘头部’位置和‘中间’位置被平均为‘头部’位置，并且‘尾部’位置和‘中间’位置被平均为‘尾部’位置。

在一个异常在报告中出现多于一次的情况下，可以通过使用例如如在美国专利US8457950中所公开的指代消解(co-reference resolution)技术来仅把优先位置分配给第一次出现的异常。因此，在该示例中缺少有些证据的优先位置，如图8(c)所示。

然后，包含这十一个句子的部分根据它们的优先位置而被分割成两个片段，如图9所示。具体地，如上所述，可以通过使用预定义的规则分割该部分。该规则是，在优先位置的序列中连续的尾部位置和头部位置之间分割文本。也就是说，对于图9中示出的每一对相邻句子，存在一个候选的片段边界，并且在这两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据而后一句子包含具有‘头部’的优先位置的证据的情况下，这个候选的边界被确定作为片段边界。如图9所示，第六个句子和第七个句子满足该预定义的规则，并且在其之间的边界被确定作为片段边界。

最后，可选的是，通过本领域中已知的任何技术将分割得到的片段与推论相关联，如图9的最后一列所示。

[第二示例]

另外，为了让本领域技术人员更好地和充分地理解本发明，接下来将详细描述上述第一实施例的文本分割方法的第二具体示例。同样，该示例仅仅是示例性的，而不意图限制本发明。

在该示例中，待分割文本对应于图1中示出的医疗成像报告。这个示例如上面所讨论的那样将根据本发明的分割方法与现有技术分割方法结合。

首先，利用现有技术分割方法，通过提取身体部位作为话题，基于身体部位将文本预先分割成多个部分。在该示例中，主要器官被用作身体部位。每个部分对应于一个身体部位，如图10所示。

然后，注意，第二部分、第三部分和第四部分分别仅包含一个句子，并且因此不必被进一步分割。但是对应于肺的第一部分包含许多句子，其可能涉及多于一个推论，因此这个部分可以通过利用根据本发明的文本分割方法来被进一步分割成多个片段。能够通过第一示例中的方法将第一部分分割成两个片段，如图9所示。然而，在第二示例中，可以通过可替代的根据第一实施例的另一方法来分割第一部分。

如上所述，可以从句子中识别证据的极性，即，‘阴性’和‘阳性’。然后，‘头部’被分配作为阳性证据的优先位置，并且‘尾部’被分配作为阴性证据的优先位置，如图10所示。

接下来，可以根据预定义的规则通过使用优先位置来分割第一部分。该规则是，在优先位置的序列中连续的尾部位置和头部位置之间分割文本。也就是说，对于图10中示出的每一对相邻的句子，在其之间存在一个候选的片段边界，并且在这两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据而后一句子包含具有‘头部’的优先位置的证据的情况下这个候选的边界被确定作为片段边界。如图10所示，第六个句子和第七个句子满足该预定义的规则，并且在其之间的边界被确定作为片段边界。

根据第一实施例的上述文本分割方法能够被用在很多应用中。接下来，下文将介绍几种主要的应用。

(第二实施例)

本实施例涉及应用第一实施例的文本分割方法来以更好的方式显示文本。

如图12所示，首先，在步骤1210中，通过利用第一实施例的文本分割方法将所述文本分割成多个片段。

然后，在步骤1220中，通过将每个片段与一个推论关联来显示分割得到的片段。

以图1中示出的医疗成像报告作为待分割和显示的文本的示例。如上面所讨论的，这个报告可以被分割成五个片段，如图10所示。

然后，每个片段与一个推论相关联，并且利用多个页面来显示文本，其中每个页面具有描述对应推论的标签。在具有推论标签的页面中，显示对应片段中的发现和诊断。然而，医师有时发现了一些异常但是没有作出有关的诊断，因而第五片段没有对应的推论。在这种情况下，第五片段被分配有最后的标签“其它”。最终，报告能够通过利用推论的标签来显示，并且能够被用户容易地和快速地阅读，如图13所示。

图14是示出根据本发明的第二实施例的用于显示文本的设备1400的框图。

如图14所示，设备1400包括：根据第一实施例的文本分割设备500和显示单元1410，该文本分割设备500被配置用于将文本分割成多个片段，该显示单元1410被配置用于通过将每个片段与一个推论关联来显示分割得到的片段。

设备1400中的各个单元能够被配置为执行图12中的流程图中示出的各个步骤。

(第三实施例)

本实施例涉及应用第一实施例的文本分割方法来跨越多个文档地链接文本。

如图15所示，首先，在步骤1510中，通过利用第一实施例的文本分割方法将所述文本中的每个文本分割成多个片段。

然后，在步骤1520中，将每个片段与一个推论关联。

然后，在步骤1530中，将与同一推论关联的片段链接在一起。链接操作可以通过本领域中已知的任何技术来实现。例如，可以基于标记实现跨越文档的链接。

本实施例跨越文档地链接相同推论的文本片段。在一个示例中，如果同一个病人的多份放射学报告中的多个文本片段与同一个生理失调有关，则将这些片段链接在一起。

图16是示出根据本发明的第三实施例的用于链接文本的设备1600的框图。

如图16所示，设备1600包括：根据第一实施例的文本分割设备500、关联单元1610和链接单元1620。

具体地，文本分割设备500被配置用于将文本中的每个文本分割成多个片段。

关联单元1610被配置用于将每个片段与一个推论关联。

链接单元1620被配置用于将与同一推论关联的片段链接在一起。

设备1600中的各个单元能够被配置为执行图15中的流程图中示出的各个步骤。

(第四实施例)

本实施例涉及应用第一实施例的文本分割方法来提取诊断对象。

如图17所示，首先，在步骤1710中，通过利用第一实施例的文本分割方法将医疗成像报告分割成多个片段。

然后，在步骤1720中，对于每个片段，输出该片段中的所有证据以及有关的推论作为一个诊断对象，或输出该片段中的身体部位的所有证据作为一个诊断对象。

图18是示出根据本发明的第四实施例的用于提取诊断对象的设备1800的框图。

如图18所示，设备1800包括：根据第一实施例的文本分割设备500和输出单元1810。

具体地，文本分割设备500被配置用于将医疗成像报告分割成多个片段。

输出单元1810被配置用于，对于每个片段，输出该片段中的所有证据以及有关的推论作为一个诊断对象，或输出该片段中的身体部位的所有证据作为一个诊断对象，其中所述诊断对象为一组与诊断有关的实体。

设备1800中的各个单元能够被配置为执行图17中的流程图中示出的各个步骤。

(第五实施例)

本实施例涉及应用第一实施例的文本分割方法来为给定的推论建议证据。

如图19所示，首先，在步骤1910中，从预定义的列表或历史中提取能够被用来作出所述推论的多个证据。

然后，在步骤1920中，确定每个证据的优先位置，其中所述优先位置表示所述证据在用来作出所述推论的证据的序列中最可能处于的位置。优先位置可以通过如上所述的第一实施例中的各种方式来确定，并且因此这里省略其细节。

然后，在步骤1930中，基于所提取的证据的优先位置来对所提取的证据进行排序，并且为所述给定的推论建议排序后的证据的序列。

在一个示例中，该方法获取从临床医生给放射科医师的检查请求作为其输入。可以从预定义的列表或历史中识别请求检查的异常。对于每一个异常，计算用来作出对于相同请求的诊断的异常的序列中的优先位置。然后优先位置被用来对放射科医师很可能告知的异常的建议进行排序。然后可以输出排序后的异常的序列作为对于给定的推论的建议。

图20是示出根据本发明的第五实施例的用于为给定的推论建议证据的设备2000的框图。

如图20所示，设备2000包括：提取单元2010、确定单元2020和排序单元2030。

具体地，提取单元2010被配置用于从预定义的列表或历史中提取能够被用来作出所述推论的多个证据。

确定单元2020被配置用于确定每个证据的优先位置，其中所述优先位置表示所述证据在用来作出所述推论的证据的序列中最可能处于的位置。

排序单元2030被配置用于基于所提取的证据的优先位置来对所提取的证据进行排序，并且为所述给定的推论建议排序后的证据的序列。

设备2000中的各个单元能够被配置为执行图19中的流程图中示出的各个步骤。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其它方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。另外，能够理解上述实施例中的每个实施例的各个方面/特征可以与上述实施例中的其它实施例结合，除非明确陈述了这种结合不被允许或者这种结合不合逻辑。

(硬件实现方式)

图11图示出根据本发明的示例性实施例的其中可应用在此公开的实施例中的每一个的一般硬件环境1100。

参考图11，现将描述作为可应用到本发明的各方面的硬件设备的例子的计算设备1100。计算设备1100可以是被配置成执行处理和/或计算的任何机器，其可以是但不限于是工作站、服务器、桌上型计算机、膝上型计算机、平板计算机、个人数字助理、智能手机、车载计算机或者其任意组合。前述设备500、600、1400、1600、1800和2000中的每一个可以整体地或至少部分地由计算设备1100或类似设备或***来实现。

计算设备1100可以包括与总线1102连接的或者与之通信的元件，该连接或者通信可能是经由一个或多个接口实现。例如，计算设备1100可以包括总线1102、一个或多个处理器1104、一个或多个输入设备1106及一个或多个输出设备1108。一个或多个处理器1104可以是任何种类的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(比如专用处理芯片)。输入设备1106可以是能够将信息输入到计算设备的任何种类的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备1108可以是能够呈现信息的任何种类的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备1100还可以包括非瞬态存储设备1110或者与非瞬态存储设备1110连接，该非瞬态存储设备1110可以是非瞬态的且能实现数据存储的任何存储设备，并且可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或者任何其他磁介质、光盘或者任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓存存储器和/或任何其他存储器芯片或盒和/或计算机可以从其读取数据、指令和/或代码的任何其他介质。非瞬态存储设备1110可以能从接口拆卸。非瞬态存储设备1110可以具有用于实现上述的方法和步骤的数据/指令/代码。计算设备1100还可以包括通信设备1112。通信设备1112可以是能实现与外部装置和/或与网络的通信的任何种类的设备或***，并且可以包括但不限于调制解调器、网络卡、红外通信设备、无线通信设备和/或芯片集，比如蓝牙^TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设施等。

总线1102可以包括但不限于工业标准架构(ISA)总线、微通道架构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线及***设备互连(PCI)总线。

计算设备1100还可以包括工作存储器1114，其可以是可存储对于处理器1104的工作有用的指令和/或数据的任何种类的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素可以位于工作存储器1114中，其包括但不限于操作***1116、一个或多个应用程序1118、驱动器和/或其他数据和代码。用于执行上述方法和步骤的指令可以包括在一个或多个应用程序1118中，并且前述设备500、600、1400、1600、1800和2000的部件可以通过处理器1104读取并执行一个或多个应用程序1118的指令来实现。更具体而言，前述设备500的提取单元510例如可以在执行具有执行图4的步骤410的指令的应用1118时由处理器1104实现。此外，前述设备500的确定单元520例如可以在执行具有执行图4的步骤420的指令的应用1118时由处理器1104实现。此外，前述设备500的分割单元530例如可以在执行具有执行图4的步骤430的指令的应用1118时由处理器1104实现。此外，前述设备1400、1600、1800和2000的各个单元例如也可以在执行具有执行图12、15、17和19中的前述各个步骤的指令的应用1118时由处理器1104实现。软件要素的指令的可执行代码或源代码可以存储在非瞬态计算机可读存储介质中，比如上述的一个或多个存储设备1110，并且可以被读取到工作存储器1114中并可能被编译和/或安装。软件要素的指令的可执行代码或源代码也可以从远程位置下载。

应注意，本发明还提供了使指令存储于其上的非瞬态计算机可读介质，所述指令在被处理器执行时使得处理器执行第一到第三实施例的上述方法中的每一种方法的步骤。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种用于将包括构成医疗报告的多个句子的文本分割成多个片段的方法，其特征在于，包括：

提取步骤，从所述文本中提取指示发现的证据和指示生理失调的推论；

确定步骤，对于多个指示发现的证据中的每一个证据，基于所述文本和/或分割历史来确定优先位置，其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

分割步骤，通过所述优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

2.根据权利要求1所述的方法，其中所述提取步骤包括：

根据预定义的词汇表来从所述文本中识别证据和/或推论；或者

通过使用实体识别技术来从所述文本中提取实体以作为证据和/或推论；或者

通过使用实体识别技术和关系提取技术来从所述文本中提取由实体及实体之间的关系构成的事实以作为证据和/或推论。

3.根据权利要求1所述的方法，其中所述确定步骤包括：对于多个推论中的每一个推论，基于所述文本中的证据的特性和/或所述分割历史来确定所述多个证据中的每一个证据的优先位置的分类值或者数值。

4.根据权利要求3所述的方法，其中所述优先位置的分类值至少包括‘尾部’和‘头部’，所述证据的特性包括证据的极性，并且所述极性为阳性或阴性，以及

其中证据的优先位置在所述证据的极性为阴性的情况下被确定为‘尾部’，并且证据的优先位置在所述证据的极性为阳性的情况下被确定为‘头部’。

5.根据权利要求3所述的方法，其中确定优先位置的分类值包括：计算证据属于与各个分类值对应的每个种类的概率，并且然后基于所计算的概率选择分类值中的一个分类值以作为证据的优先位置。

6.根据权利要求3所述的方法，其中确定优先位置的数值包括：

计算和规格化证据在每个分割历史中用来作出推论的证据的序列中的位置；以及

对证据在所有分割历史中的位置求平均值以作为证据的优先位置的数值。

7.根据权利要求6所述的方法，其中计算和规格化证据的位置包括：计算在每个分割历史中用来作出推论的证据的序列中证据到尾部位置的距离，并且将所述距离规格化到从0到1的数值范围以作为证据的位置。

8.根据权利要求1所述的方法，其中所述分割步骤包括：在用来作出推论的证据的序列必须由两个或更多个特定证据构成的情况下，在确定片段边界之前，滤掉所述两个或更多个特定证据之间的候选的片段边界。

9.根据权利要求1所述的方法，其中所述分割步骤包括：通过使用预定义的规则或使用机器学习算法基于优先位置来确定片段边界。

10.根据权利要求4-5中任何一个所述的方法，其中所述分割步骤包括：

在两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据并且后一句子包含具有‘头部’的优先位置的证据的情况下将所述两个连续句子之间的边界确定为片段边界。

11.根据权利要求6-7中任何一个所述的方法，其中所述分割步骤包括：

在两个连续句子中包含的证据的优先位置的数值之间的差值大于预定义的阈值的情况下将所述两个连续句子之间的边界确定为片段边界。

12.根据权利要求1所述的方法，还包括：

从所述文本中提取身体部位并且基于所述身体部位将所述文本分割成多个部分；以及

对于所分割的部分中的一个或更多个部分，通过基于证据的优先位置将一个部分中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述部分分割成多个片段。

13.根据权利要求1所述的方法，其中所述文本为医疗成像报告，所述证据对应于所成像的对象的异常，并且所述推论包括所成像的对象的生理失调。

14.一种用于显示文本的方法，其特征在于，包括：

通过利用根据权利要求1-13中的任何一个所述的方法将所述文本分割成多个片段；以及

通过将每个片段与一个推论关联来显示分割得到的片段。

15.一种用于链接文本的方法，其特征在于，包括：

通过利用根据权利要求1-13中的任何一个所述的方法将所述文本中的每个文本分割成多个片段；

将每个片段与一个推论关联；以及

将与同一推论关联的片段链接在一起。

16.一种用于提取诊断对象的方法，其中所述诊断对象为一组与诊断有关的实体，其特征在于，该方法包括：

通过利用根据权利要求1-13中的任何一个所述的方法将医疗成像报告分割成多个片段；以及

对于每个片段，输出该片段中的所有证据以及有关的推论作为一个诊断对象，或输出该片段中的身体部位的所有证据作为一个诊断对象。

17.一种用于为给定的指示生理失调的推论建议指示发现的证据的方法，其特征在于，包括：

从预定义的列表或历史中提取能够被用来作出所述推论的多个指示发现的证据；

确定每个证据的优先位置，其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

基于所提取的证据的优先位置来对所提取的证据进行排序，并且为所述给定的推论建议排序后的证据的序列。

18.一种用于将包括构成医疗报告多个句子的文本分割成多个片段的设备，其特征在于，包括：

处理器；以及

存储装置，其上存储有计算机执行的指令，所述指令能够使得所述处理器执行：

从所述文本中提取指示发现的证据和指示生理失调的推论；

对于多个指示发现的证据中的每一个证据，基于所述文本和/或分割历史来确定优先位置，其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

通过基于所述优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

19.一种用于将包括构成医疗报告的多个句子的文本分割成多个片段的设备，其特征在于，包括：

提取单元，被配置用于从所述文本中提取指示发现的证据和指示生理失调的推论；

确定单元，被配置用于，对于多个指示发现的证据中的每一个证据，基于所述文本和/或分割历史来确定优先位置，其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

分割单元，被配置用于通过基于所述优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述文本分割成多个片段。

20.根据权利要求19所述的设备，其中所述提取单元包括：

被配置用于根据预定义的词汇表来从所述文本中识别证据和/或推论的单元；或者

被配置用于通过使用实体识别技术来从所述文本中提取实体以作为证据和/或推论的单元；或者

被配置用于通过使用实体识别技术和关系提取技术来从所述文本中提取由实体及实体之间的关系构成的事实以作为证据和/或推论的单元。

21.根据权利要求19所述的设备，其中所述确定单元包括：被配置用于对于多个推论中的每一个推论，基于所述文本中的证据的特性和/或所述分割历史来确定所述多个证据中的每一个证据的优先位置的分类值或者数值的单元。

22.根据权利要求21所述的设备，其中所述优先位置的分类值至少包括‘尾部’和‘头部’，所述证据的特性包括证据的极性，并且所述极性为阳性或阴性，以及

23.根据权利要求21所述的设备，其中被配置用于确定优先位置的分类值的单元包括：被配置用于计算证据属于与各个分类值对应的每个种类的概率并且然后基于所计算的概率选择分类值中的一个分类值以作为证据的优先位置的单元。

24.根据权利要求21所述的设备，其中被配置用于确定优先位置的数值的单元包括：

被配置用于计算和规格化证据在每个分割历史中用来作出推论的证据的序列中的位置的单元；以及

被配置用于对证据在所有分割历史中的位置求平均值以作为证据的优先位置的数值的单元。

25.根据权利要求24所述的设备，其中被配置用于计算和规格化证据的位置的单元包括：被配置用于计算在每个分割历史中用来作出推论的证据的序列中证据到尾部位置的距离并且将所述距离规格化到从0到1的数值范围以作为证据的位置的单元。

26.根据权利要求19所述的设备，其中所述分割单元包括：被配置用于在用来作出推论的证据的序列必须由两个或更多个特定证据构成的情况下在确定片段边界之前滤掉所述两个或更多个特定证据之间的候选的片段边界的单元。

27.根据权利要求19所述的设备，其中所述分割单元包括：被配置用于通过使用预定义的规则或使用机器学习算法基于优先位置来确定片段边界的单元。

28.根据权利要求22-23中任何一个所述的设备，其中所述分割单元包括：

被配置用于在两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据并且后一句子包含具有‘头部’的优先位置的证据的情况下将所述两个连续句子之间的边界确定为片段边界的单元。

29.根据权利要求24-25中任何一个所述的设备，其中所述分割单元包括：

被配置用于在两个连续句子中包含的证据的优先位置的数值之间的差值大于预定义的阈值的情况下将所述两个连续句子之间的边界确定为片段边界的单元。

30.根据权利要求19所述的设备，还包括：

被配置用于从所述文本中提取身体部位并且基于所述身体部位将所述文本分割成多个部分的单元；以及

被配置用于对于所分割的部分中的一个或更多个部分，通过基于证据的优先位置将一个部分中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界，来将所述部分分割成多个片段的单元。

31.根据权利要求19所述的设备，其中所述文本为医疗成像报告，所述证据对应于所成像的对象的异常，并且所述推论包括所成像的对象的生理失调。

32.一种用于显示文本的设备，其特征在于，包括：

根据权利要求19-31中的任何一个所述的设备，被配置用于将所述文本分割成多个片段；以及

显示单元，被配置用于通过将每个片段与一个推论关联来显示分割得到的片段。

33.一种用于链接文本的设备，其特征在于，包括：

根据权利要求19-31中的任何一个所述的设备，被配置用于将所述文本中的每个文本分割成多个片段；

关联单元，被配置用于将每个片段与一个推论关联；以及

链接单元，被配置用于将与同一推论关联的片段链接在一起。

34.一种用于提取诊断对象的设备，其中所述诊断对象为一组与诊断有关的实体，其特征在于，该设备包括：

根据权利要求19-31中的任何一个所述的设备，被配置用于将医疗成像报告分割成多个片段；以及

输出单元，被配置用于，对于每个片段，输出该片段中的所有证据以及有关的推论作为一个诊断对象，或输出该片段中的身体部位的所有证据作为一个诊断对象。

35.一种用于为给定的指示生理失调的推论建议指示发现的证据的设备，其特征在于，包括：

提取单元，被配置用于从预定义的列表或历史中提取能够被用来作出所述推论的多个指示发现的证据；

确定单元，被配置用于确定每个证据的优先位置，其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置；以及

排序单元，被配置用于基于所提取的证据的优先位置来对所提取的证据进行排序，并且为所述给定的推论建议排序后的证据的序列。