CN114117082B

CN114117082B - 用于对待校正数据校正的方法、设备和介质

Info

Publication number: CN114117082B
Application number: CN202210105129.3A
Authority: CN
Inventors: 张国强; 邹金勇; 张天维
Original assignee: Beijing Ouying Information Technology Co ltd
Current assignee: Beijing Ouying Information Technology Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-19
Anticipated expiration: 2042-01-28
Also published as: CN114117082A

Abstract

本公开的实施例涉及用于对待校正数据校正的方法、设备和介质，方法包括：对所述待校正数据执行预处理，以便转换为统一格式的待校正文本；基于预定义的符号，将所述待校正文本分割为一个或多个文本块，从而获取待校正的测试集合；根据基于医学专业数据的索引模型对所述测试集合执行索引测试，以便确定一个或多个文本块是否存在错误；响应于所述一个或多个文本块集合存在错误，确定一个或多个文本块的一个或多个候选修改项；以及根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，从而对所述待校正数据校正。由此，能够基于数据所述的医学专业领域更为准确地对数据校正。

Description

用于对待校正数据校正的方法、设备和介质

技术领域

本公开的实施例总体涉及医疗信息处理领域，并且更具体地涉及一种用于对医学专业上的待校正数据校正的方法、计算设备和计算机可读存储介质。

背景技术

在现有的医疗领域中，医疗数据越来越受到重视，医疗数据可以涵盖人的全生命周期，既包括个人健康，又包括医药服务、疾病防控、健康保障和食品安全、养生保健等多方面数据。通过充分利用医疗数据，可以推进互联网健康咨询、网上预约分诊、移动支付等应用，优化形成规范、共享、互信的诊疗流程。但医疗数据是具有数量巨大、来源分散、格式多样等特征的数据集合，如何对采集到的医疗大数据进行存储和关联分析是关键。

对于诸如骨科领域的医疗领域而言，医疗数据中的错误也越来越多。存在错误的场景例如包括：病历查房记录的书写记录、医学专业文档、音频ASR（语音识别）记录、医学图像OCR（文字识别）记录，但针对于医疗领域的校正，目前还不存在一个成熟的校正技术方案。

综上所述传统的用于对医学专业的待校正数据校正的方案所存在的不足之处在于：对来源混杂不一的医疗数据缺少合适的校正方式。

发明内容

针对上述问题，本公开提供了一种用于对医学专业上的待校正数据校正的方法、计算设备和计算机可读存储介质，能够更为准确地实现梳理来自多个来源的医疗数据信息并且对包括错误的医疗数据执行校正。

根据本公开的第一方面，提供了一种用于对待校正数据校正的方法，包括：对所述待校正数据执行预处理，以便转换为统一格式的待校正文本；基于预定义的符号，将所述待校正文本分割为一个或多个文本块，从而获取待校正的测试集合；根据基于医学专业数据的索引模型对所述测试集合执行索引测试，以便确定所述一个或多个文本块是否存在错误；响应于所述一个或多个文本块集合存在错误，确定所述一个或多个文本块的一个或多个候选修改项；以及根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，从而对所述待校正数据校正。

根据本公开的第二方面，提供了一种计算设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的第一方面的方法。

在本公开的第三方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中计算机指令用于使计算机执行本公开的第一方面的方法。

在一些实施例中，根据基于医学专业数据的索引模型对所述测试集合执行索引测试还包括：对医学专业数据执行预处理，以便转换为统一格式的预处理文本；基于预定义的符号，将所述预处理文本分割为一个或多个医学专业数据文本块，从而获取用于校正训练的训练集合；基于所述训练集合，构建倒序索引模型；以及应用所构建的倒序索引模型对所述测试集合执行索引测试。

在一些实施例中，构建倒序索引模型还包括：构建由一个或多个字节指向所述一个或多个医学专业数据文本块的索引集合；以及基于所述索引集合构建倒序索引模型，从而应用所构建的倒序索引模型对所述测试集合执行索引测试。

在一些实施例中，根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：将所述预处理文本提取为实体数据类以及实体关系类；以及通过将所提取的实体数据类设置为节点以及所提取的实体关系类设置为联结所述节点的边，为所述医学专业数据构建知识图谱。

在一些实施例中，根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：基于所构建的知识图谱，确定所述一个或多个文本块所属的主题；基于所确定的主题，确定一个或多个候选修改项的词性标注结果以及命名实体识别结果；以及基于所确定的词性标注结果以及命名实体识别结果，确定一个或多个候选修改项中的正确修改项。

在一些实施例中，确定所述一个或多个文本块所属的主题包括：基于隐含狄利克雷分布LDA概率图模型确定所述一个或多个文本块所属的主题。

在一些实施例中，根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：确定所述待校正数据的输入方式；响应于所述待校正数据的输入方式为手写输入，确定一个或多个候选修改项中的形似候选项为正确修改项；以及响应于所述待校正数据的输入方式为音频或视频输入，确定一个或多个候选修改项中的音似候选项为正确修改项。

在一些实施例中，根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：基于所确定的一个或多个候选修改项的词性标注结果、命名实体识别结果以及输入方式，对所属一个或多个候选修改项执行综合评分；以及基于综合评分，确定一个或多个候选修改项中的正确修改项。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了用于实现根据本发明的实施例的用于对医学专业上的待校正数据校正的方法的***的示意图。

图2示出了根据本公开的实施例的用于对医学专业的待校正数据校正的方法200的流程图。

图3示出了根据本公开的实施例的根据基于医学专业数据的索引模型对所述测试集合执行索引测试的方法300的流程图。

图4示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法400的流程图。

图5示出了根据本公开的实施例的知识图谱的示意图。

图6示出了根据本公开的实施例的确定一个或多个文本块所属的主题的方法600的流程图。

图7示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法700的流程图。

图8示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法800的流程图。

图9示出了根据本公开的实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所描述，在传统的用于对医学专业的数据校正的方案中，患者医学专业数据只能通过常规方式存储以及校正。传统校正方案包括规则替换、概率LM（语言模型）以及Mask LM（语言模型）等。规则替换通过“错误文本”映射到“正确文本”，从而将所有遇到或可能会遇到的错误正确对收集起来，再通过匹配的方式进行替换。虽然替换是一种准确率很高的方法，但是正确召回却很低，对于已知的错误需要堆海量的规则去适应，而对于未知的错误，规则无法处理，其具有明显的限制。

概率LM（语言模型）对领域的文本进行语言模型建模，从而得到一个多元的语言模型，再根据条件概率公式求得正确的文本。然而，因为专业垂直领域的数据有限，这会造成数据的分布非常稀疏，从而生成的模型不具有泛化能力。其次在概率求解的过程中和词出现的频率有很大的关联，而专业领域的数据存在一个现象就是某个细分支出现的次数少的时候，在校正的过程中，这一情况的权重会很低，从而影响最后的修改过程。

Mask LM（语言模型）对正确文本进行训练，从而得到每个位置上的字在上下文语义中表达的含义。基于此在后续进行校正的过程中可以将校正文本转化成一个完形填空的问题。即将可能出现错误的地方遮蔽起来，然后让模型进行预测遮蔽处，如果预测的结果和原词吻合则认为是正确，反之则改正。然而，针对专业垂直领域需要的数据量太大，而现实往往无法满足，且在训练过程中想要让网络真正理解专业的知识表达场景非常困难，从而使得上下文的语义理解能力变弱。使得校正的评价值变低。因此现在还不存在能解决以上技术问题的医学专业领域数据校正方案。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于对医学专业的待校正数据校正的方案。通过对医疗领域的数据进行相应训练，方案构建了该医疗领域的文本模型，例如知识图谱。通过索引映射的方法，可以确定待校正的输入数据是否存在错误，以及如果存在错误的话输入数据对应的一个或多个候选修改项。通过运用先前所构建的知识图谱，可以在一个或多个候选修改项中为输入数据确定正确的修改项，从而实现校正处理。

图1示出了用于实现根据本发明的实施例的用于对医学专业上的待校正数据校正的方法的***的示意图。如图1中所示，***包括计算设备110和医学专业数据管理设备130和网络140。计算设备110、医学专业数据管理设备130可以通过网络140（例如，因特网）进行数据交互。

医学专业数据管理设备130，其例如可以存储有一份或多份医学专业数据。医学专业数据管理设备130还可以将所存储的医学专业数据发送给计算设备110。医学专业数据管理设备例如而不限于是：电子计算机、网络服务器、存储计算器等。医学专业数据管理设备130例如收集来自多个来源的医学专业数据，例如，电子病历、病历查房记录的书写记录、医学专业文档、音频ASR（语音识别）记录、医学图像OCR（文字识别）记录等，并且可以将所收集的一份或多份医学专业数据进行分类管理。

关于计算设备110，其例如用于获取来自医学专业数据管理设备130的医学专业数据；并且将所获取的医学专业数据进行进一步的信息化。计算设备110还可以基于信息化医学专业数据，生成多个可视化图形展示医学专业数据。通过调整展示医学专业数据的可视化图形，可以实现对医学专业数据的筛选和训练。计算设备110可以接收来自用户或者医学专业数据管理设备130的待校正数据。通过应用本公开公开提供的方法，计算设备110可以对待校正数据执行校正。

计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备110上也可以运行着一个或多个虚拟机。在一些实施例中，计算设备110与医学专业数据管理设备130可以集成在一起，也可以是彼此分立设置。在一些实施例中，计算设备110例如包括预处理单元112、分割单元114、索引单元116、确定单元118、校正单元120。

预处理单元112，所述预处理单元112配置成对所述待校正数据执行预处理，以便转换为统一格式的待校正文本；

分割单元114，所述分割单元114配置成基于预定义的符号，将所述待校正文本分割为一个或多个文本块，从而获取待校正的测试集合。

索引单元116，所述索引单元116配置成根据基于医学专业数据的索引模型对所述测试集合执行索引测试，以便确定所述一个或多个文本块是否存在错误。

确定单元118，所述确定单元118配置成响应于所述一个或多个文本块集合存在错误，确定所述一个或多个文本块的一个或多个候选修改项。

校正单元120，所述校正单元120配置成根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，从而对所述待校正数据校正。

图2示出了根据本公开的实施例的用于对医学专业的待校正数据校正的方法200的流程图。方法200可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤202，计算设备110可以对所述待校正数据执行预处理，以便转换为统一格式的待校正文本。

在一个实施例中，计算设备110可以获取例如骨科专业的医学专业上的待校正数据。数据可以来自于在计算设备110外的或者与计算设备110集成的医学专业数据管理设备130，也可以来自于其他用户的输入。数据可以是病历查房记录的书写记录、医学专业文档、音频ASR（语音识别）记录、医学图像OCR（文字识别）记录等。针对音频ASR（语音识别）记录，计算设备110通过音频文本转换将其转换为文本。针对医学图像OCR（文字识别）记录，计算设备110通过图像文本转换将其转换为文本。其他书写记录、专业文档等也可以被处理为统一格式的文本。预处理具体包括但不限于将文本符号全角转半角、字母大写转小写、文字繁体转简体等。

通过以上预处理，可以将来源于不同类型的医学专业的待校正的数据转换为统一格式的待校正文本。统一格式的待校正文本在接下来的步骤中可以被进一步划分，从而用于后续测试。

在步骤204，计算设备110可以基于预定义的符号，将所述待校正文本分割为一个或多个文本块，从而获取待校正的测试集合。

在一个实施例中，计算设备110可以将在步骤202中获取的待校正文本分割为一个或多个文本块。分割文本块的分割符号可以包括具有语义分隔符的符号，例如，句号、感叹号、问号等。通过分割，可以在待校正数据中获取，诸如，“姓名”、“疾病”、“西关节置换术”等待校正数据的文本块。通过将所有的数据整合成以行为单位的文本块，计算设备110可以获取待校正的测试集合。

在步骤206，计算设备110可以根据基于医学专业数据的索引模型对所述测试集合执行索引测试，以便确定所述一个或多个文本块是否存在错误。

在一个实施例中，计算设备110可以获取医学领域中的一个专业领域，例如骨科领域的所有相关数据，例如医师查房记录、患者问诊记录、医学文档、医学专业名词、视频文稿、患者病历等。通过所获取的相关数据，计算设备110可以构建一个基于医学专业数据的索引模型。基于所构建的基于医学专业数据的索引模型，计算设备110可以对来自步骤204中的待校正数据的文本块执行索引测试，以便确定所述一个或多个文本块是否存在错误。

下文将具体描述构建的基于医学专业数据的索引模型的方法及步骤。

计算设备110也可以基于现有的医学专业数据的索引模型对所述测试集合执行索引测试，以便确定所述一个或多个文本块是否存在错误。

在步骤208，计算设备110可以响应于所述一个或多个文本块集合存在错误，确定所述一个或多个文本块的一个或多个候选修改项。

在一个实施例中，计算设备110可以响应于在步骤206中执行的索引测试的结果，执行后续动作。如果所述一个或多个文本块集合不存在错误，则确定文本块正确且不需要校正。如果所述一个或多个文本块集合存在错误，则为存在错误的一个或多个文本块确定一个或多个候选修改项。

例如，基于索引测试，可以为包括错误的文本块“西关节置换术”确定“膝关节置换术”、“髋关节置换术”、“行关节置换术”等一个或多个候选修改项。

下文将具体描述如何基于构建的基于医学专业数据的索引模型的为包括错误的文本块确定一个或多个候选修改项。

在步骤210，计算设备110可以根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，从而对所述待校正数据校正。

在一个实施例中，计算设备110可以运用基于医学专业数据的知识图谱的相关知识，对文本块上下文片段进行分析，从而获取文本块所属的主题（例如，当前的文本块所属的具体的疾病和手术）。可选地，计算设备110可以运用例如自然语言处理（NLP）的词性标注（Part-of-Speech tagging）技术对每个待修改项进行分析拿到其词性（词性包括名词，动词，形容词等）。可选地，计算设备110可以运用命名实体识别（Named-entity recognition）技术对候选项进行分析，可拿到命名实体的结果。

可选地，计算设备110可以根据书写和文本的输入方式将文本分为手写文本和电脑输入文本。由于通常手写的文本会存在形似的情况，而电脑输入的文本则会存在音似的情况，根据该特性，计算设备可以获取待修改部分的汉字形似结果和音似结果。

基于以上的分析以及结果，计算设备110可以根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，从而对所述数据校正。可选地，计算设备110也可以在拿到上述的所有分析结果后，执行结果融合，例如加权运算。最后最高分的候选修改项可以被确定为正确修改项。基于所确定的正确修改项，计算设备110可以将正确修改项替换为文本块中的错误，从而最终返回经校正的文本结果。

下文将具体描述在步骤210中所使用的知识图谱、计算方式等技术手段。

利用以上技术手段，可以基于索引测试和知识图谱两个特征为待校正的医学领域数据准确获取该领域内专业的校正结果，从而完成对文本的校正。

图3示出了根据本公开的实施例的根据基于医学专业数据的索引模型对所述测试集合执行索引测试的方法300的流程图。方法300可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法300还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤302，计算设备110可以对医学专业数据执行预处理，以便转换为统一格式的预处理文本。

在一个实施例中，计算设备110可以获取医学领域中的一个专业领域，例如骨科领域的所有相关数据，例如医师查房记录、患者问诊记录、医学文档、医学专业名词、视频文稿、患者病历等。相关数据还可以包括病历查房记录的书写记录、医学专业文档、音频ASR（语音识别）记录、医学图像OCR（文字识别）记录等。针对音频ASR（语音识别）记录，计算设备110通过音频文本转换将其转换为文本。针对医学图像OCR（文字识别）记录，计算设备110通过图像文本转换将其转换为文本。其他书写记录、专业文档等也可以被处理为统一格式的文本。预处理具体包括但不限于将文本符号全角转半角、字母大写转小写、文字繁体转简体等。

通过以上预处理，可以将来源于同一个医学领域，例如骨科领域的不同类型的医学专业数据转换为统一格式的待训练的预处理文本。通过所预处理的相关数据，计算设备110可以构建一个基于医学专业数据的索引模型。

在步骤304，计算设备110可以基于预定义的符号，将所述预处理文本分割为一个或多个医学专业数据文本块，从而获取用于校正训练的训练集合。

在一个实施例中，计算设备110可以将在步骤302中获取的预处理文本分割为一个或多个医学专业数据文本块。分割文本块的分割符号可以包括具有语义分隔符的符号，例如，句号、感叹号、问号等。通过分割，可以在预处理文本中获取，诸如，“膝关节置换术”、“髋关节置换术”、“行关节置换术”的文本块。通过将所有的数据整合成以行为单位的文本块，计算设备110可以获取用于校正训练的训练集合。

在步骤306，计算设备110可以基于所述训练集合，构建倒序索引模型。

在一个实施例中，计算设备110可以构建由一个或多个字节指向所述一个或多个医学专业数据文本块的索引集合。例如，计算设备110可以以在步骤304中构建的用于校正训练的训练集合为基础构建倒排索引。索引可以被定义为INDEX关系，即形成单字指向（→）块的指针或者索引形式。索引INDEX可以用于检测在方法200中获取的测试文本中是否存在错误。

在步骤308，计算设备110可以应用所构建的倒序索引模型对所述测试集合执行索引测试。

在一个实施例中，计算设备110可以基于所述索引集合构建倒序索引模型，从而应用所构建的倒序索引模型对所述测试集合执行索引测试。例如，如果在方法200中获取的测试集合中的文本包括“西关节置换术”这一词，则可以分别用“西”、“关”、“节”、“置”、“换”、“术”每个字根据在步骤306中构建的索引INDEX搜索其对应的块。同时对所搜索的块进行与（AND）逻辑处理。

由于“西关节置换术”存在错字，因此在如上所构建的索引模型中不存在该文本。因此，根据与（AND）运算的结果，索引模型将按照命中的字的数量进行逆序排序，从而获取一个或多个候选修改项。候选修改项从高到低是依次包含该文本中字数量的块。候选修改项中排从上到下可能排序为“膝关节置换术”、“髋关节置换术”、“行关节置换术”等。

利用以上技术手段，可以确定测试集合的文本块存在错误，并且响应于测试集合的文本块存在错误，还可以在训练集合中为文本块确定一个或多个候选修改项。

图4示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法400的流程图。方法400可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法400还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

本公开所使用的知识图谱可以是NoSQL数据库的一种类型，例如Neo4J图形数据库、ArangoDB图形数据库、OrientDB图形数据库、FlockDB图形数据库、GraphDB图形数据库、InfiniteGraph图形数据库、Titan图形数据库、Cayley图形数据库等。知识图谱是一种非关系型数据库，也可称为面向/基于图的数据库。知识图谱的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和边来体现，相比于传统的关系数据库的优点是可以快速解决复杂的关系问题，例如社会网络中人与人之间的关系。

在步骤402，计算设备110可以将基于医学专业数据的预处理文本提取为实体数据类以及实体关系类。

在一个实施例中，计算设备110将所述预处理文本提取为实体数据类以及实体关系类。实体数据类可以包括医学专业数据中的用户的姓名信息和身份编号信息、身份信息的出生日期和所属地、主诉情况的疾病、病症和患病时间、病史记载情况的历史患病、治疗情况的治疗进展、治疗时间和治疗效果等、治疗方案信息的药物、治疗内容、预计治疗时间和预计治疗效果等。实体关系包括类别为亲戚关系的父子关系和母女关系、药物之间的关系、治疗关系等。需要说明的是，上述医学专业数据本身是属于结构化数据，若在上述医学专业数据中添加了非格式化的数据，则可以采用算法抽取等来抽取上述医疗就诊记录中的实体数据、实体关系。计算设备110可以通过自然语言处理技术对文本进行命名实体识别，从非格式化的文本中识别出专有名词和有意义的短语并进行分类。举例来说，从“百度是一家互联网公司”这段文本中可以提取出“ 百度”和“ 互联网公司”这两个实体以及“是”这个实体关系。

可选地，若医学专业数据还包括半格式化的数据，则可以采用正则等方式来抽取，半格式化的数据有例如一段简历的文本，文本中经常会包含，例如“姓名：张三，公司名：科技有限公司”等格式。可选地，还可以对上述提取的实体数据类以及实体关系类进行人工矫正，确保所识别的内容的准确性。

在步骤404，计算设备110可以通过将所提取的实体数据类设置为节点并且实体关系类设置为联结所述节点的边，为所述医学专业数据构建知识图谱。

在一个实施例中，计算设备110可以将在步骤402中所提取的实体数据类设置为节点以及所提取的实体关系类设置为联结所述节点的边，从而为所述医学专业数据构建知识图谱。

图5示出了根据本公开的实施例的知识图谱的示意图。

如图5中所示，实体数据包括用户名称、身份信息等。实体关系包括亲戚关系、药物治疗关系等。通过将所提取的实体数据类设置为节点并且实体关系类设置为联结所述节点的边，可以以可视化的方式展示复杂的结构性数据。

利用以上技术手段，可以将格式化、结构化的医学专业数据转换为可视化的知识图谱。知识图谱不但可以以可视化的方式展示各个实体以及实体之间的关系，还可以运用知识图谱训练知识，确定医学专业数据所属的技术领域。

图6示出了根据本公开的实施例的确定一个或多个文本块所属的主题的方法600的流程图。方法600可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法600还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤602，计算设备110可以基于所构建的知识图谱，确定一个或多个文本块所属的主题。

在一个实施例中，计算设备110可以获取上述训练集合中包含的全部词汇，并且在本文主题分析过程中，为每个词汇分配唯一确定的主题，记录每个词汇所属主题，从而在根据知识图谱中确定的实体确定测试集合中待校正的文本块所属的主题。

在一个实施例中，计算设备110可以使用隐含狄利克雷分布LDA概率图模型来确定待校正文本块所属的主题。使用LDA技术获取待校正数据的主题，即获取待校正数据主要的表达内容，这样可以准确知道每个待校正数据主要侧重的信息。

LDA主题分布模型得到主题的词分布概率，其中通过实际的计算发现主题个数K＝18效果最好，所以我们通过下面的公式得到每个主题的词分布，然后我们根据得到的主题的词分布去人工判断每个主题的实际含义，人工为每个主题赋上一个现实的含义。表达式（1）示出了LDA主题分布模型。

在表达式（1）中，k为主题的个数，V为词的个数，β是Direclet超参数(v＝1……V)；

是单词t被分配到主题k的次数，

为被分配到主题K单词的总数。所以需要设计一个两层的for循环来实现这个公式。外层需要遍历每个主题，内层需要遍历每个词汇。

表达式（2）示出了LDA得到每个待校正数据文本中每个词的主题分布的模型。

在表达式（2）中，z_i代表文档主题i，α为Direclet超参数(k＝1……K)，m为已知文档的主题，k为已知文档的主题，β是Direclet超参数(v＝1……V)，

是词t分配到除当前主题之外主题k的次数，

是被分配到主题k中的词的总数，

代表去掉下标为i的词对应的主题后的主题分布，

代表已知文档联合起来形成的词向量。使用for循环来实现该公式。

LDA模型得到每个待校正数据文本的主题分布，待校正数据文本可以被选取概率最高的p，作为待校正数据的主题。利用以上技术手段，计算设备110可以确定待校正数据中一个或多个文本块所属的主题。

在步骤604，计算设备110可以基于所确定的主题，确定一个或多个候选修改项的词性标注结果以及命名实体识别结果。

在一个实施例中，基于所确定的主题，计算设备110可以运用自然语言处理NLP中的词性标注（Part-of-Speech tagging）技术对在上述方法中获取的一个或多个候选修改项进行分析，从而获取其词性，例如名词、动词、形容词等。

在步骤606，计算设备110基于所确定的词性标注结果以及命名实体识别结果，确定一个或多个候选修改项中的正确修改项。

在一个实施例中，基于所确定的主题，计算设备110可以运用自然语言处理NLP中的命名实体识别（Named-entity recognition）技术对候选项进行分析，可获取其实体命名。

利用以上技术手段，基于实体命名和词性，可以准确确定一个或多个备选修改项中的正确修改项。

图7示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法700的流程图。方法700可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法700还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤702中，计算设备110确定待校正数据的输入方式。

在一个实施例中，计算设备110根据书写和文本的输入方式将文本分为手写文本和电脑输入文本。由于通常手写的文本会存在形似的情况，而电脑输入的文本则会存在音似的情况，根据该特性，计算设备可以获取待修改部分的汉字形似结果和音似结果。

在步骤704中，计算设备110响应于待校正数据的输入方式为手写输入，确定一个或多个候选修改项中的形似候选项为正确修改项。

在一个实施例中，计算设备110可以根据在步骤702中确定的结果，响应于待校正数据的输入方式为手写输入，确定一个或多个候选修改项中的形似候选项为正确修改项。

在步骤706中，计算设备110响应于待校正数据的输入方式为音频或视频输入，确定一个或多个候选修改项中的音似候选项为正确修改项。

在一个实施例中，计算设备110可以根据在步骤702中确定的结果，响应于待校正数据的输入方式为音频或视频输入，确定一个或多个候选修改项中的音似候选项为正确修改项。例如，响应于输入方式为手写输入，计算设备可以在候选修改项“膝关节置换术”、“髋关节置换术”、“行关节置换术”中确定“膝关节置换术”为待校正的“西关节置换术”的正确修改项。

利用以上技术手段，可以根据待校正数据的输入方式在多个候选修改项中动态选择正确的修改项。

图8示出了根据本公开的实施例的根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项的方法800的流程图。方法800可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法800还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤802中，计算设备110基于所确定的一个或多个候选修改项的词性标注结果、命名实体识别结果以及输入方式，对所属一个或多个候选修改项执行综合评分。

在一个实施例中，计算设备110可以基于在如上所获的对一个或多个候选修改项的词性标注结果、命名实体识别结果以及输入方式，加权对对所属一个或多个候选修改项执行综合评分。表示式（3）使出了加权评分的模型。

在表达式（3）中，x₁为词性标注结果值，a为词性标注结果的权重，x₂为命名实体识别结果值，b为命名实体识别结果的权重，x₃为输入方式值，c为输入方式的权重。基于融合的加权结果，计算设备110可以计算出最准确的候选修改项。

在步骤804中，计算设备110基于综合评分，确定一个或多个候选修改项中的正确修改项。

在一个实施例中，计算设备110可以基于在步骤802中计算的综合评分，确定一个或多个候选修改项中的正确修改项。如上所述，计算设备110还可以每个结果进行打分，从而根据对每个修改候选项的打分结果进行加权，返回加权分最高的候选作为最终的校正结果。

利用以上技术手段，可以通过综合不同类型的分析结果来确定最接近或最准确的候选修改项，从而提升校正正确率。

图9示出了可以用来实施本公开内容的实施例的示例电子设备900的示意性框图。例如，如图1所示的计算设备110可以由电子设备900来实施。如图所示，电子设备900包括中央处理单元（CPU）901，其可以根据存储在只读存储器（ROM）902中的计算机程序指令或者从存储单元908加载到随机存取存储器（RAM）903中的计算机程序指令，来执行各种适当的动作和处理。在随机存取存储器903中，还可存储电子设备900操作所需的各种程序和数据。中央处理单元901、只读存储器902以及随机存取存储器903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

电子设备900中的多个部件连接至输入/输出接口905，包括：输入单元906，例如键盘、鼠标、麦克风等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、300、400、600、700和800可由中央处理单元901执行。例如，在一些实施例中，方法200、300、400、600、700和800可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由只读存储器902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到随机存取存储器903并由中央处理单元901执行时，可以执行上文描述的方法200、300、400、600、700和800的一个或多个动作。

本公开涉及方法、装置、***、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（***）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于对待校正数据校正的方法，其特征在于，包括：

对所述待校正数据执行预处理，以便转换为统一格式的待校正文本；

基于预定义的符号，将所述待校正文本分割为一个或多个文本块，从而获取待校正的测试集合；

根据基于医学专业数据的索引模型对所述测试集合执行索引测试，以便确定所述一个或多个文本块是否存在错误；

响应于所述一个或多个文本块集合存在错误，确定所述一个或多个文本块的一个或多个候选修改项；以及

根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项，其中，

将统一格式的预处理文本提取为实体数据类以及实体关系类，所述统一格式的预处理文本是经由对医学专业数据执行预处理而转换成的；

通过将所提取的实体数据类设置为节点以及所提取的实体关系类设置为联结所述节点的边，为所述医学专业数据构建知识图谱；

基于所构建的知识图谱，确定所述一个或多个文本块所属的主题；

基于所确定的主题，确定一个或多个候选修改项的词性标注结果以及命名实体识别结果；

基于所确定的词性标注结果以及命名实体识别结果，确定一个或多个候选修改项中的正确修改项，从而对所述待校正数据校正。

2.根据权利要求1所述的方法，其中根据基于医学专业数据的索引模型对所述测试集合执行索引测试还包括：

基于预定义的符号，将所述预处理文本分割为一个或多个医学专业数据文本块，从而获取用于校正训练的训练集合；

基于所述训练集合，构建倒序索引模型；以及

应用所构建的倒序索引模型对所述测试集合执行索引测试。

3.根据权利要求2所述的方法，其中构建倒序索引模型还包括：

构建由一个或多个字节指向所述一个或多个医学专业数据文本块的索引集合；以及

基于所述索引集合构建倒序索引模型，从而应用所构建的倒序索引模型对所述测试集合执行索引测试。

4.根据权利要求1所述的方法，其中确定所述一个或多个文本块所属的主题包括：

基于隐含狄利克雷分布LDA概率图模型确定所述一个或多个文本块所属的主题。

5.根据权利要求4所述的方法，其中根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：

确定所述待校正数据的输入方式；

响应于所述待校正数据的输入方式为手写输入，确定一个或多个候选修改项中的形似候选项为正确修改项；以及

响应于所述待校正数据的输入方式为音频或视频输入，确定一个或多个候选修改项中的音似候选项为正确修改项。

6.根据权利要求5所述的方法，其中根据基于医学专业数据的知识图谱确定一个或多个候选修改项中的正确修改项还包括：

基于所确定的一个或多个候选修改项的词性标注结果、命名实体识别结果以及输入方式，对所述一个或多个候选修改项执行综合评分；以及

基于综合评分，确定一个或多个候选修改项中的正确修改项。

7.一种计算设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。