CN111898528B - 数据处理方法、装置、计算机可读介质及电子设备 - Google Patents

数据处理方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN111898528B
CN111898528B CN202010745286.1A CN202010745286A CN111898528B CN 111898528 B CN111898528 B CN 111898528B CN 202010745286 A CN202010745286 A CN 202010745286A CN 111898528 B CN111898528 B CN 111898528B
Authority
CN
China
Prior art keywords
identification
data
identifier
main body
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010745286.1A
Other languages
English (en)
Other versions
CN111898528A (zh
Inventor
苏晨
李斌
洪科元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010745286.1A priority Critical patent/CN111898528B/zh
Publication of CN111898528A publication Critical patent/CN111898528A/zh
Application granted granted Critical
Publication of CN111898528B publication Critical patent/CN111898528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种数据处理方法、数据处理装置、计算机可读介质以及电子设备。该方法包括:获取用于展示数据集合的待处理图像,所述数据集合包括至少一个数据对象;对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型;根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体;根据所述对象关联标识以及所述集合类型对所述标识本体进行筛选以得到目标本体,并建立所述数据对象与所述目标本体的映射关系。该方法可以在提高数据处理效率的同时获得更加准确的数据处理结果。

Description

数据处理方法、装置、计算机可读介质及电子设备
技术领域
本申请属于人工智能技术领域,具体涉及一种数据处理方法、数据处理装置、计算机可读介质以及电子设备。
背景技术
随着计算机技术的发展,基于计算机设备进行电子化地数据分析和数据存储相比于传统的纸质媒介具有极大的优势,不仅可以降低数据处理成本而且可以提高数据处理效率。
以医疗机构或者体检机构为例,通过各种检验设备可以对用户的身体机能和健康状况进行信息采集,以便基于采集到的数据进行健康评估或者风险预测。为了方便用户查看和携带,相关检验设备进行信息采集得到的数据一般会以纸质检验单的形式呈现。在此基础上,可以通过人工录入或者自动化识别的方式从纸质检验单中提取相关数据项以进行电子化地数据处理。由于数据项目种类繁多且形式多样,人工录入的数据提取方式对作业人员的知识水平有较高要求,需要消耗较高的人工成本和时间成本,而自动化识别的方式仅能适用于数据内容较为简单的场景,对于数据采集不全或者数据相似度程度高的相关数据,识别准确性较差,容易出现识别错误的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种数据处理方法、数据处理装置、计算机可读介质以及电子设备,至少在一定程度上克服数据提取和数据识别等相关技术中存在的处理效率低、准确性差等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据处理方法,该方法包括:
获取用于展示数据集合的待处理图像,所述数据集合包括至少一个数据对象;
对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型;
根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体;
根据所述对象关联标识以及所述集合类型对所述标识本体进行筛选以得到目标本体,并建立所述数据对象与所述目标本体的映射关系。
根据本申请实施例的一个方面,提供一种数据处理装置,该数据处理装置包括:
图像获取模块,被配置为获取用于展示数据集合的待处理图像,所述数据集合包括至少一个数据对象;
文本识别模块,被配置为对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型;
标识匹配模块,被配置为根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体;
本体筛选模块,被配置为根据所述对象关联标识以及所述集合类型对所述标识本体进行筛选以得到目标本体,并建立所述数据对象与所述目标本体的映射关系。
在本申请的一些实施例中,基于以上技术方案,所述文本识别模块包括:
集合文本识别单元,配置为对所述待处理图像进行文本识别以得到所述数据集合的文本内容,所述文本内容包括组成所述数据对象的数据文本字段;
文本字段分类单元,配置为根据所述数据文本字段在所述待处理图像上的分布位置,对所述数据文本字段进行分类处理以确定所述数据对象的对象主体标识和对象关联标识;
文本内容分类单元,被配置为对所述文本内容进行分类处理以得到所述数据集合的集合类型。
在本申请的一些实施例中,基于以上技术方案,所述集合文本识别单元包括:
线条检测子单元,被配置为对所述待处理图像进行线条检测以得到所述待处理图像中的表格线条;
区域划分子单元,被配置为根据所述表格线条对所述待处理图像进行区域划分以得到所述数据集合所在的数据表格区域;
文本识别子单元,被配置为对所述数据表格区域进行文本识别以得到所述数据集合的文本内容。
在本申请的一些实施例中,基于以上技术方案,所述线条检测子单元包括:
像素分类子单元,被配置为基于图像语义对待识别图像中的像素点进行分类处理以确定图像线条所在的前景像素点;
图像分割子单元,被配置为根据所述前景像素点对待识别图像进行图像分割以得到前景线条图像;
线条拟合子单元,被配置为对所述前景线条图像进行线条拟合以得到所述待处理图像中的表格线条。
在本申请的一些实施例中,基于以上技术方案,所述文本字段分类单元包括:
指示字段获取子单元,被配置为获取所述文本内容中的标识指示字段,所述标识指示字段包括用于指示所述对象主体标识的主体标识指示字段以及用于指示所述对象关联标识的关联标识指示字段;
指示区域确定子单元,被配置为在所述待处理图像上确定与所述主体标识指示字段相对应的主体标识指示区域以及与所述关联标识指示字段相对应的关联标识指示区域;
位置关系确定子单元,被配置为根据所述数据文本字段在所述待处理图像上的分布位置确定所述数据文本字段与所述主体标识指示区域以及所述关联标识指示区域之间的区域位置关系;
文本字段分类子单元,被配置为根据所述区域位置关系对所述数据文本字段进行分类处理以确定所述数据对象的对象主体标识和对象关联标识。
在本申请的一些实施例中,基于以上技术方案,所述文本内容分类单元包括:
特征提取子单元,被配置为对所述文本内容进行特征提取以得到所述文本内容的内容特征;
特征映射子单元,被配置为对所述内容特征进行映射处理以预测分别将所述文本内容分类至多个类型标签的分类概率;
标签选取子单元,被配置为根据所述分类概率从所述多个类型标签中选取目标标签,并将所述目标标签确定为所述数据集合的集合类型。
在本申请的一些实施例中,基于以上技术方案,所述标识匹配模块包括:
精确匹配单元,被配置为根据所述对象主体标识在主体标识数据库中进行匹配检测以确定所述主体标识数据库中是否存在与所述对象主体标识相同的精确匹配标识;
第一本体确定单元,被配置为若在所述主体标识数据库中检测到所述精确匹配标识,则将与所述精确匹配标识具有映射关系的标识本体确定为与所述对象主体标识相对应的标识本体;
模糊匹配单元,被配置为若在所述主体标识数据库中未检测到所述精确匹配标识,则根据所述对象主体标识在所述主体标识数据库中进行匹配检测以确定所述主体标识数据库中是否存在与所述对象主体标识在预设文本差异度范围内的模糊匹配标识;
第二本体确定单元,被配置为若在所述主体标识数据库中检测到所述模糊匹配标识,则将与所述模糊匹配标识具有映射关系的标识本体确定为与所述对象主体标识相对应的标识本体。
在本申请的一些实施例中,基于以上技术方案,所述模糊匹配单元包括:
模糊匹配模型建立子单元,被配置为根据所述主体标识数据库中的各个标识的文本差异度建立具有树形结构的模糊匹配模型;
模糊匹配模型遍历子单元,被配置为遍历所述模糊匹配模型以确定所述模糊匹配模型的各个节点中是否存在与所述对象主体标识在预设文本差异度范围内的模糊匹配标识。
在本申请的一些实施例中,基于以上技术方案,所述本体筛选模块包括:
集合类型筛选单元,被配置为根据所述集合类型对所述标识本体进行筛选以得到与所述集合类型相匹配的候选本体;
关联标识查找单元,被配置为在关联标识数据库中查找与所述候选本体具有映射关系的候选关联标识;
关联标识选取单元,被配置为在所述候选关联标识中选取与所述对象关联标识相匹配的目标关联标识;
目标本体确定单元,被配置为将与所述目标关联标识具有映射关系的候选本体确定为目标本体。
在本申请的一些实施例中,基于以上技术方案,所述对象关联标识包括用于表示所述数据对象的计量单位的单位标识以及用于表示所述数据对象的取值范围的范围标识,所述目标关联标识包括与所述单位标识相匹配的目标单位标识以及与所述范围标识相匹配的目标范围标识。
在本申请的一些实施例中,基于以上技术方案,所述目标本体确定单元包括:
第一目标本体确定子单元,被配置为若所述目标单位标识和所述目标范围标识映射至同一候选本体,则将该候选本体确定为目标本体;
第二目标本体确定子单元,被配置为若所述目标单位标识和所述目标范围标识映射至不同的候选本体,则将与所述目标单位标识具有映射关系的候选本体确定为目标本体。
在本申请的一些实施例中,基于以上技术方案,所述本体筛选模块还包括:
映射关系建立单元,被配置为将所述数据对象的对象取值、对象主体标识、对象关联标识以及所述目标本体组成具有映射关系的结构化信息。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处理方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据处理方法。
在本申请实施例提供的技术方案中,通过对待处理图像进行文本识别可以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型等多元化信息,然后以对象主体标识作为主要信息进行标识匹配得到相应的标识本体,再结合对象关联标识以及集合类型对标识本体进行筛选可以得到更为准确的目标本体。本申请利用多种多元化的文本信息对数据对象进行本体识别和匹配,可以在提高数据处理效率的同时获得更加准确的数据处理结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性地示出了应用本申请技术方案的示例性***架构框图。
图2示意性地示出了一个医疗检验单的图像示例。
图3示意性地示出了本申请技术方案在健康评估和保险核保等应用场景下的场景原理示意图。
图4示意性地示出了本申请一些实施例中的数据处理方法的步骤流程图。
图5示意性地示出了本申请一些实施例中对待处理图像进行文本识别的方法步骤流程图。
图6示意性地示出了本申请一些实施例中根据对象主体标识进行标识匹配的方法步骤流程图。
图7示意性地示出了本申请一些实施例中对标识本体进行筛选的方法步骤流程图。
图8示意性地示出了本申请实施例在检验单数据处理的应用场景中的处理过程示意图。
图9示意性地示出了本申请实施例提供的数据处理装置的结构框图。
图10示意性示出了适于用来实现本申请实施例的电子设备的计算机***结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在介绍本申请提供的技术方案之前,首先对本申请技术方案中涉及的人工智能的相关技术做简要说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请技术方案涉及人工智能的计算机视觉、自然语言处理、机器学习等相关技术,具体通过以下实施例进行说明。
图1示意性地示出了应用本申请技术方案的示例性***架构框图。
如图1所示,***架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务端130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的***架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,本申请技术方案可以应用于多种业务场景中,用于进行数据项目的自动化提取和本体映射,从而可以进一步地进行电子化的数据分析和处理。其中,本体是描述特定领域共享概念的形式化、规范化说明,通过对数据项进行本体映射可以确定其具体指代内容和物理含义。
以医疗机构或者体检机构为例,各种检验设备和相关信息***一般具有多种不同的型号和类型,而且同一检验项通常具有多种不同的常见别名,导致不同医疗检验单上的检验项可能被打印成不同名称。例如“血常规”检验单中的“白细胞计数”与“尿常规”检验单中的“白细胞计数”可能在相应检验单上表现为同样的名称,但其实际的数据含义和用途并不相同,因此应当将其映射至不同的数据本体。另外,医疗检验单可能由于打印格式或者字数限制等原因,未能打印完整的检验项名称,例如“红细胞体积分布宽度-变异系数”和“红细胞体积分布宽度-标准差”为两个不同的数据项目,而在检验单上可能被打印为相同的“红细胞体积分布宽度-”,仅从医疗检验单的这一检验项无法判断其对应的数据本体。
针对以上应用场景中提出的相关问题,本申请提供了一种基于多种数据内容辅助的多元化的数据处理方法,在应用于医疗检验单的信息提取时,可以将医疗检验单中的各个检验项目的相关数据高效且准确地映射至相应的检验项本体,从而可以将提取得到的相关数据应用于健康评估、风险预测等下游业务场景中。图2示意性地示出了一个医疗检验单的图像示例,如图中所示,该医疗检验单以表格的形式展示了某用户的血液样本检验结果,其中涉及多种检验项目的项目数据,基于这些项目数据可以对该用户的健康状况进行评估和预测。
图3示意性地示出了本申请技术方案在健康评估和保险核保等应用场景下的场景原理示意图。如图3所示,在健康评估的应用场景中,为了对用户的身体健康状况进行全面的评估并对重大疾病进行风险预测,可以通过个人健康辅助类手机APP或者体检机构的评估***等终端设备实现本申请技术方案的数据处理方法。
具体而言,可以将已有的检验单301输入至文本识别引擎302中,通过文本识别引擎302可以自动识别出检验单301中的文字及表格信息。然后,通过检验结果信息抽取模块303可以抽取出检验单上的检验结果信息。例如,针对图2中的第一个数据项,可以抽取到如下的项目信息:
项目名称:白细胞计数(WBC)
结果:8.64
单位:10^9/L
参考区间:4--10
在经过检验单检验项映射后,可以将该数据项映射为检验项本体“实验室检查-血常规-白细胞计数”(此处采用了一种结合类别层级的医学代码方式),得到包括检验项本体和相应项目信息的结构化检验信息304。此类结构化检验信息可以输入至健康评估引擎305中,通过健康评估引擎305可以自动化地评估被检验者的健康状况和疾病风险情况。
与健康评估相似地,在保险公司对被保险人的健康状况进行评估以决定是否承保时,可以采用与以上健康评估场景中相同的方法获取包括检验项本体和相应项目信息的结构化检验信息,然后将结构化检验信息输入至核保预测引擎306中,通过核保预测引擎306可以对相关数据进行评估,给出核保预测的结论,例如拒保、加查等等。
需要说明的是,以上健康评估和保险核保仅为应用本申请技术方案的场景示例,本申请的应用领域并不以此为限。本申请技术方案实际上可以应用于各种利用计算机设备对外部数据进行数据处理的应用场景中。
下面结合具体实施方式对本申请提供的数据处理方法、数据处理装置、计算机可读介质以及电子设备等技术方案做出详细说明。
图4示意性地示出了本申请一些实施例中的数据处理方法的步骤流程图。该数据处理方法可以由终端设备执行,也可以由服务器执行,另外还可以由终端设备和服务器共同执行,本申请实施例对此不做特殊限定。如图4所示,该数据处理方法主要可以包括如下的步骤S410~步骤S440。
步骤S410:获取用于展示数据集合的待处理图像,数据集合包括至少一个数据对象。
步骤S420:对待处理图像进行文本识别以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型。
步骤S430:根据对象主体标识在主体标识数据库中进行标识匹配以得到与对象主体标识相对应的一个或者多个标识本体。
步骤S440:根据对象关联标识以及集合类型对标识本体进行筛选以得到目标本体,并建立数据对象与目标本体的映射关系。
在本申请实施例的数据处理方法中,通过对待处理图像进行文本识别可以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型等多元化信息,然后以对象主体标识作为主要信息进行标识匹配得到相应的标识本体,再结合对象关联标识以及集合类型对标识本体进行筛选可以得到更为准确的目标本体。该方法利用多种多元化的文本信息对数据对象进行本体识别和匹配,可以在提高数据处理效率的同时获得更加准确的数据处理结果。
下面分别对该数据处理方法中的各个方法步骤进行详细说明。
在步骤S410中,获取用于展示数据集合的待处理图像,数据集合包括至少一个数据对象。
以终端设备执行的数据处理方法为例,待处理图像可以是通过终端设备上的摄像头等图像采集设备直接采集得到的图像,也可以是通过网络接收到的由服务器或者其他终端设备传输而来的图像。待处理图像中可以展示一包括有至少一个数据对象的数据集合。结合以上应用场景的说明可知,本申请实施例中的待处理图像可以是如图2所示的检验单,其中包括24个检验项目,每一个检验项目即为一个数据对象,由这些检验项目共同组成的项目表格即为数据集合。
在步骤S420中,对待处理图像进行文本识别以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型。
对象主体标识用于表示数据对象的主体内容,例如可以是图2中所示的项目名称“白细胞计数(WBC)”。对象关联标识是与数据对象的主体内容具有关联关系的信息,例如可以是图2中所示的与“白细胞计数(WBC)”这一检验项目相关联的计量单位“10^9/L”以及参考区间“4--10”。集合类型用于表示数据集合的分类信息,例如图2中的检验项目表格可以被分类至“血常规”这一集合类型。
图5示意性地示出了本申请一些实施例中对待处理图像进行文本识别的方法步骤流程图。如图5所示,在以上实施例的基础上,步骤S420中的,对待处理图像进行文本识别以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型,可以进一步包括如下的步骤S510~步骤S530。
步骤S510:对待处理图像进行文本识别以得到数据集合的文本内容,文本内容包括组成数据对象的数据文本字段。
在待处理图像中,除了数据集合中每个数据对象的文本之外,还包括在数据集合外部的其他数据文本。例如,图2中示出了包括24个检验项目数据表格,同时也包括了位于表格上方的用户身份信息和位于表格下方的送检信息。为了获取数据表格中的数据对象对应的文本内容,本步骤可以利用表格线条对待处理图像进行区域划分。举例而言,对待处理图像进行文本识别以得到数据集合的文本内容的方法可以包括如下的步骤S511~步骤S513。
步骤S511:对待处理图像进行线条检测以得到待处理图像中的表格线条。
步骤S512:根据表格线条对待处理图像进行区域划分以得到数据集合所在的数据表格区域。
步骤S513:对数据表格区域进行文本识别以得到数据集合的文本内容。
结合图2所示的检验单,通过对待处理图像进行线条检测可以得到图像中包括的三条横向线条和一条纵向线条。其中,位于最上方的横向线条和位于最下方的横向线条共同将该待处理图像划分成三个图像区域,位于图像中间的区域即为数据集合所在的数据表格区域。针对数据表格区域内的图像内容进行文本识别可以相应地得到数据集合的文本内容。
在本申请的一些可选的实施例中,对待处理图像进行线条检测的方法可以是基于像素点对待处理图像进行图像分割并利用分割得到的图像进行线条拟合。具体而言,步骤S511中的,对待处理图像进行线条检测以得到待处理图像中的表格线条,可以进一步包括如下的步骤S5111~步骤S5113。
步骤S5111:基于图像语义对待识别图像中的像素点进行分类处理以确定图像线条所在的前景像素点。
步骤S5112:根据前景像素点对待识别图像进行图像分割以得到前景线条图像。
步骤S5113:对前景线条图像进行线条拟合以得到待处理图像中的表格线条。
通过对待处理图像进行语义识别可以将待处理图像中的所有像素点划分为两种类别,一种是对应于图像中的表格线条的前景像素点,另一种是对应于除表格线条以外的其他内容的背景像素点。本申请实施例可以预先训练基于神经网络的语义分割模型,然后利用该语义分割模型对待处理图像进行像素点分类。例如可以采用基于实时语义分割的深度神经架构训练得到的高效神经网络模型Enet,该模型主要包括由多个依次连接的瓶颈模块构成的编码器-解码器网络结构,Enet模型具有参数要求少、分割速度快、分割精度高等优点。在分类确定待处理图像中的前景像素点后,可以对其进行图像分割处理,通过剔除背景像素点可以得到完全由前景像素点组成的前景线条图像。最后再对前景线条图像中的前景像素点进行线条拟合即可得到相应的表格线条,例如可以采用最小二乘法对各个像素点的位置坐标进行函数拟合以得到对应表格线条的拟合函数。
基于表格线条对待处理图像进行区域划分可以确定其中数据集合所在的数据表格区域,针对数据表格区域内的图像内容,可以进行文本识别以得到数据集合的文本内容。其中,对数据表格区域进行文本识别的方法例如可以是光学字符识别(Optical CharacterRecognition,OCR)。OCR技术是指通过检测图像中的暗、亮的模式确定字符的形状,然后用字符识别方法将字符形状翻译成计算机文字的过程,利用OCR技术可以将图像格式的文字转换为文本格式。
在本申请实施例中,识别得到的数据集合的文本内容包括组成数据对象的数据文本字段。以图2所示的检验单为例,图中的每个检验项目均为一个数据对象,每个检验项目中包括沿横向分布的多个文本字段,例如第一个检验项目对应的数据对象中包括有四个数据文本字段,即“白细胞计数(WBC)”、“8.64”、“10^9/L”、“4--10”。
步骤S520:根据数据文本字段在待处理图像上的分布位置,对数据文本字段进行分类处理以确定数据对象的对象主体标识和对象关联标识。
每个数据文本字段在待处理图像上分布于不同的图像位置,根据其相互之间的位置关系,可以实现对数据文本字段的分类,从而确定数据对象的对象主体标识和对象关联标识。
在本申请的一些可选的实施例中,分类数据文本字段以得到相关标识的方法可以包括如下的步骤S521~步骤S524。
步骤S521:获取文本内容中的标识指示字段,标识指示字段包括用于指示对象主体标识的主体标识指示字段以及用于指示对象关联标识的关联标识指示字段。
以图2中的检验单为例,标识指示字段可以是数据表格中的表头部分,例如主体标识指示字段为图中的文本字段“项目名称”,关联标识指示字段为图中的文本字段“单位”和“参考区间”。
步骤S522:在待处理图像上确定与主体标识指示字段相对应的主体标识指示区域以及与关联标识指示字段相对应的关联标识指示区域。
主体标识指示区域可以是主体标识指示字段“项目名称”所在的数据列,而关联标识指示区域可以是关联标识指示字段“单位”以及“参考区间”所在的数据列。
步骤S523:根据数据文本字段在待处理图像上的分布位置确定数据文本字段与主体标识指示区域以及关联标识指示区域之间的区域位置关系。
各个数据文本字段在待处理图像上的分布位置可以表示为图像中的位置坐标,基于该位置坐标和主体标识指示区域以及关联标识指示区域的区域坐标之间的坐标数值关系,可以确定每个数据文本字段与相应区域的区域位置关系。区域位置关系可以包括位于区域内部和位于区域外部两种关系。
步骤S524:根据区域位置关系对数据文本字段进行分类处理以确定数据对象的对象主体标识和对象关联标识。
按照区域位置关系的不同,可以将相关的文本字段分成三类,即位于主体标识指示区域的数据文本字段、位于关联标识指示区域内的数据文本字段以及位于主体标识指示区域和关联标识指示区域之外的其他数据文本字段。其中,位于主体标识指示区域的数据文本字段可以确定为数据对象的对象主体标识,如图2中所示的“白细胞计数(WBC)”、“红细胞计数(RBC)”等项目名称对应的标识。位于关联标识指示区域内的数据文本字段可以确定为数据对象的对象关联标识,如图2中所示的“10^9/L”、“10^12/L”等单位部分对应的标识以及“4--10”、“3.5--5.5”等参考区间部分对应的标识。
通过执行以上步骤S521~步骤S524,可以实现的数据文本字段的分类,从而可以确定每个数据对象的对象主体标识和对象关联标识。
步骤S530:对文本内容进行分类处理以得到数据集合的集合类型。
通过对一个数据集合的文本内容进行分类处理,可以得到该数据集合的集合类型。例如,本步骤可以利用预先训练的文本分类模型对数据集合的文本内容进行特征提取和映射后得到相应的分类结果。在本申请的一些可选的实施例中,对文本内容进行分类处理的方法可以进一步包括如下的步骤S531~步骤S533。
步骤S531:对文本内容进行特征提取以得到文本内容的内容特征。
对文本内容进行特征提取的方法可以是利用嵌入矩阵对文本内容进行向量化处理以得到可供神经网络进行计算的具有向量形式的内容特征。
步骤S532:对内容特征进行映射处理以预测分别将文本内容分类至多个类型标签的分类概率。
针对不同的应用场景,可以预先设置多个不同的类型标签。例如对于医疗检验单,可以设置血常规、尿常规、肝功能检查等多种不同的类型标签。在对内容特征进行映射处理后,可以计算得到一个文本内容被分类至各个类型标签的分类概率,分类概率越高表示预测分类的准确性越高。
步骤S533:根据分类概率从多个类型标签中选取目标标签,并将目标标签确定为数据集合的集合类型。
基于上一步骤得到的分类概率可以从多个类型标签中选取一个或者多个目标标签,例如可以选取分类概率最大的一个类型标签作为目标标签,也可以选取分类概率超过某一概率阈值的一个或者多个类型标签作为目标标签。基于选取得到的目标标签可以确定数据集合的集合类型,例如图2所示的检验单中的数据集合应当被分类至“血常规”对应的集合类型。
在步骤S430中,根据对象主体标识在主体标识数据库中进行标识匹配以得到与对象主体标识相对应的一个或者多个标识本体。
主体标识数据库是用于存储标识本体与主体标识之间的映射关系的数据库,例如在健康评估的应用场景中,一个检验项目的检验项本体可以表示为多种不同的名称(即别名),主体标识数据库便可以是用于存储检验项本体与其不同别名之间的映射关系,基于该映射关系可以利用别名查询对应的本体,也可以利用本体查询对应的别名。
图6示意性地示出了本申请一些实施例中根据对象主体标识进行标识匹配的方法步骤流程图。如图6所示,在以上实施例的基础上,步骤S430中的根据对象主体标识在主体标识数据库中进行标识匹配以得到与对象主体标识相对应的一个或者多个标识本体,可以包括如下的步骤S610~步骤S640。
步骤S610:根据对象主体标识在主体标识数据库中进行匹配检测以确定主体标识数据库中是否存在与对象主体标识相同的精确匹配标识。
以对象主体标识作为关键词,可以在主体标识数据库中进行检索并进行文本一致性校验,以查找并判断主体标识数据库中是否存在与对象主体标识文本一致的精确匹配标识。
步骤S620:若在主体标识数据库中检测到精确匹配标识,则将与精确匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体。
根据步骤S610的匹配检测结果,如果在主体标识数据库中检测到精确匹配标识,那么可以将该主体标识数据库中与该精确匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体。本步骤中确定的标识本体的数量可以为一个或者多个。
步骤S630:若在主体标识数据库中未检测到精确匹配标识,则根据对象主体标识在主体标识数据库中进行匹配检测以确定主体标识数据库中是否存在与对象主体标识在预设文本差异度范围内的模糊匹配标识。
如果在主体标识数据库中没有检测到精确匹配标识,那么说明在主体标识数据库中不存在与对象主体标识文本一致的主体标识。在这种情况下,可以通过见地匹配精度的方式在主体标识数据库中查找与对象主体标识相似度程度较高的主体标识。具体可以将文本差异在预设文本差异度范围内的主体标识确定为相应的模糊匹配标识。
在本申请的一些可选的实施例中,可以根据主体标识数据库中的各个标识的文本差异度建立具有树形结构的模糊匹配模型,然后遍历模糊匹配模型以确定模糊匹配模型的各个节点中是否存在与对象主体标识在预设文本差异度范围内的模糊匹配标识。举例而言,本申请实施例可以根据主体标识数据库建立基于Burkhard Keller Tree(BK Tree)的模糊匹配模型,BK Tree是根据主体标识数据库中各个主体标识的编辑距离(Levenshtein距离)来进行节点布局形成的树形结构,编辑距离用于表示两个字符串相互转换需要进行的最少编辑步数。利用基于BK Tree的模糊匹配模型可以快速地查找与对象主体标识的编辑距离小于预设距离阈值的主体标识,并将其作为模糊匹配标识。
步骤S640:若在主体标识数据库中检测到模糊匹配标识,则将与模糊匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体。
根据步骤S630中进行模糊匹配的匹配检测结果,如果查找到相应的模糊匹配标识,则可以将主体标识数据库中与模糊匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体。本步骤中确定的标识本体的数量同样可以是一个或者多个。
通过执行以上的步骤S610~步骤S640,可以在主体标识数据库中通过精确匹配和模糊匹配两个阶段获取标识本体,一方面可以提高标识本体的获取效率,另一方面可以避免因主体标识数据库中主体标识收集不全而导致的本体匹配失败的问题。
在步骤S440中,根据对象关联标识以及集合类型对标识本体进行筛选以得到目标本体,并建立数据对象与目标本体的映射关系。
如果在主体标识数据库中匹配检测得到的与对象主体标识相对应的标识本体仅为一个,那么可以直接将该标识本体作为目标本体。而如果在主体标识数据库中匹配检测得到的与对象主体标识相对应的标识本体包括多个(即两个或两个以上),那么本步骤可以利用对象关联标识和集合类型对其进行筛选,以得到更加准确的目标本体。
图7示意性地示出了本申请一些实施例中对标识本体进行筛选的方法步骤流程图。如图7所示,在以上实施例的基础上,步骤S440中的,根据对象关联标识以及集合类型对标识本体进行筛选以得到目标本体,可以进一步包括如下的步骤S710~步骤S740。
步骤S710:根据集合类型对标识本体进行筛选以得到与集合类型相匹配的候选本体。
由主体标识数据库中匹配检测得到的每个标识本体均可以确定与之对应的结合类型,而且相同类型的标识本体通常会聚合在同一个数据集合中。根据数据集合的集合类型可以对标识本体进行筛选以得到类型匹配的候选本体。
步骤S720:在关联标识数据库中查找与候选本体具有映射关系的候选关联标识。
关联标识数据库是用于存储标识本体与关联标识之间的映射关系的数据库,基于该映射关系可以利用标识本体查找与之对应的关联标识,同时也可以利用关联标识查找与之对应的标识本体。
步骤S730:在候选关联标识中选取与对象关联标识相匹配的目标关联标识。
对象关联标识可以包括用于表示数据对象的计量单位的单位标识(如图2中的“单位”字段对应的数据列)以及用于表示数据对象的取值范围的范围标识(如图2中的“参考区间”字段对应的数据列)。与之相应的,目标关联标识包括与单位标识相匹配的目标单位标识以及与范围标识相匹配的目标范围标识。利用两种不同类型的对象关联标识共同进行匹配检测,可以提高检测精度,获得更好的匹配检测效果。
步骤S740:将与目标关联标识具有映射关系的候选本体确定为目标本体。
若目标单位标识和目标范围标识映射至同一候选本体,则将该候选本体确定为目标本体;若目标单位标识和目标范围标识映射至不同的候选本体,则将与目标单位标识具有映射关系的候选本体确定为目标本体。
通过执行以上的步骤S710~步骤S740可以得到与数据对象相对应的目标本体,在此基础上可以建立数据对象与目标本体的映射关系,具体地可以将数据对象的对象取值、对象主体标识、对象关联标识以及目标本体组成具有映射关系的结构化信息。其中,对象取值是数据对象在数据库中的具体存储数值,例如可以是图2中所示的“结果”字段对应的数据列。
图8示意性地示出了本申请实施例在检验单数据处理的应用场景中的处理过程示意图。如图8所示,在该应用场景下对检验单进行数据处理的方法可以包括如下步骤。
步骤S801:提取某个医疗检验单的检验项名称、该检验项所属的检验单表格的检验单表格类别和该检验项的单位及参考范围。
步骤S802:根据检验项名称对别名库进行搜索,匹配别名库中的检验项别名,记录匹配成功的检验项别名对应的检验项本体,以下将这份记录称之为检验项精确匹配结果。
如果检验项精确匹配结果中仅有1个检验项本体,输出该本体作为该医疗检验单检验项映射后的检验项本体。
如果检验项精确匹配结果中有2个及以上的检验项本体,执行步骤S803辅助判断本体。
如果检验项精确匹配结果中有0个检验项本体,执行步骤S805辅助判断本体。
步骤S803:利用检验单表格类别过滤匹配结果中的检验项本体。
如果过滤后的检验项本体数量为1个,输出该本体作为该医疗检验单检验项映射后的检验项本体。
如果过滤后的检验项本体数量为0个,该医疗检验单检验项的本体映射失败。
如果过滤后的检验项本体数量为2个及以上,执行步骤S804辅助判断本体。
步骤S804:根据检验单检验项对应的单位、参考范围在单位、参考范围知识库中进行匹配检测,以选择其中某个检验项本体作为该检验单检验项映射后的检验项本体。
本步骤可以优先选取单位和参考范围均完全匹配的本体。如果没有二者均完全匹配的本体,则可以优先选取单位匹配的本体。再次之,如果没有单位匹配的本体,则可以选取参考范围匹配的本体。
步骤S805:如果检验项精确匹配结果中有0个检验项本体,进行限定阈值的别名库模糊匹配。记录匹配成功的检验项别名对应的检验项本体,以下将这份记录称之为检验项模糊匹配结果。
如果检验项模糊匹配结果有0个检验项本体,该医疗检验单检验项的本体映射失败。
如果检验项模糊匹配结果中有1个及以上的检验项本体,用检验项模糊匹配结果替换检验项精确匹配结果,并返回执行步骤S803。
在该应用场景中,由于各个医疗、健康机构信息***相互独立,相同检验项在不同检验单上具备不同别名。应用本技术方案可以准确找到检验项本体,辅助检验单的解读。利用医学知识库,包括别名库、单位参考范围知识库,引入检验单页面上的额外信息,辅助检验单检验项的本体映射,可以解决单依靠检验项名称本身无法确定多个易混淆本体中真实检验项本体的问题。与此同时,利用检验单表格类别信息,过滤相似的检验项本体,充分利用检验单项目的多层次特性,和同类别检验项目本体通常聚合在一个表格的特性,提高检验项本体映射的准确性。采用本技术方案对检验单提取到的检验项信息进行本体映射后保存为结构化信息,可以更完善的存储健康信息,避免因检验项名称歧义问题造成需要医学人员后续处理。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据处理方法。图9示意性地示出了本申请实施例提供的数据处理装置的结构框图。如图9所示,数据处理装置900主要可以包括:
图像获取模块910,被配置为获取用于展示数据集合的待处理图像,数据集合包括至少一个数据对象;
文本识别模块920,被配置为对待处理图像进行文本识别以得到数据对象的对象主体标识、对象关联标识以及数据集合的集合类型;
标识匹配模块930,被配置为根据对象主体标识在主体标识数据库中进行标识匹配以得到与对象主体标识相对应的一个或者多个标识本体;
本体筛选模块940,被配置为根据对象关联标识以及集合类型对标识本体进行筛选以得到目标本体,并建立数据对象与目标本体的映射关系。
在本申请的一些实施例中,基于以上各实施例,文本识别模块包括:
集合文本识别单元,配置为对待处理图像进行文本识别以得到数据集合的文本内容,文本内容包括组成数据对象的数据文本字段;
文本字段分类单元,配置为根据数据文本字段在待处理图像上的分布位置,对数据文本字段进行分类处理以确定数据对象的对象主体标识和对象关联标识;
文本内容分类单元,被配置为对文本内容进行分类处理以得到数据集合的集合类型。
在本申请的一些实施例中,基于以上各实施例,集合文本识别单元包括:
线条检测子单元,被配置为对待处理图像进行线条检测以得到待处理图像中的表格线条;
区域划分子单元,被配置为根据表格线条对待处理图像进行区域划分以得到数据集合所在的数据表格区域;
文本识别子单元,被配置为对数据表格区域进行文本识别以得到数据集合的文本内容。
在本申请的一些实施例中,基于以上各实施例,线条检测子单元包括:
像素分类子单元,被配置为基于图像语义对待识别图像中的像素点进行分类处理以确定图像线条所在的前景像素点;
图像分割子单元,被配置为根据前景像素点对待识别图像进行图像分割以得到前景线条图像;
线条拟合子单元,被配置为对前景线条图像进行线条拟合以得到待处理图像中的表格线条。
在本申请的一些实施例中,基于以上各实施例,文本字段分类单元包括:
指示字段获取子单元,被配置为获取文本内容中的标识指示字段,标识指示字段包括用于指示对象主体标识的主体标识指示字段以及用于指示对象关联标识的关联标识指示字段;
指示区域确定子单元,被配置为在待处理图像上确定与主体标识指示字段相对应的主体标识指示区域以及与关联标识指示字段相对应的关联标识指示区域;
位置关系确定子单元,被配置为根据数据文本字段在待处理图像上的分布位置确定数据文本字段与主体标识指示区域以及关联标识指示区域之间的区域位置关系;
文本字段分类子单元,被配置为根据区域位置关系对数据文本字段进行分类处理以确定数据对象的对象主体标识和对象关联标识。
在本申请的一些实施例中,基于以上各实施例,文本内容分类单元包括:
特征提取子单元,被配置为对文本内容进行特征提取以得到文本内容的内容特征;
特征映射子单元,被配置为对内容特征进行映射处理以预测分别将文本内容分类至多个类型标签的分类概率;
标签选取子单元,被配置为根据分类概率从多个类型标签中选取目标标签,并将目标标签确定为数据集合的集合类型。
在本申请的一些实施例中,基于以上各实施例,标识匹配模块包括:
精确匹配单元,被配置为根据对象主体标识在主体标识数据库中进行匹配检测以确定主体标识数据库中是否存在与对象主体标识相同的精确匹配标识;
第一本体确定单元,被配置为若在主体标识数据库中检测到精确匹配标识,则将与精确匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体;
模糊匹配单元,被配置为若在主体标识数据库中未检测到精确匹配标识,则根据对象主体标识在主体标识数据库中进行匹配检测以确定主体标识数据库中是否存在与对象主体标识在预设文本差异度范围内的模糊匹配标识;
第二本体确定单元,被配置为若在主体标识数据库中检测到模糊匹配标识,则将与模糊匹配标识具有映射关系的标识本体确定为与对象主体标识相对应的标识本体。
在本申请的一些实施例中,基于以上各实施例,模糊匹配单元包括:
模糊匹配模型建立子单元,被配置为根据主体标识数据库中的各个标识的文本差异度建立具有树形结构的模糊匹配模型;
模糊匹配模型遍历子单元,被配置为遍历模糊匹配模型以确定模糊匹配模型的各个节点中是否存在与对象主体标识在预设文本差异度范围内的模糊匹配标识。
在本申请的一些实施例中,基于以上各实施例,本体筛选模块包括:
集合类型筛选单元,被配置为根据集合类型对标识本体进行筛选以得到与集合类型相匹配的候选本体;
关联标识查找单元,被配置为在关联标识数据库中查找与候选本体具有映射关系的候选关联标识;
关联标识选取单元,被配置为在候选关联标识中选取与对象关联标识相匹配的目标关联标识;
目标本体确定单元,被配置为将与目标关联标识具有映射关系的候选本体确定为目标本体。
在本申请的一些实施例中,基于以上各实施例,对象关联标识包括用于表示数据对象的计量单位的单位标识以及用于表示数据对象的取值范围的范围标识,目标关联标识包括与单位标识相匹配的目标单位标识以及与范围标识相匹配的目标范围标识。
在本申请的一些实施例中,基于以上各实施例,目标本体确定单元包括:
第一目标本体确定子单元,被配置为若目标单位标识和目标范围标识映射至同一候选本体,则将该候选本体确定为目标本体;
第二目标本体确定子单元,被配置为若目标单位标识和目标范围标识映射至不同的候选本体,则将与目标单位标识具有映射关系的候选本体确定为目标本体。
在本申请的一些实施例中,基于以上各实施例,本体筛选模块还包括:
映射关系建立单元,被配置为将数据对象的对象取值、对象主体标识、对象关联标识以及目标本体组成具有映射关系的结构化信息。
本申请各实施例中提供的数据处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图10示意性地示出了用于实现本申请实施例的电子设备的计算机***结构框图。
需要说明的是,图10示出的电子设备的计算机***1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机***1000包括中央处理器1001(Central Processing Unit,CPU),其可以根据存储在只读存储器1002(Read-Only Memory,ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中,还存储有***操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口,即I/O接口)也连接至总线1004。
以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时,执行本申请的***中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取用于展示数据集合的待处理图像,所述数据集合包括至少一个数据对象;
对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型;所述对象主体标识用于表示所述数据对象的主体内容,所述对象关联标识是与所述数据对象的主体内容具有关联关系的信息;
根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体;
根据所述集合类型对所述标识本体进行筛选以得到与所述集合类型相匹配的候选本体;
在关联标识数据库中查找与所述候选本体具有映射关系的候选关联标识;
在所述候选关联标识中选取与所述对象关联标识相匹配的目标关联标识;
将与所述目标关联标识具有映射关系的候选本体确定为目标本体,并建立所述数据对象与所述目标本体的映射关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型,包括:
对所述待处理图像进行文本识别以得到所述数据集合的文本内容,所述文本内容包括组成所述数据对象的数据文本字段;
根据所述数据文本字段在所述待处理图像上的分布位置,对所述数据文本字段进行分类处理以确定所述数据对象的对象主体标识和对象关联标识;
对所述文本内容进行分类处理以得到所述数据集合的集合类型。
3.根据权利要求2所述的数据处理方法,其特征在于,所述对所述待处理图像进行文本识别以得到所述数据集合的文本内容,包括:
对所述待处理图像进行线条检测以得到所述待处理图像中的表格线条;
根据所述表格线条对所述待处理图像进行区域划分以得到所述数据集合所在的数据表格区域;
对所述数据表格区域进行文本识别以得到所述数据集合的文本内容。
4.根据权利要求3所述的数据处理方法,其特征在于,所述对所述待处理图像进行线条检测以得到所述待处理图像中的表格线条,包括:
基于图像语义对待识别图像中的像素点进行分类处理以确定图像线条所在的前景像素点;
根据所述前景像素点对待识别图像进行图像分割以得到前景线条图像;
对所述前景线条图像进行线条拟合以得到所述待处理图像中的表格线条。
5.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述文本字段在所述待处理图像上的分布位置,对所述数据文本字段进行分类处理以确定所述数据对象的对象主体标识和对象关联标识,包括:
获取所述文本内容中的标识指示字段,所述标识指示字段包括用于指示所述对象主体标识的主体标识指示字段以及用于指示所述对象关联标识的关联标识指示字段;
在所述待处理图像上确定与所述主体标识指示字段相对应的主体标识指示区域以及与所述关联标识指示字段相对应的关联标识指示区域;
根据所述数据文本字段在所述待处理图像上的分布位置确定所述数据文本字段与所述主体标识指示区域以及所述关联标识指示区域之间的区域位置关系;
根据所述区域位置关系对所述数据文本字段进行分类处理以确定所述数据对象的对象主体标识和对象关联标识。
6.根据权利要求2所述的数据处理方法,其特征在于,所述对所述文本内容进行分类处理以得到所述数据集合的集合类型,包括:
对所述文本内容进行特征提取以得到所述文本内容的内容特征;
对所述内容特征进行映射处理以预测分别将所述文本内容分类至多个类型标签的分类概率;
根据所述分类概率从所述多个类型标签中选取目标标签,并将所述目标标签确定为所述数据集合的集合类型。
7.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体,包括:
根据所述对象主体标识在主体标识数据库中进行匹配检测以确定所述主体标识数据库中是否存在与所述对象主体标识相同的精确匹配标识;
若在所述主体标识数据库中检测到所述精确匹配标识,则将与所述精确匹配标识具有映射关系的标识本体确定为与所述对象主体标识相对应的标识本体;
若在所述主体标识数据库中未检测到所述精确匹配标识,则根据所述对象主体标识在所述主体标识数据库中进行匹配检测以确定所述主体标识数据库中是否存在与所述对象主体标识在预设文本差异度范围内的模糊匹配标识;
若在所述主体标识数据库中检测到所述模糊匹配标识,则将与所述模糊匹配标识具有映射关系的标识本体确定为与所述对象主体标识相对应的标识本体。
8.根据权利要求7所述的数据处理方法,其特征在于,所述根据所述对象主体标识在所述主体标识数据库中进行匹配检测以确定所述主体标识数据库中是否存在与所述对象主体标识在预设文本差异度范围内的模糊匹配标识,包括:
根据所述主体标识数据库中的各个标识的文本差异度建立具有树形结构的模糊匹配模型;
遍历所述模糊匹配模型以确定所述模糊匹配模型的各个节点中是否存在与所述对象主体标识在预设文本差异度范围内的模糊匹配标识。
9.根据权利要求1所述的数据处理方法,其特征在于,所述对象关联标识包括用于表示所述数据对象的计量单位的单位标识以及用于表示所述数据对象的取值范围的范围标识,所述目标关联标识包括与所述单位标识相匹配的目标单位标识以及与所述范围标识相匹配的目标范围标识。
10.根据权利要求9所述的数据处理方法,其特征在于,所述将与所述目标关联标识具有映射关系的候选本体确定为目标本体,包括:
若所述目标单位标识和所述目标范围标识映射至同一候选本体,则将该候选本体确定为目标本体;
若所述目标单位标识和所述目标范围标识映射至不同的候选本体,则将与所述目标单位标识具有映射关系的候选本体确定为目标本体。
11.根据权利要求1所述的数据处理方法,其特征在于,所述建立所述数据对象与所述目标本体的映射关系,包括:
将所述数据对象的对象取值、对象主体标识、对象关联标识以及所述目标本体组成具有映射关系的结构化信息。
12.一种数据处理装置,其特征在于,包括:
图像获取模块,被配置为获取用于展示数据集合的待处理图像,所述数据集合包括至少一个数据对象;
文本识别模块,被配置为对所述待处理图像进行文本识别以得到所述数据对象的对象主体标识、对象关联标识以及所述数据集合的集合类型;所述对象主体标识用于表示所述数据对象的主体内容,所述对象关联标识是与所述数据对象的主体内容具有关联关系的信息;
标识匹配模块,被配置为根据所述对象主体标识在主体标识数据库中进行标识匹配以得到与所述对象主体标识相对应的一个或者多个标识本体;
本体筛选模块,被配置为根据所述集合类型对所述标识本体进行筛选以得到与所述集合类型相匹配的候选本体;在关联标识数据库中查找与所述候选本体具有映射关系的候选关联标识;在所述候选关联标识中选取与所述对象关联标识相匹配的目标关联标识;将与所述目标关联标识具有映射关系的候选本体确定为目标本体,并建立所述数据对象与所述目标本体的映射关系。
13.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至11中任意一项所述的数据处理方法。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任意一项所述的数据处理方法。
CN202010745286.1A 2020-07-29 2020-07-29 数据处理方法、装置、计算机可读介质及电子设备 Active CN111898528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010745286.1A CN111898528B (zh) 2020-07-29 2020-07-29 数据处理方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010745286.1A CN111898528B (zh) 2020-07-29 2020-07-29 数据处理方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111898528A CN111898528A (zh) 2020-11-06
CN111898528B true CN111898528B (zh) 2023-11-10

Family

ID=73183714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010745286.1A Active CN111898528B (zh) 2020-07-29 2020-07-29 数据处理方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111898528B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641583A (zh) * 2021-08-16 2021-11-12 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品
CN115880300B (zh) * 2023-03-03 2023-05-09 北京网智易通科技有限公司 图像模糊检测方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468666A (zh) * 2015-08-11 2016-04-06 中国科学院软件研究所 一种基于地图隐喻的视频内容可视分析方法
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
JP2019040467A (ja) * 2017-08-25 2019-03-14 キヤノン株式会社 画像処理装置およびその制御方法
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111310682A (zh) * 2020-02-24 2020-06-19 民生科技有限责任公司 一种文本文件表格的通用检测分析及识别方法
CN111461108A (zh) * 2020-02-21 2020-07-28 浙江工业大学 一种医疗单据识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060072778A1 (en) * 2004-09-28 2006-04-06 Xerox Corporation. Encoding invisible electronic information in a printed document

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468666A (zh) * 2015-08-11 2016-04-06 中国科学院软件研究所 一种基于地图隐喻的视频内容可视分析方法
JP2019040467A (ja) * 2017-08-25 2019-03-14 キヤノン株式会社 画像処理装置およびその制御方法
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111461108A (zh) * 2020-02-21 2020-07-28 浙江工业大学 一种医疗单据识别方法
CN111310682A (zh) * 2020-02-24 2020-06-19 民生科技有限责任公司 一种文本文件表格的通用检测分析及识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Generation and grading of arduous MCQs using NLP and OMR detection using OpenCV;Sarjak Maniar等;《2021 12th International Conference on Computing Communication and Networking Technologies (ICCCNT)》;1-7 *
Structured Pathology Reporting for Cancer from Free Text: Lung Cancer Case Study;Anthony Nguyen等;《electronic Journal of Health Informatics》;第7卷(第1期);1-7 *
基于特征的表格内容识别的研究;李华桥;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第01期);I138-1521 *

Also Published As

Publication number Publication date
CN111898528A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
CN111506729B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN112927776A (zh) 一种面向医学检验报告的人工智能自动解读***
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN112052424B (zh) 一种内容审核方法及装置
Gang et al. Recognition of honeycomb lung in CT images based on improved MobileNet model
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN116611071A (zh) 一种基于多模态的函数级漏洞检测的方法
Lin et al. An analysis of English classroom behavior by intelligent image recognition in IoT
CN116071609B (zh) 基于目标特征动态自适应提取的小样本图像分类方法
CN116739001A (zh) 基于对比学习的文本关系提取方法、装置、设备及介质
CN114741483B (zh) 数据识别的方法和装置
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN114638973A (zh) 目标图像检测方法及图像检测模型训练方法
CN117557871B (zh) 三维模型标注方法、装置、设备及存储介质
CN117611845B (zh) 多模态数据的关联识别方法、装置、设备及存储介质
CN118012921B (zh) 一种用于知识产权虚拟实验的人机交互数据处理***
CN117173731B (zh) 一种模型训练的方法、图像处理的方法以及相关装置
Xu et al. Research on intelligent campus and visual teaching system based on Internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant