CN116206319B

CN116206319B - 用于临床试验的数据处理***

Info

Publication number: CN116206319B
Application number: CN202310142830.7A
Authority: CN
Inventors: 陈筱
Original assignee: Beijing Zhongxing Zhengyuan Technology Co ltd
Current assignee: Beijing Zhongxing Zhengyuan Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-09-29
Anticipated expiration: 2043-02-17
Also published as: CN116206319A

Abstract

本发明涉及数据处理技术领域，尤其涉及一种用于临床试验的数据处理***，本发明通过设置数据存储模块、数据采集模块以及数据处理模块，数据处理模块基于文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析手写试验记录文本的字体相似状况，在第一字体相似状况下，将全部文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比以判定各文字轮廓所表示的文字，在第二字体相似状况下，选取文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定全部文字轮廓中各文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度判定各文字轮廓所表示的文字，在保证可靠性的前提下，提高了对手写试验记录文本进行识别的效率与精度。

Description

用于临床试验的数据处理***

技术领域

本发明涉及数据处理技术领域，尤其涉及一种用于临床试验的数据处理***。

背景技术

临床试验需要记录患者作为受试者参与临床试验期间的与试验相关的临床数据，对临床数据识别的效果直接影响试验数据的可靠性，对试验药物的疗效与安全性的确定有重要影响，以及，对临床数据识别的速度直接关乎数据录入工作的效率。

中国专利公开号：CN109102844A，公开了如下内容，该发明公开一种临床试验源数据自动校验方法，包括步骤：使用CTPN网络模型对获取的临床试验的源数据图像识别，确定文本区域，然后进行文本区域切割，切出每一行文本；对切出每一行文本进行垂直投影列切割，得到每一行文本的有效文本区域；将有效文本区域的集合依次输入经训练的CRNN网络，得到可变长序列识别结果，然后使用正则表达式提取出文本识别结果；对文本识别结果进行纠错，获得纠错结果；依据特征值集合逐一从纠错结果中提取特征值，与数据库中记录的标准特征值比对，对与标准特征值不符的提取的特征值，标志告警状态，形成错误提醒。该发明以CPTN和CRNN为核心进行临床试验源数据图像文字识别，进而实现自动化的数据校验。

但是，现有技术中，还存在以下问题：

在现有技术中，未考虑手写文本中字体的不同会对文本识别的精度造成影响，未考虑设置多种字体的对比数据库进行对比确定手写文本的字体。

发明内容

为解决现有技术中未考虑手写文本中字体的不同会对文本识别的精度造成影响，未考虑设置多种字体的对比数据库进行对比确定手写文本的字体的问题，本发明提供一种用于临床试验的数据处理***，其包括：

数据存储模块，其包括若干字体数据库，用以储存对应字体类型的若干预设文字轮廓；

数据采集模块，其包括一图像采集单元，以对手写试验记录文本进行拍摄获取图像；

数据处理模块，其包括相互连接的图像分析单元、第一运算单元以及第二运算单元，所述图像分析单元、第一运算单元以及第二运算单元均与所述数据采集模块以及数据存储模块连接，

所述图像分析单元用以获取所述图像采集单元拍摄的图像，从所述图像中提取预设行数的文字轮廓得到文字轮廓集，将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的数据进行对比，以根据对比结果判定各所述文字轮廓所属的字体类型，并基于所述文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析所述手写试验记录文本的字体相似状况；

所述第一运算单元用以在所述图像分析单元解析获取第一字体相似状况下，提取所述图像中的全部文字轮廓，逐个将文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比并计算重合度，基于重合度判定各所述文字轮廓所表示的文字；

所述第二运算单元用以在所述图像分析单元解析获取第二字体相似状况下，提取所述图像中全部文字轮廓，选取所述文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定各所述文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度，并基于重合度判定各所述文字轮廓所表示的文字。

进一步地，所述图像分析单元将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的预设文字轮廓进行对比，以计算所述文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm，将所述最大重合度Cm与预设的最大重合度对比阈值Cm0进行对比，并根据对比结果判定所述文字轮廓所属的字体类型，其中，

所述图像分析单元确定计算所述最大重合度Cm时所选用的字体数据库，

在第一重合度对比结果下，所述图像分析单元判定所述文字轮廓属于所述字体数据库对应的字体类型；

在第二重合度对比结果下，所述图像分析单元判定所述文字轮廓不属于所述字体数据库对应的字体类型；

其中，所述第一重合度对比结果为Cm≥Cm0，所述第二重合度对比结果为Cm＜Cm0。

进一步地，所述图像分析单元按照公式(1)计算所述文字轮廓集中各字体类型的文字轮廓数量占比P，

公式(1)中，n表示属于相同字体类型的文字轮廓的数量，N表示所述文字轮廓集中文字轮廓的数量。

进一步地，所述图像分析单元对已计算的各字体类型的文字轮廓数量占比进行筛选，以筛选出最大数量占比P_M，将最大数量占比P_M与预设的占比对比阈值P0进行对比，并根据对比结果解析判定所述手写试验记录文本的字体相似状况，其中，

若对比结果满足第一占比条件，所述图像分析单元判定所述手写试验记录文本为第一字体相似状况；

若对比结果满足第二占比条件，所述图像分析单元判定所述手写试验记录文本为第二字体相似状况；

其中，所述第一占比条件为P_M＜P0，所述第二占比条件为P_M≥P0。

进一步地，所述第一运算单元或所述第二运算单元逐个将文字轮廓与选取的字体数据库中存储的若干预设文字轮廓进行对比，以计算文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm将所述最大重合度Cm与预设的标准重合度对比阈值C0进行对比，并根据对比结果判定所述文字轮廓所表示的文字，其中，C0＞Cm0，

在第三重合度对比结果下，所述第一运算单元或所述第二运算单元判定所述文字轮廓与所述预设文字轮廓所关联的文字相同；

在第四重合度对比结果下，所述第一运算单元或所述第二运算单元判定所述文字轮廓无法识别所表示的文字；

所述第三重合度对比结果为Cm＞C0，所述第四重合度对比结果为Cm≤C0。

进一步地，所述数据存储模块还包括数据库解析单元，用以根据各字体数据库中存储的预设文字轮廓的重合度，确定各字体数据库间的相似度，其中，

所述数据库解析单元选取任意两个字体数据库，并逐个从两个字体数据库中调用预设字体轮廓进行对比，以确定已调用的预设字体轮廓的重合度，并按照公式(2)计算已选取字体数据库间的相似度S，

公式(2)中，Ci表示第i次选取的两个预设文字轮廓之间的重合度，N_z表示字体数据库中预设文字轮廓的数量。

进一步地，所述第二运算单元获取无法识别所表示文字的字体轮廓，并基于字体数据库间的相似度，重新选取字体数据库并逐个确定各所述文字轮廓与已重新选取的字体数据库的中存储的预设文字轮廓的重合度，并基于重合度再次判定各所述文字轮廓所表示的文字。

进一步地，所述第二运算单元基于字体数据库间的相似度，重新选取字体数据库，其中，

所述第二运算单元确定已判定各文字轮廓所表示的文字时调用的字体数据库，并根据相似度确定与已调用的所述字体数据库最相似的字体数据库，将所述字体数据库确定为需重新选取的字体数据库。

进一步地，所述数据处理模块还包括记录整合单元，所述记录整合单元与所述第一运算单元、第二运算单元以及数据存储模块连接，用以按照所述图像中文字轮廓的顺序逐个将所确定的文字轮廓所表示的文字进行记录生成所述手写试验记录文本的整合文本，并将所述整合文本储存至所述数据存储模块。

进一步地，所述记录整合单元根据文字轮廓判定将文字轮廓所表示的文字进行记录时是否以O代替，其中，

在预设条件下，所述记录整合单元判定将文字轮廓所表示的文字进行记录时以O代替；

其中，所述预设条件为所述第一运算单元以及第二运算单元不能判定文字轮廓所属的文字。

与现有技术相比，本发明通过设置数据存储模块、数据采集模块以及数据处理模块，数据处理模块基于文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析手写试验记录文本的字体相似状况，在第一字体相似状况下，逐个将全部文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比以判定各文字轮廓所表示的文字，在第二字体相似状况下，选取文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定全部文字轮廓中各文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度以判定各文字轮廓所表示的文字，提高了对不同字体的手写试验记录文本进行识别的效率与效果。

尤其，本发明中，图像分析单元将文字轮廓集中的各文字轮廓与各字体数据库中的数据进行对比，以根据对比结果判定各文字轮廓所属的字体类型，在实际情况中，重合度表征了文字轮廓与预设文字轮廓的相似程度，相似程度越高即表明文字轮廓与预设文字轮廓为同一轮廓的可能性越大，文字轮廓与字体数据库中的若干预设文字轮廓进行对比，得到文字轮廓与各预设文字轮廓的重合度，其中数值最大的重合度对应的预设文字轮廓为字体数据库中与文字轮廓相似程度最高的预设文字轮廓，科学地确定文字轮廓所属的字体类型，保证后续对手写试验记录文本进行识别的准确性。

尤其，本发明中，图像分析单元基于文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析手写试验记录文本的字体相似状况，在实际情况中，占比由属于相同字体类型的文字轮廓的数量与文字轮廓集中文字轮廓的数量的比值计算所得，表征了属于各字体类型的文字轮廓的数量在文字轮廓集中所占的比例，比例的数值越大表明文字轮廓集的文字轮廓所在的手写试验记录文本中的文字轮廓属于此字体类型的可能性越高，若所有字体类型对应的占比的数值都较低，表明无法确认手写试验记录文本中的字体轮廓所属的字体类型，表明能确认手写试验记录文本中的字体轮廓所属的字体类型，因此通过最大的占比与预设值的大小关系将手写试验记录文本可靠地分为两种字体相似状态，便于后续针对不同的字体相似状态进行不同的处理方式，保证后续对手写试验记录文本进行识别的效率与效果。

尤其，本发明中，第一运算单元在第一字体相似状态下，提取图像中的全部文字轮廓，逐个将文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比并计算重合度，基于重合度判定各文字轮廓所表示的文字，在所有字体类型对应的占比的数值都较低的第一字体相似状态，由于无法确认出手写试验记录文本中的字体轮廓所属的字体类型，因此将图像中的所有文字轮廓逐个与随机选取的字体数据库进行对比，确定文字轮廓所表示的文字，保证文字轮廓识别的可靠性，保证了对手写试验记录文本进行识别的效果。

尤其，本发明中，第二运算单元在第二字体相似状态下，提取图像中全部文字轮廓，选取文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定各文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度，在数据对比中优先选取与手写试验记录文本的字体最接近的字体数据库，进而在保证可靠性的前提下，提高了文本识别的效率与精度。

尤其，本发明第二运算单元提取未识别所表示文字的字体轮廓，并重新选取字体数据库进行对比，重新选取字体数据库为与已调用的字体数据库相似度最高的字体数据库，进而在保证可靠性的前提下，提高了文本识别的效率与精度。

附图说明

图1为发明实施例的用于临床试验的数据处理***结构示意图；

图2为发明实施例的数据存储模块结构简图；

图3为发明实施例的数据处理模块结构简图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1、图2以及图3所示，其为本发明实施例的用于临床试验的数据处理***结构示意图、数据存储模块结构简图以及数据处理模块结构简图，本发明的用于临床试验的数据处理***包括：

具体而言，本发明对数据存储模块的具体形式不做限定，其只需能完成储存数据的功能即可，其为现有成熟技术不再赘述。

具体而言，本发明对数据处理模块的具体形式不做限定，其可以为一外接计算机，其中的各单元为计算机中的不同功能程序，其只需能完成数据处理以及数据交换的功能即可，不再赘述。

具体而言，本发明对轮廓重合度的具体计算方式不做限定，可以是基于图案的相似度进行计算，也可以是其他形式，相关的算法模型已经为成熟现有技术，此处不再赘述。

具体而言，所述图像分析单元将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的预设文字轮廓进行对比，以计算所述文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm，将所述最大重合度Cm与预设的最大重合度对比阈值Cm0进行对比，Cm0＞0，并根据对比结果判定所述文字轮廓所属的字体类型，其中，

具体而言，本发明中，图像分析单元将文字轮廓集中的各文字轮廓与各字体数据库中的数据进行对比，以根据对比结果判定各文字轮廓所属的字体类型，在实际情况中，重合度表征了文字轮廓与预设文字轮廓的相似程度，相似程度越高即表明文字轮廓与预设文字轮廓为同一轮廓的可能性越大，文字轮廓与字体数据库中的若干预设文字轮廓进行对比，得到文字轮廓与各预设文字轮廓的重合度，其中数值最大的重合度对应的预设文字轮廓为字体数据库中与文字轮廓相似程度最高的预设文字轮廓，可靠地将文字轮廓与字体数据库的相似程度进行量化，并科学地将与文字轮廓的相似程度大于预设值的字体数据库对应的字体类型作为文字轮廓所属的字体类型，保证后续对手写试验记录文本进行识别的准确性。

具体而言，所述图像分析单元按照公式(1)计算所述文字轮廓集中各字体类型的文字轮廓数量占比P，

具体而言，所述图像分析单元对已计算的各字体类型的文字轮廓数量占比进行筛选，以筛选出最大数量占比P_M，将最大数量占比P_M与预设的占比对比阈值P0进行对比，P0＞0，并根据对比结果解析判定所述手写试验记录文本的字体相似状况，其中，

具体而言，本发明中，图像分析单元基于文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析手写试验记录文本的字体相似状况，在实际情况中，占比由属于相同字体类型的文字轮廓的数量与文字轮廓集中文字轮廓的数量的比值计算所得，表征了属于各字体类型的文字轮廓的数量在文字轮廓集中所占的比例，比例的数值越大表明文字轮廓集的文字轮廓所在的手写试验记录文本中的文字轮廓属于此字体类型的可能性越高，若所有字体类型对应的占比的数值都较低，表明无法确认手写试验记录文本中的字体轮廓所属的字体类型，表明能确认手写试验记录文本中的字体轮廓所属的字体类型，因此通过最大的占比与预设值的大小关系将手写试验记录文本可靠地分为两种字体相似状态，便于后续针对不同的字体相似状态进行不同的处理方式，保证后续对手写试验记录文本进行识别的效率与效果。

具体而言，所述第一运算单元或所述第二运算单元逐个将文字轮廓与选取的字体数据库中存储的若干预设文字轮廓进行对比，以计算文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm将所述最大重合度Cm与预设的标准重合度对比阈值C0进行对比，并根据对比结果判定所述文字轮廓所表示的文字，其中，C0＞Cm0＞0，

具体而言，本发明中，第一运算单元在第一字体相似状态下，提取图像中的全部文字轮廓，逐个将文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比并计算重合度，基于重合度判定各文字轮廓所表示的文字，在所有字体类型对应的占比的数值都较低的第一字体相似状态，由于无法确认出手写试验记录文本中的字体轮廓所属的字体类型，因此将图像中的所有文字轮廓逐个与随机选取的字体数据库进行对比，确定文字轮廓所表示的文字，保证文字轮廓识别的可靠性，保证了对手写试验记录文本进行识别的效果。

具体而言，本发明中，第二运算单元在第二字体相似状态下，提取图像中全部文字轮廓，选取文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定各文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度，在数据对比中优先选取与手写试验记录文本的字体最接近的字体数据库，进而在保证可靠性的前提下，提高了文本识别的效率与精度。

具体而言，所述数据存储模块还包括数据库解析单元，用以根据各字体数据库中存储的预设文字轮廓的重合度，确定各字体数据库间的相似度，其中，

具体而言，所述第二运算单元获取无法识别所表示文字的字体轮廓，并基于字体数据库间的相似度，重新选取字体数据库并逐个确定各所述文字轮廓与已重新选取的字体数据库的中存储的预设文字轮廓的重合度，并基于重合度再次判定各所述文字轮廓所表示的文字。

具体而言，本发明第二运算单元提取未识别所表示文字的字体轮廓，并重新选取字体数据库进行对比，重新选取字体数据库为与已调用的字体数据库相似度最高的字体数据库，进而在保证可靠性的前提下，提高了文本识别的效率与精度

具体而言，所述第二运算单元基于字体数据库间的相似度，重新选取字体数据库，其中，

具体而言，所述数据处理模块还包括记录整合单元，所述记录整合单元与所述第一运算单元、第二运算单元以及数据存储模块连接，用以按照所述图像中文字轮廓的顺序逐个将所确定的文字轮廓所表示的文字进行记录生成所述手写试验记录文本的整合文本，并将所述整合文本储存至所述数据存储模块。

具体而言，所述记录整合单元根据文字轮廓判定将文字轮廓所表示的文字进行记录时是否以O代替，其中，

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种用于临床试验的数据处理***，其特征在于，包括：

所述第二运算单元用以在所述图像分析单元解析获取第二字体相似状况下，提取所述图像中全部文字轮廓，选取所述文字轮廓集中占比最高的字体类型所对应的字体数据库，并逐个确定各所述文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度，并基于重合度判定各所述文字轮廓所表示的文字；

所述图像分析单元按照公式(1)计算所述文字轮廓集中各字体类型的文字轮廓数量占比P，

公式(1)中，n表示属于相同字体类型的文字轮廓的数量，N表示所述文字轮廓集中文字轮廓的数量；

所述图像分析单元对已计算的各字体类型的文字轮廓数量占比进行筛选，以筛选出最大数量占比P_M，将最大数量占比P_M与预设的占比对比阈值P0进行对比，并根据对比结果解析判定所述手写试验记录文本的字体相似状况，其中，

2.根据权利要求1所述的用于临床试验的数据处理***，其特征在于，所述图像分析单元将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的预设文字轮廓进行对比，以计算所述文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm，将所述最大重合度Cm与预设的最大重合度对比阈值Cm0进行对比，并根据对比结果判定所述文字轮廓所属的字体类型，其中，

3.根据权利要求1所述的用于临床试验的数据处理***，其特征在于，所述第一运算单元或所述第二运算单元逐个将文字轮廓与选取的字体数据库中存储的若干预设文字轮廓进行对比，以计算文字轮廓与预设文字轮廓的重合度C，并筛选出最大重合度Cm将所述最大重合度Cm与预设的标准重合度对比阈值C0进行对比，并根据对比结果判定所述文字轮廓所表示的文字，其中，C0＞Cm0，

4.根据权利要求1所述的用于临床试验的数据处理***，其特征在于，所述数据存储模块还包括数据库解析单元，用以根据各字体数据库中存储的预设文字轮廓的重合度，确定各字体数据库间的相似度，其中，

5.根据权利要求4所述的用于临床试验的数据处理***，其特征在于，所述第二运算单元获取无法识别所表示文字的字体轮廓，并基于字体数据库间的相似度，重新选取字体数据库并逐个确定各所述文字轮廓与已重新选取的字体数据库的中存储的预设文字轮廓的重合度，并基于重合度再次判定各所述文字轮廓所表示的文字。

6.根据权利要求5所述的用于临床试验的数据处理***，其特征在于，所述第二运算单元基于字体数据库间的相似度，重新选取字体数据库，其中，

7.根据权利要求1所述的用于临床试验的数据处理***，其特征在于，所述数据处理模块还包括记录整合单元，所述记录整合单元与所述第一运算单元、第二运算单元以及数据存储模块连接，用以按照所述图像中文字轮廓的顺序逐个将所确定的文字轮廓所表示的文字进行记录生成所述手写试验记录文本的整合文本，并将所述整合文本储存至所述数据存储模块。

8.根据权利要求7所述的用于临床试验的数据处理***，其特征在于，所述记录整合单元根据文字轮廓判定将文字轮廓所表示的文字进行记录时是否以O代替，其中，