CN116704537A - 一种轻量的药典图片文字提取方法 - Google Patents

一种轻量的药典图片文字提取方法 Download PDF

Info

Publication number
CN116704537A
CN116704537A CN202211539551.6A CN202211539551A CN116704537A CN 116704537 A CN116704537 A CN 116704537A CN 202211539551 A CN202211539551 A CN 202211539551A CN 116704537 A CN116704537 A CN 116704537A
Authority
CN
China
Prior art keywords
pharmacopoeia
input
stage
characteristic
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211539551.6A
Other languages
English (en)
Other versions
CN116704537B (zh
Inventor
李朋
于硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202211539551.6A priority Critical patent/CN116704537B/zh
Publication of CN116704537A publication Critical patent/CN116704537A/zh
Application granted granted Critical
Publication of CN116704537B publication Critical patent/CN116704537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于视觉文档理解技术领域,公开了一种轻量的药典图片文字提取方法,包含两个关键步骤。1)构建药典特征轻量聚焦模块:首先利用全秩网络特征主成分构建低秩神经网络层,然后设计聚焦策略从输入特征中提取关键信息,2)构建药典文档信息识别提取网络:串联8个药典特征轻量聚焦模块为网络骨架,构建多阶段编码器提取药典数据特征嵌入;然后串联8个药典特征轻量聚焦模块为网络骨架,构建多阶段解码器转换药典数据信息为特定文本,实现药典电子化;最后利用交叉熵损失衡量解码器提取的药典数据文本与原始药典数据文本的差距,通过最小化交叉熵损失最优化网络参数。

Description

一种轻量的药典图片文字提取方法
技术领域
本发明属于视觉文档理解技术领域,涉及一种轻量的药典图片文字提取方法。
背景技术
当前,药品药剂种类繁多、规模庞大导致药典难以管理和维护。同时,生物医药产业蓬勃发展,各式新型药物制剂剧增,进一步增大了药典管理难度。结合信息技术实现药典电子化,有望成为药典管理良方。然而,目前的药典电子化依然存在较大的挑战,主要表现为药典数据获取过程中,数据获取的速度、结构化程度及整合度较低,导致难以高效地管理和利用药典中的有效知识。因此,急需研发一种新方法来更有效地促进药典电子化的进程。
信息提取意为从文档的图像数据中识别、提取文字信息,是视觉文档理解的一个关键任务,广泛地存在于数据电子化过程中。传统的信息提取方法通常依赖光学字符识别(OCR)对文档材料进行扫描,对扫描所得图像进行检测,获取文本内容信息,进一步利用图像分类或模板匹配等算法执行字符识别和版面恢复。近年来,由于获取数据的广泛性和复杂性不断提高,基于传统OCR的信息提取方法可用性逐渐降低,相关研究者开发了基于深度OCR的信息提取方法。在当前众多基于深度OCR的信息提取方法中,结合卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制的方法成为主流,并在药典相关文档的识别提取中取得良好的效果。
然而,当前大多数依赖于OCR的信息提取方法存在固有的不足。作为一种预处理方法,OCR通常需要昂贵训练支出,在追求高质量的信息提取输出的场景中还需要额外的推理成本,并且可能会将内部错误进一步传播到信息提取方法其余部分,影响方法性能。此外,当前的信息提取方法依靠注意力机制提取数据关键信息,计算代价过高,难以满足药典电子化对高效的数据获取的需求。
综上,本发明提出一种轻量的药典图片文字提取方法,利用权重主成分近似思想设计低秩的药典特征轻量聚焦模块,实现高效的关键信息抽取,然后基于编解码思想,构建有效的药典文档信息识别提取网络,实现药典数据准确高效电子化。
发明内容
为了解决上述问题,本发明提供了一种轻量的药典图片文字提取方法,包括以下步骤:
步骤1、构建药典特征轻量聚焦模块
药典特征轻量聚焦模块的构建包括低秩神经网络层的构建与聚焦策略的实现;
低秩神经网络层的构建:根据张量CP分解原理,使用网络权重主成分进行神经网络层中加权计算任务,构建低秩神经网络层;
具体地,低秩神经网络层包含该层输入变量记为特征z、输出变量记为特征z’、激活函数σ、偏置向量b、重要性因子λr以及该层的K个权重向量药典特征轻量聚焦模块将特征z依次与K个权重向量相乘,然后根据张量秩r的取值范围由重要性因子λr加权求和,接着叠加偏置向量b,最后经激活函数σ得到最终计算结果z’;低秩全连接层计算过程具体公式为:
其中,W为等效的网络权重张量,为向量外积,R为设定的r的取值范围;
在低秩卷积层计算过程具体公式为:
其中,与/>分别为低秩卷积层的输出元素与输入元素;i1,i2,i3为输出特征中元素的下标,取值范围为输出特征维度;j1,j2,j3为卷积核中元素的下标,取值范围为卷积核维度;
聚焦策略的实现:药典特征轻量聚焦模块包括映射输入特征的低秩全连接层f、抽取输入特征多层表示的L个低秩卷积层c、L个门控因子Gl以及分别映射调制特征与查询特征的低秩全连接层h与q;药典特征轻量聚焦模块级联多个低秩卷积层,将输入特征映射为多层表示;然后利用门控机制融合多层表示,得到输入特征的多层整合特征;最后,利用两个低秩全连接层分别将输入特征与多层整合特征映射为查询特征与调制特征,并利用查询特征与调制特征的逐元素乘法得到输入特征的关键信息;
具体地:给定输入特征z,药典特征轻量聚焦模块利用低秩全连接层映射获得输入特征的初始表示z0=f(z);然后利用L个低秩卷积层级联映射得到输入特征的多层表示zl=c(zl-1),l=1,2,…L;接着使用L个门控因子Gl与多层表示zl对应逐元素相乘后叠加得到多层整合特征;最后,分别使用低秩全连接层将多层整合特征与原始输入特征z映射为公共特征空间中的调制特征与查询特征,通过两种特征的逐元素相乘得到输入特征关键信息,即聚焦特征Z;上述过程具体计算公式为:
药典特征轻量聚焦模块利用低秩全连接层与低秩卷积层提取输入特征关键信息,在保证输入特征提取效果的情况下有效减少了模型参数量,提升了模块的运行效率;
步骤2、构建药典文档信息识别提取网络
药典文档信息识别提取网络包含编码器和解码器;其中编码器包含五个计算阶段,第一阶段将输入为H×W×3的药典图像转化为个长度为48的序列;第二阶段包含2个药典特征轻量聚焦模块,以第一阶段输出的/>的二维序列作为输入,转化为/>个长度为128的输出特征;第三阶段包含2个药典特征轻量聚焦模块,以第二阶段输出的的二维特征作为输入,转化为/>个长度为256的输出特征;第四阶段包含14个药典特征轻量聚焦模块,以第三阶段输出的/>的二维特征作为输入,转化为/>个长度为512的输出特征;第五阶段包含2个药典特征轻量聚焦模块,以第四阶段输出的的二维特征作为输入,转化为/>个长度为1024的输出特征;解码器包含四个计算阶段,第一阶段以编码器的输出特征(/>个,长度为1024)作为输入,转化为/>个长度为1024的输出特征;第二、第三、第四阶段与第一阶段计算相同;具体构建过程如下:
编码器的构建:编码器包含首尾相连的五个阶段,将输入待处理药典图像数据逐阶段细化,抽取药典图像数据蕴含的特征信息;
第一阶段为块划分阶段;给定x为输入待处理药典图像数据,其高度、宽度以及通道数分别为H、W以及3,块划分阶段将输入图像拆分为4×4×3尺寸的非重叠块,各块维度4×4×3=48,块数即令输入待处理药典图像数据转变为/>的二维序列;
第二阶段以第一阶段的输出为输入,依次经过聚焦特征提取、循环移位和聚焦特征提取阶段,包含低秩全连接层与两个药典特征轻量聚焦模块;具体为:首先采用低秩全连接层将维度为48的各块映射到128维度,得到的二维线性嵌入序列;然后采用药典特征轻量聚焦模块提取/>的聚焦特征;接着沿块对角线方向将原有块划分边界循环移位半块距离,实现块间信息交互;最后在新的块划分下采用第二个药典特征轻量聚焦模块提取/>聚焦特征作为第一阶段输出的特征嵌入;
第三阶段以第二阶段的输出为输入,包含低秩全连接层与两个药典特征轻量聚焦模块;首先将输入中的相邻的2×2块拼接,使得块数由变少为/>而块维度增加为512;然后使用低秩全连接层将每块尺寸缩小为256;最后使用与第一阶段相同的聚焦特征提取-循环移位-聚焦特征提取过程计算第二阶段输出的/>特征嵌入;
第四、第五阶段与第三阶段流程相同;第五阶段输出的特征嵌入即为编码器最终输出;
解码器的构建:解码器以编码器的输出为输入,包含首尾相连的四个阶段,将编码器提取的关键信息予以转换,映射为符合特定格式的文本数据,实现药典文档信息的识别提取;
第一阶段以编码器的输出为输入,包含两个药典特征轻量聚焦模块与两个低秩全连接层;首先利用两个低秩全连接层分别将位置信息与输入特征映射到相同维度空间加以结合,然后利用连续两个药典特征轻量聚焦模块细化具有位置信息的输入特征,最后利用连续两个低秩全连接层将细化后的输入特征维度放大为4倍后再恢复原始维度,通过放缩过程有效融合特征内部信息,产生阶段的输出特征;
第二、第三、第四阶段均以前一阶段输出为输入,利用连续两个药典特征轻量聚焦模块与连续两个低秩全连接层进一步整合特征内部信息;第四阶段输出特征经低秩全连接层映射为与编码器输出相同的维度,即为符合特定格式的文本数据;
步骤3、计算网络模型损失
度量药典图像数据特征提取过程中的预测损失,通过最小化预测损失促进药典文档信息识别提取网络参数最优化;具体地,预测损失Lce衡量药典文档信息识别提取网络解码器预测提取的药典数据文本与原始药典数据文本的差距,迫使编码器与解码器准确学习药典图像数据信息;预测损失计算如下:
其中,yi分别为第i个原始药典数据文本与预测的药典数据文本,N为药典数据总数。
附图说明
图1轻量的药典图片文字提取方法流程图;
图2轻量的药典图片文字提取方法框架图。
具体实施方式
下面结合附图对本发明的实施方式做进一步说明。
图2为轻量的药典图片文字提取方法框架图。本发明首先将原始药典图像数据输入到药典文档信息识别提取网络的编码器,借助编码器内部的药典特征轻量聚焦模块提取输入药典图像数据内含的关键信息。然后,通过药典文档信息识别提取网络的解码器将编码器提取的关键信息予以转换,映射为符合特定格式的文本数据,实现药典文档信息的识别提取。最后,利用预测损失函数计算模型损失,指导全网络参数的优化学习,提升网络提取的准确率。
各步骤具体实施如下:
步骤1、构建药典特征轻量聚焦模块
药典特征轻量聚焦模块的构建包括低秩神经网络层的构建与聚焦策略的实现;
低秩神经网络层的构建:根据张量CP分解原理,使用网络权重主成分进行神经网络层中加权计算任务,构建低秩神经网络层;
具体地,低秩神经网络层包含该层输入变量记为特征z,输出变量记为特征z’,激活函数σ,偏置向量b,重要性因子λr,以及该层的K个权重向量药典特征轻量聚焦模块将特征z依次与K个权重向量相乘,然后根据张量秩r的取值范围由重要性因子λr加权求和,接着叠加偏置向量b,最后经激活函数σ得到最终计算结果z’。低秩全连接层计算过程具体公式为:
其中,W为等效的网络权重张量,为向量外积,R为设定的r的取值范围;
在低秩卷积层计算过程具体公式为:
其中,与/>分别为低秩卷积层的输出元素与输入元素。i1,i2,i3为输出特征中元素的下标,取值范围为输出特征维度。j1,j2,j3为卷积核中元素的下标,取值范围为卷积核维度。
聚焦策略的实现:药典特征轻量聚焦模块包括映射输入特征的低秩全连接层f,抽取输入特征多层表示的L个低秩卷积层c,L个门控因子Gl,以及分别映射调制特征与查询特征的低秩全连接层h与q。药典特征轻量聚焦模块级联多个低秩卷积层,将输入特征映射为多层表示;然后利用门控机制融合多层表示,得到输入特征的多层整合特征;最后,利用两个低秩全连接层分别将输入特征与多层整合特征映射为查询特征与调制特征,并利用查询特征与调制特征的逐元素乘法得到输入特征的关键信息;
具体地:给定输入特征z,药典特征轻量聚焦模块利用低秩全连接层映射获得输入特征的初始表示z0=f(z);然后利用L个低秩卷积层级联映射得到输入特征的多层表示zl=c(zl-1),l=1,2,…L;接着使用L个门控因子Gl与多层表示zl对应逐元素相乘后叠加得到多层整合特征;最后,分别使用低秩全连接层将多层整合特征与原始输入特征z映射为公共特征空间中的调制特征与查询特征,通过两种特征的逐元素相乘得到输入特征关键信息,即聚焦特征Z;上述过程具体计算公式为:
其中,h与q分别为产生调制特征与查询特征的低秩全连接层。药典特征轻量聚焦模块利用低秩全连接层与低秩卷积层提取输入特征关键信息,在保证输入特征提取效果的情况下有效减少了模型参数量,提升了模块的运行效率;
步骤2、构建药典文档信息识别提取网络
药典文档信息识别提取网络包含编码器和解码器;其中编码器包含五个计算阶段,第一阶段将输入为H×W×3的药典图像转化为个长度为48的序列;第二阶段包含2个药典特征轻量聚焦模块,以第一阶段输出的/>的二维序列作为输入,转化为/>个长度为128的输出特征;第三阶段包含2个药典特征轻量聚焦模块,以第二阶段输出的的二维特征作为输入,转化为/>个长度为256的输出特征;第四阶段包含14个药典特征轻量聚焦模块,以第三阶段输出的/>的二维特征作为输入,转化为/>个长度为512的输出特征;第五阶段包含2个药典特征轻量聚焦模块,以第四阶段输出的的二维特征作为输入,转化为/>个长度为1024的输出特征。解码器包含四个计算阶段,第一阶段以编码器的输出特征(/>个,长度为1024)作为输入,转化为/>个长度为1024的输出特征;第二、第三、第四阶段与第一阶段计算相同。具体构建过程如下。
编码器的构建:编码器包含首尾相连的五个阶段,将输入待处理药典图像数据逐阶段细化,抽取药典图像数据蕴含的特征信息;
第一阶段为块划分阶段;给定x为输入待处理药典图像数据,其高度、宽度以及通道数分别为H、W以及3,块划分阶段将输入图像拆分为4×4×3尺寸的非重叠块,各块维度4×4×3=48,块数即令输入待处理药典图像数据转变为/>的二维序列;
第二阶段以第一阶段的输出为输入,依次经过聚焦特征提取、循环移位和聚焦特征提取阶段,包含低秩全连接层与两个药典特征轻量聚焦模块。具体为:首先采用低秩全连接层将维度为48的各块映射到128维度,得到的二维线性嵌入序列;然后采用药典特征轻量聚焦模块提取/>的聚焦特征;接着沿块对角线方向将原有块划分边界循环移位半块距离,实现块间信息交互;最后在新的块划分下采用第二个药典特征轻量聚焦模块提取/>聚焦特征作为第一阶段输出的特征嵌入;
第三阶段以第二阶段的输出为输入,包含低秩全连接层与两个药典特征轻量聚焦模块。首先将输入中的相邻的2×2块拼接,使得块数由变少为/>而块维度增加为512;然后使用低秩全连接层将每块尺寸缩小为256;最后使用与第一阶段相同的聚焦特征提取-循环移位-聚焦特征提取过程计算第二阶段输出的/>特征嵌入;
第四、第五阶段与第三阶段流程相同;第五阶段输出的特征嵌入即为编码器最终输出;
解码器的构建:解码器以编码器的输出为输入,包含首尾相连的四个阶段,将编码器提取的关键信息予以转换,映射为符合特定格式的文本数据,实现药典文档信息的识别提取;
第一阶段以编码器的输出为输入,包含两个药典特征轻量聚焦模块与两个低秩全连接层。首先利用两个低秩全连接层分别将位置信息与输入特征映射到相同维度空间加以结合,然后利用连续两个药典特征轻量聚焦模块细化具有位置信息的输入特征,最后利用连续两个低秩全连接层将细化后的输入特征维度放大为4倍后再恢复原始维度,通过放缩过程有效融合特征内部信息,产生阶段的输出特征;
第二、第三、第四阶段均以前一阶段输出为输入,利用连续两个药典特征轻量聚焦模块与连续两个低秩全连接层进一步整合特征内部信息;第四阶段输出特征经低秩全连接层映射为与编码器输出相同的维度,即为符合特定格式的文本数据;
步骤3、计算网络模型损失
度量药典图像数据特征提取过程中的预测损失,通过最小化预测损失促进药典文档信息识别提取网络参数最优化;具体地,预测损失Lce(交叉熵)衡量药典文档信息识别提取网络解码器预测提取的药典数据文本与原始药典数据文本的差距,迫使编码器与解码器准确学习药典图像数据信息;预测损失计算如下:
其中,yi分别为第i个原始药典数据文本与预测的药典数据文本,N为药典数据总数。
表1本发明药典文档信息识别提取网络结构
/>
表1中,LRLinear(48,128,20,True)为低秩全连接层,其输入维度为48,输出维度为128,秩取20,带有偏置,表示将48维的块映射到128维的编码器第二阶段的线性嵌入映射。LRConv(8,8,(3,3),1,1,1,True)为低秩卷积层,其输入通道数为8,输出通道数为8,卷积核尺寸为3*3,秩取1,步长为1,补零层数为1,带有偏置,表示编码器第二阶段聚焦模块A的多层表示提取过程。表中标记(f)、(h)、(q)的低秩全连接层分别表示药典特征轻量聚焦模块中映射输入特征的低秩全连接层、映射调制特征的低秩全连接层以及映射查询特征的低秩全连接层,标记(c1)和(c2)的低秩卷积层为抽取输入特征多层表示的2个低秩卷积层。表1中每个聚焦模块拥有两个连续低秩卷积层,反映出聚焦模块的L值设为2。表中z1为低秩卷积层c1的输出,z2为低秩卷积层c2的输出,g1与g2分别为对应z1与z2的门控因子,z_sum为z1、g1、z2、g2加权求和得到的多层整合特征。GERU以“低秩全连接层-激活函数-低秩全连接层”方式组成,将输入特征首先升维为原来4倍维度,然后通入激活函数,最后降维回原有维度,用于促进特征内部信息融合。
验证结果
在本发明的实验中,选择通用的CORD统一收据数据集,以及从中国药典2020版第一部随机选取部分条目组成的数据集以验证本发明的有效性,数据集的具体信息如表2所示。
CORD统一收据数据集:由1000张拉丁文收据图像组成,除了部分公共字段外,还包含相对复杂的嵌套结构。
中国药典数据集:从2020版第一部随机选取1000张图片,其中,每张文档图片包含处方、制备方法、性状和鉴别等信息。
表2数据集的具体信息
数据集 样本数量 语言
CORD 1000 拉丁语
中国药典 1000 汉语
本发明使用的评价标准:执行信息提取时所需参数量(Params,单位:M)、字段级F1-得分(field-level F1 score,F1)和基于树编辑距离的准确度(Tree Edit Distance(TED)based accuracy,ACC)。
为了验证本发明的效果,选择4种通用的视觉文档理解模型:基于空间信息的双向编码表征变换模型(BROS),改进的通用文档理解预训练模型(LayoutLMv2),基于空间依赖的半结构化文档信息抽取解析模型(SPADE),以及端到端弱监督文档生成解析模型(WYVERN)进行对比。
本发明提出的方法在CORD数据集和中国药典数据集上的Params、F1和ACC性能比较结果如表3、表4和表5所示。
表3各方法所需参数量比较
方法 BROS LayoutLMv2 SPADE WYVERN 本发明
Params/M 141 190 156 170 31
表4各方法在CORD数据集上的性能比较
F1/% ACC/%
BROS 83.7 80.3
LayoutLMv2 88.9 87.0
SPADE 83.1 84.5
WYVERN 62.8 70.5
本发明 89.6 88.5
表5各方法在中国药典数据集上的性能比较
从表3、表4和表5中,可以观察到本发明的方法在标准数据集CORD和真实数据集中国药典上的3个评价指标Params、F1和ACC都优于对比基线方法。具体地,在信息结构较为复杂的CORD数据集上,本发明取得的ACC指标优于其他基线方法,这一观测表明本发明不仅能有效地提取文档中的关键信息,还对复杂的信息结构具有较强的适用性。在中国药典数据集上,本发明取得的F1评价指标轻微领先于LayoutLMv2,但在准确率ACC指标上,本发明相比于其他基线具有明显的优势,这表明本发明在真实药典数据上具有较强的提取能力。此外,中国药典数据由字符集较为复杂的汉语组成,中国药典数据集上的良好指标体现了本发明具有对复杂字符集文档的高效准确的信息提取能力。与此同时,本发明在计算和推理过程中所需要的参数量远低于其他方法,有效地降低了计算推理成本。

Claims (1)

1.一种轻量的药典图片文字提取方法,其特征在于,包括以下步骤:
步骤1、构建药典特征轻量聚焦模块
药典特征轻量聚焦模块的构建包括低秩神经网络层的构建与聚焦策略的实现;
低秩神经网络层的构建:根据张量CP分解原理,使用网络权重主成分进行神经网络层中加权计算任务,构建低秩神经网络层;
具体地,低秩神经网络层包含该层输入变量记为特征z、输出变量记为特征z’、激活函数σ、偏置向量b、重要性因子λr以及该层的K个权重向量药典特征轻量聚焦模块将特征z依次与K个权重向量相乘,然后根据张量秩r的取值范围由重要性因子λr加权求和,接着叠加偏置向量b,最后经激活函数σ得到最终计算结果z’;低秩全连接层计算过程具体公式为:
其中,W为等效的网络权重张量,为向量外积,R为设定的r的取值范围;
在低秩卷积层计算过程具体公式为:
其中,与/>分别为低秩卷积层的输出元素与输入元素;i1,i2,i3为输出特征中元素的下标,取值范围为输出特征维度;j1,j2,j3为卷积核中元素的下标,取值范围为卷积核维度;
聚焦策略的实现:药典特征轻量聚焦模块包括映射输入特征的低秩全连接层f、抽取输入特征多层表示的L个低秩卷积层c、L个门控因子Gl以及分别映射调制特征与查询特征的低秩全连接层h与q;药典特征轻量聚焦模块级联多个低秩卷积层,将输入特征映射为多层表示;然后利用门控机制融合多层表示,得到输入特征的多层整合特征;最后,利用两个低秩全连接层分别将输入特征与多层整合特征映射为查询特征与调制特征,并利用查询特征与调制特征的逐元素乘法得到输入特征的关键信息;
具体地:给定输入特征z,药典特征轻量聚焦模块利用低秩全连接层映射获得输入特征的初始表示z0=f(z);然后利用L个低秩卷积层级联映射得到输入特征的多层表示zl=c(zl-1),l=1,2,…L;接着使用L个门控因子Gl与多层表示zl对应逐元素相乘后叠加得到多层整合特征;最后,分别使用低秩全连接层将多层整合特征与原始输入特征z映射为公共特征空间中的调制特征与查询特征,通过两种特征的逐元素相乘得到输入特征关键信息,即聚焦特征Z;上述过程具体计算公式为:
药典特征轻量聚焦模块利用低秩全连接层与低秩卷积层提取输入特征关键信息,在保证输入特征提取效果的情况下有效减少了模型参数量,提升了模块的运行效率;
步骤2、构建药典文档信息识别提取网络
药典文档信息识别提取网络包含编码器和解码器;其中编码器包含五个计算阶段,第一阶段将输入为H×W×3的药典图像转化为个长度为48的序列;第二阶段包含2个药典特征轻量聚焦模块,以第一阶段输出的/>的二维序列作为输入,转化为/>个长度为128的输出特征;第三阶段包含2个药典特征轻量聚焦模块,以第二阶段输出的/>的二维特征作为输入,转化为/>个长度为256的输出特征;第四阶段包含14个药典特征轻量聚焦模块,以第三阶段输出的/>的二维特征作为输入,转化为/>个长度为512的输出特征;第五阶段包含2个药典特征轻量聚焦模块,以第四阶段输出的/>的二维特征作为输入,转化为/>个长度为1024的输出特征;解码器包含四个计算阶段,第一阶段以编码器的输出特征(/>个,长度为1024)作为输入,转化为/>个长度为1024的输出特征;第二、第三、第四阶段与第一阶段计算相同;具体构建过程如下:
编码器的构建:编码器包含首尾相连的五个阶段,将输入待处理药典图像数据逐阶段细化,抽取药典图像数据蕴含的特征信息;
第一阶段为块划分阶段;给定x为输入待处理药典图像数据,其高度、宽度以及通道数分别为H、W以及3,块划分阶段将输入图像拆分为4×4×3尺寸的非重叠块,各块维度4×4×3=48,块数即令输入待处理药典图像数据转变为/>的二维序列;
第二阶段以第一阶段的输出为输入,依次经过聚焦特征提取、循环移位和聚焦特征提取阶段,包含低秩全连接层与两个药典特征轻量聚焦模块;具体为:首先采用低秩全连接层将维度为48的各块映射到128维度,得到的二维线性嵌入序列;然后采用药典特征轻量聚焦模块提取/>的聚焦特征;接着沿块对角线方向将原有块划分边界循环移位半块距离,实现块间信息交互;最后在新的块划分下采用第二个药典特征轻量聚焦模块提取/>聚焦特征作为第一阶段输出的特征嵌入;
第三阶段以第二阶段的输出为输入,包含低秩全连接层与两个药典特征轻量聚焦模块;首先将输入中的相邻的2×2块拼接,使得块数由变少为/>而块维度增加为512;然后使用低秩全连接层将每块尺寸缩小为256;最后使用与第一阶段相同的聚焦特征提取-循环移位-聚焦特征提取过程计算第二阶段输出的/>特征嵌入;
第四、第五阶段与第三阶段流程相同;第五阶段输出的特征嵌入即为编码器最终输出;
解码器的构建:解码器以编码器的输出为输入,包含首尾相连的四个阶段,将编码器提取的关键信息予以转换,映射为符合特定格式的文本数据,实现药典文档信息的识别提取;
第一阶段以编码器的输出为输入,包含两个药典特征轻量聚焦模块与两个低秩全连接层;首先利用两个低秩全连接层分别将位置信息与输入特征映射到相同维度空间加以结合,然后利用连续两个药典特征轻量聚焦模块细化具有位置信息的输入特征,最后利用连续两个低秩全连接层将细化后的输入特征维度放大为4倍后再恢复原始维度,通过放缩过程有效融合特征内部信息,产生阶段的输出特征;
第二、第三、第四阶段均以前一阶段输出为输入,利用连续两个药典特征轻量聚焦模块与连续两个低秩全连接层进一步整合特征内部信息;第四阶段输出特征经低秩全连接层映射为与编码器输出相同的维度,即为符合特定格式的文本数据;
步骤3、计算网络模型损失
度量药典图像数据特征提取过程中的预测损失,通过最小化预测损失促进药典文档信息识别提取网络参数最优化;具体地,预测损失Lce衡量药典文档信息识别提取网络解码器预测提取的药典数据文本与原始药典数据文本的差距,迫使编码器与解码器准确学习药典图像数据信息;预测损失计算如下:
其中,yi分别为第i个原始药典数据文本与预测的药典数据文本,N为药典数据总数。
CN202211539551.6A 2022-12-02 2022-12-02 一种轻量的药典图片文字提取方法 Active CN116704537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211539551.6A CN116704537B (zh) 2022-12-02 2022-12-02 一种轻量的药典图片文字提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211539551.6A CN116704537B (zh) 2022-12-02 2022-12-02 一种轻量的药典图片文字提取方法

Publications (2)

Publication Number Publication Date
CN116704537A true CN116704537A (zh) 2023-09-05
CN116704537B CN116704537B (zh) 2023-11-03

Family

ID=87842135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211539551.6A Active CN116704537B (zh) 2022-12-02 2022-12-02 一种轻量的药典图片文字提取方法

Country Status (1)

Country Link
CN (1) CN116704537B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN113920210A (zh) * 2021-06-21 2022-01-11 西北工业大学 基于自适应图学习主成分分析方法的图像低秩重构方法
CN114418886A (zh) * 2022-01-19 2022-04-29 电子科技大学 一种基于深度卷积自编码器的鲁棒性去噪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN113920210A (zh) * 2021-06-21 2022-01-11 西北工业大学 基于自适应图学习主成分分析方法的图像低秩重构方法
CN114418886A (zh) * 2022-01-19 2022-04-29 电子科技大学 一种基于深度卷积自编码器的鲁棒性去噪方法

Also Published As

Publication number Publication date
CN116704537B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN111178316B (zh) 一种高分辨率遥感影像土地覆盖分类方法
Chandio et al. Precise single-stage detector
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN114708455A (zh) 高光谱影像和LiDAR数据协同分类方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Peng et al. Image-free single-pixel object detection
CN115512357A (zh) 一种基于部件拆分的零样本汉字识别方法
CN115965789A (zh) 一种基于场景感知类注意力的遥感图像语义分割方法
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
Haris et al. Inception learning super-resolution
Ismael et al. Unsupervised domain adaptation for the semantic segmentation of remote sensing images via one-shot image-to-image translation
CN114140322A (zh) 注意力引导插值方法和低延迟语义分割方法
CN116704537B (zh) 一种轻量的药典图片文字提取方法
CN116452819A (zh) 一种多源遥感图像处理方法及***
Ai et al. ELUNet: an efficient and lightweight U-shape network for real-time semantic segmentation
CN114998904A (zh) 一种基于类编解码结构的草图语义分割方法
CN113627466A (zh) 图像标签识别方法、装置、电子设备及可读存储介质
Li et al. Real-time road scene segmentation based on knowledge distillation
CN116110055A (zh) 一种基于压缩与激励神经网络的场景文本识别方法
Zhang et al. The Impact of Parameters on Semantic Segmentation: A Case Study on the CamVid Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant