CN111090990A - 一种医疗体检报告单文字识别及纠正方法 - Google Patents
一种医疗体检报告单文字识别及纠正方法 Download PDFInfo
- Publication number
- CN111090990A CN111090990A CN201911258459.0A CN201911258459A CN111090990A CN 111090990 A CN111090990 A CN 111090990A CN 201911258459 A CN201911258459 A CN 201911258459A CN 111090990 A CN111090990 A CN 111090990A
- Authority
- CN
- China
- Prior art keywords
- text
- text boxes
- text box
- box
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012937 correction Methods 0.000 title claims description 14
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 102100032202 Cornulin Human genes 0.000 claims abstract description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 4
- 238000007689 inspection Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 4
- 102000001554 Hemoglobins Human genes 0.000 description 3
- 108010054147 Hemoglobins Proteins 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000005577 familial hyperlipidemia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种医疗体检报告单文字识别及纠正方法,涉及文字识别技术领域,本发明包括对医疗体检报告单图像进行文本检测,得到多个第一文本框;对不符合预设高宽比条件的第一文本框进行删除,对剩下的第一文本框进行合并,得到多个第二文本框;将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;判断第二文本框的行数和列数;将第二文本框中包含的文字进行截图,记录每一小图在大图中的位置;利用训练好的CRNN对大图进行文字识别,得到文字识别结果和文字检测定位结果,将文字识别结果添加到数据表的相应位置,输入到Excel中;利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单,本发明具有识别准确率高,表格格式还原度高的优点。
Description
技术领域
本发明涉及文字识别技术领域,更具体的是涉及一种医疗体检报告单文字识别及纠正方法。
背景技术
随着科学技术的进步,医疗领域也在逐渐走向数字化,许多医疗体检报告单是通过纸质形式进行存储的,这就意味着不同医院之间的患者病例数据是独立的,不利于各医院间的信息交互,因此,如何实现表格文字识别,使得纸质的医疗体检报告单数字化很有必要。
目前,市面上存在一些表格文字识别APP,通过透视变换对医疗体检报告单图像进行矫正,再经过相关处理识别出文本框中的文字并输出Excel,但是这类APP无法定位所有文本框,并且文字识别错误率极高,也并不能有效地按格式将图片表格输入Excel中。
发明内容
本发明的目的在于:为了解决现有的表格文字识别APP无法定位所有文本框,并且文字识别错误率极高的问题,本发明提供一种医疗体检报告单文字识别及纠正方法。
本发明为了实现上述目的具体采用以下技术方案:
一种医疗体检报告单文字识别及纠正方法,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到多个第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,并记录每一小图在大图中的位置;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中;
S8:利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单。
进一步的,所述S3中,预设高宽比条件为第一文本框的高/宽小于等于2。
进一步的,所述S3中,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到第二文本框,具体为:取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框。
进一步的,所述S4中,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框,具体为:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框。
进一步的,所述S5具体为:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式。
进一步的,所述S7中,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,具体为:若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中。
进一步的,所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果;
S8.2:基于相似度对检测出的实体名称进行纠正;
S8.3:对数值结果进行纠正;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单。
进一步的,所述7.2具体为:所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,输出相似度最高的匹配结果对检查项题目进行修正。
进一步的,所述S8.3具体为:对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配;对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果。
进一步的,所述S8.4具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
本发明的有益效果如下:
1、本发明通过对医疗体检报告单图像进行版面分析,有效地对医疗体检报告单图像的文本框及表格进行分割,使得输出的最终识别报告单与医疗体检报告单图像表格一致,且通过NLP技术进行文字纠正,确保了文字识别正确率,取得了精确的文字识别效果。
附图说明
图1是本发明具体实施方式含有第一文本框的医疗体检报告单图像示意图。
图2是本发明具体实施方式含有第二文本框的医疗体检报告单图像示意图。
图3是本发明具体实施方式含有列文本框的医疗体检报告单图像示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
本实施例提供一种医疗体检报告单文字识别及纠正方法,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像,具体的:
拍摄具有各种背景信息的原始医疗体检报告单照片,对原始医疗体检报告单照片的内容区域标记为1,背景区域标记为0,利用DeepLab-V3Plus+CRF技术训练语义分割神经网络,使得语义分割神经网络能够准确提取原始医疗体检报告单照片内容区域,利用语义分割神经网络分割出原始医疗体检报告单的内容区域后,通过分割出的内容区域的位置信息做透视变换,对内容区域进行矫正,将倾斜的内容区域摆正,并且将倾斜变形的文字矫正,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到如图1所示的多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,由于一个文字的高宽比接近1:1且表格中的文字皆是横向排列的,因此本实施例中预设高宽比条件为第一文本框的高/宽小于等于2,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到如图2所示的多个第二文本框,具体的:
由于中位数受极大极小值的影响较小,因为为了确保方法的稳定性和普适性,本实施例取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到如图3所示的多个列文本框,具体的:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数,具体的:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式,如“1405”代表第十五行第六列;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,本实施例中该大图的大小为4096*4096,并记录每一小图在大图中的位置,此处所记录的位置的表达方式与S5.1中第二文本框的表达方式一致;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中,具体的:
若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中;
S8:利用NLP技术对Excel中的文字进行纠正,得到如表一所示的最终识别报告单;
所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称(如“淋巴细胞百分率”、“中间细胞百分值”等体检表格中的题目,每一个检查项都是一个实体名称;体检报告里医生总结病情的文段中也会出现医疗相关名词,这些都是实体名称)、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果,如:血小板计数(检查项)-检查结果(关系)-190(数值结果);血液分析(检查项)-包含(关系)-白细胞计数(检查项);
S8.2:基于相似度对检测出的实体名称进行纠正,所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,编辑距离最小的相似度最高,输出相似度最高的匹配结果对检查项题目进行修正,所述编辑距离是由其中一个词转换为另一个词所需要的最少单字符编辑操作次数;
S8.3:对数值结果进行纠正,对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配,如“g/L”被识别成“g|L”;在识别结果表格中找到它所对应的题目为横:血红蛋白,竖:单位;根据知识库中的三元关系组知道血红蛋白的单位格式应该为“g/L”,对其进行纠正;
对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单,具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系,如:“xxx血脂过高,要注意饮食清淡”中标注出“血脂过高(症状)-注意事项(关系)-饮食清淡(生活方式)”;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
表一
值得注意的是,本实施例中对于高宽比的设定、字节长宽、横向间距、纵向间距以及横向距离等超参数的选择,均是可以根据实际情况进行调整的,本实施例仅是提供了其中一种参考选择,并不用以限制本发明。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (10)
1.一种医疗体检报告单文字识别及纠正方法,其特征在于,包括:
S1:拍摄医疗体检报告单,对其进行内容提取及透视变换,得到医疗体检报告单图像;
S2:采用PSE Net技术对医疗体检报告单图像进行文本检测,得到多个第一文本框;
S3:根据每个第一文本框的高宽比对不符合预设高宽比条件的第一文本框进行删除,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到多个第二文本框;
S4:根据第二文本框之间的横向距离,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框;
S5:根据预设的行判断条件判断第二文本框的行数,同时,根据预设的列判断条件判断当前第二文本框属于的列文本框,得到第二文本框的列数;
S6:将第二文本框中包含的文字按小图形式进行截图,按顺序保存到同一张大图中,并记录每一小图在大图中的位置;
S7:利用训练好的CRNN对大图进行文字识别,得到的识别结果包括文字识别结果和文字检测定位结果,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,然后将数据表中的文字输入到Excel中;
S8:利用NLP技术对Excel中的文字进行纠正,得到最终识别报告单。
2.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S3中,预设高宽比条件为第一文本框的高/宽小于等于2。
3.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S3中,根据每两第一文本框的横向间距和纵向间距对剩下的第一文本框进行合并,得到第二文本框,具体为:取所有第一文本框的高度的中位数作为一个字节长宽,若两第一文本框的横向间距小于1倍字节长宽并且纵向间距小于0.5倍字节长宽,则合并两第一文本框,得到第二文本框。
4.根据权利要求3所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S4中,将符合预设横向距离的两第二文本框按列合并,得到多个列文本框,具体为:若两第二文本框的横向距离小于2.5倍字节长宽,则判断两第二文本框为一列合并为大框,遍历所有的第二文本框,即得到多个列文本框。
5.根据权利要求4所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S5具体为:
S5.1:设第二文本框分别为box1,box2,...,boxn,其中n为第二文本框个数,boxn(xn,yn,wn,hn),x和y分别是对应的第二文本框的左上角的横坐标和纵坐标,w和h分别是对应的第二文本框的宽度和高度,将n个第二文本框按纵坐标升序排列;
S5.2:定义每一行的上边界y_top为该行第一个第二文本框的y,每一行的下边界y_bottom为该行第一个第二文本框的y+h,若上边界y_top和下边界y_bottom与下一个第二文本框的y和y+h的差分别小于1.5倍字节长宽,或下一个第二文本框的中心(y+y+h)/2与上边界和下边界的中心(y_top+y_bottom)/2的间距小于0.5倍字节长宽,则判断两第二文本框属于同一行,得到第二文本框的行数;
若判断为不属于同一行,则更新上边界y_top和下边界y_bottom为下一行的第一个第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右侧且左间距不超过2.5倍字节长宽,则判断该第二文本框属于的该列文本框,得到第二文本框的列数;
S5.4:将第二文本框的行数和列数存储为str格式。
6.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S7中,将S6中记录的位置与文字检测定位结果进行比对,将对应的文字识别结果添加到数据表的相应位置,具体为:若文字检测定位结果与记录的位置一致,且定位处有文字识别结果,则将文字识别结果添加到DataFrame的对应位置中,否则将not_readable添加到DataFrame的对应位置中。
7.根据权利要求1所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8具体为:
S8.1:准备数据源,将医疗体检报告单中出现的各类实体名称、检查数据格式和检查结果文本结构化后整理入知识库,所述知识库为三元关系组,包括检查项、关系和数值结果;
S8.2:基于相似度对检测出的实体名称进行纠正;
S8.3:对数值结果进行纠正;
S8.4:基于BERT-BiLSTM-CRF神经网络和相似度对结构化后的检查结果文本进行修正,得到最终识别报告单。
8.根据权利要求7所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述7.2具体为:所述实体名称包括检查项题目,寻找检查项题目,将其与知识库中的各实体名称进行匹配,计算两者的编辑距离,比较相似度,输出相似度最高的匹配结果对检查项题目进行修正。
9.根据权利要求7所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8.3具体为:对于数值结果的数据格式,根据数据格式的特殊字符和数据格式所对应的实体名称与知识库中的数据格式进行匹配;对于数值结果的数字,通过图像比对的方法,将识别出的数字与输入的数字进行图像相似度计算,若相似度低于阈值,则计算该数字与0-9数字之间的相似度,输出最高相似度对应的数字作为结果。
10.根据权利要求7所述的一种医疗体检报告单文字识别及纠正方法,其特征在于,所述S8.4具体为:
S8.4.1:准备训练数据,选择一段自然语言文本,其中包括医学实体和实体间的关系,所述关系与知识库的三元关系组相同,并标注将该段自然语言文本中的医学实体和实体间的关系;
S8.4.2:将训练数据通过字符编码方式转换成编码向量,训练BERT-BiLSTM-CRF神经网络,实现对自然语言文本的自动医学实体的识别;
S8.4.3:将识别出的医学实体与知识库中的实体名称相匹配,计算编辑距离并比较相似度,输出相似度最高的匹配结果对自然语言文本中的医学实体进行修正;
S8.4.4:基于训练好的BERT-BiLSTM-CRF神经网络对结构化后的检查结果文本进行自动医学实体标注,然后通过S8.4.3完成纠正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258459.0A CN111090990B (zh) | 2019-12-10 | 2019-12-10 | 一种医疗体检报告单文字识别及纠正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258459.0A CN111090990B (zh) | 2019-12-10 | 2019-12-10 | 一种医疗体检报告单文字识别及纠正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090990A true CN111090990A (zh) | 2020-05-01 |
CN111090990B CN111090990B (zh) | 2024-02-02 |
Family
ID=70394779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258459.0A Active CN111090990B (zh) | 2019-12-10 | 2019-12-10 | 一种医疗体检报告单文字识别及纠正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090990B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652176A (zh) * | 2020-06-11 | 2020-09-11 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN111680686A (zh) * | 2020-06-08 | 2020-09-18 | Oppo(重庆)智能科技有限公司 | 招牌信息识别方法、装置、终端及存储介质 |
CN112115238A (zh) * | 2020-10-29 | 2020-12-22 | 电子科技大学 | 一种基于bert和知识库的问答方法和*** |
CN112364857A (zh) * | 2020-10-23 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 基于数值抽取的图像识别方法、装置及存储介质 |
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112686258A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 体检报告信息结构化方法、装置、可读存储介质和终端 |
CN112990212A (zh) * | 2021-02-05 | 2021-06-18 | 开放智能机器(上海)有限公司 | 热成像温度图的读数方法、装置、电子设备和存储介质 |
CN116882383A (zh) * | 2023-07-26 | 2023-10-13 | 中信联合云科技有限责任公司 | 基于文本分析的数字化智能校对*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090299977A1 (en) * | 2008-05-28 | 2009-12-03 | Siemens Medical Solutions Usa, Inc. | Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records |
CN104915668A (zh) * | 2015-05-29 | 2015-09-16 | 深圳泓数科技有限公司 | 医学影像中的文字信息识别方法及装置 |
US20160132648A1 (en) * | 2014-11-06 | 2016-05-12 | ezDI, LLC | Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text |
CN106355177A (zh) * | 2016-08-17 | 2017-01-25 | 天津德闻数据科技有限公司 | 一种医疗检验单的检验项信息自动提取方法 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN109800749A (zh) * | 2019-01-17 | 2019-05-24 | 湖南师范大学 | 一种文字识别方法及装置 |
-
2019
- 2019-12-10 CN CN201911258459.0A patent/CN111090990B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090299977A1 (en) * | 2008-05-28 | 2009-12-03 | Siemens Medical Solutions Usa, Inc. | Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records |
US20160132648A1 (en) * | 2014-11-06 | 2016-05-12 | ezDI, LLC | Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text |
CN104915668A (zh) * | 2015-05-29 | 2015-09-16 | 深圳泓数科技有限公司 | 医学影像中的文字信息识别方法及装置 |
CN106355177A (zh) * | 2016-08-17 | 2017-01-25 | 天津德闻数据科技有限公司 | 一种医疗检验单的检验项信息自动提取方法 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、***及存储介质 |
CN109800749A (zh) * | 2019-01-17 | 2019-05-24 | 湖南师范大学 | 一种文字识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
WENYUAN XUE;QINGYONG LI;ZHEN ZHANG;YULEI ZHAO;HAO WANG: "Table Analysis and Information Extraction for Medical Laboratory Reports" * |
邵文良: "基于深度学习的医疗单据图文识别关键技术研究与实现" * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680686A (zh) * | 2020-06-08 | 2020-09-18 | Oppo(重庆)智能科技有限公司 | 招牌信息识别方法、装置、终端及存储介质 |
CN111680686B (zh) * | 2020-06-08 | 2023-05-12 | Oppo(重庆)智能科技有限公司 | 招牌信息识别方法、装置、终端及存储介质 |
CN111652176A (zh) * | 2020-06-11 | 2020-09-11 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN111652176B (zh) * | 2020-06-11 | 2024-05-21 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN112364857A (zh) * | 2020-10-23 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 基于数值抽取的图像识别方法、装置及存储介质 |
CN112115238A (zh) * | 2020-10-29 | 2020-12-22 | 电子科技大学 | 一种基于bert和知识库的问答方法和*** |
CN112115238B (zh) * | 2020-10-29 | 2022-11-15 | 电子科技大学 | 一种基于bert和知识库的问答方法和*** |
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112686258A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 体检报告信息结构化方法、装置、可读存储介质和终端 |
CN112990212A (zh) * | 2021-02-05 | 2021-06-18 | 开放智能机器(上海)有限公司 | 热成像温度图的读数方法、装置、电子设备和存储介质 |
CN116882383A (zh) * | 2023-07-26 | 2023-10-13 | 中信联合云科技有限责任公司 | 基于文本分析的数字化智能校对*** |
Also Published As
Publication number | Publication date |
---|---|
CN111090990B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090990B (zh) | 一种医疗体检报告单文字识别及纠正方法 | |
Tkaczyk et al. | CERMINE: automatic extraction of structured metadata from scientific literature | |
CN112446351B (zh) | 医疗票据智能识别方法 | |
US8750616B2 (en) | Character image extracting apparatus and character image extracting method | |
CN111582169B (zh) | 图像识别数据纠错方法、装置、计算机设备和存储介质 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 | |
US9286526B1 (en) | Cohort-based learning from user edits | |
CN113962201A (zh) | 一种单证的文本结构化与抽取方法 | |
CN114023414A (zh) | 一种体检报告多层次结构录入方法、***以及存储介质 | |
CN113807158A (zh) | 一种pdf内容提取方法、装置及设备 | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
EP2544100A2 (en) | Method and system for making document modules | |
CN113283231B (zh) | 获取签章位的方法、设置***、签章***及存储介质 | |
CN114429542A (zh) | 针对医疗化验单的结构化识别方法 | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
CN112148735B (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及*** | |
CN112347742A (zh) | 基于深度学习生成文档图像集的方法 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及*** | |
Giguet et al. | Daniel at the FinSBD-2 task: Extracting Lists and Sentences from PDF Documents: a model-driven end-to-end approach to PDF document analysis | |
CN116402028A (zh) | Pdf文件的精简方法 | |
CN113779218B (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
CN115376152A (zh) | 一种流程图的查重方法 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |