CN114663872A - 一种信息抽取***、信息抽取方法 - Google Patents

一种信息抽取***、信息抽取方法 Download PDF

Info

Publication number
CN114663872A
CN114663872A CN202210313525.5A CN202210313525A CN114663872A CN 114663872 A CN114663872 A CN 114663872A CN 202210313525 A CN202210313525 A CN 202210313525A CN 114663872 A CN114663872 A CN 114663872A
Authority
CN
China
Prior art keywords
information
unit
character
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210313525.5A
Other languages
English (en)
Inventor
曾祥云
朱姬渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tianchen Health Technology Co ltd
Original Assignee
Shanghai Yikangyuan Medical Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yikangyuan Medical Health Technology Co ltd filed Critical Shanghai Yikangyuan Medical Health Technology Co ltd
Priority to CN202210313525.5A priority Critical patent/CN114663872A/zh
Publication of CN114663872A publication Critical patent/CN114663872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种信息抽取***、信息抽取方法,其***包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元,其中OCR识别单元用以读取图片,提取图片中的文本信息;预处理单元用以对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;特征抽取单元用以对输入格式的文本信息进行特征抽取,获得文字信息;特征分析单元用以对文字信息进一步分析,获得综合特征F;损失计算单元用以对综合特征F的损失进行计算。本发明能够从图片中提取到准确的文字信息,还能抽取到各种语义关系,进而基于本申请的创新技术,大大提高了语义分析的准确率,从而提高了其应用的准确性,如检索、预测、推荐等需求场景。

Description

一种信息抽取***、信息抽取方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种信息抽取***、信息抽取方法。
背景技术
现有的OCR技术用来识别图片,大大提高了通过图片获得文字信息的处理效率,而且最新技术的OCR引擎有的还内置有纠错功能,一般是将文本中每个字都纠一遍,通常基于通用的词库来进行纠错,但在特殊领域例如医药领域,例如药品的名称往往是一些特殊的名词,在通用词库中很多没有进行统计,如果采用现有的OCR引擎默认的纠错技术,会将正确的药品名称判断为错误的名称,从而错误地将这些词进行纠错,反而产生错误的结果。
此外,类似像医生开具的处方这类场景里,不仅仅包含特殊的药名名称,还具有、患者的信息以及疾病的信息等,不仅特殊,而且语义信息非常复杂。
因此,为了进一步提高自动化的信息处理水平,处方通过OCR***把图片转化为文字后,不仅需要正确提取信息,还需要进一步挖掘文本的相关信息,因此需要对文本进行抽取,如抽取文本中患者姓名,性别,科室,疾病,症状等多个字段。
现有技术主要是基于正则表达式来抽取,但正则表达式的准确率不高,因为正则表达式无法获取文字块的位置信息,文本的语义信息,文字块之间的相对信息,以及OCR识别***不可能完全正确,大部分情况存在错字,漏字的情况,导致正则表达式抽取的信息准确率不高。
发明内容
本发明为解决现有技术中存在的技术问题,提供一种信息抽取***,包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元,其中:
OCR识别单元用以读取图片,提取图片中的文本信息;
预处理单元用以对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元用以对输入格式的文本信息进行特征抽取,获得文字信息;
特征分析单元用以对文字信息进一步分析,获得综合特征F;
损失计算单元用以对综合特征F的损失进行计算。
进一步地,所述特征抽取单元抽取获得的文字信息包括每个字的特征,文字块和文字块的上下左右位置邻接信息A,并取首字特征作为整个句子的特征H。
进一步地,特征抽取单元为依次串联的多对transformer组构成,其中,每对transformer组由二层transformer构成,每组的transformer参数完全共享。
进一步地,所述特征分析单元为二层的图卷积神经网络构成。
进一步地,图卷积神经网的图卷积公式为:
Figure BDA0003569217840000021
其中,l为层数,H为句子特征,A为邻接信息的矩阵,W为图卷积参数(随机初始化的),
Figure BDA0003569217840000031
为对邻接矩阵进行归一化,σ为激活函数。
进一步地,所激活函数为relu激活函数。
进一步地,所述输入格式的文本信息为:文本块坐标,OCR文字,标签,id。
本发明还提供一种信息抽取方法,包括步骤:
OCR识别单元读取图片,提取图片中的文本信息;
预处理单元对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元对输入格式的文本信息进行特征抽取,获得文字信息:文字特征,文字块和文字块的上下左右位置邻接信息;
特征分析单元对文字信息进一步分析,获得综合特征F;
损失计算单元对综合特征F的损失进行计算。
进一步地,损失计算单元对综合特征的损失进行计算分为:
当用作训练阶段,其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算损失;
当用作预测使用时,其损失计算为对综合特征F求softmax。
本发明还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行所述的信息抽取方法。
本发明公开的方法和***中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
由此可见,本发明采取的技术方案使用的信息抽取***能够从图片中提取到准确的文字信息,还能抽取到各种语义关系,进而基于本申请的创新技术,大大提高了语义分析的准确率,从而提高了其应用的准确性,如检索、预测、推荐等需求场景。
为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的信息抽取***结构示意图。
具体实施方式
请参阅图1,本申请针对现有技术的技术缺陷,提出一种信息抽取***,包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元,其中:
OCR识别单元用以读取图片,提取图片中的文本信息;
预处理单元用以对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元用以对输入格式的文本信息进行特征抽取,获得文字信息;
特征分析单元用以对文字信息进一步分析,获得综合特征F;
损失计算单元用以对综合特征F的损失进行计算。
下面结合各种优选的实施方式进一步说明本申请的技术方案。
OCR识别单元通过读取图片,对图片进行提取文字,获得图片中的文本信息,通常对于一般纯文本的图片,OCR可以直接提取准确的文本信息,但对于如医院处方类的图片,由于这类图片通常包括患者姓名,性别,科室,疾病,症状等多个字段,而且这些字段通常也各种形式的表格化分布在表格的不同位置,此外,这些文字之间的语义关系和特征,单独的OCR并不能得到。
因此,本申请针对这类特定领域的图片信息的挖掘,提出了新的技术方案,首先对OCR识别单元提取到的文本信息,转化成统一的数据格式,继而可以基于这些统一的数据格式信息进行多维度的特征提取,再进行分析,从而得到这类图片中的综合特征F,即各种文字之间的语义关系,从而可以基于这些综合特征F用来进行预测,包括可以预测属于什么类型的疾病、推荐使用什么药方等等。
作为一种优选的实施方式,本申请的预处理单元对文本信息进行格式化处理,获得包含标签的输入格式的文本信息,其数据输入格式如下:
文本块坐标,OCR文字,标签,id
以下以一个图片经过OCR提取之后得到的信息,再经过上述数据格式进行转化之后得到的文本信息:
[([[180,65],[409,65],[409,165],[180,165]],'张三',姓名,1),
([[86,90],[131,90],[131,118],[86,118]],'风湿性关节炎',疾病,2),
([[501,86],[555,86],[555,120],[501,120]],'双氯灭痛片',药品,3)]
上述得到的,除了提取得到的文字信息外,还包含有三个标签,姓名、疾病、药品,这些标签对应所指向其实体名词,从而可以用来为后续的语义分析做好准备。
本实施例中,所述特征抽取单元抽取获得的文字信息包括每个字的特征,文字块和文字块的上下左右位置邻接信息A,基于上述的输入格式,设计好合适的特征抽取器,即可抽取得到上述每个字的特征,文字块和文字块的上下左右位置邻接信息。
本申请对文本块坐标进行处理,获得文字块的上下左右位置邻接信息A,即得到每个文本块的上下左右ID,如:{“1”:[2,3,6,9]},表示文本块ID为1的上下左右的文本块ID分别为2,3,6,9,从而可以得到文字的邻接信息A。
本实施例中,特征抽取单元将抽取到的特征,将首字特征作为整个句子的特征H。
作为一种优选的实施方式,本申请的特征抽取器即特征抽取单元,其结构为特征抽取单元为依次串联的多对transformer组构成,其中,每对transformer组由二层transformer构成,每组的transformer参数完全共享。
在获得了邻接信息A以及特征H之后,特征分析单元用以对文字信息进一步分析,获得综合特征F;本申请实施例的特征分析单元结构为二层的图卷积神经网络构成。其图卷积神经网的图卷积公式为:
Figure BDA0003569217840000071
其中,l为层数,H为句子特征,A为邻接信息的矩阵,W为图卷积参数(随机初始化的),
Figure BDA0003569217840000072
为对邻接矩阵进行归一化,σ为激活函数。
作为一种优选的实施例,本申请实施例的σ激活函数,为relu激活函数,当然作为变化的实施方式,也可以使用其他的激活函数来替代。
最后,通过特征分析单元出来之后得到的综合特征F,再接入损失计算单元对综合特征F的损失进行计算。本申请还提出了一种优选的实施方式,即将上述的信息抽取***分别在测试和预测阶段使用的时候,损失值的计算进行改变:
当信息抽取***在训练阶段时候,对综合特征F的损失进行计算,其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算损失;
当用作预测使用时,其损失计算为对综合特征F求softmax。
使用上述的划分,在训练阶段提高训练效率和准确率,在使用阶段即预测阶段,可以直接使用softmax进行分类,计算出概率最大的类别。
基于上述的信息抽取***,本申请还提出一种信息抽取方法,包括步骤:
OCR识别单元读取图片,提取图片中的文本信息;
预处理单元对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元对输入格式的文本信息进行特征抽取,获得文字信息:文字特征,文字块和文字块的上下左右位置邻接信息;
特征分析单元对文字信息进一步分析,获得综合特征F;
损失计算单元对综合特征F的损失进行计算。
具体的实施细节和优选方案,参阅上述实施例。
本申请实施例还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行如上述任一所述的信息抽取方法。
本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任一所述的信息抽取方法。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息抽取***,其特征是,包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元,其中:
OCR识别单元用以读取图片,提取图片中的文本信息;
预处理单元用以对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元用以对输入格式的文本信息进行特征抽取,获得文字信息;
特征分析单元用以对文字信息进一步分析,获得综合特征F;
损失计算单元用以对综合特征F的损失进行计算。
2.如权利要求1所述的信息抽取***,其特征是,所述特征抽取单元抽取获得的文字信息包括每个字的特征,文字块和文字块的上下左右位置邻接信息A,并取首字特征作为整个句子的特征H。
3.如权利要求1或2所述的信息抽取***,其特征是,特征抽取单元为依次串联的多对transformer组构成,其中,每对transformer组由二层transformer构成,每组的transformer参数完全共享。
4.如权利要求1所述的信息抽取***,其特征是,所述特征分析单元为二层的图卷积神经网络构成。
5.如权利要求4所述的信息抽取***,其特征是,图卷积神经网的图卷积公式为:
Figure FDA0003569217830000011
其中,l为层数,H为句子特征,A为邻接信息的矩阵,W为图卷积参数(随机初始化的),
Figure FDA0003569217830000021
为对邻接矩阵进行归一化,σ为激活函数。
6.如权利要求5所述的信息抽取***,其特征是,所激活函数为relu激活函数。
7.如权利要求1所述的信息抽取***,其特征是,所述输入格式的文本信息为:文本块坐标,OCR文字,标签,id。
8.一种信息抽取方法,其特征是,包括步骤:
OCR识别单元读取图片,提取图片中的文本信息;
预处理单元对文本信息进行格式化处理,获得包含标签的输入格式的文本信息;
特征抽取单元对输入格式的文本信息进行特征抽取,获得文字信息:文字特征,文字块和文字块的上下左右位置邻接信息;
特征分析单元对文字信息进一步分析,获得综合特征F;
损失计算单元对综合特征F的损失进行计算。
9.如权利要求8所述的信息抽取方法,其特征是,损失计算单元对综合特征的损失进行计算分为:
当用作训练阶段,其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算;
当用作预测使用时,其损失计算为对综合特征F求softmax。
10.一种电子设备,其特征是,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求8或9所述的信息抽取方法。
CN202210313525.5A 2022-03-28 2022-03-28 一种信息抽取***、信息抽取方法 Pending CN114663872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210313525.5A CN114663872A (zh) 2022-03-28 2022-03-28 一种信息抽取***、信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210313525.5A CN114663872A (zh) 2022-03-28 2022-03-28 一种信息抽取***、信息抽取方法

Publications (1)

Publication Number Publication Date
CN114663872A true CN114663872A (zh) 2022-06-24

Family

ID=82034153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210313525.5A Pending CN114663872A (zh) 2022-03-28 2022-03-28 一种信息抽取***、信息抽取方法

Country Status (1)

Country Link
CN (1) CN114663872A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115892A (zh) * 2020-09-24 2020-12-22 科大讯飞股份有限公司 一种关键要素抽取方法、装置、设备及存储介质
WO2021135477A1 (zh) * 2020-07-31 2021-07-08 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置、计算机设备及存储介质
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取***及方法
CN113536798A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和***
CN113590784A (zh) * 2021-07-27 2021-11-02 中国科学技术大学 三元组信息抽取方法、装置、电子设备、及存储介质
CN113672715A (zh) * 2021-08-20 2021-11-19 上海大参林医疗健康科技有限公司 一种意图识别***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135477A1 (zh) * 2020-07-31 2021-07-08 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置、计算机设备及存储介质
CN112115892A (zh) * 2020-09-24 2020-12-22 科大讯飞股份有限公司 一种关键要素抽取方法、装置、设备及存储介质
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取***及方法
CN113536798A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和***
CN113590784A (zh) * 2021-07-27 2021-11-02 中国科学技术大学 三元组信息抽取方法、装置、电子设备、及存储介质
CN113672715A (zh) * 2021-08-20 2021-11-19 上海大参林医疗健康科技有限公司 一种意图识别***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨昱: "文档级关系抽取技术研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 03, 15 March 2022 (2022-03-15), pages 138 - 3120 *

Similar Documents

Publication Publication Date Title
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN112257613B (zh) 体检报告信息结构化提取方法、装置及计算机设备
AU2018354105B2 (en) Genealogical entity resolution system and method
CN108427702B (zh) 目标文档获取方法及应用服务器
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
CN114372160B (zh) 一种搜索请求处理方法、装置、计算机设备及存储介质
CN110569349A (zh) 基于大数据的患教文章推送方法、***、设备及存储介质
CN116631561B (zh) 基于特征划分的患者身份信息匹配方法、装置及电子设备
US20240220547A1 (en) System and method for genealogical entity resolution
CN111383732B (zh) 一种基于互斥识别的药品审核方法、装置、计算机***及可读存储介质
CN114912887A (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN112711652A (zh) 术语标准化方法及装置
CN115982222A (zh) 一种基于特病特药场景的搜索方法
US20220415456A1 (en) Character acquisition, page processing and knowledge graph construction method and device, medium
CN116663536B (zh) 一种临床诊断标准词的匹配方法及装置
CN114021563A (zh) 医疗信息中数据的抽取方法、装置、设备和存储介质
CN113762100A (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN114663872A (zh) 一种信息抽取***、信息抽取方法
EP4078467A1 (en) A transferrable neural architecture for structured data extraction from web documents
CN116227478A (zh) 面向DRGs支付的诊断依据发现方法及***
CN113343051B (zh) 一种异常sql检测模型构建方法及检测方法
CN115631823A (zh) 相似病例推荐方法及***
CN112614562A (zh) 基于电子病历的模型训练方法、装置、设备及存储介质
Tsai et al. Multi-stage gene normalization for full-text articles with context-based species filtering for dynamic dictionary entry selection
CN118173211B (zh) 一种用于医疗大数据的数据标准化治理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221219

Address after: Room 2703, No. 277, Xingang East Road, Haizhu District, Guangzhou, Guangdong 510220

Applicant after: Guangzhou Tianchen Health Technology Co.,Ltd.

Address before: Building 10, No. 860, Xinyang Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant before: Shanghai Yikangyuan Medical Health Technology Co.,Ltd.

TA01 Transfer of patent application right