CN116108843B - 信息处理方法、装置、计算机设备及存储介质 - Google Patents

信息处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116108843B
CN116108843B CN202111327459.9A CN202111327459A CN116108843B CN 116108843 B CN116108843 B CN 116108843B CN 202111327459 A CN202111327459 A CN 202111327459A CN 116108843 B CN116108843 B CN 116108843B
Authority
CN
China
Prior art keywords
information
character
entity
target file
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111327459.9A
Other languages
English (en)
Other versions
CN116108843A (zh
Inventor
王雪初
刘银松
吴云飞
李鑫
董帅帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111327459.9A priority Critical patent/CN116108843B/zh
Publication of CN116108843A publication Critical patent/CN116108843A/zh
Application granted granted Critical
Publication of CN116108843B publication Critical patent/CN116108843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息处理方法、装置、计算机设备及存储介质,应用于计算机技术领域。该方法包括:获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。通过本申请,可以提高关键信息提取的精确度和准确性。

Description

信息处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
关键信息用于反映文件的主要内容,提取关键信息能够便捷地获取到文件的主要内容,减少繁琐地阅读查询。目前,针对关键信息的提取,通常采用的是规则匹配方法和序列标注方法。其中,规则匹配方法是使用预设规则进行信息的匹配,或是直接使用文本信息进行关键信息抽取,例如关键词抽取、文本摘要提取等。序列标注方法是对文本信息中每个元素打上标签,然后使用后处理方法进行整合。
但是规则匹配方法和序列标注方法在实体边界上难以精准划分,并且对提取信息的连续性有一定要求,要使用较多的后处理进行整合归纳,从而降低了关键信息提取的准确性。因此,目前如何提高关键信息提取的准确性成为研究的热点问题之一。
发明内容
本发明实施例提供了一种信息处理方法、装置、计算机设备及存储介质,可以提高关键信息提取的精确度和准确性。
一方面,本发明实施例提供了一种信息处理方法,该方法包括:
获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;
基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;
基于该实体词构建关键信息提取的参考信息;
根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
一方面,本申请实施例提供一种信息处理装置,该装置包括:
获取单元,用于获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;
抽取单元,用于基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;
构建单元,用于基于该实体词构建关键信息提取的参考信息;
提取单元,用于根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的信息处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的信息处理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的信息处理方法。
通过本申请实施例,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,由此能够提高关键信息提取的精确度和准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息处理***的架构示意图;
图2是本发明实施例提供的一种信息处理方法的流程示意图;
图3是本发明实施例提供的一种目标文件的示意图;
图4是本发明实施例提供的一种实体抽取网络的结构示意图;
图5是本发明实施例提供的一种实体词抽取结果的示意图;
图6是本发明实施例提供的一种知识库数据的示意图;
图7是本发明实施例提供的一种关键信息提取网络的结构示意图;
图8是本发明实施例提供的一种信息处理流程图;
图9是本发明实施例提供的另一种信息处理方法的流程示意图;
图10是本发明实施例提供的一种多模态信息处理模型的结构示意图;
图11是本发明实施例提供的一种信息处理装置的结构示意图;
图12是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
首先,对本申请实施例涉及的部分名词进行解释,以便于本领域技术人员的理解。
Transformer模型:Transformer模型是一种自然语言处理(Nature Languageprocessing,NLP)经典模型,Transformer模型完全基于注意力来编码输入和计算输出,而不依赖于序列对齐的循环神经网络或卷积神经网络,Transformer模型使用自注意力(Self-Attention)机制,而不采用循环神经网络(Recurrent Neural Network,RNN)的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。Transformer模型的结构由编码器(Encoder)层和解码器(Decoder)层组成。
自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
光学字符识别(Optical Character Recognition,OCR)技术:是一种计算机视觉技术,指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
计算机视觉(Computer Vision,CV)技术:是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自注意力(Self-Attention)模型:注意力模型模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力模型可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制是注意力模型的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
Softmax函数:Softmax函数是一种非线性激活函数,适合作为多分类模型的激活函数,一般会与交叉熵损失函数相配。Softmax函数的输出结果是0到1之间的概率值,对应着输入数据属于某个类别的概率,因此适合于多分类模型。通常,Softmax函数只应用于输出层。
本申请实施例考虑到目标文件具有多模态信息,多模态信息可以以不同形式来反映和描述目标文件,例如目标文件是一个文本,目标文件的多模态信息可以包括文本信息、图像信息以及文本中各个字符的位置信息等。在一定程度上基于多模态信息进行关键信息提取,可以提高关键信息提取的准确度。因此,本申请实施例提出了一种信息处理方案,具体是基于目标文件的多模态信息进行实体抽取,然后基于抽取出的实体词构建关键信息提取的参考信息,进一步的,根据参考信息和多模态信息中的文本信息对目标文件进行关键信息抽取,得到目标文件的关键信息。
本申请提出的信息处理方案是由计算机设备执行的,计算机设备可以是终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此;计算机设备也可以是服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
或者可以由计算机设备和信息处理设备共同执行,比如计算机设备为终端设备,信息处理设备为服务器;又或者计算机设备为服务器,信息处理设备为终端设备。
举例来说,假设计算机设备为终端设备,信息处理设备为服务器,可以采用下述信息处理***的架构实现本申请提出的信息处理方案。请参见图1,图1为本申请实施例的一种信息处理***的架构示意图,如图1所示,该信息处理***100可以包括一个或多个终端设备101和一个服务器102。当然信息处理***100也可以包括一个或多个终端设备101和多个服务器102,本申请实施例不作限定。其中,终端设备101主要用于发送一个或多个目标文件至服务器102,以及接收服务器102发送的目标文件的关键信息;服务器102主要用于执行信息处理方法的相关步骤,得到目标文件的关键信息,并将目标文件的关键信息发送给终端设备101。终端设备101和服务器102可以实现通信连接,其连接方式可以包括有线连接和无线连接,在此不进行限定。
结合上述信息处理***,本申请实施例的信息处理方法大致可以包括:
终端设备101将目标文件发送至服务器102,服务器102获取到终端设备101发送的目标文件后,对该目标文件进行处理,得到目标文件的多模态信息。服务器102利用该多模态信息实现关键信息的提取,再将提取到的关键信息发送至终端设备101。当然,终端设备101也可以对目标文件进行处理,得到目标文件的多模态信息后,将目标文件的多模态信息发送至服务器102。通过该方法提取目标文件的关键信息,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,由此提高关键信息提取的精确度和准确性。
可以理解的是,本申请实施例描述的***架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述对信息处理***架构的阐述,本申请实施例公开了一种信息处理方法,请参见图2,为本申请实施例公开的一种信息处理方法的流程示意图,该信息处理方法可以由计算机设备执行的,计算机设备具体可以是信息处理***中的服务器102。该信息处理方法具体可以包括步骤S201~S204:
S201、获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息。
在本申请实施例中,目标文件可以是文档,也可以是对文档进行扫描得到的图像文件,在此不作限定。多模态信息用于以多种形式的信息描述该目标文件,例如文本形式的信息、图像形式的信息等等,在此不作限定。当目标文件为文档时,多模态信息可以包括文本信息、目标文件中字词的位置信息。当目标文件为文档进行扫描得到的图像文件时,多模态信息可以包括文本信息、目标文件中字词的位置信息、目标文件对应的图像文件的图像特征信息以及该图像特征信息在目标文件对应的图像文件中的位置信息。综合考虑目标文件的多模态信息,有利于降低目标文件的信息损失,提高关键信息提取的准确性。
请参见图3,图3是本申请实施例提供的一种目标文件的示意图,该目标文件是一个经过扫描得到的图像文件,即核磁共振(Magnetic Resonance,MR)检测报告单扫描后的图像文件,该目标文件的多模态信息包括文本信息、目标文件中字词的位置信息、目标文件对应的图像文件的图像特征信息以及该图像特征信息在目标文件对应的图像文件中的位置信息,获取该检测报告单的多模态信息后,可以对该检测报告单的多模态信息进行处理,将检测报告单中的姓名、性别、年龄、检查时间、检查情况和检查结论等关键信息进行抽取。
在一种可能的实现方式中,该多模态信息还包括目标文件中字词的位置信息和目标文件对应的图像文件的图像特征信息,该获取目标文件的多模态信息,包括:对目标文件进行文本识别,得到目标文件的文本信息和目标文件中字词的位置信息;对目标文件对应的图像文件进行特征提取处理,得到目标文件对应的图像文件的图像特征信息。
需要说明的是,目标文件的文本信息可以通过服务器自身存在的文本识别模块对目标文件进行识别得到,也可以利用其他带有文本识别模块的设备进行获取,在此不作限定。目标文件中字词的位置信息可以通过服务器自身存在的图像OCR文本检测模块对目标文件进行检测得到,也可以利用其他带有图像OCR文本检测模块的设备进行获取,在此不作限定。目标文件对应的图像文件的图像特征信息以及该图像特征信息在目标文件对应的图像文件中的位置信息,可以通过服务器自身存在的卷积网络模块对目标文件对应的图像文件进行特征提取处理得到,也可以利用其他带有卷积网络模块的设备进行获取,在此不作限定。
S202、基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词。
在本申请实施例中,利用多模态信息对目标文件进行实体抽取,能够最大化利用目标文件中的原始信息,将信息损失降到最低,从而提高关键信息提取的准确性。
在一种可能的实现方式中,该基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词是调用实体抽取网络执行的,该实体抽取网络包括编码器和全连接层,包括:调用该编码器对该多模态信息进行编码处理,得到该文本信息包括的每个字符的隐向量;调用该全连接层基于该文本信息包括的每个字符的隐向量进行实体类别预测,得到预测结果,该预测结果包括该文本信息中每个字符的实体类别;基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词。
如图4所示,图4是本申请实施例提供的一种实体抽取网络的结构示意图,其中,V1,V1,......,VN为目标文件对应的图像文件提取出的图像特征信息,使用卷积网络对图像文件进行卷积池化操作,得到多个图像特征信息中蕴含的图像局部重要特征。T1,T1,......,TN为目标文件的文本信息包括的字符通过词嵌入转换为字向量表示。[CLS]和[SEP]为预训练模型的特殊标记,其中,[CLS]用于获取全局整体特征,[SEP]表示分隔特殊标记。Box为矩形框的二维坐标信息,即{x0,y0,x1,y1,w,h},其中,(x0,y0)分别为矩形框的左上顶点坐标,(x1,y1)为矩形框的右下顶点坐标,w为矩形框的宽度,h为矩形框的高度。Boxvi为图像文件提取出的图像特征信息在图像文件中的二维坐标,其中,坐标计算可以通过卷积操作规律还原出最终的图像特征信息中每个元素对应原始图像中的区域作为坐标信息。Boxti为文本信息中每个文本框的二维坐标信息,通过文本框坐标、长宽和文本框所含字的个数计算出每个字的坐标信息。Boxp为[CLS]、[SEP]的坐标信息,采用特殊坐标{0,0,0,0,0,0}表示。S1,S2为分段标记,S1为图像信息输入部分的标记,S2为文本信息输入部分的标记。
实体抽取网络的输入部分为上述的目标文件对应的图像文件提取出的图像特征信息、目标文件的文本信息、图像文件提取出的图像特征信息在图像文件中的二维坐标信息、文本信息中每个文本框的二维坐标信息以及分段标记,将上述输入部分进行相加,得到实体抽取网络的输入向量(即多模态信息的向量表示)。然后调用实体抽取网络中的编码器(Transformer Encoder Layers)对该多模态信息进行编码处理,得到该文本信息包括的每个字符的隐向量Hti。再调用实体抽取网络中的全连接层(Fully Connected)基于该文本信息包括的每个字符的隐向量Hti进行实体类别预测,得到预测结果,该预测结果包括该文本信息中每个字符的实体类别。最后基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词。对每个字符进行实体分类可以采用公式(1)实现,公式(1)如下所示:
Yti=Softmax(F(Hti)) (1)
其中,Softmax函数为非线性激活函数,Yti为文本信息包括的每个字符的实体类别概率,实体类别包括四种类型(BIEO),B代表该字符为实体起始字符,I代表该字符为实体内部字符,E代表该字符为实体结束字符,O代表该字符为非实体字符。
在一种可能的实现方式中,该文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个,该基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词,包括:若该文本信息中第一字符的实体类别为实体起始,该文本信息中第二字符的实体类别为实体结束,且该第一字符和该第二字符之间的字符的实体类别为实体内部,则将该第一字符、该第二字符、该第一字符和该第二字符之间的字符组成该目标文件包括的实体词。
示例性的,如表1所示,文本信息包括的字符Yt1的实体类别为实体起始(可用B表示),字符Yt2的实体类别为实体结束(可用E表示),字符Yt3的实体类别为实体起始(可用B表示),字符Yt4的实体类别为实体内部(可用I表示),字符Yt5的实体类别为实体结束(可用E表示),字符Yt6的实体类别为非实体(可用O表示)。
表1
字符 Yt1 Yt2 Yt3 Yt4 Yt5 Yt6
实体类别 B E B I E O
由此可见,字符Yt1和字符Yt2组成目标文件包括的一个实体词,字符Yt3、字符Yt4和字符Yt5组成目标文件包括的另一个实体词。
请参见图5,图5是本申请实施例提供的一种实体词抽取结果的示意图,获取到图5中的文档的多模态信息后,通过实体抽取网络对该文档的多模态信息进行编码融合,抽取出该文档包括的实体词。如图5所示,通过实体抽取网络抽取的该文档中所包含的实体词有:甲状腺、颈部和锁骨。
S203、基于该实体词构建关键信息提取的参考信息。
在本申请实施例中,关键信息提取的参考信息可以是问题描述信息,也可以是实体词描述信息,在此不作限定。其中,问题描述信息是指关键信息对应的问题的描述信息,实体词描述信息是指关键信息对应的实体词的描述信息。基于该方式,结合已有先验知识对目标文件的关键信息提取进行辅助,有利于提高关键信息提取的精确度。
在一种可能的实现方式中,该参考信息包括问题描述信息,该基于该实体词构建关键信息提取的参考信息,包括:基于知识库数据确定该实体词的属性信息和该实体词对应的问题描述信息生成模板;基于该实体词、该实体词的属性信息和该实体词对应的问题描述信息生成模板生成问题描述信息。
请参见图6,图6是本申请实施例提供的一种知识库数据的示意图,利用实体抽取网络中得到的实体词,在知识库数据中的实体域进行查找,得到实体词所在位置,并获取该实体词的属性域和值域信息用于问题构造。需要说明的是,实体词的属性域对应上述的实体词的属性信息,实体词的值域对应上述的实体词对应的问题描述信息生成模板。如图5所示,当实体词为甲状腺时,该实体词的属性域包括异常,对应的问题描述信息生成模板为“…是否有…”,该实体词的属性域包括形态,对应的问题描述信息生成模板为“...的…怎么样”,因此基于该实体词、该实体词的属性域和该实体词对应的问题描述信息生成模板生成的问题描述信息为:“甲状腺是否有异常”、“甲状腺的形态怎么样”。当实体词为颈部时,该实体词的属性域包括异常,对应的问题描述信息生成模板为“…是否有…”,该实体词的属性域包括层次结构,对应的问题描述信息生成模板为“...的…怎么样”,因此基于该实体词、该实体词的属性域和该实体词对应的问题描述信息生成模板生成的问题描述信息为:“颈部是否有异常”、“颈部的层次结构怎么样”。
S204、根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
在本申请实施例中,利用参考信息对目标文件的关键信息提取进行辅助,并结合目标文件的文本信息进行关键信息提取,能够提高关键信息提取的精确度和准确性。
在一种可能的实现方式中,该根据参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息是调用关键信息提取网络执行的,该关键信息提取网络包括解码器、全连接层和自注意力层,该根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息,包括:调用该解码器对该参考信息进行解码处理,得到该参考信息包括的最后一个字符的隐向量;基于该参考信息包括的最后一个字符的隐向量确定词表中每个字符的生成概率,该词表中的字符包括该文本信息包括的字符和该参考信息包括的字符;调用该自注意力层对该参考信息包括的最后一个字符的隐向量和该文本信息包括的每个字符的隐向量进行自注意力运算,并根据自注意力运算结果确定该文本信息包括的每个字符对应的拷贝概率;根据该文本信息包括的每个字符对应的拷贝概率和该词表中每个字符的生成概率,确定该词表中每个字符对应的选取概率;基于该词表中每个字符对应的选取概率从该词表中确定关键信息。基于该方式,多模态信息处理模型可以缓解划分实体边界的问题和信息连续性的问题,从而有利于提高关键信息提取的精确性和准确性。
如图7所示,图7是本申请实施例提供的一种关键信息提取模型的结构示意图,其中,[START]为关键信息提取网络中解码部分的起始标志,T2,T3,...,TM为参考信息转化为的向量表示,[SEP]为多模态信息处理模型的结束标志。Box为矩形框的二维坐标信息,即{x0,y0,x1,y1,w,h},其中,(x0,y0)分别为矩形框的左上顶点坐标,(x1,y1)为矩形框的右下顶点坐标,w为矩形框的宽度,h为矩形框的高度。Boxti为参考信息中每个文本框的二维坐标信息,通过文本框坐标、长宽和文本框所含字的个数计算出每个字的坐标信息。Boxp为[SEP]的坐标信息,采用特殊坐标{0,0,0,0,0,0}表示。S3为分段标记,表示参考信息输入部分的标记。
关键信息提取网络的输入部分为上述的参考信息、参考信息中每个文本框的二维坐标信息以及分段标记,将上述输入部分进行相加,得到关键信息提取网络的输入向量(即参考信息的向量表示)。然后调用解码器(Transformer Decoder Layers)对该参考信息进行解码处理,得到该参考信息包括的最后一个字符的隐向量Ltm。将Ltm用关键信息提取网络的全连接层变换维度到词表大小一致的维度,用softmax函数计算词表中每个字符的生成概率,可以采用公式(2)实现,公式(2)如下所示:
Pvocab(w)=softmax(σ(WgLtm+bg)) (2)
其中,Wg、bg、σ均为可训练参数,Pvocab(w)为词表中每个字符的生成概率,w表示词表中的各个字符。该词表中的字符包括该文本信息包括的字符和该参考信息包括的字符。
接着,调用关键信息提取网络的自注意力层对参考信息包括的最后一个字符的隐向量Ltm,以及实体抽取网络中得到的文本信息包括的每个字符的隐向量Hti进行自注意力运算,自注意力运算结果表示为然后采用softmax函数对自注意力运算结果进行计算,得到文本信息包括的每个字符对应的拷贝概率可以采用公式(3)和公式(4)实现,公式(3)和公式(4)如下所示:
其中,Uh、Ul、bc均为可训练参数,i表示文本信息包括的各个字符,为参考信息包括的最后一个字符的隐向量和文本信息包括的每个字符的隐向量的自注意力运算结果,为文本信息包括的每个字符对应的拷贝概率。
需要说明的是,自注意力运算可以理解为是匹配运算,用于确定参考信息包括的最后一个字符的隐向量与文本信息包括的每个字符的隐向量之间的相似性,即文本信息包括的每个字符的隐向量对于参考信息包括的最后一个字符的隐向量的重要程度,从而得到文本信息包括的每个字符对应的拷贝概率。
接着,通过文本信息包括的每个字符在词表中的索引,将文本信息包括的每个字符对应的拷贝概率与词表中每个字符的生成概率Pvocab(w)进行一定权重的相加,得到该词表中每个字符对应的选取概率Pfinal(w)。最后,基于该词表中每个字符对应的选取概率从该词表中确定关键信息。该词表中每个字符对应的选取概率可以采用公式(5)实现,公式(5)如下所示:
其中,λ为可训练参数,w表示词表中的各个字符,i表示文本信息包括的各个字符,Pfinal(w)为该词表中每个字符对应的选取概率。
在一种可能的实现方式中,该基于该词表中每个字符对应的选取概率从该词表中确定关键信息,包括:选取该词表中字符对应的选取概率满足概率条件的目标字符;若该目标字符不是结束标志,则将该目标字符作为关键信息中的第一个字符;根据该目标字符对该参考信息进行更新处理,并触发执行调用该编码器对该参考信息进行解码处理的步骤,更新处理后的参考信息中最后一个字符为该目标字符;若该目标字符为结束标志,则将该目标字符作为关键信息。也就是说,选取该词表中字符对应的选取概率满足概率条件的目标字符,将该目标字符作为关键信息中的第一个字符,然后将该目标字符和参考信息共同作为关键信息提取网络的输入部分,循环输出,逐字解码,直到目标字符为结束标志时,就得到了目标文件的关键信息。需要说明的是,该概率条件可以为词表中字符对应的选取概率最高,也可以为其他的概率条件,在此不作限定。
示例性的,Pfinal(1)为词表中字符对应的选取概率中满足概率条件的第一个目标字符,将参考信息和Pfinal(1)共同作为关键信息提取网络的输入部分,触发执行调用该编码器对该参考信息进行解码处理的步骤,选取出满足概率条件的第二个目标字符Pfinal(2)。继续将参考信息和Pfinal(2)共同作为关键信息提取网络的输入部分,触发执行调用该编码器对该参考信息进行解码处理的步骤,选取出满足概率条件的第三个目标字符[SEP],此时第三个目标字符为结束标志,因此停止循环输出,将Pfinal(1)和Pfinal(2)作为目标文件的关键信息。
总的来说,可以将该信息处理方法归纳为四个部分,分别是实体抽取、实体查询、问题构造和生成答案。请参见图8,图8是本申请实施例提供的一种信息处理流程图,上述步骤S202的具体实现方式归纳为实体抽取,上述步骤S203的具体实现方式归纳为实体查询和问题构造,上述步骤S204的具体实现方式归纳为生成答案。其中,采用知识库进行实体查询,知识库与上述的知识库数据相对应,实体与上述的实体词相对应,文档与上述目标文件相对应,问题与上述的关键信息提取的参考信息相对应,多模态阅读理解模型与上述的多模态信息处理模型相对应,生成的答案即为上述目标文件的关键信息。
下面采用具体的例子对关键信息的提取进行说明:
请再参见图5,将图5看作是一个目标文件扫描得到的图像文件,获取该目标文件的多模态信息,该多模态信息包括目标文件的文本信息、目标文件的中字词的位置信息、目标文件对应的图像文件的图像特征信息以及该图像特征信息在目标文件对应的图像文件中的位置信息。然后将该多模态信息送入到多模态信息处理模型中的实体抽取网络中,抽取出实体词:甲状腺、颈部、锁骨。再通过实体词在知识库数据中搜索到该实体词对应的属性及问题模板,如:实体词为甲状腺,属性为异常,问题模板为“…是否有…”,根据该问题模板构建问题描述信息,即“甲状腺是否有异常”。再将构建的问题描述信息送入多模态信息处理模型中的关键信息提取网络,通过阅读理解的方式得到该问题描述信息对应的答案:“甲状腺左侧叶区域未见明显占位性病变”,即为该目标文件的关键信息。
综上所述,在本发明实施例中,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,同时利用已有的先验知识辅助模型预测,使模型预测结果更为准确,由此能够提高关键信息提取的精确度和准确性。
基于上述对信息处理***架构的阐述,本申请实施例公开了另一种信息处理方法,请参见图9,为本申请实施例公开的另一种信息处理方法的流程示意图,该信息处理方法可以由计算机设备执行的,计算机设备具体可以是信息处理***中的服务器102。该信息处理方法具体可以包括步骤S901~S904:
S901、获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息。
S902、调用实体抽取网络基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词。
S903、基于该实体词构建关键信息提取的参考信息。
S904、调用关键信息提取网络根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
其中,步骤S901和步骤S903的具体实现方式与上述步骤S201~步骤S203的具体实现方式相同,在此不进行赘述。步骤S902是上述步骤S202的一种具体实现方式,步骤S904是上述步骤S204的一种具体实现方式。调用实体抽取网络实现对目标文件的实体抽取,得到该目标文件包括的实体词;调用关键信息提取网络实现对关键信息的提取,得到该目标文件的关键信息。
在一种可能的实现方式中,该实体抽取网络和该关键信息提取网络部署在多模态信息处理模型中。请参见图10,图10是本申请实施例提供的一种多模态信息处理模型的结构示意图,该多模态信息处理模型包括实体抽取网络和关键信息提取网络。其中,左侧的网络为实体抽取网络,与上述图4中的描述的结构相同,右侧的网络为关键信息提取网络,与上述图7中的描述的结构相同,在此不进行赘述。
需要说明的是,多模态信息处理模型的训练过程可以是输入训练样本文件的多模态信息,采用多任务训练方式,将实体词抽取和关键信息提取两个任务融合到模型中共同训练,实体词抽取任务蕴含了关键信息的实***置及实体上下文语境,同时训练也有助于关键信息提取任务预测出准确的关键信息。
综上所述,在本发明实施例中,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;调用实体抽取网络基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;调用关键信息提取网络根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,同时利用已有的先验知识辅助模型预测,使模型预测结果更为准确,由此能够提高关键信息提取的精确度和准确性。
基于上述的信息处理方法,本发明实施例提供了一种信息处理装置。请参见图11,是本发明实施例提供的一种信息处理装置的结构示意图,该信息处理装置1100可以运行如下单元:
获取单元1101,用于获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;
抽取单元1102,用于基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;
构建单元1103,用于基于该实体词构建关键信息提取的参考信息;
提取单元1104,用于根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
在一个实施例中,该多模态信息还包括该目标文件中字词的位置信息和该目标文件对应的图像文件的图像特征信息,获取单元1101,在获取目标文件的多模态信息时,具体用于:对该目标文件进行文本识别,得到该目标文件的文本信息和该目标文件中字词的位置信息;对该目标文件对应的图像文件进行特征提取处理,得到该目标文件对应的图像文件的图像特征信息。
在一个实施例中,抽取单元1102,基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词是调用实体抽取网络执行的,该实体抽取网络包括编码器和全连接层,具体用于:调用该编码器对该多模态信息进行编码处理,得到该文本信息包括的每个字符的隐向量;调用该全连接层基于该文本信息包括的每个字符的隐向量进行实体类别预测,得到预测结果,该预测结果包括该文本信息中每个字符的实体类别;基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词。
在一个实施例中,该文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个,抽取单元1102,在基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词时,具体用于:若该文本信息中第一字符的实体类别为实体起始,该文本信息中第二字符的实体类别为实体结束,且该第一字符和该第二字符之间的字符的实体类别为实体内部,则将该第一字符、该第二字符、该第一字符和该第二字符之间的字符组成该目标文件包括的实体词。
在一个实施例中,该参考信息包括问题描述信息,构建单元1103,在基于该实体词构建关键信息提取的参考信息时,具体用于:基于知识库数据确定该实体词的属性信息和该实体词对应的问题描述信息生成模板;基于该实体词、该实体词的属性信息和该实体词对应的问题描述信息生成模板生成问题描述信息。
在一个实施例中,该根据参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息是调用关键信息提取网络执行的,该关键信息提取网络包括解码器、全连接层和自注意力层,提取单元1104,在根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息时,具体用于:调用该解码器对该参考信息进行解码处理,得到该参考信息包括的最后一个字符的隐向量;基于该参考信息包括的最后一个字符的隐向量确定词表中每个字符的生成概率,该词表中的字符包括该文本信息包括的字符和该参考信息包括的字符;调用该自注意力层对该参考信息包括的最后一个字符的隐向量和该文本信息包括的每个字符的隐向量进行自注意力运算,并根据自注意力运算结果确定该文本信息包括的每个字符对应的拷贝概率;根据该文本信息包括的每个字符对应的拷贝概率和该词表中每个字符的生成概率,确定该词表中每个字符对应的选取概率;基于该词表中每个字符对应的选取概率从该词表中确定关键信息。
在一个实施例中,提取单元1104,在基于该词表中每个字符对应的选取概率从该词表中确定关键信息时,具体用于:选取该词表中字符对应的选取概率满足概率条件的目标字符;若该目标字符不是结束标志,则将该目标字符作为关键信息中的第一个字符;根据该目标字符对该参考信息进行更新处理,并触发执行调用该编码器对该参考信息进行解码处理的步骤,更新处理后的参考信息中最后一个字符为该目标字符;若该目标字符为结束标志,则将该目标字符作为关键信息。
在一个实施例中,该实体抽取网络和该关键信息提取网络部署在多模态信息处理模型中。
综上所述,在本发明实施例中,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,同时利用已有的先验知识辅助模型预测,使模型预测结果更为准确,由此能够提高关键信息提取的精确度和准确性。
基于上述信息处理方法以及信息处理装置的实施例,本发明实施例提供了一种计算机设备,此处所述的计算机设备对应前述的服务器。请参见图12,是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备1200至少可包括:处理器1201、通信接口1202以及计算机存储介质1203。其中,处理器1201、通信接口1202以及计算机存储介质1203可通过总线或其他方式连接。
计算机存储介质1203可以存储在计算机设备1200的存储器1204中,所述计算机存储介质1203用于存储计算机程序,所述计算机程序包括程序指令,所述处理器1201用于执行所述计算机存储介质1203存储的程序指令。处理器1201(或称CPU(Central ProcessingUnit,中央处理器))是计算机设备1200的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行:
获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
在一个实施例中,该多模态信息还包括该目标文件中字词的位置信息和该目标文件对应的图像文件的图像特征信息,处理器1201,在获取目标文件的多模态信息时,具体用于:对该目标文件进行文本识别,得到该目标文件的文本信息和该目标文件中字词的位置信息;对该目标文件对应的图像文件进行特征提取处理,得到该目标文件对应的图像文件的图像特征信息。
在一个实施例中,处理器1201,基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词是调用实体抽取网络执行的,该实体抽取网络包括编码器和全连接层,具体用于:调用该编码器对该多模态信息进行编码处理,得到该文本信息包括的每个字符的隐向量;调用该全连接层基于该文本信息包括的每个字符的隐向量进行实体类别预测,得到预测结果,该预测结果包括该文本信息中每个字符的实体类别;基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词。
在一个实施例中,该文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个,处理器1201,在基于该文本信息中每个字符的实体类别确定该目标文件包括的实体词时,具体用于:若该文本信息中第一字符的实体类别为实体起始,该文本信息中第二字符的实体类别为实体结束,且该第一字符和该第二字符之间的字符的实体类别为实体内部,则将该第一字符、该第二字符、该第一字符和该第二字符之间的字符组成该目标文件包括的实体词。
在一个实施例中,该参考信息包括问题描述信息,处理器1201,在基于该实体词构建关键信息提取的参考信息时,具体用于:基于知识库数据确定该实体词的属性信息和该实体词对应的问题描述信息生成模板;基于该实体词、该实体词的属性信息和该实体词对应的问题描述信息生成模板生成问题描述信息。
在一个实施例中,该根据参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息是调用关键信息提取网络执行的,该关键信息提取网络包括解码器、全连接层和自注意力层,处理器1201,在根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息时,具体用于:调用该解码器对该参考信息进行解码处理,得到该参考信息包括的最后一个字符的隐向量;基于该参考信息包括的最后一个字符的隐向量确定词表中每个字符的生成概率,该词表中的字符包括该文本信息包括的字符和该参考信息包括的字符;调用该自注意力层对该参考信息包括的最后一个字符的隐向量和该文本信息包括的每个字符的隐向量进行自注意力运算,并根据自注意力运算结果确定该文本信息包括的每个字符对应的拷贝概率;根据该文本信息包括的每个字符对应的拷贝概率和该词表中每个字符的生成概率,确定该词表中每个字符对应的选取概率;基于该词表中每个字符对应的选取概率从该词表中确定关键信息。
在一个实施例中,处理器1201,在基于该词表中每个字符对应的选取概率从该词表中确定关键信息时,具体用于:选取该词表中字符对应的选取概率满足概率条件的目标字符;若该目标字符不是结束标志,则将该目标字符作为关键信息中的第一个字符;根据该目标字符对该参考信息进行更新处理,并触发执行调用该编码器对该参考信息进行解码处理的步骤,更新处理后的参考信息中最后一个字符为该目标字符;若该目标字符为结束标志,则将该目标字符作为关键信息。
在一个实施例中,该实体抽取网络和该关键信息提取网络部署在多模态信息处理模型中。
综上所述,在本发明实施例中,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,同时利用已有的先验知识辅助模型预测,使模型预测结果更为准确,由此能够提高关键信息提取的精确度和准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中,而前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只读存储器(英文:Read-Only Memory,缩写:ROM)或者随机存取存储器(英文:Random AccessMemory,缩写:RAM)等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机存储介质中,或者通过计算机存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种信息处理方法,其特征在于,包括:
获取目标文件的多模态信息,所述多模态信息用于以多种形式的信息描述所述目标文件,所述多模态信息包括文本信息;
调用实体抽取网络基于所述多模态信息对所述目标文件进行实体抽取,得到所述目标文件包括的实体词;
基于所述实体词构建关键信息提取的参考信息;
调用关键信息提取网络根据所述参考信息和所述文本信息进行关键信息提取,得到所述目标文件的关键信息,所述关键信息提取网络包括解码器、全连接层和自注意力层;
其中,所述根据所述参考信息和所述文本信息进行关键信息提取,得到所述目标文件的关键信息,包括:调用所述解码器对所述参考信息进行解码处理,得到所述参考信息包括的最后一个字符的隐向量;基于所述参考信息包括的最后一个字符的隐向量确定词表中每个字符的生成概率,所述词表中的字符包括所述文本信息包括的字符和所述参考信息包括的字符;调用所述自注意力层对所述参考信息包括的最后一个字符的隐向量和所述文本信息包括的每个字符的隐向量进行自注意力运算,并根据自注意力运算结果确定所述文本信息包括的每个字符对应的拷贝概率;根据所述文本信息包括的每个字符对应的拷贝概率和所述词表中每个字符的生成概率,确定所述词表中每个字符对应的选取概率;基于所述词表中每个字符对应的选取概率从所述词表中确定关键信息。
2.根据权利要求1所述的方法,其特征在于,所述多模态信息还包括所述目标文件中字词的位置信息和所述目标文件对应的图像文件的图像特征信息,所述获取目标文件的多模态信息,包括:
对所述目标文件进行文本识别,得到所述目标文件的文本信息和所述目标文件中字词的位置信息;
对所述目标文件对应的图像文件进行特征提取处理,得到所述目标文件对应的图像文件的图像特征信息。
3.根据权利要求1所述的方法,其特征在于,所述实体抽取网络包括编码器和全连接层,所述调用实体抽取网络基于所述多模态信息对所述目标文件进行实体抽取,得到所述目标文件包括的实体词,包括:
调用所述编码器对所述多模态信息进行编码处理,得到所述文本信息包括的每个字符的隐向量;
调用所述全连接层基于所述文本信息包括的每个字符的隐向量进行实体类别预测,得到预测结果,所述预测结果包括所述文本信息中每个字符的实体类别;
基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词。
4.根据权利要求3所述的方法,其特征在于,所述文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个,所述基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词,包括:
若所述文本信息中第一字符的实体类别为实体起始,所述文本信息中第二字符的实体类别为实体结束,且所述第一字符和所述第二字符之间的字符的实体类别为实体内部,则将所述第一字符、所述第二字符、所述第一字符和所述第二字符之间的字符组成所述目标文件包括的实体词。
5.根据权利要求1所述的方法,其特征在于,所述参考信息包括问题描述信息,所述基于所述实体词构建关键信息提取的参考信息,包括:
基于知识库数据确定所述实体词的属性信息和所述实体词对应的问题描述信息生成模板;
基于所述实体词、所述实体词的属性信息和所述实体词对应的问题描述信息生成模板生成问题描述信息。
6.根据权利要求3所述的方法,其特征在于,所述基于所述词表中每个字符对应的选取概率从所述词表中确定关键信息,包括:
选取所述词表中字符对应的选取概率满足概率条件的目标字符;
若所述目标字符不是结束标志,则将所述目标字符作为关键信息中的第一个字符;
根据所述目标字符对所述参考信息进行更新处理,并触发执行调用所述编码器对所述参考信息进行解码处理的步骤,更新处理后的参考信息中最后一个字符为所述目标字符;
若所述目标字符为结束标志,则将所述目标字符作为关键信息。
7.根据权利要求1所述的方法,其特征在于,所述实体抽取网络和所述关键信息提取网络部署在多模态信息处理模型中。
8.一种信息处理装置,其特征在于,所述装置包括:
获取单元,用于获取目标文件的多模态信息,所述多模态信息用于以多种形式的信息描述所述目标文件,所述多模态信息包括文本信息;
抽取单元,用于调用实体抽取网络基于所述多模态信息对所述目标文件进行实体抽取,得到所述目标文件包括的实体词;
构建单元,用于基于所述实体词构建关键信息提取的参考信息;
提取单元,用于调用关键信息提取网络根据所述参考信息和所述文本信息进行关键信息提取,得到所述目标文件的关键信息,所述关键信息提取网络包括解码器、全连接层和自注意力层;
所述提取单元,用于调用所述解码器对所述参考信息进行解码处理,得到所述参考信息包括的最后一个字符的隐向量;基于所述参考信息包括的最后一个字符的隐向量确定词表中每个字符的生成概率,所述词表中的字符包括所述文本信息包括的字符和所述参考信息包括的字符;调用所述自注意力层对所述参考信息包括的最后一个字符的隐向量和所述文本信息包括的每个字符的隐向量进行自注意力运算,并根据自注意力运算结果确定所述文本信息包括的每个字符对应的拷贝概率;根据所述文本信息包括的每个字符对应的拷贝概率和所述词表中每个字符的生成概率,确定所述词表中每个字符对应的选取概率;基于所述词表中每个字符对应的选取概率从所述词表中确定关键信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~7任一项所述的信息处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1~7任一项所述的信息处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1~7任一项所述的信息处理方法。
CN202111327459.9A 2021-11-10 2021-11-10 信息处理方法、装置、计算机设备及存储介质 Active CN116108843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111327459.9A CN116108843B (zh) 2021-11-10 2021-11-10 信息处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111327459.9A CN116108843B (zh) 2021-11-10 2021-11-10 信息处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN116108843A CN116108843A (zh) 2023-05-12
CN116108843B true CN116108843B (zh) 2024-07-09

Family

ID=86254868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111327459.9A Active CN116108843B (zh) 2021-11-10 2021-11-10 信息处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116108843B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204615A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10365363B2 (en) * 2015-05-08 2019-07-30 Humatics Corporation Mobile localization using sparse time-of-flight ranges and dead reckoning
CN113255343A (zh) * 2021-06-21 2021-08-13 中国平安人寿保险股份有限公司 标签数据的语义识别方法、装置、计算机设备及存储介质
CN113535974B (zh) * 2021-06-28 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 诊断推荐方法及相关装置、电子设备、存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204615A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN116108843A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN112949415B (zh) 图像处理方法、装置、设备和介质
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN114298121B (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN114358007A (zh) 多标签识别方法、装置、电子设备及存储介质
CN108268629B (zh) 基于关键词的图像描述方法和装置、设备、介质
CN114626097A (zh) 脱敏方法、脱敏装置、电子设备及存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN113849661A (zh) 实体嵌入数据的提取方法和装置、电子设备、存储介质
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN114741468A (zh) 文本去重方法、装置、设备及存储介质
CN113159053A (zh) 图像识别方法、装置及计算设备
Huang et al. Target-Oriented Sentiment Classification with Sequential Cross-Modal Semantic Graph
CN116484878A (zh) 电力异质数据的语义关联方法、装置、设备及存储介质
CN116108843B (zh) 信息处理方法、装置、计算机设备及存储介质
CN114998041A (zh) 理赔预测模型的训练方法和装置、电子设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN115270900A (zh) 一种用户意图识别方法和装置、电子设备、存储介质
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN114692715A (zh) 一种样本标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40087997

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant