CN112633380A - 兴趣点特征提取方法、装置、电子设备及存储介质 - Google Patents

兴趣点特征提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112633380A
CN112633380A CN202011554366.5A CN202011554366A CN112633380A CN 112633380 A CN112633380 A CN 112633380A CN 202011554366 A CN202011554366 A CN 202011554366A CN 112633380 A CN112633380 A CN 112633380A
Authority
CN
China
Prior art keywords
signboard
interest point
feature
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011554366.5A
Other languages
English (en)
Inventor
余威
王洪志
吴云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011554366.5A priority Critical patent/CN112633380A/zh
Publication of CN112633380A publication Critical patent/CN112633380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了兴趣点特征提取方法、装置、电子设备及存储介质,涉及自然语言处理、深度学习、知识图谱等人工智能技术领域。具体实现方案为:获取多个招牌样本图像;对多个招牌样本图像进行文本检测,以得到多个文本特征向量;对多个招牌样本图像进行类别检测,以得到多个分类特征向量;对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量;以及采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型,该兴趣点特征提取模型被用于从招牌图像之中提取出兴趣点特征,从而有效提升兴趣点特征提取的准确性。

Description

兴趣点特征提取方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理、深度学习、知识图谱等人工智能技术领域,尤其涉及兴趣点特征提取方法、装置、电子设备及存储介质。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
在一些应用中,会涉及兴趣点(Point of interest,POI)特征推荐服务,兴趣点特征例如可以包括兴趣点名称、兴趣点名称对应的字体、字号,或者兴趣点名称的位置等内容。
发明内容
提供了一种兴趣点特征提取方法、兴趣点特征提取模型的训练方法、装置、电子设备、存储介质及计算机程序产品。
根据第一方面,提供了一种兴趣点特征提取模型的训练方法,包括:获取多个招牌样本图像;对所述多个招牌样本图像进行文本检测,以得到与所述多个招牌样本图像分别对应的多个文本特征向量;对所述多个招牌样本图像进行类别检测,以得到与所述多个招牌样本图像分别对应的多个分类特征向量;对与所述招牌样本图像对应的所述文本特征向量和所述分类特征向量进行融合处理,以得到目标特征向量;以及采用所述多个招牌样本图像、所述目标特征向量,以及与所述多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
根据第二方面,提供了一种兴趣点特征提取方法,包括:获取招牌图像;将所述招牌图像输入至如上述第一方面提供的兴趣点特征提取模型的训练方法训练得到的兴趣点特征提取模型之中,以得到所述兴趣点特征提取模型输出的目标兴趣点特征。
根据第三方面,提供了一种兴趣点特征提取模型的训练装置,包括:第一获取模块,用于获取多个招牌样本图像;第一检测模块,用于对所述多个招牌样本图像进行文本检测,以得到与所述多个招牌样本图像分别对应的多个文本特征向量;第二检测模块,用于对所述多个招牌样本图像进行类别检测,以得到与所述多个招牌样本图像分别对应的多个分类特征向量;融合处理模块,用于对与所述招牌样本图像对应的所述文本特征向量和所述分类特征向量进行融合处理,以得到目标特征向量;以及训练模块,用于采用所述多个招牌样本图像、所述目标特征向量,以及与所述多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
根据第四方面,提供了一种兴趣点特征提取装置,包括:第二获取模块,用于获取招牌图像;提取模块,用于将所述招牌图像输入至如第三方面提供的兴趣点特征提取模型的训练装置训练得到的兴趣点特征提取模型之中,以得到所述兴趣点特征提取模型输出的目标兴趣点特征。
根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例的兴趣点特征提取模型的训练方法,或者执行本申请实施例的兴趣点特征提取方法。
根据第六方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例公开的兴趣点特征提取模型的训练方法,或者执行本申请实施例的兴趣点特征提取方法。
根据第七方面,提出了一种计算机程序产品,包括计算机程序,当所述计算机程序由处理器执行时实现本申请实施例公开的兴趣点特征提取模型的训练方法,或者执行本申请实施例的兴趣点特征提取方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是本申请实施例中兴趣点特征提取模型的训练场景示意图;
图6是根据本申请第五实施例的示意图;
图7是根据本申请第六实施例的示意图;
图8是根据本申请第七实施例的示意图;
图9是根据本申请第八实施例的示意图;
图10是用来实现本申请实施例的兴趣点特征提取模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图。
其中,需要说明的是,本实施例的兴趣点特征提取模型的训练方法的执行主体为兴趣点特征提取模型的训练装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本申请实施例涉及自然语言处理、深度学习、知识图谱等人工智能技术领域。
其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
自然语言处理(Natural Language Processing,NLP),能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
而知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
如图1所示,该兴趣点特征提取模型的训练方法包括:
S101:获取多个招牌样本图像。
其中,用于训练兴趣点特征提取模型的招牌图像,可以被称为招牌样本图像,而招牌图像,可以是一些包含有招牌内容的图像,该图像的图像格式可以是电子设备能够识别的任意图像格式,对此不做限制。
其中,招牌内容例如一些电商招牌中携带的文本、字体、字号、以及文本框的尺寸、文本框的相对位置等内容,招牌内容具体例如【肯德基】、【麦当劳】等商标,以及该商标内容对应的字体、字号等等,对此不做限制。
本申请实施例中可以预先获取海量的招牌样本图像,用以训练一个人工智能模型,以使该训练得到的模型在实际的应用当中,具备对待识别的招牌图像进行全方位特征表达的能力。
可以理解的是,在涉及兴趣点(Point of interest,POI)特征推荐服务应用的过程中,该兴趣点特征通常是从实际场景的图像中识别得到的,由此,该实际场景的图像可能会受到一些拍摄参数的影响,拍摄参数比如光照、拍摄角度等等,则包含相同招牌内容的招牌样本图像,其可能携带的拍摄参数也是不相同的。
因此,为了保障训练用数据的覆盖广度,保障兴趣点特征提取模型的鉴别能力避免受到拍摄参数的影响,上述各个招牌样本图像之间,可以是携带相同或者不相同的招牌内容。
S102:对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量。
上述在获取多个招牌样本图像之后,对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量,也即是说,可以针对每个招牌样本图像,均对其进行文本检测,以得到与各个招牌样本图像对应的文本特征向量,其中,该文本特征向量可以是用于描述招牌样本图像当中的一些文本特征,映射于向量空间中的向量表示,该文本特征可以是文本、文本信息(例如,字体、字号、以及文本框的尺寸、文本框的相对位置等),或者其他一些与文本相关联的特征,例如与文本相关联的近义文本、相似文本等等,对此不做限制。
举例而言,在对招牌样本图像进行文本检测时,可以首先检测其中包含的各个文本框的相对位置(文本框相对于整个招牌样本图像的位置,即可以被称为相对位置),而后识别到各个文本框中的文本,该文本的字体、字号等信息,并将识别到的内容作为文本特征,而后,将识别到的招牌样本图像携带的文本特征,映射于向量空间中,以得到文本特征向量。
又例如,也可以采用其他任意可能的方式对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量,比如建模的方式,工程的方式等等,对此不做限制。
S103:对多个招牌样本图像进行类别检测,以得到与多个招牌样本图像分别对应的多个分类特征向量。
其中的分类特征向量,是与招牌样本图像对应的兴趣点类别映射于向量空间之中的向量表示,或者,也可以是与招牌样本图像对应的兴趣点类别的描述信息(例如针对该兴趣点类别对应的介绍说明)映射于向量空间之中的向量表示,对此不做限制。
其中的兴趣点类别,可以具体是根据兴趣点特征划分得到的。
举例而言,兴趣点特征例如可以包括兴趣点名称、兴趣点名称对应的字体、字号,或者兴趣点名称的位置等内容,则可以预先将相似的兴趣点特征划分至一种兴趣点类别之中,对划分至其中的兴趣点特征进行特征归纳,形成对应的兴趣点类别的描述信息,又例如,也可以直接基于兴趣点名称划分兴趣点类别,即一个兴趣点名称对应标识一种兴趣点类别,兴趣点名称是名称A,则相应的兴趣点类别即是类别A,兴趣点名称是名称B,则相应的兴趣点类别即是类别B,则相应的,由于不同的兴趣点类别,是预先根据兴趣点特征划分得到的,则实际上一种兴趣点类别对应描述一种或者一类相应的兴趣点特征,或者,也可以采用其他任意可能的方式划分不同的兴趣点类别,比如根据图像特征、语义特征等等,对此不做限制。
则在执行对多个招牌样本图像进行类别检测的过程中,可以具体是对招牌样本图像进行图像特征、或者语义特征,或者文本特征的识别,而后,根据识别到的图像特征、或者语义特征,或者文本特征,将招牌样本图像划分至一种兴趣点类别当中,而后,对兴趣点类别对应的一些分类特征进行向量空间的映射,以得到分类特征向量。
本申请实施例中,正是在对多个招牌样本图像进行文本检测的基础上,还对多个招牌样本图像进行类别检测,从而能够有效地支撑后续采用文本特征向量和分类特征向量的融合特征来表征招牌图像的特征表达。
需要说明的是,上述S102和S103的执行顺序可以不分先后,同时执行,或者也可以是先执行S102,再执行S103,或者,也可以是先执行S103,再执行S102,对此不做限制。
S104:对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量。
上述在对多个招牌样本图像进行文本检测,并对多个招牌样本图像进行类别检测,得到与每个招牌样本图像对应的文本特征向量和分类特征向量之后,可以对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量。
上述两种不同检测方式得到的特征向量进行融合得到的特征向量,可以被称为目标特征向量。
一些实施例中,假设文本特征向量和分类特征向量分别包括了多个维度的特征,比如文本特征向量包括维度A的文本特征、维度B的文本特征,维度C的文本特征,相应的,分类特征向量包括维度A的分类特征、维度B的分类特征,维度C的分类特征,则可以确定其中含义相同的维度(例如维度C),从而基于维度C对剩余两个维度的特征进行拼接,或者,也可以采用其他任意可能的融合处理算法,以将两种特征向量处理为一种特征向量,使得该融合得到的目标特征向量具有更好的特征表达能力即可。
S105:采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
上述人工智能模型可以例如为神经网络模型、机器学习模型,或者也可以是图神经网络模型,对此不做限制。
由此,本申请实施例正是结合了自然语言处理、深度学习、知识图谱方式,以识别得到招牌样本图像对应的文本特征向量和分类特征向量,对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量,从而有效地提升特征识别的准确性,且结合人工智能当中的一些网络模型,以训练得到兴趣点特征提取模型,从而使得采用该兴趣点特征提取模型能够高效快速,且准确地识别到待识别的招牌图像的特征表示。
本实施例中,通过获取多个招牌样本图像,并对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量,对多个招牌样本图像进行类别检测,以得到与多个招牌样本图像分别对应的多个分类特征向量,并对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量,以及采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型,由于是采用对文本特征向量和分类特征向量融合得到的目标特征向量来辅助训练人工智能模型,以得到兴趣点特征提取模型,从而有效提升兴趣点特征提取模型的特征表达效果,提升兴趣点特征提取的准确性,提升所提取的兴趣点特征的描述效果。
图2是根据本申请第二实施例的示意图。
如图2所示,该兴趣点特征提取模型的训练方法包括:
S201:获取多个招牌样本图像。
S201的说明可以具体参见上述实施例,在此不再赘述。
S202:将招牌样本图像输入至预训练的文本检测模型之中,以得到文本检测模型输出的文本特征向量,其中,文本特征向量,是招牌样本图像中的文本和文本信息映射于向量空间的向量表示。
其中,预训练的文本检测模型可以是以下模型之一:单发多箱探测器(SingleShot MultiBox Detector,SSD)模型、连接主义者文本提案网络(Connectionist TextProposal Network,CTPN)模型、高效准确的场景文本检测(Efficient and AccuracyScene Text,EAST)模型。
本实施例中,上述的文本检测模型可以是预先训练的,例如,可以是采用海量的招牌样本图像,及其携带的样本文本特征,以及标注文本特征向量训练初始的文本检测模型,而后直至训练当中的文本检测模型根据招牌样本图像,及其携带的样本文本特征所建模得出的预测文本特征向量,与标注文本特征向量之间满足收敛条件,则可以确定文本检测模型训练完成。
也即是说,本实施例中,可以直接将各个招牌样本图像输入至预训练的文本检测模型之中,以得到文本检测模型输出的文本特征向量,从而在保障文本特征向量识别准确性的同时,提升识别效率,并且,使得文本特征向量能够表征招牌样本图像中的文本和文本信息映射于向量空间的向量表示,使得提取到的文本特征向量能够更好地被融合于兴趣点特征提取模型的训练。
通常一个人工智能模型中会包括主干网络(backbone)和相应的输出层,该主干网络可以是和输出层直接相连接的,也即是说,在将招牌样本图像输入至预训练的文本检测模型之中,可以经由主干网络(backbone)对招牌样本图像进行文本特征提取,而后,在输出层对文本特征进行一些向量映射和表征,从而输出文本特征向量。
在另外一些实施例中,也可以直接从文本检测模型的主干网络(backbone)之中抽取出相应的文本特征,并采用其他向量表示方法来得到文本特征向量,从而能够减小预训练的文本检测模型的规模,或者,也可以直接训练文本检测模型的主干网络(backbone),使其具有输出文本特征向量的能力,对此不做限制。
S203:将招牌样本图像输入至预训练的招牌分类模型之中,以得到招牌分类模型输出的分类特征向量,分类特征向量,是与招牌样本图像对应的兴趣点类别映射于向量空间的向量表示。
其中,招牌分类模型,可以是以下模型之一:长柔性最大值传输函数(LargeSoftmax,Large-Softmax),角柔性最大值传输函数(Angularsoftmax,A-Softmax)等,对此不做限制。
本实施例中,上述的招牌分类模型可以是预先训练的,例如,可以是采用海量的招牌样本图像,及其携带的样本分类特征(样本分类特征例如,将招牌样本图像划分至一种兴趣点类别时,所参考的与招牌样本图像关联的特征,具体例如,文本特征、拍摄参数等等),以及标注分类特征向量训练初始的招牌分类模型,而后直至训练当中的招牌分类模型根据招牌样本图像,及其携带的样本分类特征所建模得出的预测分类特征向量,与标注分类特征向量之间满足收敛条件,则可以确定招牌分类模型训练完成。
也即是说,本实施例中,可以直接将各个招牌样本图像输入至预训练的招牌分类模型之中,以得到招牌分类模型输出的分类特征向量,从而在保障分类特征向量识别准确性的同时,提升识别效率,并且,使得分类特征向量能够表征招牌样本图像对应的兴趣点类别映射于向量空间的向量表示,使得提取到的分类特征向量能够更好地被融合于兴趣点特征提取模型的训练。
通常一个人工智能模型中会包括主干网络(backbone)和相应的输出层,该主干网络可以是和输出层直接相连接的,也即是说,在将招牌样本图像输入至预训练的招牌分类模型之中,可以经由主干网络(backbone)对招牌样本图像进行分类特征提取,而后,在输出层对分类特征进行一些向量映射和表征,从而输出分类特征向量。
在另外一些实施例中,也可以直接从招牌分类模型的主干网络(backbone)之中抽取出相应的分类特征,并采用其他向量表示方法来得到分类特征向量,从而能够减小预训练的招牌分类模型的规模,或者,也可以直接训练招牌分类模型的主干网络(backbone),使其具有输出分类特征向量的能力,对此不做限制。
S204:对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量。
可选地,一些实施例中,参见图3,图3是根据本申请第三实施例的示意图,步骤S204:对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量,可以包括:
S301:解析文本特征向量以得到第一数量的文本特征。
S302:解析分类特征向量以得到第二数量的分类特征。
举例而言,假设文本特征向量和分类特征向量分别包括了多个维度的特征,比如文本特征向量包括维度A的文本特征、维度B的文本特征,维度C的文本特征,相应的,分类特征向量包括维度A的分类特征、维度B的分类特征,维度C的分类特征,则可以确定其中含义相同的维度(例如维度C,并且在图3示例中可以假设维度C为数量维度),则可以确定文本特征向量对应于数量维度的文本特征,并且确定该文本特征对应的特征数量,并作为第一数量,相应地,确定分类特征向量对应于数量维度的分类特征,并且确定该分类特征对应的特征数量,并作为第二数量。
由此,在解析文本特征向量以得到第一数量的文本特征,并且在解析分类特征向量以得到第二数量的分类特征之后,可以触发后续步骤。
需要说明的是,上述S301和S302的执行顺序可以不分先后,同时执行,或者也可以是先执行S301,再执行S302,或者,也可以是先执行S302,再执行S301,对此不做限制。
S303:对第一数量的文本特征和第二数量的分类特征进行拼接处理,得到融合特征向量。
其中,对文本特征向量和分类特征向量进行数量维度的拼接处理,得到的特征向量,可以被称为融合特征向量。
上述在解析文本特征向量以得到第一数量的文本特征,并且在解析分类特征向量以得到第二数量的分类特征之后,可以对第一数量的文本特征和第二数量的分类特征进行拼接处理,得到融合特征向量。
举例而言,假设模型提取到的特征向量的形式为(W,H,C),W表示特征向量的宽度维度,H表示特征向量的高度维度,C表示特征向量的数量维度,本申请实施例中可以称数量维度为通道,则具体例如文本特征向量的形式为(10,10,20),分类特征向量的形式为(10,10,20),则基于数量维度(即通道)对对应的文本特征和分类特征进行拼接,得到的得到融合特征向量为(10,10,40)。
另外,上述在对第一数量的文本特征和第二数量的分类特征进行拼接处理,得到融合特征向量,还可以针对其他维度的文本特征和分类特征进行加权求平均,对此不做限制。
S304:将融合特征向量输入至预训练的特征融合模型之中,以得到特征融合模型输出的目标特征向量。
上述在对第一数量的文本特征和第二数量的分类特征进行拼接处理,得到融合特征向量,即是从表征形式方面对文本特征向量和分类特征向量进行融合处理,能够有效减少训练用数据量,降低了特征表征的复杂度,另外本实施例中,还为了较大程度地学习到文本特征向量和分类特征向量在特征层面的语义关联,辅助联合分类特征向量和文本特征向量对招牌图像进行特征表示,还可以将融合特征向量输入至预训练的特征融合模型之中,以得到特征融合模型输出的目标特征向量。
预训练的特征融合模型,可以是人工智能模型中的一个子网络,例如人工智能模型当中的全连接层(Fully Connected layers,FC),全连接层FC在整个卷积神经网络中起到“分类器”的作用,全连接层可以实现将学习到的“分布式特征表示”映射到样本标记空间的作用,或者,预训练的特征融合模型,也可以是人工智能网络中的其他模型,对此不做限制。
本申请中的全连接层FC可以是与上述的文本检测模型和招牌分类模型独立设计,用于对分类特征向量和文本特征向量基于语义关联层面进行融合。
在训练特征融合模型时,可以是直接采用海量的融合特征向量输入至初始的全连接层FC之中,而后基于全连接层FC的映射作用,确定其输出的预测特征向量,直至其输出的预测特征向量与标注特征向量的损失值满足一个设定的收敛条件,确定训练完成,将训练得到的全连接层FC作为特征融合模型。
S205:采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
S204-S205的说明可以具体参见上述实施例,在此不再赘述。
本实施例中,由于是采用对文本特征向量和分类特征向量融合得到的目标特征向量来辅助训练人工智能模型,以得到兴趣点特征提取模型,从而有效提升兴趣点特征提取模型的特征表达效果,提升兴趣点特征提取的准确性,提升所提取的兴趣点特征的描述效果。由于直接将各个招牌样本图像输入至预训练的文本检测模型之中,以得到文本检测模型输出的文本特征向量,从而在保障文本特征向量识别准确性的同时,提升识别效率,并且,使得文本特征向量能够表征招牌样本图像中的文本和文本信息映射于向量空间的向量表示,使得提取到的文本特征向量能够更好地被融合于兴趣点特征提取模型的训练。并且,直接将各个招牌样本图像输入至预训练的招牌分类模型之中,以得到招牌分类模型输出的分类特征向量,从而在保障分类特征向量识别准确性的同时,提升识别效率,并且,使得分类特征向量能够表征招牌样本图像对应的兴趣点类别映射于向量空间的向量表示,使得提取到的分类特征向量能够更好地被融合于兴趣点特征提取模型的训练。
图4是根据本申请第四实施例的示意图。
如图4所示,该兴趣点特征提取模型的训练方法包括:
S401:获取多个招牌样本图像。
S402:对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量。
S403:对多个招牌样本图像进行类别检测,以得到与多个招牌样本图像分别对应的多个分类特征向量。
S404:对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量。
S401-S404的说明可以具体参见上述实施例,在此不再赘述。
S405:将招牌样本图像和目标特征向量输入至初始人工智能模型之中,以得到初始人工智能模型输出的预测兴趣点特征。
其中,初始人工智能模型可以例如为神经网络模型、机器学习模型,或者也可以是图神经网络模型,对此不做限制。
本申请实施例中初始人工智能模型可以是包括上述的文本检测模型、招牌分类模型,以及特征融合模型,也即是说,本申请实施例中构建的文本检测模型、招牌分类模型,以及特征融合模型,可以作为初始人工智能模型的子网络模型。
举例而言,将文本检测模型和特征融合模型进行连接,将招牌分类模型和特征融合模型进行连接,并在特征融合模型的输出端连接一个分类层,从而将招牌样本图像和目标特征向量输入至初始人工智能模型之中时,可以是采用招牌样本图像和目标特征向量联合训练各个子网络,从而得到最后分类层输出的预测兴趣点特征。
其中预测兴趣点特征,可以是预测的兴趣点名称、兴趣点名称对应的字体、字号,或者兴趣点名称的位置等内容。
也即是说,在训练初始人工智能模型的过程中,将招牌样本图像和目标特征向量输入至初始人工智能模型中的各子网络,以迭代训练各个子网络,并且在动态训练各个子网络的过程中,可以动态地获取分类层输出的预测兴趣点特征,并触发后续步骤。
S406:根据预测兴趣点特征和标注兴趣点特征训练初始人工智能模型,以得到兴趣点特征提取模型。
上述将招牌样本图像和目标特征向量输入至初始人工智能模型中的各子网络,以迭代训练各个子网络,并且在动态训练各个子网络的过程中,可以动态地获取分类层输出的预测兴趣点特征之后,可以直接根据预测兴趣点特征和标注兴趣点特征训练初始人工智能模型,以得到兴趣点特征提取模型。
可选地,一些实施例中,可以确定预测兴趣点特征和标注兴趣点特征之间的损失值,如果损失值满足损失阈值,则将训练得到的人工智能模型作为兴趣点特征提取模型,从而及时地判定出初始人工智能模型的收敛时机,在保障所训练的人工智能模型的鉴别性能的同时,节约了训练模型所耗费的软硬件资源消耗,从而实现了较好的模型训练效果。
其中,该损失值可以是由与初始人工智能模型对应的损失函数计算得到的,在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型,从而本申请实施例中可以确定预测兴趣点特征和标注兴趣点特征之间的损失值,而后,采用该损失值指导初始人工智能模型的训练过程。
上述在确定预测兴趣点特征和标注兴趣点特征之间的损失值之后,可以实时地确定损失值是否满足损失阈值(例如,损失值小于损失阈值,则判定损失值满足损失阈值,该损失阈值可以是预先标定的,判定初始人工智能模型收敛的损失值的门限值),如果损失值满足损失阈值,则将训练得到的人工智能模型作为兴趣点特征提取模型,即模型训练完成,此时的兴趣点特征提取模型满足了预先设定的收敛条件。
另外一些实施例中,在训练初始人工智能模型的过程中,还可以动态地对各个子网络的卷积参数进行优化处理,例如,可以使用随机梯度下降算法(Stochastic gradientdescent,SGD)对特征融合模型和分类层进行参数优化,而使得文本检测模型、招牌分类模型的参数保持初始化的值即可,或者,也可以是在训练时,对文本检测模型、招牌分类模型的主干网络使用较小的学习率进行参数更新,针对特征融合模型和分类层可以采用较大的学习率进行更新,对此不做限制。
如图5所示,图5是本申请实施例中兴趣点特征提取模型的训练场景示意图,包括文本检测模型的主干网络51、招牌分类模型的主干网络52,主干网络51输出的文本特征向量,主干网络52输出的分类特征向量,采用文本特征向量和分类特征向量进行融合,并训练一个全连接层53,以及在全连接层53的输出端连接一个分类层54用以输出预测兴趣点特征。
本实施例中,由于是采用对文本特征向量和分类特征向量融合得到的目标特征向量来辅助训练人工智能模型,以得到兴趣点特征提取模型,从而有效提升兴趣点特征提取模型的特征表达效果,提升兴趣点特征提取的准确性,提升所提取的兴趣点特征的描述效果。通过将招牌样本图像和目标特征向量输入至初始人工智能模型之中,以得到初始人工智能模型输出的预测兴趣点特征,并根据预测兴趣点特征和标注兴趣点特征训练初始人工智能模型,以得到兴趣点特征提取模型,在保障模型训练效果的同时,能够较大程度地关注到招牌样本图像所特有的文本特征,使得提取到的兴趣点特征更加具有判别性,从而有效提高采用图像匹配的方式提取兴趣点特征的召回率和准确性。
图6是根据本申请第五实施例的示意图。
如图6所示,该兴趣点特征提取方法包括:
S601:获取招牌图像。
上述的招牌图像,可以为电子设备(例如,手机)拍摄的图像或本地存储的图像,也可以为采集车沿道路行驶拍摄的图像,或行车记录仪拍摄的图像,在此不作限定。
S602:将招牌图像输入至如上述的方法训练得到的兴趣点特征提取模型之中,以得到兴趣点特征提取模型输出的目标兴趣点特征。
在获取到招牌图像之后,可以直接将招牌图像输入至如上述的方法训练得到的兴趣点特征提取模型之中,以进行图像匹配,从而得到兴趣点特征提取模型输出的目标兴趣点特征(该目标兴趣点特征,即为针对招牌图像所识别到的一些兴趣点特征)。
另外,针对本实施例的一些解释性描述,可以具体参见上述实施例,在此不再赘述。
本实施例中,通过获取招牌图像,并将招牌图像输入至如上述的方法训练得到的兴趣点特征提取模型之中,以得到兴趣点特征提取模型输出的目标兴趣点特征,能够较大程度地关注到招牌图像所特有的文本特征,使得提取到的兴趣点特征更加具有判别性,从而有效提高采用图像匹配的方式提取兴趣点特征的召回率和准确性,并且直接采用模型识别进行兴趣点特征识别,从而能够避免图像识别可能带来的噪音干扰,辅助提升实际应用当中兴趣点特征的自动化生产效率。
图7是根据本申请第六实施例的示意图。
如图7所示,该兴趣点特征提取模型的训练装置70,包括:
第一获取模块701,用于获取多个招牌样本图像;
第一检测模块702,用于对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量;
第二检测模块703,用于对多个招牌样本图像进行类别检测,以得到与多个招牌样本图像分别对应的多个分类特征向量;
融合处理模块704,用于对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量;以及
训练模块705,用于采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
在本申请的一些实施例中,其中,第一检测模块702,具体用于:
将招牌样本图像输入至预训练的文本检测模型之中,以得到文本检测模型输出的文本特征向量,其中,文本特征向量,是招牌样本图像中的文本和文本信息映射于向量空间的向量表示。
在本申请的一些实施例中,其中,第二检测模块703,用于:
将招牌样本图像输入至预训练的招牌分类模型之中,以得到招牌分类模型输出的分类特征向量,分类特征向量,是与招牌样本图像对应的兴趣点类别映射于向量空间的向量表示。
在本申请的一些实施例中,如图8所示,图8是根据本申请第七实施例的示意图,该兴趣点特征提取模型的训练装置80,包括:第一获取模块801,第一检测模块802,第二检测模块803,融合处理模块804,训练模块805,其中,融合处理模块804,包括:
解析子模块8041,用于解析文本特征向量以得到第一数量的文本特征,并解析分类特征向量以得到第二数量的分类特征;
拼接子模块8042,用于对第一数量的文本特征和第二数量的分类特征进行拼接处理,得到融合特征向量;
生成子模块8043,用于将融合特征向量输入至预训练的特征融合模型之中,以得到特征融合模型输出的目标特征向量。
在本申请的一些实施例中,其中,训练模块805,具体用于:
将招牌样本图像和目标特征向量输入至初始人工智能模型之中,以得到初始人工智能模型输出的预测兴趣点特征;
根据预测兴趣点特征和标注兴趣点特征训练初始人工智能模型,以得到兴趣点特征提取模型。
在本申请的一些实施例中,其中,训练模块805,具体用于:
确定预测兴趣点特征和标注兴趣点特征之间的损失值;
如果损失值满足损失阈值,则将训练得到的人工智能模型作为兴趣点特征提取模型。
可以理解的是,本实施例附图8中的兴趣点特征提取模型的训练装置80与上述实施例中的兴趣点特征提取模型的训练装置70,第一获取模块801与上述实施例中的第一获取模块701,第一检测模块802与上述实施例中的第一检测模块702,第二检测模块803与上述实施例中的第二检测模块703,融合处理模块804与上述实施例中的融合处理模块704,训练模块805与上述实施例中的训练模块705,可以具有相同的功能和结构。
需要说明的是,前述对兴趣点特征提取模型的训练方法的解释说明也适用于本实施例的兴趣点特征提取模型的训练装置,此处不再赘述。
本实施例中,通过获取多个招牌样本图像,并对多个招牌样本图像进行文本检测,以得到与多个招牌样本图像分别对应的多个文本特征向量,对多个招牌样本图像进行类别检测,以得到与多个招牌样本图像分别对应的多个分类特征向量,并对与招牌样本图像对应的文本特征向量和分类特征向量进行融合处理,以得到目标特征向量,以及采用多个招牌样本图像、目标特征向量,以及与多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型,由于是采用对文本特征向量和分类特征向量融合得到的目标特征向量来辅助训练人工智能模型,以得到兴趣点特征提取模型,从而有效提升兴趣点特征提取模型的特征表达效果,提升兴趣点特征提取的准确性,提升所提取的兴趣点特征的描述效果。
图9是根据本申请第八实施例的示意图。
如图9所示,该兴趣点特征提取装置90,包括:
第二获取模块901,用于获取招牌图像;
提取模块902,用于将招牌图像输入至如上述兴趣点特征提取模型的训练装置训练得到的兴趣点特征提取模型之中,以得到兴趣点特征提取模型输出的目标兴趣点特征。
需要说明的是,前述对兴趣点特征提取模型的训练方法的解释说明也适用于本实施例的兴趣点特征提取装置,此处不再赘述。
本实施例中,通过获取招牌图像,并将招牌图像输入至如上述的方法训练得到的兴趣点特征提取模型之中,以得到兴趣点特征提取模型输出的目标兴趣点特征,能够较大程度地关注到招牌图像所特有的文本特征,使得提取到的兴趣点特征更加具有判别性,从而有效提高采用图像匹配的方式提取兴趣点特征的召回率和准确性,并且直接采用模型识别进行兴趣点特征识别,从而能够避免图像识别可能带来的噪音干扰,辅助提升实际应用当中兴趣点特征的自动化生产效率。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10是用来实现本申请实施例的兴趣点特征提取模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如,兴趣点特征提取模型的训练方法,或者兴趣点特征提取方法。
例如,在一些实施例中,兴趣点特征提取模型的训练方法,或者兴趣点特征提取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的兴趣点特征提取模型的训练方法,或者兴趣点特征提取方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行兴趣点特征提取模型的训练方法,或者兴趣点特征提取方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的兴趣点特征提取模型的训练方法,或者兴趣点特征提取方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网及区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (17)

1.一种兴趣点特征提取模型的训练方法,包括:
获取多个招牌样本图像;
对所述多个招牌样本图像进行文本检测,以得到与所述多个招牌样本图像分别对应的多个文本特征向量;
对所述多个招牌样本图像进行类别检测,以得到与所述多个招牌样本图像分别对应的多个分类特征向量;
对与所述招牌样本图像对应的所述文本特征向量和所述分类特征向量进行融合处理,以得到目标特征向量;以及
采用所述多个招牌样本图像、所述目标特征向量,以及与所述多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
2.根据权利要求1所述的方法,其中,所述对所述多个招牌样本图像进行文本检测,以得到与所述多个招牌样本图像分别对应的多个文本特征向量,包括:
将所述招牌样本图像输入至预训练的文本检测模型之中,以得到所述文本检测模型输出的文本特征向量,其中,所述文本特征向量,是所述招牌样本图像中的文本和文本信息映射于向量空间的向量表示。
3.根据权利要求1所述的方法,其中,所述对所述多个招牌样本图像进行类别检测,以得到与所述多个招牌样本图像分别对应的多个分类特征向量,包括:
将所述招牌样本图像输入至预训练的招牌分类模型之中,以得到所述招牌分类模型输出的分类特征向量,所述分类特征向量,是与所述招牌样本图像对应的兴趣点类别映射于向量空间的向量表示。
4.根据权利要求1所述的方法,其中,所述对与所述招牌样本图像对应的所述文本特征向量和所述分类特征向量进行融合处理,以得到目标特征向量,包括:
解析所述文本特征向量以得到第一数量的文本特征;
解析所述分类特征向量以得到第二数量的分类特征;
对所述第一数量的文本特征和所述第二数量的分类特征进行拼接处理,得到融合特征向量;
将所述融合特征向量输入至预训练的特征融合模型之中,以得到所述特征融合模型输出的所述目标特征向量。
5.根据权利要求1所述的方法,其中,所述采用所述多个招牌样本图像、所述目标特征向量,以及与所述多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型,包括:
将所述招牌样本图像和所述目标特征向量输入至初始人工智能模型之中,以得到所述初始人工智能模型输出的预测兴趣点特征;
根据所述预测兴趣点特征和所述标注兴趣点特征训练所述初始人工智能模型,以得到所述兴趣点特征提取模型。
6.根据权利要求5所述的方法,其中,所述根据所述预测兴趣点特征和所述标注兴趣点特征训练所述初始人工智能模型,以得到所述兴趣点特征提取模型,包括:
确定所述预测兴趣点特征和所述标注兴趣点特征之间的损失值;
如果所述损失值满足损失阈值,则将训练得到的人工智能模型作为所述兴趣点特征提取模型。
7.一种兴趣点特征提取方法,包括:
获取招牌图像;
将所述招牌图像输入至如上述1-6任一项所述的方法训练得到的兴趣点特征提取模型之中,以得到所述兴趣点特征提取模型输出的目标兴趣点特征。
8.一种兴趣点特征提取模型的训练装置,包括:
第一获取模块,用于获取多个招牌样本图像;
第一检测模块,用于对所述多个招牌样本图像进行文本检测,以得到与所述多个招牌样本图像分别对应的多个文本特征向量;
第二检测模块,用于对所述多个招牌样本图像进行类别检测,以得到与所述多个招牌样本图像分别对应的多个分类特征向量;
融合处理模块,用于对与所述招牌样本图像对应的所述文本特征向量和所述分类特征向量进行融合处理,以得到目标特征向量;以及
训练模块,用于采用所述多个招牌样本图像、所述目标特征向量,以及与所述多个招牌样本图像分别对应的多个标注兴趣点特征训练初始人工智能模型,以生成兴趣点特征提取模型。
9.根据权利要求8所述的装置,其中,所述第一检测模块,具体用于:
将所述招牌样本图像输入至预训练的文本检测模型之中,以得到所述文本检测模型输出的文本特征向量,其中,所述文本特征向量,是所述招牌样本图像中的文本和文本信息映射于向量空间的向量表示。
10.根据权利要求8所述的装置,其中,所述第二检测模块,用于:
将所述招牌样本图像输入至预训练的招牌分类模型之中,以得到所述招牌分类模型输出的分类特征向量,所述分类特征向量,是与所述招牌样本图像对应的兴趣点类别映射于向量空间的向量表示。
11.根据权利要求8所述的装置,其中,所述融合处理模块,包括:
解析子模块,用于解析所述文本特征向量以得到第一数量的文本特征,并解析所述分类特征向量以得到第二数量的分类特征;
拼接子模块,用于对所述第一数量的文本特征和所述第二数量的分类特征进行拼接处理,得到融合特征向量;
生成子模块,用于将所述融合特征向量输入至预训练的特征融合模型之中,以得到所述特征融合模型输出的所述目标特征向量。
12.根据权利要求8所述的装置,其中,所述训练模块,具体用于:
将所述招牌样本图像和所述目标特征向量输入至初始人工智能模型之中,以得到所述初始人工智能模型输出的预测兴趣点特征;
根据所述预测兴趣点特征和所述标注兴趣点特征训练所述初始人工智能模型,以得到所述兴趣点特征提取模型。
13.根据权利要求12所述的装置,其中,所述训练模块,具体用于:
确定所述预测兴趣点特征和所述标注兴趣点特征之间的损失值;
如果所述损失值满足损失阈值,则将训练得到的人工智能模型作为所述兴趣点特征提取模型。
14.一种兴趣点特征提取装置,包括:
第二获取模块,用于获取招牌图像;
提取模块,用于将所述招牌图像输入至如上述8-13任一项所述的装置训练得到的兴趣点特征提取模型之中,以得到所述兴趣点特征提取模型输出的目标兴趣点特征。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法,或者执行权利要求7中所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法,或者执行权利要求7中所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法,或者执行权利要求7中所述的方法。
CN202011554366.5A 2020-12-24 2020-12-24 兴趣点特征提取方法、装置、电子设备及存储介质 Pending CN112633380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011554366.5A CN112633380A (zh) 2020-12-24 2020-12-24 兴趣点特征提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011554366.5A CN112633380A (zh) 2020-12-24 2020-12-24 兴趣点特征提取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112633380A true CN112633380A (zh) 2021-04-09

Family

ID=75324546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011554366.5A Pending CN112633380A (zh) 2020-12-24 2020-12-24 兴趣点特征提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112633380A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926700A (zh) * 2021-04-27 2021-06-08 支付宝(杭州)信息技术有限公司 针对目标图像的类别识别方法和装置
CN113191256A (zh) * 2021-04-28 2021-07-30 北京百度网讯科技有限公司 车道线检测模型的训练方法、装置、电子设备及存储介质
CN113222022A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种网页分类识别方法及装置
CN113344121A (zh) * 2021-06-29 2021-09-03 北京百度网讯科技有限公司 训练招牌分类模型和招牌分类的方法
CN113360791A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113377998A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据加载的方法、装置、电子设备及存储介质
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113449725A (zh) * 2021-06-30 2021-09-28 平安科技(深圳)有限公司 对象分类方法、装置、设备及存储介质
CN113656698A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 兴趣特征提取模型的训练方法、装置和电子设备
CN113688269A (zh) * 2021-07-21 2021-11-23 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质
CN113947147A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置
CN114625984A (zh) * 2022-03-31 2022-06-14 北京百度网讯科技有限公司 兴趣点验证方法、装置、电子设备及存储介质
CN115620157A (zh) * 2022-09-21 2023-01-17 清华大学 一种卫星图像的表征学习方法及装置
CN116341567A (zh) * 2023-05-29 2023-06-27 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832578A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点信息处理方法、装置、电子设备和存储介质
CN111859002A (zh) * 2020-07-20 2020-10-30 北京百度网讯科技有限公司 兴趣点名称生成方法及装置、电子设备和介质
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832578A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点信息处理方法、装置、电子设备和存储介质
CN111859002A (zh) * 2020-07-20 2020-10-30 北京百度网讯科技有限公司 兴趣点名称生成方法及装置、电子设备和介质
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926700A (zh) * 2021-04-27 2021-06-08 支付宝(杭州)信息技术有限公司 针对目标图像的类别识别方法和装置
CN113191256A (zh) * 2021-04-28 2021-07-30 北京百度网讯科技有限公司 车道线检测模型的训练方法、装置、电子设备及存储介质
WO2022227769A1 (zh) * 2021-04-28 2022-11-03 北京百度网讯科技有限公司 车道线检测模型的训练方法、装置、电子设备及存储介质
CN113191256B (zh) * 2021-04-28 2024-06-11 北京百度网讯科技有限公司 车道线检测模型的训练方法、装置、电子设备及存储介质
CN113222022A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种网页分类识别方法及装置
CN113377998A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据加载的方法、装置、电子设备及存储介质
CN113360791A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113344121B (zh) * 2021-06-29 2023-10-27 北京百度网讯科技有限公司 训练招牌分类模型和招牌分类的方法
CN113344121A (zh) * 2021-06-29 2021-09-03 北京百度网讯科技有限公司 训练招牌分类模型和招牌分类的方法
CN113360791B (zh) * 2021-06-29 2023-07-18 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113449725A (zh) * 2021-06-30 2021-09-28 平安科技(深圳)有限公司 对象分类方法、装置、设备及存储介质
CN113449725B (zh) * 2021-06-30 2024-02-02 平安科技(深圳)有限公司 对象分类方法、装置、设备及存储介质
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113435529B (zh) * 2021-07-06 2023-11-07 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113688269A (zh) * 2021-07-21 2021-11-23 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质
CN113656698A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 兴趣特征提取模型的训练方法、装置和电子设备
CN113656698B (zh) * 2021-08-24 2024-04-09 北京百度网讯科技有限公司 兴趣特征提取模型的训练方法、装置和电子设备
CN113947147A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置
WO2023065731A1 (zh) * 2021-10-18 2023-04-27 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置
CN114625984A (zh) * 2022-03-31 2022-06-14 北京百度网讯科技有限公司 兴趣点验证方法、装置、电子设备及存储介质
CN115620157A (zh) * 2022-09-21 2023-01-17 清华大学 一种卫星图像的表征学习方法及装置
CN116341567B (zh) * 2023-05-29 2023-08-29 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及***
CN116341567A (zh) * 2023-05-29 2023-06-27 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及***

Similar Documents

Publication Publication Date Title
CN112633380A (zh) 兴趣点特征提取方法、装置、电子设备及存储介质
CN114399769B (zh) 文本识别模型的训练方法、文本识别方法及装置
CN112949415B (zh) 图像处理方法、装置、设备和介质
CN113191256B (zh) 车道线检测模型的训练方法、装置、电子设备及存储介质
CN112541122A (zh) 推荐模型的训练方法、装置、电子设备及存储介质
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN113379813A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN113159091A (zh) 数据处理方法、装置、电子设备及存储介质
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN114490998B (zh) 文本信息的抽取方法、装置、电子设备和存储介质
CN113361363A (zh) 人脸图像识别模型的训练方法、装置、设备及存储介质
CN113221565A (zh) 实体识别模型的训练方法、装置、电子设备及存储介质
CN113361572A (zh) 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113378712A (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN112712121A (zh) 一种基于深度神经网络的图像识别模型训练方法、装置及存储介质
CN113641829A (zh) 图神经网络的训练与知识图谱的补全方法、装置
CN113344214B (zh) 数据处理模型的训练方法、装置、电子设备及存储介质
CN114111813B (zh) 高精地图元素更新方法、装置、电子设备及存储介质
CN113191261B (zh) 图像类别的识别方法、装置和电子设备
CN114037052A (zh) 检测模型的训练方法、装置、电子设备及存储介质
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN113591569A (zh) 障碍物检测方法、装置、电子设备以及存储介质
CN112580620A (zh) 标志图片处理方法、装置、设备和介质
CN115577106B (zh) 基于人工智能的文本分类方法、装置、设备和介质
CN114972910A (zh) 图文识别模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination