CN117076702B - 图像查找方法及电子设备 - Google Patents
图像查找方法及电子设备 Download PDFInfo
- Publication number
- CN117076702B CN117076702B CN202311184754.2A CN202311184754A CN117076702B CN 117076702 B CN117076702 B CN 117076702B CN 202311184754 A CN202311184754 A CN 202311184754A CN 117076702 B CN117076702 B CN 117076702B
- Authority
- CN
- China
- Prior art keywords
- expression image
- feature vector
- image
- expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 239000013598 vector Substances 0.000 claims abstract description 401
- 230000015654 memory Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 116
- 238000012545 processing Methods 0.000 description 53
- 238000012549 training Methods 0.000 description 26
- 238000005516 engineering process Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 20
- 239000010410 layer Substances 0.000 description 18
- 238000007726 management method Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 14
- 230000008451 emotion Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了图像查找方法及电子设备,该方法包括:获取表情图像数据库,该表情图像数据库包括多个表情图像、多个表情图像中每个表情图像对应的第一内容特征向量和第一意图特征向量;该第一内容特征向量表示描述表情图像的内容的特征向量,该第一意图特征向量表示描述表情图像的表达意图的特征向量;确定待处理信息的第一文本特征向量;从该图像数据库中查找该待处理信息匹配的目标表情图像,该目标表情图像对应的第一内容特征向量和第一意图特征向量与该第一文本特征向量相匹配。通过本申请描述的方法,能够快速精确地查找到用户需要发送的表情图像,有利于提高线上聊天对话的效率。
Description
技术领域
本申请实施例涉及计算机领域,尤其涉及图像查找方法及电子设备。
背景技术
随着各种社交应用和新媒体技术的发展,表情包的运用越来越广泛。所谓的表情包也可以称为表情图像,是指一种利用图像来表示感情的方式。当前社交网络中,表情包已成为了一个必不可少的通讯媒介,人们往往更愿意使用表情包来代替文字去传达自己的意图和情感。
但是随着人们保存的表情包日益增多,用户查找表情包变得越来越困难且低效,在线上聊天时无法快速精确地找到自己想发送的表情包,从而降低了聊天对话的效率。
发明内容
本申请提供了一种图像查找方法及电子设备,能够快速精确地查找到用户需要发送的表情图像,有利于提高线上聊天对话的效率。
第一方面,本申请提供了一种图像查找方法,该方法包括:获取表情图像数据库,该表情图像数据库包括多个表情图像、多个表情图像中每个表情图像对应的第一内容特征向量和第一意图特征向量;该第一内容特征向量为描述表情图像的内容的特征向量,该第一意图特征向量表示描述表情图像的表达意图的特征向量;确定待处理信息的第一文本特征向量;从该图像数据库中查找该待处理信息匹配的目标表情图像,该目标表情图像对应的第一内容特征向量和第一意图特征向量与该第一文本特征向量相匹配。
基于第一方面所描述的方法,从图像数据库中查找该待处理信息匹配的目标表情图像是通过对表情图像的表达意图和语义内容的多维度快速检索实现的,这样能够更加快速精确地查找到用户需要发送的表情图像,有利于提高线上聊天对话的效率。
在一种可能的实现方式中,获取表情图像数据库,包括:获取用户在本地收藏的多个表情图像;调用图像编码器对多个表情图像中每个表情图像进行编码处理,得到每个表情图像对应的第一图像特征向量;调用对齐网络对第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量;该提示词用于提示对齐网络描述表情图像的内容和表达意图;利用多个表情图像、每个表情图像对应的第一内容特征向量和第一意图特征向量构建表情图像数据库。基于该方式,能够从表达意图和语义内容两个维度建立表情图像数据库,有利于提高表情图像的查找效率。
在一种可能的实现方式中,该对齐网络包括第一对齐网络和第二对齐网络,该提示词包括第一提示词和第二提示词,调用对齐网络对该第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量,包括:调用该第一对齐网络对第一图像特征向量和第一提示词进行处理,得到每个表情图像对应的第一内容特征向量;该第一提示词用于提示第一对齐网络描述表情图像的内容;调用该第二对齐网络对第一图像特征向量和第二提示词进行处理,得到每个表情图像对应的第一意图特征向量;该第二提示词用于提示第二对齐网络描述表情图像的表达意图。基于该方式,能够提高每个表情图像对应的第一内容特征向量和第一意图特征向量的准确性。
在一种可能的实现方式中,从该图像数据库中查找该待处理信息匹配的目标表情图像,包括:确定该图像数据库中每个表情图像对应的第一内容特征向量与该第一文本特征向量之间的第一向量距离,以及确定该图像数据库中每个表情图像对应的第一意图特征向量与该第一文本特征向量之间的第二向量距离;基于该第一向量距离和该第二向量距离确定该待处理信息匹配的目标表情图像。基于该方式,能够从表达意图和语义内容两个维度查找该待处理信息匹配的目标表情图像,提高表情图像的查找效率。
在一种可能的实现方式中,基于该第一向量距离和该第二向量距离确定该待处理信息匹配的目标表情图像,包括:对该第一向量距离和该第二向量距离进行计算处理,得到每个表情图像对应的第三向量距离;按照从小到大的顺序排列第三向量距离,将前N个第三向量距离对应的表情图像确定为该待处理信息匹配的目标表情图像;该N为正整数。基于该方式,能够结合表达意图和语义内容两个维度查找该待处理信息匹配的目标表情图像,提高表情图像的查找效率。
在一种可能的实现方式中,从该图像数据库中查找该待处理信息匹配的目标表情图像,包括:调用第一对齐网络对第一文本特征向量进行处理,得到第四内容特征向量;调用第二对齐网络对第一文本特征向量进行处理,得到第五意图特征向量;确定图像数据库中每个表情图像对应的第一内容特征向量与第四内容特征向量之间的第三向量距离,以及确定图像数据库中每个表情图像对应的第一意图特征向量与第五意图特征向量之间的第四向量距离;基于该第三向量距离和该第四向量距离确定待处理信息匹配的目标表情图像。基于该方式,能够从表达意图和语义内容两个维度查找该待处理信息匹配的目标表情图像,提高表情图像的查找效率和准确性。
在一种可能的实现方式中,该方法还包括:在第一界面中显示该待处理信息匹配的目标表情图像,该第一界面为以下界面中的任意一项:图像搜索界面、输入法界面、表情图像推荐界面。基于该方式,能够提高图像查找的可视化,提高目标表情图像展示的灵活性。
在一种可能的实现方式中,该方法还包括:显示表情图像添加界面,该表情图像添加界面包括表情图像框、自定义标签框和保存选项;在检测到用户针对该保存选项的触发操作时,保存该表情图像框中添加的第一表情图像以及该自定义标签框中添加的该第一表情图像的第一标签;若该待处理信息与该第一标签相同,则将该第一表情图像确定为该目标表情图像。基于该方式,能够提高查找目标表情图像的效率和目标表情图像的准确性,有利于提高线上聊天对话的效率。
第二方面,本申请提供一种图像查找装置,该装置可以是电子设备,也可以是电子设备中的装置,或者是能够和电子设备匹配使用的装置;其中,该图像查找装置还可以是芯片***,该图像查找装置可执行第一方面中电子设备所执行的方法。该图像查找装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的单元。该单元可以是软件和/或硬件。该图像查找装置执行的操作及有益效果可以参见上述第一方面所述的方法以及有益效果,重复之处不再赘述。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行上述第一方面任一项可能的实现方式中的图像查找方法。
第四方面,本申请提供了一种图像查找装置,该图像查找装置包括用于执行如第一方面中任一项所述方法的功能或单元。
第五方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序包括程序指令,当该程序指令在电子设备上运行时,使得该电子设备执行上述第一方面任一项可能的实现方式中的图像查找方法。
第六方面,本申请提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述第一方面任一项可能的实现方式中的图像查找方法。
附图说明
图1A是本申请实施例提供的一种表情图像的示意图;
图1B是本申请实施例提供的一种线上聊天对话的示意图;
图2是本申请实施例提供的一种电子设备的硬件结构示意图;
图3是本申请实施例提供的一种电子设备的软件结构框图;
图4是本申请实施例提供的一种图像查找方法的流程示意图;
图5是本申请实施例提供的一种电子设备获取表情图像数据库的流程示意图;
图6是本申请实施例提供的一种第一对齐网络训练的流程示意图;
图7A是本申请实施例提供的一种第一样本表情图像以及对应的第一文本信息的示意图;
图7B是本申请实施例提供的一种第一对齐网络的训练过程的示意图;
图8是本申请实施例提供的一种第二对齐网络训练的流程示意图;
图9A是本申请实施例提供的一种第一样本对话信息的示意图;
图9B是本申请实施例提供的一种第二样本对话信息的示意图;
图9C是本申请实施例提供的一种第二对齐网络的训练过程的示意图;
图10A是本申请实施例提供的一种表情图像搜索界面中待处理信息的示意图;
图10B是本申请实施例提供的一种聊天框中待处理信息的示意图;
图10C是本申请实施例提供的一种输入法界面中待处理信息的示意图;
图11A是本申请实施例提供的一种表情图像搜索界面展示目标表情图像的示意图;
图11B是本申请实施例提供的一种表情图像推荐界面展示目标表情图像的示意图;
图11C是本申请实施例提供的一种输入法界面展示目标表情图像的示意图;
图12是本申请实施例提供的一种表情图像添加界面的示意图;
图13是本申请实施例提供的一种图像查找装置的结构示意图;
图14是本申请实施例提供的一种芯片的结构示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请以下实施例中的术语“用户界面 (user interface,UI)”,是应用程序或操作***与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage,XML)等特定计算机语言编写的源代码,界面源代码在终端设备上经过解析,渲染,最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在终端设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
为了便于理解本申请实施例提供的方案,下面对本申请实施例涉及的相关概念进行介绍:
1、人工智能与机器学习
在本申请实施例中,涉及人工智能(Artificial Intelligence,AI)技术;所谓的AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。具体地,AI技术涉及领域广泛,既有硬件层面的技术也有软件层面的技术;在硬件层面,AI技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术;在软件层面,AI技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、监督学习、无监督学习等技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、追踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术的研究和进步,人工智能技术在多个领域展开研究和应用,本申请实施例在实现图像查找方法时可以具体涉及人工智能技术中的机器学习、计算机视觉技术和自然语言处理技术等技术。
2、对齐网络和大语言模型(Large Language Model,LLM)
在本申请实施例中,该图像查找方法中会应用到机器学习技术中的对齐网络和大语言模型。所谓的对齐网络是一种将多个特征进行对齐的网络,可以应用于多模态领域,如文本特征对齐网络、图文特征对齐网络、图像特征对齐网络等。所谓的多模态是指多种模态的信息,包括文本、图像、视频、音频等。该图像查找方法主要应用的是图文特征对齐网络,即用于匹配图像特征和文本特征的预训练神经网络模型,例如CLIP(全称是ContrastiveLanguage-Image Pre-Training)模型、BLIP(全称是Bootstrapping Language-Image Pre-training)模型等。其中,CLIP模型是OpenAI在2021年发布的,通过自监督学习的方式从未标注的图像和文本数据中进行预训练,使得模型能够理解图像和文本之间的语义联系,可以用于文本图像检索。BLIP模型是一种多模态 Transformer 模型,提出了一种编码器-解码器混合架构 (Multimodal mixture of Encoder-Decoder,MED),MED的特点是很灵活,它既可以作为单模态的编码器,又可以作为基于图像的文本编码器,或者基于图像的文本解码器;BLIP模型由三个视觉语言目标联合训练:图像文本的对比学习、图像文本匹配和图像条件语言建模。
所谓的大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。常见的大语言模型有LLaMA2(全称是LargeLanguage Model Meta AI 2)模型、ChatGPT(全称是Chat Generative Pre-trainedTransformer)模型等。其中,LLaMA2模型是一种用于处理序列问题的神经网络模型,是于2023年2月发布的大型语言模型,它训练了各种模型,这些模型的参数从70亿到650亿不等。ChatGPT模型是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。
3、表情图像
所谓的表情图像也可以称为表情包,是指一种利用图像来表示感情的方式。当前社交网络中,表情图像已成为了一个必不可少的通讯媒介,人们往往更愿意使用表情图像来代替文字去传达自己的意图和情感。如图1A中(a)所示,该表情图像可以表达“我很疑惑”;又如图1A中(b)所示,该表情图像可以表达“我很喜欢”。在线上聊天的过程中,用户可以通过发送表情图像来进行情感或意图的表达。如图1B所示,在聊天对话中,用户A发送“今天不能一起去聚餐了”;用户B发送了表情图像a,并且回复“昨天不是说今天有空吗?”,用户A发送“公司今天临时安排了新任务,有点忙”。其中,表情图像a便可以表达用户B“疑惑”的情感,即表情图像a对应的表达意图是“我很疑惑”。
但是随着人们保存的表情图像日益增多,用户查找表情图像变得越来越困难且低效,在线上聊天时无法快速精确地找到自己想发送的表情图像,从而降低了聊天对话的效率。
为了能够快速精确地查找到用户需要发送的表情图像,提高线上聊天对话的效率,提高用户体验,本申请提供了一种图像查找方法及电子设备。在具体实现中,上述所提及的图像查找方法可以由电子设备100执行。其中,电子设备100可以是手机、平板电脑、笔记本电脑或具备无线通讯功能的可穿戴电子设备(如智能手表)等,但并不局限于此。电子设备100配置有显示屏,并可以安装有预设应用程序(application,APP),如社交聊天APP。用户可以通过社交聊天APP与其他用户进行线上聊天,在线上聊天过程中可以向其他用户发送表情图像、文字、图片等,在此不做限定。当然,用户也可以保存表情图像至本地,也可以在向其他用户发送表情图像的过程中,搜索查找自己需要的表情图像。
下面对电子设备100的硬件结构进行介绍。请参阅图2,图2是本申请实施例提供的电子设备100的硬件结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。处理器110调用存储器中存储的指令或数据,使电子设备100执行以下方法实施例中电子设备所执行的图像查找方法。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电在其他一些实施例中,电源管理模块141也可以设置于处理器110中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如Wi-Fi网络),蓝牙(bluetooth,BT),BLE广播,全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。ISP 用于处理摄像头193反馈的数据。摄像头193用于捕获静态图像或视频。数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。
NPU为神经网络(neural-network ,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如闪存器件等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。耳机接口170D用于连接有线耳机。压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定电子设备100的运动姿态。气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。距离传感器180F,用于测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器。环境光传感器180L用于感知环境光亮度。指纹传感器180H用于采集指纹。温度传感器180J用于检测温度。触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。骨传导传感器180M可以获取振动信号。按键190包括开机键,音量键等。马达191可以产生振动提示。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。
电子设备100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android***为例,示例性说明电子设备100的软件结构。图3是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。如图3所示,应用程序包可以包括聊天APP、相机,图库,日历,通话, WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面进一步对本申请提供的图像查找方法进行详细描述。请参见图4,图4是本申请实施例提供的一种图像查找方法的流程示意图。如图4所示,该图像查找方法包括如下步骤S401~S403,图4所示的方法执行主体包括电子设备(如图2中的电子设备100)。或者,图4所示的方法执行主体包括电子设备中的芯片。图4以电子设备为执行主体为例进行说明。其中:
S401、电子设备获取表情图像数据库。
在本申请实施例中,该表情图像数据库包括多个表情图像、多个表情图像中每个表情图像对应的第一内容特征向量和第一意图特征向量。该第一内容特征向量表示描述表情图像的内容的特征向量,该第一意图特征向量表示描述表情图像的表达意图的特征向量。例如,该表情图像数据库包括3个表情图像,即表情图像a、表情图像b和表情图像c;该表情图像数据库还包括每个表情图像对应的第一内容特征向量和第一意图特征向量,即表情图像a对应的第一内容特征向量和第一意图特征向量、表情图像b对应的第一内容特征向量和第一意图特征向量、表情图像c对应的第一内容特征向量和第一意图特征向量。电子设备首先需要获取到表情图像数据库,以便于后续可以在表情图像数据库中搜寻需要的表情图像。
针对表情图像的内容和表达意图,以图1A中(a)所示的表情图像为例,该表情图像的内容是“一只白色的小狗,侧坐在地上,眼睛望着前方,小狗的头上有问号的标记”;该表情图像的表达意图是“我很疑惑”。
其中,这里的表情图像可以是用户在本地收藏或添加的表情图像(如用户在本地收藏或添加的自定义表情图像),也可以是用户在云端商城下载的表情图像,在此不做限定。也就是说,该表情图像数据库既可以支持对云端商城下载的表情图像的搜寻,也可以支持在本地收藏的表情图像的搜寻。本申请实施例是以该多个表情图像是用户在本地收藏的表情图像为例进行说明。
需要说明的是,本申请实施例所涉及到用户、用户在本地收藏的表情图像等相关的数据,均是经过用户授权后所获取到的。并且,当本申请实施例运用到具体产品或技术中时,所涉及使用到的数据需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一种可能的实现方式中,电子设备获取表情图像数据库时,如图5所示,具体的实现方式可以包括以下步骤s11~s14。基于该方式,能够从表达意图和语义内容两个维度建立表情图像数据库,有利于提高表情图像的查找效率。
s11、电子设备获取用户在本地收藏的多个表情图像。
在具体实现中,用户在本地收藏的多个表情图像可以是用户在线上聊天过程中收藏的其他用户发送的自定义表情图像,也可以是用户自己在本地制作的自定义表情图像,也可以是用户自己在本地添加的自定义表情图像,在此不做限定。
s12、电子设备调用图像编码器对多个表情图像中每个表情图像进行编码处理,得到每个表情图像对应的第一图像特征向量。
在具体实现中,图像编码器可以称为Image Encoder,可以是已经训练好的图像编码器,用于将图像转化为特征向量表示,例如该图像编码器可以是Transformer模型中的编码器,也可以是其他模型中的编码器,在此不做限定。电子设备可以调用图像编码器对每个表情图像进行编码处理,得到每个表情图像对应的第一图像特征向量。
s13、电子设备调用对齐网络对第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量。
在具体实现中,该提示词用于提示对齐网络描述表情图像的内容和表达意图,例如该提示词为“详细描述表情图像的内容和表达意图”。针对每个表情图像,电子设备需要将该表情图像对应的第一图像特征向量和该提示词一起输入到对齐网络中处理,该对齐网络输出该表情图像对应的第一内容特征向量和第一意图特征向量。其中,该对齐网络可以是一个既提取表情图像的第一内容特征向量,又提取表情图像的第一意图特征向量的对齐网络;也可以由两个独立的对齐网络直接组成的对齐网络,例如该对齐网络可以包括第一对齐网络和第二对齐网络,第一对齐网络用于提取表情图像的第一内容特征向量,第二对齐网络用于提取表情图像的第一意图特征向量。
可选地,以该对齐网络是由两个独立的对齐网络组成的为例,该对齐网络包括第一对齐网络和第二对齐网络,该提示词包括第一提示词和第二提示词。电子设备调用对齐网络对第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量时,具体的实现方式可以包括以下步骤1和步骤2。其中,步骤1和步骤2的执行顺序不做限定。基于该方式,能够提高每个表情图像对应的第一内容特征向量和第一意图特征向量的准确性。
步骤1、电子设备调用第一对齐网络对第一图像特征向量和第一提示词进行处理,得到每个表情图像对应的第一内容特征向量。
在具体实现中,该第一提示词用于提示第一对齐网络描述表情图像的内容,例如该第一提示词为“详细描述表情图像的内容”。针对每个表情图像,电子设备需要将该表情图像对应的第一图像特征向量和第一提示词一起输入到第一对齐网络中处理,该第一对齐网络输出该表情图像对应的第一内容特征向量。
可选地,该第一对齐网络可以是其他计算机设备训练好后发送给电子设备使用的。这里的计算机设备可以是服务器或其他设备,服务器可以是独立的物理服务器,或者由多台服务器组成的服务器集群,或者是一个云端计算中心(如云服务器)。其中,所谓的云服务器是一种简单高效、安全可靠计算服务,其管理方式要比物理服务器更简单高效;可以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,CDN)以及大数据和人工智能平台等基础云计算服务。可以理解为,第一对齐网络是离线在云端训练好的,不会在边缘端进行训练。基于该方式,有利于减少对电子设备硬件资源的依赖,减少电子设备的负担。
以计算机设备是服务器为例,如图6所示,具体可以包括以下步骤A~步骤H。其中,步骤B~D和步骤E~F的执行顺序不做限定,可以先执行步骤B~D,再执行步骤E~F;也可以先执行步骤E~F,再执行步骤B~D,也可以同时执行步骤B~D和步骤E~F。
步骤A、服务器获取第一样本表情图像以及对应的第一文本信息。
在具体实现中,第一样本表情图像以及对应的第一文本信息可以组成一个第一训练样本,服务器需要获取多个这样的第一训练样本对模型进行训练。例如,该第一样本表情图像为图7A中(a)所示;该第一样本表情图像对应的第一文本信息为“一只白色的小狗,侧坐在地上,眼睛望着前方,小狗的头上有问号的标记”,如图7A中(b)所示。
步骤B、服务器调用图像编码器对第一样本表情图像进行编辑处理,得到第二图像特征向量。
在具体实现中,服务器也可以将第一样本表情图像输入到已经训练好的图像编码器中进行编码处理,可以得到第二图像特征向量。
步骤C、服务器调用第一初始对齐网络对第二图像特征向量和第一提示词进行处理,得到第二内容特征向量。
在具体实现中,这里的第一初始对齐网络可以是神经网络模型,如CLIP模型、BLIP模型等,在此不做限定。服务器可以将第二图像特征向量和第一提示词输入到第一初始对齐网络中进行处理,让第一初始对齐网络描述一下表情图像的内容,得到第二内容特征向量。
步骤D、服务器调用大语言模型对第二内容特征向量和第一提示词进行处理,得到第三内容特征向量。
在具体实现中,这里的大语言模型是已经使用大量文本数据训练好的深度学习模型,如LLaMA2模型、ChatGPT模型等。服务器可以将第二内容特征向量和第一提示词输入到大语言模型中进行处理,让大语言模型描述一下表情图像的内容,得到第三内容特征向量。
步骤E、服务器调用文本编码器对第一文本信息进行编码处理,得到第二文本特征向量。
在具体实现中,文本编码器可以称为Text Encoder,可以是已经训练好的文本编码器,用于将文本信息转化为特征向量表示,例如该文本编码器可以是Transformer模型中的编码器,也可以是BERT模型中的编码器,也可以是其他模型中的编码器,在此不做限定。服务器可以将第一文本信息输入到文本编码器中进行编码处理,得到第二文本特征向量。
步骤F、服务器调用大语言模型对第二文本特征向量和第三提示词进行处理,得到第三文本特征向量。
在具体实现中,该第三提示词用于提示大语言模型解释文本信息,例如该第三提示词为“重新解释文本信息的描述”。服务器可以将第二文本特征向量和第三提示词输入到大语言模型中进行处理,让大语言模型重新解释一下第一文本信息,得到第三文本特征向量。
步骤G、服务器基于第三内容特征向量和第三文本特征向量更新第一初始对齐网络的模型参数,得到第一对齐网络。
在具体实现中,服务器利用第三内容特征向量和第三文本特征向量计算第一模型损失值(Loss),这里的第一模型损失值可以是第三内容特征向量与第三文本特征向量之间的相似度,例如余弦相似度(Cosine Similarity),即计算两个向量之间夹角的余弦值,用来衡量两个向量在方向上的相似程度。服务器可以按照减少该第一模型损失值的方向,调整该第一初始对齐网络的模型参数;当训练达到次数后,完成训练,得到第一对齐网络。具体调整该第一初始对齐网络的模型参数的方式也可以采用随机梯度下降方法、自适应梯度算法等,在此不做限定。
步骤H、服务器向电子设备发送第一对齐网络。相应地,电子设备接收来自服务器的第一对齐网络。
在具体实现中,服务器训练好第一对齐网络后,便可以将该第一对齐网络发送给电子设备,以供电子设备使用。该第一对齐网络可以用于提取表情图像的第一内容特征向量。
总的来说,针对第一对齐网络的训练过程,如图7B所示,服务器获取多个第一训练样本,每个第一训练样本包括第一样本表情图像以及对应的第一文本信息。针对每个第一训练样本,服务器将获取的第一样本表情图像输入到已经训练好的图像编码器中进行编码处理,可以得到第二图像特征向量;将第二图像特征向量和第一提示词输入到第一初始对齐网络中进行处理,让第一初始对齐网络描述一下表情图像的内容,得到第二内容特征向量;将第二内容特征向量和第一提示词(即①和②)输入到大语言模型中进行处理,让大语言模型描述一下表情图像的内容,得到第三内容特征向量。另外,服务器也会将获取的第一样本表情图像对应的第一文本信息输入到文本编码器中进行编码处理,得到第二文本特征向量;将第二文本特征向量和第三提示词(即③和④)输入到大语言模型中进行处理,让大语言模型重新解释一下第一文本信息,得到第三文本特征向量。最后,服务器利用第三内容特征向量和第三文本特征向量计算第一模型损失值,按照减少该第一模型损失值的方向,调整该第一初始对齐网络的模型参数;当训练达到次数后,完成训练,得到第一对齐网络。
当然,如果电子设备有足够大的处理能力,也可以自己训练第一对齐网络,具体的训练过程也可以参考上述步骤A~步骤G,在此不做限定。
步骤2、电子设备调用第二对齐网络对第一图像特征向量和第二提示词进行处理,得到每个表情图像对应的第一意图特征向量。
在具体实现中,该第二提示词用于提示所述第二对齐网络描述表情图像的表达意图,例如该第一提示词为“详细描述表情图像的表达意图”。针对每个表情图像,电子设备需要将该表情图像对应的第一图像特征向量和第二提示词一起输入到第二对齐网络中处理,该第二对齐网络输出该表情图像对应的第一意图特征向量。
可选地,该第二对齐网络可以是其他计算机设备训练好后发送给电子设备使用的。这里的计算机设备也可以是服务器或其他设备,服务器可以是独立的物理服务器,或者由多台服务器组成的服务器集群,或者是一个云端计算中心(如云服务器)。可以理解为,第二对齐网络也是离线在云端训练好的,不会在边缘端进行训练。基于该方式,有利于减少对电子设备硬件资源的依赖,减少电子设备的负担。
以计算机设备是服务器为例,如图8所示,具体可以包括以下步骤a~步骤i。其中,步骤b~e和步骤f~g的执行顺序不做限定,可以先执行步骤b~e,再执行步骤f~g;也可以先执行步骤f~g,再执行步骤b~e,也可以同时执行步骤b~e和步骤f~g。
步骤a、服务器获取第一样本对话信息。
在具体实现中,该第一样本对话信息包括对话文本信息和第二样本表情图像。如图9A所示,该第一样本对话信息中的对话文本信息可以是:“今天不能一起去聚餐了”“昨天不是说今天有空吗?”“公司今天临时安排了新任务,有点忙”;该第二样本表情图像是在第一样本对话信息中用户发送的表情图像。
步骤b、服务器基于第一样本对话信息确定第二样本表情图像对应的第二文本信息。
可选地,服务器基于第一样本对话信息确定第二样本表情图像对应的第二文本信息时,具体的实现方式可以是:调用大语言模型对第一样本对话信息进行处理,得到第二样本对话信息;从第二样本对话信息中确定第二样本表情图像对应的第二文本信息。
在具体实现中,服务器可以将第一样本对话信息输入到大语言模型中进行处理,让大语言模型根据对话上下文,将第一样本对话信息中的所有表情图像替换为文本信息,从而输出第二样本对话信息,如图9B所示。此时,便可以从第二样本对话信息中找到第二样本表情图像对应的第二文本信息,即在图9B中,第二样本表情图像对应的第二文本信息为“我很疑惑”。其中,可以将第一样本对话信息和第二样本对话信息组成一个第二训练样本,服务器需要获取多个这样的第二训练样本对模型进行训练。
步骤c、服务器调用图像编码器对第二样本表情图像进行编辑处理,得到第三图像特征向量。
在具体实现中,服务器也可以将第二样本表情图像输入到已经训练好的图像编码器中进行编码处理,可以得到第三图像特征向量。
步骤d、服务器调用第二初始对齐网络对第三图像特征向量和第二提示词进行处理,得到第二意图特征向量。
在具体实现中,这里的第二初始对齐网络也可以是神经网络模型,如CLIP模型、BLIP模型等,在此不做限定。服务器可以将第三图像特征向量和第二提示词输入到第二初始对齐网络中进行处理,让第二初始对齐网络描述一下表情图像的表达意图,得到第二意图特征向量。
步骤e、服务器调用大语言模型对第二意图特征向量、第二提示词和对话文本信息中提取的上下文信息进行处理,得到第三意图特征向量。
在具体实现中,这里的大语言模型也可以是已经使用大量文本数据训练好的深度学习模型,如LLaMA2模型、ChatGPT模型等。服务器可以将第二意图特征向量、第二提示词以及对话文本信息中提取的上下文信息输入到大语言模型中进行处理,让大语言模型描述一下表情图像的表达意图,得到第三意图特征向量。其中,服务器可以采用训练好的视觉模型提取对话文本信息中的上下文信息,这里的视觉模型可以是BERT模型、GPT模型、ELMO模型等,在此不做限定。
步骤f、服务器调用文本编码器对第二文本信息进行编码处理,得到第四文本特征向量。
在具体实现中,该文本编码器也可以是Transformer模型中的编码器,也可以是BERT模型中的编码器,也可以是其他模型中的编码器,在此不做限定。服务器可以将第二文本信息输入到文本编码器中进行编码处理,得到第四文本特征向量。
步骤g、服务器调用大语言模型对第四文本特征向量、第四提示词和上下文信息进行处理,得到第四意图特征向量。
在具体实现中,第四提示词用于提示大语言模型描述文本信息的表达意图,例如该第四提示词可以是“详细描述文本信息的表达意图”。服务器可以将第四文本特征向量、第四提示词以及上述提取的上下文信息,输入到大语言模型中进行处理,让大语言模型描述一下第二文本信息的表达意图,得到第四意图特征向量。
步骤h、服务器基于第三意图特征向量和第四意图特征向量更新第二初始对齐网络的模型参数,得到第二对齐网络。
在具体实现中,服务器利用第三意图特征向量和第四意图特征向量计算第二模型损失值,这里的第二模型损失值可以是第三意图特征向量与第四意图特征向量之间的相似度,例如余弦相似度,即计算两个向量之间夹角的余弦值,用来衡量两个向量在方向上的相似程度。服务器可以按照减少该第二模型损失值的方向,调整该第二初始对齐网络的模型参数;当训练达到次数后,完成训练,得到第二对齐网络。具体调整该第二初始对齐网络的模型参数的方式也可以采用随机梯度下降方法、自适应梯度算法等,在此不做限定。
步骤i、服务器向电子设备发送第二对齐网络。相应地,电子设备接收来自服务器的第二对齐网络。
在具体实现中,服务器训练好第二对齐网络后,便可以将该第二对齐网络发送给电子设备,以供电子设备使用。该第二对齐网络可以用于提取表情图像的第一意图特征向量。
总的来说,针对第二对齐网络的训练过程,如图9C所示,服务器获取到第一样本对话信息,该第一样本对话信息包括对话文本信息和第二样本表情图像;将第一样本对话信息输入到大语言模型中处理,输出第二样本对话信息;从第二样本对话信息中确定第二样本表情图像对应的第二文本信息。服务器将第二样本表情图像输入到已经训练好的图像编码器中进行编码处理,得到第三图像特征向量。将第三图像特征向量和第二提示词输入到第二初始对齐网络中进行处理,让第二初始对齐网络描述一下表情图像的表达意图,得到第二意图特征向量;将第二意图特征向量、第二提示词以及对话文本信息中提取的上下文信息(即①、②和③)输入到大语言模型中进行处理,让大语言模型描述一下表情图像的表达意图,得到第三意图特征向量。服务器将第二文本信息输入到文本编码器中进行编码处理,得到第四文本特征向量;将第四文本特征向量、第四提示词以及上述提取的上下文信息(即③、④和⑤)输入到大语言模型中进行处理,让大语言模型描述一下第二文本信息的表达意图,得到第四意图特征向量。最后,服务器利用第三意图特征向量和第四意图特征向量计算第二模型损失值,按照减少该第二模型损失值的方向,调整该第二初始对齐网络的模型参数;当训练达到次数后,完成训练,得到第二对齐网络。
当然,如果电子设备有足够大的处理能力,也可以自己训练第二对齐网络,具体的训练过程也可以参考上述步骤a~步骤h,在此不做限定。
s14、电子设备利用多个表情图像、每个表情图像对应的第一内容特征向量和第一意图特征向量构建表情图像数据库。
在具体实现中,将多个表情图像、每个表情图像对应的第一内容特征向量和第一意图特征向量一起组成一个表情图像数据库,以便后续用于表情图像的查找。
S402、电子设备确定待处理信息的第一文本特征向量。
在本申请实施例中,这里的待处理信息可以是用户输入或搜索的文本信息(如词语、语句等),这里的文本信息可以是需要查找的表情图像所表达的情绪意图,也可以是对需要查找的表情图像的内容描述。也就是说,该图像查找方法既可以支持针对表情图像的表达意图的搜索,也可以支持针对表情图像的语义内容的搜索。
例如,该待处理信息可以是用户在表情图像搜索框中输入的文字。示例性地,如图10A所示,用户在表情图像搜索界面的表情图像搜索框中输入“疑惑”,这里的“疑惑”便是待处理信息;也可以在表情图像搜索界面的表情图像搜索框中输入“一只小狗或小猫,头上有问号”,这里的“一只小狗或小猫,头上有问号” 便是待处理信息。
又例如,该待处理信息可以是用户在聊天框中输入的未发送的文字。示例性地,如图10B所示,用户在聊天框中编辑输入的未发送的文字为“疑惑”,这里的“疑惑”便是待处理信息。
又例如,该待处理信息可以是用户在输入法界面中的表情图像搜索栏中输入的文字。示例性地,如图10C中(a)所示,用户在输入法界面中,点击表情按钮,显示表情界面;如图10C中(b)所示,该表情界面中包括Emoji选项、颜文字选项、表情图选项、斗图选项,用户可以点击表情图选项进入表情图像搜索界面(可以认为是本地TAB页);如图10C中(c)所示,该表情图像搜索界面包括表情图像搜索界栏,用户可以在表情图像搜索栏中输入需要搜索的文字,如“疑惑”,这里的“疑惑”便是待处理信息;当然,也可以在表情图像搜索栏中输入需要搜索的语句,如“一只小狗或小猫,头上有问号”,这里的“一只小狗或小猫,头上有问号” 便是待处理信息。
当然,该待处理信息也可以是其他方式输入的信息,在此不做限定。电子设备需要将这些待处理信息的第一文本特征向量提取出来,以便后续处理。
在一种可能的实现方式中,电子设备确定待处理信息的第一文本特征向量时,具体的实现方式可以是:调用文本编码器对待处理信息进行处理,得到待处理信息的第一文本特征向量。也就是说,电子设备也可以将待处理信息输入到已经训练好的文本编码器中处理,得到待处理信息的第一文本特征向量。这里的文本编码器可以是上述提及的文本编码器,也可以是其他文本编码器,在此不做限定。
S403、电子设备从图像数据库中查找该待处理信息匹配的目标表情图像。
在本申请实施例中,该目标表情图像对应的第一内容特征向量和第一意图特征向量与第一文本特征向量相匹配。可以理解为,在图像数据库中包括多个表情图像以及每个表情图像对应的第一内容特征向量和第一意图特征向量,电子设备需要在图像数据库中查找到与第一文本特征向量相匹配的第一内容特征向量和第一意图特征向量,即目标表情图像对应的第一内容特征向量和第一意图特征向量,此时目标表情图像即为该待处理信息匹配的表情图像。其中,目标表情图像可以是一个或多个。
可选地,电子设备可以记录该待处理信息匹配的目标表情图像,这样后续获取到相同的待处理信息时,便可以直接展示匹配的目标表情图像。基于该方式,有利于提高查找表情图像的效率。另外,如果在第一预设时间段内,用户未使用过第一界面中展示的第一目标表情图像,电子设备可以在第一界面中不展示该第一目标表情图像,也可以重新查找该待处理信息匹配的其他表情图像。
在一种可能的实现方式中,电子设备从图像数据库中查找该待处理信息匹配的目标表情图像时,具体的实现方式可以是:确定图像数据库中每个表情图像对应的第一内容特征向量与第一文本特征向量之间的第一向量距离,以及确定图像数据库中每个表情图像对应的第一意图特征向量与第一文本特征向量之间的第二向量距离;基于第一向量距离和第二向量距离确定待处理信息匹配的目标表情图像。基于该方式,能够从表达意图和语义内容两个维度查找该待处理信息匹配的目标表情图像,提高表情图像的查找效率。这里的向量距离可以是指向量之间的欧式距离,下面对基于第一向量距离和第二向量距离确定待处理信息匹配的目标表情图像的不同方式进行详细描述。
方式一:按照从小到大的顺序排列每个表情图像对应的第一向量距离,将前X个第一向量距离对应的表情图像确定为该待处理信息匹配的目标表情图像;按照从小到大的顺序排列每个表情图像对应的第二向量距离,将前Y个第二向量距离对应的表情图像确定为该待处理信息匹配的目标表情图像。其中,X和Y为正整数。
例如,假设X为1,Y为1;图像数据库包括表情图像a、表情图像b、表情图像c。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。将这些第一向量距离从小到大排列,最小的第一向量距离(即排列在第一个的第一向量距离)为0.3,因此可以将表情图像a作为待处理信息匹配的目标表情图像。表情图像a对应的第二向量距离为0.2,表情图像b对应的第二向量距离为0.5,表情图像c对应的第二向量距离为0.6。将这些第二向量距离从小到大排列,最小的第二向量距离(即排列在第一个的第二向量距离)为0.2,因此可以将表情图像a作为待处理信息匹配的目标表情图像。此时,只有表情图像a作为待处理信息匹配的目标表情图像。
又例如,假设X为1,Y为1;图像数据库包括表情图像a、表情图像b、表情图像c。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。将这些第一向量距离从小到大排列,最小的第一向量距离(即排列在第一个的第一向量距离)为0.3,因此可以将表情图像a作为待处理信息匹配的目标表情图像。表情图像a对应的第二向量距离为0.4,表情图像b对应的第二向量距离为0.3,表情图像c对应的第二向量距离为0.6。将这些第二向量距离从小到大排列,最小的第二向量距离(即排列在第一个的第二向量距离)为0.3,因此可以将表情图像b作为待处理信息匹配的目标表情图像。此时,表情图像a和表情图像b都可以作为待处理信息匹配的目标表情图像。
又例如,假设X为2,Y为2;图像数据库包括表情图像a、表情图像b、表情图像c。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。将这些第一向量距离从小到大排列,排列在前2个的第一向量距离为0.3和0.5,因此可以将表情图像a和表情图像b作为待处理信息匹配的目标表情图像。表情图像a对应的第二向量距离为0.2,表情图像b对应的第二向量距离为0.5,表情图像c对应的第二向量距离为0.6。将这些第二向量距离从小到大排列,排列在前2个的第二向量距离为0.2和0.5,因此也是将表情图像a和表情图像b作为待处理信息匹配的目标表情图像。此时,表情图像a和表情图像b作为待处理信息匹配的目标表情图像。
又例如,假设X为2,Y为2;图像数据库包括表情图像a、表情图像b、表情图像c。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。将这些第一向量距离从小到大排列,排列在前2个的第一向量距离为0.3和0.5,因此可以将表情图像a和表情图像b作为待处理信息匹配的目标表情图像。表情图像a对应的第二向量距离为0.5,表情图像b对应的第二向量距离为0.3,表情图像c对应的第二向量距离为0.4。将这些第二向量距离从小到大排列,排列在前2个的第二向量距离为0.3和0.4,因此可以将表情图像b和表情图像c作为待处理信息匹配的目标表情图像。此时,表情图像a、表情图像b、表情图像c都可以作为待处理信息匹配的目标表情图像。
方式二:对第一向量距离和第二向量距离进行计算处理,得到每个表情图像对应的第三向量距离;按照从小到大的顺序排列第三向量距离,将前N个第三向量距离对应的表情图像确定为该待处理信息匹配的目标表情图像;该N为正整数。
例如,假设N为1,图像数据库包括表情图像a、表情图像b、表情图像c;第一向量距离对应的权重为0.4,第二向量距离对应的权重为0.6。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。表情图像a对应的第二向量距离为0.2,表情图像b对应的第二向量距离为0.5,表情图像c对应的第二向量距离为0.6。因此,计算得到:表情图像a对应第三向量距离为0.24,表情图像b对应第三向量距离为0.5,表情图像c对应第三向量距离为0.64。将这些第三向量距离从小到大排列,最小的第三向量距离(即排列在第一个的第三向量距离)为0.24,因此可以将表情图像a作为待处理信息匹配的目标表情图像。
又例如,假设N为2,图像数据库包括表情图像a、表情图像b、表情图像c;第一向量距离对应的权重为0.4,第二向量距离对应的权重为0.6。表情图像a对应的第一向量距离为0.3,表情图像b对应的第一向量距离为0.5,表情图像c对应的第一向量距离为0.7。表情图像a对应的第二向量距离为0.2,表情图像b对应的第二向量距离为0.5,表情图像c对应的第二向量距离为0.6。因此,计算得到:表情图像a对应第三向量距离为0.24,表情图像b对应第三向量距离为0.5,表情图像c对应第三向量距离为0.64。将这些第三向量距离从小到大排列,排列在前2个的第三向量距离为0.24和0.5,因此可以将表情图像a和表情图像b作为待处理信息匹配的目标表情图像。
当然,电子设备基于第一向量距离和第二向量距离确定待处理信息匹配的目标表情图像的方式,也可以采用其他策略,在此不做限定。
在一种可能的实现方式中,电子设备从图像数据库中查找该待处理信息匹配的目标表情图像时,具体的实现方式可以是:调用第一对齐网络对第一文本特征向量进行处理,得到第四内容特征向量;调用第二对齐网络对第一文本特征向量进行处理,得到第五意图特征向量;确定图像数据库中每个表情图像对应的第一内容特征向量与第四内容特征向量之间的第三向量距离,以及确定图像数据库中每个表情图像对应的第一意图特征向量与第五意图特征向量之间的第四向量距离;基于第三向量距离和第四向量距离确定待处理信息匹配的目标表情图像。可以理解为,电子设备也需要利用第一对齐网络提取第一文本信息的内容特征向量(即第四内容特征向量),利用第二对齐网络提取第一文本信息的意图特征向量(第五意图特征向量),针对性地从语义内容和表达意图两个维度查找与第一文本信息匹配的目标表情图像,提高目标表情图像的准确性。另外,基于第三向量距离和第四向量距离确定待处理信息匹配的目标表情图像的具体实现方式可以参考上述基于第一向量距离和第二向量距离确定待处理信息匹配的目标表情图像的具体实现方式,在此不做赘述。
在一种可能的实现方式中,该方法还包括:在第一界面中显示待处理信息匹配的目标表情图像,该第一界面为以下界面中的任意一项:图像搜索界面、输入法界面、表情图像推荐界面。也就是说,电子设备在表情图像数据库中查找到待处理信息匹配的目标表情图像后,可以在第一界面中进行展示,以供用户进行选择。基于该方式,能够提高图像查找的可视化,提高目标表情图像展示的灵活性。
如图10A所示,该表情图像搜索界面包括表情图像搜索框和搜索按钮,假设用户在表情图像搜索框中输入了“疑惑”,当用户点击了搜索按钮时,电子设备便执行上述描述的图像查找方法,在表情图像数据库中查找到与“疑惑”相匹配的目标表情图像后,便将这些目标表情图像展示在表情图像搜索界面,如图11A所示,以供用户进行选择。
如图10B所示,假设用户在聊天框中编辑文字时输入了“疑惑”,该“疑惑”是用户未发送的文字,此时电子设备可以执行上述描述的图像查找方法,在表情图像数据库中查找到与“疑惑”相匹配的目标表情图像,然后弹出表情图像推荐界面,在该表情图像推荐界面中展示这些目标表情图像,如图11B所示,以供用户进行选择,有利于提高对话效率。
如图10C所示,假设用户在输入法界面中,点击表情按钮,显示表情界面;进一步点击显示表情界面中的表情图选项进入表情图像搜索界面(可以认为是本地TAB页);用户可以在表情图像搜索界面的表情图像搜索栏中输入需要搜索的文字,即“疑惑”;当用户点击了搜索按钮时,电子设备便执行上述描述的图像查找方法,在表情图像数据库中查找到与“疑惑”相匹配的目标表情图像后,便将这些目标表情图像展示在输入法界面,如图11C所示,以供用户进行选择。
当然,针对目标表情图像的展示顺序,电子设备可以根据用户的历史习惯或历史行为进行展示,例如按照在预设时间段内用户历史使用频率从多到少的顺序进行展示,也可以按照随机顺序进行展示,也可以按照用户添加表情图像的时间顺序(如从近到远)进行展示,在此不做限定。
在一种可能的实现方式中,该方法还包括:显示表情图像添加界面,该表情图像添加界面包括表情图像框、自定义标签框和保存选项;在检测到用户针对该保存选项的触发操作时,保存该表情图像框中添加的第一表情图像以及该自定义标签框中添加的该第一表情图像的第一标签;若该待处理信息与该第一标签相同,则将该第一表情图像确定为该目标表情图像。可以理解为,用户可以预先对自己收藏的表情图像添加标签并保存,当用户需要查找表情图像时,电子设备除了应用上述步骤S403查找到目标表情图像外,如果用户输入的待处理信息与用户之前保存的第一标签相同,可以将该第一标签对应的第一表情图像作为目标表情图像,可以一起展示给用户进行选择。基于该方式,能够提高查找目标表情图像的效率和目标表情图像的准确性,有利于提高线上聊天对话的效率。
如图12所示,该表情图像添加界面包括表情图像框、自定义标签框和保存选项。用户可以在表情图像框中添加第一表情图像,在自定义标签框中添加第一表情图像的第一标签。当用户点击了保存选项时,电子设备保存该表情图像框中添加的第一表情图像以及该自定义标签框中添加的该第一表情图像的第一标签。在用户查找表情图像的过程中,如果用户输入的待处理信息与用户曾经保存的第一标签相同时,电子设备也可以直接将该第一表情图像作为目标表情图像。
可见,基于上述所描述的方法,电子设备获取表情图像数据库;然后确定出待处理信息的第一文本特征向量,这里的待处理信息可以认为是用户输入的文本信息、用户搜索的文本信息等;最后可以从图像数据库中查找该待处理信息匹配的目标表情图像,并且展示该目标表情图像供用户选择。其中,该目标表情图像对应的第一内容特征向量和第一意图特征向量与第一文本特征向量相匹配;可以理解为,从图像数据库中查找该待处理信息匹配的目标表情图像是通过对表情图像的情绪意图和语义内容的多维度快速检索实现的,这样能够更加快速精确地查找到用户需要发送的表情图像,有利于提高线上聊天对话的效率。
请参见图13,图13示出了本申请实施例的一种图像查找装置1300的结构示意图。图13所示的图像查找装置可以电子设备,也可以是电子设备中的装置,或者是能够和电子设备匹配使用的装置。图13所示的图像查找装置可以包括获取单元1301、确定单元1302和查找单元1303。其中:
获取单元1301,用于获取表情图像数据库,该表情图像数据库包括多个表情图像、多个表情图像中每个表情图像对应的第一内容特征向量和第一意图特征向量;该第一内容特征向量表示描述表情图像的内容的特征向量,该第一意图特征向量表示描述表情图像的表达意图的特征向量;
确定单元1302,用于确定待处理信息的第一文本特征向量;
查找单元1303,用于从该图像数据库中查找该待处理信息匹配的目标表情图像,该目标表情图像对应的第一内容特征向量和第一意图特征向量与该第一文本特征向量相匹配。
在一种可能的实现方式中,获取单元1301,在获取表情图像数据库时,具体用于:获取用户在本地收藏的多个表情图像;调用图像编码器对多个表情图像中每个表情图像进行编码处理,得到每个表情图像对应的第一图像特征向量;调用对齐网络对第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量;该提示词用于提示对齐网络描述表情图像的内容和表达意图;利用多个表情图像、每个表情图像对应的第一内容特征向量和第一意图特征向量构建表情图像数据库。
在一种可能的实现方式中,该对齐网络包括第一对齐网络和第二对齐网络,该提示词包括第一提示词和第二提示词,获取单元1301,在调用对齐网络对该第一图像特征向量和提示词进行处理,得到每个表情图像对应的第一内容特征向量和第一意图特征向量时,具体用于:调用该第一对齐网络对第一图像特征向量和第一提示词进行处理,得到每个表情图像对应的第一内容特征向量;该第一提示词用于提示第一对齐网络描述表情图像的内容;调用该第二对齐网络对第一图像特征向量和第二提示词进行处理,得到每个表情图像对应的第一意图特征向量;该第二提示词用于提示第二对齐网络描述表情图像的表达意图。
在一种可能的实现方式中,查找单元1303,在从该图像数据库中查找该待处理信息匹配的目标表情图像时,具体用于:确定该图像数据库中每个表情图像对应的第一内容特征向量与该第一文本特征向量之间的第一向量距离,以及确定该图像数据库中每个表情图像对应的第一意图特征向量与该第一文本特征向量之间的第二向量距离;基于该第一向量距离和该第二向量距离确定该待处理信息匹配的目标表情图像。
在一种可能的实现方式中,查找单元1303,在基于该第一向量距离和该第二向量距离确定该待处理信息匹配的目标表情图像时,具体用于:对该第一向量距离和该第二向量距离进行计算处理,得到每个表情图像对应的第三向量距离;按照从小到大的顺序排列第三向量距离,将前N个第三向量距离对应的表情图像确定为该待处理信息匹配的目标表情图像;该N为正整数。
在一种可能的实现方式中,查找单元1303,在从该图像数据库中查找该待处理信息匹配的目标表情图像时,具体用于:调用第一对齐网络对第一文本特征向量进行处理,得到第四内容特征向量;调用第二对齐网络对第一文本特征向量进行处理,得到第五意图特征向量;确定图像数据库中每个表情图像对应的第一内容特征向量与第四内容特征向量之间的第三向量距离,以及确定图像数据库中每个表情图像对应的第一意图特征向量与第五意图特征向量之间的第四向量距离;基于该第三向量距离和该第四向量距离确定待处理信息匹配的目标表情图像。
在一种可能的实现方式中,该装置还包括显示单元,该显示单元,用于在第一界面中显示该待处理信息匹配的目标表情图像,该第一界面为以下界面中的任意一项:图像搜索界面、输入法界面、表情图像推荐界面。
在一种可能的实现方式中,该显示单元,还用于:显示表情图像添加界面,该表情图像添加界面包括表情图像框、自定义标签框和保存选项;该装置还包括处理单元,该处理单元,用于在检测到用户针对该保存选项的触发操作时,保存该表情图像框中添加的第一表情图像以及该自定义标签框中添加的该第一表情图像的第一标签;若该待处理信息与该第一标签相同,则将该第一表情图像确定为该目标表情图像。
对于图像查找装置可以是芯片或芯片***的情况,可参见图14所示的芯片的结构示意图。图14所示的芯片1400包括处理器1401、接口1402。可选的,还可包括存储器1403。其中,处理器1401的数量可以是一个或多个,接口1402的数量可以是多个。
对于芯片用于实现本申请实施例中电子设备的情况:
所述接口1402,用于接收或输出信号;
所述处理器1401,用于执行电子设备的数据处理操作。
可以理解的是,本申请实施例中的一些可选的特征,在某些场景下,可以不依赖于其他特征,比如其当前所基于的方案,而独立实施,解决相应的技术问题,达到相应的效果,也可以在某些场景下,依据需求与其他特征进行结合。相应地,本申请实施例中给出的图像查找装置也可以相应的实现这些特征或功能,在此不予赘述。
应理解,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序包括程序指令,当该程序指令在图像查找装置上运行时,实现上述任一方法实施例的功能。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机实现上述任一方法实施例的功能。
上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种图像查找方法,其特征在于,所述方法包括:
获取用户在本地收藏的多个表情图像;
调用图像编码器对所述多个表情图像中每个表情图像进行编码处理,得到每个表情图像对应的第一图像特征向量;
调用第一对齐网络对所述第一图像特征向量和第一提示词进行处理,得到每个表情图像对应的第一内容特征向量;所述第一提示词用于提示所述第一对齐网络描述表情图像的内容;
调用第二对齐网络对所述第一图像特征向量和第二提示词进行处理,得到每个表情图像对应的第一意图特征向量;所述第二提示词用于提示所述第二对齐网络描述表情图像的表达意图;
利用所述多个表情图像、所述每个表情图像对应的第一内容特征向量和第一意图特征向量构建表情图像数据库;所述第一内容特征向量表示描述表情图像的内容的特征向量,所述第一意图特征向量表示描述表情图像的表达意图的特征向量;
确定待处理信息的第一文本特征向量;
从所述表情图像数据库中查找所述待处理信息匹配的目标表情图像,所述目标表情图像对应的第一内容特征向量和第一意图特征向量与所述第一文本特征向量相匹配;
其中,从所述表情图像数据库中查找所述待处理信息匹配的目标表情图像,包括:
调用所述第一对齐网络对所述第一文本特征向量进行处理,得到第四内容特征向量;
调用所述第二对齐网络对所述第一文本特征向量进行处理,得到第五意图特征向量;
确定所述表情图像数据库中每个表情图像对应的第一内容特征向量与所述第四内容特征向量之间的第三向量距离,以及确定所述表情图像数据库中每个表情图像对应的第一意图特征向量与所述第五意图特征向量之间的第四向量距离;
基于所述第三向量距离和所述第四向量距离确定所述待处理信息匹配的目标表情图像。
2.根据权利要求1所述的方法,其特征在于,所述从所述表情图像数据库中查找所述待处理信息匹配的目标表情图像,包括:
确定所述表情图像数据库中每个表情图像对应的第一内容特征向量与所述第一文本特征向量之间的第一向量距离,以及确定所述表情图像数据库中每个表情图像对应的第一意图特征向量与所述第一文本特征向量之间的第二向量距离;
基于所述第一向量距离和所述第二向量距离确定所述待处理信息匹配的目标表情图像。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一向量距离和所述第二向量距离确定所述待处理信息匹配的目标表情图像,包括:
对所述第一向量距离和所述第二向量距离进行计算处理,得到每个表情图像对应的第三向量距离;
按照从小到大的顺序排列所述第三向量距离,将前N个第三向量距离对应的表情图像确定为所述待处理信息匹配的目标表情图像;所述N为正整数。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
在第一界面中显示所述待处理信息匹配的目标表情图像,所述第一界面为以下界面中的任意一项:图像搜索界面、输入法界面、表情图像推荐界面。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
显示表情图像添加界面,所述表情图像添加界面包括表情图像框、自定义标签框和保存选项;
在检测到用户针对所述保存选项的触发操作时,保存所述表情图像框中添加的第一表情图像以及所述自定义标签框中添加的所述第一表情图像的第一标签;
若所述待处理信息与所述第一标签相同,则将所述第一表情图像确定为所述目标表情图像。
6.一种电子设备,其特征在于,包括:一个或多个处理器,一个或多个存储器;其中,一个或多个存储器与一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器在执行所述计算机指令时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。
7.一种芯片,其特征在于,包括处理器和接口,所述处理器和所述接口耦合;所述接口用于接收或输出信号,所述处理器用于执行代码指令,以使权利要求1-5中任一项所述的方法被执行。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311184754.2A CN117076702B (zh) | 2023-09-14 | 2023-09-14 | 图像查找方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311184754.2A CN117076702B (zh) | 2023-09-14 | 2023-09-14 | 图像查找方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076702A CN117076702A (zh) | 2023-11-17 |
CN117076702B true CN117076702B (zh) | 2023-12-15 |
Family
ID=88711727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311184754.2A Active CN117076702B (zh) | 2023-09-14 | 2023-09-14 | 图像查找方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076702B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034203A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 表情推荐模型的训练、表情推荐方法、装置、设备及介质 |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
CN110598037A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种图像搜索方法、装置和存储介质 |
KR20210078927A (ko) * | 2019-12-19 | 2021-06-29 | 주식회사 카카오 | 인스턴트 메시징 서비스에서 이모티콘을 제공하는 방법, 이를 구현한 서버, 사용자 단말 및 어플리케이션 |
CN116431855A (zh) * | 2023-06-13 | 2023-07-14 | 荣耀终端有限公司 | 图像检索方法和相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021042763A1 (en) * | 2019-09-03 | 2021-03-11 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image searches based on word vectors and image vectors |
-
2023
- 2023-09-14 CN CN202311184754.2A patent/CN117076702B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034203A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 表情推荐模型的训练、表情推荐方法、装置、设备及介质 |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
CN110598037A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种图像搜索方法、装置和存储介质 |
KR20210078927A (ko) * | 2019-12-19 | 2021-06-29 | 주식회사 카카오 | 인스턴트 메시징 서비스에서 이모티콘을 제공하는 방법, 이를 구현한 서버, 사용자 단말 및 어플리케이션 |
CN116431855A (zh) * | 2023-06-13 | 2023-07-14 | 荣耀终端有限公司 | 图像检索方法和相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117076702A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023125335A1 (zh) | 问答对生成的方法和电子设备 | |
CN112269853B (zh) | 检索处理方法、装置及存储介质 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
CN112989767B (zh) | 医学词语标注方法、医学词语映射方法、装置及设备 | |
CN111881315A (zh) | 图像信息输入方法、电子设备及计算机可读存储介质 | |
CN113806473A (zh) | 意图识别方法和电子设备 | |
US20210405767A1 (en) | Input Method Candidate Content Recommendation Method and Electronic Device | |
WO2021180109A1 (zh) | 电子设备以及电子设备的搜索方法、介质 | |
CN113392687A (zh) | 视频标题生成方法、装置、计算机设备及存储介质 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN113742460B (zh) | 生成虚拟角色的方法及装置 | |
CN116227629B (zh) | 一种信息解析方法、模型训练方法、装置及电子设备 | |
CN112287070A (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 | |
KR20190061824A (ko) | 전자장치 및 그 제어 방법 | |
CN117076702B (zh) | 图像查找方法及电子设备 | |
CN114465975B (zh) | 一种内容推送方法、装置、存储介质和芯片*** | |
CN116861066A (zh) | 应用推荐方法和电子设备 | |
CN111597823B (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN112416984B (zh) | 一种数据处理方法及其装置 | |
CN114281937A (zh) | 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置 | |
CN113641799A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN113655933A (zh) | 文本标注方法及装置、存储介质及电子设备 | |
US20210191951A1 (en) | Acquiring entity webpage link based on topological relationship graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |