CN110442867A - 图像处理方法、装置、终端及计算机存储介质 - Google Patents

图像处理方法、装置、终端及计算机存储介质 Download PDF

Info

Publication number
CN110442867A
CN110442867A CN201910693744.9A CN201910693744A CN110442867A CN 110442867 A CN110442867 A CN 110442867A CN 201910693744 A CN201910693744 A CN 201910693744A CN 110442867 A CN110442867 A CN 110442867A
Authority
CN
China
Prior art keywords
mood
data
target
image
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910693744.9A
Other languages
English (en)
Inventor
王伟航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910693744.9A priority Critical patent/CN110442867A/zh
Publication of CN110442867A publication Critical patent/CN110442867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种图像处理方法、装置、终端及计算机存储介质,其中,所述方法包括:获取情绪数据及待处理的图像,识别所述情绪数据所反映的目标情绪,以根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式,最后采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。采用本发明实施例,能够解决传统技术中存在的图像增强效果较差、无法准确表达用户的真实意图等问题。

Description

图像处理方法、装置、终端及计算机存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及图像处理方法、装置、终端及计算机存储介质。
背景技术
社交是指社会上人与人的交际往来,是人们运用一定的方式(工具)传递信息、交流思想的意思,以达到某种目的的社会各项活动。随着科技的发展和互联网资源在生活中的应用,人与人之间的交往开始借助互联网实现,陌生人之间也可通过互联网进行社交,以进一步扩充和发展自己。
目前陌生人在社交过程中,往往借助于智能终端。用户在智能终端的陌生人社交应用中采用文字、语音及图像等动态的方式来展示自己,吸引与更多共鸣者互动。其中,图像是用户最常用的选择,用以发布个人动态。然而在实践中发现:由于智能终端提供的图像滤镜方式比较受限,导致图像增强效果不好,用户发布的图像效果有限,无法准确表达用户的真实意图。从而影响陌生人互动的积极性,影响陌生人社交应用的使用率,不利于陌生人社交的发展。
发明内容
本发明实施例提供了一种图像处理方法、装置、终端及计算机存储介质,可以改善图像效果,进而提升用户互动的积极性、提高社交应用的使用率。
一方面,本发明实施例公开提供了一种图像处理方法,所述方法包括:
获取情绪数据及待处理的图像,所述情绪数据包括情绪语音数据、情绪图像数据或者情绪文本数据;
识别所述情绪数据所反映的目标情绪;
根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
另一方面,本发明实施例还公开提供了一种图像处理装置,所述装置包括:
获取单元,用于获取情绪数据及待处理的图像,所述情绪数据包括情绪文本数据、情绪语音数据或情绪图像数据;
识别单元,用于识别所述情绪数据所反映的目标情绪;
匹配单元,用于根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
处理单元,用于采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
再一方面,本发明实施例还公开提供了一种终端,所述终端包括输入设备和输出设备,所述终端还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取情绪数据及待处理的图像,所述情绪数据包括情绪文本数据、情绪语音数据或者情绪图像数据;
识别所述情绪数据所反映的目标情绪;
根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
获取情绪数据及待处理的图像,所述情绪数据包括情绪文本数据、情绪语音数据或者情绪图像数据;
识别所述情绪数据所反映的目标情绪;
根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
本发明实施例可获取情绪数据及待处理的图像,并识别所述情绪数据所反映的目标情绪,以根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式,最后采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。这样基于情绪对图像进行滤镜处理,能解决传统技术中存在的图像增强效果较差、无法准确表达用户的真实意图及影响互动积极性等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像处理方法的流程示意图。
图2(a)和图2(b)是本发明实施例提供的两种情绪语音数据的波形示意图。
图3是本发明实施例提供的一种情绪划分示意图。
图4-图5是本发明实施例提供的另两种图像处理方法的流程示意图。
图6(a)-图6(h)是本发明实施例提供的一系列场景示意图。
图7是本发明实施例提供的另一种图像处理方法的流程示意图。
图8是本发明实施例提供的另一种图像处理方法的流程示意图。
图9是本发明实施例提供的一种图像处理装置的结构示意图。
图10是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”(如果存在)等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参见图1,是本发明实施例提供的一种图像处理方法的流程示意图。该图像处理方法可以由终端执行。如图1所示的方法包括如下步骤S101-S104。
S101、获取情绪数据及待处理的图像。
终端在检测到社交应用中的动态发布指令时,可响应该动态发布指令,获取情绪数据和待处理的图像。其中,动态发布指令可以是接收来自其他设备(如服务器)发送的,也可以是由终端检测到用户的动态发布操作而生成的,该动态发布操作可指用户需要在社交应用中发布动态而进行的相应操作,例如在社交应用中按照预设轨迹的滑动操作、或者针对社交应用中指定按钮的一系列点击操作等。
情绪数据指用于描述用户情绪的数据,这里的情绪是指对一些列主观认知经验的统称,是多种感觉、思想和行为综合产生的心理和生理状态。例如,情绪可包括但不限于生气、开心、激动、希望、或其他用于描述用户心理和生理状态的词汇。
在实际应用中,情绪数据的具体表现形式不做限定,其可包括但不限于以下中的至少一项:情绪语音数据、情绪图像数据、情绪视频数据以及情绪文本数据。其中,视频通常由一帧帧图像组成,因此情绪视频数据可视为由一帧帧情绪图像数据组成。终端对情绪视频数据的分析实质是对一帧帧情绪图像数据的分析,因此本发明下文以情绪图像数据替代情绪视频数据为例进行相关内容的阐述。
S102、识别情绪数据所反映的目标情绪。
在一种实施方式中,若情绪数据包括情绪语音数据,则步骤S102具体可包括如下步骤S11~S13:
S11、将情绪语音数据转换为情绪文本数据,并提取情绪文本数据中的文本特征。
终端通过语音识别程序将情绪语音数据转换为相对应的情绪文本数据。该语音识别程序可以是终端部署的***程序,也可以是第三方应用程序,用于实现语音到文本的转换。进一步终端采用文本特征提取算法来提取情绪文本数据中包含的文本特征。该文本特征用于反映情绪语音数据在文本上所展示的情绪。该文本特征提取算法为***自定义设置的,例如根据实际需求自定义设置的,其可包括但不限于文本特征向量算法、主成分分析法或其他用于提取文本特征的算法。
S12、提取情绪语音数据中的声学特征。
终端采用声学特征提取算法来提取情绪语音数据中的声学特征,该声学特征提取算法具体可为***自定义设置的,例如卷积神经网络算法、循环神经网络算法等。
可选地,该声学特征包括时域声学特征和/或频域声学特征。其中,时域声学特征是指情绪语音数据在时域上展示的用于反映用户情绪的特征。频域声学特征是指情绪语音数据在频域上展示的用于反映用户情绪的特征。
在实际应用中,终端采集的情绪语音数据实质是一个语音信号,包含语音在频域和时域上的特征。该语音信号(也可称为时频信号)的波形图如图2(a)所示,横坐标表示频率(frequency),纵坐标表示振动幅度(简称振幅,amplitude)。终端可以对语音信号中的时间、振幅、频率等多方面特征提取,以在时域上提取得到语音的时域声学特征。进一步终端可采用傅里叶变换算法将语音信号转换为语音频谱,如图2(b)示出一种语音频谱图的示意图。该语音频谱图是指语音信号在频域上的波形图,也可称为频谱图。即该语音频谱图是指将语音的时域信号转换为频域信号后所体现的波形图,该语音频谱图中的横坐标表示时间、纵坐标表示频率。终端可对语音频谱图中不同时段频域信号随时间的变化情况进行分析和识别,得到语音信号在频域上所展示的频域声学特征。
具体地,终端可采用频域特征提取算法对语音频谱图进行分析得到频域声学特征。该频域特征提取算法具体可为***自定义设置的,用于在声学上提取语音的频域特征,其可包括但不限于卷积神经网络算法、循环神经网络算法等。例如,终端采用卷积神经网络算法对语音频谱图进行局部特征提取,如针对语音频谱图进行移位、缩放或其他形式扭曲不变性的图像处理,得到频域声学特征。
S13、调用第一情绪模型对文本特征和声学特征进行融合识别,得到目标情绪。
终端调用第一情绪模型对文本特征和声学特征进行统一识别或融合识别,得到情绪语音数据所反映的目标情绪。该第一情绪模型可为***自定义设置的,例如根据用户偏好或实际需求设置的。该第一情绪模型为预先训练好的用于识别用户情绪的模型,其可包括但不限于前馈神经网络(feed forward,FF)、深度前馈神经网络(deep feed forward,DFF)、递归神经网络(recurrent neural network,RNN)、长短时记忆网络(long/shortterm memory,LSTM)或用于情绪识别的模型。
需要说明的是,本发明实施例若不考虑情绪识别的精确度,终端可仅考虑文本特征或声学特征,将对应识别的情绪作为情绪数据所反映的目标情绪。无需综合考虑文本特征和声学特征共同作用下的情绪识别,有利于节省终端计算资源,提升处理效率。
再一种实施方式中,若情绪数据包括情绪语音数据,则步骤S102包括如下步骤S21-S25。
S21、将情绪语音数据转换为情绪文本数据,调用第二情绪模型对情绪文本数据进行语义分析,得到第一情绪。
终端将情绪语音数据转换为情绪文本数据后,可调用第二情绪模型对情绪文本数据进行语义分析,得到第一情绪。该第二情绪模型同样可为预先训练好的情绪识别模型,具体可参考前述关于第一情绪模型的相关介绍,这里不再赘述。
具体实施时,终端通过第二情绪模型先对情绪文本数据进行语义分析,得到情绪文本数据中包含的一个或多个候选情绪词汇,该候选情绪词汇用于反映用户的情绪,例如生气、愤怒、烦躁、开心、愉悦等。具体地,终端可根据模型中已有的情绪词库对情绪文本数据进行语义分析,例如抓取句法规律、拆分词汇等分析处理,得到至少一个候选情绪词汇。该情绪词库为***自定义设置的,例如可以为语言查询和字数统计(linguistic inquiryand word count,CLIWC)词库和EmoCD情绪词库等,该情绪词库中包括有预先配置的至少一个参考情绪词汇。可选地,每个参考情绪词汇配置有相应地权值(也可称权重)。该权值用于指示参考情绪词汇所反映情绪的强烈程度,简称情绪强度。例如参考情绪词汇所反映的情绪强度越大,则该参考情绪词汇的权值越大;反之,参考情绪词汇所反映的情绪强度越小,则该参考情绪词汇的权值越小。
进一步终端可对候选情绪词汇和模型中的参考情绪词汇进行相似度匹配,计算得到候选情绪词汇和参考情绪词汇之间的相似度,进而将目标情绪词汇所反映的情绪确定为第一情绪。其中,目标情绪词汇为至少一个候选情绪词汇中满足以下条件的词汇:候选情绪词汇和参考情绪词汇之间的相似度大于或等于预设阈值(具体可为第三阈值),且该参考情绪词汇的权值大于或等于第四阈值。该第三阈值和第四阈值具体可为***自定义设置的,例如根据用户喜欢或实际需求自定义设置的,或者根据一系列实验数据统计获得的数值等。它们可以相等,也可不等,本发明不做限定。
本发明涉及的相似度匹配,具体实施方式并不做限定。例如,终端设备可采用如下相似度匹配算法(也可称相似度计算法)中的任一项或多项的组合来计算词汇间的相似度:词频(term frequency,TF)计算法、词频-逆文件频率(term frequency-inverse documentfrequency,TF-IDF)计算法、词汇到向量的转换(word2Vec)计算法或其他求取词汇相似度的算法等。
S22、调用第三情绪模型对情绪语音数据进行声学分析,得到第二情绪。
终端通过第三情绪模型可对情绪语音数据进行声学特征分析,获得情绪语音数据中包含的声学特征。该声学特征按照频域和时域划分有时域声学特征和频域声学特征。进一步第三情绪模型可依据情绪语音数据中包含的时域声学特征和/或频域声学特征,分析得到情绪语音数据所反映的第二情绪。本发明下文以综合分析时域声学特征和频域声学特征为例,详述获得第二情绪的具体实施。
具体地,终端通过第三情绪模型可在时域上对情绪语音数据进行特征提取,得到情绪语音数据中包含的时域声学特征。该时域声学特征是指情绪语音数据在时域方向上包含的时域特征,其可包括但不限于语速、音长、梅尔倒谱系数(mel-scale frequencycepstral coefficients,MFCC)、感知线性预测(perceptual linear prediction,PLP)、共振峰或其他时域特征参数等。相应地,终端通过第三情绪模型还可在频域上对情绪语音数据进行特征提取,得到情绪语音数据中包含的频域声学特征。该频域声学特征是指情绪语音数据在频域方向上所包含的频域特征,其可包括但不限于短时能量、短时平均振幅、过零率或其他频域特征参数等。
进一步第三情绪模型可对时域声学特征和频域声学特征进行综合分析,得到第二情绪。例如,第三情绪模型可分析时域声学特征和频域声学特征各自所处的阈值区间范围,进而得到该阈值区间范围所对应的情绪。该第三情绪模型具体可为预先训练好的情绪识别模型,可对应参考前述关于第一情绪模型的相关介绍,这里不再赘述。
S23、计算第一情绪和第二情绪之间的相似度。
终端采用预设的相似度计算法来计算第一情绪和第二情绪之间的相似度,便于后续基于该相似度确定情绪语音数据所反映的目标情绪。关于该相似度计算法可对应参考前述关于相似度匹配算法的相关阐述,这里不再赘述。
S24、当相似度大于或等于第一阈值时,将第一情绪或第二情绪确定为目标情绪。
S25、当相似度小于第一阈值时,将第一情绪确定为目标情绪。
终端若确定到第一情绪和第二情绪之间的相似度大于或等于第一阈值,则认为第一情绪和第二情绪较相近,例如第一情绪为开心,第二情绪为愉悦。终端可将第一情绪或第二情绪确定为目标情绪。
反之,若第一情绪和第二情绪之间的相似度小于第一阈值,则认为第一情绪和第二情绪差异较大或相互矛盾,例如第一情绪为愉悦,第二情绪为烦躁。为保证情绪识别的准确性,终端可从第一情绪和第二情绪中选择得到目标情绪。例如,终端可从第一情绪和第二情绪中任选一种情绪作为目标情绪。又如情绪识别中,通常文本语义分析的准确度高于声学特征分析,因此终端可将语义分析得到的第一情绪确定为目标情绪。
需要说明的是,若不考虑情绪识别的精确度,终端可仅考虑文本语义分析或语音声学分析,将对应识别的情绪作为情绪数据所反映的目标情绪,无需综合考虑文本语义(文本特征)和语音声学(声学特征),从而节省了终端的计算资源,有利于提升计算效率。
本发明实施例涉及的情绪(目标情绪)的划分颗粒度不做限定。例如,当情绪的划分颗粒度较大时,情绪描述越模糊,例如情绪仅有正向和负向之分,可分为积极情绪和消极情绪。反之,当情绪的划分颗粒度越小时,情绪描述越精确。其中,大颗粒度的情绪中可包含若干小颗粒度的情绪。
举例来说,如图3示出一种情绪划分的示意图。如图3中划分有三种颗粒度的情绪,包含第一层级、第二层级及第三层级的情绪。其中,第一层级是按照情绪的正负向划分的,包括有积极情绪和消极情绪。第二层级是沿着正负向情绪划分后,每种情绪包含有若干种带强度的情绪。如图,积极情绪中包含有乐趣情绪和乐观情绪,消极情绪中包含有烦躁情绪和反感情绪。进一步第三层级是对第二层级中包含的各个情绪做进一步细微地、离散地情绪划分。例如图示中,乐趣情绪中包含有兴高采烈、愉悦和娱乐,乐观情绪中包含有希望和期望。烦躁情绪中包含有忐忑、不满和沮丧。反感情绪中包含有鄙视和讨厌。
在实际处理中,由于文本语义分析获得情绪的颗粒度和语音声学分析获得情绪的颗粒度可能不相同,则终端可利用颗粒度较小的情绪识别方式来进一步验证或细化颗粒度较小的情绪识别方式。例如若文本语义分析获得情绪的颗粒度大于语音声学分析获得情绪的颗粒度,即第二情绪模型的情绪颗粒度大于第三情绪模型的情绪颗粒度,则终端在调用第二情绪模型基于文本语义识别情绪数据所反映的第一情绪后,可进一步调用第三情绪模型基于声学分析识别情绪数据所反映的第二情绪,以进一步验证或精细化第一情绪。便于后续更为精确地获取情绪数据所反映的目标情绪,以提升情绪识别的精确度。
如上文所述,若第一情绪和第二情绪之间的相似度大于或等于第一阈值,则终端可认为第一情绪和第二情绪属于同一情绪类型。由于第二情绪的颗粒度小于第一情绪的颗粒度,第二情绪所描述的情绪更精细,则终端可将第一情绪确定为情绪数据所反映的目标情绪。反之,若第一情绪和第二情绪之间的相似度小于第一阈值,则终端认为第一情绪和第二情绪不属于同一类情绪类型,此时可发送提示信息,提示用户是否将第一情绪确定为情绪数据所反映的目标情绪。这样有利于提升情绪识别的精确度,同时让用户有参与感,有利于提升用户体验。
再一种实施方式中,若情绪数据包括情绪文本数据,则终端可对情绪文本数据进行语义分析获得该情绪文本数据所反映的目标情绪,具体可对应参考前述步骤S11或S21的具体实施方式,这里不再赘述。
再一种实施方式中,若情绪数据包括情绪图像数据,则步骤S102包括如下步骤S31-S35。
S31、提取情绪图像数据中的目标面部表情,并得到目标面部表情所反映的第三情绪。
终端可采用人脸识别算法对情绪图像数据进行人脸识别,得到情绪图像数据中包含的目标面部表情以及该目标面部表情所反映的第三情绪。该人脸识别算法可为***自定义设置的,其可包括但不限于基于几何特征的人脸情绪识别算法、局部特征分析算法、特征脸算法、神经网络算法等。
以基于几何特征的人脸情绪识别算法为例,终端可采用几何特征对情绪图像数据进行人脸识别,例如通常提取人眼、口、鼻子、酒窝等重要特征器官作为分类特征,得到情绪图像数据中包含的人脸图像。进一步可对人脸图像进行表情识别,得到该人脸图像包含的目标面部表情,进而获得该目标面部表情反映的第三情绪。例如若目标面部表情为微笑,则该目标面部表情所反映的第三情绪为开心等。
S32、提取情绪图像数据中的目标肢体行为,并得到该目标肢体行为所反映的第四情绪。
终端可采用行为识别算法对情绪图像数据进行行为识别,得到该情绪图像数据中包含的目标肢体行为以及该目标肢体行为所反映的第四情绪。该行为识别算法可为预先训练好的,其可包括但不限于基于深度学习的人体行为算法、基于卷积神经网络的人体行为算法等等。
可选地,行为识别算法的输出结果既可为情绪图像数据中包含的目标肢体行为,也可为该目标肢体行为所反映的第四情绪。当行为识别算法的输出结果是情绪图像数据中包含的目标肢体行为时,由于不同的肢体行为可对应不同的情绪,因此终端还需从肢体情绪映射关系表中获得该目标肢体行为对应所反映的第四情绪。其中,肢体情绪映射表中包括一组或多组肢体行为和情绪之间的映射关系,每种肢体行为对应一种情绪,一种情绪可对应一种或多种肢体行为。例如,如下表1示出一种肢体情绪映射表的示意图。
表1
序号 肢体行为 用户情绪
1 肢体行为1 开心
2 肢体行为2 愤怒
....... ....... ......
S33、计算第三情绪和第四情绪之间的相似度。
S34、当第三情绪和第四情绪之间的相似度大于或等于第二阈值时,将第三情绪或第四情绪确定为目标情绪。
S35、当第三情绪和第四情绪之间的相似度小于第二阈值时,将第三情绪确定为目标情绪。
终端采用相似度计算法计算第三情绪和第四情绪之间的相似度。当第三情绪和第四情绪之间的相似度小于或等于第二阈值,则表示第三情绪和第四情绪较相似,此时终端可将第三情绪或者第四情绪作为情绪数据所反映的目标情绪。
反之,当第三情绪和第四情绪之间的相似度大于第二阈值,则表示第三情绪和第四情绪差异较大,此时终端可根据预设判定规则从第三情绪和第四情绪中得到目标情绪。该预设判定规则为***自定义设置的,例如直接将面部表情所反映的第三情绪确定为目标情绪等。
可选地,若不考虑情绪识别的精确度,终可端将目标面部表情所反映的第三情绪或者目标肢体行为所反映的第四情绪确定为目标情绪。无需综合考虑面部表情及肢体行为来分析目标情绪,这样可节省终端的计算资源,提升处理效率。
可选地在实际处理过程中,由于面部表情反映情绪的颗粒度和肢体行为反映情绪的颗粒度划分可能不相同,此时终端可利用颗粒度较小的情绪识别方式来验证或细化颗粒度较大的情绪识别方式,可对应参考前述实施例中的相关介绍,这里不再赘述。
需要说明的是,本发明实施例涉及的几种具体实施方式可以单独使用,也可多种结合使用。例如若情绪数据包括情绪语音数据和情绪图像数据时,终端可同时结合情绪语音数据和情绪图像数据各自的情绪识别方式,综合分析获得情绪数据所反映的目标情绪,同理可对应参考前文关于情绪语音数据和情绪图像数据获得目标情绪的具体实施方式,这里不再赘述。
S103、根据目标情绪为待处理的图像匹配相对应的目标滤镜模式。
终端获得目标情绪后,可获取情绪滤镜映射表,进一步从该情绪滤镜映射表中获取与目标情绪对应的目标滤镜模式。其中,该情绪滤镜映射表可为预先配置在终端的本地数据库中,也可配置在远端服务器中。该情绪滤镜映射表中包括有一组或多组情绪和滤镜模式之间的映射关系,每种情绪对应一种滤镜模式,一种滤镜模式可对应一种或多种情绪。示例性地,如下表2示出一种情绪滤镜映射表的示意图。
表2
S104、采用目标滤镜模式对待处理的图像进行滤镜处理,得到目标图像。
本发明实施例由于待处理的图像通常为编码后的图像,例如JPG、PNG等格式的图像,终端需对待处理的图像进行解码,得到解码后的图像。然后,终端通过中央处理器(central processing unit,CPU)采用目标滤镜模式对解码后的图像进行滤镜和渲染,得到目标图像。由此可见,终端针对待处理图像进行情绪滤镜,有利于提升图像增强效果,避免出现词不达意,无法准确表达用户真实意图等问题。
请参见图4,是本发明实施例提供的另一种图像处理方法的流程示意图。如图4所示的方法包括步骤S401-S405。
S401、响应于社交应用中的动态发布指令,采集情绪数据。
S402、若情绪数据中包括情绪图像数据,则将情绪图像数据确定为待处理的图像。
终端若检测到针对社交应用的动态发布指令,则可响应该动态发布指令,采集情绪数据。该情绪数据可为指定用户的情绪数据,也可为指定用户在指定时间段内的情绪数据。其中,情绪数据可对应参考上文所述,具体可为以下中的至少一项:情绪语音数据、情绪图像数据、情绪文本数据及情绪文本数据。该指定时间段可由用户自行设置或者***默认,例如60秒(s)等。指定用户可以为任一用户,示例性地终端可对指定用户进行音频录制,得到情绪语音数据;对指定用户进行跟踪拍摄,得到情绪图像数据等。
若情绪数据中包含情绪图像数据,则终端可直接将情绪图像数据作为待处理的图像,避免用户重输入待处理的图像,减少用户操作,有利于提升图像处理的效率。
S403、识别所述情绪数据所反映的目标情绪;
S404、根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
S405、采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。可选地,终端还可在社交应用中发布该目标图像,以供用户查阅。
请参见图5,是本发明实施例提供的另一种图像处理方法的流程示意图。如图4所示的方法包括步骤S501-S505。
S501、响应于社交应用中的动态发布指令,采集情绪数据。
终端若检测到针对社交应用的动态发布指令,则可响应该动态发布指令,采集情绪数据。关于动态发布指令及情绪数据可对应参考上文所述,这里不再赘述。
S502、按照该动态发布指令获取待处理的图像。
本发明实施例若动态发布指令中携带有待处理的图像,则终端可直接通过解析动态发布指令获得待处理的图像。或者,若动态发布指令中未携带待处理的图像,但用于指示获取待处理的图像,则终端可根据动态发布指令的指示获取待处理的图像,该待处理的图像可为用户输入的,也可为其他设备(如服务器)发送来的。
可选地,终端在采集情绪数据后,可发送提示消息,提示用户是否输入待处理的图像。该提示消息的实施方式不做限定,例如通过弹窗(悬浮窗口)、短信、字幕、图片等方式提示用户是否选择输入待处理的图像。
S503、识别所述情绪数据所反映的目标情绪。
S504、根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式。
S505、采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
举例来说,以社交应用为回音应用为例。参见图6(a)-图6(e)示出一种采集情绪数据和待处理的图像的场景示意图。如图6(a),用户启用回音应用,进入回音应用的使用界面,具体如图6(b)所示。用户在使用界面中选择发布动态,进入图6(c)所示的音频录制界面。用户长按音频录制按键,为该用户录制指定时间段的情绪数据,这里即为情绪语音数据。如图6(d)示出录制了38秒的情绪数据。进一步用户点击下一步按钮(图示为用于指示下一步操作的图标,该图标具体为包含有大于符号的圆圈图标),进入图6(e)所示界面,用户主动选取所需用做动态发布的待处理的图像。可选地,在图6(d)-图6(e)之间还可新增显示提示界面(图未示),提示用户是否选择待处理的图像,若终端检测到用户需选择待处理的图像,则跳转至图6(e)供用户选择输入待处理的图像。
需要说明的是,关于图4和图5中未描述的内容,可对应参考前述图1所述方法实施例中的描述,这里不再赘述。
可选地终端在获得目标图像后,还可执行图7中的步骤S701-S705。
S701、若情绪数据中包括情绪语音数据或情绪文本数据,将情绪语音数据或情绪文本数据合成到目标图像中,得到合成图像。
在一种实施方式中,若情绪数据中包含情绪语音数据,则终端可将情绪语音数据转换为相应地情绪文本数据,进一步将情绪文本数据以图像字幕的方式添加到目标图像中,从而获得合成图像。其中,情绪文本数据添加到目标图像中的具***置并不做限定,例如可添加到目标图像的左上角、右上角或居中等位置。关于情绪语音数据到情绪文本数据的转换可对应参考前述实施例中的相关介绍,这里不再赘述。
再一种实施方式中,若情绪数据中包含情绪语音数据,则终端可将情绪语音数据嵌入到目标图像中,得到合成图像。
再一种实施方式中,若情绪数据直接包含情绪文本数据,则终端可将该情绪文本数据以图像字幕的方式添加到目标图像中,从而获得合成图像。
再一种实施方式中,若情绪数据包含情绪文本数据,则终端可将情绪文本数据转换为相应地情绪语音数据,将该情绪语音数据嵌入到目标图像中,从而获得合成图像。其中,情绪文本数据到情绪语音数据的转换方式并不做限定,例如终端采用预先配置好的声音模式(如童声、女高音等)来播放情绪文字数据,以形成相应地情绪语音数据。
需要说明的是,上述几种合成图像获得的实施方式可以单独使用,也可结合使用。例如终端既可将情绪语音数据嵌入到目标图像中,也可将情绪语音数据对应的情绪文本数据添加到目标图像中,以得到包含语音和文本数据的合成图像等。
S702、在社交应用中发布合成图像。
本发明实施例终端可进一步响应于图像发布指令,在社交应用中发布合成图像。该图像发布指令与上文的动态发布指令可以指同一个指令,也可指不同的指令,本发明不做限定。当它们为不同指令时,该图像发布指令指终端检测到进行图像发布操作时生成的指令,该动态发布指令指终端检测到进行数据采集操作时生成的指令,用于采集情绪数据和/或待处理的图像等。其中,图像发布操作为***自定义设置的操作,例如点击发布按钮等;相应地数据采集操作也可为***自定义设置的操作,例如点击语音录制按钮等等。
举例来说,参考前述图6(a)-图6(e)所述例子中采集的情绪数据和待处理的图像,假设终端识别情绪数据所反映的目标情绪为开心。参见图6(f)-图6(h)示出社交应用中发布合成图像的具体场景示意图。具体地,终端在识别情绪数据所反映的目标情绪为开心后,可按照开心对应的目标滤镜模式对待处理的图像进行滤镜处理,如图6(f)所示可在待处理的图像上渲染笑脸开心的表情,得到目标图像。且,终端还可将录制的情绪数据(情绪语音数据)嵌入到目标图像中,得到合成图像,具体如图6(g)。进一步用户可点击回音应用中的发布按钮,在回音应用中发布该合成图像,如图6(h)所示。
S703、响应于针对合成图像的第一查看操作,显示合成图像中的目标图像。
终端若检测到针对合成图像的第一查看操作,则响应该第一查看操作,在显示屏中显示合成图像中包含的目标图像。该第一查看操作为***自定义设置的,例如根据产品需求或用户偏好自定义设置。例如,用户在社交应用中浏览合成图像,终端若检测到针对该合成图像的浏览操作时,可显示合成图像中包含的目标图像,并不播放情绪语音数据或者显示合成图像中包含的情绪文本数据等。
S704、响应于针对合成图像的第二查看操作,显示合成图像中的目标图像并播放目标语音数据,其中该目标语音数据可以是情绪数据中包含的情绪语音数据,也可是情绪数据中包含的情绪文本数据所转换获得的语音数据。
不论情绪数据中包含情绪语音数据和/或情绪文本数据,终端若检测到针对合成图像的第二查看操作,则响应该第二查看操作,在显示屏中显示合成图像中的目标图像,并播放目标语音数据。其中,若情绪数据中包含情绪语音数据,则该目标语音数据可直接为情绪语音数据。若情绪数据中包含情绪文本数据,则该目标语音数据可为情绪文本数据对应转换的语音数据。若情绪数据包含情绪文本数据及情绪语音数据,为准确传达用户的真实意图,该目标语音数据可为情绪语音数据。也可为***默认设置的情绪文本数据对应转换的语音数据等。
第二查看操作同样可为***自定义设置的,且与第一查看操作不相同。例如终端若在社交应用中检测到针对合成图像的双击操作,则终端可进入全屏显示合成图像中的目标图像,并播放合成图像中的情绪语音数据。
可选地,终端响应该第二查看操作后,还可同步显示目标文本数据,该目标文本数据可为情绪数据中包含的情绪文本数据,也可为情绪数据中包含的情绪语音数据所对应转换的本文数据。这样有利于保证用户的观看体验,提升社交应用的利用率。
S705、响应于针对合成图像的第三查看操作,显示合成图像中的目标图像及目标文本数据,该目标文本数据可为情绪数据中包含的情绪文本数据,或者情绪数据中包含的情绪语音数据对应转换的文本数据。
终端若检测到针对合成图像的第三查看操作,则响应该第三查看操作,在显示屏上显示合成图像中的目标图像以及目标文本数据。其中,若情绪数据中包含有情绪文本数据,则该目标文本数据可直接为情绪文本数据。若情绪数据中包含情绪语音数据,则该目标文本数据可为情绪语音数据对应转换的文本数据。若情绪数据中包含情绪语音数据和情绪文本数据,则为节省终端资源,该目标文本数据可为情绪文本数据。可选地,也可为情绪语音数据对应转换的文本数据,本发明不做限定。
第三查看操作同样可为***自定义设置的,它与第一查看操作和第二查看操作均不相同。例如终端若在社交应用中检测到针对合成图像的点击操作时,可显示合成图像中的目标图像,并同步显示情绪文本数据等。
在实际应用中,终端可执行步骤S703-S705中的任一个或多个步骤。当终端可执行多个步骤时,各个步骤的执行先后顺序不做限定,例如终端可先执行步骤S705,后执行步骤S703。
本发明实施例社交的终端可以包括智能手机(如Android手机、IOS手机等)、个人电脑、平板电脑、掌上电脑、移动互联网设备(mobile internet devices,MID)或穿戴式智能设备等互联网设备,本发明实施例不作限定。
通过实施本发明实施例,可通过多感官的内容呈现,例如通过声音和视觉结合的方式来呈现有声音或文字的图像,让用户能在社交应用中更准确、更丰富地展示发布内容,有利于促进社交应用的趣味性、互动性及使用率。且,基于情绪识别来增强发布内容(图像),还解决了传统技术中存在的图像增强效果不好、无法表达用户的真实意图等问题。
请参见图8,是本发明实施例提供的一种基于场景应用的图像处理方法的流程示意图。如图8所示的方法包括步骤S801-S803。
S801、响应于社交应用中的动态发布指令,获取情绪数据及待处理的图像。
本发明实施例终端若检测到社交应用中的动态发布指令,可响应于该社交应用中的动态发布指令,获取情绪数据及目标图像。具体地终端可获取情绪数据及待处理的图像,基于情绪数据对该待处理的图像进行处理得到目标图像,关于目标图像的获取可对应参考前述图1、图4及图5任一方法实施例中的描述,此处不再赘述。
其中,动态发布指令可为终端检测到用户在社交应用中进行动态发布操作所生成的指令,该动态发布操作可为在社交应用中针对指定动态发布按键的点击操作、滑动操作等。该社交应用是指通过网络达到用户交际来往目的的软件,其可包括但不限于博客类应用、微博类应用、论坛类应用、社交网络类应用(例如facebook)及即时通讯类应用(例如微信、QQ等)等。
S802、识别情绪数据所反映的目标情绪,并为待处理的图像匹配与目标情绪对应的目标滤镜模式。
S803、采用目标滤镜模式对待处理的图像进行滤镜处理,得到目标图像。
S804、在社交应用中发布目标图像。
可选地,考虑动态(图像)发布的趣味性及完整性、增强用户社交,终端可考虑将情绪数据与目标图像合成,得到合成图像,以在社交应用中发布合成图像。具体地:
在一种实施方式中,若情绪数据中仅包括情绪图像数据,则终端响应该动态发布指令,可在社交应用中发布目标图像。
再一种实施方式中,若情绪数据中包括情绪语音数据或情绪文本数据,则终端可将情绪语音数据或情绪文本数据合成到目标图像中,得到合成图像。进而在社交应用中发布该合成图像,完成相应动态的发布。关于合成图像的阐述可对应参见图7所述方法实施例中的相关阐述,此处不再赘述。关于在社交应用中发布动态的场景应用示例,可对应参考前述图6(a)-图6(h)本发明实施例的相关介绍,用户在社交应用中按序操作完成社交应用中合成图像的发布,此处不再赘述。
通过实施本发明实施例,可通过多感官的内容呈现,例如通过声音和视觉结合的方式来呈现有声音或文字的图像,让用户能在社交应用中更准确、更丰富地展示发布内容,有利于促进社交应用的趣味性、互动性及使用率。且,基于情绪识别来增强发布内容(图像),还解决了传统技术中存在的图像增强效果不好、无法表达用户的真实意图等问题。
基于上述图像处理方法实施例的描述,本发明实施例还公开一种图像处理装置,该装置可以是运行于终端中的一个计算机程序(包括程序代码)。该装置可以执行如上图1-图8中任一方法实施例所描述的内容。请参见图9,该图像处理装置800可以运行如下单元:
获取单元801,用于获取情绪数据及待处理的图像,所述情绪数据包括情绪语音数据、情绪图像数据或情绪文本数据;
识别单元802,用于识别所述情绪数据所反映的目标情绪;
匹配单元803,用于根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
处理单元804,用于采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
在一种实施方式中,获取单元801具体用于响应于社交应用中的动态发布指令,采集情绪数据;若所述情绪数据中包括情绪图像数据,将所述情绪图像数据确定为所述待处理的图像。
再一种实施方式中,获取单元801具体用于响应于社交应用中的动态发布指令,采集情绪数据;按照所述动态发布指令获取待处理的图像。
再一种实施方式中,处理单元804还用于若所述情绪数据中包括情绪语音数据或情绪文本数据,将所述情绪语音数据或情绪文本数据合成到所述目标图像中,得到合成图像;在所述社交应用中发布所述合成图像。
再一种实施方式中,处理单元804还用于响应于针对所述合成图像的第一查看操作,显示所述合成图像中的目标图像;或者,响应于针对所述合成图像的第二查看操作,显示所述合成图像中的目标图像并播放目标语音数据,所述目标语音数据为所述情绪语音数据或者所述情绪文本数据对应的语音数据;或者,响应于针对所述合成图像的第三查看操作,显示所述合成图像中的目标图像及目标文本数据,所述目标文本数据为所述情绪文本数据,或者所述情绪语音数据对应的文本数据。
再一种实施方式中,匹配单元803具体用于获取情绪滤镜映射关系表,所述情绪滤镜映射关系表中记录有情绪和滤镜模式的映射关系,所述映射关系为一种滤镜模式对应至少一种情绪;从所述情绪滤镜映射关系表中获取与所述目标情绪相对应的所述目标滤镜模式。
再一种实施方式中,若情绪数据包括情绪语音数据,则识别单元802具体用于将所述情绪语音数据转换为对应的情绪文本数据,并提取所述对应的情绪文本数据中的文本特征;提取所述情绪语音数据中的声学特征;调用第一情绪模型对所述文本特征和所述声学特征进行融合识别,得到所述目标情绪。
再一种实施方式中,若情绪数据包括情绪语音数据,则识别单元802具体用于将所述情绪语音数据转换为对应的情绪文本数据,调用第二情绪模型对所述对应的情绪文本数据进行语义分析,得到第一情绪;调用第三情绪模型对所述情绪语音数据进行声学特征分析,得到第二情绪;当所述第一情绪与所述第二情绪之间的相似度大于或等于第一阈值时,将所述第一情绪或者所述第二情绪确定为所述目标情绪;当所述第一情绪与所述第二情绪之间的相似度小于第一阈值时,将所述第一情绪确定为目标情绪。
再一种实施方式中,若情绪数据包括情绪图像数据,则识别单元802具体用于提取所述情绪图像数据中的目标面部表情,并得到所述目标面部表情所反映的第三情绪;提取所述情绪图像数据中的目标肢体行为,并得到所述目标肢体行为所反映的第四情绪;当所述第三情绪和所述第四情绪之间的相似度大于或等于第二阈值时,将所述第三情绪或所述第四情绪确定为所述目标情绪;当所述第三情绪和所述第四情绪之间的相似度小于第二阈值时,将所述第三情绪确定为所述目标情绪。
再一种实施方式中,识别单元802具体用于对所述情绪文本数据进行语义分析,得到至少一个候选情绪词汇;将所述候选情绪词汇与所述第一情绪模型中包含的参考情绪词汇进行相似度匹配,得到所述候选情绪词汇和所述参考情绪词汇之间的相似度;将目标情绪词汇所反映的情绪确定为所述第一情绪;其中,所述目标情绪词汇为所述至少一个候选情绪词汇中符合所述相似度大于或等于第三阈值,且所述参考情绪词汇的权值大于或等于第四阈值所对应的词汇,所述参考情绪词汇的权值用于指示所述参考情绪词汇所反映的情绪的强烈程度。
再一种实施方式中,识别单元802具体用于在时域上对所述情绪语音数据进行特征提取,得到时域声学特征;在频域上对所述情绪语音数据进行特征提取,得到频域声学特征;对所述时域声学特征和所述频域声学特征进行分析,得到所述第二情绪。
根据本发明的另一个实施例,图9所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1-图8中任一放过实施例所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的图像处理装置设备,以及来实现本发明实施例的图像处理方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本发明实施例可获取情绪数据及待处理的图像,并识别所述情绪数据所反映的目标情绪,以根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式,最后采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。这样基于情绪对图像进行滤镜处理,能解决传统技术中存在的图像增强效果较差、无法准确表达用户的真实意图及影响互动积极性等问题。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种终端。请参见图10,该终端至少包括处理器901、输入设备902、输出设备903以及计算机存储介质904。其中,终端内的处理器901、输入设备902、输出设备903以及计算机存储介质904可通过总线或其他方式连接。
计算机存储介质904可以存储在终端的存储器中,所述计算机存储介质904用于存储计算机程序,所述计算机程序包括程序指令,所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(Central Processing Unit,中央处理器))是终端的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器901可以用于进行一系列的图像处理,包括:获取情绪数据及待处理的图像;识别所述情绪数据所反映的目标情绪;根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器901加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图像处理实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤:
获取情绪数据及待处理的图像,所述情绪数据包括情绪语音数据、情绪图像数据或情绪文本数据;
识别所述情绪数据所反映的目标情绪;
根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:响应于社交应用中的动态发布指令,采集情绪数据;若所述情绪数据中包括情绪图像数据,将所述情绪图像数据确定为所述待处理的图像。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:响应于社交应用中的动态发布指令,采集情绪数据;按照所述动态发布指令获取待处理的图像。
再一个实施例中,所述一条或多条指令由处理器901还可加载并执行:若所述情绪数据中包括情绪语音数据或情绪文本数据,将所述情绪语音数据或情绪文本数据合成到所述目标图像中,得到合成图像;在所述社交应用中发布所述合成图像。
再一个实施例中,所述一条或多条指令由处理器901还可加载并执行:响应于针对所述合成图像的第一查看操作,显示所述合成图像中的目标图像。或者,响应于针对所述合成图像的第二查看操作,显示所述合成图像中的目标图像并播放目标语音数据,所述目标语音数据为所述情绪语音数据或者所述情绪文本数据对应的语音数据。或者,响应于针对所述合成图像的第三查看操作,显示所述合成图像中的目标图像及目标文本数据,所述目标文本数据为所述情绪文本数据,或者所述情绪语音数据对应的文本数据。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:获取情绪滤镜映射关系表,所述情绪滤镜映射关系表中记录有情绪和滤镜模式的映射关系,所述映射关系为一种滤镜模式对应至少一种情绪;从所述情绪滤镜映射关系表中获取与所述目标情绪相对应的所述目标滤镜模式。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:将所述情绪语音数据转换为对应的情绪文本数据,并提取所述对应的情绪文本数据中的文本特征;提取所述情绪语音数据中的声学特征;调用第一情绪模型对所述文本特征和所述声学特征进行融合识别,得到所述目标情绪。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:将所述情绪语音数据转换为对应的情绪文本数据,调用第二情绪模型对所述对应的情绪文本数据进行语义分析,得到第一情绪;调用第三情绪模型对所述情绪语音数据进行声学特征分析,得到第二情绪;当所述第一情绪与所述第二情绪之间的相似度大于或等于第一阈值时,将所述第一情绪或者所述第二情绪确定为所述目标情绪;当所述第一情绪与所述第二情绪之间的相似度小于第一阈值时,将所述第一情绪确定为目标情绪。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:提取所述情绪图像数据中的目标面部表情,并得到所述目标面部表情所反映的第三情绪;提取所述情绪图像数据中的目标肢体行为,并得到所述目标肢体行为所反映的第四情绪;当所述第三情绪和所述第四情绪之间的相似度大于或等于第二阈值时,将所述第三情绪或所述第四情绪确定为所述目标情绪;当所述第三情绪和所述第四情绪之间的相似度小于第二阈值时,将所述第三情绪确定为所述目标情绪。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:对所述情绪文本数据进行语义分析,得到至少一个候选情绪词汇;将所述候选情绪词汇与所述第一情绪模型中包含的参考情绪词汇进行相似度匹配,得到所述候选情绪词汇和所述参考情绪词汇之间的相似度;将目标情绪词汇所反映的情绪确定为所述第一情绪;其中,所述目标情绪词汇为所述至少一个候选情绪词汇中符合所述相似度大于或等于第三阈值,且所述参考情绪词汇的权值大于或等于第四阈值所对应的词汇,所述参考情绪词汇的权值用于指示所述参考情绪词汇所反映的情绪的强烈程度。
再一个实施例中,所述一条或多条指令由处理器901加载并具体执行:在时域上对所述情绪语音数据进行特征提取,得到时域声学特征;在频域上对所述情绪语音数据进行特征提取,得到频域声学特征;对所述时域声学特征和所述频域声学特征进行分析,得到所述第二情绪。
本发明实施例可获取情绪数据及待处理的图像,并识别所述情绪数据所反映的目标情绪,以根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式,最后采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。这样基于情绪对图像进行滤镜处理,能解决传统技术中存在的图像增强效果较差、无法准确表达用户的真实意图及影响互动积极性等问题。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (15)

1.一种图像处理方法,其特征在于,所述方法包括:
获取情绪数据及待处理的图像,所述情绪数据包括情绪语音数据、情绪图像数据或情绪文本数据;
识别所述情绪数据所反映的目标情绪;
根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
2.根据权利要求1所述的方法,其特征在于,所述获取情绪数据及待处理的图像包括:
响应于社交应用中的动态发布指令,采集情绪数据;
若所述情绪数据中包括情绪图像数据,将所述情绪图像数据确定为所述待处理的图像。
3.根据权利要求1所述的方法,其特征在于,所述获取情绪数据及待处理的图像包括:
响应于社交应用中的动态发布指令,采集情绪数据;
按照所述动态发布指令获取待处理的图像。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
若所述情绪数据中包括情绪语音数据或情绪文本数据,将所述情绪语音数据或情绪文本数据合成到所述目标图像中,得到合成图像;
在所述社交应用中发布所述合成图像。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于针对所述合成图像的第一查看操作,显示所述合成图像中的目标图像;或者,
响应于针对所述合成图像的第二查看操作,显示所述合成图像中的目标图像并播放目标语音数据,所述目标语音数据为所述情绪语音数据或者所述情绪文本数据对应转换的语音数据;或者,
响应于针对所述合成图像的第三查看操作,显示所述合成图像中的目标图像及目标文本数据,所述目标文本数据为所述情绪文本数据,或者所述情绪语音数据对应转换的文本数据。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式包括:
获取情绪滤镜映射关系表,所述情绪滤镜映射关系表中记录有情绪和滤镜模式的映射关系,所述映射关系为一种滤镜模式对应至少一种情绪;
从所述情绪滤镜映射关系表中获取与所述目标情绪相对应的所述目标滤镜模式。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述情绪数据包括情绪语音数据,所述识别所述情绪数据所反映的目标情绪包括:
将所述情绪语音数据转换为对应的情绪文本数据,并提取所述对应的情绪文本数据中的文本特征;
提取所述情绪语音数据中的声学特征;
调用第一情绪模型对所述文本特征和所述声学特征进行融合识别,得到所述目标情绪。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述情绪数据包括情绪语音数据,所述识别所述情绪数据所反映的目标情绪包括:
将所述情绪语音数据转换为对应的情绪文本数据,调用第二情绪模型对所述对应的情绪文本数据进行语义分析,得到第一情绪;
调用第三情绪模型对所述情绪语音数据进行声学特征分析,得到第二情绪;
当所述第一情绪与所述第二情绪之间的相似度大于或等于第一阈值时,将所述第一情绪或者所述第二情绪确定为所述目标情绪;
当所述第一情绪与所述第二情绪之间的相似度小于第一阈值时,将所述第一情绪确定为目标情绪。
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述情绪数据包括情绪图像数据,所述识别所述情绪数据所反映的目标情绪包括:
提取所述情绪图像数据中的目标面部表情,并得到所述目标面部表情所反映的第三情绪;
提取所述情绪图像数据中的目标肢体行为,并得到所述目标肢体行为所反映的第四情绪;
当所述第三情绪和所述第四情绪之间的相似度大于或等于第二阈值时,将所述第三情绪或所述第四情绪确定为所述目标情绪;
当所述第三情绪和所述第四情绪之间的相似度小于第二阈值时,将所述第三情绪确定为所述目标情绪。
10.根据权利要求8所述的方法,其特征在于,所述调用第二情绪模型对所述情绪文本数据进行语义分析,得到第一情绪包括:
对所述情绪文本数据进行语义分析,得到至少一个候选情绪词汇;
将所述候选情绪词汇与所述第一情绪模型中包含的参考情绪词汇进行相似度匹配,得到所述候选情绪词汇和所述参考情绪词汇之间的相似度;
将目标情绪词汇所反映的情绪确定为所述第一情绪;
其中,所述目标情绪词汇为所述至少一个候选情绪词汇中符合所述相似度大于或等于第三阈值,且所述参考情绪词汇的权值大于或等于第四阈值所对应的词汇,所述参考情绪词汇的权值用于指示所述参考情绪词汇所反映的情绪的强烈程度。
11.根据权利要求8所述的方法,其特征在于,所述调用第三情绪模型对所述情绪语音数据进行声学分析,得到第二情绪包括:
在时域上对所述情绪语音数据进行特征提取,得到时域声学特征;
在频域上对所述情绪语音数据进行特征提取,得到频域声学特征;
对所述时域声学特征和所述频域声学特征进行分析,得到所述第二情绪。
12.一种图像处理方法,其特征在于,所述方法包括:
响应于社交应用中的动态发布指令,获取情绪数据及待处理的图像;所述情绪数据包括情绪语音数据、情绪图像数据或情绪文本数据;
识别所述情绪数据所反映的目标情绪,并为所述待处理的图像匹配与所述目标情绪对应的目标滤镜模式;
采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像;
在所述社交应用中发布所述目标图像。
13.一种图像处理装置,其特征在于,包括:
获取单元,用于获取情绪数据及待处理的图像,所述情绪数据包括情绪语音数据、情绪图像数据或情绪文本数据;
识别单元,用于识别所述情绪数据所反映的目标情绪;
匹配单元,用于根据所述目标情绪为所述待处理的图像匹配对应的目标滤镜模式;
处理单元,用于采用所述目标滤镜模式对所述待处理的图像进行滤镜处理,得到目标图像。
14.一种终端,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如上权利要求1-11任一项所述的图像处理方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上权利要求1-11任一项所述的图像处理方法。
CN201910693744.9A 2019-07-30 2019-07-30 图像处理方法、装置、终端及计算机存储介质 Pending CN110442867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910693744.9A CN110442867A (zh) 2019-07-30 2019-07-30 图像处理方法、装置、终端及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910693744.9A CN110442867A (zh) 2019-07-30 2019-07-30 图像处理方法、装置、终端及计算机存储介质

Publications (1)

Publication Number Publication Date
CN110442867A true CN110442867A (zh) 2019-11-12

Family

ID=68432176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910693744.9A Pending CN110442867A (zh) 2019-07-30 2019-07-30 图像处理方法、装置、终端及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110442867A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879840A (zh) * 2019-11-19 2020-03-13 珠海格力电器股份有限公司 信息反馈方法、装置及存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
EP4174849A1 (en) * 2021-11-02 2023-05-03 Capital One Services, LLC Automatic generation of a contextual meeting summary

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203344A (zh) * 2016-07-12 2016-12-07 北京光年无限科技有限公司 一种用于智能机器人的情绪识别方法及***
CN107992824A (zh) * 2017-11-30 2018-05-04 努比亚技术有限公司 拍照处理方法、移动终端及计算机可读存储介质
CN108537749A (zh) * 2018-03-29 2018-09-14 广东欧珀移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及***
CN109325904A (zh) * 2018-08-28 2019-02-12 百度在线网络技术(北京)有限公司 图像滤镜处理方法和装置
CN109410986A (zh) * 2018-11-21 2019-03-01 咪咕数字传媒有限公司 一种情绪识别方法、装置及存储介质
CN109660728A (zh) * 2018-12-29 2019-04-19 维沃移动通信有限公司 一种拍照方法及装置
CN109766759A (zh) * 2018-12-12 2019-05-17 成都云天励飞技术有限公司 情绪识别方法及相关产品

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203344A (zh) * 2016-07-12 2016-12-07 北京光年无限科技有限公司 一种用于智能机器人的情绪识别方法及***
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及***
CN107992824A (zh) * 2017-11-30 2018-05-04 努比亚技术有限公司 拍照处理方法、移动终端及计算机可读存储介质
CN108537749A (zh) * 2018-03-29 2018-09-14 广东欧珀移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109325904A (zh) * 2018-08-28 2019-02-12 百度在线网络技术(北京)有限公司 图像滤镜处理方法和装置
CN109410986A (zh) * 2018-11-21 2019-03-01 咪咕数字传媒有限公司 一种情绪识别方法、装置及存储介质
CN109766759A (zh) * 2018-12-12 2019-05-17 成都云天励飞技术有限公司 情绪识别方法及相关产品
CN109660728A (zh) * 2018-12-29 2019-04-19 维沃移动通信有限公司 一种拍照方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879840A (zh) * 2019-11-19 2020-03-13 珠海格力电器股份有限公司 信息反馈方法、装置及存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
EP4174849A1 (en) * 2021-11-02 2023-05-03 Capital One Services, LLC Automatic generation of a contextual meeting summary
US11967314B2 (en) 2021-11-02 2024-04-23 Capital One Services, Llc Automatic generation of a contextual meeting summary

Similar Documents

Publication Publication Date Title
US20240054117A1 (en) Artificial intelligence platform with improved conversational ability and personality development
US20220366281A1 (en) Modeling characters that interact with users as part of a character-as-a-service implementation
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
US10706873B2 (en) Real-time speaker state analytics platform
JP2022551788A (ja) 補助システムのためのプロアクティブコンテンツを生成すること
CN116547746A (zh) 针对多个用户的对话管理
US11562744B1 (en) Stylizing text-to-speech (TTS) voice response for assistant systems
TW202132967A (zh) 互動方法、裝置、電子設備以及儲存媒體
US9754585B2 (en) Crowdsourced, grounded language for intent modeling in conversational interfaces
Ren Affective information processing and recognizing human emotion
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN110442867A (zh) 图像处理方法、装置、终端及计算机存储介质
CN111201567A (zh) 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构
Katayama et al. Situation-aware emotion regulation of conversational agents with kinetic earables
CN107463684A (zh) 语音回复方法及装置、计算机装置和计算机可读存储介质
CN112860213B (zh) 音频的处理方法和装置、存储介质及电子设备
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN112673641A (zh) 对视频或语音消息的内联响应
KR102413860B1 (ko) 사용자 상태에 기반한 응답 음성을 생성하는 음성 에이전트 시스템 및 방법
US11759387B2 (en) Voice-based control of sexual stimulation devices
WO2020223742A2 (en) Generation and operation of artificial intelligence based conversation systems
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN115881133A (zh) 用于交互的方法、装置、设备和存储介质
US11887600B2 (en) Techniques for interpreting spoken input using non-verbal cues
CN113301352B (zh) 在视频播放期间进行自动聊天

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination