CN115243062A - 场景展示方法、装置、屏显设备、电子设备和存储介质 - Google Patents

场景展示方法、装置、屏显设备、电子设备和存储介质 Download PDF

Info

Publication number
CN115243062A
CN115243062A CN202210682504.0A CN202210682504A CN115243062A CN 115243062 A CN115243062 A CN 115243062A CN 202210682504 A CN202210682504 A CN 202210682504A CN 115243062 A CN115243062 A CN 115243062A
Authority
CN
China
Prior art keywords
image
display object
display
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210682504.0A
Other languages
English (en)
Other versions
CN115243062B (zh
Inventor
王玮
徐俊
苏文畅
国丽
王兆育
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210682504.0A priority Critical patent/CN115243062B/zh
Publication of CN115243062A publication Critical patent/CN115243062A/zh
Application granted granted Critical
Publication of CN115243062B publication Critical patent/CN115243062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提出一种场景展示方法、装置、屏显设备、电子设备和存储介质,方法包括从目标语音中检测图像展示指令;其中,图像展示指令用于触发展示与特定展示对象相匹配的图像;若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从特征映射库中确定出与图像展示指令相对应的目标图像;其中,特征映射库中存储图像,以及图像与展示对象的匹配关系;展示目标图像。上述方案实现了基于语音进行展示图像的自动切换,提高图像切换的便捷性。将上述方案应用于基于视频直播进行的产品销售中,能够实现自动切换产品海报,不需要工作人员进行人工切换,提高了海报切换的便捷性。

Description

场景展示方法、装置、屏显设备、电子设备和存储介质
技术领域
本申请涉及场景切换技术领域,尤其涉及一种场景展示方法、装置、屏显设备、电子设备和存储介质。
背景技术
在面向服务对象进行主题介绍时,为了便于说明该主题,人们一般结合图像进行说明,若要对其他的主题进行介绍时,需要切换为其他主题对应的图像。例如,在基于视频直播进行产品销售时,为了更加清楚的介绍产品,会在直播的显示界面对应显示该产品的海报,若要介绍其他产品时,对海报进行相应的切换即可。但是,目前一般需要手动进行图像切换,步骤复杂,操作不便。
发明内容
基于上述需求,本申请提出一种场景展示方法、装置、屏显设备、电子设备和存储介质,该方法能够实现说明场景的自动切换,提高说明场景切换的便捷性。
本申请提出的技术方案具体如下:
一方面,本申请提供了一种场景展示方法,包括:
从目标语音中检测图像展示指令;其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;
若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从所述特征映射库中确定出与所述图像展示指令相对应的目标图像;其中,所述特征映射库中存储图像,以及图像与展示对象的匹配关系;
展示所述目标图像。
进一步的,以上所述的方法中,所述根据检测到的图像展示指令,确定与所述图像展示指令相对应的目标图像,包括:
根据检测到的图像展示指令以及预先设置的特征映射库,从所述特征映射库中确定出与所述图像展示指令相对应的目标图像;其中,所述特征映射库中存储图像,以及图像与展示对象的匹配关系。
进一步的,以上所述的方法中,所述从目标语音中检测图像展示指令,包括:
对所述目标语音进行语音识别,得到识别文本;
从所述识别文本中检测图像展示指令。
进一步的,以上所述的方法中,所述从所述识别文本中检测图像展示指令,包括:
检测所述识别文本中是否包括预先设定的指令文本;
若所述识别文本中包括预先设定的指令文本,则根据所述识别文本中的指令文本,从所述识别文本中的设定位置提取设定长度的目标文本段;其中,所述设定位置根据所述指令文本的位置而确定;
检测所述目标文本段中是否包含展示对象名称;
若所述目标文本段中包含展示对象名称,则将所述指令文本和所述展示对象名称确定为图像展示指令。
进一步的,以上所述的方法中,所述特征映射库通过如下方式构建得到:
识别图像的文本内容;
检测所述图像的文本内容中是否包括展示对象名称;
若所述图像的文本内容中包括展示对象名称,则将所述图像,以及所述图像与所述图像中包含的展示对象名称的匹配关系存储于所述特征映射库中。
进一步的,以上所述的方法中,所述检测所述图像的文本内容中是否包括展示对象名称,包括:
从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,其中,i和N均为正整数;所述目标字符序列由图像的文本内容的第i个字符开始的全部字符构成;
若目标字符序列的前N个字符组成的字符串是展示对象名称,则确定所述图像的文本内容中包含展示对象名称并记录该展示对象名称,以及,将所述目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列;
重复上述过程,直至N等于目标字符序列的总字符数或N等于预设值;
令i=i+1,并重新执行上述处理,直至i+1大于图像中的文本内容的总字符数。
进一步的,以上所述的方法中,所述依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,包括:
检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称;
若所述展示对象名称数据库中包括与所述字符串相匹配的展示对象名称,则确定所述字符串为展示对象名称。
进一步的,以上所述的方法中,所述检测所述图像的文本内容中是否包括展示对象名称,包括:
以预先设置的展示对象名称数据库中的展示对象名称为检索条件,检索所述文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称;
若所述文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则确定所述图像的文本内容中包括展示对象名称,并记录该展示对象名称。
进一步的,以上所述的方法中,所述展示所述目标图像,包括:
将设定图像显示区域的显示内容切换为所述目标图像。
另一方面,本申请还提供了一种场景展示装置,包括:
检测模块,用于从目标语音中检测图像展示指令;其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;
确定模块,用于若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从所述特征映射库中确定出与所述图像展示指令相对应的目标图像;其中,所述特征映射库中存储图像,以及图像与展示对象的匹配关系;
展示模块,展示所述目标图像。
另一方面,本申请还提供了一种屏显设备,包括:
语音识别部件、与所述语音识别部件连接的第一处理器,以及与所述第一处理器连接的显示屏幕;
所述语音识别部件用于对采集的用户语音进行语音识别,得到识别文本;
所述第一处理器用于从所述语音识别部件输出的识别文本中检测图像展示指令,其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令,确定与所述图像展示指令相对应的目标图像,并将所述目标图像发送给所述显示屏幕;
所述显示屏幕对所述第一处理器发送的目标图像进行解码显示。
进一步的,以上所述的屏显设备,还包括:
分别与所述第一处理器连接的光学字符识别部件以及第一存储器;
所述光学字符识别部件用于从输入的图像中识别文本内容,并将识别的文本内容发送至所述第一处理器;
所述第一处理器还用于:检测所述光学字符识别部件识别得到的文本内容中是否包括展示对象名称;若所述光学字符识别部件识别得到的文本内容中包括展示对象名称,则将输入的图像以及所述图像与所述图像中包含的展示对象名称的匹配关系存储至所述第一存储器;
所述第一存储器存储所述第一处理器发送的图像以及图像与图像中包含的展示对象名称的匹配关系。
另一方面,本申请还提供了一种电子设备,包括:
第二存储器和第二处理器;
其中,所述第二存储器用于存储程序;
所述第二处理器,用于通过运行所述第二存储器中的程序,实现如权利要求1至8中任意一项所述的场景展示方法。
另一方面,本申请还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任意一项所述的场景展示方法的各个步骤。
本申请的场景展示方法、装置、屏显设备、电子设备和存储介质,方法包括从目标语音中检测图像展示指令;其中,图像展示指令用于触发展示与特定展示对象相匹配的图像;若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从特征映射库中确定出与图像展示指令相对应的目标图像;其中,特征映射库中存储图像,以及图像与展示对象的匹配关系;展示目标图像。上述方案实现了基于语音进行展示图像的自动切换,提高图像切换的便捷性。
将上述方案应用于基于视频直播进行的产品销售中,能够实现自动切换产品海报,不需要工作人员进行人工切换,提高了海报切换的便捷性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种场景展示方法的流程示意图;
图2是本申请实施例提供的检测图像展示指令的流程示意图;
图3是本申请实施例提供的特征映射库的构建流程示意图;
图4是本申请实施例提供的一种检测展示对象名称的流程示意图;
图5是本申请实施例提供的确定字符串是否为展示对象名称的流程示意图;
图6是本申请实施例提供的另一种检测展示对象名称的流程示意图;
图7是本申请实施例提供的一种场景展示装置的结构示意图;
图8是本申请实施例提供的一种屏显设备的结构示意图;
图9是本申请实施例提供的另一种屏显设备的结构示意图;
图10是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于展示图像自动切换的应用场景,采用本申请实施例技术方案,可以根据语音进行展示图像的自动切换,提高图像切换的便捷性。
示例性的,本申请实施例技术方案可应用于硬件处理器等硬件设备,或包装成软件程序被运行,当硬件处理器执行本申请实施例技术方案的处理过程,或上述软件程序被运行时,可以实现对展示图像自动切换。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍,并不对本申请技术方案的具体执行形式进行限定,任意形式的可以执行本申请技术方案处理过程的技术实现形式,都可以被本申请实施例所采用。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例提出一种场景展示方法,参见图1所示,该方法包括:
S101、从目标语音中检测图像展示指令。
其中,上述的目标语音,是指在面向服务对象进行主题介绍时的语音内容,例如,视频主播在进行产品销售时,对产品介绍时的语音内容,即可作为目标语音。本申请的实施例并不限定目标语音的语种,只要目标语音能够基于语音识别技术进行识别转换即可。本实施例中,可以先对目标语音进行语音识别,得到转换后的识别文本,从识别文本的基础上识别图像展示指令。
上述图像展示指令,用于触发展示与特定展示对象相匹配的图像。当从目标语音中检测到图像展示指令后,则将当前展示的图像切换为与特定展示对象相匹配的图像。
图像展示指令至少包括指令文本和特定的展示对象。其中,指令文本包括在面向服务对象进行主题介绍时,能够用于表征当前主题的介绍结束,开始进行下一主题介绍时的动作指令。例如,“打开”“再看看”“对比下”“我们再看下”“下一个要介绍的是”等词语,本领域的技术人员可以根据实际的应用场景设置动作指令,本实施例不做限定。特定的展示对象是指当前主题的介绍结束,开始介绍的下一主题,例如某型号的手机、某型号的洗护产品等。
指令文本与展示对象之间的位置关系比较简单,展示对象一般位于指令文本之前或者之后,与指令文本相邻或者间隔较少数量的字符。因此指令文本具有较高的指向性,能指示展示对象的位置。需要说明的是,指令文本以及每个指令文本所指示的展示对象的位置,本领域的技术人员可以根据实际的应用场景提前设置,本实施例不做限定。本实施例中,先对识别文本进行逐字识别,确定是否检测到指令文本,如果检测到指令文本则根据指令文本的指向性,确定识别文本中可能包括展示对象名称的字符串,再从该字符串中识别展示对象名称即可。
示例性的,在视频主播在进行线上产品销售的场景下,可以获取视频主播在产品介绍过程中的语音,并且从语音中检测图像展示指令。
视频主播在结束A型号的洗发水的介绍,开始B型号的洗发水的介绍时,视频主播的语音可能会包括“A型号的洗发水介绍完了下一个要介绍的是非常好用的B型号洗发水”,从该段语音中,本申请的实施例中可以检测到指令文本包括“下一个要介绍的是”,根据预先设置的指令文本“下一个要介绍的是”所指示的展示对象的位置,从指令文本“下一个要介绍的是”之后的字符串“非常好用的B型号洗发水”中进行检测,得到展示对象名称“B型号洗发水”,获取到“下一个要介绍的是”和“B型号洗发水”对应的图像展示指令后,将触发展示与“B型号洗发水”相匹配的图像。
S102、若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从特征映射库中确定出与图像展示指令相对应的目标图像。
上述目标图像,指的是用于展示图像展示指令中的特定展示对象的图像,包括但不限于展示海报、展示视频等。例如,图像展示指令中的特定展示对象为“B型号洗发水”,目标图像为“B型号洗发水”的展示海报或展示视频。
本申请的实施例中,预先设置有特征映射库。特征映射库中存储有图像,以及,图像与展示对象的匹配关系,以便于从目标语音中检测到图像展示指令后,从特征映射库中确定出与图像展示指令匹配的目标图像,也就是说,从特征映射库中确定出与图像展示指令中展示对象匹配的目标图像。
示例性的,在视频主播在进行线上产品销售的场景下,图像为产品海报。若视频主播需要切换三张海报,分别为第一海报、第二海报和第三海报。
若第一海报对应的展示对象包括A1型号手机、A2型号手机和A3型号手机,第二海报对应的展示对象包括B1型号平板电脑和B2型号平板电脑,第三海报对应的展示对象包括C1型号的洗发水和C2型号的护发素。
那么,上述特征映射库中存储有:第一海报,以及,A1型号手机与第一海报的匹配关系、A2型号手机与第一海报的匹配关系、A3型号手机与第一海报的匹配关系;第二海报,以及,B1型号平板电脑与第二海报的匹配关系、B2型号平板电脑与第二海报的匹配关系;第三海报,以及,C1型号的洗发水与第三海报的匹配关系、C2型号的护发素与第三海报的匹配关系。
若从视频主播的语音中检测到图像展示指令,且图像展示指令包括“打开”“A1型号手机”,那么从特征映射库中确定与“A1型号手机”相对应的图像为第一海报;若图像展示指令包括“打开”“A3型号手机”,那么从特征映射库中确定与“A3型号手机”相对应的图像仍为第一海报;若图像展示指令包括“我们再看下”“C2型号的护发素”,那么从特征映射库中确定与“C2型号的护发素”对应的图像为第三海报。
以上实施例中,预先设置有特征映射库,其中特征映射库中存储图像,以及图像与展示对象的匹配关系,以便于根据从目标语音中检测到的图像展示指令,自动从特征映射库中确定与述图像展示指令相对应的目标图像,不需要手动搜索,提高图像切换的便捷性。
S103、展示目标图像。
本申请的实施例中,根据以上步骤确定与图像展示指令相对应的目标图像后,则可以展示该目标图像,具体展示该目标图像的位置可以根据展示环境确定。
示例性的,若通过视频直播的方式进行面向服务对象的主题介绍,可以从直播视频的显示区域处显示该目标图像。例如在视频主播在进行线上产品销售的场景下,目标图像为产品海报,可以直接从直播的显示区域显示产品海报;在教师进行线上授课的场景下,目标图像为教学课件,可以直接从直播的显示区域显示教学课件。
若在线下进行面向服务对象的主题介绍,为了便于说明该主题,人们一结合显示设备显示的图像进行说明,在这样的场景下,可以从通过该显示设备显示目标图像。
以上实施例的场景展示方法,包括从目标语音中检测图像展示指令,其中,图像展示指令用于触发展示与特定展示对象相匹配的图像,若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令,确定与图像展示指令相对应的目标图像,展示目标图像。上述方案实现了基于语音进行展示图像的自动切换,提高图像切换的便捷性。
将上述方案应用于基于视频直播进行的产品销售中,能够实现自动切换产品海报,不需要工作人员进行人工切换,提高了海报切换的便捷性。
示例性的,本申请另一实施例中公开了,以上实施例的步骤从目标语音中检测图像展示指令,具体可以通过如下方式实现:
对目标语音进行语音识别,得到识别文本;从识别文本中检测图像展示指令。
具体的,本申请的实施例中,获取的是面向服务对象进行主题介绍时的语音内容。为了便于理解目标语音中的真实语义,从目标语音中检测正确的图像展示指令,可以先对目标语音进行语音识别,进而将目标语音转换为识别文本,从识别文本中检测图像展示指令。
本实施例中,可以实时对目标语音进行识别转换,以便于能够及时展示图像展示指令对应的目标图像。需要说明的是,对语音进行识别进而将语音转换成文本是非常成熟的现有技术,本领域的技术人员利用现有技术将目标语音进行语音识别即可,本实施例不做赘述。
以上实施例中,对目标语音进行语音识别,得到识别文本,从识别文本中提取图像展示指令,便于理解目标语音中的真实语义,进而从目标语音中检测正确的图像展示指令。
示例性的,如图2所示,本申请另一实施例中公开了,以上实施例的步骤从识别文本中检测图像展示指令,具体可以通过如下方式实现:
S201、检测识别文本中是否包括预先设定的指令文本。
本实施例中,指令文本包括在面向服务对象进行主题介绍时,能够用于表征当前主题的介绍结束,开始进行下一主题介绍时的动作指令。同时,展示对象一般位于指令文本之前或者之后,与指令文本相邻或者间隔较少数量的字符,因此指令文本具有较高的指向性,能指示展示对象的位置。需要说明的是,指令文本以及每个指令文本所指示的展示对象的位置,本领域的技术人员可以根据实际的应用场景提前设置,本实施例不做限定。
本实施例中,事先对目标语音进行语音识别,得到识别后的识别文本。以便于在识别文本的基础上进行检测,以确定识别文本中是否包括预先设定的指令文本。
具体的,可以实时对目标语音进行识别转换,生成识别文本后实时对识别文本进行检测,以便于能够及时展示图像展示指令对应的目标图像。
示例性的,本实施例在获取到识别文本后,根据识别文本中字符的生成顺序逐个对字符进行检测,以便于确定是否从识别文本中检测到指令文本。具体的,可以确定当前生成的字符是否命中指令文本的首个字符,如果当前生成的字符没有命中目标指令文本的首个字符,则继续对后续生成的字符进行检测,如果当前生成的字符命中目标指令文本的首个字符,则检测后续生成的字符是否命中该目标指令文本的剩余字符,如果后续生成的字符命中该目标指令文本的剩余字符,则表示从识别文本中检测到指令文本。
例如,若预先设置的指令文本包括“打开”“再看看”“再看下”“对比下”。在对识别文本的检测过程中,检测到识别文本中当前生成的字符为“再”,命中“再看看”和“再看下”中的首个字符,则进一步对后续生成的字符进行检测,若检测到后续生成的字符为“看看”,则命中“再看看”这一文本指令的剩余字符,表示从识别文本中检测到“再看看”这一指令文本。
S202、若识别文本中包括预先设定的指令文本,则根据识别文本中的指令文本,从识别文本中的设定位置提取设定长度的目标文本段。
本申请的实施例中,如果确定识别文本中包括预先设定的指令文本,则可根据提前设置的该指令文本所指示的展示对象的位置,从中提取可能包含展示对象名称的目标文本段。例如,根据提前设置的该指令文本所指示的展示对象的位置,从指令文本在识别文本中的位置逐字向前或向后,提取可能包含展示对象名称的目标文本段。其中,对于提取的目标文本段的字符长度,本领域的技术人员也可以根据实际的应用场景提前设置,本实施例不做限定。
需要说明的是,在提取目标文本段时,可以将指令文本包含在目标文本段内共同提取,也可以不提取指令文本,本实施例不做限定。示例性的,若目标文本段包括指令文本,目标文本段和指令文本可以表示为“X${}”或者“${}X”,“X”为指令文本,“${}”为目标文本段。“X${}”表示目标文本段在文本指令之前;“${}X”表示目标文本段在文本指令之后。
示例性的,在视频主播在进行线上产品销售的场景下,设置目标文本段和指令文本的位置关系为:“打开${}”“再看看${}”“对比下${}”“${}我们再看下”“下一个要介绍的是${}”。其中“打开”“再看看”“对比下”“下一个要介绍的是”指示目标文本段在文本指令之后,“我们再看下”指示目标文本段在文本指令之前。
若提取到的识别文本为“A型号的洗发水介绍完了下一个要介绍的是非常好用的B型号洗发水这个洗发水添加了Q成分”,则可以确定指令文本为“下一个要介绍的是”,该文本指令指示的是目标文本段在文本指令之后,则从指令文本在识别文本中的位置逐字向后提取,确定可能包含展示对象名称的目标文本段,若预设目标文本段的长度为15个字符,则提取“下一个要介绍的是”后的字符,提取字符的最大长度为15,得到目标文本段为“非常好用的B型号洗发水这个洗发”。
S203、检测目标文本段中是否包含展示对象名称。
本实施例中,成功从识别文本中提取目标文本段之后。需要进一步针对目标文本段中进行匹配识别,确定目标文本段中是否包括展示对象名称。
示例性的,以上实施例的特征映射库包括图像,以及图像与图像中包含的展示对象名称的匹配关系。进一步的,本申请的实施例中,还可以将展示对象名称存储于上述特征映射库中。确定目标文本段中是否包括展示对象名称时,可以逐个对目标文本段的字符进行检测,以便于确定目标文本段中是否包括特征映射库中的展示对象名称。
如果目标文本段中包括特征映射库中的展示对象名称,则表示目标文本段中包含展示对象名称。
S204、若目标文本段中包含展示对象名称,则将指令文本和展示对象名称确定为图像展示指令。
本申请的实施例中,如果确定目标文本段中包含展示对象名称,则将指令文本和展示对象名称确定为图像展示指令即可。
以上实施例中,先对识别文本进行逐字识别,确定是否识别到指令文本,如果识别到指令文本,则根据指令文本的指向性,确定识别文本中可能包括展示对象的目标文本段,再从目标文本段中进行识别,检测目标文本段中是否包括展示对象名称,进而识别到真正的展示对象名称,避免出现误识别的情况。
示例性的,如图3所示,本申请另一实施例中公开了,以上实施例的特征映射库,具体可以通过如下方式构建:
S301、识别图像的文本内容。
在面向服务对象进行主题介绍时,为了便于说明该主题,人们一般会通过语音讲解结合图像的方式进行说明。图像中会包含对应的主题名称、展示图片等内容。本申请的实施例中,可以识别图像的文本内容,进而从文本内容中提取展示对象名称,进而确定每个图像所对应的展示对象。
示例性的,若图像中的文字内容为文本格式,例如,txt格式、word格式等,则可以直接读取对应的文本内容。若图像中的文字内容为非文本格式,例如图片格式、pdf格式,可以通过文字识别技术对文字内容进行识别,得到对应的文本内容。
S302、检测图像的文本内容中是否包括展示对象名称。
本申请的实施例中,在得到文本内容后,对文本内容中的字符进行识别,进而确定文本内容中是否包括展示对象名称。
示例性的,可以预先设置包括所有展示对象名称的展示对象名称数据库,展示对象名称数据库中包含展示对象名称,其中,可以由用户手动将展示对象名称添加至展示对象名称数据库中,也可以从网络中抓取文本内容,对文本内容进行语义识别,进而提取展示对象名称,并将展示对象名称存储至展示对象名称数据库中。
可以对文本内容中的字符逐个进行检测,确定文本内容中是否包括展示对象名称数据库中的展示对象名称,如果文本内容中包括展示对象名称数据库中的展示对象名称,则表示文本内容中包括该展示对象名称。
需要说明的是,在面向服务对象进行主题介绍时,存在将多个主题使用同一张图像进行展示的情况,因此,同一张图像中可能会存在多个展示对象名称,也就是说,从一张图像的文本内容中,可能会提取到多个展示对象名称,本实施例不做限定。
S303、若图像的文本内容中包括展示对象名称,则将图像,以及图像与图像中包含的展示对象名称的匹配关系存储于特征映射库中。
具体的,如果图像的文本内容中包括展示对象名称,那么可以将该图像,图像与图像中包含的展示对象名称的匹配关系存储起来,得到特征映射库。
示例性的,在视频主播在进行线上产品销售的场景下,图像为产品海报。通过对产品海报的文字内容进行文本转换与识别,确定产品海报包括A1型号手机、A2型号手机和A3型号手机三个展示对象名称。那么可以将产品海报、A1型号手机与产品海报的匹配关系、A2型号手机与产品海报的匹配关系、A3型号手机与产品海报的匹配关系存储于特征映射库中。
以上实施例中,能够自动从图像中提取展示对象名称,建立包含图像,以及图像与图像中包含的展示对象名称的匹配关系的特征映射库。相对于人工从图像中提取展示对象名称的方式,有效提高了提取速度和准确率。
示例性的,如图4所示,本申请另一实施例中公开了,以上实施例的步骤检测图像的文本内容中是否包括展示对象名称,具体可以通过如下方式实现:
S401、从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称。
本申请的实施例定义两个变量,i和N,其中i和N均是正整数,起始值均为1。上述目标字符序列由图像的文本内容中第i个字符开始的全部字符构成,上述字符串由目标字符序列的首个字符为起始的N个字符构成。
示例性的,当i和N均等于1时,目标字符序列包括文本内容从首个字符开始的所有字符,前N个字符组成的字符串仅包括目标字符序列的首个字符。当i等于1,N等于4时,目标字符序列包括文本内容从首个字符开始的所有字符,前N个字符组成的字符串包括目标字符序列的前4个字符。当i等于3,N等于4时,目标字符序列包括文本内容从第3个字符开始的所有字符,前N个字符组成的字符串包括目标字符序列的前4个字符。
例如,在视频主播在进行线上产品销售的场景下,图像为产品海报。经过文字识别,得到的文本内容为“XY手机是一款轻薄的手机”。当i和N均等于1时,目标字符序列包括“XY手机是一款轻薄的手机”,前N个字符组成的字符串包括“X”;当i等于1,N等于4时,目标字符序列包括“XY手机是一款轻薄的手机”,前N个字符组成的字符串包括“XY手机”;当i等于3,N等于4时,目标字符序列包括“手机是一款轻薄的手机”,前N个字符组成的字符串包括“手机是一”。
本申请的实施例中,以i和N均等于1为数值起始,从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串进行检测,确定字符串中是否包括展示对象名称。
S402、若目标字符序列的前N个字符组成的字符串是展示对象名称,则确定图像的文本内容中包含展示对象名称并记录该展示对象名称,以及,将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列,重复上述过程,直至组成的新的目标字符序列的长度为零或N等于预设值。
若从图像的文本内容的第i个字符开始,目标字符序列的前N个字符组成的字符串包含展示对象名称,则可以记录该展示对象名称,以便于建立该展示对象名称与该图片的匹配关系,将图片、展示对象名称与该图片的匹配关系存储于特征映射库中。
进一步的,若从图像的文本内容的第i个字符开始,目标字符序列的前N个字符组成的字符串包含展示对象名称,还可以将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列。然后对新的目标字符序列中前N个字符组成的字符串进行检测,确定新的目标字符序列中前N个字符组成的字符串是否包含展示对象名称,如此往复,直至N等于目标字符序列的总字符数或N等于预设值。
上述N等于目标字符序列的总字符数表示:针对当前目标字符序列进行检测,判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,N从1开始依次递增,直至N与目标字符序列的总字符相同,依旧没有匹配到展示对象名称,则需要重新确定目标字符序列以进行检测。
进一步的,展示对象名称的字符长度有限,例如,在视频主播在进行线上产品销售的场景下,展示对象为需要出售的产品,产品名称的字符长度一般在有限数量的字符以内。当N等于字符长度的上限值时,在当前的目标字符序列中依旧没有检测到展示对象名称,那么继续令N的值递增,不仅依旧无法检测到展示对象名称,而且造成了冗余。因此,可以预先设置预设值作为展示对象名称的字符长度上限值,当N等于目标字符序列的总字符数或N等于预设值时,需要重新确定目标字符序列以进行检测。
示例性的,在视频主播在进行线上产品销售的场景下,图像为产品海报。经过文字识别,得到的文本内容为“XY手机是一款轻薄的手机。AB手机续航能力很强”。需要说明的是,本示例中将标点符号作为一个字符。
以i和N均等于1为数值起始进行检测。i和N均等于1时,目标字符序列包括“XY手机是一款轻薄的手机。AB手机续航能力很强”,前N个字符组成的字符串包括“X”,“X”不是展示对象名称;令N的数值加1,当前N等于2,从目标字符序列中确定前N个字符组成的字符串包括“XY”,“XY”也不是展示对象名称;令N的数值加1,当前N等于3,从目标字符序列中确定前N个字符组成的字符串包括“XY手”,XY手”也不是展示对象名称;令N的数值加1,当前N等于4,从目标字符序列中确定前N个字符组成的字符串包括“XY手机”,“XY手机”是展示对象名称,记录该展示对象名称,并且将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列,也就是将“XY手机是一款轻薄的手机。AB手机续航能力很强”中第五个字符开始的内容,“是一款轻薄的手机。AB手机续航能力很强”组成新的目标字符序列。然后从新的目标字符序列中检测前N个字符组成的字符串是否为展示对象名称。
进一步的,新的目标字符序列为“是一款轻薄的手机。AB手机续航能力很强”,若预先设置展示对象名称的字符长度上限值为30时:
那么当N等于1时,前N个字符组成的字符串为“是”,“是”不是展示对象名称;令N的数值加1,当前N等于2,从目标字符序列中确定前N个字符组成的字符串包括“是一”,“是一”不是展示对象名称;N的数值依次递增,直至N与目标字符序列的总字符相同时,前N个字符组成的字符串为“是一款轻薄的手机。AB手机续航能力很强”,“是一款轻薄的手机。AB手机续航能力很强”不是展示对象名称,N与目标字符序列的总字符相同,依旧没有匹配到展示对象名称,则需要重新确定目标字符序列以进行检测。
若预先设置展示对象名称的字符长度上限值为5时:
那么当N等于5时,前N个字符组成的字符串为“是一款轻薄”,“是一款轻薄”不是展示对象名称,则需要重新确定目标字符序列以进行检测。
需要说明的是,组成新的目标字符序列之后,对应i的值也发生变化,新的目标字符序列对应的i=i+N。例如,上述实施例中,目标字符序列由“XY手机是一款轻薄的手机。AB手机续航能力很强”更新为“是一款轻薄的手机。AB手机续航能力很强”,对应的,i的值由1更新为5。
S403、令i=i+1,并重新执行上述处理,直至i+1大于图像中的文本内容的总字符数。
本申请的实施例中,当N等于目标字符序列的总字符数或N等于预设值时,需要重新确定目标字符序列以进行检测。重新确定目标字符序列的方式是令i=i+1。也就是说,相对于新的目标字符序列,其首字符为上一个目标序列的第二个字符。
形成新的目标字符序列后,可以重新执行上述处理过程即可,直到i+1大于图像中的文本内容的总字符数,也就是i等于文本内容的总字符数,对于文本内容的识别完成。
示例性的,上述实施例中,i=5,对应的目标字符序列为“是一款轻薄的手机。AB手机续航能力很强”,那么当N等于展示对象名称的字符长度上限值5时,前N个字符组成的字符串为“是一款轻薄”,“是一款轻薄”不是展示对象名称,则需要重新确定目标字符序列以进行检测。令i=i+1,当前i=6,新的目标字符序列为“一款轻薄的手机。AB手机续航能力很强”。重新执行上述处理过程,继续进行检测,当N等于展示对象名称的字符长度上限值5时,前N个字符组成的字符串为“一款轻薄的”,“一款轻薄的”不是展示对象名称;令i=i+1,当前i=7,新的目标字符序列为“款轻薄的手机。AB手机续航能力很强”当N等于展示对象名称的字符长度上限值5时,前N个字符组成的字符串为“款轻薄的手”,“款轻薄的手”不是展示对象名称;继续在i的值上加1,得到新的i。
如此往复处理,当i=13时,N=4时,新的目标字符序列为“AB手机续航能力很强”,前N个字符组成的字符串为“AB手机”,“AB手机”是展示对象名称,此时将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列“续航能力很强”,i的值更新为17。对“续航能力很强”这一目标字符序列的前N个字符组成的字符串进行检测,当N等于展示对象名称的字符长度上限值5时,前N个字符组成的字符串为“续航能力很”,“续航能力很”不是展示对象名称,令i=i+1,当前18,新的目标字符序列为“航能力很强”,继续在i的值上加1,得到新的i。
如此往复处理,当i+1=24时,i+1的值大于文本内容的总字符数23,目标字符序列中没有字符,对于文本内容的识别完成。
需要说明的是,图像中的文字可能包括多行,因此,可以将一行文字对应的文本内容作为一组按照以上实施例的步骤进行识别,识别完一组文本内容后,对下一组文本内容进行识别,直至所有文本内容识别完成。也可以将所有文字对应的文本内容作为同一组文本内容进行识别,本实施例不做限定。
本申请的实施例中,能够自动识别图像的文本内容中是否包括展示对象名称,相对于人工从图像中提取展示对象名称的方式,有效提高了提取速度和准确率。
为了便于理解,可以用字符边界下标来说明i和N。若文本是按照自左向右的顺序排列的,可以将i作为左边界下标,将N作为右边界下标,左边界下标i和右边界下标N的起始位置为文本内容对应的首个字符处,i和N之间的字符为文本内容对应的首个字符,检测该字符是否命中展示对象名称,若该字符未命中展示对象名称,则向右移动右边界下标N,示例性的,右边界下标N移动的位数为一位,此时i和N之间的字符为两个,检测该字符是否命中展示对象名称,若该字符未命中展示对象名称,则继续向右移动右边界下标N,当N移动至某一数位时,i和N之间的字符命中展示对象名称,则记录该展示对象名称;同时,右边界下标N向右移动一位,将左边界下标i移动至右边界下标N当前的位置,然后继续检测i和N之间的字符,若该字符未命中展示对象名称,则向右移动右边界下标N,如此往复,直至右边界下标N位于文本内容的末尾或右边界下标N的值等于预设值时,令左边界下标i从当前的位置右移动一位,将右边界下标N移动至左边界下标i当前的位置,继续检测i和N之间的字符,并重新执行上述处理,直至左边界下标i移动至文本内容末尾的字符处,针对文本内容的识别完成。
例如,文本内容为“XY手机是一款轻薄的手机。AB手机续航能力很强”。初始时,右边界下标N和左边界下标i均位于字符“X”处,“X”未命中展示对象名称,右边界下标N向右移动,此时i和N之间的字符为“XY”,XY”未命中展示对象名称,右边界下标N继续向右移动,直至右边界下标N的值等于4,右边界下标N位于字符“机”处,此时i和N之间的字符为“XY手机”,“XY手机”命中展示对象名称。
此时,将右边界下标N移动至字符“是”处,将左边界下标i也移动至字符“是”处。“是”未命中展示对象名称,右边界下标N向右移动,此时i和N之间的字符为“是一”,“是一”未命中展示对象名称,右边界下标N继续向右移动,当右边界下标N移动至字符“薄”时,N等于预设值5,需要更新左边界下标i的位置。左边界下标i从当前的位置“是”移动至字符“一”处,右边界下标N也移动至字符“一”处,继续检测i和N之间的字符,并重新执行上述处理,直至左边界下标i移动至字符“强”处,针对文本内容为“XY手机是一款轻薄的手机。AB手机续航能力很强”的识别完成。
示例性的,如图5所示,本申请另一实施例中公开了,以上实施例的步骤依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,具体可以通过如下方式实现:
S501、检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称。
本实施例中,预先设置有展示对象名称数据库。展示对象名称数据库中包含展示对象名称,其中,可以由用户手动将展示对象名称添加至展示对象名称数据库中,也可以从网络中抓取文本内容,对文本内容进行语义识别,进而提取展示对象名称,并将展示对象名称存储至展示对象名称数据库中。
示例性的,在视频主播在进行线上产品销售的场景下,展示对象名称为产品名称,可以从购物平台的展示界面上抓取文本内容,通过对文本内容进行语义识别,进而提取产品名称,将提取到的产品名称存储到展示对象名称数据库中。
检测目标字符序列的前N个字符组成的字符串是否命中展示对象名称,也就是说,检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称。
可以通过对目标字符序列的前N个字符组成的字符串,与,展示对象名称数据库中的展示对象名称进行逐个字符匹配的方式进行检测,确定预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称。
S502、若展示对象名称数据库中包括与字符串相匹配的展示对象名称,则确定字符串为展示对象名称。
如果经过检测确定展示对象名称数据库中包括与字符串相匹配的展示对象名称,则表示该字符串为展示对象名称。以便于建立该展示对象名称与对应的图像之间的匹配关系,将该图像、该展示对象名称与对应的图像之间的匹配关系存储于特征映射库中。
本申请的实施例中,能够自动识别图像的文本内容中是否包括展示对象名称,进而提高了展示对象名称的识别速度和准确率。
示例性的,如图6所示,本申请另一实施例中公开了,以上实施例的步骤检测图像的文本内容中是否包括展示对象名称,具体可以通过入下步骤执行:
S601、以预先设置的展示对象名称数据库中的展示对象名称为检索条件,检索文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称。
上述展示对象名称数据库的构建方式与以上实施例的展示对象名称数据库构建方式相同,本领域的技术人员参照以上实施例的记载即可,此处不作赘述。
本申请的实施例中,将展示对象名称数据库中的展示对象名称作为检索条件,对文本内容进行逐字检索,以确定文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称。
S602、若文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则确定图像的文本内容中包括展示对象名称,并记录该展示对象名称。
如果经过检测确定文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则表示图像的文本内容中包括展示对象名称,并记录该展示对象名称。以便于建立该展示对象名称与对应的图像之间的匹配关系,将该图像、该展示对象名称与对应的图像之间的匹配关系存储于特征映射库中。
本申请的实施例中,能够自动识别图像的文本内容中是否包括展示对象名称,进而提高了展示对象名称的识别速度和准确率。
示例性的,本申请另一实施例中公开了,以上实施例的步骤展示目标图像具体可以通过如下方式实现:
将设定图像显示区域的显示内容切换为目标图像。
具体的,指在面向服务对象进行主题介绍时,设置有图像显示区域,以便于通过图像显示区域显示图像,以通过图像辅助对主题进行说明。本申请的实施例中,确定目标图像后,将图像显示区域的显示内容切换为目标图像即可。
示例性的,若通过视频直播的方式进行面向服务对象的主题介绍,可以将直播视频的显示区域作为图像显示区域。若在线下进行面向服务对象的主题介绍,为了便于说明该主题,人们一结合显示设备显示的图像进行说明,在这样的场景下,可以将显示设备的显示区域作为图像显示区域。
本申请的实施例中,能够自动展示目标图像,提高了图像切换的便捷性。
与上述场景展示方法相对应的,本申请实施例还公开了一种场景展示装置,参见图7所示,该装置包括:
检测模块100,用于从目标语音中检测图像展示指令;其中,图像展示指令用于触发展示与特定展示对象相匹配的图像;
确定模块110,用于若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从特征映射库中确定出与图像展示指令相对应的目标图像;其中,特征映射库中存储图像,以及图像与展示对象的匹配关系;
展示模块120,用于展示目标图像。
本申请的场景展示装置,检测模块100从目标语音中检测图像展示指令;其中,图像展示指令用于触发展示与特定展示对象相匹配的图像;若从目标语音中检测到图像展示指令,确定模块110则根据检测到的图像展示指令,确定与图像展示指令相对应的目标图像;展示模块120展示目标图像。上述方案实现了基于语音进行展示图像的自动切换,提高图像切换的便捷性。将上述方案应用于基于视频直播进行的产品销售中,能够实现自动切换产品海报,不需要工作人员进行人工切换,提高了海报切换的便捷性。
可选的,在本申请的另一个实施例中,以上实施例的确定模块110,包括:
第一确定单元,用于根据检测到的图像展示指令以及预先设置的特征映射库,从特征映射库中确定出与图像展示指令相对应的目标图像;其中,特征映射库中存储图像,以及图像与展示对象的匹配关系。
可选的,在本申请的另一个实施例中,以上实施例的检测模块100,包括:
识别单元,用于对目标语音进行语音识别,得到识别文本;
检测单元,用于从识别文本中检测图像展示指令。
可选的,在本申请的另一个实施例中,以上实施例的检测单元,包括:
第一检测子单元,用于检测识别文本中是否包括预先设定的指令文本;
提取子单元,用于若识别文本中包括预先设定的指令文本,则根据识别文本中的指令文本,从识别文本中的设定位置提取设定长度的目标文本段;其中,设定位置根据指令文本的位置而确定;
第二检测子单元,用于检测目标文本段中是否包含展示对象名称;
第一确定子单元,用于若目标文本段中包含展示对象名称,则将指令文本和展示对象名称确定为图像展示指令。
可选的,在本申请的另一个实施例中,以上实施例的场景展示装置,还包括:
识别模块,用于识别图像的文本内容;
名称检测模块,检测图像的文本内容中是否包括展示对象名称;
存储模块,用于若图像的文本内容中包括展示对象名称,则将图像,以及图像与图像中包含的展示对象名称的匹配关系存储于特征映射库中。
可选的,在本申请的另一个实施例中,以上实施例的名称检测模块,包括:
判断单元,用于从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,其中,i和N均为正整数;目标字符序列由图像的文本内容的第i个字符开始的全部字符构成;
第二确定单元,用于若目标字符序列的前N个字符组成的字符串是展示对象名称,则确定图像的文本内容中包含展示对象名称并记录该展示对象名称,以及,将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列;
第一重复单元,用于重复上述过程,直至N等于目标字符序列的总字符数或N等于预设值;
第二重复单元,用于令i=i+1,并重新执行上述处理,直至i+1大于图像中的文本内容的总字符数。
可选的,在本申请的另一个实施例中,以上实施例的判断单元,包括:
第三检测子单元,用于检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称;
第二确定子单元,用于若展示对象名称数据库中包括与字符串相匹配的展示对象名称,则确定字符串为展示对象名称。
可选的,在本申请的另一个实施例中,以上实施例的名称检测模块,包括:
检索单元,用于以预先设置的展示对象名称数据库中的展示对象名称为检索条件,检索文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称;
第三确定单元,用于若文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则确定图像的文本内容中包括展示对象名称,并记录该展示对象名称。
具体的,上述的场景展示装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
本申请另一实施例还提出一种屏显设备,如图8所示,本实施例的屏显设备包括语音识别部件200、第一处理器210和显示屏幕220,第一处理器210分别与语音识别部件200、显示屏幕220相连。示例性的,第一处理器210通过总线分别与语音识别部件200、显示屏幕220相连。
语音识别部件200,用于对采集的用户语音进行语音识别,得到识别文本。示例性的,屏显设备还包括语音输入设备,语音输入设备用于采集用户语音,并将采集到的用户语音送入语音识别部件200进行识别。语音输入设备包括麦克风等设备。
第一处理器210,用于从语音识别部件200输出的识别文本中检测图像展示指令,其中,图像展示指令用于触发展示与特定展示对象相匹配的图像;若从目标语音中检测到图像展示指令,则根据检测到的图像展示指令,确定与图像展示指令相对应的目标图像,并将目标图像发送给显示屏幕220。
第一处理器210,可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
显示屏幕220,用于对第一处理器发送210的目标图像进行解码显示。
以上实施例的屏显设备,实现了基于语音进行展示图像的自动切换,提高图像切换的便捷性。将上述屏显设备应用于基于视频直播进行的产品销售中,能够实现自动切换产品海报,不需要工作人员进行人工切换,提高了海报切换的便捷性。
可选的,在本申请的另一个实施例中,以上实施例的屏显设备,还包括第一存储器230和光学字符识别部件240,第一存储器230和光学字符识别部件240分别与以上实施例的第一处理器210相连。示例性的,第一存储器230和光学字符识别部件240分别通过总线与以上实施例的第一处理器210相连。
光学字符识别部件240用于从输入的图像中识别文本内容,并将识别的文本内容发送至第一处理器210。
第一处理器210还用于检测光学字符识别部件识别得到的文本内容中是否包括展示对象名称;若光学字符识别部件识别得到的文本内容中包括展示对象名称,则将输入的图像以及图像与图像中包含的展示对象名称的匹配关系存储至第一处理器210。
第一存储器230存储第一处理器210发送的图像以及图像与图像中包含的展示对象名称的匹配关系。
第一存储器230可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
作为一种可选的实施方式,第一处理器210从识别文本中检测图像展示指令,包括:
检测识别文本中是否包括预先设定的指令文本;
若识别文本中包括预先设定的指令文本,则根据识别文本中的指令文本,从识别文本中的设定位置提取设定长度的目标文本段;其中,设定位置根据指令文本的位置而确定;
检测目标文本段中是否包含展示对象名称;
若目标文本段中包含展示对象名称,则将指令文本和展示对象名称确定为图像展示指令。
作为一种可选的实施方式,第一处理器210检测图像的文本内容中是否包括展示对象名称,包括:
从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,其中,i和N均为正整数;目标字符序列由图像的文本内容的第i个字符开始的全部字符构成;
若目标字符序列的前N个字符组成的字符串是展示对象名称,则确定图像的文本内容中包含展示对象名称并记录该展示对象名称,以及,将目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列;
重复上述过程,直至N等于目标字符序列的总字符数或N等于预设值;
令i=i+1,并重新执行上述处理,直至i+1大于图像中的文本内容的总字符数。
作为一种可选的实施方式,第一处理器210依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,包括:
检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称;
若展示对象名称数据库中包括与字符串相匹配的展示对象名称,则确定字符串为展示对象名称。
作为一种可选的实施方式,第一处理器210检测图像的文本内容中是否包括展示对象名称,包括:
以预先设置的展示对象名称数据库中的展示对象名称为检索条件,检索文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称;
若文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则确定图像的文本内容中包括展示对象名称,并记录该展示对象名称。
作为一种可选的实施方式,显示屏幕220展示目标图像,包括:
将设定图像显示区域的显示内容切换为目标图像。
本实施例提供的屏显设备,与本申请上述实施例所提供的场景展示方法属于同一申请构思,可执行本申请上述任意实施例所提供的场景展示方法,具备执行上述场景展示方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的场景展示方法的具体处理内容,此处不再加以赘述。
本申请另一实施例还提出一种电子设备,参见图10所示,该设备包括:
第二存储器300和第二处理器310;
其中,所述第二存储器300与所述第二处理器310连接,用于存储程序;
所述第二处理器310,用于通过运行所述第二存储器300中存储的程序,实现上述任一实施例公开的场景展示方法。
具体的,上述电子设备还可以包括:总线、第二通信接口320、第二输入设备330和第二输出设备340。
第二处理器310、第二存储器300、第二通信接口320、第二输入设备330和第二输出设备340通过总线相互连接。其中:
总线可包括一通路,在计算机***各个部件之间传送信息。
第二处理器310可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
第二处理器310可包括主处理器,还可包括基带芯片、调制解调器等。
第二存储器300中保存有执行本申请技术方案的程序,还可以保存有操作***和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,第二存储器300可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
第二输入设备330可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
第二输出设备340可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
第二通信接口320可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
第二处理器310执行第二存储器300中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的场景展示方法的各个步骤。
上述的电子设备,具体可以是显示屏幕、屏显设备、显示控制器等,还可以是具有显示屏幕或具有图像显示功能的显示***等。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的场景展示方法的各个步骤。
具体的,上述的电子设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的场景展示方法的各个实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种场景展示方法,其特征在于,包括:
从目标语音中检测图像展示指令;其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;
若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从所述特征映射库中确定出与所述图像展示指令相对应的目标图像;其中,所述特征映射库中存储图像,以及图像与展示对象的匹配关系;
展示所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述从目标语音中检测图像展示指令,包括:
对所述目标语音进行语音识别,得到识别文本;
从所述识别文本中检测图像展示指令。
3.根据权利要求2所述的方法,其特征在于,所述从所述识别文本中检测图像展示指令,包括:
检测所述识别文本中是否包括预先设定的指令文本;
若所述识别文本中包括预先设定的指令文本,则根据所述识别文本中的指令文本,从所述识别文本中的设定位置提取设定长度的目标文本段;其中,所述设定位置根据所述指令文本的位置而确定;
检测所述目标文本段中是否包含展示对象名称;
若所述目标文本段中包含展示对象名称,则将所述指令文本和所述展示对象名称确定为图像展示指令。
4.根据权利要求1所述的方法,其特征在于,所述特征映射库通过如下方式构建得到:
识别图像的文本内容;
检测所述图像的文本内容中是否包括展示对象名称;
若所述图像的文本内容中包括展示对象名称,则将所述图像,以及所述图像与所述图像中包含的展示对象名称的匹配关系存储于所述特征映射库中。
5.根据权利要求4所述的方法,其特征在于,所述检测所述图像的文本内容中是否包括展示对象名称,包括:
从图像的文本内容的第i个字符开始,依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,其中,i和N均为正整数;所述目标字符序列由图像的文本内容的第i个字符开始的全部字符构成;
若目标字符序列的前N个字符组成的字符串是展示对象名称,则确定所述图像的文本内容中包含展示对象名称并记录该展示对象名称,以及,将所述目标字符序列的第N+1个字符开始的剩余字符组成新的目标字符序列;
重复上述过程,直至N等于目标字符序列的总字符数或N等于预设值;
令i=i+1,并重新执行上述处理,直至i+1大于图像中的文本内容的总字符数。
6.根据权利要求5所述的方法,其特征在于,所述依次判断目标字符序列的前N个字符组成的字符串是否为展示对象名称,包括:
检测预先设置的展示对象名称数据库中是否包括与目标字符序列的前N个字符组成的字符串相匹配的展示对象名称;
若所述展示对象名称数据库中包括与所述字符串相匹配的展示对象名称,则确定所述字符串为展示对象名称。
7.根据权利要求4所述的方法,其特征在于,所述检测所述图像的文本内容中是否包括展示对象名称,包括:
以预先设置的展示对象名称数据库中的展示对象名称为检索条件,检索所述文本内容中是否包括预先设置的展示对象名称数据库中的展示对象名称;
若所述文本内容中包括预先设置的展示对象名称数据库中的展示对象名称,则确定所述图像的文本内容中包括展示对象名称,并记录该展示对象名称。
8.根据权利要求1所述的方法,其特征在于,所述展示所述目标图像,包括:
将设定图像显示区域的显示内容切换为所述目标图像。
9.一种场景展示装置,其特征在于,包括:
检测模块,用于从目标语音中检测图像展示指令;其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;
确定模块,用于若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令以及预先设置的特征映射库,从所述特征映射库中确定出与所述图像展示指令相对应的目标图像;其中,所述特征映射库中存储图像,以及图像与展示对象的匹配关系;
展示模块,展示所述目标图像。
10.一种屏显设备,其特征在于,包括:
语音识别部件、与所述语音识别部件连接的第一处理器,以及与所述第一处理器连接的显示屏幕;
所述语音识别部件用于对采集的用户语音进行语音识别,得到识别文本;
所述第一处理器用于从所述语音识别部件输出的识别文本中检测图像展示指令,其中,所述图像展示指令用于触发展示与特定展示对象相匹配的图像;若从所述目标语音中检测到图像展示指令,则根据检测到的图像展示指令,确定与所述图像展示指令相对应的目标图像,并将所述目标图像发送给所述显示屏幕;
所述显示屏幕对所述第一处理器发送的目标图像进行解码显示。
11.根据权利要求10所述的屏显设备,其特征在于,还包括:
分别与所述第一处理器连接的光学字符识别部件以及第一存储器;
所述光学字符识别部件用于从输入的图像中识别文本内容,并将识别的文本内容发送至所述第一处理器;
所述第一处理器还用于:检测所述光学字符识别部件识别得到的文本内容中是否包括展示对象名称;若所述光学字符识别部件识别得到的文本内容中包括展示对象名称,则将输入的图像以及所述图像与所述图像中包含的展示对象名称的匹配关系存储至所述第一存储器;
所述第一存储器存储所述第一处理器发送的图像以及图像与图像中包含的展示对象名称的匹配关系。
12.一种电子设备,其特征在于,包括:
第二存储器和第二处理器;
其中,所述第二存储器用于存储程序;
所述第二处理器,用于通过运行所述第二存储器中的程序,实现如权利要求1至8中任意一项所述的场景展示方法。
13.一种存储介质,其特征在于,包括:所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任意一项所述的场景展示方法的各个步骤。
CN202210682504.0A 2022-06-16 2022-06-16 场景展示方法、装置、屏显设备、电子设备和存储介质 Active CN115243062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210682504.0A CN115243062B (zh) 2022-06-16 2022-06-16 场景展示方法、装置、屏显设备、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210682504.0A CN115243062B (zh) 2022-06-16 2022-06-16 场景展示方法、装置、屏显设备、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115243062A true CN115243062A (zh) 2022-10-25
CN115243062B CN115243062B (zh) 2024-06-07

Family

ID=83670387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210682504.0A Active CN115243062B (zh) 2022-06-16 2022-06-16 场景展示方法、装置、屏显设备、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115243062B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108920580A (zh) * 2018-06-25 2018-11-30 腾讯科技(深圳)有限公司 图像匹配方法、装置、存储介质及终端
JP2019057057A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质
CN110881134A (zh) * 2019-11-01 2020-03-13 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
TW202013981A (zh) * 2018-09-26 2020-04-01 英屬維爾京群島商創意點子數位股份有限公司(Bvi) 多媒體的推播方法及其互動裝置
CN111131889A (zh) * 2019-12-31 2020-05-08 深圳创维-Rgb电子有限公司 场景自适应调整图像及声音的方法、***及可读存储介质
CN111601145A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于直播的内容展示方法、装置、设备及存储介质
CN111768269A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种全景图像的交互方法、装置及存储介质
CN111986595A (zh) * 2020-07-06 2020-11-24 佛山市京木测控科技有限公司 产品信息展示方法及电子设备、存储介质
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业***工程研究院 一种基于图像的文本识别方法、***和介质
WO2021136363A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 视频数据的处理、显示方法、装置、电子设备及存储介质
US20220107781A1 (en) * 2019-10-29 2022-04-07 Hisense Visual Technology Co., Ltd. Electronic device and non-transitory storage medium

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057057A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108920580A (zh) * 2018-06-25 2018-11-30 腾讯科技(深圳)有限公司 图像匹配方法、装置、存储介质及终端
TW202013981A (zh) * 2018-09-26 2020-04-01 英屬維爾京群島商創意點子數位股份有限公司(Bvi) 多媒體的推播方法及其互動裝置
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质
US20220107781A1 (en) * 2019-10-29 2022-04-07 Hisense Visual Technology Co., Ltd. Electronic device and non-transitory storage medium
CN110881134A (zh) * 2019-11-01 2020-03-13 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111131889A (zh) * 2019-12-31 2020-05-08 深圳创维-Rgb电子有限公司 场景自适应调整图像及声音的方法、***及可读存储介质
WO2021136363A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 视频数据的处理、显示方法、装置、电子设备及存储介质
CN111601145A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于直播的内容展示方法、装置、设备及存储介质
CN111768269A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种全景图像的交互方法、装置及存储介质
CN111986595A (zh) * 2020-07-06 2020-11-24 佛山市京木测控科技有限公司 产品信息展示方法及电子设备、存储介质
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业***工程研究院 一种基于图像的文本识别方法、***和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王自勇,廖朝佩: "红外图像自动目标识别技术进展", 飞航导弹, no. 07, 20 July 1996 (1996-07-20) *

Also Published As

Publication number Publication date
CN115243062B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN110968736B (zh) 视频生成方法、装置、电子设备及存储介质
US20080244446A1 (en) Disambiguation of icons and other media in text-based applications
CN107885826B (zh) 多媒体文件播放方法、装置、存储介质及电子设备
CN113378556A (zh) 提取文本关键字的方法及装置
CN105827516A (zh) 消息处理方法和装置
US11983500B2 (en) Method and device for semantic analysis and storage medium
CN113055529B (zh) 录音控制方法和录音控制装置
EP3734472A1 (en) Method and device for text processing
CN108595107B (zh) 一种界面内容处理方法及移动终端
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
WO2024149183A1 (zh) 文档显示方法、装置及电子设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN111538998B (zh) 文本定密方法和装置、电子设备及计算机可读存储介质
CN112866469A (zh) 通话内容的记录方法及装置
CN107918606B (zh) 具象名词识别方法、装置及计算机可读存储介质
CN115243062B (zh) 场景展示方法、装置、屏显设备、电子设备和存储介质
CN113157966B (zh) 显示方法、装置及电子设备
CN111353422B (zh) 信息提取方法、装置及电子设备
CN112417095A (zh) 语音消息处理方法和装置
CN112987941B (zh) 生成候选词的方法及装置
CN111198926B (zh) 业务办理管理方法、装置、电子设备及存储介质
CN112578965A (zh) 处理方法、装置和电子设备
CN109558017B (zh) 一种输入方法、装置和电子设备
CN107194004B (zh) 一种数据处理方法和电子设备
CN114124864B (zh) 消息处理方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant