CN112163513A - 信息选取方法、***、装置、电子设备及存储介质 - Google Patents
信息选取方法、***、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112163513A CN112163513A CN202011028058.9A CN202011028058A CN112163513A CN 112163513 A CN112163513 A CN 112163513A CN 202011028058 A CN202011028058 A CN 202011028058A CN 112163513 A CN112163513 A CN 112163513A
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- information
- area
- text content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 9
- 230000005057 finger movement Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/131—Book
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及信息处理技术领域,尤其是涉及本申请提供一种信息选取方法、***、装置、电子设备及存储介质,其技术方案在于:信息选取方法包括:实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像组成图像组;基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;基于所述区域信息,确定所述识别对象中的待识别区域;对所述待识别区域中的图文内容进行识别;将识别出来的图文内容发送至显示端以进行显示。本申请有利于提高信息选取的便利性。
Description
技术领域
本申请涉及信息处理技术领域,尤其是涉及一种信息选取方法、***、装置、电子设备及存储介质。
背景技术
目前越来越多的儿童在学龄前就开始学习,一般也通过学习机等电子设备进行学习,在学习的过程中,一般采用学习机中的搜题软件对需要显示的信息(如:题目或单词)进行选取,例如:先需要打开应用,进入到拍题页面,对准题目进行拍摄,然后需要手动去框选所要搜索答案的试题。
上述中的相关技术存在以下缺陷:这种手动框选信息的这种方式需要花费不少时间,难以满足小孩子的信息选取需求。
发明内容
为了提高信息选取的便利性,本申请提供一种信息选取方法、***、装置、电子设备及存储介质。
第一方面,本申请提供一种信息选取方法,采用如下的技术方案:
一种信息选取方法,包括:
实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像形成图像组;
基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
基于所述区域信息,确定所述识别对象中的待识别区域;
对所述待识别区域中的图文内容进行识别;
将识别出来的图文内容发送至显示端以进行显示。
通过采用上述技术方案,通过实时获取以识别对象为背景且包含目标对象的若干连续帧图像,若干连续帧图像形成图像组,并根据图像组来判断是否达到要确定目标对象与识别对象相关联区域的条件,当能够确定目标对象与所述识别对象中相关联区域的区域信息,再根据区域信息确定识别对象中的待识别区域,无需用户认为手动框选需要待识别区域,下一步再对待识别区域中的图文内容进行识别,并且能够将识别出来的图文内容发送到显示端进行显示,由此无需用户手动上传待识别的图文内容,从而提高信息选取的便利性。
本申请在一较佳示例中可以进一步配置为:所述基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息的步骤,包括:
在图像组中选取一张图像作为初始图像;
将其他的图像与所述初始图像进行对比并均达到预设的匹配度时,则确定所述目标对象与所述识别对象中相关联区域的区域信息。
通过采用上述技术方案,根据图像组来判断是否达到要确定目标对象与识别对象相关联区域的条件,先在图像组中选择一张作为初始图像,并将图像组中的其他图像与该初始图像进行对比并得到相应的对比结果,当对比结果达到预设的匹配度时,则判断为要确定目标对象与识别对象相关联区域的区域信息,通过图像组中初始图像与其他图像的对比来实现判断当前的目标对象是否需要确定区域信息,无需用户手动框选,以提高信息选取的便利性。
本申请在一较佳示例中可以进一步配置为:所述将其他的图像与所述初始图像进行对比并均达到预设的匹配度时,则确定所述目标对象与所述识别对象中相关联区域的区域信息的步骤,包括:
当所述目标对象为手指时,获取与手指相关联的第一图像以及与所述第一图像相关联的像素坐标;
基于所述第一图像以及像素坐标,获取手指中部的坐标点以及手指指尖的坐标点;
基于所述手指中部的坐标点以及所述手指指尖的坐标点,确定手指指尖指向方向;
基于所述手指指尖的指向方向,确定区域信息。
通过采用上述技术方案,当目标对象为手指时,先获取与手指相关联的第一图像以及根据第一图像上的像素获取相关联的像素坐标,再获取手指中部的坐标点以及手指指尖的坐标点,然后再根据手指中部的坐标点以及手指指尖的坐标点来获取手指指尖指向的方向,下一步再根据手指指尖的指向方向来确定区域信息。
本申请在一较佳示例中可以进一步配置为:所述对所述待识别区域中的图文内容进行识别的步骤,包括:
当所述手指指尖遮挡所述待识别区域的比例低于预设比例时,则识别图文内容。
通过采用上述技术方案,用户在指向待识别的区域时,当手指指尖遮挡待识别区域时,则判断手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例是否低于预设比例,当手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例低于预设比例时,则能够识别文本,由此即使手指指尖少部分遮挡待识别区域也能够正常识别待识别区域内的图文内容,有利于进一步提高信息选取的便利性。
本申请在一较佳示例中可以进一步配置为:所述将识别出来的图文内容发送至显示端以进行显示的步骤,还包括:
当将识别出来的图文内容发送至显示端以进行显示时,同步获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组;
基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
基于所述区域信息,确定所述识别对象中的待识别区域;
对所述待识别区域中的图文内容进行识别;
并将识别出来的图文内容发送至显示端以进行显示。
通过采用上述技术方案,当将识别出来的图文内容发送至显示端以进行显示时,能够同步获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组,即图文内容在显示端显示时,能够同步获取是否达到要确定目标对象与识别对象相关联区域的条件,便于用户快速进行到下一个待识别区域的选取,相较于相关技术而言,无需跳转到拍摄页面或者框选页面对下一个待识别区域进行选取。
本申请在一较佳示例中可以进一步配置为:所述对所述待识别区域中的图文内容进行识别的步骤,还包括:
同步识别所述图像组中的手指指尖的个数并对应生成个数信息;
基于所述个数信息,确定对所述图文内容操作的操作类型,所述操作类型包括图文内容解答、图文内容翻译和图文内容朗读。
通过采用上述技术方案,在识别待识别区域的图文内容的过程中,同步识别图像组中手指指尖的个数并生成个数信息,基于个数信息来判断对该图文内容的需要进行操作,有利于进一步提高信息选取的适用范围。
第二方面,本申请提供一种信息选取装置,采用如下的技术方案:
一种信息选取装置,包括:
图像获取模块:用于实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像形成图像组;
第一确定模块:用于基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
第二确定模块:基于所述区域信息,确定所述识别对象中的待识别区域;
识别模块:对所述待识别区域中的图文内容进行识别;
发送模块:将识别出来的图文内容发送至显示端以进行显示。
通过采用上述技术方案,通过图像获取模块获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组,然后再经过第一确定模块来确定目标对象与识别对象中相关联区域的区域信息,下一步再经过第二确定模块根据区域信息来确定识别对象中的待识别区域,最后采用识别模块对待识别区域内的图文内容进行识别处理,再通过发送模块将识别出来的图文内容发送到显示端,由此无需用户手动框选信息,提高信息选取的便利性。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的信息选取方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的信息选取方法的步骤。
第五方面,本申请提供一种信息选取***,采用如下的技术方案:
一种信息选取***,包括:
图像采集装置:用于实时采集包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组;以及如上述方案所述的电子设备,所述电子设备与所述图像采集装置通讯连接。
综上所述,本申请包括以下至少一种有益技术效果:
1、通过实时获取以识别对象为背景且包含目标对象的若干连续帧图像,若干连续帧图像形成图像组,并根据图像组来判断是否达到要确定目标对象与识别对象相关联区域的条件,当能够确定目标对象与所述识别对象中相关联区域的区域信息,再根据区域信息确定识别对象中的待识别区域,无需用户认为手动框选需要待识别区域,下一步再对待识别区域中的图文内容进行识别,并且能够将识别出来的图文内容发送到显示端进行显示,由此无需用户手动上传待识别的图文内容,从而提高信息选取的便利性;
2、用户在指向待识别的区域时,当手指指尖遮挡待识别区域时,则判断手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例是否低于预设比例,当手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例低于预设比例时,则能够识别文本,由此即使手指指尖少部分遮挡待识别区域也能够正常识别待识别区域内的图文内容,有利于进一步提高信息选取的便利性;
3、当将识别出来的图文内容发送至显示端以进行显示时,能够同步获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组,即图文内容在显示端显示时,能够同步获取是否达到要确定目标对象与识别对象相关联区域的条件,便于用户快速进行到下一个待识别区域的选取,相较于相关技术而言,无需跳转到拍摄页面或者框选页面对下一个待识别区域进行选取。
附图说明
图1是本申请其中一实施例中信息选取***的结构框图。
图2是本申请其中一实施例中信息选取方法的流程示意图。
图3是图2中步骤S2的具体流程示意图。
图4是图2中步骤S4的具体流程示意图。
图5是图2中步骤S5的具体流程示意图。
图6是本申请其中一实施例中的信息选取装置的结构框图。
图7是本申请其中一实施例中电子设备的结构框图。
附图标记:1、图像获取模块;2、第一确定模块;3、第二确定模块;4、识别模块;5、发送模块;10、图像采集装置;11、电子设备。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本申请实施例公开了一种信息选取方法,该信息选取方法可以但不仅限于如图1所示的信息选取***中。该信息选取***包括电子设备11和图像采集装置10。该电子设备11可以为学***板电脑并且位于平板电脑的顶部。用户(如:用户)进行信息选取前,先将书本或练***板电脑前并位于广角摄像头的下方,以实现广角摄像头能够采集到书本或练习册以及用户(如:学生)手指的图像。
为了更好地采集书本或练***板电脑处还设置有反光结构,如反光镜,以辅助广角摄像头更加清晰地采集图像。另外,学习平板设置有用于收集语音的传声器(如:话筒)以及用于将声音转换为文字的语音识别***。
以下以电子设备为学习平板(也可以称为学习机)的情况下举例说明用户在信息选取前所需要的操作:
学***板的界面显示的是初始界面,用户将书本或者练***板的初始界面下进行语音唤醒搜索界面,语音唤醒成功后会打开搜索界面并进行语音识别操作,语音识别相应的口令,语音识别成功后,能够唤醒图像采集装置10。
例如:用户先通过话筒向学***板中预设的语音指令文本进行对比,当文本对比结果匹配度达到95%,即可唤醒学***板输入“这道题怎么做”的语音指令唤醒图像采集装置10(如广角摄像头),下一步即可进行信息选取操作。
请参阅图2,本申请实施例公开一种信息选取方法,包括以下步骤:
S1、实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组。
目标对象为用户的手指,也可以为笔,在本实施例中,目标对象优选采用食指。识别对象为练习册、课本或电子书,在本实施例中,识别对象为练习册。
具体的,通过摄像头在500毫秒的时间内获取以练习册为背景且含有用户手指这个特征的若干连续帧图像,若干连续帧图像形成图像组,该图像组中包含在多张以练习册为背景且含有用户手指这个特征的图像。
S2、基于图像组,确定目标对象与识别对象中相关联区域的区域信息。具体的:
对于步骤S2,在其中一个实施例中,对图像组中与用户相关联的手指进行检测,以确定手指相对于练习册的位置,下一步检测与该手指相关联的手指指尖,以确定手指指尖相对于练习册的位置;从而进一步确定手指与练习册相关联区域的区域信息,该区域信息包括区域边界范围。
在语音唤醒图像采集装置10后,用户将手指指向需要选取的位置,此时图像采集装置10即可采集多张以练习册为背景且含有用户手指这个特征的图像,并且通过对多张图像的检测找到用户的手指相对于练习册的位置以及与手指相关联的手指指尖相对于练习册的位置,从而确定用户的手指指尖与练习册相关联的区域信息。
请参阅图3,在另一个实施例中,与上述实施例区别在于:S2、基于图像组,确定目标对象与识别对象中相关联区域的区域信息的步骤,具体为:
S21、在图像组中选取一张图像作为初始图像。
其中,该初始图像为最开始拍摄的图像。
S22、将其他的图像与初始图像进行对比并均达到预设的匹配度时,则确定目标对象与识别对象中相关联区域的区域信息。
其中,此处的匹配度的设定值可根据实际情况进行设定。本实施例中,此处预设的匹配度为98%。
对图像组中与用户相关联的手指进行检测,以确定手指相对于练习册的位置,下一步检测与该手指相关联的手指指尖,以确定手指指尖相对于练习册的位置;将图像组中的其他图像与该初始图像进行对比,当图像组中的其他图像中手指相对于练习册的位置以及手指指尖相对于练习册的位置,与初始图像中手指相对于练习册的位置以及手指指尖相对于练习册的位置的匹配度达到98%时,则确定用户需要搜索手指指尖与练习册相关联的区域,由此确定手指指尖与练习册相关联区域的区域范围。
例如:在图像采集装置10处于运行状态的条件下,当用户需要搜索题目时,将手指放在待搜索题目的下方,此时图像采集装置10获取若干连续帧图像,且若干连续帧图像形成图像组,通过对图像组中与用户相关联的手指进行检测,以确定手指相对于练习册的位置,下一步检测与该手指相关联的手指指尖,以确定手指指尖相对于练习册的位置;将图像组中的其他图像与该初始图像进行对比,当图像组中的其他图像中手指相对于练习册的位置以及手指指尖相对于练习册的位置,与初始图像中手指相对于练习册的位置以及手指指尖相对于练习册的位置的匹配度达到98%时,此时确定用户的手指指尖时静止指着待搜索的题目下方,由此确定手指指尖与练习册相关联区域的区域范围。
当图像采集装置10处于运行状态时,无需重新通过语音唤醒图像采集装置10,当检测到用户将手指静止放在练习册处需要搜索的区域处,直接确定用户已经选取一个需要搜索的区域,由此用户在搜索内容(如题目或单词)时,只需移动手指即可,待手指静止放在待搜索的内容处时,自动对与该手指以及手指指尖相关联的区域进行识别,对用户需要连续搜索时比较方便。
S3、基于区域信息,确定识别对象中的待识别区域。具体的:
根据步骤S2获得的区域范围,确定区域范围内题目序号以及与题目序号相关联的文本行、字体的行高和列宽、文本行数量来确定待识别区域。更具体的:先识别区域范围内的题目序号,再检测到与该题目序号相关联的第一文本行,然后再检测第一文本行与手指指尖所处位置之间的文本行数量,根据第一文本行、每个文本行中字体的行高以及列宽还有文本行的数量来确定待识别区域。其中,文字的行高以及列宽是根据图像中的像素坐标进行确定。
更具体的,例如:练习册中包含有题目“1.请判断以下句子是否通顺:A和B相同。”用户将手指指尖指在“1.请判断以下句子是否通顺:A和B相同。”的下方,此时先识别题目序号“1.”,然后再检测与题目序号相关联的第一文本行“请判断以下句子是否通顺:A和B相同。”,再结合手指指尖的位置与第一文本行的位置,即可确定待识别区域。
又例如:练习册中包含题目:“如图二显示了小明一天的日程,请以日记的形式记录小明一天的日程以及感想,字数要求800字以上。”,当题目中没有明显的题目序号时,则识别题目中包含的题目关键字“如图二”(在其他实施例中,关键字也可以为“参照图”、“以下”),则检测与题目关键字相关联的第一文本行,然后再检测用户手指指尖与第一文本行之间的第二文本行,同时,根据“如图二”来检测练习册中与该题目相关联的“图二”的图片,最后确定待识别区域范围为题目关键字、第一文本行、第二文本行以及与关键字“如图二”相关联的图片来组成。
S4、对待识别区域中的图文内容进行识别。
此处的图文内容包括图片、文字、数字、表格、标点符号、数字符号以及英文单词。再对图像中待识别区域范围内采用OCR(Optical Character Recognition光学字符识别)技术对区域范围内的图文内容转换为可处理(如复制、翻译、编辑)的图文内容。对于待识别区域中的图片,则将图片以图像的形式进行复制并保存。
S5、将识别出来的图文内容发送至显示端以进行显示。
将转换为可处理的图文内容发送到学***板的显示屏,也可以为PC端电脑显示屏或者是笔记本电脑显示屏。
对于步骤S22,在一实施例中,还包括:
当目标对象为手指时,获取与手指相关联的第一图像以及与第一图像相关联的像素坐标。
基于第一图像以及像素坐标,获取手指中部的坐标点以及手指指尖的坐标点。
基于手指中部的坐标点以及手指指尖的坐标点,将手指中部的坐标点以及手指指尖的坐标点两点进行连线,从而确定手指指尖指向方向。
基于手指指尖的指向方向,确定区域信息。
通过手指中部的坐标点以及手指指尖的坐标点来确定手指指尖的指向方向,有利于提高确定待识别区域的准确度。
对于步骤S4,在其中一实施例中,在对待识别区域中的图文内容进行识别的过程中,当手指指尖遮挡待识别区域的比例低于预设比例时,则识别图文内容。具体的,此处的预设比例可以但不仅限于2%。当用户的手指指尖遮挡待识别区域部分的面积占待识别区域面积的2%,对于被遮挡部分,根据识别未遮挡的部分以及上下文的内容结合对遮挡部分进行补全,从而能够识别图文内容。
具体的,当被遮挡部分为某个字体的一部分时,则根据识别到的某个字体的部分、与识别到的某个字体的部分的结构置信度最高的字体以及上下文的内容结合对进行补全。
例如:当用户的指尖遮挡题目中“的”字的下半部分,则根据识别得到的“的”的上半部分、与识别得到的“的”的上部分的置信度最高的字体以及上下文的内容结合对进行补全。
在另一种实施例中,当用户的手指指尖遮挡的是题目中“的”的整个字体,则根据题目中的内容结合对最有可能出现的字体进行补全;或者能够根据题目中识别得到的其他内容与学习平板的题库中的题目进行搜索匹配,确定题库中与识别得到的题目其他部分置信度最高的预设题目,并依据预设题目将待识别的题目中被遮挡部分进行补全。
例如:当用户的手指指尖遮挡题目中的“的”字时,先检测题目中其他未被遮挡的部分,并根据题目中未被遮挡的部分进行检测并得到相应的检测内容,并将检测内容与题库中的预设题目进行搜索匹配,当检测到与检测内容置信度达到预设值时(预设值为99%),则确定检测内容与预设题目相同,即可根据预设题目对待识别区域中被遮挡的部分进行补全。
在其他的实施例中,当用户的手指指尖遮挡的是待识别区域的空白部分,则能够正常识别图文内容。
例如:当用户的手指指尖遮挡题目中最后一个文本行后面的空白部分,则不影响对该待识别区域中图文内容的识别产生影响。
用户在指向待识别的区域时,尤其是一些低龄用户指向目标区域时容易因为不注意而遮挡住待识别区域的某一部分,当手指指尖遮挡待识别区域时,则判断手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例是否低于预设比例,当手指指尖遮挡待识别区域的面积与待识别区域整体面积的比例低于预设比例时,则能够识别文本,由此即使手指指尖少部分遮挡待识别区域也能够正常识别待识别区域内的图文内容,有利于进一步提高信息选取的便利性。以便一些低龄用户选取信息。
请参阅图4,在另一实施例中,与上述的实施例区别在于:步骤S4还包括:
S41、同步识别图像组中的手指指尖的个数并对应生成个数信息。
在识别图文内容的过程中,同步识别手指指尖的数量并生成个数信息,个数信息为1个,表示识别到图像中的手指指尖个数为1个,个数信息为2个,表示识别到图像中的手指指尖个数为2个。
S42、基于个数信息,确定对图文内容操作的操作类型,操作类型包括图文内容解答、图文内容翻译和图文内容朗读。
具体的,每个个数信息表示一种对图文内容操作的操作类型。
当个数信息为1个时,表示操作类型为图文内容解答。图文内容解答是基于图文内容是题目时,与该题目相关联的答案以及答案解析。
当个数信息为2个时,表示操作类型为进行图文内容解答以及图文内容翻译,此处的图文内容翻译主要是基于图文内容是非中文单词、非中文题目或者是题目中含有非中文单词时,对题目或者是单词进行翻译成中文。
当个数信息为3个时,表示操作类型为图文内容解答以及图文内容朗读,此处的图文内容朗读是学习平板根据识别到的图文内容通过TTS技术(又称文语转换,Text toSpeech)转换为语音,下一步再进行语音输出,从而实现朗读识别到的图文内容。
例如:当用户采用一根手指指向待识别区域时,且待识别区域中的图文内容为题目,在识别图文内容的过程中,同时识别到手指指尖的个数为1,从而得到个数信息为1个,则表示需要对待识别区域中的题目进行搜索答案以及答案解析,由此在发送识别到的题目发送给显示端进行显示的同时,学***板的显示屏上。
当用户采用两根手指指向待识别区域时,且待识别区域中的图文内容为题目,在识别图文内容的过程中,同时识别到手指指尖的个数为2,从而得到个数信息为2个,则表示需要对待识别区域中的题目进行搜索答案以及答案解析,同时需要对题目中的非中文内容进行翻译,并将与该题目相关联的词句翻译、答案及答案解析显示在学习平板的显示屏上。
当用户采用三根手指指向待识别区域时,且待识别区域中的图文内容为题目,在识别图文内容的过程中,同时识别到手指指尖的个数为3,从而得到个数信息为3个,则表示需要对待识别区域中的题目进行搜索答案、答案解析以及朗读题目,由此在发送识别到的题目发送给显示端进行显示的同时,学习平板对识别到的题目进行搜索答案以及答题解析,同时朗读题目。
在其他实施例中,也可以通过识别用户手指的移动轨迹来实现确定要对显示的图文内容的操作类型。
如:当用户采用一根手指指向待识别区域时,且待识别区域中的图文内容为题目,按照上述步骤对待识别区域内的图文内容进行识别并显示在学***板的显示界面上。
同样的,当用户采用一根手指指向待识别区域时,且待识别区域中的图文内容为题目,按照上述步骤对待识别区域内的图文内容进行识别并显示在学***板的显示界面上。
另外,当用户采用一根手指指向待识别区域时,且待识别区域中的图文内容为题目,按照上述步骤对待识别区域内的图文内容进行识别并显示在学***板的显示界面上,同时朗读题目。
在识别出来的图文内容并将内容显示在显示端时,同步识别图像组中手指指尖的个数并生成个数信息,基于个数信息来判断对该图文内容的操作,有利于进一步提高信息选取的适用范围。
请参阅图5,在一实施例中,对于步骤S5,与上述的实施例区别在于:还包括:
S51、当将识别出来的图文内容发送至显示端以进行显示时,同步获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组。
S52、基于图像组,确定目标对象与识别对象中相关联区域的区域信息。
S53、基于区域信息,确定识别对象中的待识别区域。
S54、对待识别区域中的图文内容进行识别。
S55、将识别出来的图文内容发送至显示端以进行显示。
具体的,当用户的手指指尖指向待识别的区域时,学***板通过图像采集装置10快速确定待识别区域并对待识别区域内的图文内容进行识别,并且将识别出来的图文内容进行显示。
例如:用户当前手指指尖指向第一道题目,且学***板通过图像采集装置10对用户的手指指尖以及与用户的手指指尖相关联的待识别区域进行识别,在这识别的过程中,学***板处于识别中,完成识别后,学***板通过图像采集装置10对用户的手指指尖以及与用户的手指指尖相关联的待识别区域进行识别,完成识别后,学习平板将第二道题目显示在显示界面上。这样设置以便于用户连续搜索题目,无需返回到初始界面就可以实现下一轮的信息选取操作。
同时,相较于相关技术而言,这样设置无需跳转到拍摄页面或者框选页面对下一个待识别区域进行选取,便于用户快速进行到下一个待识别区域的选取。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本实施例还公开一种信息选取装置,该与上述实施例中方法一一对应。如图6所示,该信息选取装置包括以下图像获取模块1、第一确定模块2、第二确定模块3、识别模块4和发送模块5,且各功能模块详细说明如下:
图像获取模块1:用于实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组。
第一确定模块2:用于基于图像组,确定目标对象与识别对象中相关联区域的区域信息。
第二确定模块3:基于区域信息,确定识别对象中的待识别区域。
识别模块4:对待识别区域中的图文内容进行识别。
发送模块5:将识别出来的图文内容发送至显示端以进行显示。
通过图像获取模块1获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组,然后再经过第一确定模块2来确定目标对象与识别对象中相关联区域的区域信息,下一步再经过第二确定模块3根据区域信息来确定识别对象中的待识别区域,最后采用识别模块4对待识别区域内的图文内容进行识别处理,再通过发送模块5将识别出来的图文内容发送到显示端,由此无需用户手动框选信息,提高信息选取的便利性。
关于装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本实施例还公开一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
S1、实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组。
S2、基于图像组,确定目标对象与识别对象中相关联区域的区域信息。
S3、基于区域信息,确定识别对象中的待识别区域。
S4、对待识别区域中的图文内容进行识别。
S5、将识别出来的图文内容发送至显示端以进行显示。
处理器执行计算机程序时还能够执行上述任意实施例中关于信息选取方法的步骤。
其中,电子设备的内部结构图可以如图7所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的数据库用于存储练习册的题目、句子译文、区域信息、个数信息、字典数据和语音指令文本。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息选取方法。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
S1、实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组。
S2、基于图像组,确定目标对象与识别对象中相关联区域的区域信息。
S3、基于区域信息,确定识别对象中的待识别区域。
S4、对待识别区域中的图文内容进行识别。
S5、将识别出来的图文内容发送至显示端以进行显示。
处理器执行计算机程序时还能够执行上述任意实施例中关于信息选取方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种信息选取方法,其特征在于,包括:
实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像形成图像组;
基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
基于所述区域信息,确定所述识别对象中的待识别区域;
对所述待识别区域中的图文内容进行识别;
将识别出来的图文内容发送至显示端以进行显示。
2.根据权利要求1所述的信息选取方法,其特征在于,所述基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息的步骤,包括:
在图像组中选取一张图像作为初始图像;
将其他的图像与所述初始图像进行对比并均达到预设的匹配度时,则确定所述目标对象与所述识别对象中相关联区域的区域信息。
3.根据权利要求2所述的信息选取方法,其特征在于,所述将其他的图像与所述初始图像进行对比并均达到预设的匹配度时,则确定所述目标对象与所述识别对象中相关联区域的区域信息的步骤,包括:
当所述目标对象为手指时,获取与手指相关联的第一图像以及与所述第一图像相关联的像素坐标;
基于所述第一图像以及像素坐标,获取手指中部的坐标点以及手指指尖的坐标点;
基于所述手指中部的坐标点以及所述手指指尖的坐标点,确定手指指尖指向方向;
基于所述手指指尖的指向方向,确定区域信息。
4.根据权利要求1所述的信息选取方法,其特征在于,所述对所述待识别区域中的图文内容进行识别的步骤,包括:
当所述手指指尖遮挡所述待识别区域的比例低于预设比例时,则识别图文内容。
5.根据权利要求1所述的信息选取方法,其特征在于,所述将识别出来的图文内容发送至显示端以进行显示的步骤,还包括:
当将识别出来的图文内容发送至显示端以进行显示时,同步获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧图像形成图像组;
基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
基于所述区域信息,确定所述识别对象中的待识别区域;
对所述待识别区域中的图文内容进行识别;
将识别出来的图文内容发送至显示端以进行显示。
6.根据权利要求1所述的信息选取方法,其特征在于,所述对所述待识别区域中的图文内容进行识别的步骤,还包括:
同步识别所述图像组中的手指指尖的个数并对应生成个数信息;
基于所述个数信息,确定对所述图文内容操作的操作类型,所述操作类型包括图文内容解答、图文内容翻译和图文内容朗读。
7.一种信息选取装置,其特征在于,包括:
图像获取模块(1):用于实时获取包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像形成图像组;
第一确定模块(2):用于基于所述图像组,确定所述目标对象与所述识别对象中相关联区域的区域信息;
第二确定模块(3):基于所述区域信息,确定所述识别对象中的待识别区域;
识别模块(4):对所述待识别区域中的图文内容进行识别;
发送模块(5):将识别出来的图文内容发送至显示端以进行显示。
8.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的信息选取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的信息选取方法的步骤。
10.一种信息选取***,其特征在于,包括:
图像采集装置(10):用于实时采集包含有目标对象且以识别对象为背景的若干连续帧图像,若干连续帧所述图像形成图像组;
以及如权利要求8所述的电子设备,所述电子设备与所述图像采集装置(10)通讯连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028058.9A CN112163513A (zh) | 2020-09-26 | 2020-09-26 | 信息选取方法、***、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028058.9A CN112163513A (zh) | 2020-09-26 | 2020-09-26 | 信息选取方法、***、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163513A true CN112163513A (zh) | 2021-01-01 |
Family
ID=73864108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011028058.9A Pending CN112163513A (zh) | 2020-09-26 | 2020-09-26 | 信息选取方法、***、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163513A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995713A (zh) * | 2021-03-02 | 2021-06-18 | 广州酷狗计算机科技有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN113723416A (zh) * | 2021-08-30 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597450A (zh) * | 2019-09-16 | 2019-12-20 | 广东小天才科技有限公司 | 防误触识别方法、装置、点读设备及其点读识别方法 |
CN110598217A (zh) * | 2019-09-19 | 2019-12-20 | 广东小天才科技有限公司 | 一种点读内容的识别方法、装置、家教机及存储介质 |
CN110866133A (zh) * | 2018-08-27 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 信息搜索方法、页面显示方法、***及设备 |
CN111026949A (zh) * | 2019-02-26 | 2020-04-17 | 广东小天才科技有限公司 | 一种基于电子设备的搜题方法及*** |
-
2020
- 2020-09-26 CN CN202011028058.9A patent/CN112163513A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866133A (zh) * | 2018-08-27 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 信息搜索方法、页面显示方法、***及设备 |
CN111026949A (zh) * | 2019-02-26 | 2020-04-17 | 广东小天才科技有限公司 | 一种基于电子设备的搜题方法及*** |
CN110597450A (zh) * | 2019-09-16 | 2019-12-20 | 广东小天才科技有限公司 | 防误触识别方法、装置、点读设备及其点读识别方法 |
CN110598217A (zh) * | 2019-09-19 | 2019-12-20 | 广东小天才科技有限公司 | 一种点读内容的识别方法、装置、家教机及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995713A (zh) * | 2021-03-02 | 2021-06-18 | 广州酷狗计算机科技有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN113723416A (zh) * | 2021-08-30 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN113723416B (zh) * | 2021-08-30 | 2024-03-29 | 北京字节跳动网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656922B (zh) | 一种翻译方法、装置、终端及存储介质 | |
JP7164651B2 (ja) | 翻訳方法、装置、電子機器及びコンピュータプログラム製品 | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及*** | |
US20190340233A1 (en) | Input method, input device and apparatus for input | |
KR102101496B1 (ko) | Ar 기반의 글씨 쓰기 연습 방법 및 프로그램 | |
CN111415537A (zh) | 一种基于符号标注的中小学生听词*** | |
KR20090053177A (ko) | 문자인식장치 및 방법 | |
CN111610901B (zh) | 一种基于ai视觉下的英语课文辅助教学方法及*** | |
CN112163513A (zh) | 信息选取方法、***、装置、电子设备及存储介质 | |
CN111680177A (zh) | 数据搜索方法及电子设备、计算机可读存储介质 | |
CN104182381A (zh) | 文字输入用方法和*** | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN113268981A (zh) | 一种信息处理方法、装置及电子设备 | |
CN110795918A (zh) | 确定阅读位置的方法、装置及设备 | |
CN111079489B (zh) | 一种内容识别方法及电子设备 | |
CN111638783A (zh) | 一种人机交互方法及电子设备 | |
CN111582281B (zh) | 一种图片显示优化的方法、装置、电子设备和存储介质 | |
CN113709322A (zh) | 一种扫描方法及其相关设备 | |
CN111553365A (zh) | 一种题目选取的方法、装置、电子设备及存储介质 | |
CN110543238A (zh) | 基于人工智能的桌面交互方法 | |
CN111027556A (zh) | 一种基于图像预处理的搜题方法及学习设备 | |
CN111079769A (zh) | 一种书写内容的识别方法及电子设备 | |
JP2016062307A (ja) | 情報表示装置、情報表示プログラムおよび情報表示方法 | |
CN113918114B (zh) | 文档控制方法、装置、计算机设备和存储介质 | |
KR102645783B1 (ko) | 외국인 대상 한국어 교육 서비스 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |