CN110727854A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110727854A
CN110727854A CN201910775864.3A CN201910775864A CN110727854A CN 110727854 A CN110727854 A CN 110727854A CN 201910775864 A CN201910775864 A CN 201910775864A CN 110727854 A CN110727854 A CN 110727854A
Authority
CN
China
Prior art keywords
interface
character
pinyin
preset
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910775864.3A
Other languages
English (en)
Other versions
CN110727854B (zh
Inventor
王彦芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910775864.3A priority Critical patent/CN110727854B/zh
Publication of CN110727854A publication Critical patent/CN110727854A/zh
Application granted granted Critical
Publication of CN110727854B publication Critical patent/CN110727854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种数据处理方法、装置、电子设备及计算机可读存储介质,所述方法包括:接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;在预设的文字模板库中确定与所述界面图像匹配的文字模板;按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;基于所述有序拼音集合生成输出音频,并返回给所述客户端。本发明实施例能够增强推荐内容对用户的吸引力,从而引导其进行点击观看,增强APP与用户的互动性,而且,可以增加APP的点击到达量。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及计算机技术域,尤其涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
目前的儿童APP操作方式,以奇巴布为例,用户在APP中自行操作和观看时,横向滑动页面,APP所推荐的内容,会按照三级分类或者数据特征进行聚合,在不同功能区块展现某一类的内容,如:小女孩的甜美公主梦,小男孩的正义英雄梦等等。
这种展现方式,有个缺陷,就是:低龄的小朋友的识字量有限,当他们看到推荐的功能区块和区块中的数据内容时,由于不认识具体的区块主题和绘本或影片名称的汉字,就会错过本来有可能感兴趣的内容,所以目前的文本内容加封面图的展现方式,对于年龄小的小朋友或者其它有阅读障碍的用户,只从视觉来吸引他们,互动性和吸引力就很有限;而且,对于APP提供方而言,推荐出去的数据会损失点击到达量。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种数据处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明提供了一种数据处理方法,包括:
接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
在预设的文字模板库中确定与所述界面图像匹配的文字模板;
按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
基于所述有序拼音集合生成输出音频,并返回给所述客户端。
可选地,在预设的文字模板库中确定与所述界面图像匹配的文字模板,包括:
在所述界面图像中提取待识别文字;
将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
可选地,在所述界面图像中提取待识别文字,包括:
对所述界面图像进行图像处理,得到中间图像;
对所述中间图像进行图像边缘查找,得到边缘查找结果;
对所述边缘查找结果进行像素邻域计算,得到多个像素连通区域;
在多个所述像素连通区域中提取待识别文字。
可选地,建立所述预设的文字模板库,包括:
在数据库中获取多个预设的应用界面的第一界面内容;
对所述第一界面内容进行分词并去重,得到界面文字集合;
针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
将每个界面文字对应的多个文字模板,存入所述文字模板库。
可选地,建立所述预设的文字模板库,还包括:
若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
将所述新增的界面文字存入所述界面文字集合,并执行针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
可选地,按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合,包括:
确定所述文字模板对应的文字及文字顺序;
按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音;
按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
可选地,基于所述有序拼音集合生成输出音频,包括:
在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合;
将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
可选地,建立所述预设的语音语料库,包括:
构建拼音表,所述拼音表包括:多个标准拼音;
针对所述拼音表中的每个标准拼音,分别录制音频片段;
将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
第二方面,本发明提供了一种数据处理装置,包括:
接收模块,用于接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
确定模块,用于在预设的文字模板库中确定与所述界面图像匹配的文字模板;
第一构建模块,用于按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
生成模块,用于基于所述有序拼音集合生成输出音频,并返回给所述客户端。
可选地,所述确定模块,包括:
提取单元,用于在所述界面图像中提取待识别文字;
计算单元,用于将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
第一确定单元,用于将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
可选地,所述提取单元,还用于:
对所述界面图像进行图像处理,得到中间图像;
对所述中间图像进行图像边缘查找,得到边缘查找结果;
对所述边缘查找结果进行像素邻域计算,得到多个像素连通区域;
在多个所述像素连通区域中提取待识别文字。
可选地,所述装置还包括:
获取模块,用于在数据库中获取多个预设的应用界面的第一界面内容;
分词去重模块,用于对所述第一界面内容进行分词并去重,得到界面文字集合;
设置模块,用于针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
第一存储模块,用于将每个界面文字对应的多个文字模板,存入所述文字模板库。
可选地,所述装置还包括:
分词模块,用于若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
去重模块,用于将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
第二存储模块,用于将所述新增的界面文字存入所述界面文字集合,并执行针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
可选地,所述构建模块,包括:
第二确定单元,用于确定所述文字模板对应的文字及文字顺序;
第三确定单元,用于按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音;
排序单元,用于按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
可选地,所述生成模块包括:
查找单元,用于在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合;
拼接单元,用于将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
可选地,所述装置还包括:
第二构建模块,用于构建拼音表,所述拼音表包括:多个标准拼音;
录制模块,用于针对所述拼音表中的每个标准拼音,分别录制音频片段;
第三存储模块,用于将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的数据处理方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理方法程序,所述数据处理方法程序被处理器执行时实现第一方面任一所述的数据处理方法的步骤。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例在接收到客户端发送的通过预设滑动操作触发截取的应用界面的界面图像后,可以在预设的文字模板库中确定与所述界面图像匹配的文字模板,然后按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合,最后可以基于所述有序拼音集合生成输出音频,并返回给所述客户端。
本发明实施例能够当应用界面上检测到预设滑动操作时,将界面图像中展露出的文字利用语音播报的方式输出,也就是说,在应用界面上展示文字的同时,本发明实施例还能够将文字进行语音播报的方式输出,从视觉和听觉双重角度抓住用户对推荐内容的兴趣,增强推荐内容对用户的吸引力,从而引导其进行点击观看,增强APP与用户的互动性,而且,可以增加APP的点击到达量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明一个实施例提供的一种数据处理方法的流程示意图;
图2为本发明又一实施例提供的一种数据处理方法的流程示意图;
图3为本发明又一实施例提供的一种建立文字模板库的流程示意图;
图4为本发明又一实施例提供的一种建立所述预设的语音语料库的流程示意图;
图5为本发明又一个实施例提供的一种数据处理装置的结构示意图;
图6为本发明又一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为了解决本发明的技术问题,本发明实施例提供的数据处理方法、装置、电子设备及计算机可读存储介质,如图1所示,所述数据处理方法可以应用于服务器中,所述方法可以包括以下步骤:
步骤S101,服务器接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
在实际应用中,用户打开安装于客户端的APP,在通过预设滑动操作使APP的应用界面进行切换时,APP向服务端接口发送信息获取请求,通过信息获取请求从服务器获取应用界面中所有功能区块的名称、简介和内容,此时功能区块只渲染了首屏露出的部分,未露出的部分未渲染。
预设滑动操作可以指用户的手指在应用界面滑动,以使应用界面跟随手指滑动而展示未渲染的功能区块等的操作,示例性的,可以指通过手指的慢速滑动(如滑动速度<10cm/s),使应用界面跟随手指慢速滑动,此时,应用界面中的功能区块由右侧向左侧展现。
步骤S102,服务器在预设的文字模板库中确定与所述界面图像匹配的文字模板;
如图2所示,所述步骤S102可以包括以下步骤:
步骤S201,在所述界面图像中提取待识别文字;
在该步骤中,可以首先对所述界面图像进行图像处理,得到中间图像;示例性的,对界面图像进行图像处理可以指对界面图像裁剪处理、对裁剪后的界面图像进行灰度处理及对灰度处理后的界面图像进行滤波处理等。
然后对所述中间图像进行图像边缘查找,得到边缘查找结果;示例性的,可以使用Canny边缘检测算法对中间图像进行多轮边缘查找。
再对所述边缘查找结果进行像素邻域计算,得到分布在图像内大大小小的多个像素连通区域;
最后可以在多个所述像素连通区域中提取待识别文字,示例性的,可以使用光学字符识别(Optical Character Recognition,OCR)算法,利用OCR算法对文本资料的图像文件进行分析识别处理,提取待识别文字。
通过图像处理、边缘查找及像素邻域计算,可以准确得到多个包含待识别文字的像素连通区域,在这些像素连通区域中提取待识别文字,相较于在整个图片中提取待识别文字,运算量更小,节省***资源。
步骤S202,将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
在本发明实施例中,文字模板库为预先建立的、其中包含多个文字模板的文字模板集合。
步骤S203,将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
通过将在界面图像中提取的待识别文字,与预设的文字模板库中的各文字模板分别计算相似度,将相似度最高的文字模板确定为与所述界面图像匹配的文字模板,实现在预设的文字模板库中确定与所述界面图像匹配的文字模板,并且通过查找相似度最高的文字模板,可以提高确定的文字模板的准确度。
在本发明实施例中,如图3所示,预先建立所述预设的文字模板库可以包含基于APP中现有的文字构建的模板库,和基于APP新增的文字(例如APP新增功能模块时等)构建的模板库这两种情况,其中由于APP现有的文字是确定已经在应用界面呈现的,所以为了提高精确度,可以进行重点处理,为此,针对APP中现有的文字建立文字模板库,可以通过以下步骤S301~步骤S304来实现,具体的:
步骤S301,在数据库中获取多个预设的应用界面的第一界面内容;
示例性的,第一界面内容可以指所有的三级分类和功能区块主题等,在该步骤中,可以在数据库中获取所有的三级分类和功能区块主题。
步骤S302,对所述第一界面内容进行分词并去重,得到包含无重复的汉字的界面文字集合;
步骤S303,针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
预设的文字展示形式,示例性的,可以指宋体、隶书和微软雅黑等。在该步骤中,可以将界面文字,分别设置为宋体、隶书和微软雅黑等字体,这样,每个界面文字,可以对应得到多个文字模板。
步骤S304,将每个界面文字对应的多个文字模板,存入所述文字模板库。
通过S301~步骤S304,可以在数据库中获取应用界面的第一界面内容(即:APP中现有的文字),经过分词、去重及按照文字展示形式进行展示设置,最后存储得到的多个文字模板,实现基于APP中现有的文字构建文字模板库,由于待识别文字是从界面图像中提取的,文字模板库也是基于应用界面中的界面文字构建的,这样,将待识别文字与文字模板库中的文字模板进行匹配时,将更容易找到完全一致或者相似度较高的文字模板,便于提高将所述待识别文字与预设的文字模板库中的各文字模板进行相似度匹配时的准确度。
APP新增的文字可以指通过增加功能模块等方式确定新增的文字或者可能在应用界面中增加的可能新增的文字,对于APP新增的文字建立所述预设的文字模板库,可以包括以下步骤:
步骤S305,若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
与第一界面内容类似,第二界面内容可以指所有的三级分类和功能区块主题等。
步骤S306,将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
步骤S307,将所述新增的界面文字存入所述界面文字集合,并执行步骤S303针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
通过S305~步骤S307,可以在数据库中获取应用界面新增的第二界面内容(即:APP中新增的文字),经过分词、去重及按照文字展示形式进行展示设置,最后存储得到的多个文字模板,实现基于APP中新增的文字构建模板库,由于待识别文字是从界面图像中提取的,文字模板库也是基于应用界面中的界面文字构建的,这样,将待识别文字与文字模板库中的文字模板进行匹配时,将更容易找到完全一致或者相似度较高的文字模板,便于提高将所述待识别文字与预设的文字模板库中的各文字模板进行相似度匹配时的准确度。
在执行完上述步骤S102后,执行步骤S103。
步骤S103,服务器按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
在该步骤中,可以首先确定所述文字模板对应的文字及文字顺序,然后,按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音,最后可以,按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
步骤S104,服务器基于所述有序拼音集合生成输出音频,并返回给所述客户端。
在该步骤中,可以在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合,再将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
服务端将输出音频返回给客户端,客户端的APP调用操作***播放接口对输出音频进行播放。
语音语料库为预先建立的、其中包含多对标准拼音与音频片段之间对应关系的语音预料集合,如图4所示,建立所述预设的语音语料库,可以包括以下步骤:
步骤S401,构建拼音表,所述拼音表包括:多个标准拼音;
由于汉字中有很多同音字,要遍历每个字的发音,只要拿到拼音的最小集合即可,拼音表的主键为自增id,内容包含声母、韵母、音调。比如声母为sh,韵母为an,音调为一声,可以构成唯一确定的一个拼音。这样拼音表中大概会有几百个元素,即可涵盖字典中所有文字的发音。
步骤S402,针对所述拼音表中的每个标准拼音,分别录制音频片段;
在该步骤中,只需要录制声母数×韵母数×4,大约几百个语音。
步骤S403,将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
语音语料库中的每个标准拼音录制的音频片段,与拼音表中的标准拼音一一对应。
通过步骤S401~步骤S403,可以得到包含多个标准拼音与音频片段之间组合的语音语料库,可以便于服务器基于所述有序拼音集合生成输出音频时使用,基于标准拼音,录制音频片段,使得输出音频的声音更加准确,便于用户识别。
本发明实施例在接收到客户端发送的通过预设滑动操作触发截取的应用界面的界面图像后,可以在预设的文字模板库中确定与所述界面图像匹配的文字模板,然后按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合,最后可以基于所述有序拼音集合生成输出音频,并返回给所述客户端。
本发明实施例能够当应用界面上检测到预设滑动操作时,将界面图像中展露出的文字利用语音播报的方式输出,也就是说,在应用界面上展示文字的同时,本发明实施例还能够将文字进行语音播报的方式输出,便于不认字的儿童或者其它有阅读障碍的用户使用,而且从视觉和听觉双重角度抓住用户对推荐内容的兴趣,增强推荐内容对用户的吸引力,从而引导其进行点击观看,增强APP与用户的互动性,而且,可以增加APP的点击到达量。
在实际应用中,通过本发明实施例,当儿童或者其它有阅读障碍的用户使用APP时,慢速滑动页面,功能区块由右侧向左侧展现,此时可以对功能区块的主题进行语音播报,如:小女孩的甜美公主梦。如果用户听到了关键词:甜美、公主,同时看到了功能区块下6~7个数据内容的封面图,结合音画,可帮助用户对这部分数据节目产生兴趣,从而进行点击观看。
在本发明的又一实施例中,还提供一种数据处理装置,如图5所示,所述装置包括:
接收模块11,用于接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
确定模块12,用于在预设的文字模板库中确定与所述界面图像匹配的文字模板;
第一构建模块13,用于按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
生成模块14,用于基于所述有序拼音集合生成输出音频,并返回给所述客户端。
在本发明的又一实施例中,所述确定模块,包括:
提取单元,用于在所述界面图像中提取待识别文字;
计算单元,用于将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
第一确定单元,用于将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
在本发明的又一实施例中,所述提取单元,还用于:
对所述界面图像进行图像处理,得到中间图像;
对所述中间图像进行图像边缘查找,得到边缘查找结果;
对所述边缘查找结果进行像素邻域计算,得到多个像素连通区域;
在多个所述像素连通区域中提取待识别文字。
在本发明的又一实施例中,所述装置还包括:
获取模块,用于在数据库中获取多个预设的应用界面的第一界面内容;
分词去重模块,用于对所述第一界面内容进行分词并去重,得到界面文字集合;
设置模块,用于针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
第一存储模块,用于将每个界面文字对应的多个文字模板,存入所述文字模板库。
在本发明的又一实施例中,所述装置还包括:
分词模块,用于若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
去重模块,用于将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
第二存储模块,用于将所述新增的界面文字存入所述界面文字集合,并执行针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
在本发明的又一实施例中,所述构建模块,包括:
第二确定单元,用于确定所述文字模板对应的文字及文字顺序;
第三确定单元,用于按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音;
排序单元,用于按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
在本发明的又一实施例中,所述生成模块包括:
查找单元,用于在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合;
拼接单元,用于将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
在本发明的又一实施例中,所述装置还包括:
第二构建模块,用于构建拼音表,所述拼音表包括:多个标准拼音;
录制模块,用于针对所述拼音表中的每个标准拼音,分别录制音频片段;
第三存储模块,用于将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
在本发明的又一实施例中,还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现前述方法实施例所述的数据处理方法。
在本发明的又一实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理方法程序,所述数据处理方法程序被处理器执行时实现前述方法实施例所述的数据处理方法的步骤。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序实现了获取视频的播放操作,根据播放操作确认相应的帧率降低策略,根据帧率降低策略对视频数据对应的帧数据进行调整后进行播放,保证播放设备可以良好的播放视频。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (18)

1.一种数据处理方法,其特征在于,包括:
接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
在预设的文字模板库中确定与所述界面图像匹配的文字模板;
按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
基于所述有序拼音集合生成输出音频,并返回给所述客户端。
2.根据权利要求1所述的数据处理方法,其特征在于,在预设的文字模板库中确定与所述界面图像匹配的文字模板,包括:
在所述界面图像中提取待识别文字;
将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
3.根据权利要求2所述的数据处理方法,其特征在于,在所述界面图像中提取待识别文字,包括:
对所述界面图像进行图像处理,得到中间图像;
对所述中间图像进行图像边缘查找,得到边缘查找结果;
对所述边缘查找结果进行像素邻域计算,得到多个像素连通区域;
在多个所述像素连通区域中提取待识别文字。
4.根据权利要求1所述的数据处理方法,其特征在于,建立所述预设的文字模板库,包括:
在数据库中获取多个预设的应用界面的第一界面内容;
对所述第一界面内容进行分词并去重,得到界面文字集合;
针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
将每个界面文字对应的多个文字模板,存入所述文字模板库。
5.根据权利要求4所述的数据处理方法,其特征在于,建立所述预设的文字模板库,还包括:
若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
将所述新增的界面文字存入所述界面文字集合,并执行针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
6.根据权利要求1所述的数据处理方法,其特征在于,按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合,包括:
确定所述文字模板对应的文字及文字顺序;
按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音;
按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
7.根据权利要求1所述的数据处理方法,其特征在于,基于所述有序拼音集合生成输出音频,包括:
在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合;
将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
8.根据权利要求7所述的数据处理方法,其特征在于,建立所述预设的语音预料库,包括:
构建拼音表,所述拼音表包括:多个标准拼音;
针对所述拼音表中的每个标准拼音,分别录制音频片段;
将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
9.一种数据处理装置,其特征在于,包括:
接收模块,用于接收客户端发送的应用界面的界面图像,所述界面图像是在客户端界面检测到预设滑动操作时截取的;
确定模块,用于在预设的文字模板库中确定与所述界面图像匹配的文字模板;
第一构建模块,用于按照预设的拼音库中文字与拼音的对应关系,确定文字模板对应的有序拼音集合;
生成模块,用于基于所述有序拼音集合生成输出音频,并返回给所述客户端。
10.根据权利要求9所述的数据处理装置,其特征在于,所述确定模块,包括:
提取单元,用于在所述界面图像中提取待识别文字;
计算单元,用于将所述待识别文字与预设的文字模板库中的各文字模板分别计算相似度;
第一确定单元,用于将相似度最高的文字模板确定为与所述界面图像匹配的文字模板。
11.根据权利要求10所述的数据处理装置,其特征在于,所述提取单元,还用于:
对所述界面图像进行图像处理,得到中间图像;
对所述中间图像进行图像边缘查找,得到边缘查找结果;
对所述边缘查找结果进行像素邻域计算,得到多个像素连通区域;
在多个所述像素连通区域中提取待识别文字。
12.根据权利要求9所述的数据处理装置,其特征在于,所述装置还包括:
获取模块,用于在数据库中获取多个预设的应用界面的第一界面内容;
分词去重模块,用于对所述第一界面内容进行分词并去重,得到界面文字集合;
设置模块,用于针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置,得到多个文字模板;
第一存储模块,用于将每个界面文字对应的多个文字模板,存入所述文字模板库。
13.根据权利要求12所述的数据处理装置,其特征在于,所述装置还包括:
分词模块,用于若所述数据库中存在新增的第二界面内容时,对所述第二界面内容进行分词;
去重模块,用于将分词后的第二界面内容与所述界面文字集合进行去重,得到新增的界面文字;
第二存储模块,用于将所述新增的界面文字存入所述界面文字集合,并执行针对所述界面文字集合中的每个界面文字,分别按照多个预设的文字展示形式进行展示设置的步骤。
14.根据权利要求9所述的数据处理装置,其特征在于,所述构建模块,包括:
第二确定单元,用于确定所述文字模板对应的文字及文字顺序;
第三确定单元,用于按照预设的拼音库中文字与拼音之间的对应关系,确定与所述文字对应的拼音;
排序单元,用于按照所述文字顺序对所述拼音进行排序,得到所述有序拼音集合。
15.根据权利要求9所述的数据处理装置,其特征在于,所述生成模块包括:
查找单元,用于在预设的语音语料库中查找与所述拼音对应的音频片段,得到有序音频集合;
拼接单元,用于将所述有序音频集合中的音频片段进行编码拼接,得到所述输出音频。
16.根据权利要求9所述的数据处理装置,其特征在于,所述装置还包括:
第二构建模块,用于构建拼音表,所述拼音表包括:多个标准拼音;
录制模块,用于针对所述拼音表中的每个标准拼音,分别录制音频片段;
第三存储模块,用于将每个所述标准拼音及其对应的音频片段对应存储,得到语音语料库。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的数据处理方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理方法程序,所述数据处理方法程序被处理器执行时实现权利要求1-8任一所述的数据处理方法的步骤。
CN201910775864.3A 2019-08-21 2019-08-21 数据处理方法、装置、电子设备及计算机可读存储介质 Active CN110727854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910775864.3A CN110727854B (zh) 2019-08-21 2019-08-21 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910775864.3A CN110727854B (zh) 2019-08-21 2019-08-21 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110727854A true CN110727854A (zh) 2020-01-24
CN110727854B CN110727854B (zh) 2022-07-12

Family

ID=69217126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910775864.3A Active CN110727854B (zh) 2019-08-21 2019-08-21 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110727854B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663641A (zh) * 2020-12-08 2022-06-24 凌华科技股份有限公司 时间相依文字感兴趣区域的侦测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118541A (zh) * 2006-08-03 2008-02-06 苗玉水 汉语语音码汉语语音识别方法
CN101354748A (zh) * 2007-07-23 2009-01-28 英华达(上海)电子有限公司 一种文字识别装置和方法、及移动终端
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN103297710A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注中外文字幕音像录播设备
CN104698998A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 汉语语音现场控制的机器人***
CN105956588A (zh) * 2016-04-21 2016-09-21 深圳前海勇艺达机器人有限公司 智能扫描及朗读文字的方法及其机器人装置
US20170076338A1 (en) * 2006-11-30 2017-03-16 Nexrf, Corp. Content relevance weighting sysetm
CN107608618A (zh) * 2017-09-18 2018-01-19 广东小天才科技有限公司 一种用于可穿戴设备的交互方法、装置和可穿戴设备
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108847066A (zh) * 2018-05-31 2018-11-20 上海与德科技有限公司 一种教学内容提示方法、装置、服务器和存储介质
CN109300347A (zh) * 2018-12-12 2019-02-01 广东小天才科技有限公司 一种基于图像识别的听写辅助方法及家教设备
CN110060524A (zh) * 2019-04-30 2019-07-26 广东小天才科技有限公司 一种机器人辅助阅读的方法及阅读机器人

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118541A (zh) * 2006-08-03 2008-02-06 苗玉水 汉语语音码汉语语音识别方法
US20170076338A1 (en) * 2006-11-30 2017-03-16 Nexrf, Corp. Content relevance weighting sysetm
CN101354748A (zh) * 2007-07-23 2009-01-28 英华达(上海)电子有限公司 一种文字识别装置和方法、及移动终端
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN103297710A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注中外文字幕音像录播设备
CN104698998A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 汉语语音现场控制的机器人***
CN105956588A (zh) * 2016-04-21 2016-09-21 深圳前海勇艺达机器人有限公司 智能扫描及朗读文字的方法及其机器人装置
CN107608618A (zh) * 2017-09-18 2018-01-19 广东小天才科技有限公司 一种用于可穿戴设备的交互方法、装置和可穿戴设备
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108847066A (zh) * 2018-05-31 2018-11-20 上海与德科技有限公司 一种教学内容提示方法、装置、服务器和存储介质
CN109300347A (zh) * 2018-12-12 2019-02-01 广东小天才科技有限公司 一种基于图像识别的听写辅助方法及家教设备
CN110060524A (zh) * 2019-04-30 2019-07-26 广东小天才科技有限公司 一种机器人辅助阅读的方法及阅读机器人

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SNEHA.C. MADRE ET AL.: "OCR Based Image Text to Speech Conversion Using MATLAB", 《2018 SECOND INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND CONTROL SYSTEMS》 *
王坤: "基于安卓平台的图片文字识别及朗读技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
许剑峰: "数字视频中的文本分割的研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663641A (zh) * 2020-12-08 2022-06-24 凌华科技股份有限公司 时间相依文字感兴趣区域的侦测方法

Also Published As

Publication number Publication date
CN110727854B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109543058B (zh) 用于检测图像的方法、电子设备和计算机可读介质
CN111161739B (zh) 语音识别方法及相关产品
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN112559800A (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
CN114095749A (zh) 推荐及直播界面展示方法、计算机存储介质、程序产品
CN115269884A (zh) 生成视频语料的方法、装置及相关设备
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN113038175B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN110727854B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114445754A (zh) 视频处理方法、装置、可读介质及电子设备
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
US11074939B1 (en) Disambiguation of audio content using visual context
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备
CN111368553A (zh) 智能词云图数据处理方法、装置、设备及存储介质
JP7476138B2 (ja) ビデオ処理方法、装置、電子機器及び記憶媒体
CN110428668B (zh) 一种数据提取方法、装置、计算机***及可读存储介质
CN113987264A (zh) 视频摘要生成方法、装置、设备、***及介质
CN111050194B (zh) 视频序列处理方法、视频序列处理装置、电子设备及计算机可读存储介质
CN111259181B (zh) 用于展示信息、提供信息的方法和设备
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
CN112699687A (zh) 内容编目方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant