CN108182432A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN108182432A
CN108182432A CN201711458159.8A CN201711458159A CN108182432A CN 108182432 A CN108182432 A CN 108182432A CN 201711458159 A CN201711458159 A CN 201711458159A CN 108182432 A CN108182432 A CN 108182432A
Authority
CN
China
Prior art keywords
display data
text information
word
recognition result
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711458159.8A
Other languages
English (en)
Inventor
***
曹徐平
吴家林
吕继根
邵英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711458159.8A priority Critical patent/CN108182432A/zh
Publication of CN108182432A publication Critical patent/CN108182432A/zh
Priority to US16/210,871 priority patent/US10963760B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:获取包含文字信息的图像信息,其中,文字信息包括印刷文字和非印刷文字;识别图像信息中的文字信息,生成展示数据,其中,展示数据包括文字信息的识别结果;将展示数据反馈给用户。该实施方式有助于降低图像信息的获取方式和内容的局限性,并且可以丰富其中的文字信息的反馈方式和内容。

Description

信息处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及文字识别技术领域,尤其涉及信息处理方法和装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)通常是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
发明内容
本申请实施例提出了信息处理方法和装置。
第一方面,本申请实施例提供了一种信息处理方法,包括:获取包含文字信息的图像信息,其中,文字信息包括印刷文字和非印刷文字;识别图像信息中的文字信息,生成展示数据,其中,展示数据包括文字信息的识别结果;将展示数据反馈给用户。
在一些实施例中,识别图像信息中的文字信息,生成展示数据,包括:利用光学字符识别方法对文字信息进行识别,生成初级识别结果;通过语义分析对初级识别结果中的错误文字进行修正,生成文字信息的识别结果,以生成展示数据。
在一些实施例中,将展示数据反馈给用户,包括:语音播放文字信息的识别结果,和/或呈现展示数据。
在一些实施例中,语音播放文字信息的识别结果,包括:对文字信息的识别结果进行语音合成,生成包含背景声音的语音信息;按照第一预设要求播放语音信息,其中,第一预设要求包括以下至少一项要求:语种、语速、语气和声音类型。
在一些实施例中,呈现展示数据之前,识别图像信息中的文字信息,生成展示数据,还包括:对文字信息的识别结果进行语音标注,生成展示数据。
在一些实施例中,呈现展示数据,包括:对文字信息的识别结果进行切词处理;按照第二预设要求呈现处理后的展示数据,其中,第二预设要求包括以下至少一项要求:背景图像、字体、字号和颜色。
在一些实施例中,该方法还包括:响应于检测到用户对当前呈现的展示数据的第一操作指令,判断是否存在对当前呈现的展示数据的选取操作,其中,选取操作包括以下至少一项:对展示数据的段内容、行内容、单个字或词内容的选取;响应于判断结果为否,存储当前展示数据的全部内容;响应于判断结果为是,存储选取操作所选取的展示数据的内容,并进一步判断选取操作是否为对单个字或词内容的选取,若判断结果为是,呈现所选取的单个字或词的注释信息。
在一些实施例中,该方法还包括:响应于检测到用户的第二操作指令,重复语音播放文字信息的识别结果。
第二方面,本申请实施例提供了一种信息处理装置,包括:获取单元,配置用于获取包含文字信息的图像信息,其中,文字信息包括印刷文字和非印刷文字;识别单元,配置用于识别图像信息中的文字信息,生成展示数据,其中,展示数据包括文字信息的识别结果;反馈单元,配置用于将展示数据反馈给用户。
在一些实施例中,识别单元包括:第一生成子单元,配置用于利用光学字符识别方法对文字信息进行识别,生成初级识别结果;第二生成子单元,配置用于通过语义分析对初级识别结果中的错误文字进行修正,生成文字信息的识别结果,以生成展示数据。
在一些实施例中,反馈单元进一步配置用于:语音播放文字信息的识别结果,和/或呈现展示数据。
在一些实施例中,反馈单元包括:合成子单元,配置用于对文字信息的识别结果进行语音合成,生成包含背景声音的语音信息;播放子单元,配置用于按照第一预设要求播放语音信息,其中,第一预设要求包括以下至少一项要求:语种、语速、语气和声音类型。
在一些实施例中,识别单元进一步配置用于:对文字信息的识别结果进行语音标注,生成展示数据。
在一些实施例中,反馈单元还包括:处理子单元,配置用于对文字信息的识别结果进行切词处理;呈现子单元,配置用于按照第二预设要求呈现处理后的展示数据,其中,第二预设要求包括以下至少一项要求:背景图像、字体、字号和颜色。
在一些实施例中,该装置还包括:第一检测单元,配置用于响应于检测到用户对当前呈现的展示数据的第一操作指令,判断是否存在对当前呈现的展示数据的选取操作,其中,选取操作包括以下至少一项:对展示数据的段内容、行内容、单个字或词内容的选取;第一存储单元,配置用于响应于判断结果为否,存储当前展示数据的全部内容;第二存储单元,配置用于响应于判断结果为是,存储选取操作所选取的展示数据的内容,并进一步判断选取操作是否为对单个字或词内容的选取,若判断结果为是,呈现所选取的单个字或词的注释信息。
在一些实施例中,该装置还包括:第二检测单元,配置用于响应于检测到用户的第二操作指令,重复语音播放文字信息的识别结果。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;图像获取装置,用于获取图像信息;语音播放设备,用于播放语音信息;显示屏,用于呈现展示数据;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面中任一实施例所描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序。其中,该计算机程序被处理器执行时实现如上述第一方面中任一实施例所描述的方法。
本申请实施例提供的信息处理方法和装置,可以通过多种方式来获取图像信息,以对其中所包含的文字信息进行识别。其中,文字信息可以包括印刷文字和非印刷文字。这样有助于降低图像信息的获取方式和内容的局限性。同时,可以生成包括文字信息的识别结果的展示数据,并可以将该展示数据反馈给用户。这样可以丰富其中的文字信息的反馈方式和反馈内容。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的信息处理方法的一个实施例的流程图;
图3A和图3B是根据本申请的信息处理方法的应用场景的示意图;
图4是根据本申请的信息处理装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息处理方法或信息处理装置的示例性***架构100。
如图1所示,***架构100可以包括终端101、102、103,网络104和服务器105。网络104用以在终端101、102、103与服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端101、102、103通过网络104与服务器105进行交互,以接收或发送消息等。终端101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、文字识别类应用、即时通讯工具和购物类应用等。此外,终端101、102、103可以对用户通过其获取的图像信息中所包含的文字信息进行识别分析,并将分析结果(例如生成的展示数据)反馈给用户。
终端101、102、103可以是各种电子设备,例如具有图像获取装置(如摄像头)、语音播放设备(如听筒、扬声器)、电子屏中的一种或多种的电子设备。电子设备可以包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端101、102、103上的应用提供支持的后台服务器。后台服务器可以对终端101、102、103上的应用所发送的请求指令进行分析处理,并且可以将处理结果(如与请求指令相关的响应信息)发送给终端101、102、103。
需要说明的是,本申请实施例所提供的信息处理方法一般由终端101、102、103执行,相应地,信息处理装置一般设置于终端101、102、103中。
应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络和服务器。
继续参考图2,示出了根据本申请的信息处理方法的一个实施例的流程200。该信息处理方法可以包括以下步骤:
步骤201,获取包含文字信息的图像信息。
在本实施例中,信息处理方法运行于其上的电子设备(例如图1所示的终端101、102、103)可以通过多种方法来获取包含文字信息的图像信息。例如电子设备可以通过安装其上的图像获取装置(如摄像头)对文字信息进行扫描或拍照来获取图像信息;又例如电子设备可以通过对其上显示的文字信息进行截屏处理来获得图像信息;再例如电子设备可以从与其通信连接的其他设备来获取图像信息,如其他设备通过聊天工具发送的图像信息。这样可以方便用户在各种场景(如线上或线下)中获取包含文字信息的图像信息。
在本实施例中,图像信息中的文字信息可以包括印刷文字和非印刷文字。在这里,图文版面上排列的文字,通常称为“印刷字”。各种印刷字的大小与形体各有不同,一般分别用字级(或字号、点数)和字体表示。例如纸媒、广告牌等上的文字信息。非印刷文字通常为除上述印刷文字以外的文字,例如电子屏幕上显示的文字信息或者手写的文字信息。这样可以降低图像信息的局限性,有助于提高适用范围。此外,文字信息的内容可以包含数字、字母、符号、汉字等中的一种或多种字符。
步骤202,识别图像信息中的文字信息,生成展示数据。
在本实施例中,首先,电子设备可以对步骤201中获取的图像信息进行分析,确定其中的文字信息。然后,可以利用常用的文字识别方法来对文字信息进行识别,生成展示数据。其中,展示数据可以包括文字信息的识别结果。
在本实施例的一些可选的实现方式中,首先,电子设备可以利用光学字符识别(OCR,Optical Character Recognition)方法对文字信息进行识别,生成初级识别结果;然后,可以通过语义分析(如语境、上下文、形近字、词汇词典、常用语词典等)对初级识别结果中的错误文字进行修正,生成文字信息的识别结果,以生成展示数据。
例如,电子设备利用OCR方法生成的初级识别结果为“轻轻的推开门”。之后,电子设备可以基于上下文和词汇词典,确定“轻轻”为形容词,而“推”为动词。此时,电子设备可以将“的”修正为“地”。即最终生成的识别结果为“轻轻地推开门”。这样有助于提高识别结果的准确度。
可选地,电子设备在对文字信息进行识别,生成识别结果后,还可以进一步地对识别结果进行语音标注,生成展示数据。若文字信息为汉字,则可以对其识别结果进行拼音标注。若文字信息为外文(如英语),则可以对其识别结果进行发音标注。在这里,语音标注的位置和标注方式在本申请中并不限制。例如在行间距的空隙、对应文字的上方或下方的位置直接标注;再例如在文字与文字的间隙、对应文字的左侧或右侧的位置添加括号,并在括号内进行标注。
步骤203,将展示数据反馈给用户。
在本实施例中,电子设备可以通过多种方式将步骤202中生成的展示数据反馈给用户,以使用户了解图像信息中的文字信息。
在本实施例的一些可选的实现方式中,电子设备可以语音播放文字信息的识别结果,和/或呈现展示数据。也就是说,电子设备可以以朗读播放的形式和/或屏幕显示的方式,向用户反馈展示数据。
可选地,若语音播放文字信息的识别结果,则电子设备可以先采用常用的语音合成技术,如TTS(从文本到语音,Text To Speech),对文字信息的识别结果进行语音合成,生成包含背景声音的语音信息。在这里,背景声音可以包括但不限于是背景音乐。背景声音可以根据实际需求进行设置。然后,电子设备可以按照第一预设要求播放语音信息。其中,第一预设要求可以(但不限于)包括以下至少一项要求:语种、语速、语气和声音类型。而声音类型可以包括男性、女性和儿童。也就是说,电子设备可以按照预设的语言类型、语速、语气和声音类型等,对生成的语音信息进行语音播放。此外,在一些应用场景中,用户还可以设置声源(如自己的声音或某位明星的声音)来进行语音播放。
进一步地,若呈现展示数据,则电子设备可以先对文字信息的识别结果进行切词处理。然后,可以按照第二预设要求呈现处理后的展示数据。其中,第二预设要求可以包括以下至少一项要求:背景图像、字体、字号和颜色。其中,背景图像在本申请中并不限制,其可以是静态图片(如纯色图像或非纯色图像),也可以是动态图像。也就是说,电子设备可以按照字体、字号(字体大小)、字体颜色等设置要求,来显示展示数据。这样可以方便用户清楚地了解图像信息中的文字信息。在这里,中文切词,又称中文分词,即Chinese WordSegmentation,通常指的是将一个汉字序列切分成一个一个单独的词。中文切词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。切词技术在计算机领域已被广泛应用,此处不再赘述。
此外,在一些应用场景中,电子设备还可以响应于检测到用户对当前呈现的展示数据的第一操作指令,判断是否存在对当前呈现的展示数据的选取操作,其中,选取操作可以包括以下至少一项:对展示数据的段内容、行内容、单个字或词内容的选取;响应于判断结果为否,存储当前展示数据的全部内容;响应于判断结果为是,存储选取操作所选取的展示数据的内容,并进一步判断选取操作是否为对单个字或词内容的选取,若判断结果为是,呈现所选取的单个字或词的注释信息。其中,注释信息可以包括(但不限于)以下至少一项:词性、释义、用法或举例等。
在这里,第一操作指令可以是用于指示对展示数据进行存储的操作指令。该第一操作指令可以是用户在电子设备上执行指定操作而触发的,如用户触控电子设备的显示屏上的预设区域(如触控按键)或点击电子设备上的实体按键。通过对展示数据进行存储收藏,这样可以便于用户随时随地学习所收藏的内容。
可以理解的是,用户可以对展示数据的全部内容进行存储收藏,也可以对展示数据的整段内容、几行内容(几句内容)、单个字内容或单个词内容进行存储收藏。例如,当用户直接执行触发第一操作指令的操作时,电子设备可以存储当前展示数据的全部内容。当用户执行选取操作后,再执行触发第一操作指令的操作时,电子设备可以存储选取操作所选取的展示数据的内容。其中,选取操作的呈现形式在本申请中并不限制,如改变选取的展示数据的内容的背景颜色、字体、字号或颜色等。
需要说明的是,对于单个字内容的选取,用户可以通过选取该字的识别结果(文字)或语音标注来实现。而对于词内容的选取,由于此前电子设备对识别结果进行了切词,所以用户可以通过选取该词中任一字的识别结果或语音标注来实现。此外,对注释信息的呈现方式和呈现位置不做限制。
进一步地,为了便于用户使用操作,电子设备在响应于检测到用户的第二操作指令时,可以重复语音播放文字信息的识别结果。其中,重复播放的次数可以是至少一次。在这里,第二操作指令可以是用于指示语音播放文字信息的识别结果的操作指令。该第二操作指令同样可以是用户在电子设备上执行指定操作而触发的,此处不再赘述。
另外,为了进一步提高使用的便捷性,当电子设备再次检测到该第二操作指令时,电子设备可以中断或终止语音播放。当电子设备又检测到该第二操作指令时,电子设备可以继续或重新语音播放。
本实施例提供的信息处理方法,可以通过多种方式来获取图像信息,以对其中所包含的文字信息进行识别。其中,文字信息可以包括印刷文字和非印刷文字。这样有助于降低图像信息的获取方式和内容的局限性。同时,可以生成包括文字信息的识别结果的展示数据,并可以将该展示数据反馈给用户。这样可以丰富其中的文字信息的反馈方式和反馈内容。
进一步参见图3A和图3B,图3A和图3B是根据本实施例的信息处理方法的应用场景的示意图。
在图3A的应用场景中,用户(如文盲、半文盲、视力不好的人群以及儿童)可以使用终端上的摄像头,对图书上的文字信息进行拍照,从而在终端的显示屏上得到图像信息31。
在图3B的应用场景中,终端在获取该图像信息31后,可以对其中的文字信息进行识别,进而生成展示数据32。并将展示数据32以一个个字的形式呈现在显示屏上。其中,展示数据32既包括了文字信息的识别结果(第三单元),又包括了识别结果的语音标注(disan dan yuan)。在这里,语音标注中还可以包含音标。并且显示屏上还可以呈现关闭标识33、收藏标识34和播放标识35。
在呈现展示数据32的同时,终端还可以对识别结果进行语音播放,从而将图像信息31中的文字信息朗读给用户听。此外,终端在语言播放的同时,可以在显示屏上呈现播放进度。具体呈现方式在本申请中不限制,如改变被播放内容的背景颜色、字体、字号或颜色,或者显示标记线等。
这样,无论是终端上显示的文字(即线上场景),或日常生活中看到的文字(即线下场景),用户都可以利用终端进行简单地操作,来获取包含这些文字的图像信息,从而获知文字的内容。而且对于不同的人群,可以通过多种方式进行反馈,适用性更强。这样,多功能集成,且操作便捷,简单易学,有助于不同人群的上手操作使用。
继续参见图4,作为对上述各图所示方法的实现,本申请提供了一种信息处理装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的信息处理装置400可以包括:获取单元401,配置用于获取包含文字信息的图像信息,其中,文字信息包括印刷文字和非印刷文字;识别单元402,配置用于识别图像信息中的文字信息,生成展示数据,其中,展示数据包括文字信息的识别结果;反馈单元403,配置用于将展示数据反馈给用户。
在本实施例中,获取单元401、识别单元402和反馈单元403的具体实现方式及产生的有益效果,可以分别参见图2所示实施例中的步骤201、步骤202和步骤203的相关描述,此处不再赘述。
在本实施例的一些可选的实现方式中,识别单元402可以包括:第一生成子单元(图中未示出),配置用于利用光学字符识别方法对文字信息进行识别,生成初级识别结果;第二生成子单元(图中未示出),配置用于通过语义分析对初级识别结果中的错误文字进行修正,生成文字信息的识别结果,以生成展示数据。
可选地,反馈单元403可以进一步配置用于:语音播放文字信息的识别结果,和/或呈现展示数据。
进一步地,反馈单元403可以包括:合成子单元(图中未示出),配置用于对文字信息的识别结果进行语音合成,生成包含背景声音的语音信息;播放子单元(图中未示出),配置用于按照第一预设要求播放语音信息,其中,第一预设要求包括以下至少一项要求:语种、语速、语气和声音类型。
在一些实施例中,识别单元402可以进一步配置用于:对文字信息的识别结果进行语音标注,生成展示数据。
可选地,反馈单元403还可以包括:处理子单元(图中未示出),配置用于对文字信息的识别结果进行切词处理;呈现子单元(图中未示出),配置用于按照第二预设要求呈现处理后的展示数据,其中,第二预设要求包括以下至少一项要求:背景图像、字体、字号和颜色。
在一些应用场景中,该装置400还可以包括:第一检测单元(图中未示出),配置用于响应于检测到用户对当前呈现的展示数据的第一操作指令,判断是否存在对当前呈现的展示数据的选取操作,其中,选取操作包括以下至少一项:对展示数据的段内容、行内容、单个字或词内容的选取;第一存储单元(图中未示出),配置用于响应于判断结果为否,存储当前展示数据的全部内容;第二存储单元(图中未示出),配置用于响应于判断结果为是,存储选取操作所选取的展示数据的内容,并进一步判断选取操作是否为对单个字或词内容的选取,若判断结果为是,呈现所选取的单个字或词的注释信息。
可选地,该装置400还可以包括:第二检测单元(图中未示出),配置用于响应于检测到用户的第二操作指令,重复语音播放文字信息的识别结果。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机***500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括触摸屏、键盘、鼠标、图像获取装置等的输入部分506;包括诸如液晶显示器(LCD)、语音播放设备等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、识别单元和反馈单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取包含文字信息的图像信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取包含文字信息的图像信息,其中,文字信息包括印刷文字和非印刷文字;识别图像信息中的文字信息,生成展示数据,其中,展示数据包括文字信息的识别结果;将展示数据反馈给用户。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种信息处理方法,包括:
获取包含文字信息的图像信息,其中,所述文字信息包括印刷文字和非印刷文字;
识别所述图像信息中的文字信息,生成展示数据,其中,所述展示数据包括所述文字信息的识别结果;
将所述展示数据反馈给用户。
2.根据权利要求1所述的方法,其中,所述识别所述图像信息中的文字信息,生成展示数据,包括:
利用光学字符识别方法对所述文字信息进行识别,生成初级识别结果;
通过语义分析对所述初级识别结果中的错误文字进行修正,生成所述文字信息的识别结果,以生成展示数据。
3.根据权利要求1或2所述的方法,其中,所述将所述展示数据反馈给用户,包括:
语音播放所述文字信息的识别结果,和/或呈现所述展示数据。
4.根据权利要求3所述的方法,其中,所述语音播放所述文字信息的识别结果,包括:
对所述文字信息的识别结果进行语音合成,生成包含背景声音的语音信息;
按照第一预设要求播放所述语音信息,其中,所述第一预设要求包括以下至少一项要求:语种、语速、语气和声音类型。
5.根据权利要求3所述的方法,其中,所述呈现所述展示数据之前,所述识别所述图像信息中的文字信息,生成展示数据,还包括:
对所述文字信息的识别结果进行语音标注,生成展示数据。
6.根据权利要求3所述的方法,其中,所述呈现所述展示数据,包括:
对所述文字信息的识别结果进行切词处理;
按照第二预设要求呈现处理后的展示数据,其中,所述第二预设要求包括以下至少一项要求:背景图像、字体、字号和颜色。
7.根据权利要求6所述的方法,其中,所述方法还包括:
响应于检测到用户对当前呈现的展示数据的第一操作指令,判断是否存在对当前呈现的展示数据的选取操作,其中,所述选取操作包括以下至少一项:对展示数据的段内容、行内容、单个字或词内容的选取;
响应于判断结果为否,存储当前展示数据的全部内容;
响应于判断结果为是,存储所述选取操作所选取的展示数据的内容,并进一步判断所述选取操作是否为对单个字或词内容的选取,若判断结果为是,呈现所选取的单个字或词的注释信息。
8.根据权利要求3所述的方法,其中,所述方法还包括:
响应于检测到用户的第二操作指令,重复语音播放所述文字信息的识别结果。
9.一种信息处理装置,包括:
获取单元,配置用于获取包含文字信息的图像信息,其中,所述文字信息包括印刷文字和非印刷文字;
识别单元,配置用于识别所述图像信息中的文字信息,生成展示数据,其中,所述展示数据包括所述文字信息的识别结果;
反馈单元,配置用于将所述展示数据反馈给用户。
10.根据权利要求9所述的装置,其中,所述识别单元包括:
第一生成子单元,配置用于利用光学字符识别方法对所述文字信息进行识别,生成初级识别结果;
第二生成子单元,配置用于通过语义分析对所述初级识别结果中的错误文字进行修正,生成所述文字信息的识别结果,以生成展示数据。
11.根据权利要求9或10所述的装置,其中,所述反馈单元进一步配置用于:
语音播放所述文字信息的识别结果,和/或呈现所述展示数据。
12.一种电子设备,包括:
一个或多个处理器;
图像获取装置,用于获取图像信息;
语音播放设备,用于播放语音信息;
显示屏,用于呈现展示数据;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201711458159.8A 2017-12-28 2017-12-28 信息处理方法和装置 Pending CN108182432A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711458159.8A CN108182432A (zh) 2017-12-28 2017-12-28 信息处理方法和装置
US16/210,871 US10963760B2 (en) 2017-12-28 2018-12-05 Method and apparatus for processing information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711458159.8A CN108182432A (zh) 2017-12-28 2017-12-28 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN108182432A true CN108182432A (zh) 2018-06-19

Family

ID=62548170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711458159.8A Pending CN108182432A (zh) 2017-12-28 2017-12-28 信息处理方法和装置

Country Status (2)

Country Link
US (1) US10963760B2 (zh)
CN (1) CN108182432A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法
CN110489674A (zh) * 2019-07-02 2019-11-22 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
CN110795052A (zh) * 2018-08-01 2020-02-14 北京红马传媒文化发展有限公司 显示控制方法、显示控制装置、显示***和电子设备
CN110874253A (zh) * 2018-09-03 2020-03-10 北京京东尚科信息技术有限公司 显示方法及显示***
CN112836113A (zh) * 2021-02-09 2021-05-25 百度在线网络技术(北京)有限公司 信息处理方法、装置、设备、存储介质及计算机程序

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112242133A (zh) * 2019-07-18 2021-01-19 北京字节跳动网络技术有限公司 一种语音播放方法、装置、设备及存储介质
CN111783508A (zh) * 2019-08-28 2020-10-16 北京京东尚科信息技术有限公司 用于处理图像的方法和装置
CN110991455B (zh) * 2020-02-11 2023-05-05 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
CN112164392A (zh) * 2020-11-13 2021-01-01 北京百度网讯科技有限公司 确定显示的识别文本的方法、装置、设备以及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539908A (zh) * 2008-03-19 2009-09-23 英业达股份有限公司 依据移动标示组件位置判断词组之翻译***及其方法
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN102833449A (zh) * 2012-07-27 2012-12-19 富士施乐实业发展(上海)有限公司 一种基于多功能机的文档自动处理方法
CN103093252A (zh) * 2011-10-28 2013-05-08 夏普株式会社 信息输出装置以及信息输出方法
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置
KR20150014139A (ko) * 2013-07-29 2015-02-06 삼성전자주식회사 화면 정보 제공 방법 및 장치
CN104966084A (zh) * 2015-07-07 2015-10-07 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视***
CN204856534U (zh) * 2015-07-07 2015-12-09 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视***
CN105260433A (zh) * 2015-09-30 2016-01-20 北京奇虎科技有限公司 一种网页内容收藏方法及电子设备
CN105930842A (zh) * 2016-04-15 2016-09-07 深圳市永兴元科技有限公司 字符识别方法及装置
CN105988568A (zh) * 2015-02-12 2016-10-05 北京三星通信技术研究有限公司 获取笔记信息的方法和装置
CN106709489A (zh) * 2015-07-13 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别的处理方法和装置
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN107506454A (zh) * 2017-08-29 2017-12-22 央视国际网络无锡有限公司 一种计算机文本及多媒体信息安全自动预警***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423862B2 (en) * 2004-04-01 2019-09-24 Google Llc Capturing text from rendered documents using supplemental information
US9460346B2 (en) * 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US9852498B2 (en) * 2016-04-26 2017-12-26 Adobe Systems Incorporated Removing artifacts from document images
RU2634194C1 (ru) * 2016-09-16 2017-10-24 Общество с ограниченной ответственностью "Аби Девелопмент" Верификация результатов оптического распознавания символов
US10936862B2 (en) * 2016-11-14 2021-03-02 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks
RU2673016C1 (ru) * 2017-12-19 2018-11-21 Общество с ограниченной ответственностью "Аби Продакшн" Способы и системы оптического распознавания символов серии изображений

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539908A (zh) * 2008-03-19 2009-09-23 英业达股份有限公司 依据移动标示组件位置判断词组之翻译***及其方法
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN103093252A (zh) * 2011-10-28 2013-05-08 夏普株式会社 信息输出装置以及信息输出方法
CN102833449A (zh) * 2012-07-27 2012-12-19 富士施乐实业发展(上海)有限公司 一种基于多功能机的文档自动处理方法
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置
KR20150014139A (ko) * 2013-07-29 2015-02-06 삼성전자주식회사 화면 정보 제공 방법 및 장치
CN105988568A (zh) * 2015-02-12 2016-10-05 北京三星通信技术研究有限公司 获取笔记信息的方法和装置
CN104966084A (zh) * 2015-07-07 2015-10-07 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视***
CN204856534U (zh) * 2015-07-07 2015-12-09 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视***
CN106709489A (zh) * 2015-07-13 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别的处理方法和装置
CN105260433A (zh) * 2015-09-30 2016-01-20 北京奇虎科技有限公司 一种网页内容收藏方法及电子设备
CN105930842A (zh) * 2016-04-15 2016-09-07 深圳市永兴元科技有限公司 字符识别方法及装置
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN107506454A (zh) * 2017-08-29 2017-12-22 央视国际网络无锡有限公司 一种计算机文本及多媒体信息安全自动预警***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中国IT培新工程编委会: "《流行软件全面学习教程》", 31 January 2002, 珠海出版社 *
任萍萍: "《智能客服机器人》", 31 August 2017, 成都时代出版社 *
北京数字科普协会: "《创意科技助力数字博物馆》", 31 December 2011, 中国传媒大学出版社 *
王月敏: "《大学计算机信息技术基础教程》", 31 July 2012, 河海大学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法
CN110795052A (zh) * 2018-08-01 2020-02-14 北京红马传媒文化发展有限公司 显示控制方法、显示控制装置、显示***和电子设备
CN110795052B (zh) * 2018-08-01 2023-06-02 北京大麦文化传媒发展有限公司 显示控制方法、显示控制装置、显示***和电子设备
CN110874253A (zh) * 2018-09-03 2020-03-10 北京京东尚科信息技术有限公司 显示方法及显示***
CN110874253B (zh) * 2018-09-03 2024-05-17 北京京东尚科信息技术有限公司 显示方法及显示***
CN110489674A (zh) * 2019-07-02 2019-11-22 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
CN110489674B (zh) * 2019-07-02 2020-11-06 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
CN112836113A (zh) * 2021-02-09 2021-05-25 百度在线网络技术(北京)有限公司 信息处理方法、装置、设备、存储介质及计算机程序
CN112836113B (zh) * 2021-02-09 2024-02-02 百度在线网络技术(北京)有限公司 信息处理方法、装置、设备、存储介质及计算机程序

Also Published As

Publication number Publication date
US20190205708A1 (en) 2019-07-04
US10963760B2 (en) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108182432A (zh) 信息处理方法和装置
CN107707745A (zh) 用于提取信息的方法和装置
CN1742273A (zh) 多模态语音-语音语言翻译和显示
JP2023511971A (ja) ドキュメント翻訳方法及び装置、記憶媒体並びに電子デバイス
KR20210001412A (ko) 학습 서비스 시스템 및 방법
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2019071089A (ja) 情報提示装置、および情報提示方法
US10276150B2 (en) Correction system, method of correction, and computer program product
Ouali et al. Augmented reality for scene text recognition, visualization and reading to assist visually impaired people
US10824790B1 (en) System and method of extracting information in an image containing file for enhanced utilization and presentation
JP2014085998A (ja) 電子ノート作成支援装置および電子ノート作成支援装置用プログラム
JP7117629B2 (ja) 翻訳装置
US9977794B2 (en) Management apparatus, design management method, and non-transitory computer readable medium
CN110992958A (zh) 内容记录方法、装置、电子设备及存储介质
JP2005128711A (ja) 感性情報推定方法および文字アニメーション作成方法、これらの方法を用いたプログラム、記憶媒体、感性情報推定装置、文字アニメーション作成装置
Joy et al. A prototype Malayalam to sign language automatic translator
CN106959945A (zh) 基于人工智能的为新闻生成短标题的方法和装置
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
WO2019098036A1 (ja) 情報処理装置、情報処理端末、および情報処理方法
JP2021117659A (ja) 特定装置、特定方法、プログラム、及びデータ構造
US11769323B2 (en) Generating assistive indications based on detected characters
CN111506744B (zh) 一种点读的方法及终端设备
CN107679043A (zh) 数据处理方法、装置及终端设备
US11935425B2 (en) Electronic device, pronunciation learning method, server apparatus, pronunciation learning processing system, and storage medium
CN112784780B (zh) 一种审阅方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination