CN103268316A - 一种图片识别语音翻译方法及其翻译设备 - Google Patents
一种图片识别语音翻译方法及其翻译设备 Download PDFInfo
- Publication number
- CN103268316A CN103268316A CN2013102054637A CN201310205463A CN103268316A CN 103268316 A CN103268316 A CN 103268316A CN 2013102054637 A CN2013102054637 A CN 2013102054637A CN 201310205463 A CN201310205463 A CN 201310205463A CN 103268316 A CN103268316 A CN 103268316A
- Authority
- CN
- China
- Prior art keywords
- result
- image
- translation
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种图片识别语音翻译方法及其翻译设备。图片识别语音翻译方法包括:图像采集、图像识别、语言分析、翻译处理、翻译结果存储、语音转换和语音输出。图片识别语音翻译设备包括:图像采集模块、包含词汇库及语言库的图像识别器、语言分析器、语义规则库、翻译处理器、存储设备、互联网接口、语音识别转换器。本发明不受语音限制困扰,能够即拍即译,支持多种移动终端摄像头的拍摄,降低了对移动终端摄像头像素的要求。本发明支持多种图片格式识别,输出语音翻译结果,翻译精准度高。
Description
技术领域
本发明涉及图片识别和语音翻译技术,更具体涉及一种图片识别语音翻译方法及其翻译设备,用于翻译领域。
背景技术
语音自动翻译是将一种语音经过语言识别进而翻译为另一种语音。最为常见的语音自动翻译是将外国标准语音翻译为汉语标准语音。
语音自动翻译另一个发展方向是将方言语音翻译为标准语音。为将汉语方言语音自动翻译为汉语普通话语音,开发方言翻译引擎的工作逐渐展开。方言识别的难度、语速差异,普通话的标准度直接影响着翻译结果的准确性。就语速差异而言,目前的语音识别***采用单一传感器,即声音传感器进行语音识别,不可能对捕获的语音信息进行细分,只能采用定速率跟踪识别,将语音信息与***库中的模板进行匹配判断。如果捕获信息的速率与存储在***库中的模板相差不多,则能正常工作,否则将会出现误判。然而现实生活中,人们说话不可能总保持相同的速率,而是不断变化的,这势必造成了语音识别***的误差增多,以致降低语音识别***的实用性。
语音自动翻译针对单词、词组的翻译效果较好,但是针对较长句子,不能准确识别,进行准确翻译。
对于不会读的单词或者词句,语音自动翻译无法进行翻译。
图片翻译是将图片经过图像识别进而提取图片中信息,翻译的结果大多为文字信息。已有图片翻译对摄像头获取的图片信息进行翻译,手机显示译文。图片翻译都对图片像素要求极高。一般用户的手机像素不能达到图片翻译要求的标准,因此,所述手机的摄像不能通过识别进行翻译,图片翻译不能大范围推广使用。目前,图片翻译比较适合短文字、标牌标语之类的图片。除此之外,对于其他图片语句,图片翻译不能直接准确地翻译。比较好的解决方案是先扫描识别,然后再利用翻译工具翻译或者人工翻译。这种方案没有真正地实现了图片翻译。
发明内容
本发明克服上述语音自动翻译技术缺陷,结合图片翻译,提出一种图片识别语音翻译方法及其翻译设备。
图片识别语音翻译***不存在语言的速率问题,也不存在方言的问题,不受语言的限制,只要提供符合格式的图片(如gif、jpeg、png),就会根据图片上的文字来进行目标语言的翻译。本发明主要解决的技术问题是识别图片上的语言输出语音,本发明主要解决的技术问题还包括增强图片识别率,提高翻译准确率。所述***对图片像素要求较低,避免了因像素低而造成识别失败,大大的提高了翻译效率与准确性。
本发明图片识别语音翻译方法及其翻译设备如下:
一种图片识别语音翻译方法如下:
(1)图像采集模块对图片对象进行图像采集,将图像采集结果导入图像识别器;
(2)利用自身的词汇库及语言库,所述图像识别器对所述图像采集结果进行图像识别,将识别结果导入语言分析器;
(3)利用语义规则库,所述语言分析器对所述识别结果进行语言分析,将分析结果导入翻译处理器;
(4)所述翻译处理器对所述分析结果进行翻译处理,得到翻译结果;所述翻译处理器对所述翻译结果进行词法、语法、语义检查;若所述翻译结果没有通过检查,所述翻译处理器将所述翻译结果导入图像识别器;若所述翻译结果通过检查,所述翻译结果存储在存储设备,和/或输入互联网;所述翻译处理器将所述翻译结果导入语音识别转换器;
(5)所述语音识别转换器对所述翻译结果进行语音转换,并语音输出。
优选地,对于超过阈值的图像采集结果,所述步骤(1)还包括图像采集模块将所述图像采集结果导入图像数字化模块进行图像数字化,所述图像数字化模块将所述图像数字化结果导入图像分割器,所述图像分割器将所述图像数字化结果进行语句及段落的分割,把分割结果进行对比分析,将对比分析结果导入图像识别器;所述步骤(2)还包括所述图像识别器利用所述对比分析结果对所述图像采集结果进行图像识别。
所述阈值需要根据图像识别器的处理能力提前设定,与图像采集结果所包含段落大小与数目相关。
一种图片识别语音翻译设备,包括:图像采集模块、图像数字化模块、图像分割器、包含词汇库及语言库的图像识别器、语言分析器、语义规则库、翻译处理器、存储设备、互联网接口、语音识别转换器;
所述图像采集模块将图像采集结果导入图像识别器,将超过阈值的图像采集结果导入图像数字化模块;
所述图像数字化模块对所述图像采集结果进行图像数字化,所述图像数字化模块将所述图像数字化结果导入图像分割器;
所述图像分割器将超过阈值的图像采集结果进行语句及段落的分割,把分割结果进行对比分析,将对比分析结果导入图像识别器;
所述包含词汇库及语言库的图像识别器,将所述图像采集结果、对比分析结果匹配语言词汇库及语言库,将识别结果导入语言分析器;
所述语言分析器对所述识别结果进行语言分析,检索访问语义规则库,接收语义规则库导入的检索结果,将分析结果导入翻译处理器;
所述语义规则库接收语言分析器检索访问,将检索结果导入语言分析器;
所述翻译处理器对所述分析结果进行翻译处理,得到翻译结果,将翻译结果存储在存储设备,和/或通过互联网接口输入互联网,将所述翻译结果导入语音识别转换器;
所述语音识别转换器对所述翻译结果进行语音转换,并语音输出。
图像采集模块支持多种移动终端,如ipad、touch及ios、android等操作***的移动手机。
借由上述技术方案,本发明的图片识别语音翻译方法及其翻译设备至少具备下列优点及有益效果:
本发明不受语音限制困扰,能够即拍即译,支持多种移动终端摄像头的拍摄,降低了对移动终摄像头像素的识别要求。本发明支持多种图片格式识别,输出语音翻译结果,翻译精准度高。
图片识别语音翻译设备操作方便,只要是带有摄像头的移动终端就可以进行随时随地的拍照和翻译,满足更多用户的需要。
附图说明
图1为本发明所述图片识别语音翻译方法的流程图;
具体实施方式
下面结合附图1,详细说明本发明的具体实施方式。
如图1所示,软件图像采集模块导入移动终端摄像头拍摄的文档图像(报纸、杂志、书本等),进行图像数字化,或者直接导入手机已有图像。图像采集模块将图像采集结果导入图像识别器。
如图1所示,对于超过阈值的采集结果,所述步骤(1)还包括图像采集模块将图像采集结果导入图像分割器,所述图像分割器将所述图像采集结果进行语句及段落的分割,把分割结果进行对比分析,将对比分析结果也导入图像识别器。
如图1所示,图像识别器利用其包含的词汇库及语言库进行图像识别。图像识别支持自动识别、框选识别及划线识别,让识别结果更符合用户选择要求。图像识别器将识别结果导入语言分析器。
如图1所示,语言分析器利用语义规则库对所述识别结果进行语言分析,将分析结果导入翻译处理器。
如图1所示,翻译处理器将分析结果进行翻译处理,得到翻译结果。除汉语外,还支持多种语言,如英语,日语,韩语等。翻译结果可由存储设备进行存储,也可接入互联网进行分享互动。保存翻译结果,并具有记忆功能,再次翻译相同词汇时,节省分析时间,直接提供翻译结果。翻译处理器将翻译结果导入语音识别转化器。
翻译处理器完成接收所述分析结果,完成剩余翻译,存储翻译结果,分享互动翻译结果,将不符合要求的翻译结果导入图像识别器,将符合要求的翻译结果导入语音识别转换器。
如图1所示,语音识别转换器将翻译结果用进行语音转换,将语音输出。
本发明优选实施例只是用于帮助阐述本发明。本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员可以想到的任何变形、改进、替换均属于本发明的范围。
Claims (3)
1.一种图片识别语音翻译方法如下:
(1)图像采集模块对图片对象进行图像采集,将图像采集结果导入图像识别器;
(2)利用自身的词汇库及语言库,所述图像识别器对所述图像采集结果进行图像识别,将识别结果导入语言分析器;
(3)利用语义规则库,所述语言分析器对所述识别结果进行语言分析,将分析结果导入翻译处理器;
(4)所述翻译处理器对所述分析结果进行翻译处理,得到翻译结果;所述翻译处理器对所述翻译结果进行词法、语法、语义检查;若所述翻译结果没有通过检查,所述翻译处理器将所述翻译结果导入图像识别器;若所述翻译结果通过检查,所述翻译结果存储在存储设备,和/或输入互联网;所述翻译处理器将所述翻译结果导入语音识别转换器;
(5)所述语音识别转换器对所述翻译结果进行语音转换,并语音输出。
2.按照权利要求1的图片识别语音翻译方法,对于超过阈值的图像采集结果,所述步骤(1)还包括图像采集模块将所述图像采集结果导入图像数字化模块进行图像数字化,所述图像数字化模块将所述图像数字化结果导入图像分割器,所述图像分割器将所述图像数字化结果进行语句及段落的分割,把分割结果进行对比分析,将对比分析结果导入图像识别器;所述步骤(2)还包括所述图像识别器利用所述对比分析结果对所述图像采集结果进行图像识别。
3.一种图片识别语音翻译设备,包括:图像采集模块、图像数字化模块、图像分割器、包含词汇库及语言库的图像识别器、语言分析器、语义规则库、翻译处理器、存储设备、互联网接口、语音识别转换器;
所述图像采集模块将图像采集结果导入图像识别器,将超过阈值的图像采集结果导入图像数字化模块;
所述图像数字化模块对所述图像采集结果进行图像数字化,所述图像数字化模块将所述图像数字化结果导入图像分割器;
所述图像分割器将超过阈值的图像采集结果进行语句及段落的分割,把分割结果进行对比分析,将对比分析结果导入图像识别器;
所述包含词汇库及语言库的图像识别器,将所述图像采集结果、对比分析结果匹配语言词汇库及语言库,将识别结果导入语言分析器;
所述语言分析器对所述识别结果进行语言分析,检索访问语义规则库,接收语义规则库导入的检索结果,将分析结果导入翻译处理器;
所述语义规则库接收语言分析器检索访问,将检索结果导入语言分析器;
所述翻译处理器对所述分析结果进行翻译处理,得到翻译结果,将翻译结果存储在存储设备,和/或通过互联网接口输入互联网,将所述翻译结果导入语音识别转换器;
所述语音识别转换器对所述翻译结果进行语音转换,并语音输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102054637A CN103268316A (zh) | 2013-05-27 | 2013-05-27 | 一种图片识别语音翻译方法及其翻译设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102054637A CN103268316A (zh) | 2013-05-27 | 2013-05-27 | 一种图片识别语音翻译方法及其翻译设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103268316A true CN103268316A (zh) | 2013-08-28 |
Family
ID=49011946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013102054637A Pending CN103268316A (zh) | 2013-05-27 | 2013-05-27 | 一种图片识别语音翻译方法及其翻译设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103268316A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855854A (zh) * | 2016-12-29 | 2017-06-16 | 北京奇虎科技有限公司 | 一种英文信息的识别方法和装置 |
CN106874264A (zh) * | 2017-02-17 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种基于云计算的智能实时翻译*** |
CN106980482A (zh) * | 2017-03-31 | 2017-07-25 | 联想(北京)有限公司 | 一种信息展示方法及第一电子设备 |
CN107957994A (zh) * | 2017-10-30 | 2018-04-24 | 努比亚技术有限公司 | 一种翻译方法、终端及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546538A (en) * | 1993-12-14 | 1996-08-13 | Intel Corporation | System for processing handwriting written by user of portable computer by server or processing by the computer when the computer no longer communicate with server |
JP2003178260A (ja) * | 2001-12-10 | 2003-06-27 | Canon Inc | データ処理方法 |
CN1584874A (zh) * | 2004-06-15 | 2005-02-23 | 汪兰珍 | 一种智能采集、语言互译、语音合成的方法及装置 |
CN1758671A (zh) * | 2004-10-09 | 2006-04-12 | 乐金电子(中国)研究开发中心有限公司 | 具有把拍摄文字转换为语音功能的移动通信终端及其方法 |
US20060285748A1 (en) * | 2005-06-15 | 2006-12-21 | Fuji Xerox Co., Ltd. | Document processing device |
CN101211335A (zh) * | 2006-12-27 | 2008-07-02 | 乐金电子(中国)研究开发中心有限公司 | 具有翻译功能的移动通信终端、翻译***和翻译方法 |
CN101354748A (zh) * | 2007-07-23 | 2009-01-28 | 英华达(上海)电子有限公司 | 一种文字识别装置和方法、及移动终端 |
-
2013
- 2013-05-27 CN CN2013102054637A patent/CN103268316A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546538A (en) * | 1993-12-14 | 1996-08-13 | Intel Corporation | System for processing handwriting written by user of portable computer by server or processing by the computer when the computer no longer communicate with server |
JP2003178260A (ja) * | 2001-12-10 | 2003-06-27 | Canon Inc | データ処理方法 |
CN1584874A (zh) * | 2004-06-15 | 2005-02-23 | 汪兰珍 | 一种智能采集、语言互译、语音合成的方法及装置 |
CN1758671A (zh) * | 2004-10-09 | 2006-04-12 | 乐金电子(中国)研究开发中心有限公司 | 具有把拍摄文字转换为语音功能的移动通信终端及其方法 |
US20060285748A1 (en) * | 2005-06-15 | 2006-12-21 | Fuji Xerox Co., Ltd. | Document processing device |
CN101211335A (zh) * | 2006-12-27 | 2008-07-02 | 乐金电子(中国)研究开发中心有限公司 | 具有翻译功能的移动通信终端、翻译***和翻译方法 |
CN101354748A (zh) * | 2007-07-23 | 2009-01-28 | 英华达(上海)电子有限公司 | 一种文字识别装置和方法、及移动终端 |
Non-Patent Citations (2)
Title |
---|
OVER_88: "OCR", 《HTTP://WWW.BAIKE.COM/WIKDOC/SP/QR/HISTORY/VERSION.DO?VER=13&HISIDEN=KULEDX0VE,BFDRHGZTUG,FZQW》 * |
ニ仴菏: "OCR(光学字符识别)", 《HTTP://BAIKE.SOGOU.COM/H609092.HTM?SP=L36854880》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855854A (zh) * | 2016-12-29 | 2017-06-16 | 北京奇虎科技有限公司 | 一种英文信息的识别方法和装置 |
CN106874264A (zh) * | 2017-02-17 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种基于云计算的智能实时翻译*** |
CN106980482A (zh) * | 2017-03-31 | 2017-07-25 | 联想(北京)有限公司 | 一种信息展示方法及第一电子设备 |
CN106980482B (zh) * | 2017-03-31 | 2020-03-24 | 联想(北京)有限公司 | 一种信息展示方法及第一电子设备 |
US10685642B2 (en) | 2017-03-31 | 2020-06-16 | Lenovo (Beijing) Co., Ltd. | Information processing method |
CN107957994A (zh) * | 2017-10-30 | 2018-04-24 | 努比亚技术有限公司 | 一种翻译方法、终端及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
CN111145720B (zh) | 一种将文本转换成语音的方法、***、装置和存储介质 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN109801628B (zh) | 一种语料收集方法、装置及*** | |
AU2015318386A1 (en) | Intelligent scoring method and system for text objective question | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JP2020030408A (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN110675854A (zh) | 一种中英文混合语音识别方法及装置 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN113450774B (zh) | 一种训练数据的获取方法及装置 | |
CN107564528B (zh) | 一种语音识别文本与命令词文本匹配的方法及设备 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN103268316A (zh) | 一种图片识别语音翻译方法及其翻译设备 | |
WO2022228235A1 (zh) | 生成视频语料的方法、装置及相关设备 | |
CN109872714A (zh) | 一种提高语音识别准确性的方法、电子设备及存储介质 | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
Martínez-Villaronga et al. | Language model adaptation for video lectures transcription | |
CN116246610A (zh) | 基于多模态识别的会议记录生成方法及*** | |
CN115273834A (zh) | 一种翻译机及翻译方法 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN112734604A (zh) | 一种提供多模态智能报案的装置及其笔录生成方法 | |
CN110415689B (zh) | 语音识别装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130828 |