CN102521577A - 一种交互式多媒体设备的笔迹识别、合成和跟踪方法 - Google Patents

一种交互式多媒体设备的笔迹识别、合成和跟踪方法 Download PDF

Info

Publication number
CN102521577A
CN102521577A CN2011104269066A CN201110426906A CN102521577A CN 102521577 A CN102521577 A CN 102521577A CN 2011104269066 A CN2011104269066 A CN 2011104269066A CN 201110426906 A CN201110426906 A CN 201110426906A CN 102521577 A CN102521577 A CN 102521577A
Authority
CN
China
Prior art keywords
handwriting
user
tracking
standard letter
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104269066A
Other languages
English (en)
Inventor
钟锟
崔海龙
朱香
王政
娄超
周兴国
谈冰
张建华
鲁国昌
汪家浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2011104269066A priority Critical patent/CN102521577A/zh
Publication of CN102521577A publication Critical patent/CN102521577A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种交互式多媒体设备的笔迹识别、合成和跟踪方法,该方法包括下列顺序的步骤:启动交互式多媒体设备,用户在设备上书写,手写识别模块将手写笔迹转换为PC机可识别的标准字体;语音合成模块将标准字体合成为电脑语音并输出;用户朗读标准字体,朗读跟踪模块对采集的用户语音进行处理,实时跟踪与朗读相对应的标准字体。本发明应用在课堂教学中,增加了语音教学的互动性与趣味性,也可以应用到娱乐领域的卡拉OK唱歌跟随,以改善用户的体验效果。

Description

一种交互式多媒体设备的笔迹识别、合成和跟踪方法
 
技术领域
本发明涉及交互式多媒体设备领域,尤其是一种交互式多媒体设备的笔迹识别、合成和跟踪方法。
 
背景技术
传统的语音技术应用仅仅局限于对默认的计算机标准字体进行合成,随着智能手机、掌上电脑、交互式电子白板等信息工具的普及,以及智能语音合成、语音识别技术的发展,传统的语音技术已经无法满足用户的使用要求。目前,研发一种基于手写识别技术对笔迹的支持、对笔迹的语音合成、输入语音的智能识别及即时跟踪的技术是非常有必要的,能够有效地改善用户的体验效果。
 
发明内容
本发明的目的在于提供一种能够对手写的文字笔迹进行识别、合成,并转换成语音朗读出来的交互式多媒体设备的笔迹识别、合成和跟踪方法。
为实现上述目的,本发明采用了以下技术方案:一种交互式多媒体设备的笔迹识别、合成和跟踪方法,该方法包括下列顺序的步骤:
(1)启动交互式多媒体设备,用户在设备上书写,手写识别模块将手写笔迹转换为PC机可识别的标准字体;
(2)语音合成模块将标准字体合成为电脑语音并输出;用户朗读标准字体,朗读跟踪模块对采集的用户语音进行处理,实时跟踪与朗读相对应的标准字体。
由上述技术方案可知,本发明通过手写识别模块对手写笔迹进行识别,并转换为计算机能够识别的标准字体,在转换之后,用户可以启动语音合成模块,语音合成模块对标准字体合成为电脑语音,也可以启动朗读跟踪模块,由朗读跟踪模块采集用户对标准字体所朗读的语音,并实施跟踪用户所朗读的标准字体。本发明应用在课堂教学中,增加了语音教学的互动性与趣味性,也可以应用到娱乐领域的卡拉OK唱歌跟随,以改善用户的体验效果。
 
附图说明
图1、2均为本发明的工作流程图。
 
具体实施方式
一种交互式多媒体设备的笔迹识别、合成和跟踪方法,该方法包括下列顺序的步骤:(1)启动交互式多媒体设备,用户在设备上书写,手写识别模块将手写笔迹转换为PC机可识别的标准字体;(2)语音合成模块将标准字体合成为电脑语音并输出;用户朗读标准字体,朗读跟踪模块对采集的用户语音进行处理,实时跟踪与朗读相对应的标准字体,如图1所示。所述的交互式多媒体设备由手写板、PC机、扬声器和麦克风组成,PC机通过其USB接口分别与手写板、扬声器、麦克风相连。
如图2所示,在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动笔迹识别功能,若判断结果为是,则由手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体;否则,返回继续判断是否启动笔迹识别功能。用户判断识别结果是否与手写笔迹一致,若判断结果为是,则完成笔迹识别;否则返回重新进行笔迹识别。
如图2所示,在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动合成功能,若判断结果为是,则由语音合成模块将标准字体合成为电脑语音并通过扬声器输出;否则,返回继续判断是否启动合成功能。
如图2所示,在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动跟踪功能,若判断结果为是,则由麦克风采集用户所朗读的标准字体的语音,并将该语音信息发送至语音识别模块,经语音识别模块识别后,发送至朗读跟踪模块,朗读跟踪模块实时跟踪与用户朗读相对应的标准字体;否则,返回继续判断是否启动跟踪功能。跟踪功能是指通过麦克风将语音输入到PC机中,PC机通过读取转换成的标准字体,将其进行序列化处理,实时地跟踪与朗读相对应的笔迹字体,实现语音朗读到的笔迹文本高亮显示,笔迹光标自动跟随的效果。跟踪功能实现的朗读读音与书写笔迹对应跟随,不受输入音源的个体差异影响,交互过程中输入的语音与笔迹的跟踪实时响应,误差较小;还可以实现手写笔迹的顺序朗读、跳读、倒序朗读的智能跟踪。此外,还可以实现其他语种和多语种混合朗读的智能跟踪。
以下结合图1、2对本发明作进一步的说明。
使用特殊的书写工具,如电子笔,或手指在手写板上书写,此时,PC机自动识别出书写时产生相应的有序轨迹信息,并将此映射到汉字的内码,将手写笔迹转化为标准文字,如用户在手写板上书写了“智能语音技术”,则PC机会自动捕获书写时产生的轨迹信息,映射到PC机中存储的汉字内码中,找出对应的标准文字,并输出到识别结果中。
用户启动语音合成模块,进入语音合成状态,语音合成模块将识别后的标准文字实时转化为可听懂的、标准流畅的语音进行输出。
用户启动朗读跟踪模块,通过将连续的讲话分解为词、音素等单位,提取语音的相关特征,匹配声学模型与模式,实现对自然语音的识别和理解,如用户使用麦克风输入语音“智能语音技术”,则PC机会将连续的语音分解以词、音素为单位语素并提取相关特征,从而实现PC机对自然语音的识别和理解。PC机通过对语言模型的识别与处理,同时,将识别的文本进行序列化处理,并将两者结果对应起来,从而实现语音朗读即时跟踪的效果。

Claims (6)

1.一种交互式多媒体设备的笔迹识别、合成和跟踪方法,该方法包括下列顺序的步骤:
(1)启动交互式多媒体设备,用户在设备上书写,手写识别模块将手写笔迹转换为PC机可识别的标准字体;
(2)语音合成模块将标准字体合成为电脑语音并输出;用户朗读标准字体,朗读跟踪模块对采集的用户语音进行处理,实时跟踪与朗读相对应的标准字体。
2.根据权利要求1所述的交互式多媒体设备的笔迹识别、合成和跟踪方法,其特征在于:所述的交互式多媒体设备由手写板、PC机、扬声器和麦克风组成,PC机通过其USB接口分别与手写板、扬声器、麦克风相连。
3.根据权利要求2所述的交互式多媒体设备的笔迹识别、合成和跟踪方法,其特征在于:在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动笔迹识别功能,若判断结果为是,则由手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体;否则,返回继续判断是否启动笔迹识别功能。
4.根据权利要求2所述的交互式多媒体设备的笔迹识别、合成和跟踪方法,其特征在于:在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动合成功能,若判断结果为是,则由语音合成模块将标准字体合成为电脑语音并通过扬声器输出;否则,返回继续判断是否启动合成功能。
5.根据权利要求2所述的交互式多媒体设备的笔迹识别、合成和跟踪方法,其特征在于:在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,判断用户是否启动跟踪功能,若判断结果为是,则由麦克风采集用户所朗读的标准字体的语音,并将该语音信息发送至语音识别模块,经语音识别模块识别后,发送至朗读跟踪模块,朗读跟踪模块实时跟踪与用户朗读相对应的标准字体;否则,返回继续判断是否启动跟踪功能。
6.根据权利要求3所述的交互式多媒体设备的笔迹识别、合成和跟踪方法,其特征在于:在手写识别模块将用户的手写笔迹转换为PC机可识别的标准字体后,用户判断识别结果是否与手写笔迹一致,若判断结果为是,则完成笔迹识别;否则返回重新进行笔迹识别。
CN2011104269066A 2011-12-20 2011-12-20 一种交互式多媒体设备的笔迹识别、合成和跟踪方法 Pending CN102521577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104269066A CN102521577A (zh) 2011-12-20 2011-12-20 一种交互式多媒体设备的笔迹识别、合成和跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104269066A CN102521577A (zh) 2011-12-20 2011-12-20 一种交互式多媒体设备的笔迹识别、合成和跟踪方法

Publications (1)

Publication Number Publication Date
CN102521577A true CN102521577A (zh) 2012-06-27

Family

ID=46292488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104269066A Pending CN102521577A (zh) 2011-12-20 2011-12-20 一种交互式多媒体设备的笔迹识别、合成和跟踪方法

Country Status (1)

Country Link
CN (1) CN102521577A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105892815A (zh) * 2016-03-31 2016-08-24 北京小米移动软件有限公司 文档标记方法及装置
CN110488997A (zh) * 2019-07-03 2019-11-22 深圳市九洲电器有限公司 基于语音的书写板实现方法及相关产品
CN114398463A (zh) * 2021-12-30 2022-04-26 南京硅基智能科技有限公司 一种语音跟踪方法及装置、存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190256A1 (en) * 1998-12-04 2006-08-24 James Stephanick Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
CN101315666A (zh) * 2008-07-11 2008-12-03 中国科学院软件研究所 一种基于语音的多通道手写中文纠错方法
CN101377726A (zh) * 2007-08-31 2009-03-04 西门子(中国)有限公司 语音识别和笔划识别相结合的输入方法及其终端
CN102156577A (zh) * 2011-03-28 2011-08-17 安徽科大讯飞信息科技股份有限公司 实现连续手写识别输入的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190256A1 (en) * 1998-12-04 2006-08-24 James Stephanick Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
CN101377726A (zh) * 2007-08-31 2009-03-04 西门子(中国)有限公司 语音识别和笔划识别相结合的输入方法及其终端
CN101315666A (zh) * 2008-07-11 2008-12-03 中国科学院软件研究所 一种基于语音的多通道手写中文纠错方法
CN102156577A (zh) * 2011-03-28 2011-08-17 安徽科大讯飞信息科技股份有限公司 实现连续手写识别输入的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王景中 等: "基于OCR技术的盲用阅读器设计", 《2009年研究生学术交流会通信与信息技术论文集》, 1 September 2009 (2009-09-01) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105892815A (zh) * 2016-03-31 2016-08-24 北京小米移动软件有限公司 文档标记方法及装置
CN110488997A (zh) * 2019-07-03 2019-11-22 深圳市九洲电器有限公司 基于语音的书写板实现方法及相关产品
CN114398463A (zh) * 2021-12-30 2022-04-26 南京硅基智能科技有限公司 一种语音跟踪方法及装置、存储介质、电子设备
CN114398463B (zh) * 2021-12-30 2023-08-11 南京硅基智能科技有限公司 一种语音跟踪方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN103714727A (zh) 一种人机互动的外语学习***和方法
CN105426362A (zh) 语音翻译装置、方法及程序
CN112765971B (zh) 文本语音的转换方法、装置、电子设备及存储介质
CN106446406A (zh) 一种将中文语句转化为人类口型的仿真***及仿真方法
TW201314638A (zh) 具虛擬實境擴充功能的點讀裝置
CN105609098A (zh) 一种基于互联网的在线学习***
CN109300469A (zh) 基于机器学习的同声传译方法及装置
CN102063282B (zh) 汉语语音输入***及方法
Dai et al. The sound of silence: end-to-end sign language recognition using smartwatch
CN102521577A (zh) 一种交互式多媒体设备的笔迹识别、合成和跟踪方法
CN205451551U (zh) 一种语音识别驱动的增强现实人机交互视频语言学习***
TWI574254B (zh) 用於電子系統的語音合成方法及裝置
CN103455530A (zh) 随身携带式创建个性化语音对应文本文字数据库的装置
CN202632566U (zh) 一种英语语音教学装置
CN112201253A (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
CN111638783A (zh) 一种人机交互方法及电子设备
CN201600791U (zh) 具有汉字学习功能的电子装置
CN206162525U (zh) 一种林业英语翻译互动装置
CN104134081A (zh) 一种手写输入内容的拼读方法及装置
CN203217570U (zh) 一种翻译机
CN108717854A (zh) 基于优化gfcc特征参数的说话人识别方法
CN210491084U (zh) 一种在远程课堂中发送弹幕***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627