CN112289339A - 一种将语音转化为画面的*** - Google Patents

一种将语音转化为画面的*** Download PDF

Info

Publication number
CN112289339A
CN112289339A CN202010499947.7A CN202010499947A CN112289339A CN 112289339 A CN112289339 A CN 112289339A CN 202010499947 A CN202010499947 A CN 202010499947A CN 112289339 A CN112289339 A CN 112289339A
Authority
CN
China
Prior art keywords
voice
pictures
picture
module
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010499947.7A
Other languages
English (en)
Inventor
郭亚力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010499947.7A priority Critical patent/CN112289339A/zh
Publication of CN112289339A publication Critical patent/CN112289339A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种将语音转化为画面的***,包括语音识别模块、识别分析主模块、大数据云存储库、独立处理存储库、图片预处理模块、自主学习模块、后台管理模块、显示触摸终端以及客户端九者组成,所述显示触摸终端包括单一语音画面、连续语音画面、标准语音画面以及非专业语音画面四者组成,上述四者独立分为四个等级可操作区域,根据使用者需求选择对应区域进行实际操作,该***能够帮助用户通过动画及画面的形式更好的理解语音内容,通过语音识别即可呈现帮助用户理解语音意义,实现语音意义的确定及思维联想,该***能够较好的适用于婴幼儿早教学习,帮助护理人员对语音障碍患者表达及需求的理解,提高和促进各类教学,教义的理解和掌握,以及应用在各专业领域专业内容的认识。

Description

一种将语音转化为画面的***
技术领域
本发明涉及语音***技术领域,尤其是涉及一种将语音转化为画面的***。
背景技术
在移动通信技术及多媒体信息技术飞速发展的今天,音频、视频的应用与人们的工作、生活越来越密切,在商业应用中也扮演着越来越重要的角色。
移动通信经历了第一代模拟网络移动通信技术(1G)、第二代数字网络移动通信技术(2G),第三代移动通信技术(3G)与***移动通信技术(4G),即将迎来第五代移动通信技术(5G),随着第五代移动通信技术(5G)的技术日益成熟以及基站基础建设的完善,人们的生活也迎来智能生活、智慧生活的时代。在第三代移动通信技术(3G)与***移动通信技术(4G)成熟的技术下,能将高速移动接入和基于互联网协议的服务结合起来,提供实时多媒体及流媒体功能,例如:实时视频电话(视频会议)、视频音频流、远程无线监视、多媒体实时游戏、视频点播等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题没有得到解决:在现有的语音识别技术背景下,现有的音屏教育教学技术在实际应用过程中较为单一,在实际教学互动中无法引起别人的注意以及思维上的联想;不能满足现在智慧生活的生活理念,因此该技术在实际运用中受到极大的局限。
为此,提出一种将语音转化为画面的***。
发明内容
本发明的目的在于提供一种将语音转化为画面的***,该***能够帮助用户通过动画及画面的形式更好的理解语音内容,通过语音识别即可呈现帮助用户理解语音意义,实现语音意义的确定及思维联想,该***能够较好的适用于婴幼儿早教学习,帮助护理人员对语音障碍患者表达及需求的理解,提高和促进各类教学,教义的理解和掌握,以及应用在各专业领域专业内容的认识,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种将语音转化为画面的***,包括语音识别模块、识别分析主模块、大数据云存储库、独立处理存储库、图片预处理模块、自主学习模块、后台管理模块、显示触摸终端以及客户端九者组成。
所述显示触摸终端包括单一语音画面、连续语音画面、标准语音画面以及非专业语音画面四者组成,上述四者独立分为四个等级可操作区域,根据使用者需求选择对应区域进行实际操作;
所述显示触摸终端还包括人为识别分类与自主学习处理模块协作处理,显示触摸终端显示多组对应指定画面时,人为通过人为识别触控选择近似画面然后记录在自主学习处理模块中处理并存储至独立处理存储库中详细记录存储;
所述后台管理模块为***专业人工维护修改内部参数以及添加进行使用,使用者可以人工制作相应的语音口令动画、画面、漫画等各种与语音口令内容相符合的图片、动画记录在独立处理存储库中;
所述客户端包括智能手机,电脑等具备联网功能的智能终端设备,为***运行提供基础设备支持。
优选的,所述单一语音画面主要用于识别幼儿基础词汇,包括水果名称、生活日用品名称、动植物昆虫等基础词汇,连续语音画面包括古诗词基础语句、课本基础连续语句,标准语音画面包括各个行业专业术语及设备专业名称,非专业语音画面包括个人习惯性常用语句,使用者在使用时根据个人需求选择对应等级可操作区域进行识别使用。
优选的,所述大数据云存储库与独立处理存储库两者中,独立处理存储库为第一优先级,大数据云存储库为第二优先级,在使用者通过等级可操作区域选择并语音识别指令信息后,识别分析主模块优先提取独立处理存储库中对应语音指令的信息,该信息内容为符合语音指定的图片、动画、动漫等信息内容,然后通过图片预处理模块进行处理反馈至显示触摸终端,若作为第一优先级的独立处理存储库中无相对应的内容,则通过第二优先级的大数据云存储库筛选提取,提取内容反馈后,个人可通过人为识别触控选择最符合的单个或多个反馈内容,并由自主学习模块记录处理,从而便于***对自身进行丰富优化。
优选的,所述独立处理存储库中的内容可以通过专业人员利用后台管理模块进行添加从而丰富独立处理存储库资源存储内容,以便于更好的为用户呈现,大数据云存储库同样为语音识别模块提供语音识别技术支持,以便于更好的识别用户地方口音解决口齿不清、读音不够准确等问题。
优选的,所述独立处理存储库能够通过后台管理模块与各行业各领域专业内容相互衔接实现信息准确共享,如在医疗领域,人为将该领域中人体器官组织画面、手术预处理画面等其他内容通过后台管理模块与独立处理存储库衔接,在实际教学过程中能够通过语音口令更快的反应并提取相关内容画面反馈。
优选的,所述大数据云存储库则由外界共享信息以及各平台APP内容信息共享组成,通过5G技术实现极速筛选分析反馈,保证筛选内容尽可能的符合语音口令内容,最好的呈现给用户。
与现有技术相比,本发明的有益效果是:
该***能够帮助用户通过动画及画面的形式更好的理解语音内容,通过语音识别即可呈现帮助用户理解语音意义,实现语音意义的确定及思维联想,该***能够较好的适用于婴幼儿早教学习,帮助护理人员对语音障碍患者表达及需求的理解,提高和促进各类教学,教义的理解和掌握,以及应用在各专业领域专业内容的认识。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的***结构框图。
具体实施方式
下面将结和本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
如图1所示,一种将语音转化为画面的***,包括语音识别模块、识别分析主模块、大数据云存储库、独立处理存储库、图片预处理模块、自主学习模块、后台管理模块、显示触摸终端以及客户端九者组成。
所述显示触摸终端包括单一语音画面、连续语音画面、标准语音画面以及非专业语音画面四者组成,上述四者独立分为四个等级可操作区域,根据使用者需求选择对应区域进行实际操作;
所述显示触摸终端还包括人为识别分类与自主学习处理模块协作处理,显示触摸终端显示多组对应指定画面时,人为通过人为识别触控选择近似画面然后记录在自主学习处理模块中处理并存储至独立处理存储库中详细记录存储;
所述后台管理模块为***专业人工维护修改内部参数以及添加进行使用,使用者可以人工制作相应的语音口令动画、画面、漫画等各种与语音口令内容相符合的图片、动画记录在独立处理存储库中;
所述客户端包括智能手机,电脑等具备联网功能的智能终端设备,为***运行提供基础设备支持,所述单一语音画面主要用于识别幼儿基础词汇,包括水果名称、生活日用品名称、动植物昆虫等基础词汇,连续语音画面包括古诗词基础语句、课本基础连续语句,标准语音画面包括各个行业专业术语及设备专业名称,非专业语音画面包括个人***台APP内容信息共享组成,通过5G技术实现极速筛选分析反馈,保证筛选内容尽可能的符合语音口令内容,最好的呈现给用户。
该***能够帮助用户通过动画及画面的形式更好的理解语音内容,通过语音识别即可呈现帮助用户理解语音意义,实现语音意义的确定及思维联想,该***能够较好的适用于婴幼儿早教学习,帮助护理人员对语音障碍患者表达及需求的理解,提高和促进各类教学,教义的理解和掌握,以及应用在各专业领域专业内容的认识。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种将语音转化为画面的***,其特征在于,包括语音识别模块、识别分析主模块、大数据云存储库、独立处理存储库、图片预处理模块、自主学习模块、后台管理模块、显示触摸终端以及客户端九者组成。
所述显示触摸终端包括单一语音画面、连续语音画面、标准语音画面以及非专业语音画面四者组成,上述四者独立分为四个等级可操作区域,根据使用者需求选择对应区域进行实际操作;
所述显示触摸终端还包括人为识别分类与自主学习处理模块协作处理,显示触摸终端显示多组对应指定画面时,人为通过人为识别触控选择近似画面然后记录在自主学习处理模块中处理并存储至独立处理存储库中详细记录存储;
所述后台管理模块为***专业人工维护修改内部参数以及添加进行使用,使用者可以人工制作相应的语音口令动画、画面、漫画等各种与语音口令内容相符合的图片、动画记录在独立处理存储库中;
所述客户端包括智能手机,电脑等具备联网功能的智能终端设备,为***运行提供基础设备支持。
2.根据权利要求1所述的一种将语音转化为画面的***,其特征在于:所述单一语音画面主要用于识别幼儿基础词汇,包括水果名称、生活日用品名称、动植物昆虫等基础词汇,连续语音画面包括古诗词基础语句、课本基础连续语句,标准语音画面包括各个行业专业术语及设备专业名称,非专业语音画面包括个人习惯性常用语句,使用者在使用时根据个人需求选择对应等级可操作区域进行识别使用。
3.根据权利要求1所述的一种将语音转化为画面的***,其特征在于:所述大数据云存储库与独立处理存储库两者中,独立处理存储库为第一优先级,大数据云存储库为第二优先级,在使用者通过等级可操作区域选择并语音识别指令信息后,识别分析主模块优先提取独立处理存储库中对应语音指令的信息,该信息内容为符合语音指定的图片、动画、动漫等信息内容,然后通过图片预处理模块进行处理反馈至显示触摸终端,若作为第一优先级的独立处理存储库中无相对应的内容,则通过第二优先级的大数据云存储库筛选提取,提取内容反馈后,个人可通过人为识别触控选择最符合的单个或多个反馈内容,并由自主学习模块记录处理,从而便于***对自身进行丰富优化。
4.根据权利要求1所述的一种将语音转化为画面的***,其特征在于:所述独立处理存储库中的内容可以通过专业人员利用后台管理模块进行添加从而丰富独立处理存储库资源存储内容,以便于更好的为用户呈现,大数据云存储库同样为语音识别模块提供语音识别技术支持,以便于更好的识别用户地方口音解决口齿不清、读音不够准确等问题。
5.根据权利要求1所述的一种将语音转化为画面的***,其特征在于:所述独立处理存储库能够通过后台管理模块与各行业各领域专业内容相互衔接实现信息准确共享,如在医疗领域,人为将该领域中人体器官组织画面、手术预处理画面等其他内容通过后台管理模块与独立处理存储库衔接,在实际教学过程中能够通过语音口令更快的反应并提取相关内容画面反馈。
6.根据权利要求1所述的一种将语音转化为画面的***,其特征在于:所述大数据云存储库则由外界共享信息以及各平台APP内容信息共享组成,通过5G技术实现极速筛选分析反馈,保证筛选内容尽可能的符合语音口令内容,最好的呈现给用户。
CN202010499947.7A 2020-06-04 2020-06-04 一种将语音转化为画面的*** Pending CN112289339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499947.7A CN112289339A (zh) 2020-06-04 2020-06-04 一种将语音转化为画面的***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499947.7A CN112289339A (zh) 2020-06-04 2020-06-04 一种将语音转化为画面的***

Publications (1)

Publication Number Publication Date
CN112289339A true CN112289339A (zh) 2021-01-29

Family

ID=74420256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499947.7A Pending CN112289339A (zh) 2020-06-04 2020-06-04 一种将语音转化为画面的***

Country Status (1)

Country Link
CN (1) CN112289339A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049523A (zh) * 2022-11-09 2023-05-02 华中师范大学 一种ai智能生成古诗词情境视频的***及其工作方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042716A (zh) * 2006-07-13 2007-09-26 东莞市步步高教育电子产品有限公司 一种电子宠物娱乐学习***及方法
CN102446428A (zh) * 2010-09-27 2012-05-09 北京紫光优蓝机器人技术有限公司 基于机器人的交互式学习***及其交互方法
CN106373566A (zh) * 2016-08-25 2017-02-01 深圳市元征科技股份有限公司 数据传输控制方法及装置
CN106384591A (zh) * 2016-10-27 2017-02-08 乐视控股(北京)有限公司 一种与语音助手应用交互的方法和装置
CN106408480A (zh) * 2016-11-25 2017-02-15 山东孔子文化产业发展有限公司 基于增强现实、语音识别的国学三维交互学习***及方法
CN106875941A (zh) * 2017-04-01 2017-06-20 彭楚奥 一种服务机器人的语音语义识别方法
CN107483729A (zh) * 2017-08-08 2017-12-15 陕西银河景天电子有限责任公司 一种多画面显示选择截取画面的方法及***
CN107967087A (zh) * 2012-12-06 2018-04-27 三星电子株式会社 显示设备和控制显示设备的方法
CN108829319A (zh) * 2018-06-15 2018-11-16 驭势科技(北京)有限公司 一种触摸屏的交互方法、装置、电子设备及存储介质
CN110275988A (zh) * 2019-06-14 2019-09-24 秒针信息技术有限公司 获取图片的方法及装置
CN111159442A (zh) * 2019-12-27 2020-05-15 上海擎感智能科技有限公司 基于语音的图片搜索***、方法、介质及设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042716A (zh) * 2006-07-13 2007-09-26 东莞市步步高教育电子产品有限公司 一种电子宠物娱乐学习***及方法
CN102446428A (zh) * 2010-09-27 2012-05-09 北京紫光优蓝机器人技术有限公司 基于机器人的交互式学习***及其交互方法
CN107967087A (zh) * 2012-12-06 2018-04-27 三星电子株式会社 显示设备和控制显示设备的方法
CN106373566A (zh) * 2016-08-25 2017-02-01 深圳市元征科技股份有限公司 数据传输控制方法及装置
CN106384591A (zh) * 2016-10-27 2017-02-08 乐视控股(北京)有限公司 一种与语音助手应用交互的方法和装置
CN106408480A (zh) * 2016-11-25 2017-02-15 山东孔子文化产业发展有限公司 基于增强现实、语音识别的国学三维交互学习***及方法
CN106875941A (zh) * 2017-04-01 2017-06-20 彭楚奥 一种服务机器人的语音语义识别方法
CN107483729A (zh) * 2017-08-08 2017-12-15 陕西银河景天电子有限责任公司 一种多画面显示选择截取画面的方法及***
CN108829319A (zh) * 2018-06-15 2018-11-16 驭势科技(北京)有限公司 一种触摸屏的交互方法、装置、电子设备及存储介质
CN110275988A (zh) * 2019-06-14 2019-09-24 秒针信息技术有限公司 获取图片的方法及装置
CN111159442A (zh) * 2019-12-27 2020-05-15 上海擎感智能科技有限公司 基于语音的图片搜索***、方法、介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049523A (zh) * 2022-11-09 2023-05-02 华中师范大学 一种ai智能生成古诗词情境视频的***及其工作方法
CN116049523B (zh) * 2022-11-09 2023-08-22 华中师范大学 一种ai智能生成古诗词情境视频的***及其工作方法

Similar Documents

Publication Publication Date Title
CN110488975B (zh) 一种基于人工智能的数据处理方法及相关装置
Clarke Learning from experience: psycho-social research methods in the social sciences
US20180350368A1 (en) Automated population of electronic records
Chou et al. NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus
CN103919537B (zh) 情绪记录分析引导***及其实现方法
Douglas-Cowie et al. The HUMAINE database
EP2290924A1 (en) Converting text messages into graphical image strings
CN110427809A (zh) 基于深度学习的唇语识别方法、装置、电子设备及介质
CN116524791A (zh) 一种基于元宇宙的唇语学习辅助训练***及其应用
CN112289339A (zh) 一种将语音转化为画面的***
Andreu-Sánchez et al. Viewers change eye-blink rate by predicting narrative content
CN113395569A (zh) 视频生成方法及装置
CN112599130A (zh) 一种基于智慧屏的智能会议***
Esposito et al. Cultural specific effects on the recognition of basic emotions: A study on Italian subjects
US20190332899A1 (en) Analysis of image media corresponding to a communication session
CN116028904A (zh) 一种成长型数字人生成方法及场景内容创作平台
CN112908362B (zh) 基于采集机器人终端的***、机器人终端、方法及介质
Louwerse et al. Multimodal communication in face-to-face computer-mediated conversations
CN111160051A (zh) 数据处理方法、装置、电子设备及存储介质
Corey Siting the Artist’s Voice
KR20210108565A (ko) 가상 콘텐츠 생성 방법
Ham et al. Migrating methods in a pandemic: Virtual participatory video with migrants in Hong Kong
CN116843805B (zh) 一种包含行为的虚拟形象生成方法、装置、设备及介质
CN110677377B (zh) 录音处理、播放方法、装置、服务器、终端及存储介质
Lestari Decoding the Denotative and Connotative Elements in Sony Pictures Animation’s Short Film “Hair Love”(2019)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210129