CN111144287B - 视听辅助交流方法、装置及可读存储介质 - Google Patents
视听辅助交流方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN111144287B CN111144287B CN201911359528.7A CN201911359528A CN111144287B CN 111144287 B CN111144287 B CN 111144287B CN 201911359528 A CN201911359528 A CN 201911359528A CN 111144287 B CN111144287 B CN 111144287B
- Authority
- CN
- China
- Prior art keywords
- communication
- audio
- communicated
- person
- limb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请提供了一种视听辅助交流方法、装置及可读存储介质,其中,所述视听辅助交流方法,包括:获取设定视听范围内至一待沟通者的肢体语言信息;对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;输出待播放的音频数据。通过本申请方案的实施,能够在不方便语音交流的场所实现与视障人士的交流,提升用户的交流体验,提高沟通的实时性和趣味性。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种视听辅助交流方法、装置及可读存储介质。
背景技术
在日常生活中,人们通常采用语音沟通和手势沟进行信息传递。对于视障人士而言,通常只能采用语音沟通。然而,在一些不方便语音沟通的场景,如会议室,博物馆等需要保持安静的场景,难以或无法实现与视障人士的沟通,导致与视障人士的沟通不便问题。
发明内容
为解决上述至少一技术问题,本申请实施例提供了一种视听辅助交流方法、装置、电子设备及可读存储介质。
本申请实施例第一方面提供了一种视听辅助交流方法,包括:
获取设定视听范围内至一待沟通者的肢体语言信息;
对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
输出待播放的音频数据。
其中,所述获取设定视听范围内至少一待沟通者的肢体语言信息,包括:
获取设定视听范围内至少一待沟通者的实时图像或视频数据;
从实时图像或视频数据提取出至少一肢体动作及至少一表情动作;以及
选择任一肢体动作或任一表情动作为目标动作,并将目标动作确定为肢体语言信息。
其中,所述从实时图像或视频数据提取出肢体动作及表情动作之后,还包括:
同时选择至少两种选择肢体动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或
同时选择至少两种选择表情动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或
同时选择选择至少一肢体动作及至少一表情动作为目标动作,并将目标动作确定为肢体语言信息。
其中,所述获取设定视听范围内至少一待沟通者的实时图像或视频数据之前,还包括:
动态检测设定视听范围内是否出现待沟通者的对话人脸;
在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸;
确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据。
其中,所述获取设定视听范围内至少一待沟通者的肢体语言信息,还包括:
获取记录的摄像头的转动角度数据,并作为待沟通者所处的沟通方位数据;
所述输出待播放的音频数据,包括:
顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
其中,所述自动调整摄像头的转动角度以在设定视听范围检测出对话人脸中,还包括:
在设定视听范围内出现有至少两个待沟通者的对话人脸时,确定实时图像或实时视频的采集角度,并记录至少两个待沟通者的对应沟通方位数据;
所述获取设定视听范围内至一待沟通者的肢体语言信息,还包括:
获取设定视听范围内至少两个待沟通者的肢体语言信息,将肢体语言信息与沟通方位数据进行标定。
其中,所述输出待播放的音频数据,包括:
对待播放的音频数据与预设背景音乐进行混音处理,得到混音音频数据;
输出混音音频数据。
本申请实施例第二方面提供了视听辅助交流装置,包括:
获取模块,用于获取设定视听范围内至少一待沟通者的肢体语言信息;
识别处理模块,用于对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
语音输出模块,用于输出待播放的音频数据。
本申请实施例第三方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述本申请实施例第一方面提供的视听辅助交流方法中的各步骤。
本申请实施例第四方面提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的视听辅助交流方法中的各步骤。
由上可见,本方案通过先获取设定视听范围内至一待沟通者的肢体语言信息;然后对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;最后输出待播放的音频数据。通过本申请方案的实施,能够在安静的场所实现与视障人士的交流,提升用户的交流体验,提高沟通的实时性和趣味性。
附图说明
图1为本申请第一实施例提供的视听辅助交流方法的基本流程示意图;
图2为本申请第二实施例提供的视听辅助交流方法的基本流程示意图;
图3为本申请第三实施例提供的视听辅助交流装置的程序模块示意图;
图4为本申请第四实施例提供的视听辅助交流装置的程序模块示意图;
图5为本申请第五实施例提供的电子设备的结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决相关技术中在不方便语音交流的场景中,无法或难以与视障人士进行交流的缺陷,本申请第一实施例提供了一种视听辅助交流方法,应用于在不方便语音交流的场所(如,会议室、博物馆等),可以辅助视障人士与其他人的交流,如此,以提高视障人士的交流体验。如图1为本实施例提供的视听辅助交流方法的基本流程图,该视听辅助交流方法包括以下的步骤:
步骤S110、获取设定视听范围内至一待沟通者的肢体语言信息。
具体的,在实际应用中,在不方便语音进行沟通的场所,大多只能借助肢体动作来交流。对于与视障人士而言,不方便语音进行沟通的应用场景中存在交流不顺畅的问题。本实施例中,在待沟通者与视障人士进行交流时,待沟通者朝视障人士做出待交流的肢体语言,该肢体语言可以是待沟通者的肢体动作,如手势、点头、摇头、耸肩等动作,也可以是表情动作,如嘴型,皱眉,眨眼等动作。上述的肢体语言,可以通过摄像模块,获取到待沟通人士的肢体动作或表情动作。
在实际与视障人士的交流中,还需要考虑到设定视听范围因素,以减少交流时的干扰。该设定视听范围可以根据实际的要求来设置,此处不作限定。通常的,设定视听范围越远,考虑到摄像模块的识别较差容易出现误差,实时沟通的效果较差。设定视听范围越近时,摄像模块的识别较加,实时沟通的效果较好。
具体的,获取设定视听范围内至一待沟通者的肢体语言信息,具体包括:
获取设定视听范围内至少一待沟通者的实时图像或视频数据;
从实时图像或视频数据提取出至少一肢体动作及至少一表情动作;以及选择任一肢体动作或任一表情动作为目标动作,并将目标动作确定为肢体语言信息。
在实际应用中,可以通过摄像头采集设定视听范围内至少一待沟通者的实时图像,该实时图像为连续多帧图像。连续多帧图像中包含有待沟通者与视障人士的交流信息。然后通过图像处理器从连续多帧图像中提取出至少一肢体动作及至少一表情动作,并且,在肢体动作及表情动作有多个时,可以选择任一肢体动作或任一表情动作为目标动作,并将目标动作确定为肢体语言信息。可以理解的,上述的还可以采集待沟通者的实时视频数据。
在简单的沟通中,可以以至少一肢体动作及至少一表情动作来确定待沟通者传递的信息。例如,识别出待沟通者的肢体手势ok,或者点头动作,则表示确定或认可信息;识别出待沟通者的摇头动作,则表示否决的信息。对于表情动作而言,当识别出待沟通者的嘴型为肯定时,则表示确定或认可信息;识别出待沟通者的嘴型为否定时,则表示否决的信息。
可选的,所述从实时图像或视频数据提取出肢体动作及表情动作之后,还包括:
同时选择至少两种选择肢体动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或
同时选择至少两种选择表情动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或
同时选择选择至少一肢体动作及至少一表情动作为目标动作,并将目标动作确定为肢体语言信息。
考虑到待沟通者传递信息的准确性与可靠性,本方案可以采用肢体语言的多种方式对传递信息进行验证。
具体的,本实施例中,第一方面可以采用同时选择至少两种选择肢体动作作为目标动作组合,并将目标动作组合确定为肢体语言信息。通过两种选择肢体动作作为目标动作组合,并将其确定为肢体语言信息,相比于上述的单一肢体语言,此种方式能够降低单一肢体语言识别的误差,并且能够大大提升信息传递的准确率,进一步提升交流体验。可以理解的,上述的肢体动作越多时,待沟通者识别传递信息的准确率越高,对应的,处理器处理的时间越长,综合识别的准确率及处理时长,可以将组合的肢体动作的个数设置成2-3个。
作为一并列的实施例中,本实施例中,第二方面可以同时选择至少两种选择表情动作作为目标动作组合,并将目标动作组合确定为肢体语言信息。第二种方式与第一种方式的组合、效果及数量的设置类似,此处不再赘述。
作为一并列的实施例中,本实施例中,第三方面可以同时选择选择至少一肢体动作及至少一表情动作为目标动作,并将目标动作确定为肢体语言信息。在人与人之间的实际交流中,肢体动作与表情动作大多需要同步的,通过肢体动作与表情动作可以很好对待沟通者传递的信息进行确认。如此,可以更准确的确定和验证待沟通者传递的信息。
进一步的,获取设定视听范围内至一待沟通者的肢体语言信息之前,还包括:
动态检测设定视听范围内是否出现待沟通者的对话人脸;
在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸;
确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据。
具体的,利用视觉传感器,并通过人脸识别技术,可以动态检测设定视听范围,然后判断在设定视听范围内是否出现待沟通者的人脸,在设定视听范围内出现待沟通者的对话人脸时,对摄像头或摄像模块进行定位,此时的位置为摄像头或摄像模块的所处位置,然后确定后的实时图像或实时视频的采集角度,利用摄像头或摄像模块内的视觉传感器可对待沟通者的实时图像和实时视频进行采集。在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度,直至在设定视听范围检测出对话人脸,此时,对摄像头与摄像模块进行定位,如此,确定实时图像或实时视频的采集角度。在上述摄像头的转动过程中,还包括记录摄像头的转动角度数据w,w作为待沟通者的沟通方位数据,如此,以方便视障人士的沟通。
对于上述的定位中,还可以根据超声及雷达对待沟通者进行定位,如此,以实现快速及精准定位,提高用户体验。
可选的,所述获取设定视听范围内至少一待沟通者的肢体语言信息,还包括:
获取摄像头的转动角度数据,并作为待沟通者所处的沟通方位数据;
所述输出待播放的音频数据,包括:
顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
具体的,获取设定视听范围内至少一待沟通者的肢体语言信息的同时,还包括获取记录的摄像头的转动角度数据,该后续的处理中,该摄像头的转动角度数据也转换成音频数据,进而方便视障人士与其他的信息交流。所述输出待播放的音频数据,具体包括:顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。在粗略的划分过程中,上述过程中的沟通方位可以大致分成前、后、左、右四个方位,进一步的,在精细的划分过程中,可以对沟通方位进行更准确的划分,如,或前、后、左、右、左前、左后、右前、右后八个方位,或12个方位,对于12个方位而言,以大致偏转角度来定义各划分。
上述方案基于对待沟通者方位的考量,可以方便视障人士找准方位,避免无效沟通。通过上述方案可以实现由待沟通者向视障人士单方面的信息传递,转换为视障人士与待沟通者的双向沟通,保证沟通的可靠性。
具体的,所述自动调整摄像头的转动角度以在设定视听范围检测出对话人脸中,还包括:
在设定视听范围内出现有至少两个待沟通者的对话人脸时,确定实时图像或实时视频的采集角度,并记录至少两个待沟通者的对应沟通方位数据;
所述获取设定视听范围内至一待沟通者的肢体语言信息,还包括:
获取设定视听范围内至少两个待沟通者的肢体语言信息,将肢体语言信息与沟通方位数据进行标定。
本实施例中,考虑到多个待沟通者同时或者差不多同时与视障人士沟通的情况,也即,在设定视听范围内出现有至少两个待沟通者的对话人脸时,先确定实时图像或实时视频的采集角度,并记录至少两个待沟通者的对应沟通方位数据。此时,无需继续对摄像头进行转动,该位置为摄像头的旋转位置。再确定实时图像或实时视频的采集角度之后,可以分时或同时获取设定视听范围内至少两个待沟通者的肢体语言信息。同时,记录至少两个待沟通者的对应沟通方位数据。获取设定视听范围内至一待沟通者的肢体语言信息,还包括:获取设定视听范围内至少两个待沟通者的肢体语言信息,将肢体语言信息与沟通方位数据进行标定。如此,以实现待沟通者的肢体语言信息与对应的沟通方位数据的绑定,避免多人交流时的混乱,进一步提高用户的体验。
步骤S120、对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据。
具体的,对肢体语言信息进行动态识别处理中,采用在GPU中实现对人脸检测、手势识别的计算工作,采用在CPU中实现对逻辑判断以及其他模块的工作。进一步的,肢体语言信息包括肢体动作及表情动作,通过GPU可以完成肢体动作及表情动作。识别出的肢体动作及表情动作会与终端图像库中预存的肢体动作的进行比较,也即,通过识别出的肢体动作及表情动作终端图像库中预存的肢体动作,可以辨识出肢体动作及表情动作所传达的待沟通者的交流信息。此部分中涉及到的逻辑判断,均由CPU来实现。
步骤S130、输出待播放的音频数据。
具体的,向视障人士输出待播放的音频数据,如此,在不方便语音沟通的场所,实现视障人士与待沟通者的信息交互。
进一步的,所述输出待播放的音频数据,包括:
对待播放的音频数据与预设背景音乐进行混音处理,得到混音音频数据;
输出混音音频数据。
具体的,本方案中还可以对对待播放的音频数据与预设背景音乐进行混音处理,然后输出混音音频数据,如此,可以进一步的提高交流体验。可以理解的,上述的预设背景音乐可以由用户自己设定,以营造成更好的播放效果,能够增加沟通的实时性和趣味性。
在实际的应用中,该可以通过耳机将混音音频数据直接输出视障人士的耳内。
请参照图2,图2为本申请第二实施例提供的视听辅助交流方法的基本流程示意图。本申请的实施例中,该视听辅助交流方法,具体包括以下步骤。:
步骤S210、动态检测设定视听范围内是否出现待沟通者的对话人脸;
步骤S220、在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸;
步骤S230、确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据;
步骤S240、获取设定视听范围内至一待沟通者的肢体语言信息及摄像头的转动角度数据,其中,所述摄像头的转动角度数据为待沟通者的沟通方位数据;
步骤S250、对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
步骤S260、顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
本实施例中,在待沟通者与视障人士进行沟通时,先动态检测设定视听范围内是否出现待沟通者的人脸,如果设定视听范围内出现待沟通者的人脸,则确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据;如果设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸,然后再确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据,以及获取设定视听范围内至一待沟通者的肢体语言信息及摄像头的转动角度数据,其中,所述摄像头的转动角度数据为待沟通者的沟通方位数据,对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据,输出顺次输出待播放的待沟通者沟通方位及沟通语音。
针对视障人士在不方便语音沟通的场景下,利用AR技术,动态检测并识别沟通者的肢体语言,并将肢体语言转化为文字,最终将文字转为音频信息输出至视障人士,实现沟通者与视障人士之间交流,可以改善交流体验。
请参照图3,图3为本申请第三实施例提供的视听辅助交流装置的程序模块示意图。本申请的实施例中,该视听辅助交流装置,包括:
获取模块110,用于获取设定视听范围内至一待沟通者的肢体语言信息;
识别处理模块120,用于对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
语音输出模块130,用于输出待播放的音频数据。
本实施例中,通过获取模块110,可以获取设定视听范围内至一待沟通者的肢体语言信息;然后通过识别处理模块120,可以对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;最后通过语音输出模块130,可以输出待播放的音频数据。通过本申请方案的实施,能够在安静的场所实现与视障人士的交流,提升用户的交流体验,
请参照图4,图4为本申请第四实施例提供的视听辅助交流装置的程序模块示意图。本申请的实施例中,该视听辅助交流装置,包括:
检测模块210,用于动态检测设定视听范围内是否出现待沟通者的人脸;
调整模块220,用于在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸;
确定模块230,用于确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据;
获取模块240,用于获取设定视听范围内至一待沟通者的肢体语言信息及摄像头的转动角度数据,其中,所述摄像头的转动角度数据为待沟通者的沟通方位数据;
识别处理模块250,用于对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
语音输出模块260,用于输出顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
请参阅图5,图5为本申请第五实施例提供的一种电子设备。该电子设备可用于实现前述实施例中的视听辅助交流方法。如图5所示,该电子设备主要包括:
存储器301、处理器302、总线303及存储在存储器301上并可在处理器302上运行的计算机程序,存储器301和处理器302通过总线303连接。处理器302执行该计算机程序时,实现前述实施例中的视听辅助交流方法。其中,处理器的数量可以是一个或多个。
存储器301可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器301用于存储可执行程序代码,处理器302与存储器301耦合。
进一步的,本申请实施例还提供了一种可读存储介质,该可读存储介质可以是设置于上述各实施例中的电子设备中,该可读存储介质可以是前述图3所示实施例中的存储器。
该可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述实施例中的视听辅助交流方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的视听辅助交流方法、装置、电子设备及可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种视听辅助交流方法,其特征在于,所述视听辅助交流方法包括:获取设定视听范围内至一待沟通者的肢体语言信息;
对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
通过耳机输出待播放的音频数据至视障人士的耳内;
所述获取设定视听范围内至少一待沟通者的肢体语言信息,还包括:
获取摄像头的转动角度数据,并作为待沟通者所处的沟通方位数据;
所述输出待播放的音频数据,包括:
顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
2.如权利要求1所述的视听辅助交流方法,其特征在于,所述获取设定视听范围内至少一待沟通者的肢体语言信息,包括:获取设定视听范围内至少一待沟通者的实时图像或视频数据;
从实时图像或视频数据提取出至少一肢体动作及至少一表情动作;以及选择任一肢体动作或任一表情动作为目标动作,并将目标动作确定为肢体语言信息。
3.如权利要求2所述的视听辅助交流方法,其特征在于,所述从实时图像或视频数据提取出肢体动作及表情动作之后,还包括:同时选择至少两种选择肢体动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或同时选择至少两种选择表情动作作为目标动作组合,并将目标动作组合确定为肢体语言信息;或同时选择选择至少一肢体动作及至少一表情动作为目标动作,并将目标动作确定为肢体语言信息。
4.如权利要求3所述的视听辅助交流方法,其特征在于,所述获取设定视听范围内至少一待沟通者的实时图像或视频数据之前,还包括:动态检测设定视听范围内是否出现待沟通者的对话人脸;
在设定视听范围内没有出现待沟通者的对话人脸时,自动调整摄像头的转动角度以在设定视听范围检测出对话人脸;
确定实时图像或实时视频的采集角度,并记录摄像头的转动角度数据。
5.如权利要求4所述的视听辅助交流方法,其特征在于,所述获取设定视听范围内至少一待沟通者的肢体语言信息,还包括:获取记录的摄像头的转动角度数据,并作为待沟通者所处的沟通方位数据。
6.如权利要求4所述的视听辅助交流方法,其特征在于,所述自动调整摄像头的转动角度以在设定视听范围检测出对话人脸中,还包括:在设定视听范围内出现有至少两个待沟通者的对话人脸时,确定实时图像或实时视频的采集角度,并记录至少两个待沟通者的对应沟通方位数据;
所述获取设定视听范围内至一待沟通者的肢体语言信息,还包括:获取设定视听范围内至少两个待沟通者的肢体语言信息,将肢体语言信息与沟通方位数据进行标定。
7.如权利要求1-6任一项所述的视听辅助交流方法,其特征在于,所述输出待播放的音频数据,包括:对待播放的音频数据与预设背景音乐进行混音处理,得到混音音频数据;
输出混音音频数据。
8.一种视听辅助交流装置,其特征在于,所述视听辅助交流装置包括:获取模块,用于获取设定视听范围内至少一待沟通者的肢体语言信息;
识别处理模块,用于对肢体语言信息进行动态识别处理,得到与肢体语言信息对应的文字信息,并将文字信息转换为待播放的音频数据;
语音输出模块,用于通过耳机输出待播放的音频数据至视障人士的耳内;
所述获取设定视听范围内至少一待沟通者的肢体语言信息,还包括:
获取摄像头的转动角度数据,并作为待沟通者所处的沟通方位数据;
所述输出待播放的音频数据,包括:
顺次输出待播放的待沟通者沟通方位及沟通语音,其中,所述音频数据包括待沟通者沟通方位及沟通语音。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至7中任意一项所述方法中的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中的任意一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359528.7A CN111144287B (zh) | 2019-12-25 | 2019-12-25 | 视听辅助交流方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359528.7A CN111144287B (zh) | 2019-12-25 | 2019-12-25 | 视听辅助交流方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144287A CN111144287A (zh) | 2020-05-12 |
CN111144287B true CN111144287B (zh) | 2023-06-09 |
Family
ID=70520133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911359528.7A Active CN111144287B (zh) | 2019-12-25 | 2019-12-25 | 视听辅助交流方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144287B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669679B (zh) * | 2020-11-26 | 2023-08-15 | 厦门理工学院 | 视障人员社交装置、方法及移动终端 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150084859A1 (en) * | 2013-09-23 | 2015-03-26 | Yair ITZHAIK | System and Method for Recognition and Response to Gesture Based Input |
CN108062533A (zh) * | 2017-12-28 | 2018-05-22 | 北京达佳互联信息技术有限公司 | 用户肢体动作的解析方法、***及移动终端 |
CN108170278A (zh) * | 2018-01-09 | 2018-06-15 | 三星电子(中国)研发中心 | 沟通辅助方法及装置 |
CN110111651A (zh) * | 2018-02-01 | 2019-08-09 | 周玮 | 基于体态感知的智能语言交互*** |
CN108766433A (zh) * | 2018-05-11 | 2018-11-06 | 深圳双猴科技有限公司 | 一种肢体语言翻译***及方法 |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的***和方法 |
CN109446876B (zh) * | 2018-08-31 | 2020-11-06 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN110322760B (zh) * | 2019-07-08 | 2020-11-03 | 北京达佳互联信息技术有限公司 | 语音数据生成方法、装置、终端及存储介质 |
CN110456906A (zh) * | 2019-07-23 | 2019-11-15 | 艾祎璠 | 一种用于聋哑人的智能交互*** |
-
2019
- 2019-12-25 CN CN201911359528.7A patent/CN111144287B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111144287A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10158964B2 (en) | Method and apparatus for processing audio signal | |
US10642569B2 (en) | Methods and devices for identifying object in virtual reality communication, and virtual reality equipment | |
US10037312B2 (en) | Methods and systems for gaze annotation | |
EP2509070B1 (en) | Apparatus and method for determining relevance of input speech | |
US8411130B2 (en) | Apparatus and method of video conference to distinguish speaker from participants | |
CN110853646B (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
EP4099709A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、***、电子设备及存储介质 | |
CN108877787A (zh) | 语音识别方法、装置、服务器及存储介质 | |
US10388325B1 (en) | Non-disruptive NUI command | |
CN111107278B (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
CN112598780B (zh) | 实例对象模型构建方法及装置、可读介质和电子设备 | |
WO2021120190A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2022179453A1 (zh) | 声音录制方法及相关设备 | |
CN113313797A (zh) | 虚拟形象驱动方法、装置、电子设备和可读存储介质 | |
CN111144287B (zh) | 视听辅助交流方法、装置及可读存储介质 | |
CN109934150A (zh) | 一种会议参与度识别方法、装置、服务器和存储介质 | |
JP4585380B2 (ja) | 次発言者検出方法、装置、およびプログラム | |
CN113259620B (zh) | 视频会议数据同步方法及装置 | |
CN116266874A (zh) | 视频播放中协同播放音频的方法及通信*** | |
CN113220912A (zh) | 一种交互辅助方法、装置及计算机可读存储介质 | |
KR20210120599A (ko) | 아바타 서비스 제공 방법 및 시스템 | |
CN113176827A (zh) | 基于表情的ar交互方法、***、电子设备及存储介质 | |
CN111967380A (zh) | 内容推荐方法及*** | |
JP2006121264A (ja) | 動画像処理装置、動画像処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |