CN110070865A - 一种具有语音和图像识别功能的向导机器人 - Google Patents

一种具有语音和图像识别功能的向导机器人 Download PDF

Info

Publication number
CN110070865A
CN110070865A CN201910264736.2A CN201910264736A CN110070865A CN 110070865 A CN110070865 A CN 110070865A CN 201910264736 A CN201910264736 A CN 201910264736A CN 110070865 A CN110070865 A CN 110070865A
Authority
CN
China
Prior art keywords
image
voice
processing unit
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910264736.2A
Other languages
English (en)
Other versions
CN110070865B (zh
Inventor
孙昌勋
许志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronglian Ets Information Technology Co Ltd
Original Assignee
Beijing Ronglian Ets Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronglian Ets Information Technology Co Ltd filed Critical Beijing Ronglian Ets Information Technology Co Ltd
Priority to CN201910264736.2A priority Critical patent/CN110070865B/zh
Publication of CN110070865A publication Critical patent/CN110070865A/zh
Application granted granted Critical
Publication of CN110070865B publication Critical patent/CN110070865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种具有语音和图像识别功能的向导机器人,具体包括:语音输入单元,图像采集单元,触摸输入单元,语音处理单元,图像处理单元,文本处理单元,决策单元,运动控制单元,存储单元和输出单元。所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息,综合上述信息确定机器人的运动轨迹和需要输出的信息,并分别发送至运动控制单元和输出单元。该向导机器人,能够通过采集用户的语音信息、图像信息以及用户输入的辅助信息,自主判断用户类型,并基于用户的类型选择合适的信息输出形式,能够实现针对不同的用户群体提供特定的向导服务。同时向导机器人能够针对用户的提问实现与用户的简单交流。

Description

一种具有语音和图像识别功能的向导机器人
技术领域
本发明涉及机器人领域,特别涉及一种具有语音和图像识别功能的向导机器人。
背景技术
导游职业在我国旅游事业的高速发展过程中起到了非常重要的作用,然而多数旅游景点的导游工作都具有重复性高、创造性低的特点。一方面高度重复性的劳动浪费了大量的人力资源;另一方面长期从事某项导游工作也难免使人产生滞怠情绪,降低服务质量。此外,随着各种新兴的旅游方式的兴起,游客通常会希望及时地得到不同的信息,同时也希望导游方式也更加吸引人;现有的讲解器可以实现针对具有不同母语的人群提供不同语言类型的讲解,但讲解内容和形式单一,固定,且不具备人机交互功能。然而传统的导游服务和讲解器逐渐地不能满足这些需求,这为面向旅游业的导引机器人的诞生及发展提出了市场需求。
机器人在一些特殊的场合,比如广场、展览馆、博物馆、科技馆、商店和旅游场所等地方,人员并不密集,工作环境固定,机器人可以承担部分向导的工作,进行简单固定的引导和解说工作。这样不仅可以减少服务人员的数量,而且可以增加科技元素和趣味性,吸引儿童和青少年的参与。
但是现有的向导机器人工作模式也较为单一,只能以固定模式向用户传输预定的信息,无法自主针对用户群体的不同,提供具有针对性的信息,从而满足不同人群的需求。
发明内容
针对上述技术问题,本发明公开了一种具有语音和图像识别功能的向导机器人,能够实现自动识别用户类型,针对不同的用户群体提供特定的向导服务,且能够实现与用户的简单交流。
为实现上述目的,本发明提供如下技术方案:
一种具有语音和图像识别功能的向导机器人,具体包括:语音输入单元,图像采集单元,触摸输入单元,语音处理单元,图像处理单元,文本处理单元,决策单元,运动控制单元,存储单元和输出单元;
所述语音输入单元用于采集语音信息;
所述图像采集单元用于采集图像信息,所述图像采集单元采集的图像信息包括环境图像和人物图像;
所述触摸输入单元用于辅助用户输入;
所述语音处理单元用于接收语音输入单元采集的语音信息,对接收的语音信息进行处理,并将处理结果发送至决策单元;
所述图像处理单元用于接收图像采集单元采集的图像信息,对接收的图像信息进行处理,并将处理结果发送至决策单元;
所述文本处理单元用于接收触摸输入单元的输入,对接收的信息进行处理,并将处理结果发送至决策单元;
所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息,综合上述信息确定机器人的运动轨迹和需要输出的信息,并分别发送至运动控制单元和输出单元;
所述存储单元用于存储各种语言对应的景点相关信息,各种语种及对应幼儿、中小学生、成年人和老年人四种不同人群的声音及图像模板,所述景点相关信息进一步包括景点地图,针对该景点的简单问题及对应的答案,对各种语种及对应幼儿,中小学生,成年人和老年人四种不同人群的景点的向导信息,所述向导信息进一步包括语音和图像信息;
所述输出单元包括语音播放器及显示屏,用于输出景点信息。
所述语音处理单元用于接收语音输入单元采集的语音信息,对接收的语音信息进行处理的具体步骤如下:
针对采集到的语音信息进行预处理,所述预处理包括确定声源主体,滤除噪声和语音增强;
针对预处理后的语音数据进行语音分析和识别,确定语种和用户年龄段,所述年龄段包括幼儿,中小学生,成年人和老年人。
所述预处理后的语音数据进行语音分析和识别的具体步骤如下:针对预处理后的语音信息进行分帧处理,每帧长为25ms,对分帧数据进行加汉明窗处理,针对处理后的语音数据进行特征提取,确定基频和MFCC系数,将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对,选择匹配概率最高的语种和用户年龄段作为最终匹配结果。
所述图像处理单元基于图像采集单元采集的环境图像生成地图信息,并将该地图信息发送至决策单元。
所述图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下:基于采集到的人物图像确定用户身高信息,同时提取人脸区域,针对提取的人脸区域图像进行预处理,所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理;针对预处理后的人脸图像进行特征提取,提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征,将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对,选择匹配概率最高的用户年龄段作为最终匹配结果。
所述文本处理单元用于接收触摸输入单元的输入,输入信息包括语种和/或年龄段,还可输入与景区相关的问题,文本处理单元将用户输入的问题进行文本处理后发送至决策单元。
所述决策单元接收图像处理单元发送的地图信息,将该地图信息与存储单元中预先存储的地图信息进行匹配,基于预设的路径规划算法进行路径规划,并将规划后的路径发送至运动控制单元。
所述决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2,根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2,确定匹配结果M1和M2的可信度r1和r2,其中基于匹配结果和可信度确定最终用户所属年龄段,其公式如下:Age=r1*M1+r2*M2。
所述决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段,在存储单元预先存储的语音数据中选择合适该用户类型的语音信息,并通过输出单元进行输出。
所述语音输入单元为麦克风,所述图像采集单元为摄像头,所述触摸输入单元为可触摸式显示屏。
与现有技术相比,本发明的有益效果是:
该具有语音和图像识别功能的向导机器人,能够通过采集用户的语音信息、图像信息以及用户输入的辅助信息,自主判断用户类型,并基于用户的类型选择合适的信息输出形式,能够实现针对不同的用户群体提供特定的向导服务。同时向导机器人能够针对用户的提问实现与用户的简单交流。
附图说明
图1本发明实施例的一种具有语音识别和图像识别功能的向导机器人的结构框图;
图2本发明实施例的一种通过语音确定用户年龄段的方法流程图;
图3本发明实施例的一种通过图像确定用户年龄段的方法流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种具有语音识别和图像识别功能的向导机器人,包括语音输入单元,图像采集单元,触摸输入单元,语音处理单元,图像处理单元,文本处理单元,决策单元,运动控制单元,存储单元和输出单元;
所述语音输入单元用于采集语音信息;
所述图像采集单元用于采集图像信息;
所述图像采集单元采集的图像信息包括环境图像和人物图像;
所述触摸输入单元用于辅助用户输入;
所述语音处理单元用于接收语音输入单元采集的语音信息,对接收的语音信息进行处理,并将处理结果发送至决策单元;
由于景区环境比较嘈杂,因此针对采集到的语音信息需要进行预处理,所述预处理包括确定声源主体,滤除噪声和语音增强;
针对预处理后的语音数据进行语音分析和识别,确定语种和用户年龄段,所述语种包括中文,英文,法文等常用语种,所述年龄段包括幼儿,中小学生,成年人和老年人;
具体语音分析和识别过程包括,针对预处理后的语音信息进行分帧处理,每帧长为25ms,对分帧数据进行加汉明窗处理。针对处理后的语音数据进行特征提取,确定基频和MFCC系数,将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对,选择匹配概率最高的语种和用户年龄段作为最终匹配结果。
基频是指声带随气流周期性振动的频率,基频也是自然语言中频率最低的分量,不同的性别、年龄之间,基频有较大的差异,如幼儿的基频高于成年人,梅尔频率倒谱系数MFCC可以体现语音信号的能量在不同频域范围的分布,是基于人耳的听觉特征提取的参数,通常根据主观经验也可判断出说话人的大致年龄,而且,MFCC包含了一些听觉以外的信息,因此,根据MFCC可以对说话人的年龄进行估计。
所述MFCC参数的具体获取流程如下:
对采集的语音信息进行归一化处理,得到矩阵形式的数据;
对矩阵形式的数据进行FFT变换,得到短时能量谱Xn(k);
构建滤波器对所述短时能量谱进行滤波处理,得到系数m(i),其中p为滤波器个数,Hi(k)为第i个滤波器,
其中,f[i]是第i个滤波器的中心频率,满足每个滤波器的起始频率与邻近滤波器的中心频率相同;
对滤波器的输出求对数能量,最后进行DCT变换,得到MFCC参数:
所述图像处理单元用于接收图像采集单元采集的图像信息,对接收的图像信息进行处理,并将处理结果发送至决策单元;
图像处理单元基于图像采集单元采集的环境图像生成地图信息,并将该地图信息发送至决策单元;
图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段;
图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下:
基于采集到的人物图像确定用户身高信息,同时提取人脸区域,针对提取的人脸区域图像进行预处理,所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理。
针对预处理后的人脸图像进行特征提取,提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征,将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对,选择匹配概率最高的用户年龄段作为最终匹配结果。
所述文本处理单元用于接收触摸输入单元的输入,对接收的信息进行处理,并将处理结果发送至决策单元;
用户可通过触摸输入单元输入语种和年龄段,还可输入与景区相关的问题,文本处理单元将用户输入的问题进行文本处理后发送至决策单元;
所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息,综合上述单元的信息确定机器人的运动轨迹和需要输出的信息,并分别发送至运动控制单元和输出单元;
决策单元接收图像处理单元发送的地图信息,将该地图信息与存储单元中预先存储的地图信息进行匹配,基于预设的路径规划算法进行路径规划,并将规划后的路径发送至运动控制单元;
决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2,根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2,确定匹配结果M1和M2的可信度r1和r2,其中基于匹配结果和可信度确定最终用户所属年龄段,其公式如下:Age=r1*M1+r2*M2。
决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段,在存储单元预先存储的语音数据中选择合适该用户类型的语音信息,并通过输出单元进行输出。
所述运动控制单元用于接收决策单元发送的路径信息,并基于该信息控制向导机器人的运动轨迹;
所述存储单元用于存储各种语言对应的景点相关信息,各种语种及对应幼儿、中小学生、成年人和老年人四种不同人群的声音及图像模板,所述景点相关信息进一步包括景点地图,针对该景点的简单问题及对应的答案,对各种语种及对应幼儿,中小学生,成年人和老年人四种不同人群的景点的向导信息,所述向导信息进一步包括语音和图像信息;
所述决策单元可将文本处理单元或语音处理单元发送的用户问题与存储单元预先存储的针对该景点的简单问题进行匹配,将对应答案发送至输出单元进行输出。
所述输出单元包括语音播放器及显示屏,用于输出景点信息。
所述语音输入单元为麦克风。
所述图像采集单元为摄像头。
所述触摸输入单元为可触摸式显示屏。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的范围之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种具有语音和图像识别功能的向导机器人,具体包括:语音输入单元,图像采集单元,触摸输入单元,语音处理单元,图像处理单元,文本处理单元,决策单元,运动控制单元,存储单元和输出单元;
所述语音输入单元用于采集语音信息;
所述图像采集单元用于采集图像信息,所述图像采集单元采集的图像信息包括环境图像和人物图像;
所述触摸输入单元用于辅助用户输入;
所述语音处理单元用于接收语音输入单元采集的语音信息,对接收的语音信息进行处理,并将处理结果发送至决策单元;
所述图像处理单元用于接收图像采集单元采集的图像信息,对接收的图像信息进行处理,并将处理结果发送至决策单元;
所述文本处理单元用于接收触摸输入单元的输入,对接收的信息进行处理,并将处理结果发送至决策单元;
所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息,综合上述信息确定机器人的运动轨迹和需要输出的信息,并分别发送至运动控制单元和输出单元;
所述存储单元用于存储各种语言对应的景点相关信息,各种语种及对应幼儿、中小学生、成年人和老年人四种不同人群的声音及图像模板,所述景点相关信息具体包括景点地图,针对该景点的简单问题及对应的答案,对各种语种及对应幼儿,中小学生,成年人和老年人四种不同人群的景点的向导信息,所述向导信息具体包括语音和图像信息;
所述输出单元包括语音播放器及显示屏,用于输出景点信息。
2.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述语音处理单元用于接收语音输入单元采集的语音信息,对接收的语音信息进行处理的具体步骤如下:
针对采集到的语音信息进行预处理,所述预处理包括确定声源主体,滤除噪声和语音增强;
针对预处理后的语音数据进行语音分析和识别,确定语种和用户年龄段,所述年龄段包括幼儿,中小学生,成年人和老年人。
3.根据权利要求2所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述预处理后的语音数据进行语音分析和识别的具体步骤如下:针对预处理后的语音信息进行分帧处理,每帧长为25ms,对分帧数据进行加汉明窗处理,针对处理后的语音数据进行特征提取,确定基频和MFCC系数,将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对,选择匹配概率最高的语种和用户年龄段作为最终匹配结果。
4.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述图像处理单元基于图像采集单元采集的环境图像生成地图信息,并将该地图信息发送至决策单元。
5.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下:基于采集到的人物图像确定用户身高信息,同时提取人脸区域,针对提取的人脸区域图像进行预处理,所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理;针对预处理后的人脸图像进行特征提取,提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征,将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对,选择匹配概率最高的用户年龄段作为最终匹配结果。
6.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述文本处理单元用于接收触摸输入单元的输入,输入信息包括语种和/或年龄段,还可输入与景区相关的问题,文本处理单元将用户输入的问题进行文本处理后发送至决策单元。
7.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述决策单元接收图像处理单元发送的地图信息,将该地图信息与存储单元中预先存储的地图信息进行匹配,基于预设的路径规划算法进行路径规划,并将规划后的路径发送至运动控制单元。
8.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2,根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2,确定匹配结果M1和M2的可信度r1和r2,其中基于匹配结果和可信度确定最终用户所属年龄段,其公式如下:Age=r1*M1+r2*M2。
9.根据权利要求8所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段,在存储单元预先存储的语音数据中选择合适该用户类型的语音信息,并通过输出单元进行输出。
10.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人,其特征在于,所述语音输入单元为麦克风,所述图像采集单元为摄像头,所述触摸输入单元为可触摸式显示屏。
CN201910264736.2A 2019-04-03 2019-04-03 一种具有语音和图像识别功能的向导机器人 Active CN110070865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910264736.2A CN110070865B (zh) 2019-04-03 2019-04-03 一种具有语音和图像识别功能的向导机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910264736.2A CN110070865B (zh) 2019-04-03 2019-04-03 一种具有语音和图像识别功能的向导机器人

Publications (2)

Publication Number Publication Date
CN110070865A true CN110070865A (zh) 2019-07-30
CN110070865B CN110070865B (zh) 2021-07-13

Family

ID=67367006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910264736.2A Active CN110070865B (zh) 2019-04-03 2019-04-03 一种具有语音和图像识别功能的向导机器人

Country Status (1)

Country Link
CN (1) CN110070865B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569726A (zh) * 2019-08-05 2019-12-13 北京云迹科技有限公司 一种服务机器人的交互方法及***
CN110569806A (zh) * 2019-09-11 2019-12-13 上海软中信息***咨询有限公司 一种人机交互***
CN110797034A (zh) * 2019-09-23 2020-02-14 重庆特斯联智慧科技股份有限公司 一种用于老人及病患照料的自动语音视频识别对讲***
CN112287925A (zh) * 2020-10-19 2021-01-29 南京数件技术研究院有限公司 一种基于实时轨迹采集的数学判题***
CN112873201A (zh) * 2021-01-13 2021-06-01 北京方正数码有限公司 一种自动化流程机器人
CN113075956A (zh) * 2021-02-23 2021-07-06 广州城市职业学院 一种用于乡村旅游的地图机器人

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915000A (zh) * 2015-05-27 2015-09-16 天津科技大学 用于裸眼3d广告的多感知生物识别交互方法
CN108818569A (zh) * 2018-07-30 2018-11-16 浙江工业大学 面向公共服务场景的智能机器人***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915000A (zh) * 2015-05-27 2015-09-16 天津科技大学 用于裸眼3d广告的多感知生物识别交互方法
CN108818569A (zh) * 2018-07-30 2018-11-16 浙江工业大学 面向公共服务场景的智能机器人***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569726A (zh) * 2019-08-05 2019-12-13 北京云迹科技有限公司 一种服务机器人的交互方法及***
CN110569806A (zh) * 2019-09-11 2019-12-13 上海软中信息***咨询有限公司 一种人机交互***
CN110797034A (zh) * 2019-09-23 2020-02-14 重庆特斯联智慧科技股份有限公司 一种用于老人及病患照料的自动语音视频识别对讲***
CN112287925A (zh) * 2020-10-19 2021-01-29 南京数件技术研究院有限公司 一种基于实时轨迹采集的数学判题***
CN112873201A (zh) * 2021-01-13 2021-06-01 北京方正数码有限公司 一种自动化流程机器人
CN113075956A (zh) * 2021-02-23 2021-07-06 广州城市职业学院 一种用于乡村旅游的地图机器人

Also Published As

Publication number Publication date
CN110070865B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN110070865A (zh) 一种具有语音和图像识别功能的向导机器人
US11527174B2 (en) System to evaluate dimensions of pronunciation quality
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及***
CN105792752B (zh) 用于诊断和治疗语言相关障碍的计算技术
Sroka et al. Human and machine consonant recognition
CN107945790A (zh) 一种情感识别方法和情感识别***
WO2022121155A1 (zh) 基于元学习的自适应语音识别方法、装置、设备及介质
CN1787035A (zh) 聋哑人汉语发音计算机辅助学习方法
Grossinho et al. Robust phoneme recognition for a speech therapy environment
Přibil et al. GMM-based speaker gender and age classification after voice conversion
Vicsi et al. A multimedia, multilingual teaching and training system for children with speech disorders
CN110246518A (zh) 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质
CN110310644A (zh) 基于语音识别的智慧班牌交互方法
Lidestam et al. Visual phonemic ambiguity and speechreading
CN112017690B (zh) 一种音频处理方法、装置、设备和介质
Sabri et al. Phonological development in a bilingual Arabic–English-speaking child with bilateral cochlear implants: A longitudinal case study
CN116095357B (zh) 虚拟主播的直播方法、装置及***
Johar Paralinguistic profiling using speech recognition
CN116366872A (zh) 基于中之人和人工智能的直播方法、装置及***
Zellou et al. Clear speech in Tashlhiyt Berber: The perception of typologically uncommon word-initial contrasts by native and naive listeners
Senior et al. Liu vs. Liu vs. Luke? Name influence on voice recall
CN114708875A (zh) 一种音色切换方法及装置
Wiener et al. Evaluating the emergence of [ʋ] in modern spoken Mandarin
Guevara-Rukoz Decoding perceptual vowel epenthesis: Experiments & Modelling
CN114329040B (zh) 音频数据处理方法、装置、存储介质、设备及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant