CN108427548A

CN108427548A - 基于麦克风的用户交互方法、装置、设备及存储介质

Info

Publication number: CN108427548A
Application number: CN201810162174.6A
Authority: CN
Inventors: 李滨何
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-21

Abstract

本发明适用移动设备技术领域，提供了一种基于麦克风的用户交互方法、装置、设备及存储介质，该方法包括：当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头获取用户的嘴形图片；对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容；将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价，从而提高了交互内容的评价精确度，进而提高了用户体验。

Description

基于麦克风的用户交互方法、装置、设备及存储介质

技术领域

本发明属于移动设备技术领域，尤其涉及一种基于麦克风的用户交互方法、装置、设备及存储介质。

背景技术

随着电子技术的发展，手机、平板电脑、学***板电脑、学习机等移动设备蓝牙连接，在移动设备的蓝牙连接范围内，用户拿着无线麦克风可以随意走动着唱歌、朗读等，十分便捷。

目前，在个别场合(例如，利用麦克风的交互式学***板电脑或学***板电脑或学习机等移动终端上应用程序(App)的用户声音识别精确度不高，导致用户学习或玩乐过程中的答案评估的准确率降低，从而降低了麦克风的用户粘性。

发明内容

本发明的目的在于提供一种基于麦克风的用户交互方法、装置、设备及存储介质，旨在解决由于现有基于麦克风的用户交互内容评价结果不精确、用户体验不佳的问题。

一方面，本发明提供了一种基于麦克风的用户交互方法，所述方法包括下述步骤：

当检测到与麦克风连接的移动终端输出交互内容时，利用所述麦克风咪头上设置的摄像头获取用户的嘴形图片；

对所述嘴形图片中的嘴形进行识别，以得到所述嘴形对应的、所述用户输入的交互内容；

将所述用户输入的交互内容与预先存储的交互响应内容进行比对，根据所述比对结果对所述用户输入的交互内容进行评价。

另一方面，本发明提供了一种基于麦克风的用户交互装置，所述装置包括：

嘴形图片获取单元，用于当检测到与麦克风连接的移动终端输出交互内容时，利用所述麦克风咪头上设置的摄像头获取用户的嘴形图片；

嘴形识别单元，用于对所述嘴形图片中的嘴形进行识别，以得到所述嘴形对应的、所述用户输入的交互内容；以及

交互评价单元，用于将所述用户输入的交互内容与预先存储的交互响应内容进行比对，根据所述比对结果对所述用户输入的交互内容进行评价。

另一方面，本发明还提供了一种用户交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头获取用户的嘴形图片，对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容，将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价，从而提高了交互内容的评价精确度，进而提高了用户体验。

附图说明

图1是本发明实施例一提供的基于麦克风的用户交互方法的实现流程图；

图2是本发明实施例二提供的基于麦克风的用户交互方法的实现流程图；

图3是本发明实施例三提供的基于麦克风的用户交互装置的结构示意图；

图4是本发明实施例四提供的基于麦克风的用户交互装置的结构示意图；以及

图5是本发明实施例五提供的用户交互设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的基于麦克风的用户交互方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头获取用户的嘴形图片。

本发明实施例适用于利用麦克风进行交互的用户交互设备，用户交互设备要以为移动终端或包括移动终端的用户交互***。在本发明实施例中，麦克风咪头上设置有一个或多个摄像头，以用于获取用户的嘴部或唇部图片，麦克风可以为无线麦克风，通过蓝牙或其他无线连接方式与移动终端连接，移动终端可以通过显示屏输出交互内容，也可以通过扬声器输出交互内容。对应地，交互内容可以是图像、文字、语音等，例如，在英语学习场景下，交互内容可以为待跟读语句、待处理题目等。

优选地，当检测到与麦克风连接的移动终端输出交互内容时，对用户的语音输入进行监测，只有监测到用户的语音输入，才启动麦克风咪头上设置的摄像头，进而利用麦克风咪头上设置的摄像头获取用户的嘴形图片，从而降低麦克风的能耗。

在步骤S102中，对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容。

在本发明实施例中，对嘴形图片中的嘴部(或唇部)进行特征提取，以识别当前嘴形图片中的当前用户嘴形，将当前用户嘴形与预先存储的嘴形样品(特征)进行匹配，以得到当前用户嘴形对应的交互内容，例如，得到用户输入的英语单词、中文词语、歌声的音调、响度、音色和对应的歌词。具体地，可由与麦克风连接的移动终端对嘴形图片中的嘴形进行识别，也可通过该移动终端将嘴形图片发送给预设的服务器，最后由服务器对嘴形图片中的嘴形进行识别。

优选地，在嘴形识别得到嘴形对应的、用户输入的交互内容之后或同时，通过麦克风采集用户输入的交互内容语音，对交互内容语音进行识别，进而根据交互内容语音的识别结果对得到的交互内容进行修正，以得到修正后的、用户输入的交互内容，进一步提高了交互内容的识别精确度，进而提高了后续用户输入交互内容的评价精确度。

在步骤S103中，将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价。

在本发明实施例中，预先存储的交互响应内容为移动终端输出的交互内容对应的标准交互答案，在识别得到用户输入的交互内容后，将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价，实现了用户交互内容的自动评价，同时提高了交互内容的评价精确度，进而提高了用户体验。

作为示例地，例如，当移动终端输出待朗读英语单词时，用户读出该英语单词，此时麦克风咪头上设置的摄像头获取用户的嘴形图片，对嘴形图片中的嘴形进行识别，以得到用户读出的英语单词，将识别得到的用户英语单词与移动终端输出的英语单词进行比对，根据比对结果对用户的英语读写水平进行自动评价。

进一步地，可通过移动终端的显示屏或扬声器输出评价结果，以便于用户了获取评价结果。

实施例二：

图2示出了本发明实施例二提供的基于麦克风的用户交互方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头拍摄用户的嘴形变化视频，将嘴形变化视频发送给移动终端。

本发明实施例适用于利用麦克风进行交互的用户交互***，该用户交互***包括麦克风、移动终端以及云服务器，麦克风与移动终端无线连接，移动终端与云服务器无线连接。在本发明实施例中，麦克风咪头上设置有一个或多个摄像头，以用于获取用户的嘴部或唇部图片，麦克风通过蓝牙或其他无线连接方式与移动终端连接，移动终端可以通过显示屏输出交互内容，也可以通过扬声器输出交互内容。对应地，交互内容可以是图像、文字、语音等，例如，在英语学习场景下，交互内容可以为待跟读语句、待处理题目等。

优选地，当检测到与麦克风连接的移动终端输出交互内容时，对用户的语音输入进行监测，只有监测到用户的语音输入，才启动麦克风咪头上设置的摄像头，从而降低麦克风的能耗。

在步骤S202中，通过移动终端将嘴形变化视频发送给预设的云服务器，云服务器从嘴形变化视频获取用户的嘴形图片。

在本发明实施例中，在获取用户嘴形图片时，利用麦克风咪头上设置的摄像头拍摄用户的嘴形变化视频，将嘴形变化视频通过移动终端发送给预设的云服务器，进而通过云服务器从嘴形变化视频获取用户的嘴形图片，从而利用云服务器获取用户的嘴形图片，降低了移动终端的硬件开销。具体地，在云服务器从嘴形变化视频获取用户的嘴形图片时，可将嘴形变化视频分割为镜头，再提取每个镜头中的关键帧，进而得到用户的嘴形图片。

在步骤S203中，云服务器对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容。

在本发明实施例中，在云服务器获取用户的嘴形图片后，对嘴形图片中的嘴部(或唇部)进行特征提取，以识别当前嘴形图片中的当前用户嘴形，将当前用户嘴形与预先存储的嘴形样品(特征)进行匹配，以得到当前用户嘴形对应的交互内容，例如，输入的英语单词、中文词语、歌声的音调、响度、音色和对应的歌词。

优选地，在嘴形识别得到嘴形对应的、用户输入的交互内容之后或同时，云服务器通过麦克风采集用户输入的交互内容语音，对交互内容语音进行识别，进而根据交互内容语音的识别结果对嘴形识别得到的交互内容进行修正，以得到修正后的、用户输入的交互内容，进一步提高交互内容的识别精确度，进而提高后续用户输入交互内容的评价精确度。

在步骤S204中，云服务器将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价。

在本发明实施例中，预先存储的交互响应内容为移动终端输出的交互内容对应的标准交互答案，在识别得到用户输入的交互内容后，云服务器将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价，实现了用户交互内容的自动评价，同时提高了交互内容的评价精确度，进而提高了用户体验。

在步骤S205中，云服务器评价结果发送给移动终端，通过移动终端输出该评价结果。

在本发明实施例中，当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头获取用户的嘴形图片，对嘴形图片中的嘴形进行识别，同时通过麦克风采集用户输入的交互内容语音，对交互内容语音进行识别，根据交互内容语音的识别结果对嘴形识别得到的交互内容进行修正，以得到修正后的、用户输入的交互内容，将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价，从而提高了交互内容的识别结果以及后续交互内容的评价精确度，进而提高了麦克风的使用体验。

实施例三：

图3示出了本发明实施例三提供的基于麦克风的用户交互装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，基于麦克风的用户交互装置包括嘴形图片获取单元31、嘴形识别单元32以及交互评价单元33，其中：

嘴形图片获取单元31，用于当检测到与麦克风连接的移动终端输出交互内容时，利用麦克风咪头上设置的摄像头获取用户的嘴形图片。

在本发明实施例中，麦克风咪头上设置有一个或多个摄像头，以用于获取用户的嘴形或唇部图片，麦克风可以为无线麦克风，通过蓝牙或其他无线连接方式与移动终端连接，移动终端可以通过显示屏输出交互内容，也可以通过扬声器输出交互内容。对应地，交互内容可以是图像、文字、语音等，例如，在英语学习场景下，交互内容可以为待跟读语句、待处理题目等。

嘴形识别单元32，用于对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容。

在本发明实施例中，对嘴形图片中的嘴部(或唇部)进行特征提取，以识别当前嘴形图片中的当前用户嘴形，将当前用户嘴形与预先存储的嘴形样品(特征)进行匹配，以得到当前用户嘴形对应的交互内容，例如，输入的英语单词、中文词语、歌声的音调、响度、音色和对应的歌词。具体地，可由与麦克风连接的移动终端对嘴形图片中的嘴形进行识别，也可通过该移动终端将嘴形图片发送给预设的服务器，最后由服务器对嘴形图片中的嘴形进行识别。

优选地，在嘴形识别得到嘴形对应的、用户输入的交互内容之后，通过麦克风采集用户输入的交互内容语音，对交互内容语音进行识别，进而根据交互内容语音的识别结果对得到的交互内容进行修正，以得到修正后的、用户输入的交互内容，进一步提高了交互内容的识别精确度，进而提高了后续用户输入交互内容的评价精确度。

交互评价单元33，用于将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价。

在本发明实施例中，基于麦克风的用户交互装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例四：

图4示出了本发明实施例四提供的基于麦克风的用户交互装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

摄像头启动单元41，用于当检测到与麦克风连接的移动终端输出交互内容时，对用户的语音输入进行监测，到监测到用户的语音输入时，启动麦克风咪头上设置的摄像头；

嘴形图片获取单元42，利用麦克风咪头上设置的摄像头获取用户的嘴形图片；

嘴形识别单元43，用于对嘴形图片中的嘴形进行识别，以得到嘴形对应的、用户输入的交互内容；

语音识别单元44，用于通过麦克风采集用户输入的交互内容语音，对交互内容语音进行识别；

内容修正单元45，用于根据交互内容语音的识别结果对嘴形识别得到的交互内容进行修正，以得到修正后的、用户输入的交互内容；以及

交互评价单元46，用于将用户输入的交互内容与预先存储的交互响应内容进行比对，根据比对结果对用户输入的交互内容进行评价。

优选地，嘴形图片获取单元42包括：

视频获取单元421，用于利用麦克风咪头上设置的摄像头拍摄用户的嘴形变化视频，将嘴形变化视频通过移动终端发送给预设的云服务器；以及

图片获取单元422，用于云服务器从嘴形变化视频获取用户的嘴形图片。

在本发明实施例中，基于麦克风的用户交互装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施二的描述，在此不再赘述。

实施例五：

图5示出了本发明实施例五提供的用户交互设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的用户交互设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个用户交互方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

本发明实施例的用户交互设备可以为移动终端或包括移动终端的交互***。该用户交互设备5中处理器50执行计算机程序52时实现用户交互方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例六：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述用户交互方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于麦克风的用户交互方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，将所述用户输入的交互内容与预先存储的交互响应内容进行比对的步骤之前，所述方法还包括：

通过所述麦克风采集所述用户输入的交互内容语音，对所述交互内容语音进行识别；

根据所述交互内容语音的识别结果对所述得到的交互内容进行修正，以得到修正后的、所述用户输入的交互内容。

3.如权利要求1所述的方法，其特征在于，当检测到与麦克风连接的移动终端输出交互内容时，利用所述麦克风咪头上设置的摄像头获取用户的嘴形图片的步骤之前，所述方法还包括：

对所述用户的语音输入进行监测，到监测到所述用户的语音输入时，启动所述麦克风咪头上设置的所述摄像头。

4.如权利要求1所述的方法，其特征在于，利用所述麦克风咪头上设置的摄像头获取用户的嘴形图片的步骤，包括：

利用所述麦克风咪头上设置的所述摄像头拍摄所述用户的嘴形变化视频，将所述嘴形变化视频通过所述移动终端发送给预设的云服务器；

所述云服务器从所述嘴形变化视频获取所述用户的嘴形图片。

5.一种基于麦克风的用户交互装置，其特征在于，所述装置包括：

6.如权利要求5所述的用户交互装置，其特征在于，所述装置还包括：

语音识别单元，用于通过所述麦克风采集所述用户输入的交互内容语音，对所述交互内容语音进行识别；以及

内容修正单元，用于根据所述交互内容语音的识别结果对所述得到的交互内容进行修正，以得到修正后的、所述用户输入的交互内容。

7.如权利要求5所述的用户交互装置，其特征在于，所述装置还包括：

摄像头启动单元，用于对所述用户的语音输入进行监测，到监测到所述用户的语音输入时，启动所述麦克风咪头上设置的所述摄像头。

8.如权利要求5所述的用户交互装置，其特征在于，所述嘴形图片获取单元包括：

视频获取单元，用于利用所述麦克风咪头上设置的所述摄像头拍摄所述用户的嘴形变化视频，将所述嘴形变化视频通过所述移动终端发送给预设的云服务器；以及

图片获取单元，用于所述云服务器从所述嘴形变化视频获取所述用户的嘴形图片。

9.一种用户交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。