CN108172226A

CN108172226A - 一种可学习应答语音和动作的语音控制机器人

Info

Publication number: CN108172226A
Application number: CN201810079661.6A
Authority: CN
Inventors: 李博
Original assignee: Shanghai Meng Wang Intelligent Technology Co Ltd
Current assignee: Shanghai Meng Wang Intelligent Technology Co Ltd
Priority date: 2018-01-27
Filing date: 2018-01-27
Publication date: 2018-06-15

Abstract

本申请文件的一个实施例公开了一种可学习应答语音的语音控制机器人，包括语音识别单元、提问语记录单元、应答语记录单元、语音映射单元、语音匹配单元、语音调用单元，所述语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割，产生前语和后语，将前语作为提问语，写入所述提问语记录单元，将后语作为应答语，写入所述应答语记录单元，语音映射单元记录提问语和应答语的映射关系，语音识别单元识别控制者的控制语音，语音匹配单元在提问语记录单元中匹配出与控制语音最佳匹配的提问语，语音调用单元根据语音映射单元记录的提问语和应答语的映射关系，调用与提问语有映射关系的应答语，机器人的语音输出单元播放应答语。

Description

一种可学习应答语音和动作的语音控制机器人

技术领域

本申请文件属于机器人技术领域，具体地，涉及一种可学习应答语音和动作的语音控制机器人。

技术背景

目前很多类型的家用服务机器人都具有一定的语音识别能力，开发者利用其语音识别能力，为机器人增加了语音控制、问题应答等功能，但这类功能一般都由开发者定制，无法满足普通用户的多样化需求。例如，普通用户可能会希望机器人对一个问题有一个特殊的回答方式，而机器人通常只会通过联网搜索一个给定的答案。再例如，普通用户希望用自己的语音来控制机器人做一系列动作，可是目前只能用基本的“向前走”、“向左转”、“伸出手臂”的已定制好的控制语音。本申请所述技术方案可以部分地解决上述两种使用场景中的问题。

发明内容

【一】为了能让普通用户根据自己的实际情况，让机器人对一定的问题作出特定的回答，或对一般的话语作出特定的响应，本申请文件的技术方案公开了一种可学习应答语音的语音控制机器人。

所述可学习应答语音的语音控制机器人，包括语音识别单元、提问语记录单元、应答语记录单元、语音映射单元，所述语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割，产生前语和后语，将前语作为提问语，写入所述提问语记录单元，将后语作为应答语，写入所述应答语记录单元，所述语音映射单元记录提问语和应答语的映射关系。

所述可学习应答语音的语音控制机器人，还包括语音匹配单元、语音调用单元，所述语音识别单元识别控制者的控制语音，所述语音匹配单元在提问语记录单元中匹配出与控制语音最佳匹配的提问语，所述语音调用单元根据所述语音映射单元记录的提问语和应答语的映射关系，调用与提问语有映射关系的应答语，机器人的语音输出单元播放应答语。

本申请文件的技术方案还公开了一种语音控制方法，应用于上述机器人，包括如下步骤：

S101，语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割，产生前语和后语，将前语作为提问语，写入提问语记录单元，将后语作为应答语，写入所述应答语记录单元；

S102，所述语音映射单元记录提问语和应答语的映射关系；

S201，语音识别单元识别控制者的控制语音，语音匹配单元在提问语记录单元中匹配出与控制语音最佳匹配的提问语；

S202，语音调用单元根据所述语音映射单元记录的提问语和应答语的映射关系，调用与提问语有映射关系的应答语；

S203，机器人的语音输出单元播放应答语。

【二】为了能让普通用户根据自己的实际情况，让机器人响应一定的控制语音，作出特定的动作或动作序列，本申请文件的技术方案公开了一种可学习动作的语音控制机器人。

所述可学习动作的语音控制机器人，包括语音识别单元、语音记录单元、动作识别单元、动作记录单元和信息映射单元，所述语音识别单元识别训练者的训练语音，所述语音记录单元记录训练语音，所述动作识别单元识别训练者的训练动作，得到训练动作特征参数表，所述动作记录单元记录训练动作特征参数表，所述信息映射单元记录训练语音和训练动作特征参数表的映射关系。

所述可学习动作的语音控制机器人，还包括语音匹配单元、动作调用单元、动作模拟单元，所述语音识别单元识别控制者的控制语音，得到控制语音信息，所述语音匹配单元在所述语音记录单元中匹配出与控制语音最佳匹配的训练语音，所述动作调用单元根据所述信息映射单元记录的训练语音和训练动作特征参数表的映射关系，调用与训练语音有映射关系的训练动作特征参数表，所述动作模拟单元根据训练动作特征参数表做出模拟动作。

所述可学习动作的语音控制机器人，其语音识别单元、语音匹配单元、动作调用单元和动作模拟单元可对一序列连贯的控制语音做处理，做出一序列连贯的模拟动作。

S301，语音识别单元识别训练者的训练语音，语音记录单元记录训练语音；

S302，动作识别单元识别训练者的训练动作，得到训练动作特征参数表，动作记录单元记录训练动作特征参数表；

S303，信息映射单元记录训练语音和训练动作特征参数表的映射关系；

S401，语音识别单元识别控制者的控制语音，语音匹配单元在语音记录单元中匹配出与控制语音最佳匹配的训练语音；

S402，动作调用单元根据所述信息映射单元记录的训练语音和训练动作特征参数表的映射关系，调用与训练语音有映射关系的训练动作特征参数表；

S403，动作模拟单元根据训练动作特征参数表做出模拟动作。

上述步骤中，S301、S302、S303可先实施多次，使得信息映射单元记录多个训练语音和训练动作特征参数表的映射关系。

上述步骤S401中，若对一句控制语音识别和匹配出多个训练语音，形成一个序列的训练语音，则步骤S402、S404会实施多次。因此，所述语音识别单元、语音匹配单元、动作调用单元和动作模拟单元可对一序列连贯或非连贯的控制语音做处理，做出一序列连贯或非连贯的模拟动作。

附图说明

图1为实施例1的机器人示意图；

图2为实施例2的机器人示意图。

具体实施方式

为了使得本发明的技术特征更加明确、直观，下面结合附图对实施例进行描述，本领域的技术人员应当明了，这些实施例只是示例性质的，并非对本发明技术方案的限制，而且部分实施例可以相互组合，或者与其他已知技术方案结合。

【实施例1】

为了能让普通用户根据自己的实际情况，让机器人对一定的问题作出特定的回答，或对一般的话语作出特定的响应，本实施例公开了一种可学习应答语音的语音控制机器人。

所述可学习应答语音的语音控制机器人，包括语音识别单元、提问语记录单元、应答语记录单元、语音映射单元。所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。多个单元可以结合或者集成在软件和硬件上，或一些特征可以忽略，或不执行。本领域的技术人员可理解，所述单元可能由硬件或软件的形式实现，或软件和硬件结合的形式实现。

所述语音识别单元包括语音感应器件，也包括语音识别软件或语音识别芯片。当训练者发出语音，语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割，产生前语和后语。所述分割算法有多种。

例如，训练者发出语音“如果有人问你‘你叫什么名字’，你就回答‘我叫大萌王’”，语音识别单元识别出语音段A“如果有人问你”和语音段C“你就回答”，则根据语音分割算法将语音段A和C之间的语音段B“你叫什么名字”记为前语，将语音段C之后的语音段D“我叫大萌王”作为后语。

再例如，训练者为两人，一人提问“小朋友今天去上学了吗”，一人作答“去阿姨家玩耍了”，则预设的分割算法可以根据提问者和作答者的声纹信息或声音的距离信息等语音特征信息将“小朋友今天去上学了吗”作为前语，将“去阿姨家玩耍了”作为后语。

再例如，训练者在发出语音“我很爱你”的同时按着机器人本体上的“前语”按键，在发出语音“我也爱你”的同时按着机器人本体上的“后语”按键，则预设的分割算法只需根据按键的不同，将“我很爱你”作为前语，将“我也爱你”作为后语。

可选的，上述“前语”、“后语”为录制的语音；可选的，上述“前语”、“后语”为电子化的字、词或句子，所述字、词和句子是从原始语音转换而来的。

语音识别单元将前语作为提问语，写入所述提问语记录单元，将后语作为应答语，写入所述应答语记录单元，所述语音映射单元记录提问语和应答语的映射关系。

优选的，提问语记录单元为有每个提问语的标号的语音文件组成的数据库；

优选的，应答语记录单元为有每个应答语的标号的语音文件组成的数据库；

优选的，提问语记录单元为电子化的文本表格文件，其中记录了训练得到的每一句提问语；

优选的，应答语记录单元为电子化的文本表格文件，其中记录了训练得到的每一句应答语。

优选的，所述语音映射单元为表格文件，其中记录了提问语记录单元和应答语记录单元中每一对有映射关系的提问语和应答语之间的索引。

优选的，提问语和应答语利用其文件名或索引号形成映射或索引关系。

优选的，在生成提问语和应答语时，若提问语记录单元已有相同提问语，而应答语记录单元有不同的应答语时，用新生成的应答语更新应答语记录单元中旧有的应答语。

所述可学习应答语音的语音控制机器人，还包括语音匹配单元、语音调用单元。

当训练完成后，控制者即可通过语音与机器人进行交互。前述语音识别单元识别控制者的控制语音，语音匹配单元在提问语记录单元中匹配出与控制语音最佳匹配的提问语，所述语音调用单元根据所述语音映射单元记录的提问语和应答语的映射、索引关系，调用与提问语有映射、索引关系的应答语，机器人的语音输出单元播放应答语。

例如：

控制者发出语音“你叫什么名字”或“你的名字是”，语音识别单元识别出控制语音“你叫什么名字”或“你的名字是”，语音匹配单元在提问语记录单元中匹配出最接近的提问语“你叫什么名字”。语音调用单元为语音或文本处理软件及软件赖以运行的硬件资源。语音调用单元读取匹配出的提问语的文件名或索引号，根据语音映射单元中提问语和应答语的映射、索引关系，获取到应答语“我叫大萌王”。机器人的语音输出单元播放应答语“我叫大萌王”。

本实施例还公开了一种语音控制方法，应用于上述机器人，包括如下步骤：

S101，语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割成前语和后语，将前语作为提问语，写入提问语记录单元，将后语作为应答语，写入所述应答语记录单元；

S102，所述语音映射单元记录提问语和应答语的映射、索引关系；

S202，语音调用单元根据所述语音映射单元记录的提问语和应答语的映射、索引关系，调用与提问语有映射、索引关系的应答语；

S203，机器人的语音输出单元播放应答语。

本属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法中，机器人所属的各个功能单元的具体特性和工作过程，可以参考前述***实施例中的对应情况，在此不再赘述。

【实施例2】

为了能让普通用户根据自己的实际情况，让机器人响应一定的控制语音，作出特定的动作或动作序列，本实施例公开了一种可学习动作的语音控制机器人。

所述可学习动作的语音控制机器人，包括语音识别单元、语音记录单元、动作识别单元、动作记录单元和信息映射单元、语音匹配单元、动作调用单元、动作模拟单元。所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。多个单元可以结合或者集成在软件和硬件上，或一些特征可以忽略，或不执行。本领域的技术人员可理解，所述单元可能由硬件或软件的形式实现，或软件和硬件结合的形式实现。

所述语音识别单元包括语音感应器件，也包括语音识别软件和\或语音识别芯片。当训练者在语音识别单元的作用范围内发出语音，语音识别单元识别训练者的训练语音，所述语音记录单元记录训练语音。

所述动作识别单元包括图像感应器件，也包括图像识别软件和\或图像识别芯片。当训练者在动作识别单元的作用范围内做出动作，动作识别单元识别训练者的训练动作，得到训练动作特征参数表，所述动作记录单元记录训练动作特征参数表。

所述信息映射单元记录训练语音和训练动作特征参数表的映射、索引关系。

训练者可以通过语音、按键等方式开启机器人的训练模式，输入成对的训练语音和训练动作。

例如：

训练者可以说出起始语音“开始训练”，机器人的语音识别模块识别出“开始训练”，则机器人控制***启动机器人的训练模式；

当机器人进入训练模式时，训练者先说出一段训练语音，例如，“跳一支我1月25日练习好的舞蹈”，机器人语音识别单元识别训练者的训练语音“跳一支我1月25日练习好的舞蹈”，语音记录单元记录训练语音，之后机器人通过语音、屏幕、动作或指示灯提示训练者开始做训练动作；

训练者作出一段训练动作，即跳出一支1月25日训练好的舞蹈，动作识别单元识别训练者的训练动作，得到训练动作特征参数表，即图像识别软件和\或图像识别芯片对图像感应器件摄取的训练者的影像进行处理，得到训练者肢体各组成部分在一序列时刻的空间状态，将每一时刻肢体各部分的空间状态用坐标、角度等参数记录，形成时间序列的训练动作参数表，动作记录单元记录训练动作特征参数表，在实际情况下，动作记录单元管理着多个训练动作特征参数表文件；

当训练动作结束后，训练者说出末尾语音“结束训练”，机器人的语音识别模块识别出“结束训练”，信息映射单元记录新获得的训练语音和新获得的训练动作特征参数表的映射、索引关系，机器人控制***关闭训练模式。

在训练完成后，控制者即可通过语音控制机器人做出与语音有映射、索引关系的动作。

控制者发出控制语音，例如，“跳一支我1月25日练习好的舞蹈”或“跳我1月训练的舞蹈”，上述语音识别单元识别控制者的控制语音“跳一支我1月25日练习好的舞蹈”或“跳舞1月训练的舞蹈”，所述语音匹配单元在所述语音记录单元中匹配出与控制语音最佳匹配的训练语音“跳一支我1月25日练习好的舞蹈”，所述动作调用单元根据所述信息映射单元记录的训练语音和训练动作特征参数表的映射、索引关系，调用与训练语音有映射、索引关系的训练动作特征参数表。

所述动作模拟单元包括运动控制软件、处理器、拟人机械结构等，其拟人机械结构可以和训练者的肢体各部分一一对应，根据训练动作特征参数表中的每一时刻肢体各部分的坐标、角度等参数，运动控制软件在处理器等硬件资源的协助下，使得拟人机械机构的各部分模拟肢体各部分，合力做出全身模仿动作，模仿之前的训练者“跳一支我1月25日练习好的舞蹈”。

例如，训练者通过发出训练语音和作出训练动作，分别让机器人获取了训练语音“向左转”、“向前走五步”、“向右转”相应的训练动作特征参数表及映射、索引关系，则控制者可发出“向左转，向前走五步，再向右转”的控制语音，语音识别单元识别控制者的控制语音，语音匹配单元在语音记录单元中匹配出与控制语音最佳匹配的训练语音，根据三个已知的训练语音“向左转”、“向前走五步”、“向右转”，将控制语音分割成按顺序的三个控制语音，最终按先后次序分别调用与三个训练语音有映射关系的三个训练动作特征参数表，动作模拟单元根据三个训练动作特征参数表的先后次序做出连贯的模拟动作。

S403，动作模拟单元根据训练动作特征参数表做出模拟动作。

上述步骤S401中，若对一句控制语音识别和匹配出多个训练语音，形成一个序列的训练语音，则步骤S402、S404会实施多次。

所述语音识别单元、语音匹配单元、动作调用单元和动作模拟单元可对一序列连贯或非连贯的控制语音做处理，做出一序列连贯或非连贯的模拟动作。

以上实施例仅用以说明本申请文件的技术方案，而非对其技术方案进行限制，本领域的技术人员可理解，对前述各实施例所记载的技术方案进行非创造性修改所获得的技术方案，或者对其中部分技术特征进行等同替换所获得的技术方案，并不使其本质脱离本申请文件所述的技术方案的范围。

Claims

1.一种可学习应答语音的语音控制机器人，其特征在于，包括语音识别单元、提问语记录单元、应答语记录单元、语音映射单元，所述语音识别单元识别训练者的训练语音，根据预设的分割算法，将训练语音分割，产生前语和后语，将前语作为提问语，写入所述提问语记录单元，将后语作为应答语，写入所述应答语记录单元，所述语音映射单元记录提问语和应答语的映射关系。

2.如权利要求1的机器人，其特征在于，还包括语音匹配单元、语音调用单元，所述语音识别单元识别控制者的控制语音，所述语音匹配单元在提问语记录单元中匹配出与控制语音最佳匹配的提问语，所述语音调用单元根据所述语音映射单元记录的提问语和应答语的映射关系，调用与提问语有映射关系的应答语，机器人的语音输出单元播放应答语。

3.一种语音控制方法，其特征在于，包括如下步骤：

S102，所述语音映射单元记录提问语和应答语的映射关系。

4.如权利要求6的语音控制方法，其特征在于，还包括如下步骤：

S203，机器人的语音输出单元播放应答语。

5.一种可学习动作的语音控制机器人，其特征在于，包括语音识别单元、语音记录单元、动作识别单元、动作记录单元和信息映射单元，所述语音识别单元识别训练者的训练语音，所述语音记录单元记录训练语音，所述动作识别单元识别训练者的训练动作，得到训练动作特征参数表，所述动作记录单元记录训练动作特征参数表，所述信息映射单元记录训练语音和训练动作特征参数表的映射关系。

6.如权利要求5的机器人，其特征在于，还包括语音匹配单元、动作调用单元、动作模拟单元，所述语音识别单元识别控制者的控制语音，所述语音匹配单元在所述语音记录单元中匹配出与控制语音最佳匹配的训练语音，所述动作调用单元根据所述信息映射单元记录的训练语音和训练动作特征参数表的映射关系，调用与训练语音有映射关系的训练动作特征参数表，所述动作模拟单元根据训练动作特征参数表做出模拟动作。

7.如权利要求6的机器人，其特征在于，所述语音识别单元、语音匹配单元、动作调用单元和动作模拟单元可对一序列的控制语音做处理，做出一序列的模拟动作。

8.一种语音控制方法，其特征在于，包括如下步骤：

S303，信息映射单元记录训练语音和训练动作特征参数表的映射关系。

9.如权利要求8的语音控制方法，其特征在于，还包括如下步骤：

S403，动作模拟单元根据训练动作特征参数表做出模拟动作。

10.如权利要求9的语音控制方法，其特征在于，

所述步骤S301、S302、S303可先实施多次，使得信息映射单元记录多个训练语音和训练动作特征参数表的映射关系；

所述步骤S401中，若对一句控制语音识别和匹配出多个训练语音，形成一个序列的训练语音，则步骤S402、S404会实施多次。