CN107527616A

CN107527616A - 智能识别方法及机器人

Info

Publication number: CN107527616A
Application number: CN201710910864.0A
Authority: CN
Inventors: 曾令江; 李承敏; 王文斌; 包振毅; 周金虎; 禹杰; 李亚军; 林虎; 安丽朋; 黄俊岚; 余登武
Original assignee: Shanghai Wind Communication Technologies Co Ltd
Current assignee: Shanghai Wind Communication Technologies Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2017-12-29

Abstract

本发明实施例涉及人工智能领域，公开了一种智能识别方法及机器人。本发明中，智能识别方法，应用于机器人，包括：接收发声者的语音信息，检测语音信息中是否包含标记信息；其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息；若语音信息包含标记信息，则将发声者判定为非自然人，使得机器人能够区分发声者是机器人还是自然人。

Description

智能识别方法及机器人

技术领域

本发明实施例涉及人工智能领域，特别涉及一种智能识别方法及机器人。

背景技术

人工智能(Artificial Intelligence，简称“AI”)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。

但是，发明人发现现有技术中至少存在如下问题：随着机器人愈加智能化，机器人的声音也越来越像自然人，当机器人的声音和自然人的声音已经听不出来区别时，机器人无法区分发声者是机器人还是自然人。

发明内容

本发明实施方式的目的在于提供一种智能识别方法及机器人，使得机器人能够区分发声者是机器人还是自然人。

为解决上述技术问题，本发明的实施方式提供了一种智能识别方法，包括：接收发声者的语音信息，检测语音信息中是否包含标记信息；其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息；若语音信息包含标记信息，则将发声者判定为非自然人。

本发明的实施方式还提供了一种机器人，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的智能识别方法。

本发明实施方式相对于现有技术而言，通过在接收到发声者的语音信息之后，对语音信息中是否包含标记信息进行检测，其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息，如果检测到语音信息包含标记信息，则将发声者判定为非自然人。由于每个机器人都会对将要发出的语音信息进行处理，使其发出的语音信息包含有标记信息，且所述标记信息不对语音信息的语义产生影响，使得机器人在接收到发声者的语音信息后，通过语音信息的检测对发声者是机器人还是自然人进行判定，若语音信息中包含有所述标记信息，则发声者为机器人；若语音信息中不包含所述标记信息，则发声者为自然人，达到区分发声者是机器人还是自然人的目的。

另外，叠加在语音信息中的信息，具体为：在以下区间之一或其任意组合中，叠加底噪：超声波、次声波、不在自然人发声极限的低频区间、不在自然人发声极限的高频区间。通过将底噪叠加在超声波、次声波、不在自然人发声极限的低频区间、不在自然人发声极限的高频区间中任意之一或其意组合中，使叠加在语音信息中的标记信息可以灵活多变的实现。

另外，标记信息位于语音信息的基音位置。由于一般的声音都是由发音者发出的一系列频率、振幅各不相同的振动复合而成的，这些振动中由频率最低的振动发出的音就是基音，其中，基音部分是最响亮而且容易识别的。因此，将标记信息位于语音信息的基音位置，这样做，有利于机器人对标记信息进行更加方便的识别。

另外，标记信息位于语音信息的基音位置和所有泛音位置。由于所有发声体发出的声音，除了一个基音外，还有许多不同频率(振动的速度)的泛音伴随，正是这些泛音决定了不同发声体的不同音色，这样我们就可以通过不同的音色去分辨不同的发声体。因此，将标记信息选择加入到语音信息的基音位置和所有泛音位置而不是仅将标记信息选择加入到语音信息的基音位置，可以更好的识别多个自然人或多个机器人说话的时候，这些泛音的归属主体。

另外，在将发声者判定为非自然人之后，还包括：对标记信息进行分析，获取发声者的身份信息。由于可以预先对不同的机器人在语音信息中叠加或删减信息时设定均不相同的处理规则，使得在机器人接收到包含标记信息的语音信息后，通过对标记信息进行分析，获知在语音信息中叠加或删减信息是按照何种规则进行处理的，进而根据所述规则逆向推出具体是发出语音信息的机器人的身份信息。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的一种智能识别方法的流程图；

图2是根据本发明第二实施方式中的一种智能识别方法的流程图；

图3是根据本发明第三实施方式中的一种机器人的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种智能识别方法。本实施方式的核心在于接收发声者的语音信息，检测语音信息中是否包含标记信息；其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息；若语音信息包含标记信息，则将发声者判定为非自然人。下面对本实施方式的一种智能识别方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本发明的第一实施方式涉及一种智能识别方法，应用于机器人，具体流程如图1所示，包括：

步骤101，接收发声者的语音信息。

具体的说，在机器人接收发声者的语音信息后，需要先判断是自然人发出的，还是非自然人发出的，然后再根据判定结果进行相应的操作。举例而言，如果是自然人发出的指令，机器人就可以根据该指令执行相应操作，但如果是机器人发出的指令，则机器人就不需要执行。比如，对于电视中或者录音机中发出的“给我倒杯水”的语音信息，机器人就不需要执行。因此，在接收到发声者的语音信息后，进入步骤102。

步骤102，检测语音信息中是否包含标记信息。其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息。若检测到语音信息中包含标记信息，则进入步骤103，即，将发声者判定为非自然人；否则，进入步骤104，将发声者判定为自然人。

具体的说，当标记信息为叠加在语音信息中的信息时，叠加在语音信息中的信息可以为底噪。也就是说，如果机器人接收到的语音信息中包含底噪，则可以将发声者判定为非自然人。优选的，为了使接收语音信息的机器人具体了解发出语音信息的机器人的身份信息，底噪可以为类似于“我是机器人，我型号是001，我说话了，这句话时长1分钟”的内容。其中，底噪与语音信息是同步进行的，即同时播放、同时停止。在发声者为机器人时，在机器人播放语音信息的时候，就将底噪和语音信息一起播放，如果机器人停止播放语音信息，则底噪也随之停止，当再有语音信息时，底噪也再次随之播放。当然，这里所说的底噪可以是预先录制的也可以是和语音信息合成的，此处不作具体限制。

其中，这里所说的叠加在语音信息中的信息，可以在超声波、次声波、不在自然人发声极限的低频区间或不在自然人发声极限的高频区间之一或其任意组合中叠加。也就是说，可以在超声波、次声波、不在自然人发声极限的低频区间或不在自然人发声极限的高频区间之一或其任意组合中叠加底噪。其中，将底噪叠加到不同的位置中，产生不同的效果，具体分析如下：

(1)将底噪叠加在超声波或次声波中。由于机器人之间可以发送和接收超声波或次声波，而自然人直接无法发送和接收超声波或次声波，因此通过这两种方式不会影响到用户的听感。但是缺点是自然人无法听到机器人发出的信息的具体内容。比如说，在机器人A发出的语音信息中，加入一个低于20赫兹的次声波，这个波段不参与说话的具体内容，当机器人在与发声者对话时，只需要检测到语音信息中包含次声波，就可以证明机器人目前在和机器人对话。

(2)将底噪叠加在不在自然人发声极限的低频区间或不在自然人发声极限的高频区间。由于将底噪增加到不在自然人发声极限的低频区间时(比如20赫兹至50赫兹之间)，自然人可以通过回放这段录音，将这段录音的频响区域的声音放大，就可以之间听到这个机器人所发出的信息的具体内容。将底噪增加到不在自然人发声极限的高频区间(比如1.5k赫兹至20k赫兹之间)时，优点与将底噪增加到不在自然人发声极限的低频区间时类似，但由于不在自然人发声极限的高频区间会产生刺耳的感觉，加之儿童又对高频区间的声音敏感。因此，将底噪增加到不在自然人发声极限的高频区间时，缺点更明显。

另外，当标记信息为在语音信息基础上删减的信息时，删减的信息可以为：在语音信息中每隔第一预设时长删减的第二预设时长的信息，其中，第二预设时长小于第一预设时长的1/N，N大于预设门限。类似于在纸带上打孔的方式，比方说，如果机器人A为发声者，那么在机器人A可以对将要发出的语音信息进行删减，可以每隔0.1秒的地方都删减0.001秒的信息，由于只删减了相当短暂的一段时间的信息，并不会对语音信息的真实意思表示产生任何影响，因此，当机器人检测出发声者的语音信息中包含所述删减的信息时，将发声者判定为机器人，否则，将发声者判定为自然人。优选的，由于自然人无法对发出的语音信息做到如此精确的删减，而机器人可以做到，比方说，预先设置机器人A发出的语音信息为每隔0.1秒的地方都删减0.001秒的信息，预先设置机器人B发出的语音信息为每隔0.2秒的地方都删减0.002秒的信息。因此，还可以通过检测语音信息中每隔0.2秒的地方都删减了0.002秒的信息，而判定发声者为机器人B。

或者，标记信息为在语音信息基础上删减的信息，删减的信息还可以为：在语音信息中的预设频率中删减的第三预设时长的信息；其中，第三预设时长小于预设时长门限。同样类似于在纸带上打孔的方式，比方说，如果机器人A为发声者，那么在机器人A可以对将要发出的语音信息进行删减，可以将其声音的111赫兹的声音去掉0.1秒，再去掉113赫兹的0.1秒，这样的删减同样不会对语音信息的真实意思表示产生任何影响，自然人也分辨不出来，而机器人可以很容易的识别出来这种细节，当机器人检测出发声者的语音信息中包含所述删减的信息时，将发声者判定为机器人，否则，将发声者判定为自然人。

需要说明的是，由于一般的声音都是由发音者发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。其中，发声者的基音是最响亮的且最容易识别的。因此，可以将标记信息位于语音信息的基音位置，这样做，有利于机器人对标记信息进行更加方便的识别。

当然，还可以将标记信息位于语音信息的基音位置和所有泛音位置。由于所有发声体发出的声音，除了一个基音外，还有许多不同频率(振动的速度)的泛音伴随，正是这些泛音决定了不同发声体的不同音色，这样我们就可以通过不同的音色去分辨不同的发声体。因此，将标记信息选择加入到语音信息的基音位置和所有泛音位置而不是仅将标记信息选择加入到语音信息的基音位置，可以更好的识别多个自然人或多个机器人说话的时候，这些泛音的归属主体。

步骤103，将发声者判定为非自然人。

也就是说，若检测到语音信息中包含标记信息，则将发声者判定为非自然人。

步骤104，将发声者判定为自然人。

也就是说，若检测到语音信息中没有标记信息，则将发声者判定为自然人。

与现有技术相比，本发明实施方式提供的一种智能识别方法，通过在接收到发声者的语音信息之后，对语音信息中是否包含标记信息进行检测，其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息，如果检测到语音信息包含标记信息，则将发声者判定为非自然人。由于每个机器人都会对将要发出的语音信息进行处理，使其发出的语音信息包含有标记信息，且所述标记信息不对语音信息的语义产生影响，使得机器人在接收到发声者的语音信息后，通过语音信息的检测对发声者是机器人还是自然人进行判定，若语音信息中包含有所述标记信息，则发声者为机器人；若语音信息中不包含所述标记信息，则发声者为自然人，达到区分发声者是机器人还是自然人的目的。

本发明第二实施方式涉及一种智能识别方法。本实施方式是在第一实施方式的基础上做了进一步改进，具体改进之处在于：通过在将发声者判定为非自然人之后，进一步对标记信息进行分析，以获取发声者的身份信息。由于可以预先对不同的机器人在语音信息中叠加或删减信息时设定均不相同的处理规则，使得在机器人接收到包含标记信息的语音信息后，通过对标记信息进行分析，获知在语音信息中叠加或删减信息是按照何种规则进行处理的，进而根据所述规则逆向推出具体是发出语音信息的机器人的身份信息。具体流程如图2所示，包括：

步骤201，接收发声者的语音信息。

步骤202，检测语音信息中是否包含标记信息。其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息。若检测到语音信息中包含标记信息，进入步骤203，；否则，进入步骤204。

步骤203，将发声者判定为非自然人。在将发声者判定为非自然人之后，进入步骤205。

步骤204，将发声者判定为自然人。

步骤205，对标记信息进行分析，获取发声者的身份信息。

具体的说，在将发声者判定为非自然人之后，对标记信息进行分析，获取发声者的身份信息。可以根据预先对不同的机器人在语音信息中叠加或删减信息时设定均不相同的处理规则，使得在机器人接收到包含标记信息的语音信息后，通过对标记信息进行分析，获知在语音信息中叠加或删减信息是按照何种规则进行处理的，进而根据所述规则逆向推出具体是哪一个机器人所发出的语音信息。其中，所获取的发声者的身份信息即机器人的身份信息，可以为机器人的编号、机器人的类型、生产日期以及机器人的操作权限等内容，此处不作具体限定。

另外，需要说明的是，也可以用底噪来表达机器人的身份信息。此处以将底噪叠加在超声波或次声波中为例进行说明：比如说，在机器人A发出的语音信息中，加入一个低于20赫兹的次声波，将底噪加入这个次声波中，这个底噪的内容可以为“我是机器人，我型号是001，我说话了，这句话时长1分钟”。当机器人在与自然人或者机器人对话的时候，只需要检测到语音信息中包含次声波，就证明机器人目前和机器人对话，进一步的，在判定发声者为机器人之后，可以对机器人发出的语音信息进行语义分析，得出发出语音信息的机器人的身份信息。这样做，不仅有利于机器人之间的沟通交流，还可以在机器人对接收语音信息的机器人下发指令时，接收语音信息的机器人可以基于其身份信息获取到发出指令的机器人的权限等级，有利于进一步判断是否需要根据机发出指令的机器人所发出的指令执行相应操作。

由于本实施方式中步骤201至步骤204与第一实施方式中的步骤101至步骤104大致相同，旨在接收发声者的语音信息，检测语音信息中是否包含标记信息；其中，标记信息为叠加在语音信息中的信息或在语音信息基础上删减的信息；若语音信息包含标记信息，则将发声者判定为非自然人，此处不再赘述。

与现有技术相比，本实施方式提供的一种智能识别方法，通过在将发声者判定为非自然人之后，进一步对标记信息进行分析，以获取发声者的身份信息。由于可以预先对不同的机器人在语音信息中叠加或删减信息时设定各不相同的处理规则，使得在机器人接收到包含标记信息的语音信息后，通过对标记信息进行分析，获知在语音信息中叠加或删减信息是按照何种规则进行处理的，进而根据所述规则逆向推出具体是发出语音信息的机器人的身份信息。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种机器人，如图3所示，包括：至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行上述的智能识别方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种智能识别方法，其特征在于，应用于机器人，包括：

接收发声者的语音信息，检测所述语音信息中是否包含标记信息；其中，所述标记信息为叠加在语音信息中的信息或在所述语音信息基础上删减的信息；

若所述语音信息包含所述标记信息，则将所述发声者判定为非自然人。

2.根据权利要求1所述的智能识别方法，其特征在于，所述标记信息为叠加在语音信息中的信息，其中，所述叠加在语音信息中的信息，具体为底噪。

3.根据权利要求2所述的智能识别方法，其特征在于，所述叠加在语音信息中的信息，具体为：在以下区间之一或其任意组合中，叠加所述底噪：

超声波、次声波、不在自然人发声极限的低频区间、不在自然人发声极限的高频区间。

4.根据权利要求1所述的智能识别方法，其特征在于，所述标记信息为在所述语音信息基础上删减的信息，所述删减的信息，具体为：在所述语音信息中每隔第一预设时长删减的第二预设时长的信息；其中，所述第二预设时长小于所述第一预设时长的1/N，所述N大于预设门限。

5.根据权利要求1所述的智能识别方法，其特征在于，所述标记信息为在所述语音信息基础上删减的信息，所述删减的信息，具体为：

在所述语音信息中的预设频率中删减的第三预设时长的信息；其中，所述第三预设时长小于预设时长门限。

6.根据权利要求1所述的智能识别方法，其特征在于，包括：所述标记信息位于所述语音信息的基音位置。

7.根据权利要求1所述的智能识别方法，其特征在于，所述标记信息位于所述语音信息的基音位置和所有泛音位置。

8.根据权利要求1所述的智能识别方法，其特征在于，在所述将所述发声者判定为非自然人之后，还包括：

对所述标记信息进行分析，获取所述发声者的身份信息。

9.一种机器人，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的智能识别方法。