CN109524004B

CN109524004B - 一种实现多路音频和数据的并行传输的方法、外接式的语音交互装置和***

Info

Publication number: CN109524004B
Application number: CN201811646449.XA
Authority: CN
Inventors: 郑炜乔; 雷雄国; 强胜轩; 刘强; 涂长宇; 徐钢峰; 王强; 何家锋; 徐鸿; 黄梓勋; 汪忱; 刘晶美
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-03-08
Anticipated expiration: 2038-12-29
Also published as: CN109524004A

Abstract

本发明公开一种实现多路音频和数据的并行传输的方法，包括接收多路待传输音频和待传输数据；将多路待传输音频和待传输数据转换为双路音频数据输出。本发明还提供了一种外接式的语音交互装置和基于外接式语音交互装置进行语音交互的***，根据本发明提供的方法、装置和***可以实现多路音频和数据的并行传输，实现与旧有终端设备进行无缝对接，还可以实现高效率和无损无时延的数据传输。

Description

一种实现多路音频和数据的并行传输的方法、外接式的语音交互装置和***

技术领域

本发明涉及语音交互技术领域，特别是一种实现多路音频和数据的并行传输的方法、外接式的语音交互装置和***。

背景技术

随着现有的终端设备大多数都是两通道音频传输接口，在与外接的远场语音设备进行数据交互时，终端设备只能基于双通道与远场设备进行数据传输，这样就会存在以下问题：

1)如果在远场语音设备上进行语音唤醒或识别处理，由于外接式远场多麦克风阵列设备一般运算能力有限，只能处理简单的唤醒和小词汇量识别，大量语音识别还需要依赖终端设备进行处理，因此向终端设备传输的数据就需要包括音频和唤醒或识别结果数据，因而在现有的双通道传输条件下，现有只能传两路音频的条件下，带宽没有得到有效利用，会导致音频与数据的传输间存在延迟，使得终端设备接收数据和处理结果出现延迟，影响语音交互的体验；

2)如果为了避免延时问题，就需要将语音唤醒或识别处理放在终端设备上进行处理，这就需要终端设备不光具备复杂运算能力和具备复杂的集成处理能力，还需要将远场多麦克风阵列集成到终端设备的硬件设计中，导致了该终端设备的造价成本高和开发周期长，不能兼容已有的产品，且无法实现充分利旧。

发明内容

针对背景技术提出的问题，发明人想到一种解决方案为：将音频和数据同时进行传输，这样，既能够将语音唤醒和识别处理集成在外接式的远场语音交互设备中，又能够避免数据延迟的问题。这样改进在实际应用中，也会面临一个新的问题，就是需要对终端设备的传输接口进行改造，使之能够接收多路数据，而目前旧有终端设备均是双通道的，要对旧有终端设备进行适配，就会存在不兼容的问题，导致旧有终端设备无法与发明人提出的新的外接式的远场语音交互设备进行有效交互。基于此，发明人，又进一步想到一种解决方案，以实现多路音频和数据的并行传输，实现与旧有终端设备的无缝对接。

根据本发明的第一个方面，提供了一种实现多路音频和数据的并行传输的方法，包括

接收多路待传输音频和待传输数据；

将多路待传输音频和待传输数据转换为双路音频数据输出。

根据本发明的第二个方面，提供了一种外接式的语音交互装置，包括

麦克风阵列，用于接收音频；

数据处理模块，用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少声源音频来自麦克风阵列；和

音频与数据传输模块，用于实现与外接设备的数据交互，将多路待传输音频和待传输数据输出至与之连接的外接设备；其中，

音频与数据传输模块包括数据转换单元，用于将多路待传输音频和待传输数据转换为双路音频数据输出。

根据本发明的第三个方面，提供了一种基于外接式语音交互装置进行语音交互的***，包括通过双通道音频输出接口进行数据通信的语音交互装置和终端设备；其中，

语音交互装置为上述的外接式的语音交互装置；

终端设备用于根据语音交互装置输出的双路音频数据实现与用户的语音交互，终端设备包括

数据解析模块，用于根据预设的校验数据对接收到的双路音频数据进行解码，获取传输的多路音频和数据。

根据本发明提供的方法、装置和***可以实现多路音频和数据的并行传输，利用两路高带宽的音频传输通道将多路音频和数据并行传输给终端设备，高度利用了传输带宽，具有不压缩数据内容和保证无损时延传输的优点。并且，通过本发明提供的方案，能够有效解决终端设备接收多路音频和数据的问题，实现与旧有终端设备进行无缝对接，使得现有的大部分终端设备都能利用外接设备实现语音交互功能，满足终端设备实现远场语音交互的需求。

附图说明

图1为本发明一实施方式的实现多路音频和数据的并行传输的方法流程图；

图2为本发明一实施方式的多路音频和数据的并行传输装置原理框图；

图3为本发明一实施方式的基于多路音频和数据的并行传输装置进行语音交互的***框图；

图4为本发明一实施例提供的执行多路音频和数据的并行传输装置的实现方法的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“***”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/ 或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的实现多路音频和数据的并行传输的方法可以应用于任何外接式拾音装置，使得该拾音装置能够通过双路音频传输通道适配任何需要实现语音交互功能的终端设备，例如，智能手机、平板电脑、智能家居等终端设备，本发明对此不作限制。从而能够使得这些终端设备利用应用了该方法的外接式拾音装置，实现语音交互功能，且保证终端设备能够高效无延时的获取到远场语音数据，同时还能保证终端设备的零改动和免驱动，最低成本的实现终端设备的远场语音交互功能。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式实现多路音频和数据的并行传输的方法流程图。如图1所示，本实施例包括如下步骤：

步骤S101：接收多路待传输音频和待传输数据。其中，接收到的多路待传输音频为对获取到的音频数据进行处理后得到的需要传输给终端设备的音频，其包括多路增强音频和原始音频，示例性地为3路增强音频和1 路原始音频。待传输数据为进行语音唤醒和识别处理后得到的用于选择命中音频的控制信号数据，其包括选中的音频序号、唤醒与识别结果、以及置信度。在优选实施例中，待传输数据还可以包括有用于进行纠错处理的校验数据。多路增强音频和原始音频的含义，将结合图2所示的实现过程进行解释。

示例性地，多路待传输音频和待传输数据的获取过程可以通过图2所示的方法实现，具体为包括如下步骤：

步骤S301：获取声源音频和终端设备参考音频。声源音频获取的方式可以通过麦克风阵列进行获取，终端设备参考音频的获取方式可以是从终端设备***的外放装置(例如喇叭、扩音器等)获取，或者可以是从终端设备的***软件中读取，或者可以是从麦克风端获取(将麦克风对准终端设备的喇叭进行录音)。当通过麦克风获取终端设备参考音频时，采用的麦克风可以是麦克风阵列中的麦克风，此时麦克风阵列包括用于获取用户声源音频的麦克风和用于获取终端设备参考音频的麦克风；也可以不是麦克风阵列中的麦克风，即麦克风阵列仅设置成用于获取用户声源音频的麦克风，通过增设其他的麦克风来获取终端设备参考音频。

步骤S302：对声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据。具体实现为：

首先，对声源音频和终端设备参考音频进行去噪处理，该去噪主要是去除终端设备本身的播放声音(即从声源音频中去除终端设备参考音频)，处理的方式可以参照现有技术，从而得到去除终端设备本身播放声音噪声的音频，为了方便进行描述，下文将得到的去除终端设备本身播放声音噪声的音频表述为原始音频，上文提及的原始音频也指相同含义。

之后，对去噪处理后得到的原始音频进行区域性音频标记和增强降噪处理，音频标记的方式可以实现为根据声源音频的角度进行划分，因为麦克风阵列为多个麦克风个体，根据接收的声源音频数据可将增强音频按区域划分结果进行处理和标记，示例性的，将声源分布位置划分为A区域：0 度-60度，B区域：60度-120度，C区域：120度到180度，假设用于采集声源音频的麦克风个体为2个，根据声源的可能分布位置将其划分到对应的区域中，这样就可得到多路音频标记，例如上述例子中的三路，分别为 A区域对应的增强音频、B区域对应的增强音频和C区域对应的增强音频，为了方便标识各路增强音频，可以为三路增强音频分别分配音频序号1、2、 3。区域性增强降噪处理方式为现有技术，其中，增强的内容包括降低干扰声源的噪声、消除背景声、对目标语音声源方向的音频进行增强，从而生成多路增强音频。

然后，对多路增强音频分别进行语音唤醒或识别处理，生成待传输数据，其中，语音唤醒或识别的方式可以参照现有技术实现，识别或唤醒的结果包括有唤醒与识别结果以及置信度，根据唤醒与识别结果以及置信度确定目标语音声源所在增强音频，示例性地将置信度高的音频确定为识别或唤醒后选中的音频，由此就可以得到待传输数据为包括选中的增强音频的音频序号(1、2或3)、唤醒与识别结果、以及置信度。

最后，根据终端设备指令将多路增强音频作为多路待传输音频，示例性地将上述三路增强音频作为多路待传输音频，或获取原始音频，将多路增强音频和原始音频共同作为多路待传输音频，示例性地多路待传输音频为包括上述三路增强音频和一路原始音频。在具体实现中，是只传输增强音频还是同时传输增强音频和原始音频至终端设备，可以根据需求进行配置，或者由终端设备通过输出指令参数的方式进行设定，本发明实施例对此不进行限制。

步骤S102：将多路待传输音频和待传输数据转换为双路音频数据输出。

为了使得多路待传输音频和待传输数据能够并行通过双通道传输至终端设备，在具体实现时，使得转换得到的双路音频数据的带宽与接收端即终端设备的通道传输带宽适配。目前现有的终端设备的通道传输带宽包括有16k、32k和48k，以终端设备的通道传输带宽为48k、接收到的多路待传输音频为16k、多路增强音频为三路、原始音频为一路为例。对实现方式进行详细阐述如下：

首先，将待传输数据转换为音频格式数据。

其中，将待传输数据转换为音频格式数据，是通过待传输数据转换为 16进制的编码，由于音频格式的数据就是16进制编码，所以将待传输数据转换为16进制的编码就相当于将带传输数据转换为音频格式数据。

然后，对多路待传输音频和音频格式数据进行混合交织编码，生成双路音频数据输出。

将多路待传输的音频和音频格式数据进行分组，具体为，将三路增强音频分为一组，将一路原始音频和由待传输数据转换为16进制的音频格式数据分为另一组，由此得到两组音频数据，分别对各路音频数据进行交织编码，由于各路音频数据均为16k采样(即每秒采集16000个数据点)，通过交织编码即可得到两路的48k音频数据(即每组音频数据进交织编码均转换为一路每秒钟可传输48k个数据的音频数据)，由此得到双路音频数据，将其通过双通道输出即可。其中，交织编码的方式可以参照现有技术实现。

通过上述过程就实现了将通过外接式的远场语音交互装置获取音频信息，经由双通道将多路音频数据和控制信号数据同时传输给终端设备。终端设备在获取到数据时，通过解码即可得到多路音频数据和控制信号数据，并对得到的数据进行相应处理，以实现语音交互功能。

在优选实现例中，待传输数据还可以实现为包括校验数据，这种情况下，在上述实现方式的基础上，还会将校验数据也转换为十六进制编码，即转换为音频格式数据。在进行分组时，会将校验数据转换成的音频格式数据也作为一路音频数据，将其分组到另一组音频数据中。这样，通过交织编码得到的双路音频数据中除了包括音频、控制信号数据，还会包括校验数据，方便进行纠错校验处理，保证传输的数据内容的准确性。其中，校验数据可以是数据内容为零的校验码，此时，终端设备用来去校验接收到的音频数据内容的方式可以实现为判断最后一位是否为0，在判断数据内容为非0时，将后续的数据内容作为第二帧数据内容进行解析。在其他实现例中，校验数据可以是包括第一校验数据和第二校验数据，第一校验数据和第二校验数据设置为相加得到一固定值，这样就可以在待传输数据中加入第一校验数据，在终端设备利用第二校验数据进行纠错校验，也可以为其他实现方案，本发明实施例不视为对此的限制，本领域技术人员可以知道的是，通过很多现有的校验方式皆可实现该功能，达到保证传输的数据准确性的效果。

在优选实施方式中，还可以对得到的双路音频数据进行加密处理后，再传输至终端设备。其中，加密方式可以根据需求通过现有技术实现，这种情况下，终端设备在接收到的数据后需要进行解密处理后，才能得到相应的数据内容，保证数据安全。其中，对数据的加密处理也可以在交织编码之前进行，本发明实施例不对此进行限制。

根据本实施例可以实现既能够将语音唤醒和识别处理集成在外接式的远场语音交互设备中，又能够避免数据延迟的问题。并且对于仅支持双通道传输协议的终端设备也可以兼容。并且利用了传输带宽，增加多路音频和数据的传输量，实现高效率和无损无时延数据传输。

图3示意性地显示了根据本发明一实施方式的外接式的语音交互装置原理框图，如图3所示，

外接式的语音交互装置包括麦克风阵列1、数据处理模块2和音频与数据传输模块3。

麦克风阵列1用于接收音频。

数据处理模块2用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少声源音频来自麦克风阵列，而终端设备参考音频则可以是从终端设备***的外放装置(例如喇叭、扩音器等)获取，或者可以是从终端设备的***软件中读取，或者也可以是从麦克风端获取(将麦克风对准终端设备的喇叭进行录音，如上所述此时的麦克风既可以是麦克风阵列中的，也可以是另外设置的专门用于获取参考音频的麦克风)。

在优选实施例中，麦克风阵列1实现为多个固定间距的麦克风组成，以达到对声源的方向进行定位的效果。在使用时，用户可以直接对着麦克风阵列发出语音交互的指令，例如“我要录音”等，麦克风阵列即可获取音频输出至数据处理模块2。由于麦克风阵列具有一定的结构，可以实现针对声源方向进行增强,将来自其他角度方向噪音进行减弱,从而可以保证音频的质量。为获取终端设备的参考音频可以直接将可以移动的麦克风贴近终端设备的出音口,或者用单指向性麦克风对着终端设备播放的音源方向，获取终端设备播放音频的麦克风可以是麦克风阵列中的麦克风，也可以为额外的麦克风，本发明实施例不对此进行限制，只需要将获取参考音频的麦克风连接至数据处理模块2即可。

其中，如图1所示，数据处理模块2包括本机噪音消除单元201、信号增强与降噪处理单元202、语音唤醒与识别单元203和待传输音频获取单元204。

本机噪音消除单元201，对声源音频和终端设备参考音频进行去噪处理，该本机噪音消除主要是去除终端设备本身的播放声音，从而得到消除终端设备本身播放声音噪声的原始音频。去噪处理的具体实现方法可以参照现有技术实现，例如采用自适应的滤波技术，故在此不赘述。

信号增强与降噪处理单元202，包括对去噪处理后得到的原始音频进行区域性音频标记和增强降噪处理，音频标记的方式可以实现为根据声源音频的角度进行划分，因为麦克风阵列为多个麦克风个体，根据接收的声源音频数据可将增强音频按区域划分结果进行处理和标记，示例性的，将声源分布位置划分为A区域：0度-60度，B区域：60度-120度，C区域： 120度到180度，假设用于采集声源音频的麦克风个体为2个，根据声源的可能分布位置将其划分到对应的区域中，这样就可得到多路音频标记，例如上述例子中的三路，分别为A区域对应的增强音频、B区域对应的增强音频和C区域对应的增强音频，为了方便标识各路增强音频，可以为三路增强音频分别分配音频序号1、2、3。区域性增强降噪处理方式为现有技术，其中，增强的内容包括降低干扰声源的噪声、消除背景声、对目标语音声源方向的音频进行增强，从而生成多路增强音频。

语音唤醒与识别单元203用于对多路增强音频分别进行语音唤醒或识别处理，生成待传输数据，其中，语音唤醒或识别的方式可以参照现有技术实现，识别或唤醒的结果包括有唤醒与识别结果以及置信度，根据唤醒与识别结果以及置信度确定目标语音声源所在增强音频，示例性地将置信度高的音频确定为识别或唤醒后选中的音频，由此就可以得到待传输数据为包括选中的增强音频的音频序号(1、2或3)、唤醒与识别结果、以及置信度。

待传输音频获取单元204用于根据终端设备指令将多路增强音频作为多路待传输音频，示例性地将上述三路增强音频作为多路待传输音频；或获取原始音频，将多路增强音频和原始音频共同作为多路待传输音频，示例性地多路待传输音频为包括上述三路增强音频和一路原始音频。在具体实现中，是只传输增强音频还是同时传输增强音频和原始音频至终端设备，可以根据需求进行配置，或者由终端设备通过输出指令参数的方式进行设定，本发明实施例对此不进行限制。

音频与数据传输模块3实现为USB接口，用于实现与外接设备的数据交互，将多路待传输音频和待传输数据输出至与之连接的外接设备。

通过上述的多路音频和数据的并行传输，将麦克风阵列接收到的多路音频数据经过前端信号处理和语音唤醒与识别处理等过程得到增强音频和控制信号(即待传输数据)，通过USB接口传输至终端设备，使得终端设备可以进行单路音频语音识别或根据控制信号让配套的软件工具进行交互处理，由此，终端设备无需做复杂集成就具有远场语音交互的能力，解决了远场语音交互对终端设备的结构和运算能力的依赖，同时支持外接式和热插拔，成本低、开发时间短，灵活性强，更大限度地满足了尤其是低配置终端设备对远场语音交互的需求。

在优选实施例中，为了满足现有技术中的终端设备均是支持双通道协议，无法并行获取多路音频和数据的问题，还可以进一步对待传输数据和多路待传输音频做处理，将其转换为双路音频数据以经由双通道传输至终端设备。其中，转为双路音频数据的实现方式可以为：首先将待传输数据转码为十六进制编码，使其成为音频格式，接着对多路音频和转换为音频格式的待传输数据进行交织编码，使其转换为双路音频数据，示例性地将三路增强音频交织编码为一路音频数据，将原始音频和转换为音频格式的待传输数据交织编码为另一路音频数据。其中，具体实现可以是，如图3 所示，在音频与数据传输模块3中设置数据转换单元301，用于将多路待传输音频和待传输数据转换为双路音频数据经由USB双通道输出。其中，数据转换单元301包括音频转换组件3011和编码组件3012，音频转换组件3011用于将待传输数据转换为音频格式数据；编码组件3012用于对多路待传输音频和音频格式数据进行混合编码，生成双路音频数据输出。为了解决现有技术中的外接设备大多为双通道，无法有效接收多路音频和数据的问题，本发明实施例的装置通过数据转换单元301将待传输数据和待传输音频做处理，包括将待传输数据转码为16位的音频格式数据，和将多路待传输音频和转换为音频格式数据的待传输数据交织编码为双路音频数据，其具体实现可参照上述方法部分的叙述，在此不再赘述。在外接设备经由双通道接收到双路音频数据后对其进行解码，将其解码为多路待传输音频和待传输数据，并根据需求利用得到的多路音频和控制信号，进行语音交互应用。

这样，在外接设备接收到双路音频数据后，可以对其进行解码，得到待传输音频和待传输数据，之后终端设备就可以根据需求进行相应的语音交互处理。

在优选实施方式中还可以对双路音频数据进行加密。

根据本发明实施例的方案，可以实现多路音频和数据的并行传输，其既包括增强音频和/或原始音频的传输也包括控制数据的传输，二者同时传输至终端设备进行后续处理，可以避免数据延时。

图4示意性地显示了根据本发明一实施方式的多路音频和数据的并行传输语音交互***框图，如图4所示，

该***包括通过双通道音频输出接口进行数据通信的语音交互装置4 和终端设备5；其中，语音交互装置4为图2所示的外接式的语音交互装置；

终端设备5用于根据语音交互装置4输出的双路音频数据实现与用户的语音交互，终端设备5包括数据解析模块501，数据解析模块501用于根据预设的校验数据对接收到的双路音频数据进行解码，获取传输的多路音频和数据。

根据本***不仅可以实现减少语音交互时的延时，还可以兼容支持双通道传输协议的终端设备。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.实现多路音频和数据的并行传输的方法，其特征在于，所述方法应用于外接式拾音装置，使得该外接式拾音装置能够通过双路音频传输通道适配需要实现语音交互功能的终端设备，以实现所述终端设备的远程语音交互功能，该方法包括

接收多路待传输音频和待传输数据，所述待传输音频为需要传输给终端设备的音频，所述待传输数据为用于选择命中音频的控制信号数据；

其中，所述待传输数据通过以下操作而确定：

获取声源音频和终端设备参考音频；

对所述声源音频和所述终端设备参考音频进行去噪处理；

对去噪处理后得到的原始音频进行区域性音频标记和增强降噪处理；

对多路增强音频分别进行语音唤醒或识别处理，根据唤醒与识别结果以及置信度确定目标语音声源所在增强音频，进而生成待传输数据；

将所述多路待传输音频和待传输数据转换为双路音频数据输出，

其中，将所述多路待传输音频和待传输数据转换为双路音频数据输出包括

将所述待传输数据转换为音频格式数据；

对所述多路待传输音频和音频格式数据进行混合编码，生成双路音频数据输出。

2.根据权利要求1所述的方法，其特征在于，在对所述多路待传输音频和音频格式数据进行混合编码后，还包括对生成的双路音频数据进行加密后输出。

3.根据权利要求1至2任一项所述的方法，其中，所述待传输数据包括选中的音频序号、唤醒与识别结果、以及置信度。

4.根据权利要求3所述的方法，其中，所述待传输数据还包括校验数据。

5.权利要求4所述的方法，其特征在于，所述双路音频数据的带宽与接收端适配。

6.外接式的语音交互装置，其特征在于，包括

麦克风阵列，用于接收音频；

数据处理模块，用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少所述声源音频来自所述麦克风阵列，所述待传输音频为需要传输给终端设备的音频，所述待传输数据为用于选择命中音频的控制信号数据；

其中，所述待传输数据通过以下操作而确定：

获取终端设备参考音频；

对所述声源音频和所述终端设备参考音频进行去噪处理；

音频与数据传输模块，用于实现与外接设备的数据交互，将所述多路待传输音频和待传输数据输出至与之连接的外接设备；其中，

所述音频与数据传输模块包括数据转换单元，用于将所述多路待传输音频和待传输数据转换为双路音频数据输出，

其中，所述数据转换单元包括

音频转换组件，用于将所述待传输数据转换为音频格式数据；和

编码组件，用于对所述多路待传输音频和音频格式数据进行混合编码，生成双路音频数据输出。

7.根据权利要求6所述的装置，其特征在于，所述待传输数据包括选中的音频序号、唤醒与识别结果、唤醒与识别结果的置信度、以及校验数据。

8.基于外接式语音交互装置进行语音交互的***，其特征在于，包括通过双通道音频输出接口进行数据通信的语音交互装置和终端设备；其中，

所述语音交互装置为权利要求6至7任一项所述的外接式的语音交互装置；

所述终端设备用于根据所述语音交互装置输出的双路音频数据实现与用户的语音交互，所述终端设备包括