CN114747196A

CN114747196A - 使用多个音频装置来输出多声道音频的终端和方法

Info

Publication number: CN114747196A
Application number: CN202080082493.1A
Authority: CN
Inventors: 郑盛元; 崔宅盛
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-07-12
Also published as: EP4203446A1; EP4203446A4; KR20230054308A; US20220303707A1; WO2022039310A1

Abstract

本公开的实施方式提供了一种通过使用多个音频装置来输出多声道音频的终端。该终端包括：相机；通信单元，其连接至多个第一音频装置；以及处理器，其被配置为通过通信单元或相机获得关于所述多个第一音频装置的装置信息；考虑装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；并且基于与多声道音频***对应的音频***信息通过第二音频装置来输出音频数据。

Description

使用多个音频装置来输出多声道音频的终端和方法

技术领域

本公开涉及一种使用多个音频装置来输出多声道音频的终端及其方法。

背景技术

现有多声道音频***包括音频装置，其输出声道是预先确定的，并且为了正确的多声道音频输出需要专业帮助来布置音频装置。因此，即使用户有构成多声道音频***的多个音频装置，将多个音频装置安装在合适的位置也存在很大的困难。另外，为了构造多声道音频***，有必要提供根据能够输出预定声道的声音的各种音频装置的组合的设备。

如果可通过将设置在家中的单声道音频装置或立体声道音频装置组合来构造多声道音频***，则可以低成本向用户提供满意度高的音频。

发明内容

技术问题

本公开提供一种使用多个音频装置来输出多声道音频的终端及其方法。

另外，本公开提供一种用于提供构成多声道音频***的多个音频装置的合适布置位置的终端。

技术方案

本公开的实施方式提供一种使用多个音频装置来输出多声道音频的终端，该终端包括：相机；通信单元，其连接至多个第一音频装置；以及处理器，其被配置为通过通信单元或相机获得关于所述多个第一音频装置的装置信息；考虑装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；并且基于与多声道音频***对应的音频***信息通过第二音频装置来输出音频数据。

装置信息可包括关于所述多个第一音频装置中的每一个的音频声道信息和音量信息。

处理器可被配置为：通过相机获得包括第一音频装置的第一图像数据；指定包括在第一图像数据中的第一音频装置；并且获得与指定的第一音频装置对应的装置信息。

音频***信息可包括多声道音频***的音频声道信息以及音频声道分配信息、音量信息和关于第二音频装置的布置位置信息。

处理器可被配置为：通过相机获得多声道音频***的聆听空间的第二图像数据；并且基于第二图像数据来确定布置位置信息。

终端还可包括输入单元，其中，处理器可被配置为：通过输入单元从用户获得第二图像数据中的聆听位置信息；并且基于聆听位置信息来确定布置位置信息。

终端还可包括显示单元，其中，处理器可被配置为通过显示单元来输出关于第二音频装置的布置位置信息。

处理器可被配置为：当音频数据的声道数量小于音频声道信息的声道数量时，对音频数据进行上混；并且通过第二音频装置输出上混的音频数据。

通信单元可被配置为从上混服务器接收与音频数据对应的上混的音频数据。

处理器可被配置为：基于音频数据的音频特性来确定音效；并且通过将音效反映到音频数据通过第二音频装置来输出音频数据。

音效可包括均衡器或立体声中的至少一个。

处理器可被配置为使用包括人工神经网络的音频分析模型来分析与音频数据对应的音频特性。

另外，本公开的实施方式提供一种使用多个音频装置来输出多声道音频的方法，该方法包括以下步骤：通过通信单元连接至多个第一音频装置；通过通信单元或相机获得关于所述多个第一音频装置的装置信息；考虑装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；以及基于与多声道音频***对应的音频***信息通过第二音频装置来输出音频数据。

另外，本公开的实施方式提供一种记录有使用多个音频装置来输出多声道音频的方法的记录介质，该方法包括以下步骤：通过通信单元连接至多个第一音频装置；通过通信单元或相机获得关于所述多个第一音频装置的装置信息；考虑装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；以及基于与多声道音频***对应的音频***信息通过第二音频装置来输出音频数据。

有益效果

根据本公开的各种实施方式，可通过将多个音频装置组合来配置个体音频装置不支持的多声道音频***。

另外，根据本公开的各种实施方式，可向用户提供适合于分配给个体音频装置的音频声道的布置位置。

另外，根据本公开的各种实施方式，可通过不支持上混的音频装置输出上混的音频数据。

此外，根据本公开的各种实施方式，可通过应用适合于音频数据的音频特性的音效来输出音频数据。

附图说明

图1是示出根据本公开的实施方式的多声道音频输出***的图。

图2是示出根据本公开的实施方式的使用多个音频装置来输出多声道音频的终端的框图。

图3是示出根据本公开的实施方式的音频装置的框图。

图4是示出根据本公开的实施方式的使用多个音频装置来输出多声道音频的方法的流程图。

图5是示出使用终端的相机来获得音频装置的装置信息的示例的图。

图6是示出配置图4所示的多声道音频***的步骤的示例的流程图。

图7是示出在终端中输出音频***信息的示例的图。

图8是示出通过图4所示的多声道音频***来输出音频数据的步骤的示例的流程图。

图9是示出对音频数据进行上混的示例的图。

图10是示出通过图4所示的多声道音频***来输出音频数据的步骤的示例的流程图。

图11和图12是示出根据本公开的实施方式的多声道音频输出***的图。

具体实施方式

以下，参照附图详细描述本公开的实施方式，并且不管标号如何，相同或相似的组件被指派相同的标号，因此省略对它们的重复描述。下面的描述中使用的组件的后缀“模块”和“单元”考虑撰写说明书的容易程度来分配或混合，本身并没有独特的含义或作用。在以下描述中，将省略熟知功能或构造的详细描述，因为它们将在不必要的细节方面使本发明模糊。另外，附图用于帮助容易地理解本文所公开的实施方式，但本公开的技术思想不限于此。将理解，本公开包括落在本公开的各种实施方式的精神和范围内的所有修改、等同物和替代物。

将理解，尽管本文中可使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件相区分。

将理解，当元件“连接”或“联接”到另一元件时，元件可直接连接或联接到另一元件，或者可在其间有中间元件的情况下连接或联接到另一元件。另一方面，将理解，当元件“直接连接”或“直接联接”到另一元件时，它们之间不存在中间元件。

终端100可被实现为固定装置或可移动装置，例如TV、投影仪、移动电话、智能电话、台式计算机、笔记本计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航、平板PC、可穿戴装置、机顶盒(STB)、DMB接收器、收音机、洗衣机、冰箱、数字标牌、机器人和车辆。

图1是示出根据本公开的实施方式的多声道音频输出***1的图。

参照图1，多声道音频输出***1可包括终端100、多个音频装置200、上混服务器300和内容提供方400。

终端100可指使用无线通信技术连接至音频装置200，通过音频装置200输出声音，并且控制音频装置200的装置。由于终端100向音频装置200提供音频信号或音频数据，所以终端100可被视为音频信号提供装置或音频数据提供装置。

终端100可通过多个音频装置200输出多声道音频。例如，终端100可通过向音频装置200发送不同声道的音频信号来输出多声道音频。在这种情况下，输出多声道音频的音频装置200可被称为单个多声道音频***。即，多个音频装置200可作为单个音频***操作，并且这种音频***可作为包括多个声音输出单元的单个音频装置操作。例如，即使两个音频装置200各自仅包括一个声音输出单元，这两个音频装置200中的一个输出与左声道音频信号对应的左声道声音，其中的另一个可输出与右声道音频信号对应的右声道声音。因此，两个音频装置200可作为单个立体音频装置操作。

终端100可使用无线通信技术与音频装置200发送和接收配对信号、定位信号、音频信号等。配对信号可指为了将音频装置200连接至终端100而发送和接收的信号。定位信号可指为了测量终端100和音频装置200之间的相对位置而发送和接收的信号。音频信号可指终端100发送给音频装置200以通过音频装置200输出音频的信号。

终端100可使用有线/无线通信技术从内容提供方400接收包括音频数据的内容数据，并且可向音频装置200发送与所接收的音频数据对应的音频数据。另选地，终端100可向音频装置200发送与存储在存储器170中的音频数据对应的音频数据。

音频装置200可使用无线通信技术连接至终端100，并且可基于从终端100接收的音频数据来输出音频。为此，音频装置200可包括至少一个声音输出单元或扬声器。

音频装置200可包括一个或更多个声音输出单元340。音频装置200可通过各个声音输出单元340输出相同声道的音频，或者可输出不同声道的音频。例如，音频装置200可包括两个声音输出单元，例如头戴式耳机或颈带式耳机。在这种情况下，音频装置200可通过各个声音输出单元输出左声道音频和右声道音频。

在实施方式中，当多个音频装置200作为单个组操作时，一个无线声学装置可用作主无线声学装置，另一无线声学装置可用作从无线声学装置。在这种情况下，即使终端100仅连接至主无线声学装置，也可通过主无线声学装置从从无线声学装置输出音频。另外，终端100可通过主无线声学装置连接至从无线声学装置，并且可从从声学装置输出声音。

在实施方式中，当多个音频装置200作为单个组操作时，终端100可连接所有音频装置200并且通过向各个音频装置200单独地发送音频数据来输出音频。

在音频装置200当中，连接至终端100的音频装置可被称为第一音频装置200_1。在第一音频装置200_1当中，构成多声道音频***的音频装置可被称为第二音频装置200_2。由于第二音频装置200_2也连接至终端100，所以第二音频装置200_2也是第一音频装置200_1。

上混服务器300可使用有线/无线通信技术对从终端100接收的音频数据进行上混，并且可向终端100提供上混的音频数据。上混或音频上混可指扩展音频数据的声道数量的操作。例如，上混服务器300可从终端100接收两声道音频数据，可将所接收的音频数据上混成5.1声道音频数据，并且可将5.1声道音频数据发送至终端100。

上混服务器300可被配置为单个服务器，或者可被配置为云服务器或包括多个服务器的服务器集群。

内容提供方400可使用有线/无线通信技术向终端100提供视频内容数据或音频内容数据。视频内容或音频内容数据可包括音频数据。

内容提供方400可指各种内容提供装置，例如无线电基站、地面基站、广播卫星和内容数据服务器。

图2是示出根据本公开的实施方式的使用多个音频装置来输出多声道音频的终端100的框图。

参照图2，终端100可包括通信单元110、输入单元120、学习处理器130、感测单元140、输出单元150、存储器170和处理器180。

通信单元110也可被称为通信调制解调器或通信电路。

通信单元110可使用有线/无线通信技术向诸如音频装置200的外部装置发送数据以及从其接收数据。例如，通信单元110可向外部装置发送以及从其接收传感器信息、用户输入、学习模型、控制信号等。

通信单元110所使用的通信技术包括全球移动通信***(GSM)、码分多址(CDMA)、长期演进(LTE)、5G、无线LAN(WLAN)、无线保真(Wi-Fi)、Bluetooth^TM、射频识别(RFID)、红外数据协会(IrDA)、ZigBee、近场通信(NFC)等。

输入单元120可被称为输入接口。

输入单元120可获得各种类型的数据。

输入单元120可包括用于输入图像信号的相机121、用于接收音频信号的麦克风122、用于从用户接收信息的用户输入单元123等。通过将相机121或麦克风122当作传感器，从相机121或麦克风122获得的信号可被称为感测数据或传感器信息。

由输入单元120收集的语音数据或图像数据可被分析并处理为用户控制命令。

输入单元120可获得用于模型学习的训练数据、要用于使用学习模型获得输出的输入数据等。输入单元120可获得原始输入数据。在这种情况下，处理器180或学习处理器130可通过预处理输入数据来提取输入特征。

相机121处理图像帧，例如在视频呼叫模式或捕捉模式下通过图像传感器获得的静止图像或运动图像。所处理的图像帧可被显示在显示单元151上，或者可被存储在存储器170中。

麦克风122将外部声音信号处理成电语音数据。可根据终端100正在执行的功能(或运行的应用程序)以各种方式使用所处理的语音数据。另一方面，可对麦克风122应用用于消除在接收外部声音信号的过程中生成的噪声的各种噪声消除算法。

用户输入单元123被配置为从用户接收信息。当通过用户输入单元123输入信息时，处理器180可与输入信息对应控制终端100的操作。

用户输入单元123可包括机械输入手段(例如，位于终端100的正面/背面或侧面的按钮、圆顶开关、滚轮、轻摇开关等)和触摸输入手段。例如，触摸输入手段可包括通过软件处理显示在触摸屏上的虚拟键、软键或可视键，或者可包括设置在触摸屏以外的部分上的触摸键。

学习处理器130可使用训练数据来学习包括人工神经网络的模型。学习的人工神经网络可被称为学习模型。学习模型可用于针对训练数据以外的新输入数据推断结果值，并且所推断的值可用作确定执行特定操作的基础。

学习处理器130可与人工智能服务器(未示出)的学习处理器(未示出)一起执行AI处理。

学习处理器130可包括集成或实现于终端100中的存储器。另选地，学习处理器130可使用存储器170、直接联接至终端100的外部存储器或维持在外部装置中的存储器来实现。

感测单元140可被称为传感器单元或传感器。

感测单元140可使用各种传感器来获得终端100的内部信息、终端100的周围环境信息或用户信息中的至少一种。

包括在感测单元140中的传感器包括接近传感器、照度传感器、加速度传感器、磁传感器、陀螺仪传感器、惯性传感器、RGB传感器、IR传感器、指纹识别传感器、超声传感器、光学传感器、麦克风、激光雷达、雷达等。

输出单元150可被称为输出接口。

输出单元150可生成与视觉、听觉或触觉有关的输出。输出单元150可包括显示单元151、声音输出单元152、触觉模块153或光学输出单元154中的至少一个。

显示单元151显示(输出)终端100所处理的信息。例如，显示单元151可显示终端100中驱动的应用程序的执行画面信息或者根据执行画面信息的用户界面(UI)和图形用户界面(GUI)信息。

显示单元151可通过与触摸传感器形成相互层结构或与触摸传感器一体地形成来实现触摸屏。触摸屏可用作在终端100和用户之间提供输入接口的用户输入单元123，并且还可在终端100和用户之间提供输出接口。

声音输出单元152可在呼叫信号接收、呼叫模式或记录模式、语音识别模式、广播接收模式等下输出从通信单元110接收或存储在存储器170中的音频数据。声音输出单元152可包括受话器、扬声器或蜂鸣器中的至少一种。

触觉模块153生成用户可感觉到的各种触觉效果。由触觉模块153生成的触觉效果的代表性示例可以是振动。

光学输出单元154使用终端100的光源的光来输出用于通知事件的发生的信号。终端100中生成的事件的示例可包括消息接收、呼叫信号接收、未接来电、警报、日常通知、电子邮件接收、通过应用的信息接收等。

存储器170可存储支持终端100的各种功能的数据。例如，存储器170可存储从输入单元120获得的输入数据、学习数据、学习模型、学习历史等。

处理器180可控制终端100的总体操作。

由处理器180进行图像处理的图像信号可被输入至显示单元151并显示为与图像信号对应的图像。另外，由处理器180进行图像处理的图像信号可通过外部装置接口单元(未示出)输入至外部输出装置。

由处理器180处理的音频信号可通过声音输出单元152输出。另外，由处理器180处理的音频信号可通过外部装置接口单元(未示出)输入至外部输出装置。

处理器180可基于使用数据分析算法或机器学习算法确定或生成的信息来确定终端100的至少一个可执行操作。另外，处理器180可通过控制终端100的元件来执行所确定的操作。为此，处理器180可请求、检索、接收或利用学习处理器130或存储器170的数据，并且可控制终端100的元件执行至少一个可执行操作当中的预测操作或确定为可取的操作。

当需要外部装置的互连以执行确定的操作时，处理器180可生成用于控制对应外部装置的控制信号并且将所生成的控制信号发送至对应外部装置。

处理器180可针对用户输入获得意图信息，并且可基于所获得的意图信息确定用户的要求。

处理器180可使用用于将语音输入转换为字符串的言语至文本(STT)引擎或用于获得自然语言的意图信息的自然语言处理(NLP)引擎中的至少一种来获得与用户输入对应的意图信息。STT引擎或NLP引擎中的至少一个可被配置为人工神经网络，其至少一部分根据机器学习算法来学习。STT引擎或NLP引擎中的至少一个通过学习处理器130学习，可通过人工智能服务器(未示出)的学习处理器(未示出)学习，或者可通过其分布式处理来学习。

处理器180可收集包括终端100的操作内容或操作的用户反馈的历史信息，并且可将收集的历史信息存储在存储器170或学习处理器130中，或者可将收集的历史信息发送至人工智能服务器(未示出)等。收集的历史信息可用于更新学习模型。

处理器180可控制终端100的至少一些元件以便驱动存储在存储器170中的应用程序。此外，处理器180可通过将包括在终端100中的两个或更多个元件组合来驱动应用程序。

另一方面，图1所示的终端100仅是本公开的一个实施方式，因此图1所示的一些元件可根据实际要实现的终端100的规格被集成、添加或省略。

在实施方式中，两个或更多个元件可被集成为一个元件，或者一个元件可被分成两个或更多个元件。另外，提供由各个块执行的功能是为了描述本公开的实施方式，其具体操作或装置不限制本公开的范围。

图3是示出的根据本公开的实施方式的音频装置200框图。

参照图3，音频装置200可包括通信单元210、输入单元220、输出单元250、存储器270和处理器280。

通信单元210也可被称为通信调制解调器或通信电路。

通信单元210可使用有线/无线通信技术向诸如终端100的外部装置发送数据以及从其接收数据。例如，通信单元110可向外部装置发送以及从其接收传感器信息、用户输入、学习模型、控制信号等。

通信单元210所使用的通信技术包括全球移动通信***(GSM)、码分多址(CDMA)、长期演进(LTE)、5G、无线LAN(WLAN)、无线保真(Wi-Fi)、Bluetooth^TM、射频识别(RFID)、红外数据协会(IrDA)、ZigBee、近场通信(NFC)等。

通信单元210可从无线电基站接收FM无线电信号或AM无线电信号。

输入单元220可被称为输入接口。

输入单元220可包括用于接收音频信号的麦克风222、用于从用户接收信息的用户输入单元223等。通过将麦克风222当作传感器，从麦克风222获得的信号可被称为感测数据或传感器信息。

由输入单元220收集的语音数据或图像数据可被分析并处理为用户控制命令。

麦克风222将外部声音信号处理成电语音数据。可根据终端200正在执行的功能(或运行的应用程序)以各种方式使用所处理的语音数据。另一方面，可对麦克风222应用用于消除在接收外部声音信号的过程中生成的噪声的各种噪声消除算法。

用户输入单元223被配置为从用户接收信息。当通过用户输入单元223输入信息时，处理器280可与输入信息对应控制终端200的操作。

用户输入单元223可包括机械输入手段(例如，位于终端200的正面/背面或侧面的按钮、圆顶开关、滚轮、轻摇开关等)和触摸输入手段。例如，触摸输入手段可包括通过软件处理显示在触摸屏上的虚拟键、软键或可视键，或者可包括设置在触摸屏以外的部分上的触摸键。

输出单元250可被称为输出接口。

输出单元250可生成与视觉、听觉或触觉有关的输出。输出单元250可包括显示单元151、声音输出单元152、触觉模块153或光学输出单元154中的至少一个。

显示单元251显示(输出)终端200所处理的信息。例如，显示单元251可显示终端200中驱动的应用程序的执行画面信息或者根据执行画面信息的用户界面(UI)和图形用户界面(GUI)信息。

显示单元251可通过与触摸传感器形成相互层结构或与触摸传感器一体地形成来实现触摸屏。触摸屏可用作在终端200和用户之间提供输入接口的用户输入单元223，并且还可在终端100和用户之间提供输出接口。

声音输出单元252可在呼叫信号接收、呼叫模式或记录模式、语音识别模式、广播接收模式等下输出从通信单元210接收或存储在存储器270中的音频数据。声音输出单元252可包括受话器、扬声器或蜂鸣器中的至少一种。

声音输出单元252可包括隔膜、声学线圈以及围绕声学线圈形成磁场的永磁体。当电力施加到声学线圈时，可在由永磁体形成的磁场内生成电磁力以使声学线圈移动，并且隔膜可根据声学线圈的移动而振动以输出声音。

存储器270可存储支持音频装置200的各种功能的数据。例如，存储器270可存储从输入单元220获得的输入数据、从终端100接收的音频数据等。

处理器280可控制音频装置200的总体操作。

参照图4，终端100的处理器180通过通信单元110连接至多个第一音频装置200_1(S401)。

由于连接至终端100的音频装置200被称为第一音频装置200_1，所以上述步骤S401可被认为如下：终端100的处理器180通过通信单元110连接至多个音频装置200。

终端100和第一音频装置200_1可通过彼此配对来连接。为此，第一音频装置200_1可发送配对请求信号(或连接请求信号)，并且终端100可通过扫描发送配对请求信号的装置来与发送配对请求信号的第一音频装置200_1建立连接。

终端100的处理器180通过通信单元110或相机121来获得关于多个第一音频装置200_1的装置信息(S403)。

处理器180可通过通信单元110从第一音频装置200_1接收关于第一音频装置200_1的装置信息。具体地，终端100可从已经连接的第一音频装置200_1或发送连接请求信号的第一音频装置200_1接收装置信息以建立连接。

另选地，处理器180可通过相机121获得包括第一音频装置200_1的第一图像数据，可指定包括在第一图像数据中的第一音频装置200_1，并且可获得关于特定第一音频装置200_1的装置信息。为此，处理器180可使用对象识别模型从第一图像数据指定第一音频装置200_1，并且可通过互联网或外部服务器(未示出)接收关于所识别的第一音频装置200_1的装置信息。

装置信息可包括装置名称、装置型号名称、装置序列号、音频声道信息、声级信息、均衡器信息等。音频声道信息可指音频装置200可输出的音频声道的数量和音频声道的配置信息。为了使用多个音频装置200输出多声道音频，处理器180可实质上获得关于第一音频装置200_1的音频声道信息。

尽管图4示出在执行连接至第一音频装置200_1的步骤S401之后执行获得关于第一音频装置200_1的装置信息的步骤S403，但本公开不限于此。即，根据实施方式，将终端100连接至第一音频装置200_1的步骤S401和获得关于第一音频装置200_1的装置信息的步骤S403可同时执行，或者可以相反的顺序执行。

终端100的处理器180考虑装置信息来配置包括多个第一音频装置200_1当中的至少两个第二音频装置200_2的多声道音频***(S405)。

处理器180可考虑关于多个连接的第一音频装置200_1的装置信息来确定各个第一音频装置200_1的音频声道，并且可基于此来配置包括多个第一音频装置200_1当中的至少两个第二音频装置200_2的多声道音频***。

处理器180可在配置多声道音频***的同时生成音频***信息。音频***信息可包括多声道音频***的音频声道信息、关于各个第二音频装置200_2的音频声道分配信息、音量信息、布置位置信息等。

此外，处理器180可通过输出单元150来输出关于配置的多声道音频***的音频***信息。

处理器180可基于音频***信息来输出构成多声道音频***的第二音频装置200_2、关于各个第二音频装置200_2的音频声道分配信息、关于各个第二音频装置200_2的音量信息或关于各个第二音频装置200_2的布置位置信息。

处理器180通过输出单元150输出关于各个第二音频装置200_2的布置位置信息，从而引导用户将第二音频装置200_2布置在适合于配置的多声道音频***的位置处。

此外，处理器180可通过输出单元150询问用户是否配置多声道音频***，并且可基于用户输入配置或不配置多声道音频***。

终端100的处理器180通过多声道音频***输出音频数据(S407)。

处理器180可通过构成多声道音频***的第二音频装置200_2输出存储在存储器170中的音频数据或从内容提供方300接收的音频数据。

如图8所示，处理器180可基于多声道音频***的音频声道信息对音频数据进行上混，并且可通过多声道音频***输出上混的音频数据。另外，如图10所示，处理器180可考虑音频数据的音频特性来确定音效，并且可通过多声道音频***输出应用了音效的上混的音频数据。另外，处理器180可对音频数据进行上混，对其应用音效，并且通过多声道音频***来输出结果数据。当执行音频数据的上混和音效的应用二者时，首先执行哪一个无关紧要。

图4所示的步骤顺序仅是示例，本公开不限于此。即，图4所示的一些步骤的顺序可改变并执行。另外，图4所示的一些步骤的顺序可并行执行。另外，可仅执行图4所示的一些步骤。

图5是示出使用终端的相机获得音频装置的装置信息的示例的图。

参照图5，终端510可通过相机获得包括音频装置520的图像数据(或第一图像数据)531，可通过识别包括在所获得的图像数据中的音频装置520来指定音频装置520，并且可获得指定的音频装置520的装置信息532。

终端510可直接从图像数据识别和指定音频装置520，但是可将图像数据发送至单独的外部服务器(未示出)并从外部服务器(未示出)获得包括在图像数据中的音频装置520的识别信息。

此外，终端510可通过显示单元输出音频装置520的装置信息532。

在图5所示的示例中，终端510包括多个显示单元，但本公开不限于此。即，终端510可包括一个显示单元或多个显示单元。

图6是示出配置图4所示的多声道音频***的步骤S405的示例的流程图。

参照图6，终端100的处理器180通过相机121获得多声道音频***的聆听空间的第二图像数据(S601)。

多声道音频***的聆听空间可指要布置构成多声道音频***的多个第二音频装置200_2的空间，并且还可指用于聆听通过多个音频装置200_2输出的音频的空间。

终端100的处理器180通过输入单元120获得关于第二图像数据的聆听位置信息(S603)。

处理器180可通过显示单元151输出第二图像数据，并且可通过用户输入单元123获得关于第二图像数据的聆听位置信息。当显示单元151是能够触摸输入的触摸屏时，处理器180可通过显示单元151获得关于第二图像数据的聆听位置信息。

终端100的处理器180基于关于第一音频装置200_1的装置信息和聆听位置信息来确定音频***信息(S605)。

处理器180可基于各个第一音频装置200_1的音频声道信息来确定第二音频装置200_2以配置多声道音频***，并且可确定关于各个第二音频装置200_2的音频声道分配信息和音量信息。另外，处理器180可基于关于第二音频装置200_2的音频声道分配信息、音量信息和聆听位置信息来确定关于第二音频装置200_2的布置位置信息。

终端100的处理器180通过显示单元151输出音频***信息(S607)。

处理器180可通过显示单元151显示构成多声道音频***的第二音频装置200_2的列表、分配给各个第二音频装置200_2的音频声道信息以及第二音频装置200_2的布置位置。具体地，处理器180可将第二音频装置200_2的布置位置显示在第二图像数据上。

图7是示出在终端中输出音频***信息的示例的图。

参照图7，终端710可通过相机获得多声道音频***的聆听空间720的图像数据(或第二图像数据)731，可获得通过输入单元120获得的图像数据731的聆听位置信息732，并且可基于音频装置740_1至740_5的装置信息和聆听位置信息732来配置多声道音频***。

聆听空间720的图像数据731可指为提供增强现实(AR)而捕捉的图像数据。

终端710的显示单元可以是触摸屏，终端710可将第二图像数据731输出至显示单元，并且用户(未示出)可通过触摸输出至显示单元的第二图像数据731中的聆听位置来输入聆听位置信息732。

如上所述，终端710可通过在连接的第一音频装置当中确定配置多声道音频***的第二音频装置740_1至740_5，并且确定包括关于第二音频装置740_1至740_5中的每一个的音频声道分配信息、关于第二音频装置740_1至740_5中的每一个的音量信息以及关于第二音频装置740_1至740_5中的每一个的布置位置信息的音频***信息来构成多声道音频***。

终端710可通过显示单元输出构成多声道音频***的第二音频装置740_1至740_5的列表733。

终端710可通过显示单元输出第二图像数据731和构成多声道音频***的第二音频装置740_1至740_5中的每一个的布置位置。在这种情况下，终端710可将第二音频装置740_1至740_5的第一图像数据531显示在第二图像数据731上与确定的布置位置信息对应的位置。

在图7所示的示例中，终端710包括多个显示单元，但本公开不限于此。即，终端710可包括一个显示单元或多个显示单元。

图8是示出通过图4所示的多声道音频***输出音频数据的步骤S407的示例的流程图。

参照图8，终端100的处理器180确定音频数据的声道数量是否小于多声道音频***的声道数量(S801)。

处理器180可通过音频***信息的音频声道信息来检查多声道音频***的声道数量。例如，当处理器180配置六个第二音频装置200_2作为一个多声道音频***时，音频***信息的音频声道信息可以是5.1声道。

作为步骤S801中的确定结果，当音频数据的声道数量小于多声道音频***的声道数量时，终端100的处理器180对音频数据进行上混(S803)并通过多声道音频***输出上混的音频数据(S805)。

处理器180可根据多声道音频***的音频声道数量直接对音频数据进行上混，或者可通过上混服务器300对音频数据进行上混。处理器180可通过通信单元110将多声道音频***的音频数据和音频声道信息发送至上混服务器300，上混服务器300可基于多声道音频***的所接收的音频数据和所接收的音频声道信息对音频数据进行上混，并且处理器180可通过通信单元110从上混服务器300接收上混的音频数据。

作为步骤S801中的确定结果，当音频数据的声道数量不小于多声道音频***的声道数量时，终端100的处理器180通过多声道音频***输出未上混的音频数据(S807)。

尽管图8示出当音频数据的声道数量小于多声道音频***的声道数量时终端100对音频数据进行上混的示例，但本公开不限于此。在另一实施方式中，即使当音频数据的声道数量小于多声道音频***的声道数量时，终端100也可在不对音频数据进行上混的情况下通过多声道音频***输出音频数据。

图9是示出对音频数据进行上混的示例的图。

参照图9，在配置多声道音频***之后，终端910可输出构成多声道音频***并对与多声道音频***对应的信息进行上混的音频装置930_1至930_5的数量(921)。

另外，当终端910配置多声道音频***时，或者当终端910通过多声道音频***输出音频数据时，终端910可根据多声道音频***输出询问是否对音频数据进行上混的通知(922)。

图10是示出通过图4所示的多声道音频***输出音频数据的步骤S407的示例的流程图。

参照图10，终端100的处理器180确定在输出音频数据时是否应用音效(S1001)。

处理器180可基于通过输入单元120的用户输入或预定设置值来确定在输出音频数据时是否应用音效。音效可包括均衡器或立体声中的至少一种。

当在步骤S1001中确定应用音效时，终端100的处理器180基于音频数据的音频特性来确定音效(S1003)，并且通过多声道音频***输出应用了音效的音频数据(S1005)。

处理器180可考虑包括在音频数据中的声波的频率分布、语音、背景声音等来分析音频数据的音频特性，并且可基于所分析的音频数据的音频特性来确定音效。

处理器180可基于音频数据的音频特性来确定音频数据的内容，并且可通过选择与所确定的内容对应的预设音效来确定要应用于音频数据的音效。

处理器180可基于音频数据的内容来确定音效的模式标志，并且可根据所确定的模式标志来应用音效。下[表1]示出音效的模式标志的示例。

[表1]

模式标志	音效	内容
			0	中心提升	新闻，体育
1	加宽	音乐
			2	四周加宽	电影
3	默认	娱乐节目

参照上[表1]，“中心提升”立体声音效可应用于与主要是语音分量的新闻或体育对应的音频数据，“加宽”立体声音效可应用于与具有大量背景声音的双声道音乐对应的音频数据，“四周加宽”立体声音效可应用于与电影对应的音频数据，无立体声音效可不应用于与由于频繁场景改变而难以给予立体声效果的娱乐节目对应的音频数据。处理器180可使用配置有人工神经网络的音频分析模型来分析音频数据的音频特性。例如，音频分析模型可以是在输入音频数据时确定并输出包括在音频数据中的内容或流派的模型，或者可以是在输入音频数据时确定并输出要应用于音频数据的音效或模式标志的模型。

处理器180可通过直接分析音频数据的音频数据来确定音效，或者可通过经由外部服务器(例如，上混服务器300等)分析音频数据来确定音效。处理器180可通过通信单元110将音频数据发送至外部服务器，外部服务器可通过分析所接收的音频数据的音频特性来确定音效，并且处理器180可通过通信单元110从外部服务器接收所确定的音效信息。

处理器180可对音频数据应用音效并且通过将关于所确定的音效的信息(例如，模式标志)与音频数据一起发送至第二音频装置200_2来输出音频数据。另选地，处理器180可对音频数据应用音效并且通过在对音频数据应用音效之后将应用了音效的音频数据发送至第二音频装置200_2来输出音频数据。

当作为步骤S1001中的确定结果未应用音效时，终端100的处理器180通过多声道音频***输出未应用音效的音频数据(S1007)。

图11和图12是示出根据本公开的实施方式的多声道音频输出***1100和1200的图。

参照图11和图12，根据本公开的实施方式的多声道音频输出***1100和1200可包括终端1110、多个音频装置1120_1至1120_4、显示装置1130和1230以及麦克风1140。在图11中，显示装置1130可以是诸如TV或包括显示面板的监视器的装置。在图12中，显示装置1230可以是通过光源将与图像对应的光投射到墙壁或屏幕1235上的投影仪。

终端1110可连接至多个音频装置1120_1至1120_4，可利用连接的音频装置1120_1至1120_4配置多声道音频***，并且可通过配置多声道音频***的多个音频装置1120_1至1120_4输出音频数据。终端1110可通过显示单元(1111)输出关于多声道音频***的信息以及询问是否可进行与多声道音频***对应的上混以及是否执行上混的通知。

终端1110可连接至显示装置1130和1230并且通过连接的显示装置1130输出图像数据。另外，终端1110可连接至麦克风1140并且通过连接的麦克风1140接收音频数据。

终端1110可利用多个音频装置1120_1至1120_4配置多声道音频***并且将多声道音频***的音频***信息发送至连接的显示装置1130和1230。另外，终端1110可考虑分配给多个音频装置1120_1至1120_4中的每一个的音频声道来确定音频装置1120_1至1120_4中的每一个的布置位置信息，并且可通过显示单元输出所确定的布置位置信息。因此，即使在显示装置1130和1230从终端1110断开之后，显示装置1130和1230仍可通过构成多声道音频***的多个音频装置1120_1至1120_4输出多声道音频。

在实施方式中，多声道音频输出***1100和1200可提供家庭卡拉OK服务。为此，终端1110可执行卡拉OK应用，可通过显示装置1130和1230显示卡拉OK应用画面，可通过多个音频装置1120_1至1120_4输出卡拉OK应用的声音，并且可通过麦克风1140接收用户的语音。

在实施方式中，多声道音频输出***1100和1200可提供家庭影院服务。为此，终端1110可通过显示装置1130和1230显示视频内容的图像，并且可通过多个音频装置1120_1至1120_4输出视频内容的音频。

尽管图11和图12中未示出，终端1110可从单独的内容提供方400接收包括音频数据的内容。另外，终端1110可通过单独的上混服务器300对音频数据进行上混。

根据本公开的实施方式，上述方法可利用计算机可读取的代码实现在记录有程序的介质上。计算机可读介质包括存储计算机***可读取的数据的任何类型的记录装置。计算机可读介质的示例包括硬盘驱动器(HDD)、固态盘(SSD)、硅磁盘驱动器(SDD)、ROM、RAM、CD-ROM、磁带、软盘、光学数据存储装置等。

Claims

1.一种使用多个音频装置输出多声道音频的终端，该终端包括：

相机；

连接至多个第一音频装置的通信单元；以及

处理器，该处理器被配置为：

通过所述通信单元或所述相机获得关于所述多个第一音频装置的装置信息；

考虑所述装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；并且

基于与所述多声道音频***对应的音频***信息通过所述第二音频装置来输出音频数据。

2.根据权利要求1所述的终端，其中，所述装置信息包括关于所述多个第一音频装置中的每一个的音频声道信息和音量信息。

3.根据权利要求2所述的终端，其中，所述处理器被配置为：

通过所述相机获得包括所述第一音频装置的第一图像数据；

指定包括在所述第一图像数据中的所述第一音频装置；并且

获得与所指定的第一音频装置对应的装置信息。

4.根据权利要求2所述的终端，其中，所述音频***信息包括所述多声道音频***的音频声道信息以及音频声道分配信息、音量信息和关于所述第二音频装置的布置位置信息。

5.根据权利要求4所述的终端，其中，所述处理器被配置为：

通过所述相机获得所述多声道音频***的聆听空间的第二图像数据；并且

基于所述第二图像数据来确定所述布置位置信息。

6.根据权利要求5所述的终端，该终端还包括输入单元，

其中，所述处理器被配置为：

通过所述输入单元从用户获得所述第二图像数据中的聆听位置信息；并且

基于所述聆听位置信息来确定所述布置位置信息。

7.根据权利要求6所述的终端，该终端还包括显示单元，

其中，所述处理器被配置为通过所述显示单元来输出关于所述第二音频装置的所述布置位置信息。

8.根据权利要求4所述的终端，其中，所述处理器被配置为：

当所述音频数据的所述声道数量小于所述音频声道信息的所述声道数量时，对所述音频数据进行上混；并且

通过所述第二音频装置输出上混的音频数据。

9.根据权利要求8所述的终端，其中，所述通信单元被配置为从所述上混服务器接收与所述音频数据对应的上混的音频数据。

10.根据权利要求2所述的终端，其中，所述处理器被配置为：

基于所述音频数据的音频特性来确定音效；并且

通过将所述音效反映到所述音频数据通过所述第二音频装置来输出所述音频数据。

11.根据权利要求10所述的终端，其中，所述音效包括均衡器或立体声中的至少一个。

12.根据权利要求10所述的终端，其中，所述处理器被配置为使用包括人工神经网络的音频分析模型来分析与所述音频数据对应的音频特性。

13.一种使用多个音频装置来输出多声道音频的方法，该方法包括以下步骤：

通过通信单元连接至多个第一音频装置；

通过所述通信单元或相机获得关于所述多个第一音频装置的装置信息；

14.一种记录有使用多个音频装置输出多声道音频的方法的记录介质，所述方法包括以下步骤：

通过通信单元连接至多个第一音频装置；

考虑所述装置信息配置包括所述多个第一音频装置当中的至少两个第二音频装置的多声道音频***；以及