BR112018011019B1

BR112018011019B1 - TRANSMISSION APPLIANCE AND METHOD, AND RECEPTION APPLIANCE AND METHOD

Info

Publication number: BR112018011019B1
Application number: BR112018011019-1A
Authority: BR
Inventors: Ikuo Tsukagoshi
Original assignee: Sony Corporation
Priority date: 2015-12-08
Filing date: 2016-12-06
Publication date: 2023-07-04

Abstract

APARELHO E MÉTODO DE TRANSMISSÃO, E, APARELHO E MÉTODO DE RECEPÇÃO. A invenção visa a aumentar a conveniência de processamento de um fluxo contínuo de áudio em um lado de recepção. Na presente invenção, um processo de codificação é realizado nos dados de áudio, e um fluxo contínuo de áudio no qual os quadros de áudio que incluem os dados de compressão de áudio são colocados sucessivamente é gerado. A informação de marcador que indica a inclusão dos dados de compressão de áudio para uma unidade de som predeterminada é inserida em um quadro de áudio que inclui os dados de compressão de áudio para uma unidade de som predeterminada. Um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador foi inserida é transmitido.TRANSMISSION APPARATUS AND METHOD, AND RECEPTION APPLIANCE AND METHOD. The invention aims at increasing the convenience of processing a continuous stream of audio on a receiving side. In the present invention, an encoding process is performed on the audio data, and an audio stream in which audio frames including audio compression data are placed successively is generated. Marker information indicating the inclusion of audio compression data for a predetermined sound unit is inserted into an audio frame that includes audio compression data for a predetermined sound unit. A container stream of a predetermined format that includes the audio stream into which the marker information was inserted is transmitted.

Description

Campo TécnicoTechnical Field

[001] A presente tecnologia refere-se a um aparelho de transmissão, a um método de transmissão, a um aparelho de recepção e a um método de recepção e, mais particularmente, a um aparelho de transmissão ou congêneres que transmitem um fluxo contínuo de áudio em um serviço de distribuição anexado com voz ou congêneres.[001] The present technology relates to a transmitting apparatus, a transmitting method, a receiving apparatus and a receiving method, and more particularly to a transmitting apparatus or the like that transmit a continuous stream of audio on a voice-attached distribution service or the like.

Fundamentos da InvençãoFundamentals of the Invention

[002] Por exemplo, PTL 1 descreve que informação predeterminada é inserida em um fluxo contínuo de dados de compressão de áudio e é transmitida a partir de uma estação de difusão, um servidor de distribuição ou congêneres e o processamento é realizado usando a informação predeterminada em um lado de recepção.[002] For example, PTL 1 describes that predetermined information is inserted into a continuous stream of audio compression data and is transmitted from a broadcast station, a distribution server or the like and processing is performed using the predetermined information on a receiving side.

[003] Adicionalmente, por exemplo, PTL 2 descreve, como uma tecnologia de som tridimensional (3D), uma tecnologia de renderização de áudio 3D para o mapeamento de dados de áudio de uma fonte de som do objeto para um alto-falante que existe em qualquer local com base em sua informação posicional.[003] Additionally, for example, PTL 2 describes, as a three-dimensional (3D) sound technology, a 3D audio rendering technology for mapping audio data from an object sound source to a speaker that exists at any location based on its positional information.

[004] Lista de Citação Literatura de Patente PTL 1 JP 2012-010311A PTL 2 JP 2014-520491A[004] Patent Literature Citation List PTL 1 JP 2012-010311A PTL 2 JP 2014-520491A

Sumário da InvençãoSummary of the Invention Problema TécnicoTechnical problem

[005] Um objetivo da presente tecnologia é facilitar um processo de um fluxo contínuo de áudio em um lado de recepção.[005] One goal of the present technology is to facilitate a process of a continuous stream of audio on a receiving side.

Solução para o ProblemaSolution to the Problem

[006] Um conceito da presente tecnologia reside em um aparelho de transmissão que inclui uma seção de geração de fluxo contínuo configurada para gerar um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado, uma seção de inserção da informação configurada para inserir a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada e uma seção de transmissão configurada para transmitir um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida.[006] One concept of the present technology resides in a transmission apparatus that includes a streaming generation section configured to generate an audio streaming in which an audio frame that includes the audio compression data obtained by performing the processing of encoding in the audio data is continuously arranged, an information insertion section configured to insert the marker information that indicates that the audio compression data of a predetermined sound unit is included in the audio frame that includes the compression data audio stream from the predetermined sound unit and a transmission section configured to transmit a container stream of a predetermined format that includes the audio stream into which the marker information is inserted.

[007] Na presente tecnologia, o processamento de codificação é realizado nos dados de áudio e um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado é gerado pela seção de geração de fluxo contínuo. A informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada pela seção de inserção da informação. Aqui, a unidade de som significa uma coesão correspondente a qualquer tempo de um som, tais como uma voz humana (voz), um chiado de animais ou um som ambiente. Um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida é transmitido pela seção de transmissão.[007] In the present technology, encoding processing is performed on the audio data, and an audio stream in which an audio frame including the audio compression data is continuously arrayed is generated by the streaming generation section. The marker information indicating that the audio compression data of a predetermined sound unit is included is inserted into the audio frame that includes the audio compression data of the predetermined sound unit by the information insertion section. Here, the unit of sound means a cohesion corresponding to any time of a sound, such as a human voice (voice), an animal squeak or an ambient sound. A container stream of a predetermined format that includes the audio stream into which the marker information is inserted is transmitted by the transmission section.

[008] Por exemplo, a informação de marcador pode ter a informação de tipo que indica que uma posição inicial dos dados de compressão de áudio da unidade de som predeterminada está incluída, uma posição final dos mesmos está incluída, ou nenhuma da posição inicial e da posição final está incluída. Neste caso, por exemplo, a informação de marcador pode ter a informação de deslocamento que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial quando a informação de tipo indicar que a posição inicial está incluída e que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final quando a informação de tipo indicar que a posição final está incluída.[008] For example, the marker information may have type information that indicates that a start position of the predetermined sound unit audio compression data is included, an end position thereof is included, or none of the start position and of the final position is included. In this case, for example, the marker information may have offset information that indicates an offset of one sample unit from a frame header to the starting position when the type information indicates that the starting position is included and that it indicates a displacement of one sample unit of a frame header to the final position when the type information indicates that the final position is included.

[009] Adicionalmente, por exemplo, a informação de marcador pode ter a informação de contagem de quadro que indica uma posição de quadro a partir de um cabeçalho de serviço do quadro de áudio no qual a informação de marcador é inserida. Adicionalmente, por exemplo, quando a unidade de som predeterminada for provida em pluralidade, a informação de marcador pode ter a informação de identificação da unidade de som para identificar uma correspondente unidade de som.[009] Additionally, for example, the marker information may have frame count information that indicates a frame position from a service header of the audio frame into which the marker information is inserted. Additionally, for example, when the predetermined sound unit is provided in plurality, the marker information may have sound unit identification information to identify a corresponding sound unit.

[0010] Adicionalmente, por exemplo, quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação de marcador pode ter a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som. Aqui, em um caso no qual o som for uma voz humana (voz), a fonte de geração significa um alto-falante, tais como “Sr. A”, “Sra. B”, um “homem”, um “mulher”, um “adulto”, ou uma “criança”, em um caso no qual o som for um chiado de animais, a fonte de geração significa um tipo de animais ou congêneres, tais como um “cão” ou um “gato”, e em um caso no qual o som for um som ambiente, a fonte de geração significa um local de geração de som ambiente, tais como um “local de construção”, uma “sala de concertos”, ou um “campo de futebol”, ou um próprio som ambiente, tais como um “som de ondas”, um “som de um furacão” ou “estrondos de trovão”.[0010] Additionally, for example, when the predetermined sound unit is provided in plurality and the sound units of a plurality of generation sources are included in the plurality of sound units, the marker information may have the identification information of the generation source to identify the generation source of the corresponding sound unit. Here, in a case where the sound is a human voice (voice), the generation source means a loudspeaker, such as “Mr. Mrs. B", a "man", a "woman", an "adult", or a "child", in a case where the sound is an animal squeal, the source of generation means a kind of animals or congeners, such such as a “dog” or a “cat”, and in a case where the sound is an ambient sound, the source of generation means an ambient sound generation place, such as a “construction site”, a “living room”. concerts”, or a “soccer field”, or an ambient sound itself, such as a “wave sound”, a “hurricane sound” or “thunder rumbles”.

[0011] Adicionalmente, por exemplo, a seção de geração de fluxo contínuo pode realizar o processamento de codificação nos dados de áudio de uma pluralidade de grupos e gerar o fluxo contínuo de áudio no qual o quadro de áudio que inclui os dados de compressão de áudio da pluralidade de grupos é continuamente arranjado, e a informação de marcador pode ter a informação de identificação de grupo para identificar um grupo ao qual os dados de compressão de áudio da unidade de som predeterminada pertencem. Neste caso, por exemplo, quando um grupo indicado pela informação de identificação de grupo for um grupo que constitui um grupo de comutação predeterminado, a informação de marcador pode ter a informação de identificação do grupo de comutação para identificar o grupo de comutação predeterminado.[0011] Additionally, for example, the streaming generation section can perform encoding processing on the audio data of a plurality of groups and generate the audio streaming in which the audio frame including the compression data of audio of the plurality of groups is continuously arrayed, and the marker information may have group identification information to identify a group to which the audio compression data of the predetermined sound unit belongs. In this case, for example, when a group indicated by the group identification information is a group constituting a predetermined switching group, the marker information may have the switching group identification information to identify the predetermined switching group.

[0012] Da forma supradescrita, na presente tecnologia, a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Portanto, é possível segmentar facilmente os dados de áudio correspondentes à unidade de som predeterminada e usar os dados de áudio para uma transmissão de som, uma exibição de legenda ou congêneres com base na informação de marcador no lado de recepção.[0012] As described above, in the present technology, the marker information indicating that the audio compression data of a predetermined sound unit is included is inserted into the audio frame that includes the audio compression data of the sound unit predetermined. Therefore, it is possible to easily segment the audio data corresponding to the predetermined sound unit and use the audio data for a sound transmission, subtitle display or the like based on the marker information on the receiving side.

[0013] Percebe-se que, na presente tecnologia, por exemplo, a seção de inserção da informação pode inserir adicionalmente a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em uma camada do fluxo contínuo de contêiner e/ou em uma camada do fluxo contínuo de áudio. Por exemplo, a informação associada com a unidade de som predeterminada pode ter a informação de contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço do quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada.[0013] It is noticed that, in the present technology, for example, the information insertion section can additionally insert the table information that has the information associated with the predetermined sound unit in the audio stream in a layer of the stream container and/or in an audio streaming layer. For example, the information associated with the predetermined sound unit may have frame count information that indicates the frame position from the service header of the audio frame that includes the audio compression data of the predetermined sound unit.

[0014] Adicionalmente, por exemplo, quando a unidade de som predeterminada for provida em pluralidade, a informação associada com a pluralidade de unidades de som pode ter a informação de identificação da unidade de som para identificar a correspondente unidade de som, individualmente. Adicionalmente, por exemplo, quando a unidade de som predeterminada for provida em pluralidade e as unidades de som da pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação associada com a pluralidade de unidades de som pode ter a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som, individualmente.[0014] Additionally, for example, when the predetermined sound unit is provided in plurality, the information associated with the plurality of sound units may have sound unit identification information to identify the corresponding sound unit individually. Additionally, for example, when the predetermined sound unit is provided in plurality and the sound units of the plurality of generation sources are included in the plurality of sound units, the information associated with the plurality of sound units may have the information of generation source identification to identify the generation source of the corresponding sound unit individually.

[0015] Da forma supradescrita, a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio é inserida em uma camada do fluxo contínuo de contêiner e/ou em uma camada do fluxo contínuo de áudio e, portanto, é possível realizar um processo com base na informação associada com a unidade de som predeterminada da informação de tabela no lado de recepção. Por exemplo, a partir do armazenamento no qual o fluxo contínuo de contêiner é gravado, é possível realizar facilmente a leitura a partir de uma posição na qual os dados de compressão de áudio da unidade de som predeterminada estão incluídos.[0015] As described above, the table information having the information associated with the predetermined sound unit in the audio stream is inserted into a container stream layer and/or into an audio stream layer and, therefore, it is possible to perform a process based on the information associated with the predetermined sound unit of the table information on the receiving side. For example, from the storage to which the container stream is written, you can easily read from a position where the predetermined sound unit's audio compression data is included.

[0016] Além do mais, um outro conceito da presente tecnologia reside em um aparelho de recepção que inclui uma seção de recepção configurada para receber um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado. O quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos. O aparelho de recepção inclui adicionalmente uma seção de processamento configurada para realizar um processo do fluxo contínuo de áudio pelo uso da informação de marcador.[0016] Furthermore, another concept of the present technology resides in a receiving apparatus that includes a receiving section configured to receive a container stream of a predetermined format that includes a stream of audio in which an audio frame which includes the audio compression data is continuously arranged. The audio frame that includes the audio compression data of a predetermined sound unit includes marker information that indicates that the audio compression data of the predetermined sound unit is included. The receiving apparatus further includes a processing section configured to process the audio stream by using the marker information.

[0017] Na presente tecnologia, um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado é recebido pela seção de recepção. O quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos. O processo do fluxo contínuo de áudio é realizado pelo uso da informação de marcador pela seção de processamento.[0017] In the present technology, a container stream of a predetermined format that includes an audio stream in which an audio frame that includes the audio compression data is continuously arrayed is received by the receiving section. The audio frame that includes the audio compression data of a predetermined sound unit includes marker information that indicates that the audio compression data of the predetermined sound unit is included. The audio streaming process is accomplished by using the marker information by the processing section.

[0018] Por exemplo, a seção de processamento pode incluir uma seção de decodificação configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio e uma seção de segmentação e contenção de dados configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação e conter os dados de áudio em um armazenamento temporário com base na informação de marcador. Neste caso, por exemplo, a seção de processamento pode incluir adicionalmente uma seção de transmissão de dados configurada para ler e transmitir os dados de áudio correspondentes à unidade de som predeterminada provenientes do armazenamento temporário com base na informação operacional de um usuário.[0018] For example, the processing section may include a decoding section configured to perform decoding processing on the audio compression data included in each audio frame of the audio stream and obtain the audio data and a decoding section. segmentation and data contention configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section and contain the audio data in a temporary storage based on the marker information. In this case, for example, the processing section may additionally include a data transmission section configured to read and transmit the audio data corresponding to the predetermined sound unit coming from the temporary storage based on the operational information of a user.

[0019] Adicionalmente, por exemplo, a seção de processamento pode incluir uma seção de decodificação configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio e uma seção de geração de dados de legenda configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação, realizar uma conversão de texto e gerar os dados de legenda com base na informação de marcador.[0019] Additionally, for example, the processing section may include a decoding section configured to perform decoding processing on the audio compression data included in each audio frame of the audio stream and obtain the audio data and a subtitle data generation section configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section, perform a text conversion, and generate the subtitle data based on the marker information.

[0020] Da forma supradescrita, na presente tecnologia, a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos, que é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada, é usada e o processo de um fluxo contínuo de áudio é realizado. Portanto, os dados de áudio correspondentes à unidade de som predeterminada são facilmente habilitados para ser segmentados e usados para uma transmissão de som, uma exibição de legenda ou congêneres.[0020] As described above, in the present technology, the marker information indicating that the audio compression data of a predetermined sound unit is included, which is inserted into the audio frame that includes the audio compression data of the unit predetermined sound source is used and the process of a continuous audio stream is performed. Therefore, the audio data corresponding to the predetermined sound unit is easily enabled to be segmented and used for a sound transmission, subtitle display or the like.

[0021] Além do mais, um outro conceito da presente tecnologia reside em um aparelho de recepção que inclui uma seção de recepção configurada para receber um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado. O quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, uma camada do fluxo contínuo de contêiner e/ou uma camada do fluxo contínuo de áudio incluem a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio. O aparelho de recepção inclui adicionalmente uma seção de controle configurada para controlar o fluxo contínuo de contêiner recebido a ser gravado em um armazenamento, o fluxo contínuo de contêiner a ser lido a partir do armazenamento, o fluxo contínuo de áudio incluído no fluxo contínuo de contêiner lido a ser processado. A seção de controle controla o fluxo contínuo de contêiner a ser lido a partir do armazenamento com base na informação associada com a unidade de som predeterminada da informação de tabela.[0021] Furthermore, another concept of the present technology resides in a receiving apparatus that includes a receiving section configured to receive a container stream of a predetermined format that includes a stream of audio in which an audio frame which includes the audio compression data is continuously arranged. The audio frame that includes the audio compression data of a predetermined sound unit includes marker information that indicates that the audio compression data of the predetermined sound unit is included, a layer of the container stream, and/or an audio stream layer include table information having information associated with the predetermined sound unit in the audio stream. The receiving apparatus further includes a control section configured to control the incoming container stream to be recorded into a storage, the container stream to be read from the storage, the audio stream included in the container stream read to be processed. The control section controls the continuous flow of container to be read from the storage based on the information associated with the predetermined sound unit of the table information.

[0022] Na presente tecnologia, um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado é recebido pela seção de recepção. O quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos. Adicionalmente, uma camada do fluxo contínuo de contêiner e/ou uma camada do fluxo contínuo de áudio incluem a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio.[0022] In the present technology, a container stream of a predetermined format that includes an audio stream in which an audio frame that includes the audio compression data is continuously arrayed is received by the receiving section. The audio frame that includes the audio compression data of a predetermined sound unit includes marker information that indicates that the audio compression data of the predetermined sound unit is included. Additionally, a container stream layer and/or an audio stream layer include table information having information associated with the predetermined sound unit in the audio stream.

[0023] O fluxo contínuo de contêiner recebido é controlado para ser gravado no armazenamento pela seção de controle. Por exemplo, o armazenamento é um armazenamento local ou um armazenamento online (o armazenamento em uma rede). Além do mais, o fluxo contínuo de contêiner é controlado para ser lido a partir do armazenamento pela seção de controle. Neste caso, o fluxo contínuo de contêiner é controlado com base na informação associada com a unidade de som predeterminada da informação de tabela.[0023] The incoming container stream is controlled to be written to storage by the control section. For example, the storage is local storage or online storage (storage on a network). Furthermore, the continuous stream of container is controlled to be read from the storage by the control section. In this case, the container streaming is controlled based on the information associated with the predetermined sound unit of the table information.

[0024] Da forma supradescrita, na presente tecnologia, o fluxo contínuo de contêiner é controlado para ser lido a partir do armazenamento com base na informação associada com a unidade de som predeterminada da informação de tabela. Portanto, por exemplo, a partir do armazenamento, é possível ler facilmente o fluxo contínuo de contêiner em uma posição na qual os dados de compressão de áudio da unidade de som predeterminada estão incluídos.[0024] As described above, in the present technology, the container stream is controlled to be read from the storage based on the information associated with the predetermined sound unit of the table information. So, for example, from storage, you can easily read the container stream at a position where the predetermined sound unit's audio compression data is included.

Efeito Vantajoso da InvençãoAdvantageous Effect of the Invention

[0025] De acordo com a presente tecnologia, é possível facilitar um processo de um fluxo contínuo de áudio no lado de recepção. Percebe-se que o efeito descrito nesta especificação é somente um exemplo e não define nenhuma limitação, e pode haver efeitos adicionais.[0025] According to the present technology, it is possible to facilitate a process of a continuous stream of audio on the receiving side. It is understood that the effect described in this specification is only an example and does not define any limitations, and there may be additional effects.

Breve Descrição dos DesenhosBrief Description of the Drawings

[0026] A figura 1 é um diagrama de blocos que ilustra um exemplo de configuração de um sistema de transmissão e recepção como uma modalidade.[0026] Figure 1 is a block diagram illustrating an example configuration of a transmission and reception system as a modality.

[0027] A figura 2 é um diagrama que ilustra um exemplo de estrutura de um quadro de áudio nos dados de transporte do áudio MPEG-H 3D.[0027] Figure 2 is a diagram illustrating an example of the structure of an audio frame in the MPEG-H 3D audio transport data.

[0028] A figura 3 é um diagrama que descreve um tipo de pacote inovadoramente definido.[0028] Figure 3 is a diagram describing an innovatively defined packet type.

[0029] A figura 4 é um diagrama que ilustra um exemplo de configuração dos dados de transporte do áudio MPEG-H 3D.[0029] Figure 4 is a diagram illustrating an example of MPEG-H 3D audio transport data configuration.

[0030] A figura 5 é um diagrama que ilustra esquematicamente um exemplo de configuração do quadro de áudio em um caso de transmissão do quadro de áudio em um fluxo contínuo ou em múltiplos fluxos contínuos.[0030] Figure 5 is a diagram that schematically illustrates an example of audio frame configuration in a case of audio frame transmission in a continuous stream or in multiple continuous streams.

[0031] A figura 6 é um diagrama que ilustra um exemplo de um relacionamento de correspondência entre um fluxo contínuo de áudio no qual o quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado e uma unidade de som.[0031] Fig. 6 is a diagram illustrating an example of a correspondence relationship between a continuous stream of audio in which the audio frame that includes the audio compression data is continuously arrayed and a unit of sound.

[0032] A figura 7 é um diagrama que ilustra em resumo um exemplo de conteúdos da informação de marcador “Speech_tag_information()” incluída no quadro de áudio.[0032] Figure 7 is a diagram that summarizes an example of the contents of the tag information “Speech_tag_information()” included in the audio frame.

[0033] A figura 8 é um diagrama que ilustra um exemplo de uma inserção da informação de marcador “Speech_tag_information()” no fluxo contínuo de áudio e uma inserção da informação de tabela “Tag_table()” no mesmo.[0033] Figure 8 is a diagram illustrating an example of inserting the tag information “Speech_tag_information()” into the audio stream and inserting the table information “Tag_table()” therein.

[0034] A figura 9 é um diagrama que ilustra um exemplo de conteúdos da informação de tabela “Tabela de Marcador 1” inserida no fluxo contínuo de áudio.[0034] Figure 9 is a diagram illustrating an example of the contents of the table information “Marker Table 1” inserted in the audio stream.

[0035] A figura 10 é um diagrama que ilustra um exemplo de estrutura da informação de marcador “Speech_tag_information()”.[0035] Figure 10 is a diagram illustrating an example of the tag information structure “Speech_tag_information()”.

[0036] A figura 11 é um diagrama que ilustra um exemplo de estrutura da informação de tabela “Tag table()”.[0036] Figure 11 is a diagram that illustrates an example of the information structure of the table “Tag table()”.

[0037] A figura 12 é um diagrama que ilustra os conteúdos da informação primária em um exemplo de estrutura da informação de marcador “Speech_tag_information()” e em um exemplo de estrutura da informação de tabela “Tag table()”.[0037] Figure 12 is a diagram illustrating the contents of the primary information in an example of information structure of tag “Speech_tag_information()” and in an example of structure of information in table “Tag table()”.

[0038] A figura 13 é um diagrama que ilustra um exemplo de estrutura de um descritor da tabela de marcador (Tag_table_descriptor()).[0038] Figure 13 is a diagram that illustrates an example of the structure of a tag table descriptor (Tag_table_descriptor()).

[0039] A figura 14 é um diagrama de blocos que ilustra um exemplo de configuração de uma seção de geração de fluxo contínuo incluída em um transmissor de serviço 100.[0039] Figure 14 is a block diagram illustrating an example configuration of a continuous flow generation section included in a service transmitter 100.

[0040] A figura 15 é um diagrama que ilustra um exemplo de configuração de um fluxo contínuo de transporte TS em um caso no qual os dados de transporte do áudio 3D são transmitidos em um fluxo contínuo.[0040] Figure 15 is a diagram illustrating an example of configuring a TS transport stream in a case where 3D audio transport data is transmitted in a stream.

[0041] A figura 16 é um diagrama que ilustra um exemplo de configuração do fluxo contínuo de transporte TS em um caso no qual os dados de transporte do áudio 3D são transmitidos em dois fluxos contínuos.[0041] Figure 16 is a diagram illustrating an example TS transport stream configuration in a case where 3D audio transport data is transmitted in two streams.

[0042] A figura 17 é um diagrama de blocos que ilustra um exemplo de configuração de um receptor de serviço.[0042] Figure 17 is a block diagram illustrating an example of a service receiver configuration.

[0043] A figura 18 é um diagrama que descreve uma operação de leitura (reprodução) a partir de um armazenamento.[0043] Figure 18 is a diagram describing a read (playback) operation from a store.

[0044] A figura 19 é um diagrama de blocos que ilustra um exemplo de configuração de uma seção de decodificação de áudio.[0044] Figure 19 is a block diagram illustrating an example configuration of an audio decoding section.

[0045] A figura 20 é um diagrama que ilustra um exemplo de um conteúdo contido de um armazenamento temporário de dados de áudio e marcador.[0045] Figure 20 is a diagram illustrating an example of a content contained in a temporary storage of audio and marker data.

[0046] A figura 21 é um diagrama que ilustra um exemplo de informação associada com a unidade de som exibida em um painel de exibição.[0046] Figure 21 is a diagram illustrating an example of information associated with the sound unit displayed on a display panel.

[0047] A figura 22 é um diagrama que ilustra um exemplo de exibição de legenda no painel de exibição.[0047] Figure 22 is a diagram illustrating an example of displaying a legend on the display panel.

[0048] A figura 23 é um diagrama que ilustra um exemplo de configuração de um fluxo contínuo MMT.[0048] Figure 23 is a diagram illustrating an example configuration of a continuous MMT flow.

[0049] A figura 24 é um diagrama que ilustra um exemplo de configuração de um fluxo contínuo MP4 (arquivo) que inclui os dados de uma trilha de áudio em um caso no qual um formato de compressão de áudio for um AC4.[0049] Figure 24 is a diagram illustrating an example configuration of an MP4 stream (file) that includes data from an audio track in a case where an audio compression format is AC4.

[0050] A figura 25 é um diagrama que ilustra um exemplo de descrição do arquivo MPD.[0050] Figure 25 is a diagram that illustrates an example description of the MPD file.

[0051] A figura 26 é um diagrama que ilustra os conteúdos da informação primária no exemplo de descrição do arquivo MPD.[0051] Figure 26 is a diagram illustrating the contents of the primary information in the MPD file description example.

[0052] A figura 27 é um diagrama que ilustra uma estrutura de uma camada de um transporte simples AC4 (Transporte Simples).[0052] Figure 27 is a diagram illustrating a structure of a layer of an AC4 simple transport (Simple Transport).

[0053] A figura 28 é um diagrama que ilustra uma configuração esquemática de um TOC (ac4_TOC()) e um subfluxo contínuo (ac4_substream_data()).[0053] Figure 28 is a diagram that illustrates a schematic configuration of a TOC (ac4_TOC()) and a continuous substream (ac4_substream_data()).

Descrição das ModalidadesDescription of Modalities

[0054] A seguir, os modos (a seguir, referidos como “modalidades”) para realizar a invenção serão descritos. Percebe-se que as descrições serão dadas na seguinte ordem.[0054] In the following, modes (hereinafter referred to as "embodiments") for carrying out the invention will be described. It is understood that the descriptions will be given in the following order.

1. Modalidade1. Type 2. Exemplos Modificados2. Modified Examples <1. Modalidade><1. Modality> [Exemplo de Configuração do Sistema de Transmissão e Recepção][Example of Transmitting and Receiving System Configuration]

[0055] A figura 1 ilustra um exemplo de configuração de um sistema de transmissão e recepção 10 como uma modalidade. O sistema de transmissão e recepção 10 inclui um transmissor de serviço 100 e um receptor de serviço 200. O transmissor de serviço 100 transmite um fluxo contínuo de transporte MPEG-2 (a seguir, referido simplesmente como um “fluxo contínuo de transporte TS”) como um fluxo contínuo de contêiner (fluxo contínuo multiplexado) em uma onda de difusão ou um pacote através de uma rede.[0055] Figure 1 illustrates a configuration example of a transmission and reception system 10 as a modality. The transmit and receive system 10 includes a service transmitter 100 and a service receiver 200. The service transmitter 100 transmits an MPEG-2 transport stream (hereinafter referred to simply as a "TS transport stream") as a container stream (multiplexed stream) in a broadcast wave or a packet over a network.

[0056] O fluxo contínuo de transporte TS tem um fluxo contínuo de áudio, ou um fluxo contínuo de vídeo e um fluxo contínuo de áudio. Na presente modalidade, considera-se que o fluxo contínuo de transporte TS tem o fluxo contínuo de vídeo e o fluxo contínuo de áudio. O fluxo contínuo de áudio é um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado. Na presente modalidade, um método de codificação do fluxo contínuo de áudio é definido em áudio MPEG-H 3D.[0056] The TS transport stream has an audio stream, or a video stream and an audio stream. In the present embodiment, the TS transport stream is considered to have the video stream and the audio stream. The audio stream is an audio stream in which an audio frame including the audio compression data obtained by performing encoding processing on the audio data is continuously arrayed. In the present embodiment, an audio streaming encoding method is defined in MPEG-H 3D audio.

[0057] O transmissor de serviço 100 insere a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Aqui, a unidade de som significa uma coesão correspondente a qualquer tempo, tais como uma voz humana (voz), um chiado de animais ou um som ambiente. Na presente modalidade, a unidade de som é considerada como uma coesão correspondente a qualquer tempo de vozes.[0057] The service transmitter 100 inserts marker information that indicates that the audio compression data of a predetermined sound unit is included in the audio frame that includes the audio compression data of the predetermined sound unit. Here, the unit of sound means a cohesion corresponding to any time, such as a human voice (voice), an animal squeak or an ambient sound. In the present embodiment, the sound unit is considered as a cohesion corresponding to any time of voices.

[0058] A informação de marcador tem a informação de tipo. A informação de tipo indica que uma posição inicial dos dados de compressão de áudio da unidade de som predeterminada está incluída, uma posição final dos mesmos está incluída, ou nenhuma da posição inicial e da posição final está incluída. Adicionalmente, a informação de marcador tem a informação de deslocamento que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial quando a informação de tipo indicar que a posição inicial está incluída, e que também indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final quando a informação de tipo indicar que a posição final está incluída.[0058] The marker information has the type information. The type information indicates that a start position of the predetermined sound unit's audio compression data is included, an end position thereof is included, or neither of the start position and end position is included. Additionally, the marker information has offset information which indicates a shift of one sample unit of a frame header to the start position when the type information indicates that the start position is included, and which also indicates a shift of one sampling unit of a frame header for the final position when the type information indicates that the final position is included.

[0059] Adicionalmente, a informação de marcador tem a informação de contagem de quadro que indica uma posição de quadro do cabeçalho de serviço do quadro de áudio no qual a informação de marcador é inserida. Além do mais, quando a unidade de som predeterminada for provida em pluralidade, a informação de marcador tem a informação de identificação da unidade de som para identificar uma correspondente unidade de som.[0059] Additionally, the marker information has frame count information that indicates a frame position of the service header of the audio frame into which the marker information is inserted. Furthermore, when the predetermined sound unit is provided in plurality, the marker information has sound unit identification information for identifying a corresponding sound unit.

[0060] Além do mais, quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação de marcador tem a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som. Na presente modalidade, a unidade de som é uma coesão correspondente a qualquer tempo de vozes e a fonte de geração é um alto-falante que emite vozes, tais como “Sr. A”, “Sra. B”, um “homem”, uma “mulher”, um “adulto” ou uma “criança”.[0060] Furthermore, when the predetermined sound unit is provided in plurality and the sound units of a plurality of generation sources are included in the plurality of sound units, the marker information has the source identification information of generation to identify the generation source of the corresponding sound unit. In the present embodiment, the sound unit is a cohesion corresponding to any time of voices, and the generation source is a loudspeaker that emits voices, such as “Mr. Mrs. B”, a “man”, a “woman”, an “adult” or a “child”.

[0061] Além do mais, durante o tratamento dos dados de compressão de áudio de uma pluralidade de grupos como os dados de compressão de áudio, a informação de marcador tem a informação de identificação de grupo para identificar um grupo ao qual os dados de compressão de áudio da unidade de som predeterminada pertencem. Além do mais, quando a informação de identificação de grupo pertencer a um grupo que constitui um grupo de comutação predeterminado, a informação de marcador tem a informação de identificação do grupo de comutação para identificar o grupo de comutação predeterminado.[0061] Furthermore, when processing the audio compression data of a plurality of groups as the audio compression data, the marker information has the group identification information for identifying a group to which the compression data of the predetermined sound unit belong to. Furthermore, when the group identification information belongs to a group constituting a predetermined switching group, the marker information has the switching group identification information for identifying the predetermined switching group.

[0062] O transmissor de serviço 100 insere a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em uma camada do fluxo contínuo de transporte TS e/ou em uma camada do fluxo contínuo de áudio como o fluxo contínuo de contêiner. A informação associada com a unidade de som predeterminada tem a informação de contagem de quadro que indica uma posição de quadro do cabeçalho de serviço do quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada.[0062] The service transmitter 100 inserts the table information having the information associated with the predetermined sound unit in the audio stream into a TS transport stream layer and/or into an audio stream layer as the continuous flow of container. The information associated with the predetermined sound unit has frame count information that indicates a frame position of the service header of the audio frame that includes the audio compression data of the predetermined sound unit.

[0063] Adicionalmente, quando uma unidade predeterminada for provida em pluralidade, a informação associada com a pluralidade de unidades de som tem a informação de identificação da unidade de som para identificar a correspondente unidade de som, individualmente. Além do mais, quando a unidade de som predeterminada for provida em pluralidade e uma pluralidade de unidades de som da pluralidade de fontes de geração for incluída na pluralidade de unidades de som, a informação associada com a pluralidade de unidades de som tem a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som, individualmente.[0063] Additionally, when a predetermined unit is provided in a plurality, the information associated with the plurality of sound units has sound unit identification information to identify the corresponding sound unit individually. Furthermore, when the predetermined sound unit is provided in plurality and a plurality of sound units from the plurality of generation sources are included in the plurality of sound units, the information associated with the plurality of sound units has the information of generation source identification to identify the generation source of the corresponding sound unit individually.

[0064] A figura 2 ilustra um exemplo de estrutura de um quadro de áudio nos dados de transporte do áudio MPEG-H 3D. O quadro de áudio inclui uma pluralidade de pacotes de fluxo contínuo de áudio MPEG (Pacote de Fluxo Contínuo de Áudio mpeg). Cada um dos pacotes de fluxo contínuo de áudio MPEG inclui um cabeçalho (Cabeçalho) e uma carga útil (Carga Útil).[0064] Figure 2 illustrates an example of the structure of an audio frame in the MPEG-H 3D audio transport data. The audio frame includes a plurality of MPEG audio streaming packets (mpeg Audio Streaming Packet). Each MPEG audio streaming packet includes a header (Header) and a payload (Payload).

[0065] O cabeçalho inclui a informação, tal como um tipo de pacote (Tipo de Pacote), um rótulo de pacote (Rótulo de Pacote) e um comprimento de pacote (Comprimento de Pacote). A informação definida no tipo de pacote do cabeçalho é atribuída na carga útil. A informação de carga útil inclui “SYNC” correspondente a um código de início de sincronismo, “Quadro” que serve como dados reais de dados de transporte de áudio 3D, e “Config” que indica uma configuração do “Quadro”.[0065] The header includes information such as a packet type (Packet Type), a packet label (Packet Label) and a packet length (Packet Length). The information defined in the packet type of the header is assigned in the payload. The payload information includes “SYNC” corresponding to a sync start code, “Frame” which serves as actual data of 3D audio transport data, and “Config” which indicates a “Frame” configuration.

[0066] O “Quadro” inclui os dados codificados de canal e os dados codificados de objeto que constituem os dados de transporte de áudio 3D. Aqui, os dados codificados de canal incluem os dados de amostra codificados, tais como um SCE (Elemento de Canal Individual), um CPE (Elemento de Par de Canais) e um LFE (Elemento de Baixa Frequência). Além do mais, os dados codificados de objeto incluem os dados de amostra codificados do SCE (Elemento de Canal Individual) e metadados para mapeamento e renderização dos dados de amostra codificados para um alto-falante que está em qualquer posição. Os metadados são incluídos como um elemento de extensão (Ext_element).[0066] The “Frame” includes the channel encoded data and the object encoded data that constitute the 3D audio transport data. Here, the channel encoded data includes the encoded sample data such as an SCE (Single Channel Element), a CPE (Channel Pair Element) and an LFE (Low Frequency Element). Furthermore, the object encoded data includes the SCE (Single Channel Element) encoded sample data and metadata for mapping and rendering the encoded sample data for a speaker that is in any position. Metadata is included as an extension element (Ext_element).

[0067] Adicionalmente, a informação de carga útil é inovadoramente definida na presente modalidade. “Tabela de Marcador” e “Informação de Marcador de Fala” são providos na informação de carga útil. Em “Informação de Marcador de Fala”, a supradescrita informação de marcador “Speech_tag_information()” é incluída e, em “Tabela de Marcador”, a supradescrita informação de tabela “Tag_table()” é incluída. A figura 3 ilustra que “SpeechTagInformation” para incluir a informação de marcador “Speech_tag_information()” e “TagTable” para incluir a informação de tabela “Tag_table()” são inovadoramente definidos como um tipo de pacote.[0067] Additionally, the payload information is innovatively defined in this modality. “Marker Table” and “Speech Marker Information” are provided in the payload information. In “Speech Tag Information”, the above-described tag information “Speech_tag_information()” is included, and in “Tag Table”, the above-described table information “Tag_table()” is included. Figure 3 illustrates that “SpeechTagInformation” to include the tag information “Speech_tag_information()” and “TagTable” to include the table information “Tag_table()” are innovatively defined as a packet type.

[0068] A figura 4 ilustra um exemplo de configuração dos dados de transporte do áudio MPEG-H 3D. O exemplo de configuração inclui uma peça de dados codificados de canal e seis peças de dados codificados de objeto. Uma peça de dados codificados de canal compreende dados codificados de canal (CD) de 5.1 canais e inclui cada peça de dados de amostra codificados de SCE1, CPE1.1, CPE1.2, e LFE1.[0068] Figure 4 illustrates an example of configuring MPEG-H 3D audio transport data. The sample configuration includes one piece of channel coded data and six pieces of object coded data. A piece of channel coded data comprises 5.1 channel (CD) channel coded data and includes each piece of coded sample data from SCE1, CPE1.1, CPE1.2, and LFE1.

[0069] Entre as seis peças de dados codificados de objeto, as primeiras três peças de dados codificados de objeto pertencem aos dados codificados (DOD) de um grupo de conteúdos de um objeto de linguagem de diálogo. As três peças de dados codificados de objeto são dados codificados do objeto de linguagem de diálogo correspondentes às respectivas primeira, segunda e terceira linguagens.[0069] Among the six pieces of object coded data, the first three pieces of object coded data belong to the coded data (DOD) of a content group of a dialog language object. The three pieces of object encoded data are dialog language object encoded data corresponding to the respective first, second and third languages.

[0070] Os dados codificados do objeto de linguagem de diálogo correspondentes às primeira, segunda e terceira linguagens incluem individualmente os dados de amostra codificados SCE2, SCE3 e SCE4 e os metadados (metadados de Objeto) para mapeamento e renderização dos dados de amostra codificados para um alto-falante que está presente em qualquer posição.[0070] The dialog language object encoded data corresponding to the first, second and third languages includes individually encoded sample data SCE2, SCE3 and SCE4 and the metadata (Object metadata) for mapping and rendering the encoded sample data to a speaker that is present in any position.

[0071] Além do mais, dentre as seis peças de dados codificados de objeto, as três peças de dados codificados de objeto restantes pertencem aos dados codificados (SEO) de um grupo de conteúdos de um objeto de efeito sonoro. As três peças de dados codificados de objeto são dados codificados de um objeto de efeito sonoro (Objeto para efeito sonoro) correspondente aos respectivos primeiro, segundo e terceiro efeitos sonoros.[0071] Furthermore, among the six pieces of object coded data, the remaining three pieces of object coded data belong to the coded data (SEO) of a content group of a sound effect object. The three pieces of object coded data are coded data of a sound effect object (Sound Effect Object) corresponding to the respective first, second and third sound effects.

[0072] Os dados codificados do objeto de efeito sonoro correspondentes aos primeiro, segundo e terceiro efeitos sonoros incluem individualmente os dados de amostra codificados SCE5, SCE6, e SCE7 e os metadados (metadados de Objeto) para mapeamento e renderização dos dados de amostra codificados para um alto-falante que está presente em qualquer posição.[0072] The sound effect object encoded data corresponding to the first, second, and third sound effects includes individually SCE5, SCE6, and SCE7 encoded sample data and metadata (Object metadata) for mapping and rendering the encoded sample data for a speaker that is present in any position.

[0073] Os dados codificados são classificados por um conceito de um grupo (Grupo) para cada categoria. Neste exemplo de configuração, os dados codificados de canal de 5.1 canais são classificados como um grupo 1 (Grupo 1). Além do mais, os dados codificados do objeto de linguagem de diálogo correspondentes às primeira, segunda e terceira linguagens são classificados como um grupo 2 (Grupo 2), um grupo 3 (Grupo 3) e um grupo 4 (Grupo 4), individualmente. Além do mais, os dados codificados do objeto de efeito sonoro correspondentes aos primeiro, segundo e terceiro efeitos sonoros são classificados como um grupo 5 (Grupo 5), um grupo 6 (Grupo 6), e um grupo 7 (Grupo 7), individualmente.[0073] The encoded data is classified by a concept of a group (Group) for each category. In this configuration example, the 5.1-channel encoded data is classified as a group 1 (Group 1). Furthermore, the dialog language object encoded data corresponding to the first, second and third languages are classified as a group 2 (Group 2), a group 3 (Group 3) and a group 4 (Group 4), individually. Furthermore, the sound effect object encoded data corresponding to the first, second, and third sound effects are classified as a group 5 (Group 5), a group 6 (Group 6), and a group 7 (Group 7), individually .

[0074] Além do mais, os dados que podem ser selecionados entre grupos em um lado de recepção são registrados em um grupo de comutação (Grupo SW) e codificados. Neste exemplo de configuração, o grupo 2, o grupo 3 e o grupo 4 que pertencem ao grupo de conteúdos do objeto de linguagem de diálogo são classificados como um grupo de comutação 1 (Grupo SW 1). Adicionalmente, o grupo 5, o grupo 6 e o grupo 7 que pertencem ao grupo de conteúdos do objeto de efeito sonoro são classificados como um grupo de comutação 2 (Grupo SW 2).[0074] Furthermore, the data that can be selected between groups on a receiving side is registered in a switching group (SW Group) and encoded. In this configuration example, group 2, group 3 and group 4 belonging to the content group of the dialog language object are classified as a switching group 1 (SW Group 1). Additionally, group 5, group 6 and group 7 belonging to the sound effect object's contents group are classified as a switching group 2 (SW Group 2).

[0075] Novamente em relação à figura 1, o transmissor de serviço 100 transmite os dados de transporte do áudio 3D que incluem os dados codificados de diversos grupos da forma supradescrita em um fluxo contínuo (fluxo contínuo individual) ou em múltiplos fluxos contínuos (múltiplos fluxos contínuos), por exemplo, em dois fluxos contínuos.[0075] Again referring to Figure 1, the service transmitter 100 transmits the 3D audio transport data that includes the encoded data of several groups as described above in a continuous stream (individual stream) or in multiple continuous streams (multiple continuous streams), for example, in two continuous streams.

[0076] A figura 5(a) ilustra esquematicamente um exemplo de configuração de um quadro de áudio em um caso no qual a transmissão é realizada em um fluxo contínuo no exemplo de configuração dos dados de transporte do áudio 3D da figura 4. Neste caso, o um fluxo contínuo inclui os dados codificados de canal (CD), os dados codificados do objeto de linguagem de diálogo (DOD) e os dados codificados do objeto de efeito sonoro (SEO) e, além do mais, a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()” juntamente com a informação de “SYNC” e a informação de “Config”.[0076] Figure 5(a) schematically illustrates an example of configuring an audio frame in a case in which the transmission is performed in a continuous stream in the example of configuring the 3D audio transport data in Figure 4. In this case , the stream includes the channel encoded (CD) data, the dialog language object (DOD) encoded data, and the sound effect object (SEO) encoded data, and in addition the marker information " Speech tag information()" and the table information "Tag table()" along with the "SYNC" information and the "Config" information.

[0077] Note que a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()” não são limitadas a ser incluídas em todos os quadros de áudio. A informação de marcador “Speech tag information()” é incluída no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, a informação de tabela “Tag table()” é inserida em qualquer quadro de áudio. O fato exposto é similarmente aplicado até mesmo em um caso no qual a transmissão é realizada nos seguintes múltiplos fluxos contínuos.[0077] Note that the tag information “Speech tag information()” and the table information “Tag table()” are not limited to be included in all audio frames. The “Speech tag information()” tag information is included in the audio frame which includes the audio compression data of the predetermined sound unit. Additionally, the “Tag table()” table information is inserted into any audio frame. The foregoing fact is similarly applied even in a case in which the transmission is carried out in the following multiple continuous streams.

[0078] No exemplo de configuração dos dados de transporte do áudio 3D da figura 4, a figura 5(b) ilustra esquematicamente um exemplo de configuração de um quadro de áudio em um caso no qual a transmissão é realizada em múltiplos fluxos contínuos (cada fluxo contínuo é considerado como arbitrariamente referido como um “subfluxo contínuo”), aqui, em dois fluxos contínuos. Neste caso, o subfluxo contínuo 1 inclui os dados codificados de canal (CD) e, adicionalmente, a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()” juntamente com a informação de “SYNC” e a informação de “Config”.[0078] In the example of configuring the 3D audio transport data in figure 4, figure 5(b) schematically illustrates an example of configuring an audio frame in a case in which the transmission is performed in multiple continuous streams (each continuous flow is considered to be arbitrarily referred to as a “continuous sub-flow”), here, in two continuous flows. In this case, continuous substream 1 includes the channel coded data (CD) and additionally the tag information “Speech tag information()” and the table information “Tag table()” along with the “SYNC” information and the “Config” information.

[0079] Adicionalmente, o subfluxo contínuo 2 inclui os dados codificados (DOD) do objeto de linguagem de diálogo e os dados codificados (SEO) do objeto de efeito sonoro e, adicionalmente, a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()” juntamente com a informação de “SYNC” e a informação de “Config”.[0079] Additionally, the continuous substream 2 includes the coded data (DOD) of the dialog language object and the coded data (SEO) of the sound effect object and, additionally, the tag information “Speech tag information()” and the “Tag table()” table information together with the “SYNC” information and the “Config” information.

[0080] Note que, no exemplo da figura 5(b), ambos os subfluxos contínuos 1 e 2 incluem a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()”, entretanto, em um caso de múltiplos fluxos contínuos, quaisquer um ou mais dos subfluxos contínuos incluem a informação de marcador “Speech tag information()” e a informação de tabela “Tag table()” para, desse modo, realizar um simples gerenciamento de controle.[0080] Note that, in the example of figure 5(b), both continuous subflows 1 and 2 include the tag information “Speech tag information()” and the table information “Tag table()”, however, in a In the case of multiple continuous streams, any one or more of the continuous subflows include the tag information “Speech tag information()” and the table information “Tag table()” to thereby perform simple control management.

[0081] A figura 6 ilustra um exemplo de um relacionamento de correspondência entre o fluxo contínuo de áudio no qual o quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado e a unidade de som. Neste exemplo, uma unidade de som 1 com um conteúdo de áudio 1 e uma unidade de som 2 com um conteúdo de áudio 2 estão presentes.[0081] Figure 6 illustrates an example of a match relationship between the audio stream in which the audio frame that includes the audio compression data is continuously arrayed and the sound unit. In this example, a sound unit 1 with audio content 1 and a sound unit 2 with audio content 2 are present.

[0082] Na unidade de som 1, uma posição inicial está presente em um quadro de áudio f1 e uma posição final está presente em um quadro de áudio f2. Um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial do quadro de áudio f1 é “xs1” e um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final do quadro de áudio f2 é “xe1”. Adicionalmente, na unidade de som 2, uma posição inicial está presente em um quadro de áudio f3 e uma posição final está presente em um quadro de áudio f4. Um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial do quadro de áudio f3 é “xs2” e um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final do quadro de áudio f4 é “xe2”.[0082] In sound unit 1, a start position is present in an f1 audio frame and an end position is present in an f2 audio frame. A one sample unit offset from a frame header to the start position of f1 audio frame is “xs1” and a one sample unit offset from a frame header to the end position of f2 audio frame is “xe1 ”. Additionally, in sound unit 2, a start position is present in an f3 audio frame and an end position is present in an f4 audio frame. A one sample unit offset from a frame header to the start position of f3 audio frame is “xs2” and a one sample unit offset from a frame header to the end position of f4 audio frame is “xe2 ”.

[0083] A figura 7 ilustra simplesmente um exemplo de conteúdos da informação de marcador “Speech_tag_information()” incluídos no quadro de áudio (quadro de áudio). Note que, neste exemplo, a informação de contagem de quadro, a informação de identificação de grupo, a informação de identificação do grupo de comutação ou congêneres são omitidas.[0083] Figure 7 simply illustrates an example of contents of the tag information “Speech_tag_information()” included in the audio frame (audio frame). Note that, in this example, frame count information, group identification information, switching group identification information or the like are omitted.

[0084] A figura 7(a) ilustra um exemplo de um quadro de áudio (consulte os quadros de áudio f1 e f3 da figura 6) que inclui uma posição inicial de uma unidade de som. Neste caso, a informação, tais como a informação de identificação da unidade de som “speech_id”, a informação de identificação da fonte de geração “speaker_id”, a informação de tipo “sted_type” e a informação de deslocamento “sample_offset”, está presente.[0084] Figure 7(a) illustrates an example of an audio frame (see audio frames f1 and f3 in Figure 6) that includes an initial position of a sound unit. In this case, information such as the sound unit identification information “speech_id”, the generation source identification information “speaker_id”, the type information “sted_type” and the offset information “sample_offset”, is present .

[0085] Uma expressão “speech_id=1” indica que a informação de identificação da correspondente unidade de som é “1”. Uma expressão “speaker_id=1” indica que a informação de identificação da fonte de geração (alto-falante) da correspondente unidade de som é “1”. Uma expressão “sted_type=1” indica que a informação de tipo é “1”, isto é, a posição inicial da unidade de som está incluída. Então, uma expressão “sample_offset=xs” indica que um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial é “xs”.[0085] An expression “speech_id=1” indicates that the identification information of the corresponding sound unit is “1”. An expression “speaker_id=1” indicates that the identification information of the generation source (loudspeaker) of the corresponding sound unit is “1”. An expression “sted_type=1” indicates that the type information is “1”, ie the starting position of the sound unit is included. So, an expression “sample_offset=xs” indicates that an offset of one sample unit from a frame header to the starting position is “xs”.

[0086] A figura 7(b) ilustra um exemplo de um quadro de áudio (consulte o posicionamento dos quadros de áudio do próximo quadro de áudio do quadro de áudio f1 até o prévio quadro de áudio do quadro de áudio f2 e o posicionamento dos quadros de áudio do próximo quadro de áudio do quadro de áudio f3 até o prévio quadro de áudio do quadro de áudio f4 da figura 6) que não inclui nenhuma de uma posição inicial e de uma posição final de uma unidade de som. Neste caso, a informação, tais como a informação de identificação da unidade de som “speech_id”, a informação de identificação da fonte de geração “speaker_id” e a informação de tipo “sted_type”, está presente.[0086] Figure 7(b) illustrates an example of an audio frame (see the positioning of the audio frames from the next audio frame from the f1 audio frame to the previous audio frame from the f2 audio frame and the positioning of the audio frames from the next audio frame of audio frame f3 to the previous audio frame of audio frame f4 of Figure 6) which does not include any of a start position and an end position of a sound unit. In this case, information such as sound unit identification information “speech_id”, generation source identification information “speaker_id” and type information “sted_type” is present.

[0087] A expressão “speech_id=1” indica que a informação de identificação da correspondente unidade de som é “1”. A expressão “speaker_id=1” indica que a informação de identificação da fonte de geração (alto-falante) da correspondente unidade de som é “1”. Uma expressão “sted_type=3” indica que a informação de tipo é “3”, isto é, um estado de continuação no qual nenhuma da posição inicial e da posição final da unidade de som está incluída.[0087] The expression “speech_id=1” indicates that the identification information of the corresponding sound unit is “1”. The expression “speaker_id=1” indicates that the identification information of the generation source (loudspeaker) of the corresponding sound unit is “1”. An expression “sted_type=3” indicates that the type information is “3”, that is, a continuation state in which none of the start position and end position of the sound unit is included.

[0088] A figura 7(c) ilustra um exemplo de um quadro de áudio (consulte os quadros de áudio f2 e f4 da figura 6) que inclui uma posição final de uma unidade de som. Neste caso, a informação, tais como a informação de identificação da unidade de som “speech_id”, a informação de identificação da fonte de geração “speaker_id”, a informação de tipo “sted_type” e a informação de deslocamento “sample_offset”, está presente.[0088] Figure 7(c) illustrates an example of an audio frame (see audio frames f2 and f4 in figure 6) that includes a final position of a sound unit. In this case, information such as the sound unit identification information “speech_id”, the generation source identification information “speaker_id”, the type information “sted_type” and the offset information “sample_offset”, is present .

[0089] A expressão “speech_id=1” indica que a informação de identificação da correspondente unidade de som é “1”. A expressão “speaker_id=1” indica que a informação de identificação da fonte de geração (alto-falante) da correspondente unidade de som é “1”. Uma expressão “sted_type=2” indica que a informação de tipo é “2”, isto é, a posição final da unidade de som está incluída. Adicionalmente, uma expressão “sample_offset=xe” indica que um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final é “xe”.[0089] The expression “speech_id=1” indicates that the identification information of the corresponding sound unit is “1”. The expression “speaker_id=1” indicates that the identification information of the generation source (loudspeaker) of the corresponding sound unit is “1”. An expression “sted_type=2” indicates that the type information is “2”, ie the final position of the sound unit is included. Additionally, an expression “sample_offset=xe” indicates that an offset of one sample unit from a frame header to the final position is “xe”.

[0090] A figura 8 ilustra um exemplo de uma inserção da informação de marcador “Speech_tag_information()” em um fluxo contínuo de áudio e da informação de tabela “Tag_table()” no fluxo contínuo de áudio. Este exemplo indica um caso no qual o grupo 2 (Group_id=2) do grupo de comutação 1 (SW_group_id=1) é percebido e um alto-falante 1 (speaker_id=1), um alto- falante 2 (speaker_id=2) e um alto-falante 3 (speaker_id=3) existem como uma fonte de geração (alto-falante) de uma unidade de som.[0090] Figure 8 illustrates an example of inserting the tag information “Speech_tag_information()” into an audio stream and table information “Tag_table()” into the audio stream. This example indicates a case in which group 2 (Group_id=2) of switch group 1 (SW_group_id=1) is perceived and a speaker 1 (speaker_id=1), a speaker 2 (speaker_id=2) and a speaker 3 (speaker_id=3) exist as a generation source (speaker) of a sound unit.

[0091] A informação de marcador “Speech_tag_information()” de quatro unidades de som é inserida no fluxo contínuo de áudio nas posições de quadro de C1, C2, C3 e C4. A informação de marcador das respectivas unidades de som é normalmente inserida em diversos quadros. As posições de quadro C1, C2, C3 e C4 indicam contagens de quadro que indicam a posição de quadro a partir de um cabeçalho de serviço de um quadro de áudio que inclui uma posição inicial.[0091] The tag information “Speech_tag_information()” of four sound units is inserted into the audio stream at the frame positions of C1, C2, C3 and C4. The marker information of the respective sound units is normally inserted in several frames. Frame positions C1, C2, C3 and C4 indicate frame counts that indicate the frame position from a service header of an audio frame that includes a start position.

[0092] A informação de marcador inserida na posição de quadro de C1 corresponde à unidade de som (speech_id=1) relacionada a uma voz do alto-falante 2 (speaker_id=2). A informação de marcador inserida na posição de quadro de C2 corresponde à unidade de som (speech_id=2) relacionada a uma voz do alto-falante 2 (speaker_id=2). A informação de marcador inserida na posição de quadro de C3 corresponde à unidade de som (speech_id=3) relacionada a uma voz do alto-falante 1 (speaker_id=1). A informação de marcador inserida na posição de quadro de C4 corresponde à unidade de som (speech_id=4) relacionada a uma voz do alto-falante 3 (speaker_id=3).[0092] The marker information inserted in the frame position of C1 corresponds to the sound unit (speech_id=1) related to a voice from speaker 2 (speaker_id=2). The marker information inserted at the frame position of C2 corresponds to the sound unit (speech_id=2) related to a voice from speaker 2 (speaker_id=2). The marker information inserted at the frame position of C3 corresponds to the sound unit (speech_id=3) related to a voice from speaker 1 (speaker_id=1). The marker information inserted at the frame position of C4 corresponds to the sound unit (speech_id=4) related to a voice from speaker 3 (speaker_id=3).

[0093] A informação de tabela “Tabela de Marcador 1” com a informação associada com as quatro unidades de som inseridas nas posições de quadro de C1, C2, C3, e C4 é inserida no fluxo contínuo de áudio em posições de quadro antes das posições de quadro de C1, C2, C3, e C4. A figura 9(a) ilustra um exemplo de conteúdos da informação de tabela “Tabela de Marcador 1”. A informação da unidade de som “Speech_id”, a informação de identificação da fonte de geração “Speaker_id” e a informação de contagem de quadro “Audio_frame_count” estão presentes para cada unidade de som, além da informação de identificação do grupo de comutação “SW_group_id” e da informação de identificação de grupo “Group_id” comuns a cada unidade de som.[0093] The table information “Marker Table 1” with the information associated with the four sound units inserted in the frame positions of C1, C2, C3, and C4 is inserted in the audio stream in frame positions before the frame positions of C1, C2, C3, and C4. Figure 9(a) illustrates an example of the information contents of the table “Marker Table 1”. The sound unit information “Speech_id”, the generation source identification information “Speaker_id” and the frame count information “Audio_frame_count” are present for each sound unit, in addition to the switching group identification information “SW_group_id ” and the group identification information “Group_id” common to each sound unit.

[0094] Adicionalmente, a informação de marcador “Speech_tag_information()” de cinco unidades de som é inserida no fluxo contínuo de áudio em posições de quadro de C5, C6, C7, C8, e C9. A informação de marcador das respectivas unidades de som é normalmente inserida em diversos quadros. As posições de quadro de C5, C6, C7, C8, e C9 indicam os valores da contagem de quadro que indicam a posição de quadro a partir de um cabeçalho de serviço de um quadro de áudio que inclui uma posição inicial.[0094] Additionally, the tag information “Speech_tag_information()” of five sound units is inserted into the audio stream at frame positions of C5, C6, C7, C8, and C9. The marker information of the respective sound units is normally inserted in several frames. The frame positions of C5, C6, C7, C8, and C9 indicate frame count values that indicate the frame position from a service header of an audio frame that includes a start position.

[0095] A informação de marcador inserida na posição de quadro de C5 corresponde a uma unidade de som (speech_id=5) relacionada a uma voz do alto-falante 1 (speaker_id=1). A informação de marcador inserida na posição de quadro de C6 corresponde a uma unidade de som (speech_id=6) relacionada a uma voz do alto-falante 3 (speaker_id=3). A informação de marcador inserida na posição de quadro de C7 corresponde a uma unidade de som (speech_id=7) relacionada a uma voz do alto-falante 1 (speaker_id=1). A informação de marcador inserida na posição de quadro de C8 corresponde a uma unidade de som (speech_id=8) relacionada a uma voz do alto-falante 1 (speaker_id=1). A informação de marcador inserida na posição de quadro de C9 corresponde a uma unidade de som (speech_id=9) relacionada a uma voz do alto-falante 2 (speaker_id=2).[0095] The marker information inserted in the frame position of C5 corresponds to a sound unit (speech_id=5) related to a voice from speaker 1 (speaker_id=1). The marker information inserted at the frame position of C6 corresponds to a sound unit (speech_id=6) related to a voice from speaker 3 (speaker_id=3). The marker information inserted at the frame position of C7 corresponds to a sound unit (speech_id=7) related to a voice from speaker 1 (speaker_id=1). The marker information inserted at the frame position of C8 corresponds to a sound unit (speech_id=8) related to a voice from speaker 1 (speaker_id=1). The marker information inserted at the frame position of C9 corresponds to a sound unit (speech_id=9) related to a voice from speaker 2 (speaker_id=2).

[0096] A informação de tabela “Tabela de Marcador 2” com a informação associada com as cinco unidades de som inseridas nas posições de quadro de C5, C6, C7, C8, e C9 é inserida no fluxo contínuo de áudio em posições de quadro antes das posições de quadro de C5, C6, C7, C8, e C9. A figura 9(b) ilustra um exemplo de conteúdos da informação de tabela “Tabela de Marcador 2”. A informação da unidade de som “Speech_id”, a informação de identificação da fonte de geração “Speaker_id” e a informação de contagem de quadro “Audio_frame_count” estão presentes para cada unidade de som, além da informação de identificação do grupo de comutação “SW_group_id” e da informação de identificação de grupo “Group_id” comuns a cada unidade de som.[0096] The table information “Marker Table 2” with the information associated with the five sound units inserted in the frame positions of C5, C6, C7, C8, and C9 is inserted into the audio stream in frame positions before the frame positions of C5, C6, C7, C8, and C9. Figure 9(b) illustrates an example of information contents of the table “Marker Table 2”. The sound unit information “Speech_id”, the generation source identification information “Speaker_id” and the frame count information “Audio_frame_count” are present for each sound unit, in addition to the switching group identification information “SW_group_id ” and the group identification information “Group_id” common to each sound unit.

[0097] A figura 10 ilustra um exemplo de estrutura (sintaxe) da informação de marcador “Speech_tag_information()”. A figura 11 ilustra um exemplo de estrutura (sintaxe) da informação de tabela “Tag table()”. A figura 12 ilustra os conteúdos (semântica) da informação primária em seus exemplos de estrutura.[0097] Figure 10 illustrates an example of the structure (syntax) of the tag information “Speech_tag_information()”. Figure 11 illustrates an example of the structure (syntax) of the information in the “Tag table()” table. Figure 12 illustrates the contents (semantics) of primary information in its structure examples.

[0098] Primeiro, o exemplo de estrutura da informação de marcador “Speech_tag_information()” será descrito. Um campo de 16 bits de “audio_frame_count” indica, pelo valor da contagem de quadro, a posição de quadro do cabeçalho de serviço do quadro de áudio no qual a informação de marcador é inserida. Um campo de 8 bits de “num_of_speeches” indica o número da unidades de som. Os respectivos campos de um campo de 8 bits de “speech_id”, um campo de 8 bits de “group_id”, um campo de 8 bits de “SW_group_id”, um campo de 8 bits de “speaker_id”, um campo de 2 bits de “sted_type” e um campo de 14 bits de “sample_offset” são repetidamente providos para corresponder ao número das unidades de som.[0098] First, the example tag information structure “Speech_tag_information()” will be described. A 16-bit field of “audio_frame_count” indicates, by the frame count value, the frame position of the service header of the audio frame into which the marker information is inserted. An 8-bit “num_of_speeches” field indicates the number of sound units. The respective fields of an 8-bit field of “speech_id”, an 8-bit field of “group_id”, an 8-bit field of “SW_group_id”, an 8-bit field of “speaker_id”, a 2-bit field of “sted_type” and a 14-bit field of “sample_offset” are repeatedly provided to correspond to the number of sound units.

[0099] O campo de “speech_id” indica a informação de identificação da unidade de som. O campo de “group_id” indica a informação de identificação de grupo. O campo de “SW_group_id” indica a informação de identificação do grupo de comutação. O campo de “speaker_id” indica a informação de identificação da fonte de geração (alto-falante). O campo de “sted_type” indica que a posição inicial da unidade de som está incluída, a posição final da mesma está incluída, ou nenhuma da posição inicial e da posição final está incluída (continuação). Por exemplo, “01” indica que a posição inicial está incluída, “10” indica que a posição final está incluída e “11” indica que nenhuma da posição inicial e da posição final está incluída (continuação).[0099] The “speech_id” field indicates the sound unit identification information. The “group_id” field indicates the group identification information. The “SW_group_id” field indicates the switching group identification information. The “speaker_id” field indicates the identification information of the generation source (speaker). The “sted_type” field indicates that the sound unit's start position is included, the sound unit's end position is included, or neither of the start position and end position is included (continued). For example, “01” indicates that the start position is included, “10” indicates that the end position is included, and “11” indicates that neither the start position nor the end position is included (continued).

[00100] O campo de “sample_offset” indica um deslocamento de uma unidade de amostra do cabeçalho de quadro para a posição inicial / posição final. Quando “sted_type” for “01”, o campo de “sample_offset” indica um deslocamento de uma unidade de amostra do cabeçalho de quadro para a posição inicial e, quando “sted_type” for “10”, indica um deslocamento de uma unidade de amostra do cabeçalho de quadro para a posição final.[00100] The “sample_offset” field indicates an offset of one sample unit from the frame header to the initial position / final position. When “sted_type” is “01”, the “sample_offset” field indicates an offset of one sample unit from the frame header to the starting position, and when “sted_type” is “10”, it indicates an offset of one sample unit from the frame header to the final position.

[00101] A seguir, o exemplo de estrutura da informação de tabela “Tag_table()” será descrito. Um campo de 8 bits de “group_id” indica a informação de identificação de grupo. Um campo de 8 bits de “SW_group_id” indica a informação de identificação do grupo de comutação. Um campo de 8 bits de “num_of_speeches” indica o número das unidades de som. Os respectivos campos de um campo de 8 bits de “speech_id”, um campo de 8 bits de “speaker_id” e um campo de 16 bits de “audio_frame_count” são repetidamente providos para corresponder ao número das unidades de som.[00101] Next, the example of the information structure of the table “Tag_table()” will be described. An 8-bit “group_id” field indicates group identification information. An 8-bit field of “SW_group_id” indicates the switching group identification information. An 8-bit “num_of_speeches” field indicates the number of sound units. The respective fields of an 8-bit field of “speech_id”, an 8-bit field of “speaker_id” and a 16-bit field of “audio_frame_count” are repeatedly provided to correspond to the number of sound units.

[00102] O campo de “speech_id” indica a informação de identificação da unidade de som. O campo de “speaker_id” indica a informação de identificação da fonte de geração (alto-falante). A posição de quadro do cabeçalho de serviço do quadro de áudio no qual a posição inicial da unidade de som está incluída é indicada pelo valor da contagem de quadro.[00102] The “speech_id” field indicates the sound unit identification information. The “speaker_id” field indicates the identification information of the generation source (speaker). The frame position of the service header of the audio frame in which the starting position of the sound unit is included is indicated by the frame count value.

[00103] A figura 13 ilustra um exemplo de estrutura (sintaxe) de um descritor da tabela de marcador (Tag_table_descriptor()) para inserir a informação similar à supradescrita informação de tabela “Tag_table()” no fluxo contínuo de contêiner. Um campo de 8 bits de “descriptor_tag” indica um tipo de descritor. Aqui, o campo de 8 bits de “descriptor_tag” indica o descritor da tabela de marcador. Um campo de 8 bits de “descriptor_length” indica um comprimento (um tamanho) de um descritor e o comprimento do descritor indica o seguinte número de bytes.[00103] Figure 13 illustrates an example structure (syntax) of a tag table descriptor (Tag_table_descriptor()) to insert information similar to the above-described table information “Tag_table()” in the container stream. An 8-bit field of “descriptor_tag” indicates a type of descriptor. Here, the 8-bit field of “descriptor_tag” indicates the tag table descriptor. An 8-bit field of “descriptor_length” indicates a length (a length) of a descriptor, and the descriptor length indicates the following number of bytes.

[00104] Um campo de 8 bits de “num_of_groups” indica o número de grupos. Os seguintes fatores são repetidamente providos para corresponder ao número de grupos. Um campo de 8 bits de “stream_id” é usado para identificar um fluxo contínuo de áudio em um caso no qual o fluxo contínuo de áudio inclui múltiplos fluxos contínuos. É possível especificar o fluxo contínuo de transporte pelo uso da informação e um streamID indicado por “Descritor de Múltiplos Fluxos Contínuos de Áudio 3D MPEG-H”. O campo de “group_id” indica a informação de identificação de grupo. O campo de “SW_group_id” indica a informação de identificação do grupo de comutação. O campo de 8 bits de “num_of_speeches” indica o número das unidades de som. Os respectivos campos de um campo de 8 bits de “speech_id”, um campo de 8 bits de “speaker_id”, e um campo de 16 bits de “audio_frame_count” são repetidamente providos para corresponder ao número das unidades de som. Note que os conteúdos da informação associada com os respectivos campos são similares àqueles das descrições da supradescrita informação de tabela “Tag_table()” (consulte a figura 11).[00104] An 8-bit field of “num_of_groups” indicates the number of groups. The following factors are repeatedly provided to correspond to the number of groups. An 8-bit field of “stream_id” is used to identify an audio stream in a case where the audio stream includes multiple streams. It is possible to specify the transport stream by using the information and a streamID indicated by “MPEG-H 3D Audio Stream Multiple Descriptor”. The “group_id” field indicates the group identification information. The “SW_group_id” field indicates the switching group identification information. The 8-bit field of “num_of_speeches” indicates the number of sound units. The respective fields of an 8-bit field of “speech_id”, an 8-bit field of “speaker_id”, and a 16-bit field of “audio_frame_count” are repeatedly provided to correspond to the number of sound units. Note that the contents of the information associated with the respective fields are similar to those of the descriptions of the above-described information table “Tag_table()” (see figure 11).

[00105] Novamente em relação à figura 1, o receptor de serviço 200 recebe o supradescrito fluxo contínuo de transporte TS transmitido a partir do transmissor de serviço 100 em uma onda de difusão ou em um pacote através de uma rede. O fluxo contínuo de transporte TS inclui um fluxo contínuo de áudio, além de um fluxo contínuo de vídeo. O fluxo contínuo de áudio é um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado.[00105] Referring again to Fig. 1, the service receiver 200 receives the above-described transport stream TS transmitted from the service transmitter 100 in a broadcast wave or in a packet over a network. The TS transport stream includes an audio stream in addition to a video stream. The audio stream is an audio stream in which an audio frame including the audio compression data obtained by performing encoding processing on the audio data is continuously arrayed.

[00106] Da forma supradescrita, a informação de marcador (consulte a figura 10) que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, como exposto, a informação de tabela (consulte a figura 11 e a figura 13) com a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio é inserida em uma camada do fluxo contínuo de transporte TS e/ou em uma camada do fluxo contínuo de áudio.[00106] As described above, the marker information (see figure 10) that indicates that the predetermined sound unit audio compression data is included is inserted into the audio frame that includes the audio compression data of the predetermined sound unit. default sound. Additionally, as shown, the table information (see figure 11 and figure 13) with the information associated with the predetermined sound unit in the audio stream is inserted into a layer of the TS transport stream and/or into a layer of the audio stream.

[00107] O receptor de serviço 200 realiza um processo do fluxo contínuo de áudio pelo uso da informação de marcador. Por exemplo, o receptor de serviço 200 obtém os dados de áudio pela realização do processamento de decodificação nos dados de compressão de áudio incluídos nos respectivos quadros de áudio do fluxo contínuo de áudio; adicionalmente, com base na informação de marcador, o receptor de serviço 200 segmenta dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio e contém os dados de áudio em um armazenamento temporário. Então, com base na informação operacional de um usuário, o receptor de serviço 200 lê os dados de áudio correspondentes à unidade de som predeterminada a partir do armazenamento temporário e transmite os dados de áudio como um som ou realiza uma conversão de texto para exibir os dados de áudio como uma legenda.[00107] The service receiver 200 performs an audio streaming process by use of marker information. For example, the service receiver 200 obtains the audio data by performing decoding processing on the audio compression data included in the respective audio frames of the audio stream; furthermore, based on the marker information, the service receiver 200 segments audio data corresponding to the predetermined sound unit from the audio data and contains the audio data in a temporary storage. Then, based on a user's operational information, the service receiver 200 reads the audio data corresponding to the predetermined sound unit from the temporary storage and transmits the audio data as a sound or performs a text conversion to display the audio data as a subtitle.

[00108] Adicionalmente, por exemplo, o receptor de serviço 200 realiza o processamento de decodificação nos dados de compressão de áudio incluídos nos respectivos quadros de áudio do fluxo contínuo de áudio e obtém os dados de áudio; adicionalmente, com base na informação de marcador, o receptor de serviço 200 segmenta os dados de áudio correspondentes à unidade de som predeterminada a partir dos dados de áudio, realiza a conversão de texto, gera os dados de legenda e realiza uma exibição de legenda.[00108] Additionally, for example, the service receiver 200 performs decoding processing on the audio compression data included in the respective audio frames of the audio stream and obtains the audio data; furthermore, based on the marker information, the service receiver 200 segments the audio data corresponding to the predetermined sound unit from the audio data, performs text conversion, generates the subtitle data, and performs a subtitle display.

[00109] Adicionalmente, o receptor de serviço 200 grava o fluxo contínuo de transporte TS em um armazenamento local ou um armazenamento online e, então, lê o fluxo contínuo de transporte TS a partir do armazenamento para realizar um processo do fluxo contínuo de áudio incluído no fluxo contínuo de transporte TS. Com base na informação associada com a unidade de som predeterminada incluída na informação de tabela, o receptor de serviço 200 pode controlar o fluxo contínuo de transporte TS para ser lido a partir do armazenamento. Por exemplo, o receptor de serviço 200 pode controlar o fluxo contínuo de contêiner a ser lido a partir de uma posição de quadro na qual a unidade de som de acordo com a seleção de usuário é incluída.[00109] Additionally, the service receiver 200 records the TS transport stream to a local storage or an online storage, and then reads the TS transport stream from the storage to perform an included audio streaming process. in the continuous stream of TS transport. Based on the information associated with the predetermined sound unit included in the table information, the service receiver 200 can control the transport stream TS to be read from the storage. For example, the service receiver 200 can control the continuous flow of container to be played from a frame position in which the sound unit according to the user selection is included.

[Seção de Geração de Fluxo Contínuo do Transmissor de Serviço][Service Transmitter Stream Generation Section]

[00110] A figura 14 ilustra um exemplo de configuração de uma seção de geração de fluxo contínuo 110 incluída no transmissor de serviço 100. A seção de geração de fluxo contínuo 110 inclui uma seção de controle 111, um codificador de vídeo 112, um codificador de áudio 113 e um multiplexador 114.[00110] Figure 14 illustrates an example configuration of a streaming generation section 110 included in the service transmitter 100. The streaming generation section 110 includes a control section 111, a video encoder 112, an encoder of audio 113 and a multiplexer 114.

[00111] O codificador de vídeo 112 insere os dados de vídeo SV, codifica os dados de vídeo SV e gera um fluxo contínuo de vídeo (um fluxo contínuo elementar de vídeo). O codificador de áudio 113 insere os dados de objeto de um número predeterminado de grupos de conteúdo, além dos dados de canal, como os dados de áudio SA. Uma ou uma pluralidade de peças de conteúdo do objeto pertencem a cada grupo de conteúdos.[00111] The video encoder 112 inputs the SV video data, encodes the SV video data and generates a video stream (an elementary video stream). Audio encoder 113 inputs object data from a predetermined number of content groups, in addition to channel data, such as SA audio data. One or a plurality of pieces of object content belong to each content group.

[00112] O codificador de áudio 113 codifica os dados de áudio SA, obtém os dados de transporte de áudio 3D e gera um fluxo contínuo de áudio (um fluxo contínuo elementar de áudio) que inclui os dados de transporte de áudio 3D. Os dados de transporte de áudio 3D incluem os dados codificados de objeto de um número predeterminado de grupos de conteúdo, além dos dados codificados de canal.[00112] The audio encoder 113 encodes the SA audio data, takes the 3D audio transport data, and generates an audio stream (an audio elementary stream) that includes the 3D audio transport data. The 3D audio transport data includes the object coded data of a predetermined number of content groups, in addition to the channel coded data.

[00113] Por exemplo, da forma ilustrada no exemplo de configuração da figura 4, os dados codificados de canal (CD), os dados codificados (DOD) de um grupo de conteúdos de um objeto de linguagem de diálogo e os dados codificados (SEO) de um grupo de conteúdos de um objeto de efeito sonoro são incluídos.[00113] For example, as illustrated in the configuration example of figure 4, the channel encoded data (CD), the encoded data (DOD) of a content group of a dialog language object and the encoded data (SEO ) of a group of contents of a sound effect object are included.

[00114] Sob o controle da seção de controle 111, o codificador de áudio 113 insere a informação de marcador “Speech_tag_information()” (consulte a figura 10) que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, sob o controle da seção de controle 111, o codificador de áudio 113 insere a informação de tabela “Tag_table()” (consulte a figura 11) com a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em qualquer quadro de áudio.[00114] Under the control of the control section 111, the audio encoder 113 inserts the tag information “Speech_tag_information()” (see figure 10) which indicates that the audio compression data of the predetermined sound unit is included in the audio frame that includes the predetermined sound unit audio compression data. Additionally, under the control of the control section 111, the audio encoder 113 inserts the table information "Tag_table()" (see Fig. 11) with the information associated with the predetermined sound unit into the audio stream at any given frame. of audio.

[00115] O multiplexador 114 realiza empacotamento PES individualmente do fluxo contínuo de vídeo transmitido a partir do codificador de vídeo 112 e um número predeterminado de fluxos contínuos de áudio transmitidos a partir do codificador de áudio 113, realiza adicionalmente empacotamento de transporte e multiplexa o fluxo contínuo, e obtém um fluxo contínuo de transporte TS como o fluxo contínuo de contêiner (o fluxo contínuo multiplexado).[00115] The multiplexer 114 individually PES marshaling the video stream transmitted from the video encoder 112 and a predetermined number of audio streams transmitted from the audio encoder 113, further performs transport marshaling and multiplexes the stream stream, and gets a TS transport stream as the container stream (the multiplexed stream).

[00116] Sob o controle da seção de controle 111, o multiplexador 114 insere a informação de tabela similar à supradescrita informação de tabela “Tag_table()” (consulte a figura 11) com a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio no fluxo contínuo de transporte TS. Na presente modalidade, o multiplexador 114 insere o descritor da tabela de marcador (Tag_table_descriptor()) (consulte a figura 13) em um laço de fluxo contínuo elementar de áudio que é provido sob uma PMT (Tabela de Mapa de Programa).[00116] Under the control of the control section 111, the multiplexer 114 inserts the table information similar to the above-described table information “Tag_table()” (see figure 11) with the information associated with the predetermined sound unit in the streaming audio over the TS transport stream. In the present embodiment, the multiplexer 114 inserts the tag table descriptor (Tag_table_descriptor()) (see Fig. 13) into an audio elementary streaming loop that is provided under a PMT (Program Map Table).

[00117] As operações da seção de geração de fluxo contínuo 110 ilustrada na figura 14 serão descritas em resumo. Os dados de vídeo SV são supridos para o codificador de vídeo 112. No codificador de vídeo 112, os dados de vídeo SV são codificados e um fluxo contínuo de vídeo que inclui os dados codificados de vídeo é gerado. O fluxo contínuo de vídeo é suprido para o multiplexador 114.[00117] The operations of the continuous flow generation section 110 illustrated in figure 14 will be briefly described. The SV video data is supplied to the video encoder 112. In the video encoder 112, the SV video data is encoded and a video stream including the encoded video data is generated. The video stream is supplied to multiplexer 114.

[00118] Os dados de áudio SA são supridos para o codificador de áudio 113. Os dados de áudio SA incluem os dados de objeto de um número predeterminado de grupos de conteúdo, além dos dados de canal. Aqui, uma ou uma pluralidade de peças de conteúdo do objeto pertencem a cada grupo de conteúdos.[00118] The SA audio data is supplied to the audio encoder 113. The SA audio data includes the object data of a predetermined number of content groups in addition to the channel data. Here, one or a plurality of pieces of object content belong to each content group.

[00119] No codificador de áudio 113, os dados de áudio SA são codificados e os dados de transporte de áudio 3D são obtidos. Os dados de transporte de áudio 3D incluem os dados codificados de objeto de um número predeterminado de grupos de conteúdo, além dos dados codificados de canal. Portanto, no codificador de áudio 113, um fluxo contínuo de áudio que inclui os dados de transporte de áudio 3D é gerado.[00119] In the audio encoder 113, the SA audio data is encoded and the 3D audio transport data is obtained. The 3D audio transport data includes the object coded data of a predetermined number of content groups, in addition to the channel coded data. Therefore, at the audio encoder 113, an audio stream that includes the 3D audio transport data is generated.

[00120] Neste momento, sob o controle da seção de controle 111, o codificador de áudio 113 insere a informação de marcador “Speech_tag_information()” que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, sob o controle da seção de controle 111, o áudio decodificador 113 insere a informação de tabela “Tag_table()” com a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em qualquer quadro de áudio.[00120] At this time, under the control of the control section 111, the audio encoder 113 inserts the tag information "Speech_tag_information()" which indicates that the audio compression data of the predetermined sound unit is included in the audio frame which includes the predetermined sound unit audio compression data. Additionally, under the control of the control section 111, the audio decoder 113 inserts the table information "Tag_table()" with the information associated with the predetermined sound unit into the audio stream in any audio frame.

[00121] O fluxo contínuo de vídeo gerado no codificador de vídeo 112 é suprido para o multiplexador 114. Além do mais, o fluxo contínuo de áudio gerado no codificador de áudio 113 é suprido para o multiplexador 114. O multiplexador 114 realiza empacotamento PES de um fluxo contínuo suprido a partir de cada codificador, realiza adicionalmente empacotamento de transporte e multiplexa o fluxo contínuo, e obtém um fluxo contínuo de transporte TS.[00121] The video stream generated in the video encoder 112 is supplied to the multiplexer 114. Furthermore, the audio stream generated in the audio encoder 113 is supplied to the multiplexer 114. The multiplexer 114 performs PES packaging of a stream supplied from each encoder, further performs transport packaging and multiplexes the stream, and obtains a transport stream TS.

[00122] Neste momento, sob o controle da seção de controle 111, o multiplexador 114 insere a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio no fluxo contínuo de transporte TS. Neste caso, o descritor da tabela de marcador (Tag_table_descriptor()) é inserido no laço de fluxo contínuo elementar de áudio que é provido sob a PMT.[00122] At this time, under the control of the control section 111, the multiplexer 114 inserts the table information having the information associated with the predetermined sound unit into the audio stream into the transport stream TS. In this case, the tag table descriptor (Tag_table_descriptor()) is inserted into the elementary audio streaming loop that is provided under the PMT.

[Configuração do Fluxo Contínuo de Transporte TS][TS Transport Stream Configuration]

[00123] A figura 15 ilustra um exemplo de configuração do fluxo contínuo de transporte TS em um caso no qual os dados de transporte de áudio 3D são transmitidos por um fluxo contínuo (consulte a figura 5(a)). O exemplo de configuração inclui um pacote PES “PES de vídeo” de um fluxo contínuo de vídeo que é identificado como um PID1 e um pacote PES “PES de áudio” de um fluxo contínuo de áudio que é identificado como um PID2. O pacote PES inclui um cabeçalho PES (PES_header) e um carga útil do PES (PES_payload). Os registros de tempo de DTS e PTS são inseridos no cabeçalho PES.[00123] Figure 15 illustrates an example TS transport stream configuration in a case where 3D audio transport data is transmitted over a stream (see Figure 5(a)). The example configuration includes a “Video PES” PES packet of a video stream that is identified as a PID1 and an “Audio PES” PES packet of an audio stream that is identified as a PID2. The PES packet includes a PES header (PES_header) and a PES payload (PES_payload). DTS and PTS time stamps are inserted into the PES header.

[00124] Um fluxo contínuo de áudio (fluxo contínuo codificado de Áudio) é inserido na carga útil do PES do pacote PES do fluxo contínuo de áudio. A informação de marcador “Speech_tag_information()” é inserida no fluxo contínuo de áudio e, também, a informação de tabela “Tag_table()” é inserida no mesmo.[00124] An audio stream (Audio encoded stream) is inserted into the PES payload of the Audio Stream PES package. The tag information “Speech_tag_information()” is inserted into the audio stream and also the table information “Tag_table()” is inserted into it.

[00125] Além do mais, no fluxo contínuo de transporte TS, a PMT (Tabela de Mapa de Programa) é incluída como PSI (Informação Específica de Programa). A PSI é a informação que descreve um programa ao qual cada fluxo contínuo elementar incluído no fluxo contínuo de transporte pertence. A PMT inclui um laço de programa (laço de Programa) que descreve a informação associada com a íntegra do programa.[00125] Furthermore, in the TS transport stream, PMT (Program Map Table) is included as PSI (Program Specific Information). The PSI is information describing a program to which each elementary stream included in the transport stream belongs. The PMT includes a program loop (Program loop) that describes information associated with the entire program.

[00126] Além do mais, a PMT inclui um laço de fluxo contínuo elementar com a informação associada com cada fluxo contínuo elementar. O exemplo de configuração inclui um laço de fluxo contínuo elementar de vídeo (laço ES de vídeo) correspondente a um fluxo contínuo de vídeo e um laço de fluxo contínuo elementar de áudio (laço ES de áudio) correspondente a um fluxo contínuo de áudio.[00126] Furthermore, the PMT includes an elementary streaming loop with the information associated with each elementary streaming loop. The example configuration includes an elementary video streaming loop (video ES loop) corresponding to a video stream and an audio elementary streaming loop (audio ES loop) corresponding to an audio stream.

[00127] No laço de fluxo contínuo elementar de vídeo (laço ES de vídeo), a informação, tais como um tipo de fluxo contínuo e um PID (identificador de pacote) correspondente a um fluxo contínuo de vídeo, é arranjada e um descritor que descreve a informação associada com o fluxo contínuo de vídeo também é arranjado. Um valor de “Stream_type” do fluxo contínuo de vídeo é definido em “0x24”, e a informação de PID indica o PID1 que é atribuído ao pacote PES “PES de vídeo” do fluxo contínuo de vídeo, como exposto. Como um descritor, um descritor HEVC é arranjado.[00127] In the elementary video streaming loop (video ES loop), information such as a streaming type and a PID (packet identifier) corresponding to a video streaming loop is arranged and a descriptor that describes the information associated with the streaming video is also arranged. A “Stream_type” value of the video stream is set to “0x24”, and the PID information indicates the PID1 that is assigned to the “Video PES” PES packet of the video stream, as shown. As a descriptor, an HEVC descriptor is arranged.

[00128] Além do mais, no laço de fluxo contínuo elementar de áudio (laço ES de áudio), a informação, tais como um tipo de fluxo contínuo e um PID (identificador de pacote) correspondente a um fluxo contínuo de áudio, é arranjada e um descritor que descreve a informação associada com o fluxo contínuo de áudio também é arranjado. Um valor de “Stream_type” do fluxo contínuo de áudio é definido em “0x2C” e a informação de PID indica o PID2 que é atribuído ao pacote PES “PES de áudio” do fluxo contínuo de áudio, como exposto. Como um descritor, o descritor da tabela de marcador (Tag_table_descriptor()) é arranjado.[00128] Furthermore, in the elementary audio streaming loop (audio ES loop), information such as a streaming type and a PID (packet identifier) corresponding to an audio streaming loop is arranged and a descriptor describing information associated with the audio stream is also arranged. An audio stream “Stream_type” value is set to “0x2C” and the PID information indicates the PID2 that is assigned to the audio stream “Audio PES” PES packet, as shown. As a descriptor, the tag table descriptor (Tag_table_descriptor()) is arranged.

[00129] A figura 16 ilustra um exemplo de configuração do fluxo contínuo de transporte TS em um caso no qual os dados de transporte de áudio 3D são transmitidos por dois fluxos contínuos (consulte a figura 5(b)). O exemplo de configuração inclui o pacote PES “PES de vídeo” do fluxo contínuo de vídeo que é identificado como o PID1. Além do mais, o exemplo de configuração inclui os pacotes PES “PES de áudio” de dois fluxos contínuos de áudio (Substream1 e Substream2) que são identificados como o PID2 e um PID3, respectivamente.[00129] Figure 16 illustrates an example TS transport stream configuration in a case where 3D audio transport data is transmitted over two streams (see Figure 5(b)). The example configuration includes the video stream “PES video” PES packet which is identified as PID1. Furthermore, the example configuration includes the “Audio PES” PES packets of two audio streams (Substream1 and Substream2) that are identified as PID2 and a PID3, respectively.

[00130] O pacote PES inclui o cabeçalho PES (PES_header) e a carga útil do PES (PES_payload). Os registros de tempo de DTS e PTS são inseridos no cabeçalho PES. O sincronismo entre os aparelhos pode ser mantido na íntegra do sistema pela aplicação dos registros de tempo precisamente, por exemplo, pela correspondência dos registros de tempo do PID2 e do PID3 durante a multiplexação.[00130] The PES packet includes the PES header (PES_header) and the PES payload (PES_payload). DTS and PTS time stamps are inserted into the PES header. Synchronism between fixtures can be maintained throughout the system by applying the time stamps precisely, for example by matching the PID2 and PID3 timestamps during multiplexing.

[00131] Os fluxos contínuos de áudio (fluxos contínuos codificados de Áudio) são inseridos na carga útil do PES dos pacotes PES de dois fluxos contínuos de áudio (Substream1 e Substream2). A informação de marcador “Speech_tag_information()” é inserida no fluxo contínuo de áudio e, também, a informação de tabela “Tag_table()” é inserida no mesmo. Note que a informação de marcador “Speech_tag_information()” e a informação de tabela “Tag_table()” podem ser inseridas apenas no lado do fluxo contínuo de áudio principal (Substream1).[00131] The audio streams (Audio encoded streams) are inserted into the PES payload of the PES packets of two audio streams (Substream1 and Substream2). The tag information “Speech_tag_information()” is inserted into the audio stream and also the table information “Tag_table()” is inserted into it. Note that the tag information “Speech_tag_information()” and the table information “Tag_table()” can be inserted only on the main audio stream side (Substream1).

[00132] Além do mais, no fluxo contínuo de transporte TS, a PMT (Tabela de Mapa de Programa) é incluída como a PSI (Informação Específica de Programa). A PSI é a informação que descreve um programa ao qual cada fluxo contínuo elementar incluído no fluxo contínuo de transporte pertence. A PMT inclui um laço de programa (laço de Programa) que descreve a informação associada com a íntegra do programa.[00132] Furthermore, in the TS transport stream, the PMT (Program Map Table) is included as the PSI (Program Specific Information). The PSI is information describing a program to which each elementary stream included in the transport stream belongs. The PMT includes a program loop (Program loop) that describes information associated with the entire program.

[00133] Além do mais, a PMT inclui um laço de fluxo contínuo elementar com a informação associada com cada fluxo contínuo elementar. O exemplo de configuração inclui o laço de fluxo contínuo elementar de vídeo (laço ES de vídeo) correspondente ao fluxo contínuo de vídeo e o laço de fluxo contínuo elementar de áudio (laço ES de áudio) correspondente a dois fluxos contínuos de áudio (Substream1 e Substream2).[00133] Furthermore, the PMT includes an elementary streaming loop with the information associated with each elementary streaming loop. The example configuration includes the elementary video streaming loop (video ES loop) corresponding to the video stream and the audio elementary streaming loop (audio ES loop) corresponding to two audio streams (Substream1 and Substream2).

[00134] No laço de fluxo contínuo elementar de vídeo (laço ES de vídeo), a informação, tais como um tipo de fluxo contínuo e um PID (identificador de pacote) correspondente ao fluxo contínuo de vídeo, é arranjada e um descritor que descreve a informação associada com o fluxo contínuo de vídeo também é arranjado. Um valor de “Stream_type” do fluxo contínuo de vídeo é definido em “0x24”, e a informação de PID indica o PID1 que é atribuído ao pacote PES “PES de vídeo” do fluxo contínuo de vídeo, como exposto. Como um descritor, o descritor HEVC é arranjado.[00134] In the elementary video streaming loop (video ES loop), information such as a streaming type and a PID (packet identifier) corresponding to the video streaming is arranged and a descriptor describing the information associated with the streaming video is also arranged. A “Stream_type” value of the video stream is set to “0x24”, and the PID information indicates the PID1 that is assigned to the “Video PES” PES packet of the video stream, as shown. As a descriptor, the HEVC descriptor is arranged.

[00135] Em cada laço de fluxo contínuo elementar de áudio (laço ES de áudio), a informação, tais como um tipo de fluxo contínuo e um PID (identificador de pacote) correspondente ao fluxo contínuo de áudio, é arranjada e um descritor que descreve a informação associada com o fluxo contínuo de áudio também é arranjado.[00135] In each elementary audio streaming loop (audio ES loop), information, such as a streaming type and a PID (packet identifier) corresponding to the audio streaming, is arranged and a descriptor that describes the information associated with the audio stream is also arranged.

[00136] O PID2 é o fluxo contínuo de áudio principal (Substream1) e um valor de “Stream_type” é definido em “0x2C” e a informação de PID indica um PID que é atribuído ao pacote PES “PES de áudio” do fluxo contínuo de áudio, como exposto. Adicionalmente, o PID3 é o subfluxo contínuo de áudio (Substream2) e um valor de “Stream_type” é definido em “0x2D” e a informação de PID indica um PID que é atribuído ao pacote PES “PES de áudio” do fluxo contínuo de áudio, como exposto.[00136] PID2 is the main audio stream (Substream1) and a value of “Stream_type” is set to “0x2C” and the PID information indicates a PID that is assigned to the “Audio PES” PES packet of the stream audio, as shown. Additionally, PID3 is the audio stream substream (Substream2) and a value of “Stream_type” is set to “0x2D” and the PID information indicates a PID that is assigned to the “Audio PES” PES packet of the audio stream , as exposed.

[00137] Além do mais, em cada laço de fluxo contínuo elementar de áudio (laço ES de áudio), o descritor da tabela de marcador (Tag_table_descriptor()) é arranjado como um descritor. Note que o descritor da tabela de marcador (Tag_table_descriptor()) pode ser arranjado apenas no laço de fluxo contínuo elementar de áudio no lado do fluxo contínuo de áudio principal (Substream1).[00137] Furthermore, in each elementary audio streaming loop (audio ES loop), the tag table descriptor (Tag_table_descriptor()) is arranged as a descriptor. Note that the tag table descriptor (Tag_table_descriptor()) can be arranged only in the elementary audio streaming loop on the main audio streaming side (Substream1).

[Exemplo de Configuração do Receptor de Serviço][Service Receiver Configuration Example]

[00138] A figura 17 ilustra um exemplo de configuração do receptor de serviço 200. O receptor de serviço 200 inclui uma seção de recepção 201, um demultiplexador 202, uma seção de decodificação de vídeo 203, um circuito de processamento de vídeo 204, um circuito de acionamento de painel 205, um painel de exibição 206 e uma seção OSD (Exibição na Tela) 207. Além do mais, o receptor de serviço 200 inclui uma seção de decodificação de áudio 214, um circuito de transmissão de áudio 215 e um sistema de alto-falante 216.[00138] Figure 17 illustrates an example configuration of the service receiver 200. The service receiver 200 includes a reception section 201, a demultiplexer 202, a video decoding section 203, a video processing circuit 204, a panel drive circuit 205, a display panel 206 and an OSD (On Screen Display) section 207. Furthermore, the service receiver 200 includes an audio decoding section 214, an audio transmission circuit 215 and a speaker system 216.

[00139] Além do mais, o receptor de serviço 200 inclui uma CPU 221, uma ROM flash 222, uma DRAM 223, um barramento interno 224, uma seção de recepção do controle remoto 225, um transmissor do controle remoto 226, um armazenamento local 231 e uma interface de comunicação 232. Na interface de comunicação 232, um armazenamento online 242 é conectado por meio de uma rede 241, tal como a Internet.[00139] Furthermore, the service receiver 200 includes a CPU 221, a flash ROM 222, a DRAM 223, an internal bus 224, a remote control receiver section 225, a remote control transmitter 226, a local storage 231 and a communication interface 232. In the communication interface 232, an online storage 242 is connected via a network 241, such as the Internet.

[00140] A CPU 221 controla as operações dos respectivos componentes do receptor de serviço 200. A ROM flash 222 armazena o software de controle e mantém os dados. A DRAM 223 constitui uma área de trabalho da CPU 221. A CPU 221 implementa o software e os dados lidos a partir da ROM flash 222 na DRAM 223 para iniciar o software e controla os respectivos componentes do receptor de serviço 200.[00140] The CPU 221 controls the operations of the respective components of the service receiver 200. The flash ROM 222 stores the control software and maintains the data. DRAM 223 constitutes a work area of CPU 221. CPU 221 deploys software and data read from flash ROM 222 into DRAM 223 to launch software and control related components of service receiver 200.

[00141] A seção de recepção do controle remoto 225 recebe um sinal de controle remoto (um código de controle remoto) transmitido a partir do transmissor do controle remoto 226 e supre o sinal para a CPU 221. A CPU 221 controla os respectivos componentes do receptor de serviço 200 com base no código de controle remoto. A CPU 221, a ROM flash 222, a DRAM 223, o armazenamento local 231 e a interface de comunicação 232 são conectados no barramento interno 224.[00141] The remote control receiving section 225 receives a remote control signal (a remote control code) transmitted from the remote control transmitter 226 and supplies the signal to the CPU 221. The CPU 221 controls the respective components of the 200 service receiver based on remote control code. CPU 221, flash ROM 222, DRAM 223, local storage 231 and communication interface 232 are connected on internal bus 224.

[00142] A seção de recepção 201 recebe o fluxo contínuo de transporte TS transmitido a partir do transmissor de serviço 100 em uma onda de difusão ou em um pacote através de uma rede. O fluxo contínuo de transporte TS inclui um fluxo contínuo de áudio, além de um fluxo contínuo de vídeo. O fluxo contínuo de áudio é um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado.[00142] The receive section 201 receives the TS transport stream transmitted from the service transmitter 100 in a broadcast wave or in a packet over a network. The TS transport stream includes an audio stream in addition to a video stream. The audio stream is an audio stream in which an audio frame including the audio compression data obtained by performing encoding processing on the audio data is continuously arrayed.

[00143] Da forma supradescrita, a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, como exposto, a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio é inserida em uma camada do fluxo contínuo de transporte TS e/ou em uma camada do fluxo contínuo de áudio.[00143] As described above, the marker information indicating that the predetermined sound unit audio compression data is included is inserted into the audio frame that includes the predetermined sound unit audio compression data. Additionally, as discussed, the table information having the information associated with the predetermined sound unit in the audio stream is inserted into a layer of the TS transport stream and/or into a layer of the audio stream.

[00144] Aqui, a informação de marcador “Speech_tag_information()” é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada (consulte a figura 5 e a figura 10). Além do mais, a informação de tabela “Tag_table()” é inserida no quadro de áudio de qualquer quadro de áudio (consulte a figura 5 e a figura 11). Adicionalmente, o descritor da tabela de marcador (Tag_table_descriptor()) (consulte a figura 13) é arranjado no laço de fluxo contínuo elementar de áudio que é provido sob a PMT.[00144] Here, the tag information “Speech_tag_information()” is inserted into the audio frame which includes the audio compression data of the predetermined sound unit (see figure 5 and figure 10). Furthermore, the table information “Tag_table()” is inserted into the audio frame of any audio frame (see figure 5 and figure 11). Additionally, the tag table descriptor (Tag_table_descriptor()) (see Figure 13) is arranged in the audio elementary streaming loop that is provided under the PMT.

[00145] O demultiplexador 202 extrai um fluxo contínuo de vídeo do fluxo contínuo de transporte TS e envia o fluxo contínuo de vídeo para a seção de decodificação de vídeo 203. A seção de decodificação de vídeo 203 realiza o processamento de decodificação no fluxo contínuo de vídeo e obtém os dados de vídeo descomprimidos. O circuito de processamento de vídeo 204 realiza o processamento de escalonamento, processamento de regulação da qualidade da imagem ou congêneres nos dados de vídeo obtidos na seção de decodificação de vídeo 203 e obtém os dados de vídeo para exibição.[00145] The demultiplexer 202 extracts a video stream from the TS transport stream and sends the video stream to the video decoding section 203. The video decoding section 203 performs decoding processing on the video stream. video and gets the uncompressed video data. The video processing circuit 204 performs scaling processing, image quality tuning processing or the like on the video data obtained in the video decoding section 203 and obtains the video data for display.

[00146] A seção OSD 207 gera um sinal de exibição de GUI sob o controle da CPU 221. O sinal de exibição de GUI é enviado para o circuito de processamento de vídeo 204 e é sobreposto nos dados de vídeo. O circuito de acionamento de painel 205 aciona o painel de exibição 206 com base nos dados de imagem para exibição obtidos no circuito de processamento de vídeo 204. O painel de exibição 206 inclui, por exemplo, uma LCD (Tela de Cristal Líquido), uma tela de EL orgânica (tela de eletroluminescência orgânica) ou congêneres.[00146] The OSD section 207 generates a GUI display signal under the control of the CPU 221. The GUI display signal is sent to the video processing circuit 204 and is superimposed on the video data. The panel drive circuit 205 drives the display panel 206 based on the display image data obtained from the video processing circuit 204. The display panel 206 includes, for example, an LCD (Liquid Crystal Display), a organic EL screen (organic electroluminescence screen) or similar.

[00147] Além do mais, o demultiplexador 202 extrai vários tipos de informação, tal como informação de descritor, do fluxo contínuo de transporte TS e envia a informação para a CPU 221. Os vários tipos de informação também incluem o supradescrito descritor da tabela de marcador. De acordo com o descritor, a CPU 221 adquire a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio e reconhece a informação de contagem de quadro que indica uma posição de quadro do cabeçalho de serviço de cada unidade de som, a informação de identificação da unidade de som de cada unidade de som, a informação de identificação da fonte de geração de cada unidade de som ou congêneres.[00147] Furthermore, the demultiplexer 202 extracts various types of information, such as descriptor information, from the transport stream TS and sends the information to the CPU 221. The various types of information also include the above-described descriptor from the TS table. highlighter. According to the descriptor, the CPU 221 acquires the table information that has the information associated with the predetermined sound unit in the audio stream and recognizes the frame count information that indicates a frame position of the service header of each sound unit, the sound unit identification information of each sound unit, the generation source identification information of each sound unit or the like.

[00148] Além do mais, o demultiplexador 202 extrai um fluxo contínuo de áudio do fluxo contínuo de transporte TS e envia o fluxo contínuo de áudio para a seção de decodificação de áudio 214. A seção de decodificação de áudio 214 realiza o processamento de decodificação no fluxo contínuo de áudio e obtém os dados de áudio para acionar cada alto- falante que constitui o sistema de alto-falante 216.[00148] Furthermore, the demultiplexer 202 extracts an audio stream from the TS transport stream and sends the audio stream to the audio decoding section 214. The audio decoding section 214 performs the decoding processing in the audio stream and obtains the audio data to drive each speaker that makes up speaker system 216.

[00149] Neste caso, sob o controle da CPU 221, na seção de decodificação de áudio 214, apenas dados codificados de qualquer uma peça de conteúdo do objeto de acordo com a seleção de usuário são definidos como um objeto de decodificação dentre os dados codificados de uma pluralidade de peças de conteúdo do objeto que constituem um grupo de comutação em dados codificados de um número predeterminado de peças de conteúdo do objeto incluídas no fluxo contínuo de áudio.[00149] In this case, under the control of the CPU 221, in the audio decoding section 214, only encoded data of any one piece of object content according to the user selection is set as a decoding object among the encoded data of a plurality of object content pieces constituting a switching group into encoded data of a predetermined number of object content pieces included in the audio stream.

[00150] Além do mais, a seção de decodificação de áudio 214 extrai vários tipos de informação que são inseridos no fluxo contínuo de áudio e transmite a informação para a CPU 221. Os vários tipos de informação também incluem as supradescritas informação de marcador “Speech_tag_information()” e informação de tabela “Tag_table()”.[00150] Furthermore, the audio decoding section 214 extracts various types of information that are inserted into the audio stream and transmits the information to the CPU 221. The various types of information also include the above-described tag information “Speech_tag_information ()” and table information “Tag_table()”.

[00151] De acordo com a informação de marcador, para cada quadro de áudio, a CPU 221 pode reconhecer o quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada, a informação de identificação da unidade de som da unidade de som incluída, a informação de identificação da fonte de geração da unidade de som, a informação de contagem de quadro, a informação de tipo que indica se inclui a posição inicial / posição final, a informação associada com um deslocamento do cabeçalho de quadro para a posição inicial / posição final ou congêneres.[00151] According to the marker information, for each audio frame, the CPU 221 can recognize the audio frame that includes the predetermined sound unit audio compression data, the unit sound unit identification information included sound unit generation source identification information, frame count information, type information indicating whether to include start position / end position, information associated with a frame header offset to the start position / end position or the like.

[00152] Além do mais de acordo com a informação de tabela, a CPU 221 reconhece a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio, isto é, a informação de contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço de cada unidade de som, a informação de identificação da unidade de som de cada unidade de som, a informação de identificação da fonte de geração de cada unidade de som ou congêneres.[00152] Furthermore according to the table information, the CPU 221 recognizes the information associated with the predetermined sound unit in the audio stream, i.e. the frame count information that indicates the frame position from of the service header of each sound unit, the sound unit identification information of each sound unit, the generation source identification information of each sound unit or the like.

[00153] Adicionalmente, sob o controle da CPU 221 com base na informação de marcador, a seção de decodificação de áudio 214 segmenta os dados de áudio correspondentes à unidade de som predeterminada a partir dos dados de áudio obtidos no processamento de decodificação e grava os dados de áudio no armazenamento temporário para conter temporariamente os dados de áudio. Por exemplo, quando o usuário realizar a operação de reprodução (operação de repetição instantânea), sob o controle da CPU 221, a seção de decodificação de áudio 214 lê os dados de áudio da unidade de som a partir do armazenamento temporário, e transmite diretamente os dados de áudio como dados de áudio, realiza uma conversão de texto para transmitir os dados de áudio como dados de exibição de legenda, ou realiza ambos os expostos. Os dados de exibição de legenda são enviados para o circuito de processamento de vídeo 204 e são sobrepostos nos dados de vídeo.[00153] Additionally, under the control of the CPU 221 based on the marker information, the audio decoding section 214 segments the audio data corresponding to the predetermined sound unit from the audio data obtained in the decoding processing and records the audio data in temporary storage to temporarily contain the audio data. For example, when the user performs the playback operation (instant replay operation), under the control of the CPU 221, the audio decoding section 214 reads the audio data of the sound unit from the temporary storage, and directly transmits audio data as audio data, performs a text conversion to pass the audio data as subtitle display data, or performs both of the above. The subtitle display data is sent to the video processing circuit 204 and is superimposed on the video data.

[00154] Neste caso, em um caso de transmissão dos dados de áudio como dados de áudio, os dados de áudio lidos a partir do armazenamento temporário são transmitidos no lugar dos dados de áudio obtidos no processamento de decodificação ou são mixados com os dados de áudio obtidos no processamento de decodificação para ser transmitidos. Adicionalmente, em um caso de transmissão dos dados de áudio apenas como os dados de exibição de legenda, a transmissão dos dados de áudio obtidos no processamento de decodificação é continuada.[00154] In this case, in a case of transmitting the audio data as audio data, the audio data read from the temporary storage is transmitted in place of the audio data obtained in the decoding processing or is mixed with the data from audio obtained from decoding processing to be transmitted. Additionally, in a case of transmitting the audio data only as the subtitle display data, the transmission of the audio data obtained in the decoding processing is continued.

[00155] Adicionalmente, sob o controle da CPU 221, com base na informação de marcador, quando o usuário realizar uma operação de exibição de conversão de legenda, a seção de decodificação de áudio segmenta os dados de áudio da unidade de som do grupo de comutação, do grupo, da fonte de geração (alto-falante) ou congêneres instruídos, realiza uma conversão de texto, e transmite os dados de áudio como os dados de exibição de legenda. Os dados de exibição de legenda são enviados para o circuito de processamento de vídeo 204 e são sobrepostos nos dados de vídeo. A seção de decodificação de áudio 214 será adicionalmente descrita com detalhes a seguir.[00155] Additionally, under the control of CPU 221, based on the marker information, when the user performs a subtitle conversion display operation, the audio decoding section segments the audio data of the sound unit of the subtitle group. switching, from the group, from the generation source (speaker) or instructed congeners, performs a text conversion, and transmits the audio data as the subtitle display data. The subtitle display data is sent to the video processing circuit 204 and is superimposed on the video data. Audio decoding section 214 will be further described in detail below.

[00156] O circuito de processamento de transmissão de áudio 215 realiza processamento necessário, tais como conversão D/A e amplificação, nos dados de áudio para acionar cada alto-falante obtidos na seção de decodificação de áudio 214 e supre o resultado para o sistema de alto-falante 216. O sistema de alto-falante 216 inclui uma pluralidade de alto-falantes de uma pluralidade de canais, por exemplo, 2 canais, 5.1 canais, 7.1 canais, 22.2 canais e congêneres.[00156] The audio transmission processing circuit 215 performs necessary processing, such as D/A conversion and amplification, on the audio data to drive each speaker obtained in the audio decoding section 214 and supplies the result to the system loudspeaker system 216. Loudspeaker system 216 includes a plurality of loudspeakers of a plurality of channels, for example, 2-channel, 5.1-channel, 7.1-channel, 22.2-channel, and the like.

[00157] Em resposta a uma operação de usuário, sob o controle da CPU 221, o fluxo contínuo de transporte TS enviado a partir da seção de recepção 201 através do demultiplexador 202 é gravado e contido no armazenamento local 231. Adicionalmente, sob o controle da CPU 221, o fluxo contínuo de transporte TS contido é lido a partir do armazenamento local 231 e é enviado para o demultiplexador 202.[00157] In response to a user operation, under the control of the CPU 221, the TS transport stream sent from the receive section 201 through the demultiplexer 202 is recorded and contained in local storage 231. Additionally, under the control from CPU 221, the contained transport stream TS is read from local storage 231 and sent to demultiplexer 202.

[00158] Em resposta à operação de usuário, sob o controle da CPU 221, a interface de comunicação 232 grava o fluxo contínuo de transporte TS enviado a partir da seção de recepção 201 através do demultiplexador 202 no armazenamento online 242 através da rede 241 e contém o fluxo contínuo de transporte TS no mesmo. Adicionalmente, sob o controle da CPU 221, a interface de comunicação 232 lê o fluxo contínuo de transporte TS contido no armazenamento online 242 através da rede 241 e envia o fluxo contínuo de transporte TS para o demultiplexador 202.[00158] In response to user operation, under the control of the CPU 221, the communication interface 232 records the TS transport stream sent from the receive section 201 through the demultiplexer 202 into the online storage 242 over the network 241 and contains the TS transport stream in it. Additionally, under the control of CPU 221, communication interface 232 reads the TS transport stream contained in online storage 242 over network 241 and sends the TS transport stream to demultiplexer 202.

[00159] Com base na informação associada com a unidade de som predeterminada incluída na informação de tabela, a CPU 221 pode controlar o fluxo contínuo de transporte TS para ser lido a partir do armazenamento. Por exemplo, a CPU 221 pode controlar o fluxo contínuo de contêiner a ser lido a partir de uma posição de quadro que inclui a unidade de som de acordo com a seleção de usuário.[00159] Based on the information associated with the predetermined sound unit included in the table information, the CPU 221 can control the TS transport stream to be read from the storage. For example, CPU 221 can control the streaming container to be read from a frame position that includes the sound unit according to user selection.

[00160] Neste caso, o usuário refere-se a uma exibição da informação associada com cada unidade de som no fluxo contínuo de áudio exibido no painel de exibição 206 e seleciona a unidade de som como uma posição de leitura. Da forma ilustrada na figura 18, a CPU 221 envia um comando de leitura juntamente com a informação de marcador (“audio_frame_count”, “speech_id”, “speaker_id”, e congêneres) correspondente à unidade de som selecionada para o armazenamento local 231, ou o armazenamento online 242 através da interface de comunicação 232. O armazenamento compara o comando de leitura com a informação de marcador “Speech_tag_information” ou outra informação de tabela “Tag_table” associada com um fluxo contínuo de contêiner predeterminado ou o fluxo contínuo de áudio, lê o fluxo contínuo de contêiner a partir de uma parte correspondida, e envia o fluxo contínuo de contêiner para o demultiplexador 202. Neste caso, uma posição no tempo do cabeçalho de serviço do fluxo contínuo de áudio é especificada pelo uso de “audio_frame_count”, um grupo de objetos no fluxo contínuo de áudio é especificado pelo uso de “group_id/SW_group_id”, a unidade de som (voz) na ordem da série de tempo é especificado pelo uso de “speech_id” e, adicionalmente, a unidade de som (voz) de um alto-falante especificado é especificada pelo uso de “speaker_id” para, desse modo, reproduzir uma voz pretendida, ou não apenas vozes, mas, também, outros dados, tais como vídeos incluídos no contêiner no sincronismo.[00160] In this case, the user refers to a display of information associated with each sound unit in the audio stream displayed on display panel 206 and selects the sound unit as a reading position. As illustrated in Figure 18, the CPU 221 sends a read command along with the marker information ("audio_frame_count", "speech_id", "speaker_id", and the like) corresponding to the selected sound unit to local storage 231, or the online store 242 via the communication interface 232. The store compares the read command with the tag information "Speech_tag_information" or other table information "Tag_table" associated with a predetermined container stream or audio stream, reads the container stream from a matched party, and sends the container stream to the demultiplexer 202. In this case, a service header time position of the audio stream is specified by using "audio_frame_count", a group of objects in the audio stream is specified by using “group_id/SW_group_id”, the unit of sound (voice) in time series order is specified by using “speech_id”, and additionally the unit of sound (voice) ) of a specified speaker is specified by using “speaker_id” to thereby play an intended voice, or not just voices but also other data such as videos included in the container in sync.

[Exemplo de Configuração da Unidade de Decodificação de Áudio][Audio Decoding Unit Configuration Example]

[00161] A figura 19 ilustra um exemplo de configuração da seção de decodificação de áudio 214. A seção de decodificação de áudio 214 inclui um decodificador 251, um renderizador de objeto 252, um mixador 253, uma seção de segmentação de dados de áudio 254, um armazenamento temporário de dados de áudio e marcador 255 e uma seção de conversão de texto/exibição de legenda 256.[00161] Figure 19 illustrates an example configuration of the audio decoding section 214. The audio decoding section 214 includes a decoder 251, an object renderer 252, a mixer 253, an audio data segmentation section 254 , an audio and marker data buffer 255 and a subtitle display/text conversion section 256.

[00162] O decodificador 251 realiza o processamento de decodificação no fluxo contínuo de áudio extraído pelo demultiplexador 202 e obtém os dados de objeto do número predeterminado de peças de conteúdo do objeto, além dos dados de canal. O decodificador 251 realiza os processos do codificador de áudio 113 da seção de geração de fluxo contínuo 110 da figura 14, aproximadamente em ordem reversa. Percebe-se que, em uma pluralidade de peças de conteúdo do objeto que constituem um grupo de comutação, apenas os dados de objeto de qualquer uma peça de conteúdo do objeto de acordo com a seleção de usuário são obtidos sob o controle da CPU 221.[00162] The decoder 251 performs decoding processing on the audio stream extracted by the demultiplexer 202 and obtains the object data of the predetermined number of pieces of object content in addition to the channel data. Decoder 251 performs the processes of audio encoder 113 of streaming generation section 110 of Fig. 14 in approximately reverse order. It is noticed that, in a plurality of object content pieces constituting a switching group, only the object data of any one object content piece according to user selection is obtained under the control of CPU 221.

[00163] Além do mais, o decodificador 251 extrai vários tipos de informação que são inseridas no fluxo contínuo de áudio e transmite a informação para a CPU 221. Os vários tipos de informação também incluem as supradescritas informação de marcador “Speech_tag_information()” e informação de tabela “Tag_table()”.[00163] Furthermore, the decoder 251 extracts various types of information that are inserted into the audio stream and transmits the information to the CPU 221. The various types of information also include the above-described tag information "Speech_tag_information()" and table information “Tag_table()”.

[00164] De acordo com a informação de marcador, para cada quadro de áudio, a CPU 221 pode reconhecer o quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada, a informação de identificação da unidade de som da unidade de som incluída, a informação de identificação da fonte de geração da unidade de som, a informação de contagem de quadro, a informação de tipo que indica se inclui a posição inicial / posição final, a informação associada com um deslocamento do cabeçalho de quadro para a posição inicial / posição final ou congêneres. Além do mais de acordo com a informação de tabela, a CPU 221 reconhece a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio, isto é, a informação de contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço de cada unidade de som, a informação de identificação da unidade de som de cada unidade de som, a informação de identificação da fonte de geração de cada unidade de som ou congêneres.[00164] According to the marker information, for each audio frame, the CPU 221 can recognize the audio frame that includes the predetermined sound unit audio compression data, the unit sound unit identification information included sound unit generation source identification information, frame count information, type information indicating whether to include start position / end position, information associated with a frame header offset to the start position / end position or the like. Furthermore, in accordance with the table information, the CPU 221 recognizes the information associated with the predetermined sound unit in the audio stream, i.e., the frame count information that indicates the frame position from the frame header. service of each sound unit, the sound unit identification information of each sound unit, the generation source identification information of each sound unit or the like.

[00165] O renderizador de objeto 252 realiza o processamento de renderização nos dados de objeto do número predeterminado de peças de conteúdo do objeto e obtém os dados de canal do número predeterminado de peças de conteúdo do objeto. Aqui, os dados de objeto incluem os dados de áudio de uma fonte de som do objeto e a informação de posição da fonte de som do objeto. O renderizador de objeto 252 obtém os dados de canal pelo mapeamento dos dados de áudio de uma fonte de som do objeto com qualquer posição de alto-falante com base na informação de posição da fonte de som do objeto.[00165] The object renderer 252 performs rendering processing on the object data of the predetermined number of pieces of object content and obtains the channel data of the predetermined number of pieces of object content. Here, the object data includes the audio data of an object's sound source and the position information of the object's sound source. The object renderer 252 obtains the channel data by mapping the audio data of an object's sound source to any speaker position based on the position information of the object's sound source.

[00166] O mixador 253 combina os dados de canal de cada peça de conteúdo do objeto obtida no renderizador de objeto 252 com os dados de canal obtidos no decodificador 251 e obtém os dados de canal (dados de áudio) para acionar cada alto-falante que constitui o sistema de alto-falante 216.[00166] The mixer 253 combines the channel data of each piece of object content obtained from the object renderer 252 with the channel data obtained from the decoder 251 and obtains the channel data (audio data) to drive each speaker which constitutes the loudspeaker system 216.

[00167] Sob o controle da CPU 221 com base na informação de marcador, a seção de segmentação de dados de áudio 254 segmenta sequencialmente os dados de áudio da unidade de som indicados pela informação de marcador dos dados de áudio (dados de canal) obtida no decodificador 251 ou os dados de áudio (dados de canal) de cada peça de conteúdo do objeto obtida no renderizador de objeto 252.[00167] Under the control of the CPU 221 based on the marker information, the audio data segmentation section 254 sequentially segments the audio data of the sound unit indicated by the obtained marker information of the audio data (channel data) at decoder 251 or the audio data (channel data) of each piece of object content obtained at object renderer 252.

[00168] Em um exemplo ilustrado na figura 6, por exemplo, os dados de áudio de acordo com a unidade de som 1 de um conteúdo de áudio 1 são segmentados a partir dos quadros de áudio f1 até f2. Na segmentação, a informação que indica os deslocamentos de “xs1” e “xe1” é usada a fim de segmentar precisamente os dados de áudio de acordo com a unidade de som 1. Continuamente, os dados de áudio de acordo com a unidade de som 2 de um conteúdo de áudio 2 são segmentados a partir dos quadros de áudio f3 até f4. Na segmentação, a informação que indica os deslocamentos de “xs2” e “xe2” é usada a fim de segmentar precisamente os dados de áudio de acordo com a unidade de som 1.[00168] In an example illustrated in Figure 6, for example, audio data according to sound unit 1 of an audio content 1 is segmented from audio frames f1 to f2. In segmentation, the information indicating the offsets of “xs1” and “xe1” is used in order to precisely segment the audio data according to the sound unit 1. Continuously, the audio data according to the sound unit 2 of a 2 audio content are segmented from audio frames f3 to f4. In segmentation, the information indicating the offsets of “xs2” and “xe2” is used in order to precisely segment the audio data according to sound unit 1.

[00169] Sob o controle da CPU 221, no armazenamento temporário de dados de áudio e marcador 255, os dados de áudio da unidade de som segmentados pela seção de segmentação de dados de áudio 254 e a informação de marcador da unidade de som são associados uns com os outros e lidos para ficar contidos. No armazenamento temporário de dados de áudio e marcador 255, o último número predeterminado segmentado pela seção de segmentação de dados de áudio 254, por exemplo, apenas a informação associada com duas unidades de som, é contido. Note que, no armazenamento temporário de dados de áudio e marcador 255, apenas a informação associada com a unidade de som segmentada pela seção de segmentação de dados de áudio 254 em um certo tempo no passado pode ser contida.[00169] Under the control of the CPU 221, in the audio data buffer and marker 255, the sound unit audio data segmented by the audio data segmentation section 254 and the sound unit marker information are associated with each other and read to be contained. In the audio data buffer and marker 255, the last predetermined number segmented by the audio data segmentation section 254, for example, only the information associated with two units of sound, is contained. Note that, in the buffer and audio data buffer 255, only the information associated with the sound unit segmented by the audio segmentation section 254 at a certain time in the past can be contained.

[00170] A figura 20 ilustra um exemplo de um conteúdo contido do armazenamento temporário de dados de áudio e marcador 255. No exemplo ilustrado, a informação associada com as duas unidades de som da unidade de som 1 (Unidade 1) e da unidade de som 2 (Unidade 2) é contida. Como a informação da unidade de som 1 (Unidade 1), os dados de áudio (dados do conteúdo de áudio 1) da unidade de som são providos, além da informação de contagem de quadro “audio_frame_count”, da informação de identificação da unidade de som “speech_id” e da informação da fonte de geração (alto- falante) “speaker_id”. Adicionalmente, como a informação da unidade de som 2 (Unidade 2), os dados de áudio (dados do conteúdo de áudio 2) da unidade de som são providos, além da informação de contagem de quadro “audio_frame_count”, da informação de identificação da unidade de som “speech_id”, e da informação de identificação da fonte de geração (alto- falante) “speaker_id”.[00170] Figure 20 illustrates an example of a content contained in the temporary storage of audio data and marker 255. In the illustrated example, the information associated with the two sound units of the sound unit 1 (Unit 1) and the unit of sound 2 (Unit 2) is contained. As the sound unit 1 (Unit 1) information, the audio data (audio content data 1) of the sound unit is provided, in addition to the frame count information “audio_frame_count”, the sound unit identification information sound “speech_id” and generation source information (speaker) “speaker_id”. In addition, as the information of the sound unit 2 (Unit 2), the audio data (audio content data 2) of the sound unit is provided, in addition to the frame count information “audio_frame_count”, the frame identification information sound unit “speech_id”, and the identification information of the generation source (loudspeaker) “speaker_id”.

[00171] Aqui, por exemplo, a informação de contagem de quadro “audio_frame_count” indica o valor da contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço do quadro de áudio que inclui a posição inicial. Note que a informação de contagem de quadro “audio_frame_count” pode conter adicionalmente o valor da contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço do quadro de áudio que inclui a posição final. Além do mais, como a informação de marcador contida no armazenamento temporário de dados de áudio e marcador 255, outra informação incluída na informação de marcador “Speech_tag_information()” pode ser adicionalmente incluída.[00171] Here, for example, the frame count information “audio_frame_count” indicates the frame count value that indicates the frame position from the service header of the audio frame that includes the start position. Note that the frame count information “audio_frame_count” may additionally contain the frame count value which indicates the frame position from the service header of the audio frame which includes the final position. Furthermore, like the tag information contained in the audio and tag data buffer 255, other information included in the tag information "Speech_tag_information()" can be additionally included.

[00172] A seção de conversão de texto/exibição de legenda 256 converte os dados de áudio de cada unidade de som segmentados pela seção de segmentação de dados de áudio 254 ou os dados de áudio lidos a partir do armazenamento temporário de dados de áudio e marcador 255 nos dados de texto, converte adicionalmente os dados de texto em dados de mapa de bit para, desse modo, gerar os dados de exibição de legenda, e supre os dados de exibição de legenda para o circuito de processamento de vídeo 204 como um sinal sobreposto nos dados de vídeo.[00172] The subtitle display/text conversion section 256 converts the audio data of each sound unit segmented by the audio data segmentation section 254 or the audio data read from the audio data buffer and marker 255 in the text data, further converts the text data into bitmap data to thereby generate the subtitle display data, and supplies the subtitle display data to the video processing circuit 204 as a signal superimposed on the video data.

[00173] Em resposta à operação de usuário, sob o controle da CPU 221, a informação associada com cada unidade de som contida no armazenamento temporário de dados de áudio e marcador 255 é exibida no painel de exibição 206. Neste caso, sob o controle da CPU 221, um sinal de exibição de GUI gerado a partir da seção OSD 207 é enviado para o circuito de processamento de vídeo 204 e é sobreposto nos dados de vídeo. A figura 21 ilustra um exemplo de um exemplo de exibição. O exemplo de exibição corresponde ao conteúdo contido do armazenamento temporário de dados de áudio e marcador 255 ilustrado na figura 20. Note que a fonte de geração (alto-falante) pode ser definida para ser visceralmente exibida juntamente com a informação de identificação da fonte de geração (alto-falante) “speaker_id” ou no lugar da mesma.[00173] In response to user operation, under the control of the CPU 221, the information associated with each sound unit contained in the audio data buffer and marker 255 is displayed on the display panel 206. In this case, under the control from CPU 221, a GUI display signal generated from OSD section 207 is sent to video processing circuit 204 and superimposed on the video data. Figure 21 illustrates an example of an example display. The display example corresponds to the content contained in the audio data buffer and marker 255 illustrated in Figure 20. Note that the generation source (loudspeaker) can be set to be viscerally displayed along with the source identification information. generation (speaker) “speaker_id” or in place of it.

[00174] O usuário pode realizar uma operação para leitura e transmissão de qualquer uma das unidades de som a partir dos dados de áudio de cada unidade de som contida no armazenamento temporário de dados de áudio e marcador 255. Como exposto, por exemplo, a informação associada com cada unidade de som contida no armazenamento temporário de dados de áudio e marcador 255 é exibida no painel de exibição 206 e, então, uma unidade de som desejada é selecionada para, desse modo, realizar a operação de usuário. Neste caso, os dados de áudio da unidade de som selecionada são lidos a partir do armazenamento temporário de dados de áudio e marcador 255.[00174] The user can perform an operation to read and transmit any of the sound units from the audio data of each sound unit contained in the temporary storage of audio data and marker 255. As exposed, for example, to information associated with each unit of sound contained in the buffer and audio data buffer 255 is displayed on display panel 206, and then a desired unit of sound is selected to thereby perform the user operation. In this case, the selected sound unit's audio data is read from the audio data buffer and marker 255.

[00175] Adicionalmente, a informação associada com cada unidade de som não é exibida no painel de exibição 206 e uma operação de reprodução é realizada para, desse modo, realizar a operação de usuário (operação de repetição instantânea). Neste caso, os dados de áudio da mais recente unidade de som são lidos a partir do armazenamento temporário de dados de áudio e marcador 255 dentre os dados de áudio de cada unidade de som contida.[00175] Additionally, the information associated with each sound unit is not displayed on the display panel 206 and a playback operation is performed to thereby perform the user operation (instant replay operation). In this case, the audio data of the most recent sound unit is read from the audio data buffer and marker 255 among the audio data of each contained sound unit.

[00176] Da forma supradescrita, os dados de áudio lidos a partir do armazenamento temporário de dados de áudio e marcador 255 são habilitados para ser diretamente transmitidos como os dados de áudio, transmitidos como os dados de exibição de legenda ou transmitidos tanto como os dados de áudio quanto como os dados de exibição de legenda. Como transmitir os dados de áudio pode ser selecionado por uma operação do usuário.[00176] As described above, the audio data read from the audio data buffer and marker 255 are enabled to be directly transmitted as the audio data, transmitted as the subtitle display data, or transmitted both as the data audio as well as subtitle display data. How to transmit the audio data can be selected by user operation.

[00177] No caso de transmissão dos dados de áudio como dados de áudio, os dados de áudio lidos a partir do armazenamento temporário de dados de áudio e marcador 255 são supridos para o mixador 253 e são mixados nos dados de canal supridos a partir do decodificador 251 ou do renderizador de objeto 252 ou, no lugar do exposto, os dados de áudio são transmitidos a partir do mixador 253.[00177] In the case of transmitting the audio data as audio data, the audio data read from the audio data buffer and marker 255 is supplied to the mixer 253 and is mixed into the channel data supplied from the decoder 251 or object renderer 252 or, instead of the above, audio data is passed from mixer 253.

[00178] Adicionalmente, em um caso de transmissão dos dados de áudio como os dados de exibição de legenda, os dados de áudio lidos a partir do armazenamento temporário de dados de áudio e marcador 255 são supridos para a seção de conversão de texto/exibição de legenda 256, convertidos nos dados de texto, adicionalmente convertidos em dados de mapa de bit para, desse modo, gerar os dados de exibição de legenda, e supridos para o circuito de processamento de vídeo 204 como o sinal sobreposto nos dados de vídeo. Este processo permite que os dados de exibição de legenda sejam exibidos em uma imagem como a legenda no painel de exibição 206. A figura 22 ilustra um exemplo de exibição de legenda no painel de exibição 206. No exemplo ilustrado, uma exibição de legenda de “Cena maravilhosa. Venha aqui!” é exibida.[00178] Additionally, in a case of transmitting the audio data such as the subtitle display data, the audio data read from the audio data buffer and marker 255 are supplied to the text/display conversion section of subtitle data 256, converted into the text data, further converted into bitmap data to thereby generate the subtitle display data, and supplied to the video processing circuit 204 as the signal superimposed on the video data. This process allows the caption display data to be displayed on an image as the caption on display panel 206. Figure 22 illustrates an example caption display on display panel 206. In the illustrated example, a caption display of " Wonderful scene. Come here!" is displayed.

[00179] Adicionalmente, o usuário pode definir uma legenda correspondente aos dados de áudio de cada unidade de som segmentados pela seção de segmentação de dados de áudio 254 para ser habilitada para sempre ser exibida no painel de exibição 206 (operação de exibição de conversão de legenda). Neste caso, o usuário pode instruir o grupo de comutação, o grupo, a fonte de geração (alto-falante) ou congêneres da unidade de som segmentada pela seção de segmentação de dados de áudio 254.[00179] Additionally, the user can define a subtitle corresponding to the audio data of each sound unit segmented by the audio data segmentation section 254 to be enabled to always be displayed on the display panel 206 (translation display operation subtitle). In this case, the user can instruct the switching group, the group, the generation source (loudspeaker) or the like of the segmented sound unit by the audio segmentation section 254.

[00180] Os dados de áudio de cada unidade de som segmentados pela seção de segmentação de dados de áudio 254 são supridos para a seção de conversão de texto/exibição de legenda 256, convertidos nos dados de texto, adicionalmente convertidos em dados de mapa de bit para, desse modo, gerar os dados de exibição de legenda, e supridos para o circuito de processamento de vídeo 204 como o sinal sobreposto nos dados de vídeo. Este processo permite que os dados de exibição de legenda sejam exibidos em uma imagem como a legenda no painel de exibição 206.[00180] The audio data of each sound unit segmented by the audio data segmentation section 254 is supplied to the text conversion/subtitle display section 256, converted into text data, further converted into subtitle map data bit to thereby generate the subtitle display data, and supplied to the video processing circuit 204 as the signal superimposed on the video data. This process allows the caption display data to be displayed on an image as the caption on display panel 206.

[00181] As operações do receptor de serviço 200 ilustradas na figura 17 serão descritas em resumo. A seção de recepção 201 recebe o fluxo contínuo de transporte TS transmitido a partir do transmissor de serviço 100 em uma onda de difusão ou em um pacote através de uma rede. O fluxo contínuo de transporte TS inclui um fluxo contínuo de áudio, além de um fluxo contínuo de vídeo.[00181] The operations of the service receiver 200 illustrated in figure 17 will be briefly described. The receiving section 201 receives the stream of TS transport transmitted from the service transmitter 100 in a broadcast wave or in a packet over a network. The TS transport stream includes an audio stream in addition to a video stream.

[00182] O fluxo contínuo de áudio é um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado. A informação de marcador (consulte a figura 10) que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Adicionalmente, a informação de tabela (consulte a figura 11 e a figura 13) com a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio é inserida em uma camada do fluxo contínuo de transporte TS e/ou em uma camada do fluxo contínuo de áudio.[00182] The audio stream is an audio stream in which an audio frame including the audio compression data obtained by performing encoding processing on the audio data is continuously arrayed. Marker information (see Fig. 10) indicating that the predetermined sound unit audio compression data is included is inserted into the audio frame that includes the predetermined sound unit audio compression data. Additionally, table information (see figure 11 and figure 13) with information associated with the predetermined sound unit in the audio stream is inserted into a layer of the TS transport stream and/or into a layer of the stream continuous audio.

[00183] O fluxo contínuo de transporte TS é suprido para o demultiplexador 202. O demultiplexador 202 extrai um fluxo contínuo de vídeo do fluxo contínuo de transporte TS e supre o fluxo contínuo de vídeo para a seção de decodificação de vídeo 203. A seção de decodificação de vídeo 203 realiza o processamento de decodificação no fluxo contínuo de vídeo e obtém os dados de vídeo descomprimidos. Os dados de vídeo são supridos para o circuito de processamento de vídeo 204.[00183] The TS transport stream is supplied to the demultiplexer 202. The demultiplexer 202 extracts a video stream from the TS transport stream and supplies the video stream to the video decoding section 203. Video decoding 203 performs decoding processing on the video stream and obtains the decompressed video data. Video data is supplied to video processing circuit 204.

[00184] O circuito de processamento de vídeo 204 realiza o processamento de escalonamento, o processamento de regulação da qualidade da imagem ou congêneres nos dados de vídeo e obtém os dados de vídeo para exibição. Os dados de vídeo para exibição são supridos para o circuito de acionamento de painel 205. O circuito de acionamento de painel 205 aciona o painel de exibição 206 com base nos dados de vídeo para exibição. Este processo permite que uma imagem correspondente aos dados de vídeo para exibição seja exibida no painel de exibição 206.[00184] The video processing circuit 204 performs scaling processing, image quality adjustment processing or the like on the video data and obtains the video data for display. The video data for display is supplied to the panel drive circuit 205. The panel drive circuit 205 drives the display panel 206 based on the video data for display. This process allows an image corresponding to the video data for display to be displayed on display panel 206.

[00185] Além do mais, o demultiplexador 202 extrai vários tipos de informação, tal como a informação de descritor, do fluxo contínuo de transporte TS e envia a informação para a CPU 221. Os vários tipos de informação também incluem o supradescrito descritor da tabela de marcador. De acordo com o descritor, a CPU 221 adquire a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio e reconhece a informação de contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço de cada unidade de som, a informação de identificação da unidade de som de cada unidade de som, a informação de identificação da fonte de geração de cada unidade de som ou congêneres.[00185] Furthermore, the demultiplexer 202 extracts various types of information, such as the descriptor information, from the TS transport stream and sends the information to the CPU 221. The various types of information also include the above-described table descriptor marker. According to the descriptor, the CPU 221 acquires the table information that has the information associated with the predetermined sound unit in the audio stream and recognizes the frame count information that indicates the frame position from the service header. of each sound unit, the sound unit identification information of each sound unit, the generation source identification information of each sound unit or the like.

[00186] Além do mais, o demultiplexador 202 extrai um fluxo contínuo de áudio do fluxo contínuo de transporte TS e envia o fluxo contínuo de áudio para a seção de decodificação de áudio 214. A seção de decodificação de áudio 214 realiza o processamento de decodificação no fluxo contínuo de áudio e obtém os dados de áudio para acionar cada alto- falante que constitui o sistema de alto-falante 216.[00186] Furthermore, the demultiplexer 202 extracts an audio stream from the TS transport stream and sends the audio stream to the audio decoding section 214. The audio decoding section 214 performs the decoding processing in the audio stream and obtains the audio data to drive each speaker that makes up speaker system 216.

[00187] Além do mais, a seção de decodificação de áudio 214 extrai vários tipos de informação que são inseridos no fluxo contínuo de áudio e transmite a informação para a CPU 221. Os vários tipos de informação também incluem a informação de marcador “Speech_tag_information()” e a informação de tabela “Tag_table()”.[00187] Furthermore, the audio decoding section 214 extracts various types of information that are inserted into the audio stream and transmits the information to the CPU 221. The various types of information also include the tag information “Speech_tag_information( )” and the table information “Tag_table()”.

[00188] De acordo com a informação de marcador, para cada quadro de áudio, a CPU 221 reconhece o quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada, a informação de identificação da unidade de som da unidade de som incluída, a informação de identificação da fonte de geração da unidade de som, a informação de contagem de quadro, a informação de tipo que indica se inclui a posição inicial / posição final, a informação que indica um deslocamento do cabeçalho de quadro para a posição inicial / posição final ou congêneres.[00188] According to the marker information, for each audio frame, the CPU 221 recognizes the audio frame that includes the predetermined sound unit audio compression data, the sound unit identification information of the sound included, sound unit generation source identification information, frame count information, type information indicating whether it includes the start position / end position, information indicating an offset from the frame header to the start position / end position or the like.

[00189] Além do mais de acordo com a informação de tabela, a CPU 221 reconhece a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio, isto é, a informação de contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço de cada unidade de som, a informação de identificação da unidade de som de cada unidade de som, a informação de identificação da fonte de geração de cada unidade de som ou congêneres.[00189] Furthermore according to the table information, the CPU 221 recognizes the information associated with the predetermined sound unit in the audio stream, i.e. the frame count information that indicates the frame position from of the service header of each sound unit, the sound unit identification information of each sound unit, the generation source identification information of each sound unit or the like.

[00190] Adicionalmente, com base na informação de marcador sob o controle da CPU 221 com base na informação de marcador, a seção de decodificação de áudio 214 segmenta os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pelo processamento de decodificação e contém temporariamente os dados de áudio no armazenamento temporário. Sob o controle da CPU 221, por exemplo, quando o usuário realizar uma operação de reprodução (operação de repetição instantânea), a seção de decodificação de áudio 214 lê os dados de áudio da unidade de som a partir do armazenamento temporário, e transmite diretamente os dados de áudio como dados de áudio, realiza uma conversão de texto para transmitir os dados de áudio como dados de exibição de legenda ou realiza ambos dos expostos. Os dados de exibição de legenda são enviados para o circuito de processamento de vídeo 204 e são sobrepostos nos dados de vídeo.[00190] Additionally, based on the marker information under the control of the CPU 221 based on the marker information, the audio decoding section 214 segments the audio data corresponding to the predetermined sound unit from the audio data obtained by processing decoding process and temporarily holds the audio data in temporary storage. Under the control of the CPU 221, for example, when the user performs a playback operation (instant replay operation), the audio decoding section 214 reads the audio data of the sound unit from the temporary storage, and directly transmits audio data as audio data, perform a text conversion to pass the audio data as subtitle display data, or perform both of the above. The subtitle display data is sent to the video processing circuit 204 and is superimposed on the video data.

[00191] Neste caso, em um caso de transmissão dos dados de áudio como dados de áudio, os dados de áudio lidos a partir do armazenamento temporário são transmitidos no lugar dos dados de áudio obtidos pelo processamento de decodificação ou são mixados com os dados de áudio obtidos pelo processamento de decodificação para ser transmitidos. Adicionalmente, em um caso de transmissão dos dados de áudio apenas como os dados de exibição de legenda, uma transmissão dos dados de áudio obtidos pelo processamento de decodificação é continuada.[00191] In this case, in a case of transmitting the audio data as audio data, the audio data read from the temporary storage is transmitted in place of the audio data obtained by the decoding processing or is mixed with the data from audio obtained by decoding processing to be transmitted. Additionally, in a case of transmitting the audio data only as the subtitle display data, a transmission of the audio data obtained by decoding processing is continued.

[00192] Adicionalmente, com base na informação de marcador, sob o controle da CPU 221, quando o usuário realizar uma operação de exibição de conversão de legenda, a seção de decodificação de áudio segmenta os dados de áudio da unidade de som do grupo de comutação instruído, do grupo, da fonte de geração (alto-falante) ou congêneres, realiza uma conversão de texto, e transmite os dados de áudio como os dados de exibição de legenda. Os dados de exibição de legenda são enviados para o circuito de processamento de vídeo 204 e são sobrepostos nos dados de vídeo.[00192] Additionally, based on the marker information, under the control of the CPU 221, when the user performs a subtitle conversion display operation, the audio decoding section segments the audio data of the group sound unit switching instructed, from the group, from the generation source (speaker) or the like, performs a text conversion, and transmits the audio data as the subtitle display data. The subtitle display data is sent to the video processing circuit 204 and is superimposed on the video data.

[00193] Os dados de áudio para acionar cada alto-falante obtidos pela seção de decodificação de áudio 214 são supridos para o circuito de processamento de transmissão de áudio 215. O circuito de processamento de transmissão de áudio 215 realiza processamento necessário, tais como conversão D/A ou amplificação, nos dados de áudio. Então, os dados de áudio depois do processamento são supridos para o sistema de alto-falante 216. Através deste processo, uma transmissão acústica correspondente à imagem de exibição no painel de exibição 206 é obtida a partir do sistema de alto- falante 216.[00193] The audio data for driving each speaker obtained by the audio decoding section 214 is supplied to the audio transmission processing circuit 215. The audio transmission processing circuit 215 performs necessary processing, such as conversion D/A or amplification, on the audio data. Then, the audio data after processing is supplied to the loudspeaker system 216. Through this process, an acoustic transmission corresponding to the display image on the display panel 206 is obtained from the loudspeaker system 216.

[00194] Em resposta à operação de usuário, sob o controle da CPU 221, o fluxo contínuo de transporte TS enviado a partir da seção de recepção 201 através do demultiplexador 202 é gravado no armazenamento local 231. Adicionalmente, em resposta à operação de usuário, sob o controle da CPU 221, o fluxo contínuo de transporte TS contido é lido a partir do armazenamento local 231 e é enviado para o demultiplexador 202. O seguinte processamento no fluxo contínuo de transporte TS é similar àquele no fluxo contínuo de transporte TS suprido a partir da supradescrita seção de recepção 201.[00194] In response to the user operation, under the control of the CPU 221, the TS transport stream sent from the receive section 201 through the demultiplexer 202 is written to local storage 231. Additionally, in response to the user operation , under the control of the CPU 221, the contained TS transport stream is read from the local storage 231 and sent to the demultiplexer 202. The following processing on the TS transport stream is similar to that on the supplied TS transport stream from the above-described reception section 201.

[00195] Adicionalmente, em resposta à operação de usuário, sob o controle da CPU 221, a interface de comunicação 232 grava o fluxo contínuo de transporte TS enviado a partir da seção de recepção 201 através do demultiplexador 202 no armazenamento online 242 através da rede 241. Adicionalmente, em resposta à operação de usuário, sob o controle da CPU 221, a interface de comunicação 232 lê o fluxo contínuo de transporte TS contido no armazenamento online 242 através da rede 241 e envia o fluxo contínuo de transporte TS para o demultiplexador 202. O seguinte processamento no fluxo contínuo de transporte TS é similar àquele no fluxo contínuo de transporte TS suprido a partir da supradescrita seção de recepção 201.[00195] Additionally, in response to user operation, under the control of the CPU 221, the communication interface 232 records the TS transport stream sent from the receive section 201 through the demultiplexer 202 into online storage 242 over the network 241. Additionally, in response to user operation, under the control of the CPU 221, the communication interface 232 reads the TS transport stream contained in online storage 242 over the network 241 and sends the TS transport stream to the demultiplexer 202. The following processing on the TS transport stream is similar to that on the TS transport stream supplied from the above-described receive section 201.

[00196] Em resposta à operação de usuário, a CPU 221 controla o fluxo contínuo de transporte TS para ser lido a partir dos armazenamentos (o armazenamento local 231 e o armazenamento online 242) com base na informação associada com a unidade de som predeterminada incluída na informação de tabela. Por exemplo, a CPU 221 controla o fluxo contínuo de contêiner a ser lido a partir da posição de quadro que inclui a unidade de som selecionada pelo usuário.[00196] In response to user operation, the CPU 221 controls the TS transport stream to be read from the stores (the local storage 231 and the online storage 242) based on information associated with the included predetermined sound unit in table information. For example, CPU 221 controls the streaming container to be read from the frame position that includes the user-selected sound unit.

[00197] Neste caso, o usuário refere-se a uma exibição de informação associada com a unidade de som predeterminada incluída na informação de tabela exibida no painel de exibição 206 e seleciona a unidade de som como uma posição de leitura. Em resposta à seleção, a CPU 221 envia o comando de leitura com o valor da contagem de quadro que indica a posição de quadro a partir do cabeçalho de serviço correspondente à unidade de som selecionada para o armazenamento local 231 ou o armazenamento online 242 através da interface de comunicação 232. Em cada um dos armazenamentos, a leitura do fluxo contínuo de contêiner é iniciada a partir da posição de quadro que inclui a unidade de som selecionada pelo usuário com base no valor da contagem de quadro.[00197] In this case, the user refers to a display of information associated with the predetermined sound unit included in the table information displayed on the display panel 206 and selects the sound unit as a reading position. In response to the selection, the CPU 221 sends the read command with the frame count value indicating the frame position from the service header corresponding to the selected sound unit to the local storage 231 or the online storage 242 via the communication interface 232. In each of the stores, the reading of the container stream starts from the frame position that includes the sound unit selected by the user based on the frame count value.

[00198] Da forma supradescrita, no sistema de transmissão e recepção 10 ilustrado na figura 1, o transmissor de serviço 100 insere a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada. Portanto, os dados de áudio correspondentes à unidade de som predeterminada são facilmente habilitados para ser segmentados e usados para uma transmissão de som, uma exibição de legenda ou congêneres com base na informação de marcador no lado de recepção.[00198] As described above, in the transmission and reception system 10 illustrated in figure 1, the service transmitter 100 inserts the marker information that indicates that the audio compression data of the predetermined sound unit is included in the audio frame that includes the predetermined sound unit audio compression data. Therefore, the audio data corresponding to the predetermined sound unit is easily enabled to be segmented and used for a sound transmission, subtitle display or the like based on the marker information on the receiving side.

[00199] Adicionalmente, no sistema de transmissão e recepção 10 ilustrado na figura 1, o transmissor de serviço 100 insere a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em uma camada do fluxo contínuo de contêiner e/ou uma camada do fluxo contínuo de áudio. Portanto, é possível realizar o processamento com base na informação associada com a unidade de som predeterminada incluída na informação de tabela no lado de recepção. Por exemplo, pelo armazenamento no qual o fluxo contínuo de contêiner é gravado, é possível realizar facilmente a leitura a partir de uma posição na qual os dados de compressão de áudio da unidade de som predeterminada estão incluídos.[00199] Additionally, in the transmission and reception system 10 illustrated in figure 1, the service transmitter 100 inserts the table information that has the information associated with the predetermined sound unit in the audio stream in a layer of the audio stream container and/or an audio streaming layer. Therefore, it is possible to perform processing on the basis of information associated with the predetermined sound unit included in the table information on the receiving side. For example, by the storage in which the container stream is written, it is possible to easily perform the reading from a position in which the audio compression data of the predetermined sound unit is included.

<2. Exemplo de Modificação><2. Modification Example>

[00200] Percebe-se que, na supradescrita modalidade, um exemplo no qual um fluxo contínuo de contêiner (fluxo contínuo multiplexado) é um fluxo contínuo de transporte MPEG-2 (fluxo contínuo de transporte TS) foi descrito. Entretanto, a presente tecnologia pode ser similarmente aplicada, também, em um sistema no qual a distribuição é realizada no fluxo contínuo de contêiner de MP4 ou um outro formato. Os exemplos incluem um sistema de distribuição de fluxo contínuo com base em MPEG-DASH, um sistema de transmissão e recepção que trata um fluxo contínuo de transporte com estrutura MMT (Transporte de Mídia MPEG) e congêneres.[00200] It is noted that, in the above-described embodiment, an example in which a container stream (multiplexed stream) is an MPEG-2 transport stream (TS transport stream) has been described. However, the present technology can be similarly applied, too, in a system in which distribution is carried out in a container stream of MP4 or another format. Examples include a streaming distribution system based on MPEG-DASH, a transmit and receive system that handles a stream of transport with MMT (MPEG Media Transport) structure, and the like.

[00201] A figura 23 ilustra um exemplo de configuração de um fluxo contínuo MMT em um caso de inserção de informação de acesso à mídia (dados de objeto do contêiner) no fluxo contínuo de áudio e envio do fluxo contínuo de áudio. Um pacote MMT de cada ativo de vídeo, áudio ou congêneres é provido no fluxo contínuo MMT. O exemplo de configuração inclui um pacote MMT de um ativo de um vídeo que é identificado como um ID1 e um pacote MMT de um ativo de áudio que é identificado como um ID2. A informação de marcador “Speech_tag_information()” (consulte a figura 10) é inserida no ativo (fluxo contínuo de áudio) do áudio e, também, a informação de tabela “Tag_table()” (consulte a figura 11) é inserida no mesmo.[00201] Figure 23 illustrates an example of configuring an MMT stream in a case of inserting media access information (container object data) into the audio stream and sending the audio stream. One MMT packet of each video, audio, or similar asset is provided in the MMT stream. The example configuration includes an MMT packet of a video asset that is identified as an ID1 and an MMT packet of an audio asset that is identified as an ID2. The tag information “Speech_tag_information()” (see figure 10) is inserted into the asset (audio streaming) of the audio, and also the table information “Tag_table()” (see figure 11) is inserted into the same .

[00202] Além do mais, o fluxo contínuo MMT inclui um pacote de mensagem, tal como um pacote de mensagem PA (Acesso a Pacote). O pacote de mensagem PA inclui uma tabela, tal como uma tabela de pacote MMT (Tabela de Pacote MMT). A tabela MP inclui a informação para cada ativo. Neste caso, o descritor da tabela de marcador (consulte a figura 13) também é incluído como a informação do ativo do áudio.[00202] Furthermore, the MMT streaming includes a message packet, such as a PA (Packet Access) message packet. The PA message packet includes a table such as an MMT packet table (MMT Packet Table). The MP table includes information for each asset. In this case, the marker table descriptor (see Figure 13) is also included as the audio asset information.

[00203] A figura 24 ilustra um exemplo de configuração de um fluxo contínuo MP4 (arquivo) que inclui os dados de uma trilha de áudio (trilha A). O exemplo ilustrado é um exemplo em um caso de um MP4 fragmentado (MP4 Fragmentado). No fluxo contínuo MP4, um fragmento de filme (Fragmento de Filme) que inclui uma caixa “moof” na qual a informação de controle é incluída e uma caixa “mdat” na qual um corpo de dados de mídia é incluído é provido em um número predeterminado. Um fragmento obtido pelo fracionamento dos dados de trilha é incluído na caixa “mdat” e, portanto, a informação de controle que é incluída na caixa “moof” é a informação de controle em relação ao fragmento.[00203] Figure 24 illustrates an example configuration of an MP4 stream (file) that includes data from an audio track (track A). The illustrated example is an example in one case of a fragmented MP4 (Fragmented MP4). In the MP4 streaming, a movie fragment (Movie Fragment) that includes a “moof” box in which control information is included and an “mdat” box in which a body of media data is included is provided in a number default. A fragment obtained by slicing the track data is included in the “mdat” box, and therefore the control information that is included in the “moof” box is the control information regarding the fragment.

[00204] No fluxo contínuo MP4 “audio bitstream” correspondente à trilha de áudio, um número predeterminado de quadros de áudio (Quadro de Áudio) é provido na caixa “mdat” de cada fragmento de filme. Além do mais, no fluxo contínuo MP4 “audio bitstream”, uma caixa “traf” é provida na caixa “moof” de cada fragmento de filme e uma caixa “tfdt” é provida na caixa “traf”. Na caixa “tfdt”, um tempo de decodificação “baseMediaDecodeTime” de uma primeira unidade de acesso depois da caixa “moof” é descrito.[00204] In the MP4 streaming “audio bitstream” corresponding to the audio track, a predetermined number of audio frames (Audio Frame) is provided in the “mdat” box of each movie fragment. Furthermore, in MP4 streaming "audio bitstream", a "traf" box is provided in the "moof" box of each movie fragment and a "tfdt" box is provided in the "traf" box. In the “tfdt” box, a “baseMediaDecodeTime” decoding time of a first access unit after the “moof” box is described.

[00205] Adicionalmente, a caixa “tfdt” é provida na caixa “moof”, uma caixa “sgpd” é provida na caixa “tfdt”, e uma caixa “tscl” é provida na caixa “sgpd”. Os parâmetros de “Audiostreamtype” e “Attribute” são descritos na caixa “tscl”. “Audiostreamtype=AudioCodec” indica um formato de compressão de áudio. “Attribute=speech tag” indica que a informação de marcador “Speech_tag_information()” é inserida no fluxo contínuo de áudio.[00205] Additionally, a “tfdt” box is provided in the “moof” box, a “sgpd” box is provided in the “tfdt” box, and a “tscl” box is provided in the “sgpd” box. The “AudiostreamType” and “Attribute” parameters are described in the “tscl” box. “Audiostreamtype=AudioCodec” indicates an audio compression format. “Attribute=speech tag” indicates that the tag information “Speech_tag_information()” is inserted into the audio stream.

[00206] A figura 25 ilustra um exemplo de descrição do arquivo MPD. Adicionalmente, a figura 26 ilustra os conteúdos da informação primária no exemplo de descrição. No passado, como todos sabem, no sistema de distribuição de fluxo contínuo com base em MPEG-DASH, um fluxo contínuo de mídia (fluxo contínuo MP4) e o arquivo MPD como um meta- arquivo foram transmitidos para o lado de recepção através de um caminho de transmissão da rede de comunicação.[00206] Figure 25 illustrates an example of MPD file description. Additionally, Fig. 26 illustrates the primary information contents in the description example. In the past, as everyone knows, in the MPEG-DASH based streaming distribution system, a media stream (MP4 streaming) and the MPD file as a metafile were transmitted to the receiving side through a transmission path of the communication network.

[00207] As descrições de “<AdaptationSet mimeType=“audio/mp4” group=“1”>“ indica que um conjunto de adaptação (AdaptationSet) correspondente ao fluxo contínuo de áudio é incluído, o fluxo contínuo de áudio é suprido com uma estrutura de arquivo MP4, e um grupo 1 é atribuído ao fluxo contínuo de áudio. Adicionalmente, as descrições de “<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value=“Audio Codec”/>“ indicam um codec do fluxo contínuo de áudio. O codec inclui MPEG-H, AAC, AC3, AC4 e congêneres. Adicionalmente, as descrições de “<SupplementaryDescriptor schemeIdUri=“urn:brdcst:speechtagContained” value=“true”/>“ indicam que a informação de marcador “Speech_tag_information()” está incluída.[00207] The descriptions of “<AdaptationSet mimeType=“audio/mp4” group=“1”>“ indicates that an adaptation set (AdaptationSet) corresponding to the audio stream is included, the audio stream is supplied with a MP4 file structure, and a group 1 is assigned to the audio stream. Additionally, the descriptions of “<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value=“Audio Codec”/>“ indicate an audio streaming codec. The codec includes MPEG-H, AAC, AC3, AC4 and the like. Additionally, the descriptions of “<SupplementaryDescriptor schemeIdUri=“urn:brdcst:speechtagContained” value=“true”/>“ indicate that the tag information “Speech_tag_information()” is included.

[00208] Adicionalmente, a supradescrita modalidade descreve um exemplo no qual o formato de compressão de áudio é áudio MPEG-H 3D. Entretanto, a presente tecnologia pode ser similarmente aplicada, também, em um caso no qual o formato de compressão de áudio é um outro formato de compressão de áudio de AAC, AC3, AC4 ou congêneres.[00208] Additionally, the above-described embodiment describes an example in which the audio compression format is MPEG-H 3D audio. However, the present technology can be similarly applied, too, in a case where the audio compression format is another audio compression format of AAC, AC3, AC4 or the like.

[00209] A figura 27(a) ilustra uma estrutura de uma camada de um transporte simples AC4 (Transporte Simples). Há um campo de uma palavra de sincronização (syncWord), um campo de um comprimento de quadro (comprimento de quadro), um campo de “RawAc4Frame” como um campo de dados codificados e um campo CRC. Da forma ilustrada na figura 27(b), no campo de “RawAc4Frame”, há um campo de TOC (Tabela de Conteúdo) no início, e há campos de um número predeterminado de subfluxos contínuos (Subfluxo contínuo) posteriormente.[00209] Figure 27(a) illustrates a layer structure of an AC4 simple transport (Simple Transport). There is a sync word field (syncWord), a frame length field (frame length), a “RawAc4Frame” field as an encoded data field, and a CRC field. As illustrated in figure 27(b), in the field of “RawAc4Frame”, there is a field of TOC (Table of Contents) at the beginning, and there are fields of a predetermined number of continuous sub-streams (Continuous Sub-stream) after.

[00210] Da forma ilustrada na figura 28(b), no subfluxo contínuo (ac4_substream_data()), há uma área de metadados (metadados) e um campo de “umd_payloads_substream()” é provido na mesma. A informação de marcador “Speech_tag_information()” (consulte a figura 10) e a informação de tabela “Tag_table()” (consulte a figura 11) são colocadas em um campo de “umd_payload_byte” no campo de “umd_payloads_substream()”.[00210] As illustrated in figure 28(b), in the continuous substream (ac4_substream_data()), there is a metadata area (metadata) and a field of “umd_payloads_substream()” is provided in it. The tag information “Speech_tag_information()” (see figure 10) and the table information “Tag_table()” (see figure 11) are placed in a field of “umd_payload_byte” in the field of “umd_payloads_substream()”.

[00211] Percebe-se que, da forma ilustrada na figura 28(a), há um campo de “ac4_presentation_information()” em TOC (ac4_TOC()) e há adicionalmente um campo de “umd_info()” no mesmo, o que indica que há a informação de marcador ou congêneres inseridos no campo de “umd_payloads_substream()” supradescrito.[00211] It can be seen that, as illustrated in Figure 28(a), there is an “ac4_presentation_information()” field in TOC (ac4_TOC()) and there is additionally a “umd_info()” field in it, which indicates that there is marker information or the like inserted in the above-described “umd_payloads_substream()” field.

[00212] Percebe-se que a presente tecnologia pode empregar as seguintes configurações.[00212] It is noticed that the present technology can employ the following configurations.

[00213] (1) Um aparelho de transmissão, que inclui: uma seção de geração de fluxo contínuo configurada para gerar um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado; uma seção de inserção da informação configurada para inserir a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada; e uma seção de transmissão configurada para transmitir um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida.[00213] (1) A transmission apparatus, including: a streaming generation section configured to generate a streaming audio stream in which an audio frame including the audio compression data obtained by performing coding processing in the audio data is continuously arranged; an information insertion section configured to insert marker information indicating that the audio compression data of a predetermined sound unit is included in the audio frame that includes the audio compression data of the predetermined sound unit; and a transmission section configured to transmit a container stream of a predetermined format that includes the audio stream into which the marker information is inserted.

[00214] (2) O aparelho de transmissão de acordo com (1) exposto, em que a informação de marcador tem a informação de tipo que indica que uma posição inicial dos dados de compressão de áudio da unidade de som predeterminada está incluída, uma posição final dos mesmos está incluída, ou nenhuma da posição inicial e da posição final está incluída.[00214] (2) The transmission apparatus according to the above (1), wherein the marker information has the type information indicating that an initial position of the audio compression data of the predetermined sound unit is included, a their final position is included, or none of their initial position and final position are included.

[00215] (3) O aparelho de transmissão de acordo com (2) exposto, em que a informação de marcador tem a informação de deslocamento que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial quando a informação de tipo indicar que a posição inicial está incluída e que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final quando a informação de tipo indicar que a posição final está incluída.[00215] (3) The transmission apparatus according to the above (2), in which the marker information has the displacement information that indicates a displacement of a sample unit of a frame header to the initial position when the information type information indicates that the starting position is included and that it indicates a displacement of one sample unit from a frame header to the ending position when the type information indicates that the ending position is included.

[00216] (4) O aparelho de transmissão de acordo com qualquer um de (1) até (3) expostos, em que a informação de marcador tem a informação de contagem de quadro que indica uma posição de quadro a partir de um cabeçalho de serviço do quadro de áudio no qual a informação de marcador é inserida.[00216] (4) The transmission apparatus according to any one of (1) to (3) set forth, wherein the marker information has frame count information that indicates a frame position from a frame header service of the audio frame into which the marker information is inserted.

[00217] (5) O aparelho de transmissão de acordo com qualquer um de (1) até (4) expostos, em que quando a unidade de som predeterminada for provida em pluralidade, a informação de marcador tem a informação de identificação da unidade de som para identificar uma correspondente unidade de som.[00217] (5) The transmission apparatus according to any one of (1) to (4) set forth, wherein when the predetermined sound unit is provided in plurality, the marker information has the identification information of the sound unit sound to identify a corresponding sound unit.

[00218] (6) O aparelho de transmissão de acordo com qualquer um de (1) até (5) expostos, em que quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação de marcador tem a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som.[00218] (6) The transmission apparatus according to any one of (1) to (5) set forth, wherein when the predetermined sound unit is provided in plurality and the sound units of a plurality of generation sources are included in the plurality of sound units, the marker information has generation source identification information for identifying the generation source of the corresponding sound unit.

[00219] (7) O aparelho de transmissão de acordo com qualquer um de (1) até (6) expostos, em que a seção de geração de fluxo contínuo realiza o processamento de codificação nos dados de áudio de uma pluralidade de grupos e gera o fluxo contínuo de áudio no qual o quadro de áudio que inclui os dados de compressão de áudio da pluralidade de grupos é continuamente arranjado, e a informação de marcador tem a informação de identificação de grupo para identificar um grupo ao qual os dados de compressão de áudio da unidade de som predeterminada pertencem.[00219] (7) The transmission apparatus according to any one of (1) to (6) set forth, in which the streaming generation section performs coding processing on the audio data of a plurality of groups and generates the audio stream in which the audio frame including the audio compression data of the plurality of groups is continuously arrayed, and the marker information has the group identification information for identifying a group to which the compression data of audio from the predetermined sound unit belong.

[00220] (8) O aparelho de transmissão de acordo com (7) exposto, em que quando um grupo indicado pela informação de identificação de grupo for um grupo que constitui um grupo de comutação predeterminado, a informação de marcador tem a informação de identificação do grupo de comutação para identificar o grupo de comutação predeterminado.[00220] (8) The transmission apparatus according to the above (7), wherein when a group indicated by the group identification information is a group constituting a predetermined switching group, the marker information has the identification information of the switch group to identify the default switch group.

[00221] (9) O aparelho de transmissão de acordo com qualquer um de (1) até (8) expostos, em que a seção de inserção da informação insere adicionalmente a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em uma camada do fluxo contínuo de contêiner e/ou em uma camada do fluxo contínuo de áudio.[00221] (9) The transmission apparatus according to any one of (1) to (8) set forth, wherein the information entry section additionally enters the table information having the information associated with the predetermined sound unit in the audio stream in a container streaming layer and/or in an audio streaming layer.

[00222] (10) O aparelho de transmissão de acordo com (9) exposto, em que quando a unidade de som predeterminada for provida em pluralidade, a informação associada com a pluralidade de unidades de som tem a informação de identificação da unidade de som para identificar a correspondente unidade de som, individualmente.[00222] (10) The transmission apparatus according to the above (9), wherein when the predetermined sound unit is provided in plurality, the information associated with the plurality of sound units has the sound unit identification information to identify the corresponding sound unit individually.

[00223] (11) O aparelho de transmissão de acordo com (9) ou (10) expostos, em que quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação associada com a pluralidade de unidades de som tem a informação de identificação da fonte de geração para identificar uma fonte de geração da correspondente unidade de som, individualmente.[00223] (11) The transmission apparatus according to (9) or (10) set forth, wherein when the predetermined sound unit is provided in plurality and the sound units of a plurality of generation sources are included in the plurality of sound units, the information associated with the plurality of sound units has generation source identification information for identifying a generation source of the corresponding sound unit individually.

[00224] (12) O aparelho de transmissão de acordo com qualquer um de (9) até (11) expostos, em que a informação associada com a unidade de som predeterminada tem a informação de contagem de quadro que indica uma posição de quadro a partir de um cabeçalho de serviço do quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada.[00224] (12) The transmission apparatus according to any one of (9) to (11) set forth, wherein the information associated with the predetermined sound unit has frame count information that indicates a frame position to be from an audio frame service header that includes the audio compression data of the predetermined sound unit.

[00225] (13) Um método de transmissão, que inclui: uma etapa de geração de fluxo contínuo para gerar um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado; uma etapa de inserção da informação para inserir a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada; e uma etapa de transmissão para transmitir, por uma seção de transmissão, um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida.[00225] (13) A method of transmission, which includes: a streaming generation step for generating an audio streaming in which an audio frame that includes the audio compression data obtained by performing coding processing on the audio data is continuously arranged; an information insertion step for inserting marker information indicating that the audio compression data of a predetermined sound unit is included in the audio frame including the audio compression data of the predetermined sound unit; and a transmission step for transmitting, over a transmission section, a container stream of a predetermined format that includes the audio stream into which the marker information is inserted.

[00226] (14) Um aparelho de recepção, que inclui: uma seção de recepção configurada para receber um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, o aparelho de recepção incluindo adicionalmente uma seção de processamento configurada para realizar um processo do fluxo contínuo de áudio pelo uso da informação de marcador.[00226] (14) A receiving apparatus, including: a receiving section configured to receive a container stream of a predetermined format that includes a stream of audio in which an audio frame that includes the compression data of audio is continuously arrayed, wherein the audio frame that includes the audio compression data of a predetermined sound unit includes the marker information that indicates that the audio compression data of the predetermined sound unit is included, the reception further including a processing section configured to process the audio stream by use of marker information.

[00227] (15) O aparelho de recepção de acordo com (14) exposto, em que a seção de processamento inclui uma seção de decodificação configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio, e uma seção de segmentação e contenção de dados configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação e conter os dados de áudio em um armazenamento temporário com base na informação de marcador.[00227] (15) The receiving apparatus according to the above (14), wherein the processing section includes a decoding section configured to perform decoding processing on the audio compression data included in each audio frame of the stream stream of audio and get the audio data, and a segmentation and data containment section configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section and contain the audio data in a Temporary storage based on bookmark information.

[00228] (16) O aparelho de recepção de acordo com (15) exposto, em que a seção de processamento inclui adicionalmente uma seção de transmissão de dados configurada para ler e transmitir os dados de áudio correspondentes à unidade de som predeterminada provenientes do armazenamento temporário com base na informação operacional de um usuário.[00228] (16) The receiving apparatus according to the above (15), wherein the processing section further includes a data transmission section configured to read and transmit the audio data corresponding to the predetermined sound unit from the storage temporary based on a user's operational information.

[00229] (17) O aparelho de recepção de acordo com qualquer um de (14) até (16) expostos, em que a seção de processamento inclui adicionalmente uma seção de decodificação configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio, e uma seção de geração de dados de legenda configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação, realizar uma conversão de texto e gerar os dados de legenda com base na informação de marcador.[00229] (17) The receiving apparatus according to any one of (14) to (16) set forth, wherein the processing section further includes a decoding section configured to perform decoding processing on the audio compression data included in each audio frame of the audio stream and get the audio data, and a subtitle data generation section configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section , perform a text conversion and generate the caption data based on the marker information.

[00230] (18) Um método de recepção, que inclui: uma etapa de recepção para receber, por uma seção de recepção, um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, o método de recepção incluindo adicionalmente uma etapa de processamento para realizar um processo do fluxo contínuo de áudio pelo uso da informação de marcador.[00230] (18) A receiving method, which includes: a receiving step for receiving, by a receiving section, a continuous stream of container of a predetermined format that includes a continuous stream of audio in which an audio frame that including the audio compression data is continuously arrayed, wherein the audio frame including the audio compression data of a predetermined sound unit includes the marker information indicating that the audio compression data of the predetermined sound unit are included, the receiving method further including a processing step for performing a processing of the audio streaming by use of the marker information.

[00231] (19) Um aparelho de recepção, que inclui: uma seção de recepção configurada para receber um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, uma camada do fluxo contínuo de contêiner e/ou uma camada do fluxo contínuo de áudio incluem a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio, o aparelho de recepção incluindo adicionalmente uma seção de controle configurada para controlar o fluxo contínuo de contêiner recebido a ser gravado em um armazenamento, o fluxo contínuo de contêiner a ser lido a partir do armazenamento e o fluxo contínuo de áudio incluído no fluxo contínuo de contêiner lido a ser processado, e a seção de controle controla o fluxo contínuo de contêiner a ser lido a partir do armazenamento com base na informação associada com a unidade de som predeterminada incluída na informação de tabela.[00231] (19) A receiving apparatus, including: a receiving section configured to receive a container stream of a predetermined format that includes a stream of audio in which an audio frame that includes the compression data of audio is continuously arrayed, wherein the audio frame that includes the audio compression data of a predetermined sound unit includes the marker information that indicates that the audio compression data of the predetermined sound unit is included, a layer of the container stream and/or an audio stream layer include the table information having the information associated with the predetermined sound unit in the audio stream, the receiving apparatus further including a control section configured to control the incoming container stream to be written to a storage, the container stream to be read from the storage, and the audio stream included in the read container stream to be processed, and the control section controls the stream of container to be read from storage based on information associated with the predetermined sound unit included in the table information.

[00232] (20) Um método de recepção, que inclui: uma etapa de recepção para receber, por uma seção de recepção, um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, uma camada do fluxo contínuo de contêiner e/ou uma camada do fluxo contínuo de áudio incluem a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio, o método de recepção incluindo adicionalmente uma etapa de controle de gravação para controlar o fluxo contínuo de contêiner recebido a ser gravado em um armazenamento, uma etapa de controle de leitura para controlar o fluxo contínuo de contêiner a ser lido a partir do armazenamento, uma etapa de processamento para realizar um processo do fluxo contínuo de áudio incluído no fluxo contínuo de contêiner lido, e na etapa de controle de leitura, o fluxo contínuo de contêiner é controlado para ser lido a partir do armazenamento com base na informação associada com a unidade de som predeterminada incluída na informação de tabela.[00232] (20) A receiving method, which includes: a receiving step for receiving, by a receiving section, a continuous stream of container of a predetermined format that includes a continuous stream of audio in which an audio frame that including the audio compression data is continuously arrayed, wherein the audio frame including the audio compression data of a predetermined sound unit includes the marker information indicating that the audio compression data of the predetermined sound unit are included, a container streaming layer and/or an audio streaming layer include the table information having the information associated with the predetermined sound unit in the audio streaming, the receiving method further including a step a write control step to control the incoming container stream to be written to a store, a read control step to control the container stream to be read from the store, a processing step to perform a process on the stream audio stream included in the read container stream, and in the read control step, the container stream is controlled to be read from the storage based on the information associated with the predetermined sound unit included in the table information.

[00233] Um principal recurso da presente tecnologia é que a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos é inserida no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada e é transmitida e, desse modo, é fácil segmentar os dados de áudio correspondentes à unidade de som predeterminada e usar os dados de áudio para uma transmissão de som, uma exibição de legenda ou congêneres com base na informação de marcador em um lado de recepção (consulte a figura 5 e a figura 7).[00233] A main feature of the present technology is that the marker information that indicates that the audio compression data of a predetermined sound unit is included is inserted into the audio frame that includes the audio compression data of the sound unit predetermined and is transmitted, and thus it is easy to segment the audio data corresponding to the predetermined sound unit and use the audio data for a sound transmission, subtitle display or the like based on the marker information on one side of reception (see figure 5 and figure 7).

[00234] Lista dos Sinais de Referência 10 Sistema de transmissão e recepção 100 Transmissor de serviço 110 Seção de geração de fluxo contínuo 111 Seção de controle 111a CPU 112 Codificador de vídeo 113 Codificador de áudio 114 Multiplexador 200 Receptor de serviço 201 Seção de recepção 202 Demultiplexador 203 Seção de decodificação de vídeo 204 Circuito de processamento de vídeo 205 Circuito de acionamento de painel 206 Painel de exibição 207 Seção OSD 214 Seção de decodificação de áudio 215 Circuito de processamento de transmissão de áudio 216 Sistema de alto-falante 221 CPU 222 ROM flash 223 DRAM 224 Barramento interno 225 Seção de recepção do controle remoto 226 Transmissor do controle remoto 231 Armazenamento local 232 Interface de comunicação 241 Rede 242 Armazenamento online 251 Decodificador 252 Renderizador de objeto 253 Mixador 254 Seção de segmentação de dados de áudio 255 Armazenamento temporário de dados de áudio e marcador 256 Seção de conversão de texto/exibição de legenda[00234] List of Reference Signals 10 Transmission and reception system 100 Service transmitter 110 Stream generation section 111 Control section 111a CPU 112 Video encoder 113 Audio encoder 114 Multiplexer 200 Service receiver 201 Receive section 202 Demultiplexer 203 Video decoding section 204 Video processing circuit 205 Panel driver circuit 206 Display panel 207 OSD section 214 Audio decoding section 215 Audio transmission processing circuit 216 Speaker system 221 CPU 222 ROM flash 223 DRAM 224 Internal bus 225 Remote control receiver section 226 Remote control transmitter 231 Local storage 232 Communication interface 241 Network 242 Online storage 251 Decoder 252 Object renderer 253 Mixer 254 Audio segmentation section 255 Temporary storage audio data and marker 256 Text conversion/subtitle display section

Claims

1. Aparelho de transmissão (100), caracterizado pelo fato de que compreende: uma seção de geração de fluxo contínuo (110) configurada para gerar um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado; uma seção de inserção da informação (111) configurada para inserir a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada; e uma seção de transmissão (114) configurada para transmitir um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida.1. Transmission apparatus (100), characterized in that it comprises: a streaming generation section (110) configured to generate an audio streaming in which an audio frame including the audio compression data obtained by the performing encoding processing on the audio data is continuously arranged; an information insertion section (111) configured to insert marker information indicating that the audio compression data of a predetermined sound unit is included in the audio frame that includes the audio compression data of the predetermined sound unit ; and a transmission section (114) configured to transmit a container stream of a predetermined format that includes the audio stream into which the marker information is inserted.

2. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de marcador tem a informação de tipo que indica que uma posição inicial dos dados de compressão de áudio da unidade de som predeterminada está incluída, uma posição final dos mesmos está incluída, ou nenhuma da posição inicial e da posição final está incluída.2. Transmission apparatus according to claim 1, characterized in that the marker information has type information indicating that an initial position of the predetermined sound unit audio compression data is included, an end position of the themselves is included, or none of the start position and end position are included.

3. Aparelho de transmissão de acordo com a reivindicação 2, caracterizado pelo fato de que a informação de marcador tem a informação de deslocamento que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição inicial quando a informação de tipo indicar que a posição inicial está incluída e que indica um deslocamento de uma unidade de amostra de um cabeçalho de quadro para a posição final quando a informação de tipo indicar que a posição final está incluída.3. Transmission apparatus according to claim 2, characterized in that the marker information has the displacement information that indicates a displacement of a sample unit of a frame header to the initial position when the type information indicates that the start position is included and that it indicates a shift of one sample unit from a frame header to the end position when the type information indicates that the end position is included.

4. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de marcador tem a informação de contagem de quadro que indica uma posição de quadro a partir de um cabeçalho de serviço do quadro de áudio no qual a informação de marcador é inserida.4. Transmission apparatus according to claim 1, characterized in that the marker information has frame count information that indicates a frame position from a service header of the audio frame in which the marker is inserted.

5. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que quando a unidade de som predeterminada for provida em pluralidade, a informação de marcador tem a informação de identificação da unidade de som para identificar uma correspondente unidade de som.Transmission apparatus according to claim 1, characterized in that when the predetermined sound unit is provided in plurality, the marker information has sound unit identification information to identify a corresponding sound unit.

6. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação de marcador tem a informação de identificação da fonte de geração para identificar a fonte de geração da correspondente unidade de som.6. Transmission apparatus according to claim 1, characterized in that when the predetermined sound unit is provided in plurality and the sound units from a plurality of generation sources are included in the plurality of sound units, the information of marker has the generation source identification information to identify the generation source of the corresponding sound unit.

7. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que a seção de geração de fluxo contínuo (110) realiza o processamento de codificação nos dados de áudio de uma pluralidade de grupos e gera o fluxo contínuo de áudio no qual o quadro de áudio que inclui os dados de compressão de áudio da pluralidade de grupos é continuamente arranjado, e a informação de marcador tem a informação de identificação de grupo para identificar um grupo ao qual os dados de compressão de áudio da unidade de som predeterminada pertencem.7. Transmission apparatus according to claim 1, characterized in that the streaming generation section (110) performs encoding processing on the audio data of a plurality of groups and generates the streaming audio in which the audio frame including the audio compression data of the plurality of groups is continuously arrayed, and the marker information has the group identification information for identifying a group to which the audio compression data of the predetermined sound unit belongs .

8. Aparelho de transmissão de acordo com a reivindicação 7, caracterizado pelo fato de que quando um grupo indicado pela informação de identificação de grupo for um grupo que constitui um grupo de comutação predeterminado, a informação de marcador tem a informação de identificação do grupo de comutação para identificar o grupo de comutação predeterminado.8. Transmission apparatus according to claim 7, characterized in that when a group indicated by the group identification information is a group that constitutes a predetermined switching group, the marker information has the identification information of the group of switch to identify the predetermined switch group.

9. Aparelho de transmissão de acordo com a reivindicação 1, caracterizado pelo fato de que a seção de inserção da informação (111) insere adicionalmente a informação de tabela que tem a informação associada com a unidade de som predeterminada no fluxo contínuo de áudio em uma camada do fluxo contínuo de contêiner e/ou em uma camada do fluxo contínuo de áudio.9. Transmission apparatus according to claim 1, characterized in that the information insertion section (111) further inserts the table information having the information associated with the predetermined sound unit into the audio stream in a container streaming layer and/or on an audio streaming layer.

10. Aparelho de transmissão de acordo com a reivindicação 9, caracterizado pelo fato de que quando a unidade de som predeterminada for provida em pluralidade, a informação associada com a pluralidade de unidades de som tem a informação de identificação da unidade de som para identificar a correspondente unidade de som, individualmente.10. Transmission apparatus according to claim 9, characterized in that when the predetermined sound unit is provided in plurality, the information associated with the plurality of sound units has sound unit identification information to identify the corresponding sound unit individually.

11. Aparelho de transmissão de acordo com a reivindicação 9, caracterizado pelo fato de que quando a unidade de som predeterminada for provida em pluralidade e as unidades de som de uma pluralidade de fontes de geração forem incluídas na pluralidade de unidades de som, a informação associada com a pluralidade de unidades de som tem a informação de identificação da fonte de geração para identificar uma fonte de geração da correspondente unidade de som, individualmente.11. Transmission apparatus according to claim 9, characterized in that when the predetermined sound unit is provided in plurality and the sound units from a plurality of generation sources are included in the plurality of sound units, the information associated with the plurality of sound units has generation source identification information for identifying a generation source of the corresponding sound unit individually.

12. Aparelho de transmissão de acordo com a reivindicação 9, caracterizado pelo fato de que a informação associada com a unidade de som predeterminada tem a informação de contagem de quadro que indica uma posição de quadro a partir de um cabeçalho de serviço do quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada.12. Transmission apparatus according to claim 9, characterized in that the information associated with the predetermined sound unit has frame count information that indicates a frame position from an audio frame service header which includes the predetermined sound unit audio compression data.

13. Método de transmissão, caracterizado pelo fato de que compreende: gerar um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio obtidos pela realização do processamento de codificação nos dados de áudio é continuamente arranjado; inserir a informação de marcador que indica que os dados de compressão de áudio de uma unidade de som predeterminada estão incluídos no quadro de áudio que inclui os dados de compressão de áudio da unidade de som predeterminada; e transmitir, por uma seção de transmissão, um fluxo contínuo de contêiner de um formato predeterminado que inclui o fluxo contínuo de áudio no qual a informação de marcador é inserida.13. A transmission method, characterized in that it comprises: generating a continuous stream of audio in which an audio frame including the audio compression data obtained by performing coding processing on the audio data is continuously arrayed; inserting marker information indicating that the audio compression data of a predetermined sound unit is included in the audio frame that includes the audio compression data of the predetermined sound unit; and transmitting, over a transmission section, a container stream of a predetermined format that includes the audio stream into which the marker information is inserted.

14. Aparelho de recepção (200), caracterizado pelo fato de que compreende: uma seção de recepção (201) configurada para receber um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, o aparelho de recepção (200) compreendendo adicionalmente uma seção de processamento (214; 215) configurada para realizar um processo do fluxo contínuo de áudio pelo uso da informação de marcador.14. Receiving apparatus (200), characterized in that it comprises: a receiving section (201) configured to receive a container stream of a predetermined format that includes a stream of audio in which an audio frame that includes the audio compression data is continuously arrayed, wherein the audio frame that includes the audio compression data of a predetermined sound unit includes the marker information that indicates that the audio compression data of the predetermined sound unit is included, the receiving apparatus (200) further comprising a processing section (214; 215) configured to perform a processing of the audio streaming by use of the marker information.

15. Aparelho de recepção de acordo com a reivindicação 14, caracterizado pelo fato de que a seção de processamento inclui: uma seção de decodificação (214) configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio, e uma seção de segmentação e contenção de dados configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação e conter os dados de áudio em um armazenamento temporário com base na informação de marcador.15. Receiving apparatus according to claim 14, characterized in that the processing section includes: a decoding section (214) configured to perform decoding processing on the audio compression data included in each audio frame of the audio stream and get the audio data, and a segmentation and data containment section configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section and contain the audio data into a temporary store based on bookmark information.

16. Aparelho de recepção de acordo com a reivindicação 15, caracterizado pelo fato de que a seção de processamento inclui adicionalmente uma seção de transmissão de dados configurada para ler e transmitir os dados de áudio correspondentes à unidade de som predeterminada provenientes do armazenamento temporário com base na informação operacional de um usuário.16. Receiving apparatus according to claim 15, characterized in that the processing section additionally includes a data transmission section configured to read and transmit the audio data corresponding to the predetermined sound unit from the temporary storage based on on a user's operational information.

17. Aparelho de recepção de acordo com a reivindicação 14, caracterizado pelo fato de que a seção de processamento inclui adicionalmente: uma seção de decodificação configurada para realizar o processamento de decodificação nos dados de compressão de áudio incluídos em cada quadro de áudio do fluxo contínuo de áudio e obter os dados de áudio, e uma seção de geração de dados de legenda configurada para segmentar os dados de áudio correspondentes à unidade de som predeterminada provenientes dos dados de áudio obtidos pela seção de decodificação, realizar uma conversão de texto e gerar os dados de legenda com base na informação de marcador.17. Receiving apparatus according to claim 14, characterized in that the processing section further includes: a decoding section configured to perform decoding processing on the audio compression data included in each audio frame of the stream and obtain the audio data, and a subtitle data generation section configured to segment the audio data corresponding to the predetermined sound unit from the audio data obtained by the decoding section, perform a text conversion and generate the legend data based on marker information.

18. Método de recepção, caracterizado pelo fato de que compreende: receber, por uma seção de recepção, um fluxo contínuo de contêiner de um formato predeterminado que inclui um fluxo contínuo de áudio no qual um quadro de áudio que inclui os dados de compressão de áudio é continuamente arranjado, em que o quadro de áudio que inclui os dados de compressão de áudio de uma unidade de som predeterminada inclui a informação de marcador que indica que os dados de compressão de áudio da unidade de som predeterminada estão incluídos, o método de recepção incluindo adicionalmente: realizar um processo do fluxo contínuo de áudio pelo uso da informação de marcador.18. A receiving method, characterized in that it comprises: receiving, by a receiving section, a container stream of a predetermined format including a stream of audio in which an audio frame including the compression data of audio is continuously arrayed, wherein the audio frame that includes the audio compression data of a predetermined sound unit includes the marker information that indicates that the audio compression data of the predetermined sound unit is included, the method of reception additionally including: performing an audio streaming process by use of marker information.