WO2019030811A1 - 端末、音声連携再生システム及びコンテンツ表示装置 - Google Patents

端末、音声連携再生システム及びコンテンツ表示装置 Download PDF

Info

Publication number
WO2019030811A1
WO2019030811A1 PCT/JP2017/028700 JP2017028700W WO2019030811A1 WO 2019030811 A1 WO2019030811 A1 WO 2019030811A1 JP 2017028700 W JP2017028700 W JP 2017028700W WO 2019030811 A1 WO2019030811 A1 WO 2019030811A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
unit
audio
content
output
Prior art date
Application number
PCT/JP2017/028700
Other languages
English (en)
French (fr)
Inventor
章悟 喜多村
谷田部 祐介
孝志 松原
Original Assignee
マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マクセル株式会社 filed Critical マクセル株式会社
Priority to CN202111097955.XA priority Critical patent/CN113824999A/zh
Priority to JP2019535464A priority patent/JP7004727B2/ja
Priority to US16/637,121 priority patent/US11140484B2/en
Priority to CN201780093830.5A priority patent/CN110999318B/zh
Priority to PCT/JP2017/028700 priority patent/WO2019030811A1/ja
Publication of WO2019030811A1 publication Critical patent/WO2019030811A1/ja
Priority to US17/490,809 priority patent/US12052556B2/en
Priority to JP2022000181A priority patent/JP7467513B2/ja
Priority to JP2024060287A priority patent/JP2024096765A/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72442User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Definitions

  • the present invention relates to a terminal, an audio cooperative reproduction system, and a content display device.
  • ID information unique to each sub reception terminal apparatus is provided to each of the plurality of sub reception terminals capable of transmitting and receiving data to and from the main reception terminal apparatus, and the sub information corresponding to the ID information
  • There is a technique for transmitting content from a main receiving terminal to a sub receiving terminal see, for example, Patent Document 1).
  • each of the main receiving terminal and the sub receiving terminal has an audio output unit.
  • even one terminal device may have a plurality of audio output units (for example, speakers and headphones).
  • An example is a terminal having a first audio output unit and a second audio output unit for outputting audio content, the audio acquiring the first audio content and the second audio content.
  • the first audio content is selected based on an acquisition unit, a setting unit configured to set information indicating an output destination of the first audio content and the second audio content, and information set by the setting unit.
  • An audio output control unit that outputs the second audio content to one of the first audio output unit and the second audio output unit and outputs the second audio content to the other of the first audio output unit and the second audio output unit; And.
  • output control of audio content can be appropriately performed on a plurality of audio output units.
  • FIG. 6 is a view showing an application example of the mobile information terminal according to the first embodiment.
  • FIG. 1 is a block diagram of a portable information terminal according to a first embodiment.
  • FIG. 6 is a diagram for explaining an output pattern from an audio output unit of the mobile information terminal according to the first embodiment.
  • 5 is a flowchart showing processing of the mobile information terminal according to the first embodiment.
  • FIG. 6 is a system configuration diagram (1) of a voice cooperation reproduction system according to a second embodiment. It is a system configuration
  • FIG. It is a system configuration
  • FIG. 16 is an explanatory diagram of default setting in the audio output unit of the portable information terminal of the audio cooperative reproduction system according to the second embodiment.
  • FIG. 7 is a block diagram of a content display device according to a second embodiment.
  • FIG. 7 is a block diagram of an external transmission device according to a second embodiment. It is a flowchart (1) which shows the process of the portable information terminal which concerns on Example 2.
  • FIG. It is a flowchart (2) which shows the process of the portable information terminal which concerns on Example 2.
  • FIG. FIG. 7 is a diagram (1) illustrating an application example of the voice cooperation reproduction system according to the second embodiment.
  • FIG. 10 is a diagram (2) illustrating an application example of the voice cooperation playback system according to the second embodiment.
  • FIG. 13 is a diagram (3) illustrating an application example of the voice cooperation playback system according to the second embodiment.
  • FIG. 16 is a diagram (4) illustrating an application example of the voice cooperation playback system according to the second embodiment.
  • FIG. 18 is a diagram for explaining voice control of the voice cooperation playback system according to the third embodiment. It is a flowchart (1) which shows the process of the portable information terminal which concerns on Example 3.
  • FIG. It is a flowchart (2) which shows the process of the portable information terminal which concerns on Example 3.
  • FIG. 15 is a flowchart illustrating processing of the portable information terminal according to the fourth embodiment.
  • FIG. 18 is a diagram for explaining synchronization control of a voice cooperation reproduction system according to a fourth embodiment.
  • FIG. 21 is a flowchart showing processing of a portable information terminal in accordance with a fifth embodiment.
  • FIG. 16 is a flowchart showing processing of a portable information terminal in accordance with a sixth embodiment.
  • FIG. 18 is a diagram illustrating an example of subtitle display of the voice cooperation playback system according to the seventh embodiment.
  • FIG. 18 is a diagram illustrating various processes necessary for translation of the voice cooperation playback system according to the eighth embodiment.
  • the portable information terminal 700 is, for example, a mobile phone, a smartphone, a tablet terminal, or the like.
  • the portable information terminal 700 may be a PDA (Personal Digital Assistants) or a notebook PC.
  • the portable information terminal 700 may be a digital still camera, a video camera capable of capturing moving images, a portable game machine, or the like, or another portable digital device.
  • the portable information terminal 700 receives audio content including audio data via an external network (for example, the Internet or the like), and reproduces the audio content.
  • the audio content is music content, moving image content, one segment broadcast content, or the like.
  • the portable information terminal 700 can receive a one-segment broadcast wave, receives a one-segment broadcast content, and reproduces the one-segment content.
  • the portable information terminal 700 has a plurality of audio output units, and the audio output unit can output audio. Specifically, the portable information terminal 700 can output sound from a speaker and headphones connected to the own device.
  • the portable information terminal 700 can make a call via the above-mentioned external network or mobile telephone communication network. That is, the portable information terminal 700 can talk using the telephone network. Furthermore, the portable information terminal 700 makes a call via an external network or a mobile telephone communication network, receives a call voice, and transmits call data to the other party. Also, the portable information terminal 700 reproduces music content stored in advance.
  • the above description is not limited to the application only in Japan.
  • FIG. 1 is a schematic view showing two types of content viewing.
  • the portable information terminal 700 reproduces streaming content and music content.
  • a user 10000 mua wants to view streaming content while B user 10000 mub wants to view music content.
  • the headphone sound output unit of the portable information terminal 700mu reproduces the audio of the streaming content
  • the speaker sound output unit of the portable information terminal 700mu reproduces the music content.
  • a user 10000 mua to view streaming content
  • B user 10000 mub to view music content without disturbing the viewing of the other content.
  • FIG. 2 is a block diagram showing an example of the internal configuration of the portable information terminal 700.
  • the portable information terminal 700 includes a main control unit 701, a system bus 702, a communication processing unit 720 (reception unit), an operation unit 730, an image processing unit 740 (display control unit), and an audio processing unit 750.
  • the main control unit 701 is a microprocessor unit that controls the entire portable information terminal 700.
  • the main control unit 701 acquires a plurality of audio content such as broadcast content and moving image content via the communication processing unit 720. Also, the main control unit 701 may store the acquired content. Thus, the main control unit 701 functions as a voice acquisition unit.
  • the main control unit 701 installs an application for reproducing content (for example, a voice cooperative reproduction application) and a call application, and executes these applications in response to a user's operation request or the like.
  • An application for reproducing content reproduces various audio content.
  • the voice cooperation reproduction application is an application for reproducing voice data acquired from a television receiver. The operation of this voice cooperation application will be described later.
  • the call application is an application that controls sending and receiving.
  • the main control unit 701 sends the acquired content or the stored content to the image processing unit 740 or the audio processing unit 750 when the application for reproducing the content receives the reproduction request for the content. Further, the main control unit 701 performs call control using the speaker voice output unit 751 and the voice input unit 754 based on the above-described call application and using the speaker voice output unit 751 and the voice input unit 754.
  • a system bus 702 is a data communication path for transmitting and receiving data between the main control unit 701 and each operation block in the portable information terminal 700.
  • the communication processing unit 720 includes a LAN communication unit 721, a mobile telephone network communication unit 722, and an NFC communication unit 723.
  • the LAN communication unit 721 transmits and receives data via the Internet.
  • the mobile telephone network communication unit 722 transmits and receives telephone communication (call) and data via the mobile telephone communication network.
  • the NFC communication unit 723 performs wireless communication when in close proximity to the corresponding reader / writer.
  • the LAN communication unit 721, the mobile telephone network communication unit 722, and the NFC communication unit 723 each include an encoding circuit, a decoding circuit, an antenna, and the like.
  • the communication processing unit 720 may further include another communication unit such as a BlueTooth (registered trademark) communication unit or an infrared communication unit.
  • the communication processing unit 720 receives the content transmitted from the external device (for example, a television receiver).
  • the operation unit 730 is an instruction input unit for inputting an operation instruction to the portable information terminal 700.
  • the operation unit 730 includes a touch panel arranged in an overlapping manner on the display unit 741 and operation keys in which button switches are arranged. Do. Only one of them may be used.
  • the mobile information terminal 700 may be operated using a separate mobile terminal device connected by wired communication or wireless communication.
  • the touch panel function may be included in the display unit 741.
  • the image processing unit 740 includes a display unit 741, an image signal processing unit 742, a first image input unit 743, and a second image input unit 744.
  • the display unit 741 is, for example, a display device such as a liquid crystal panel, and provides (displays and outputs) the image data processed by the image signal processing unit 742 to the user of the portable information terminal 700.
  • the image signal processing unit 742 includes a video RAM (not shown), and the display unit 741 is driven based on the image data input to the video RAM.
  • the image signal processing unit 742 has a function of performing format conversion, superimposing processing of a menu or another OSD (On Screen Display) signal, and the like as necessary.
  • the first image input unit 743 and the second image input unit 744 are, for example, camera units. This camera unit inputs image data of surroundings or an object by converting light input from a lens into an electrical signal using an electronic device such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor) sensor. Do.
  • the audio processing unit 750 includes a speaker audio output unit 751 (first audio output unit), a headphone audio output unit 752 (second audio output unit), an audio signal processing unit 753 (audio output control unit, analysis unit, calculation unit And a voice input unit 754 (input unit).
  • the speaker audio output unit 751 provides the audio signal processed by the audio signal processing unit 753 to all the users within the range where the speaker audio to be output can be heard.
  • the headphone audio output unit 752 provides the user of the portable information terminal 700 with the audio signal processed by the audio signal processing unit 753.
  • the headphone sound output unit 752 may include a terminal to which a headphone, an earphone, or the like can be connected.
  • the headphone sound output unit 752 may wirelessly output the sound signal via BlueTooth (registered trademark) communication (short distance wireless communication) or the like.
  • the portable information terminal 700 is a terminal provided with a plurality of audio output units for outputting audio content.
  • the audio signal processing unit 753 can process two or more audio signals in order to output different audio signals in the speaker audio output unit 751 and the headphone audio output unit 752.
  • the audio signal output from the speaker audio output unit 751 or the headphone audio output unit 752 is selectively controlled by the main control unit 701.
  • the audio signals output from the speaker audio output unit 751 and the headphone audio output unit 752 may be monaural or stereo.
  • the voice input unit 754 is a microphone, which converts a user's voice or the like into voice data and inputs the voice data.
  • the audio signal processing unit 753 sets output pattern information to be described later via the operation unit 730, and stores the set output pattern information. Thus, the audio signal processing unit 753 functions as a setting unit. Also, the audio signal processing unit 753 outputs the first audio content to one of the first audio output unit and the second audio output unit based on the output pattern information, and the second audio content is output as the first audio content. Output to the other of the audio output unit and the second audio output unit.
  • the configuration example of the portable information terminal 700 shown in FIG. 2 includes many configurations which are not essential to the present embodiment, the effects of the present embodiment may be impaired even if these configurations are not provided. There is no. Further, a configuration not shown, such as a digital broadcast reception function and an electronic money settlement function may be further added.
  • FIG. 3 is a diagram showing an example of an output pattern when the first audio signal or the second audio signal is output from the speaker audio output unit 751 and the headphone audio output unit 752 in the portable information terminal 700.
  • the two types of audio signals are both audio content signals.
  • the first audio signal is, for example, a signal of moving image content
  • the second audio signal is, for example, a signal of music content.
  • No. 1 shown in FIG. 1 output pattern 22000 to no. 9 output pattern 22008.
  • the pattern for outputting both the first audio signal and the second audio signal is No. 5 output pattern 22004, no. 6 output pattern 22005, no. 8 output pattern 22007, no. 9 output patterns 2 2008 4 patterns.
  • the 9 output pattern 22008 superimposes the first audio signal and the second audio signal and outputs them.
  • Selection of these output patterns may be manually selected by the user via the operation unit 730, or provided with a headphone connection detection unit that determines that headphones are connected, and based on the detection result of the headphone connection detection unit May be selected automatically.
  • the main control unit 701 realizes a headphone connection detection unit by detecting a connection state of a terminal or detecting a headphone connection by short distance wireless communication.
  • the setting shown in FIG. 3 is merely an example, and when the portable information terminal 700 includes another audio output unit, selection of another audio output unit is also permitted, and the output of the same audio signal from a plurality of audio output units is possible. Also tolerate.
  • FIG. 4 is a flowchart showing a procedure of processing in which the portable information terminal 700 switches the output of the audio signal. It is assumed that an output pattern is set in advance.
  • the main control unit 701 acquires a first audio content (first audio signal) (step S91), and further acquires a second audio content (second audio signal) (step S92).
  • the audio signal processing unit 753 outputs the first audio content to one of the first audio output unit and the second audio output unit with reference to the output pattern (setting value), and the second audio content is output as the second audio content. It is outputted to the other of the 1 audio output unit and the second audio output unit (step S93).
  • the output pattern is set, and the first audio signal is output as the first audio output unit and the second audio according to the output pattern.
  • the second audio signal is output to one of the output units, and the second audio signal is output to the other of the first audio output unit and the second audio output unit.
  • the portable information terminal 700 can output music content from the speaker sound output unit 751 and can output video content from the headphone sound output unit 752.
  • the portable information terminal 700 can appropriately control the output of audio content using a plurality of audio output units.
  • Example 2 A second embodiment of the present invention will be described.
  • the present embodiment is a voice cooperative reproduction system using the portable information terminal described in the first embodiment.
  • the configuration, effects, and the like of the portable information terminal in this embodiment are the same as in Embodiment 1 unless otherwise noted.
  • the content display device which is a television receiver, can reproduce BS / terrestrial digital broadcast by receiving a broadcast wave via an antenna.
  • the content display device when the content display device is connectable to an external network, it is possible to receive and reproduce streaming content via the external network. On the other hand, it is possible for the portable information terminal to transmit the streaming content received via the external network to the content display device for reproduction.
  • the portable information terminal 700 can receive the one-segment broadcast wave, it is possible to transmit the one-segment broadcast content to the content display device and reproduce it.
  • the above description is not limited to the application only in Japan.
  • FIG. 5 is a diagram showing a system configuration of the voice cooperation system.
  • FIG. 5A is a system configuration diagram showing an example of the voice cooperative reproduction system of this embodiment.
  • the voice cooperative reproduction system of this embodiment includes a content display apparatus 100, an antenna 100a, the Internet 200 such as a broadband network, a router apparatus 210, a radio tower 300t of a broadcasting station, and a base station of a mobile telephone communication network. 600 b and a portable information terminal 700.
  • the content display apparatus 100 is a television receiver having a function corresponding to a broadcast communication cooperation system in addition to the existing digital broadcast reception function.
  • the content display apparatus 100 receives the broadcast wave transmitted from the radio tower 300t via the antenna 100a.
  • the content display device 100 can be connected to the Internet 200 via the router device 210, and can transmit and receive data by communication with each server device on the Internet 200.
  • the router device 210 is connected to the Internet 200 by wireless communication or wired communication, and is connected to the content display device 100 by wireless communication or wired communication and to the portable information terminal 700 by wireless communication. Thereby, each server device on the Internet 200, the content display device 100, and the portable information terminal 700 can mutually transmit and receive data via the router device 210. That is, the content display apparatus 100 and the portable information terminal 700 can communicate.
  • the radio tower 300t transmits a broadcast wave including a digital broadcast signal and the like from a broadcast facility of a broadcast station.
  • FIG. 5B is a system configuration diagram showing another example of the voice cooperative reproduction system of the present embodiment. Unlike the system configuration shown in FIG. 5A, the router device 210 is not included. In the system configuration shown in FIG. 5B, communication between the content display device 100 and the portable information terminal 700 is performed using a method such as BlueTooth (registered trademark) instead of via the router device 210.
  • BlueTooth registered trademark
  • FIG. 5C is a system configuration diagram showing another example of the voice cooperation reproduction system of the present embodiment. Unlike the system configuration shown in FIG. 5B, the external transmission device 100b is used.
  • the content display device 100 transmits an audio signal or the like to the portable information terminal 700 via the external transmission device 100b when the connection with the router device 210 is not possible or when the content display device 100 does not have a communication method such as BlueTooth (registered trademark).
  • the three system configurations shown in FIGS. 5A to 5C are different in the communication method between the content display device 100 and the portable information terminal 700, but are not limited to any one communication method, and two or more communication methods. You may use together.
  • the content display apparatus 100 transmits various information (for example, audio data in digital broadcast) to the portable information terminal 700 using various communication means (the router apparatus 210, the external transmission apparatus 100b, etc.).
  • the portable information terminal 700 receives the information in response.
  • the audio data transmitted by the content display apparatus 100 to the portable information terminal 700 includes information indicating the type of the main sound or the sub sound.
  • the main control unit 701 of the portable information terminal 700 stores an application for cooperation with the content display apparatus 100.
  • the portable information terminal 700 performs an authentication process with the content display device 100 when the application is activated.
  • the portable information terminal 700 stores volume reference information in advance, and outputs the received information (audio data) as voice based on the volume reference information.
  • the audio cooperative reproduction system outputs the first audio signal or the second audio signal from the speaker audio output unit 751 and the headphone audio output unit 752. It is possible.
  • the audio output from the speaker 174 of the content display apparatus 100 is output from the speaker audio output unit 751 of the portable information terminal 700, and the audio signal of another audio content such as moving image content on the network is output from the headphone audio output unit 752 It is possible to output.
  • the portable information terminal 700 stores in advance an output pattern in which an output destination of output target data is determined for each acquisition source.
  • FIG. 6 is a diagram showing an example of default settings for an audio output unit when playing back various audio contents in the portable information terminal 700. As shown in FIG. In the content 20000 for displaying a video on the content display apparatus 100, it is set by default that the main audio viewed by many users is output from the speaker audio output unit 751 and the secondary audio is output from the headphone audio output unit 752 .
  • the audio signal processing unit 753 When based on the default setting shown in FIG. 6, since the sub audio of the content 20000 and the audio signal of the content 20001 can not be output when the headphones are removed, only the main audio of the content 20000 is output from the speaker audio output unit 751. . Further, the audio signal processing unit 753 outputs an audio signal of the main audio of the content 20000 from the speaker audio output unit 751 while the headphones are connected. Further, the audio signal processing unit 753 outputs the sub audio of the content 20000 or the audio signal of the content 20001 from the headphone audio output unit 752. When the connection of the headphones is released, the audio signal processing unit 753 interrupts the output of the audio signal from the headphone audio output unit 752.
  • the setting shown in FIG. 6 is just a default setting, and the setting of each audio output in FIG. 6 allows selection of the other output unit.
  • FIG. 7 is a block diagram showing an example of the internal configuration of the content display apparatus 100.
  • the content display apparatus 100 includes a main control unit 101, a system bus 102, an external communication unit 103, a tuner / demodulation unit 131, a separation unit 132, a video display unit 173, and a speaker 174 (third audio output unit And).
  • the main control unit 101 is a microprocessor unit that controls the entire content display apparatus 100 according to a predetermined operation program.
  • a system bus 102 is a data communication path for transmitting and receiving data between the main control unit 101 and each operation block in the content display device 100.
  • the external communication unit 103 when the external communication unit 103 includes a LAN (Local Area Network) communication unit, as shown in FIG. 5A, the external communication unit 103 receives streaming content from the Internet via the router device 210 and communicates with the portable information terminal 700.
  • the system can be configured.
  • the external communication unit 103 includes, for example, a BlueTooth (registered trademark) communication unit or the like, as shown in FIG. 5B, a system can be configured to directly communicate with the portable information terminal 700.
  • the external communication unit 103 can transmit audio information to the portable information terminal 700 via the external transmission device 100b.
  • the communication method by the LAN communication unit, the BlueTooth communication unit, and the voice output unit is not limited to any one communication method, and two or more communication methods may be used in combination.
  • the external communication unit 103 may further include another communication unit such as an NFC communication unit or an infrared communication unit.
  • the external communication unit 103 When the external communication unit 103 receives audio data from the separation unit 132 described later, the external communication unit 103 transmits the audio data to the portable information terminal 700. Note that the external communication unit 103 may transmit the content received by the tuner / demodulation unit 131 to the portable information terminal 700.
  • the tuner / demodulator 131 receives a broadcast wave from the radio tower 300t via the antenna 100a, and tunes (selects) to a channel of the service desired by the user based on the control of the main controller 101. Further, the tuner / demodulation unit 131 demodulates the received broadcast signal to acquire a transport stream (TS).
  • TS transport stream
  • FIG. 6 illustrates a configuration in which there is one tuner / demodulator
  • the content display apparatus 100 includes the tuner / demodulator for the purpose of simultaneous display of multiple screens, back program recording, etc. It is good also as composition which carries two or more.
  • the separation unit 132 receives the TS output from the tuner / demodulation unit 131, separates the TS into data strings such as a video data string, an audio data string, and a subtitle data string, and outputs the separated data strings. Thus, the separation unit 132 acquires video data and audio data from the received content (TS).
  • the video display unit 173 is a display device such as a liquid crystal panel, for example, and provides the user of the content display apparatus 100 with video information and subtitle information separated by the separation unit 132.
  • the speaker 174 provides the user of the content display apparatus 100 with the audio information separated by the separation unit 132.
  • the content display apparatus 100 may be an optical disk drive recorder such as a DVD (Digital Versatile Disc) recorder, a magnetic disk drive recorder such as an HDD recorder, an STB (Set Top Box), or the like, as well as a television receiver. It may be a PC (Personal Computer), a tablet terminal, a game machine or the like provided with a digital broadcast reception function and a broadcast communication cooperation function.
  • the content display device 100 is a DVD recorder, an HDD recorder, an STB or the like, the video display unit 173 and the speaker 174 may not be provided.
  • FIG. 8 is a block diagram showing an example of the internal configuration of the external transmission device 100b used when the voice cooperative reproduction system of this embodiment has the system configuration shown in FIG. 5C, for example.
  • the external transmission device 100b includes a main control unit 100b1, a system bus 100b2, an audio input unit 100b3, and an external signal transmission unit 100b4.
  • the main control unit 100b1 is a microprocessor unit that controls the entire external transmission device 100b in accordance with a predetermined operation program.
  • the system bus 100b2 is a data communication path for transmitting and receiving data between the main control unit 100b1 and each operation block in the external transmission device 100b.
  • the audio input unit 100 b 3 acquires an audio signal output from an audio output unit included in the external communication unit 103 in the content display device 100.
  • the external signal transmission unit 100b4 includes, for example, a BlueTooth (registered trademark) communication unit, converts the audio signal acquired by the audio input unit, and transmits the signal to the outside of the apparatus.
  • the external signal transmission unit 100b4 may further include another communication unit such as an NFC communication unit or an infrared communication unit.
  • the external transmission apparatus 100b includes a video input unit to transmit a video signal to the outside of the apparatus by BlueTooth (registered trademark) communication, for example. It becomes possible.
  • the audio signal input and the video signal input may be performed by independent terminals, for example, the audio signal and the video signal may be simultaneously input through an HDMI terminal or the like.
  • the information transmitted by the external signal transmission unit 100b4 may be both the audio signal and the video signal, or may be only the audio signal.
  • FIG. 9 is an operation sequence diagram showing an example of an operation sequence of the portable information terminal 700 when operating the voice cooperation reproducing system of the present embodiment. The figure shows a series of flow from when the portable information terminal 700 starts the application for operating the voice cooperation reproduction system of the present embodiment and continues viewing of the content until the viewing is finished.
  • the portable information terminal 700 activates an application for operating the voice cooperation reproduction system of this embodiment (S101), and authenticates the linked content display apparatus 100.
  • the voice cooperation reproducing system of this embodiment constitutes the system shown in FIG. 5A
  • the portable information terminal 700 performs authentication by password input or the like through the network.
  • the voice cooperation reproducing system of this embodiment constitutes the system shown in FIG. 5B
  • the content display apparatus 100 is authenticated by a pairing operation or the like.
  • the portable information terminal 700 authenticates the external transmission apparatus 100b by a pairing operation or the like.
  • the portable information terminal 700 may directly authenticate the content display device 100 or the external transmission device 100b via the NFC communication unit 723.
  • the content display apparatus 100 may display a QR code on the video display unit 173 according to a user operation, and the image processing unit 740 of the portable information terminal 700 may perform authentication by processing the QR code by image processing.
  • the voice cooperation reproduction system of this embodiment assumes that a plurality of users such as a family view content, the method of utilizing NFC communication and QR code is easy to operate, and it is easy for children to use it. It becomes possible to start cooperation easily to the elderly.
  • the portable information terminal 700 can set the reproduction reference volume and the like through the operation unit 730 in order to reduce the difference in the way of hearing the sound due to the individual difference.
  • the audio signal processing unit 753 confirms the set value set by the operation unit 730 or the like (S103), then confirms the received audio received from the communication processing unit 720 (S105), and outputs the received audio as a speaker audio It outputs from the section 751 or the headphone sound output section 752 (S106).
  • the voice cooperation reproduction system is performed when an interruption / termination request of an application is input from the operation unit 730 or when the power of the content display apparatus 100 is turned off and the communication between the content display apparatus 100 and the portable information terminal 700 is interrupted. Finish.
  • the operation of the voice cooperation reproduction system of this embodiment can be performed by the content display apparatus 100 and the portable information terminal 700.
  • FIG. 10 is an operation sequence diagram showing an example of a detailed operation sequence of the sound output (S106) in the example of the operation sequence of the portable information terminal 700 shown in FIG.
  • the sound signal processing unit 753 checks whether the portable information terminal 700 is in a call state (S 10601).
  • the voice signal processing unit 753 inquires of the main control unit 701 about the call state, and acquires and determines information indicating whether or not the main control unit 701 is in a call. If the voice signal processing unit 753 is in a call state (S 10601: Yes), the processing is ended without outputting all the voice signals so as not to interfere with listening to the incoming voice.
  • the voice signal processing unit 753 when the voice signal processing unit 753 is not in the call state (S 10601: No), the voice signal can be reproduced, and then the headphone connection detection unit determines the connection (S10602). Since the audio signal processing unit 753 can reproduce two or more audio signals when headphones are connected (S10602: Yes), one or both of the speaker audio output unit 751 to the headphone audio output unit 752 To output one or two audio signals (S10603).
  • the audio signal processing unit 753 can only output audio from the speaker audio output unit 751. Therefore, the audio signal processing unit 753 reproduces a single audio signal from the speaker audio output unit 751. (S10604).
  • the selection of the audio signal to be output in the process of S10603 to S10604 may be selected in the process of S103, or may be selected based on a preset default setting.
  • the audio signal processing unit 753 changes the determination in the process of S10601 and outputs the audio signal. Abort. When the call is ended, the audio signal processing unit 753 changes the determination in the process of S1061 again, and resumes the output of the audio signal.
  • the determination in the process of S10602 is changed, The output of the audio signal from the headphone audio output unit 752 is interrupted.
  • the audio signal processing unit 753 changes the selection in the process of S10602 again, and resumes the output of the audio signal from the headphone audio output unit 752.
  • each operation sequence of FIG. 9 and FIG. 10 can be combined appropriately and partially, and further, some operation steps can be replaced with other operation steps as appropriate, such as reordering, simultaneous operation, etc. . Further, each operation sequence in FIG. 9 and FIG. 10 is capable of background operation except for the input of the user operation, and it is assumed that the operation is not inhibited when the user uses another application.
  • FIG. 11A is a schematic view showing two types of content viewing and listening, which is an example of application of the voice cooperation reproducing system of this embodiment.
  • a user 10000uaa and B user 10000uab are viewing the content reproduced by the video display unit 173 of the content display device 100ua.
  • the B user 10000 uab is at a position farther from the content display device 100 ua than the A user 10000 uaa.
  • C user 10000 uac starts viewing of the related content of the content on portable information terminal 700 ua while viewing the content with B user 10000 uab.
  • the speaker sound output unit 751 of the portable information terminal 700ua reproduces the sound reproduced by the speaker 174 of the content display device 100ua.
  • the headphone sound output unit 752 of the portable information terminal 700ua reproduces the sound of the related content.
  • the A user 10000uaa and the B user 10000uab view the content being reproduced on the video display unit 173 of the content display device 100ua, and the C user 10000uac does not inhibit the reproduction of the content, and the user information is displayed on the portable information terminal 700ua. It becomes possible to view the related content of the content.
  • FIG. 11B is a schematic view showing content viewing on a two-screen content display device, which is an example of application of the voice cooperation reproducing system of this embodiment.
  • the content display device 100 ub includes two tuner / demodulators 131, divides the video display unit 173 into two, and reproduces the first content and the second content.
  • the audio of the first content is reproduced from the speaker 174 of the content display device 100 ub and the speaker audio output unit 751 of the portable information terminal 700 ub.
  • the sound of the second content is reproduced from the headphone sound output unit 752 of the portable information terminal 700 ub.
  • a user 10000 uba and B user 10000 ubb can view the first content
  • C user 10000 ucc can view the second content together with the video / audio without inhibiting the viewing of the other content.
  • FIG. 12A is a schematic view showing multiplexed audio content viewing, which is an example of application of the audio cooperative reproduction system of this embodiment.
  • the content display device 100uc reproduces multiplexed audio content including the first audio and the second audio.
  • the A user 10000 uca and the B user 10000 ucb want to view the multiplexed audio content as a first audio
  • the C user 10000 ucc wants to view the multiplexed audio content as a second audio. Therefore, the first audio is reproduced from the speaker 174 of the content display device 100uc and the speaker audio output unit 751 of the portable information terminal 700uc.
  • the second sound is reproduced from the headphone sound output unit 752 of the portable information terminal 700uc.
  • FIG. 12B is a schematic view showing surround sound content viewing, which is an example of application of the audio cooperative reproduction system of this embodiment.
  • the content display device 100 ud reproduces content including surround sound such as 5.1 ch, for example.
  • a portable information terminal 700uda, B portable information terminal 700udb, C portable information terminal 700udc, and D portable information terminal 700udd are arranged around A user 10000 uda, B user 10000 udb, and C user 10000 udc who view the content. It shall be done.
  • the content display device 100 ud transmits the surround sound to the A portable information terminal 700 uda to the D portable information terminal 700 udd.
  • a portable information terminals 700 uda to D portable information terminals 700 udd reproduce each transmitted sound. As a result, it becomes possible for A users 10000 uda through C users 10000 udc to view surround sound content in a highly realistic viewing environment.
  • the number and positional relationship of the content display device and the plurality of portable information terminals are registered, and the number and the positional relationship of the portable information terminals are registered.
  • Each voice may be generated to realize desired surround sound viewing, and each voice may be transmitted to each portable information terminal.
  • the voice cooperation reproduction system described in the second embodiment since the voice data is transmitted from the content display device 100 to the portable information terminal 700, not only the content display device 100 but also the portable information terminal 700 An audio output unit (for example, a speaker audio output unit 751) can also output.
  • an audio output unit for example, a speaker audio output unit 751
  • the portable information terminal 700 capable of selectively controlling the plurality of audio contents output to the plurality of audio output units, the viewing environment of the first content to be reproduced by the content display apparatus 100 is improved. It is possible to realize a voice cooperation reproduction system in which the user of the portable information terminal 700 can view the second content.
  • Example 3 The third embodiment of the present invention will be described below.
  • the configuration, effects, and the like in the present embodiment are the same as in the second embodiment unless otherwise noted. Therefore, in the following, the difference between the present embodiment and the second embodiment will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the portable information terminal 700 inputs the audio
  • the voice input unit 754 of the portable information terminal 700 inputs surrounding voice (voice outside the terminal), and the voice signal processing unit 753 acquires the voice.
  • the audio signal processing unit 753 compares the audio with the audio data acquired by communication from the content display device 100, identifies the audio output from the content display device 100 from the input audio, and determines the volume of the audio. Identify The audio signal processing unit 753 identifies the volume of the audio data acquired from the content display apparatus 100 based on the identified volume and the set reference volume, and outputs the audio.
  • FIG. 13 is a schematic view showing an example of sound volume control in the voice cooperative reproduction system of this embodiment.
  • the A user 10000a is near the content display apparatus 100, and the B user 10000b is far from the content display apparatus 100.
  • a user 10000a possesses A portable information terminal 700a, and B user 10000b possesses B portable information terminal 700b.
  • the user A 10000 a listens to the sound output from the speaker 174 of the content display apparatus 100 at the speaker volume 100 sa of the content display apparatus at the position of the user A.
  • the B user 10000b listens to the sound output from the speaker 174 of the content display device 100 at the speaker volume 100sb of the content display device at the position of the B user.
  • the speaker volume 100sb of the content display device at the position of the B user is smaller than the speaker volume 100sa of the content display device at the position of the A user, and the B user 10000b outputs the speaker 174 compared to the A user 10000a. Sounds are difficult to hear.
  • the A portable information terminal 700a and the B portable information terminal 700b cooperate with the content display apparatus 100, and the A portable information terminal 700a reproduces voice from the speaker audio output unit 751 with the speaker volume 700sa of the A portable information terminal.
  • the information terminal 700 b reproduces the sound from the speaker sound output unit 751 at the speaker volume 700 sb of the B portable information terminal.
  • the speaker volume 700sb of the B portable information terminal is higher than that of the speaker volume 700sa of the A portable information terminal.
  • the volumes heard by the A user 10000 a and the B user 10000 b are the volume 800 sa heard by the A user and the volume 800 sb heard by the B user, respectively.
  • the A portable information terminal 700a and the B portable information terminal 700b have the speaker volume 700sa of the A portable information terminal and the B portable information terminal, respectively, so that the volume 800sa heard by the user A and the volume 800sb listened to by the B user become approximately the same value. Control the speaker volume 700sb of the information terminal.
  • FIG. 14 is an operation sequence diagram showing an example of the operation sequence of the portable information terminal 700 shown in FIG. 9 in which the volume control of the speaker audio output unit 751 is taken into consideration. While the process of S105 in FIG. 9 is only the confirmation of the received voice, the process of S104 in FIG. 14 confirms the input voice input from the voice input unit 754 in addition to the received voice.
  • the voice signal processing unit 753 measures the volume of the input voice input from the voice input unit 754 (S107). As shown in FIG. 13, in the audio signal processing unit 753, the sum of the volume of the output sound output from the speaker 174 by the content display device 100 and the volume of the output sound output from the speaker audio output unit 751 is the reproduction reference volume. The sound volume of the sound output from the speaker sound output unit 751 of the portable information terminal 700 is calculated so as to always be close to the value (S108). Then, the portable information terminal 700 outputs the sound of the calculated volume from the speaker sound output unit 751 (S106).
  • FIG. 15 is an operation sequence diagram showing an example of a detailed operation sequence of the input voice check / received voice check (S104) in the example of the operation sequence of the portable information terminal 700 shown in FIG.
  • the audio signal processing unit 753 confirms the input audio input from the audio input unit 754 of the portable information terminal 700 (S10401), and stores the input audio data in a buffer capable of buffering for a predetermined time (S10402) .
  • the received voice received by the communication processing unit 720 of the portable information terminal 700 is confirmed (S10403), and the received voice data is stored in a buffer capable of buffering for a predetermined time (S10404). Then, between the buffer in which the input audio data is stored and the buffer in which the received audio is stored, a portion determined to be the same audio data is detected (S10405). By performing the detection, it is possible to calculate the magnitude of only the audio signal component of the audio content included in the input audio data.
  • each operation sequence in FIG. 14 and FIG. 15 can be combined appropriately and partially, and further, partial operation steps can be replaced with other operation steps as appropriate, such as reordering, simultaneous operation, etc. .
  • each operation sequence in FIG. 14 and FIG. 15 is capable of background operation except for the input of user operation, and it is assumed that the operation is not inhibited when the user uses another application.
  • the volume control is audible due to the difference in distance from the content display apparatus 100. It is desirable to leave it on by default to reduce differences.
  • the audio signal is output from the headphone audio output unit 752
  • the difference in the way of hearing due to the difference in the distance from the content display device 100 is very small.
  • the speaker voice output unit 751 inputs voice outside the portable information terminal 700, and the voice signal processing unit 753 controls voice output based on the input voice. Specifically, the audio signal processing unit 753 determines and outputs the volume of the received audio data based on the audio input by the speaker audio output unit 751. As a result, audio data can be output from the speaker audio output unit 751 at an appropriate volume even for the user who is away from the content display apparatus 100.
  • the present invention by controlling the volume of the speaker of the portable information terminal to increase as the distance from the content display device 100 to the portable information terminal 700 increases, the difference from the distance from the content display device 100 can be reduced. It is possible to realize a voice cooperative reproduction system in which there is little difference in how to hear voices.
  • Example 4 The fourth embodiment of the present invention will be described below.
  • the configuration, effects, and the like in the present embodiment are the same as in the second embodiment unless otherwise noted. Therefore, in the following, the difference between the present embodiment and the second embodiment will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the voice cooperation reproduction system of this embodiment adjusts the above-mentioned reproduction timing. Specifically, the voice input unit 754 of the portable information terminal 700 inputs surrounding voice, and the voice signal processing unit 753 acquires and stores the voice. Further, the audio signal processing unit 753 stores the audio data acquired via the communication processing unit 720.
  • the audio signal processing unit 753 compares the audio input from the audio input unit 754 with the audio data acquired via the communication processing unit 720, and determines the presence or absence of matching data. When there is matching data, the audio signal processing unit 753 compares the time at the time of speech input with the reception time of the reception data to calculate a time difference. The audio signal processing unit 753 adjusts the audio output timing based on the time difference. Specifically, when the time at the time of voice input is earlier, the voice signal processing unit 753 controls to delay the playback timing of the content display apparatus 100. If the voice data is earlier, the playback timing of the portable information terminal 700 is delayed.
  • FIG. 16 is an example of an operation sequence in which synchronization control is taken into consideration with respect to the detailed operation sequence of the input voice confirmation / received voice confirmation (S104) shown in FIG.
  • S10405 After detecting the same part of the input speech data and the reception speech data (S10405), the time difference between the audible timing of the same speech data in the input speech and the reproduction timing of the same speech data in the reception speech is calculated ( S10406).
  • the content playback timing in the content display apparatus 100 is delayed (S10408), and when the received voice is earlier, the voice playback in the speaker voice output unit 751 of the portable information terminal 700 is performed.
  • the timing is delayed (S10409). Since the process of S10408 can be executed only when communication from the portable information terminal 700 to the content display apparatus 100 is possible, the system configuration shown in FIG. 5A or FIG. 5B is adopted as the voice cooperation reproduction system of this embodiment. It is effective to
  • FIG. 17 is a schematic view showing an example of synchronization control in the voice cooperation reproduction system of the present embodiment.
  • the BS / terrestrial digital broadcast received by the content display apparatus 100 is viewed.
  • the sound is basically output from the speaker 174 of the content display apparatus 100, that is, input from the audio input unit 754 of the portable information terminal 700.
  • the input voice becomes temporally earlier data than the received voice received by the communication processing unit 720 of the portable information terminal 700.
  • the audio signal processing unit 753 performs the process of S10408 in order to eliminate the time difference between the audible timing 11000a of the input audio 100sp before synchronization and the reproduction timing 11000b of the received audio 700sp before synchronization.
  • the process of S10408 first, an instruction to delay the content reproduction timing in the content display device 100 is transmitted to the external communication unit 103 of the content display device 100, and the content display device 100 having received the instruction utilizes lip-sync technology or the like.
  • the playback timing of the speaker 174 or the video display unit 173 is delayed by a resolution of 100 sdt of about 50 msec.
  • the audio signal processing unit 753 delays the reproduction timing of the speaker 174 based on the resolution 100 sdt so that the audibility timing of the input sound is later than the reproduction timing of the reception sound, and at the same time the resolution 700 sdt of about 20 usec.
  • the reproduction timing in the speaker audio output unit 751 of the portable information terminal 700 is delayed.
  • the audible timing of the input voice 100sq after synchronization delayed based on the resolution 100sdt and the reproduction timing of the received voice 700sq after synchronization delayed based on the resolution 700sdt coincide at the synchronization timing 11000c, and the user has reduced echo It becomes possible to view content in a viewing environment.
  • the playback timing of the content display apparatus 100 may be delayed by controlling a program for performing streaming in the process of S10408.
  • the streaming content or the one-segment broadcast content received by the portable information terminal 700 is viewed as the content in the voice cooperation reproduction system of the present embodiment.
  • the reproduction timing of the sound outputted from the speaker 174 of the content display apparatus 100 is the same as that of the portable information terminal 700. It becomes later in time than the reproduction timing of the sound output from the speaker sound output unit 751. Therefore, synchronization control can be performed only by the process of S10409 that delays the reproduction timing of the portable information terminal 700.
  • the operation sequence of FIG. 16 can be appropriately combined partially, and further, some operation steps can be replaced with other operation steps as appropriate, such as reordering, simultaneous operation, and the like. Further, the operation sequence of FIG. 16 is capable of background operation except for the input of the user operation, and it is assumed that the user does not disturb this operation when using another application.
  • the synchronization control is performed in any case where the same audio signal as the audio output from the speaker 174 of the content display device 100 is output from the speaker audio output unit 751 to the headphone audio output unit 752 of the portable information terminal 700.
  • the default setting is on.
  • the audio signal processing unit 753 identifies the timing input by the audio input unit 754, and controls the timing of output to the speaker audio output unit 751 based on the timing.
  • the output timing of the sound output from the content display apparatus 100 and the sound output from the portable information terminal 700 can be appropriately adjusted. For example, even if there is a shift in the reception timing due to a communication delay, it is appropriate Can be adjusted.
  • Example 5 The fifth embodiment of the present invention will be described below.
  • the configuration, effects, and the like in the present embodiment are the same as in the second to fourth embodiments unless otherwise noted. Therefore, in the following, differences between the present embodiment and the second to fourth embodiments will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the voice linked reproduction in addition to the voice of the content to be played back, it may be desired to analyze the ambient sound and control the volume of the voice of the content in accordance with the surrounding situation. For example, when the viewing user of the content is spoken by another person, it is desirable to lower the volume of the speaker of the portable information terminal in order to make the conversation easy to hear. On the other hand, for example, when the living sound around the content viewing user is large, it is desirable to increase the volume of the speaker of the portable information terminal in order to make it easier to hear the content audio.
  • the voice cooperative reproduction system analyzes the type of the surrounding sound and controls the volume of the sound to be output based on the type. Specifically, the voice input unit 754 of the portable information terminal 700 inputs surrounding voice, and the voice signal processing unit 753 acquires and stores the voice. Further, the audio signal processing unit 753 stores the audio data acquired via the communication processing unit 720.
  • the voice signal processing unit 753 compares the voice input from the voice input unit 754 with the voice data acquired through the communication processing unit 720 to extract a matching portion, and the voice input from the voice input unit 754 Extract the non-matching part (peripheral sound part) from.
  • the audio signal processing unit 753 identifies the type of the ambient sound (for example, conversation, ambient noise), determines the audio output volume of the received audio data according to the identified type of the ambient sound, Voice output based on.
  • FIG. 18 is an operation sequence diagram showing an example of the operation sequence of the portable information terminal 700 shown in FIG. 9 in which the volume control based on the analysis of the surrounding sound is considered.
  • the voice of the content is detected, the voice of the content and surrounding sound are separated in the input voice (S109) ).
  • the audio signal processing unit 753 performs type analysis such as whether the main component included in the surrounding sound is, for example, a conversation or a living sound, based on the separated surrounding sound (S110). On the other hand, the audio signal processing unit 753 measures the volume of the peripheral sound (S111), and in the process of S108, the speaker audio output unit of the portable information terminal 700 in consideration of the type analysis result of the peripheral sound and the volume. From 751, the volume of the sound to be output is calculated.
  • the sound output from the speaker voice output unit 751 is uniformly set to a predetermined small sound volume, and the type analysis result of the peripheral sound is For example, when the sound is a living sound, the sound output from the speaker sound output unit 751 is controlled to have a larger volume as the sound volume of the living sound is larger.
  • the voice separation (S109) and the analysis of the surrounding sound (S110) may be performed inside the portable information terminal 700 or may be performed in a server apparatus on the Internet. If the processes S109, S110, etc. require a long processing time, the maximum value of the processing time is estimated in advance, and then the synchronization control in the processing of S104 considers the maximum value of the processing time. Then, the maximum value of the processing time in the process of S10406 shown in FIG. 7B, that is, the time from when the received voice is confirmed (S10403) to when the surrounding sound is analyzed and actually output (S106) is taken into consideration. You may calculate the time difference with.
  • Each operation sequence of FIG. 18 can be appropriately combined partially, and further, some operation steps can be replaced with other operation steps as appropriate, such as reordering, simultaneous operation, and the like. Further, each operation sequence in FIG. 18 is capable of background operation except for the input of user operation, and it is assumed that the user does not disturb this operation when using other applications.
  • the audio signal processing unit 753 extracts the surrounding sound, analyzes the type of the surrounding sound, and controls the output sound volume based on the analysis result, thereby performing the volume control according to the surrounding situation. be able to.
  • Example 6 The sixth embodiment of the present invention will be described below.
  • the configuration, effects, and the like in the present embodiment are the same as in the second to fourth embodiments unless otherwise noted. Therefore, in the following, differences between the present embodiment and the second to fourth embodiments will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the call content component contained in the voice input from the microphone and the voice component of the content being viewed are separated, and of these, the call There is a method of amplifying only the content component.
  • a method is conceivable in which the received audio information received for output from the speaker audio output unit 751 is used to cancel the audio component of the content being viewed included in the audio input from the microphone. .
  • the voice cooperation system appropriately controls the call voice (input voice by the call) when the portable information terminal 700 performs the call process while outputting the voice data received from the content display device 100. It is Specifically, the voice signal processing unit 753 inquires of the main control unit 701 about the call state, and acquires and determines information indicating whether or not the main control unit 701 is in a call. The audio signal processing unit 753 performs phase inversion of the received audio data and amplitude adjustment based on the volume of the audio component of the content input to the audio input unit 754, and adds it to the user's outgoing voice.
  • FIG. 19 is an operation sequence diagram showing an example of the operation sequence in which the cooperation operation of the application for operating the voice cooperation reproduction system of the present embodiment and the call application is taken into consideration with respect to the operation sequence of the portable information terminal 700 shown in FIG. It is.
  • the call application receives or makes a call, it starts a processing loop (S121). First, confirmation of the incoming voice (S123) and output of the incoming voice from the receiving unit (S124). On the other hand, the user's outgoing voice from the voice input unit 754 is confirmed (S125).
  • the voice of the content output from the speaker voice output unit 751 of the portable information terminal 700 operating as a voice cooperative reproduction system is used.
  • the audio signal processing unit 753 performs the phase inversion of the audio of the content output from the speaker audio output unit 751 in the process of S106 and the amplitude adjustment based on the volume of the audio component of the content included in the transmission audio S120). Then, the audio signal processing unit 753 reduces the audio component of the content included in the outgoing voice by adding to the outgoing voice of the user confirmed in the process of S125 (S126), and generates clear outgoing voice. It becomes possible. Then, the clear transmission voice is transmitted (S127).
  • Whether or not to continue the call is constantly monitored in the processing loop of S123 to S127 (S122), and a call termination request is input from the operation unit 730, or the other party who makes a call requests the call termination. In the case, the call of the present embodiment is ended.
  • each operation sequence in FIG. 19 can be combined appropriately and partially, and further, some operation steps can be replaced with other operation steps as appropriate, such as reordering, simultaneous operations, and the like.
  • each operation sequence in FIG. 19 is capable of background operation except for the input of a user operation, and it is assumed that the operation is not inhibited when the user uses another application.
  • the audio signal processing unit 753 receives an input from the audio input unit 754 based on the audio input from the audio input unit 754 and the audio data acquired via the communication processing unit 720. Emphasize the call voice included in the voice. Specifically, as the enhancement processing, the audio signal processing unit 753 adds the result of inverting the phase of the audio data received by the communication processing unit 720 to the audio input by the audio input unit 754. As a result, the audio signal processing unit 753 performs processing to weaken the received audio data (audio content) portion, so that it is possible to make a call with clear voice even while viewing the content.
  • the voice signal processing unit 753 performs the voice separation process in the fifth embodiment as described in the above example, and separates the call content component contained in the voice input from the microphone and the voice component of the content being viewed. Of these, only the call content component (call voice portion) may be amplified. In this case, since the voice signal processing unit 753 emphasizes the call content portion, it is possible to make a call with clear voice even while viewing the content.
  • Example 7 The seventh embodiment of the present invention will be described below.
  • the configuration, effects, and the like in the present embodiment are the same as in the second to fourth embodiments unless otherwise noted. Therefore, in the following, differences between the present embodiment and the second to fourth embodiments will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the portable information terminal 700 receives caption data related to voice data and displays the caption data.
  • FIG. 20 is an example of a display screen on the display unit 741 of the portable information terminal 700.
  • the display unit 741 has a touch panel function and doubles as an operation unit 730.
  • the user selects whether or not to display video and subtitles.
  • subtitles 741a are displayed.
  • the subtitles 741a can be traced back to subtitle data of a predetermined time by sliding in the vertical direction using the touch panel function, and if the content is temporarily missed or missed, playback of the content is stopped. Without it, it becomes possible to know the content of the missed or missed part.
  • the subtitles 741a to be displayed can also be moved by operating the knob 741d indicating the current subtitle position on the scroll bar 741c.
  • an audio cooperative reproduction system capable of displaying not only audio but also video or subtitles in a portable information terminal.
  • Example 8 Hereinafter, an eighth embodiment of the present invention will be described.
  • the configuration, effects, and the like in the present embodiment are the same as in the second to fourth embodiments unless otherwise noted. Therefore, in the following, differences between the present embodiment and the second to fourth embodiments will be mainly described, and the description of the common points will be omitted as much as possible in order to avoid duplication.
  • the portable information terminal 700 receives caption data, requests translation of the received caption data to an external server (translation unit), and the external server translates in response to the translation request, Display translation results or output voice.
  • the portable information terminal 700 itself may be provided with a translation unit.
  • FIG. 21 is a diagram showing an example of various processes required for various translation patterns.
  • a subtitle to subtitle translation pattern 23000 there are a subtitle to subtitle translation pattern 23000, a subtitle to voice translation pattern 23001, a voice to subtitle translation pattern 23002, and a voice to voice translation pattern 23003.
  • speech-to-text conversion processing 23004 for converting speech to text text-based translation processing 23005
  • text processing A text-to-speech process 23006 is required to convert the text into speech.
  • the voice-to-caption translation pattern 23002 and the voice-to-voice translation pattern 23003 are executed after the received voice is confirmed in the process of S104 in the operation sequence of the portable information terminal 700 shown in FIG.
  • the subtitle to subtitle translation pattern 23000 and the subtitle to audio translation pattern 23001 are also performed at the same timing as the translation pattern performed using the audio, since the subtitle transmitted at the same timing as the audio is used.
  • the speech to text processing 23004 to the text to speech conversion processing 23006 may be performed inside the portable information terminal 700 or may be performed on a server apparatus on the Internet.
  • the timing of provision to the user is not as strictly synchronized as in the operation sequence shown in FIG. It is desirable to be synchronized. Therefore, if speech-to-text conversion processing 23004 to text-to-text conversion processing 23006 require a long processing time, the maximum value of the processing time is estimated in advance. Then, in synchronization control in the process of S104, in consideration of the maximum value of the processing time, the maximum value of the processing time, that is, the received voice is confirmed in the process of S10406 shown in FIG. The time difference with the input voice may be calculated in consideration of the time until output (S106).
  • the setting shown in FIG. 21 is merely an example, and application of speech-based translation processing capable of speech-to-speech translation is also possible, not text-based translation processing, for example.
  • a voice-linked playback system capable of providing voice or subtitles in a language that can be understood by the user by performing translation using either one or more types of voice or one or more types of subtitles.
  • the portable information terminal 700 calculates the distance between the portable information terminal 700 and the content display device 100 using a short distance wireless communication means (for example, a beacon etc.), and based on the calculated result, the received voice You may make it control the volume which outputs data.
  • the portable information terminal 700 stores information defining the volume according to the distance, refers to the information, specifies the volume corresponding to the calculated distance, and outputs the audio data at the volume You may
  • the portable information terminal 700 raises the volume when the distance is long, the audio information is output from the portable information terminal 700 at a high volume, even if it is separated from the content display apparatus 100. It can be improved.
  • the content display apparatus 100 may transmit the voice data of the changed content to the portable information terminal 700.
  • the content display device 100 may transmit the content before the change to the portable information terminal 700.
  • the content display apparatus 100 when the content display apparatus 100 receives a change of the content to be received, it may be determined in advance whether or not to change the audio data to be transmitted to the portable information terminal 700 according to the change.
  • the information terminal 700 may be inquired.
  • the functions and the like of the present invention described above may be realized in hardware by designing part or all of them, for example, by an integrated circuit.
  • the program may be realized by software by a microprocessor unit or the like interpreting and executing an operation program for realizing each function or the like.
  • Hardware and software may be used together.
  • control lines and information lines shown in the drawing indicate those which are considered to be necessary for explanation, and not all control lines and information lines on the product are necessarily shown. In practice, almost all configurations may be considered to be mutually connected.
  • control lines and information lines shown in the drawing indicate those which are considered to be necessary for explanation, and not all control lines and information lines on the product are necessarily shown. In practice, almost all configurations may be considered to be mutually connected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

音声コンテンツを出力する、第1の音声出力部及び第2の音声出力部を備えた端末であって、第1の音声コンテンツと、第2の音声コンテンツとを取得する音声取得部と、前記第1の音声コンテンツ及び前記第2の音声コンテンツの出力先を示す情報を設定する設定部と、前記設定部により設定された情報に基づいて、前記第1の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の一方に出力し、前記第2の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の他方に出力する音声出力制御部と、を備える。

Description

端末、音声連携再生システム及びコンテンツ表示装置
 本発明は、端末、音声連携再生システム及びコンテンツ表示装置に関する。
 従来から、主となる受信端末装置とデータの送受信が可能な複数の副受信端末のそれぞれに、各副受信端末装置に固有のID情報(識別情報)を持たせ、このID情報に対応する副コンテンツを主受信端末装置から副受信端末装置に送信する技術がある(例えば、特許文献1参照)。
特開2013-236389号公報
 特許文献1に記載されたような主受信端末装置(テレビ受信機)と、副受信端末装置とを含むシステムでは、主受信端末装置及び副受信端末装置それぞれに音声出力部がある。また、1台の端末装置でも、複数の音声出力部(例えば、スピーカとヘッドフォン)を有することがある。
 このように、複数の音声出力部を有している場合、適切にコンテンツの音声出力することが望ましい。そこで、上述のように、複数の音声出力部に対して適切に音声コンテンツを出力制御し得る端末、音声連携再生システム及びコンテンツ表示装置を提供することを目的とする。
 前記課題を解決するための手段として、特許請求の範囲に記載の技術を用いる。
 一例を挙げるならば、音声コンテンツを出力する、第1の音声出力部及び第2の音声出力部を備えた端末であって、第1の音声コンテンツと、第2の音声コンテンツとを取得する音声取得部と、前記第1の音声コンテンツ及び前記第2の音声コンテンツの出力先を示す情報を設定する設定部と、前記設定部により設定された情報に基づいて、前記第1の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の一方に出力し、前記第2の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の他方に出力する音声出力制御部と、を備える。
 本発明の技術を用いることにより、複数の音声出力部に対して適切に音声コンテンツを出力制御することができる。
実施例1に係る携帯情報端末の活用例を示す図である。 実施例1に係る携帯情報端末のブロック図である。 実施例1に係る携帯情報端末の音声出力部からの出力パターンを説明する図である。 実施例1に係る携帯情報端末の処理を示すフローチャートである。 実施例2に係る音声連携再生システムのシステム構成図(1)である。 実施例2に係る音声連携再生システムのシステム構成図(2)である。 実施例2に係る音声連携再生システムのシステム構成図(3)である。 実施例2に係る音声連携再生システムの携帯情報端末の音声出力部におけるデフォルト設定の説明図である。 実施例2に係るコンテンツ表示装置のブロック図である。 実施例2に係る外部送信装置のブロック図である。 実施例2に係る携帯情報端末の処理を示すフローチャート(1)である。 実施例2に係る携帯情報端末の処理を示すフローチャート(2)である。 実施例2に係る音声連携再生システムの活用例を示す図(1)である。 実施例2に係る音声連携再生システムの活用例を示す図(2)である。 実施例2に係る音声連携再生システムの活用例を示す図(3)である。 実施例2に係る音声連携再生システムの活用例を示す図(4)である。 実施例3に係る音声連携再生システムの音声制御を説明する図である。 実施例3に係る携帯情報端末の処理を示すフローチャート(1)である。 実施例3に係る携帯情報端末の処理を示すフローチャート(2)である。 実施例4に係る携帯情報端末の処理を示すフローチャートである。 実施例4に係る音声連携再生システムの同期制御を説明する図である。 実施例5に係る携帯情報端末の処理を示すフローチャートである。 実施例6に係る携帯情報端末の処理を示すフローチャートである。 実施例7に係る音声連携再生システムの字幕表示例を示す図である。 実施例8に係る音声連携再生システムの翻訳に必要となる各種処理を示す図である。
 以下、本発明の実施形態の例を、図面を用いて説明する。
 (実施例1)
 先ず、本実施例の携帯情報端末(端末)で再生可能なコンテンツの一例を説明する。まず、図1を用いて、携帯情報端末700(携帯情報端末700mu)の活用例を説明する。携帯情報端末700は、例えば、携帯電話やスマートフォン、タブレット端末等である。また、携帯情報端末700は、PDA(Personal Digital Assistants)やノート型PCであってもよい。また、携帯情報端末700は、デジタルスチルカメラや動画撮影可能なビデオカメラ、携帯型ゲーム機等、またはその他の携帯用デジタル機器であってもよい。
 携帯情報端末700は、外部ネットワーク(例えば、インターネット等)を介して音声データを含む音声コンテンツを受信し、当該音声コンテンツを再生する。ここで、音声コンテンツとは、音楽コンテンツ、動画コンテンツ、ワンセグメント放送コンテンツ等である。また、携帯情報端末700は、ワンセグメント放送波を受信可能であり、ワンセグメント放送コンテンツを受信し、当該ワンセグメントコンテンツを再生する。
 携帯情報端末700は、複数の音声出力部を有し、当該音声出力部から音声出力可能である。具体的に、携帯情報端末700は、スピーカと、自装置が接続するヘッドフォンから音声出力することができる。
 さらに、携帯情報端末700は、上記の外部ネットワークまたは移動体電話通信網を介して通話することができる。すなわち、携帯情報端末700は、電話網を用いて通話可能である。さらに、携帯情報端末700は、外部ネットワークまたは移動体電話通信網を介して通話を行い、通話音声を受信し、通話相手に通話データを送信する。また、携帯情報端末700は、予め記憶している音楽コンテンツを再生する。以上の説明は、日本国内のみの適用に限定されるものではない。
 図1は、2種類のコンテンツ視聴を示す模式図である。携帯情報端末700では、ストリーミングコンテンツと音楽コンテンツとを再生している。ここで、Aユーザ10000muaはストリーミングコンテンツを視聴したい一方で、Bユーザ10000mubは音楽コンテンツを視聴したいと考えているものとする。
 この場合、携帯情報端末700muのヘッドフォン音声出力部は、前記ストリーミングコンテンツの音声を再生し、携帯情報端末700muのスピーカ音声出力部は、前記音楽コンテンツを再生する。この場合、Aユーザ10000muaは、ストリーミングコンテンツを、Bユーザ10000mubは音楽コンテンツを、それぞれ他方のコンテンツの視聴を阻害することなく視聴することが可能となる。
 [携帯情報端末のハードウェア構成]
 次に、本実施例における具体的な構成例の説明を行う。図2は、携帯情報端末700の内部構成の一例を示すブロック図である。携帯情報端末700は、主制御部701、システムバス702、通信処理部720(受信部)、操作部730、画像処理部740(表示制御部)、及び音声処理部750を備える。
 主制御部701は、携帯情報端末700全体を制御するマイクロプロセッサユニットである。主制御部701は、通信処理部720を介して放送コンテンツ、動画コンテンツ等の複数の音声コンテンツを取得する。また、主制御部701は、取得したコンテンツを記憶してもよい。このように、主制御部701は、音声取得部として機能する。
 主制御部701は、コンテンツを再生するアプリケーション(例えば、音声連携再生アプリケーション)、通話アプリケーションをインストールしており、ユーザの操作要求等に応じて、これらのアプリケーションを実行する。コンテンツを再生するアプリケーションは、各種音声コンテンツを再生する。例えば、取得した音声コンテンツを再生する。また、音声連携再生アプリケーションは、テレビ受信機から取得した音声データを再生するアプリケーションである。この音声連携アプリケーションの動作については、後述する。通話アプリケーションは、発着信を制御するアプリケーションである。
 主制御部701は、上記のコンテンツを再生するアプリケーションが、コンテンツの再生要求を受け付けた場合、取得したコンテンツ又は記憶したコンテンツを画像処理部740又は音声処理部750へ送出する。また、主制御部701は、上記の通話アプリケーションにより、電話による発着信制御と、スピーカ音声出力部751及び音声入力部754を利用した通話制御を行う。システムバス702は、主制御部701と携帯情報端末700内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。
 通信処理部720は、LAN通信部721、移動体電話網通信部722、及びNFC通信部723を有する。LAN通信部721は、インターネットを介してデータの送受信を行う。移動体電話網通信部722は、移動体電話通信網を介して電話通信(通話)及びデータの送受信を行う。
 NFC通信部723は、対応するリーダ/ライタとの近接時に無線通信を行う。LAN通信部721、移動体電話網通信部722、及びNFC通信部723は、それぞれ符号回路や復号回路、アンテナ等を備えるものとする。また、通信処理部720が、BlueTooth(登録商標)通信部や赤外線通信部等、他の通信部を更に備えていてもよい。例えば、通信処理部720は、外部装置(例えば、テレビ受信機)から送信されたコンテンツを受信する。
 操作部730は、携帯情報端末700に対する操作指示の入力を行う指示入力部であり、本実施例では、表示部741に重ねて配置したタッチパネル及びボタンスイッチを並べた操作キーで構成されるものとする。何れか一方のみであってもよい。有線通信または無線通信により接続された別体の携帯端末機器を用いて携帯情報端末700の操作を行ってもよい。また、前記タッチパネル機能は表示部741が備え持っているものであってもよい。
 画像処理部740は、表示部741、画像信号処理部742、第一画像入力部743、及び第二画像入力部744で構成される。表示部741は、例えば、液晶パネル等の表示デバイスであり、画像信号処理部742で処理した画像データを携帯情報端末700のユーザに提供(表示出力)する。画像信号処理部742は、図示を省略したビデオRAMを備え、ビデオRAMに入力された画像データに基づいて表示部741が駆動される。
 また、画像信号処理部742は、必要に応じてフォーマット変換、メニューやその他のOSD(On Screen Display)信号の重畳処理等を行う機能を有するものとする。第一画像入力部743及び第二画像入力部744は、例えば、カメラユニットである。このカメラユニットは、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)センサ等の電子デバイスを用いてレンズから入力した光を電気信号に変換することにより、周囲や対象物の画像データを入力する。
 音声処理部750は、スピーカ音声出力部751(第1の音声出力部)、ヘッドフォン音声出力部752(第2の音声出力部)、音声信号処理部753(音声出力制御部、解析部、算出部)、及び音声入力部754(入力部)で構成される。
 スピーカ音声出力部751は、出力されるスピーカ音声を聞くことのできる範囲内にいる全ユーザに対し、音声信号処理部753で処理した音声信号を提供する。ヘッドフォン音声出力部752は、音声信号処理部753で処理した音声信号を携帯情報端末700のユーザに提供するものである。ヘッドフォン音声出力部752は、ヘッドフォンやイヤフォン等を接続可能な端子を備えるものであってもよい。また、ヘッドフォン音声出力部752は、BlueTooth(登録商標)通信(近距離無線通信)等を介して音声信号を無線出力するものであってもよい。このように、携帯情報端末700は、音声コンテンツを出力する複数の音声出力部を備えた端末である。
 また、音声信号処理部753は、スピーカ音声出力部751とヘッドフォン音声出力部752で異なる音声信号を出力するために、2つ以上の音声信号を処理することが可能である。スピーカ音声出力部751またはヘッドフォン音声出力部752から出力する音声信号は、主制御部701によって選択的に制御される。
 スピーカ音声出力部751とヘッドフォン音声出力部752で出力される音声信号は、それぞれモノラルであってもよいしステレオであってもよい。音声入力部754はマイクであり、ユーザの声などを音声データに変換して入力する。
 音声信号処理部753は、操作部730を介して、後述する出力パターン情報を設定し、設定した出力パターン情報を記憶する。このように、音声信号処理部753は、設定部として機能する。また、音声信号処理部753は、出力パターン情報に基づいて、第1の音声コンテンツを第1の音声出力部及び第2の音声出力部の一方に出力し、第2の音声コンテンツを第1の音声出力部及び第2の音声出力部の他方に出力する。
 なお、図2に示した携帯情報端末700の構成例は、本実施例に必須ではない構成も多数含んでいるが、これらが備えられていない構成であっても本実施例の効果を損なうことはない。また、デジタル放送受信機能や電子マネー決済機能等、図示していない構成が更に加えられていてもよい。
 [音声信号の出力パターン]
 図3は、携帯情報端末700において第一の音声信号または第二の音声信号をスピーカ音声出力部751とヘッドフォン音声出力部752から出力する際の出力パターンの一例を示す図である。各音声信号は、「出力せず」「スピーカ音声出力部751から出力」「ヘッドフォン音声出力部752から出力」の3パターンがあり、二種類の音声信号の組み合わせとしては3×3=9パターンを取り得る。二種類の音声信号は、いずれも音声コンテンツの信号である。第一の音声信号は、例えば、動画コンテンツの信号であり、第二の音声信号は、例えば、音楽コンテンツの信号である。
 具体的には、図3に示すNo.1出力パターン22000乃至No.9出力パターン22008である。このうち、第一の音声信号と第二の音声信号を共に出力するパターンは、No.5出力パターン22004、No.6出力パターン22005、No.8出力パターン22007、No.9出力パターン22008の4パターンである。特にNo.5出力パターン22004とNo.9出力パターン22008は、第一の音声信号と第二の音声信号を重畳して出力する。
 これらの出力パターンの選択は、操作部730を介してユーザが手動で選択してもよいし、ヘッドフォンが接続されたことを判定するヘッドフォン接続検出部を備え、ヘッドフォン接続検出部の検出結果に基づいて自動で選択してもよい。主制御部701が、端子の接続状態を検出したり、近距離無線通信によるヘッドフォン接続を検出したりすることにより、ヘッドフォン接続検出部を実現する。
 図3に示す設定はあくまで一例であり、携帯情報端末700が他の音声出力部を備える場合は、他の音声出力部の選択も許容し、複数の音声出力部からの同一の音声信号の出力も許容する。
 続いて、図4を用いて、携帯情報端末700が音声信号の出力切り替えをする処理の手順を説明する。図4は、携帯情報端末700が音声信号の出力切り替えをする処理の手順を示すフローチャートである。なお、予め出力パターンが設定されているものとする。
 まず、主制御部701が第1の音声コンテンツ(第一の音声信号)を取得し(ステップS91)、さらに第2の音声コンテンツ(第二の音声信号)を取得する(ステップS92)。音声信号処理部753は、出力パターン(設定値)を参照して、第1の音声コンテンツを第1の音声出力部及び第2の音声出力部の一方に出力し、第2の音声コンテンツを第1の音声出力部及び第2の音声出力部の他方に出力する(ステップS93)。
 以上説明したように、実施例1に記載の携帯情報端末700によれば、出力パターンを設定しておき、当該出力パターンにより、第1の音声信号を第1の音声出力部及び第2の音声出力部の一方に出力し、第2の音声信号を第1の音声出力部及び第2の音声出力部の他方に出力する。例えば、携帯情報端末700は、音楽コンテンツをスピーカ音声出力部751から出力し、映像コンテンツをヘッドフォン音声出力部752から出力することができる。このように、携帯情報端末700は、複数の音声出力部を用いて適切に音声コンテンツを出力制御し得る。
 (実施例2)
 本発明の実施例2に関して説明する。本実施例は実施例1に記載の携帯情報端末を使用する音声連携再生システムである。なお、本実施例における携帯情報端末の構成及び効果等は特に断りのない限り実施例1と同様であるものとする。
 先ず、本実施例の音声連携再生システムで再生可能なコンテンツの一例を説明する。本実施例の音声連携再生システムでは、例えばテレビ受信機であるコンテンツ表示装置がアンテナを介して放送波を受信することで、BS/地上デジタル放送を再生可能である。
 さらには、コンテンツ表示装置が外部ネットワークと接続可能である場合、外部ネットワークを介してストリーミングコンテンツを受信し、再生することが可能である。一方で、携帯情報端末が前記外部ネットワークを介して受信したストリーミングコンテンツをコンテンツ表示装置に伝送し、再生することが可能である。
 さらには、携帯情報端末700がワンセグメント放送波を受信可能である場合は、ワンセグメント放送コンテンツをコンテンツ表示装置に伝送し、再生することが可能である。以上の説明は、日本国内のみの適用に限定されるものではない。
 次に、本実施例における実施形態の具体的な構成例の説明を行う。
 [システム構成]
 まず、図5(図5A~図5C)を用いて、音声連携再生システムのシステム構成を説明する。図5は、音声連携システムのシステム構成を示す図である。図5Aは、本実施例の音声連携再生システムの一例を示すシステム構成図である。本実施例の音声連携再生システムは、コンテンツ表示装置100と、アンテナ100aと、ブロードバンドネットワーク等であるインターネット200と、ルータ装置210と、放送局の電波塔300tと、移動体電話通信網の基地局600bと、携帯情報端末700とを含む。
 コンテンツ表示装置100は、既存のデジタル放送受信機能に加え、放送通信連携システムに対応する機能を有するテレビ受信機である。コンテンツ表示装置100は、電波塔300tから送出された放送波を、アンテナ100aを介して受信する。また、コンテンツ表示装置100は、ルータ装置210を介してインターネット200と接続可能であり、インターネット200上の各サーバ装置との通信によるデータの送受信が可能である。
 ルータ装置210は、インターネット200と無線通信または有線通信により接続され、また、コンテンツ表示装置100とは無線通信または有線通信で、携帯情報端末700とは無線通信で接続される。これにより、インターネット200上の各サーバ装置とコンテンツ表示装置100と携帯情報端末700とが、ルータ装置210を介して、データの送受信を相互に行うことが可能となる。すなわち、コンテンツ表示装置100と携帯情報端末700とは、通信可能である。電波塔300tは、放送局の放送設備からデジタル放送信号等を含む放送波を送出する。
 図5Bは、本実施例の音声連携再生システムの別の一例を示すシステム構成図である。図5Aに示すシステム構成と異なり、ルータ装置210を含まない。図5Bに示すシステム構成では、ルータ装置210を介さない代わりに、BlueTooth(登録商標)等の方式を用いることで、コンテンツ表示装置100と携帯情報端末700との通信を行う。
 図5Cは、本実施例の音声連携再生システムの別の一例を示すシステム構成図である。図5Bに示すシステム構成と異なり、外部送信装置100bを使用する。
 コンテンツ表示装置100は、ルータ装置210との接続ができない場合やBlueTooth(登録商標)等の通信方式を有さない場合、外部送信装置100bを介し、音声信号等を携帯情報端末700に伝送する。
 図5A乃至図5Cに示す3つのシステム構成は、コンテンツ表示装置100と携帯情報端末700間の通信方式が異なるが、いずれか1つの通信方式に限定されたものではなく、2つ以上の通信方式を併用してもよい。上述のように、コンテンツ表示装置100は、各種通信手段(ルータ装置210、外部送信装置100b等)を用いて、携帯情報端末700へ各種情報(例えば、デジタル放送における音声データ)を送信する。携帯情報端末700は、これに応じて当該情報を受信する。また、コンテンツ表示装置100が、携帯情報端末700へ送信する音声データには、主音声又は副音声の種別を示す情報が含まれる。
 なお、携帯情報端末700の主制御部701は、上述のように、コンテンツ表示装置100と連携するためのアプリケーションを記憶している。携帯情報端末700は、当該アプリケーションを起動すると、コンテンツ表示装置100との間で認証処理を行う。また、携帯情報端末700は、予め音量基準情報を記憶しており、受信した情報(音声データ)を当該音量基準情報に基づいて音声出力する。
 [音声信号の出力パターン]
 ところで、本実施例の音声連携再生システムは、実施例1の携帯情報端末700を使用するため、第一の音声信号または第二の音声信号をスピーカ音声出力部751とヘッドフォン音声出力部752から出力することが可能である。例えば、コンテンツ表示装置100のスピーカ174から出力される音声を、携帯情報端末700のスピーカ音声出力部751から出力し、ネットワーク上の動画コンテンツといった他の音声コンテンツの音声信号をヘッドフォン音声出力部752から出力することが可能である。携帯情報端末700は、出力対象のデータの出力先を、取得元毎で定めた出力パターンを予め記憶している。
 図6は、携帯情報端末700において各種音声コンテンツを再生する場合の、音声出力部に関するデフォルト設定の一例を示す図である。コンテンツ表示装置100で映像を表示するコンテンツ20000においては、多くのユーザが視聴する主音声をスピーカ音声出力部751から出力し、副音声をヘッドフォン音声出力部752から出力することがデフォルト設定されている。
 一方で、携帯情報端末700で映像を表示するコンテンツ20001においては、基本的には、視聴するユーザは前記携帯情報端末700を所持する一名のみであるため、音声コンテンツの種類を問わずヘッドフォン音声出力部752から音声を出力することがデフォルト設定されている。
 図6に示すデフォルト設定に基づく場合、ヘッドフォンを外している状態ではコンテンツ20000の副音声やコンテンツ20001の音声信号は出力できないため、スピーカ音声出力部751から前記コンテンツ20000の主音声のみが出力される。また、音声信号処理部753は、ヘッドフォンを接続している状態では、スピーカ音声出力部751からコンテンツ20000の主音声の音声信号を出力する。また、音声信号処理部753は、ヘッドフォン音声出力部752からコンテンツ20000の副音声またはコンテンツ20001の音声信号を出力する。ヘッドフォンの接続が解除された場合、音声信号処理部753は、ヘッドフォン音声出力部752からの音声信号の出力を中断する。
 図6に示す設定はあくまでデフォルト設定であり、図6における各音声出力の設定は他方の出力部の選択も許容する。
 [コンテンツ表示装置のハードウェア構成]
 図7は、コンテンツ表示装置100の内部構成の一例を示すブロック図である。コンテンツ表示装置100は、主制御部101と、システムバス102と、外部通信部103と、チューナ/復調部131と、分離部132と、映像表示部173と、スピーカ174(第3の音声出力部)とを含む。
 主制御部101は、所定の動作プログラムに従ってコンテンツ表示装置100全体を制御するマイクロプロセッサユニットである。システムバス102は主制御部101とコンテンツ表示装置100内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。
 外部通信部103は、例えばLAN(Local Area Network)通信部を備える場合、図5Aに示すように、ルータ装置210を介してインターネットからストリーミングコンテンツを受信したり、携帯情報端末700と通信したりするシステムを構成可能である。また、前記外部通信部103は、例えばBlueTooth(登録商標)通信部等を備える場合、図5Bに示すように、携帯情報端末700と直接通信するシステムを構成可能である。
 また、外部通信部103は、例えば音声出力部を備える場合、図5Cに示すように外部送信装置100bを介し、携帯情報端末700へ音声情報を送信することが可能となる。LAN通信部、BlueTooth通信部、音声出力部による通信方式は、いずれか1つの通信方式に限定されたものではなく、2つ以上の通信方式を併用してもよい。また、外部通信部103は、NFC通信部、赤外線通信部等、他の通信部を更に備えていてもよい。
 外部通信部103は、後述する分離部132から音声データを受け取った場合、当該音声データを携帯情報端末700へ送信する。なお、外部通信部103は、チューナ/復調部131によって受信されたコンテンツを携帯情報端末700へ送信するようにしてもよい。
 チューナ/復調部131は、アンテナ100aを介して電波塔300tから放送波を受信し、主制御部101の制御に基づいてユーザの所望するサービスのチャンネルに同調(選局)する。更に、チューナ/復調部131は、受信した放送信号を復調してトランスポートストリーム(Transport Stream:TS)を取得する。なお、図6に示した例では、チューナ/復調部が一つである構成を例示しているが、複数画面同時表示や裏番組録画等を目的として、コンテンツ表示装置100がチューナ/復調部を複数搭載する構成としてもよい。
 分離部132は、チューナ/復調部131から出力されたTSを入力し、映像データ列、音声データ列、字幕データ列、等の各データ列に分離して出力する。このように、分離部132は、受信したコンテンツ(TS)から映像データ及び音声データを取得する。映像表示部173は、例えば液晶パネル等の表示デバイスであり、分離部132で分離された映像情報や字幕情報をコンテンツ表示装置100のユーザに提供する。スピーカ174は、分離部132で分離された音声情報をコンテンツ表示装置100のユーザに提供する。
 コンテンツ表示装置100は、テレビ受信機の他、DVD(Digital Versatile Disc)レコーダなどの光ディスクドライブレコーダ、HDDレコーダなどの磁気ディスクドライブレコーダ、STB(Set Top Box)等であってもよい。デジタル放送受信機能及び放送通信連携機能を備えたPC(Personal Computer)やタブレット端末、ゲーム機等であってもよい。コンテンツ表示装置100がDVDレコーダ、HDDレコーダ、STB等である場合、映像表示部173及びスピーカ174は備えなくともよい。外部通信部103に外部モニタ及び外部スピーカを接続することにより、本実施例のコンテンツ表示装置100と同様の動作が可能となる。
 [外部送信装置のハードウェア構成]
 図8は、本実施例の音声連携再生システムが、例えば図5Cに示すシステム構成をとる場合に使用する外部送信装置100bに関して、内部構成の一例を示すブロック図である。外部送信装置100bは、主制御部100b1、システムバス100b2、音声入力部100b3、及び外部信号送信部100b4を備える。
 主制御部100b1は、所定の動作プログラムに従って外部送信装置100b全体を制御するマイクロプロセッサユニットである。システムバス100b2は、主制御部100b1と外部送信装置100b内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。
 音声入力部100b3は、コンテンツ表示装置100内の外部通信部103が備える音声出力部より出力された音声信号を取得する。
 外部信号送信部100b4は、例えばBlueTooth(登録商標)通信部を備え、音声入力部が取得した音声信号を変換し、装置の外部へ送信する。外部信号送信部100b4は、NFC通信部、赤外線通信部等、他の通信部を更に備えていてもよい。
 コンテンツ表示装置100内の外部通信部103が、例えば映像出力部を備える場合、外部送信装置100bは映像入力部を備えることで、例えばBlueTooth(登録商標)通信によって映像信号を装置の外部へ送信することが可能となる。音声信号入力と映像信号入力は、それぞれ独立した端子で行ってもよいし、例えば、HDMI端子等を介して音声信号と映像信号を同時に入力してもよい。また、音声信号と映像信号と共に入力した場合、外部信号送信部100b4で送信する情報は、音声信号と映像信号の両方であってもよいし、音声信号のみであってもよい。
 [音声連携再生時の動作シーケンス]
 図9は、本実施例の音声連携再生システムを動作させる際の、携帯情報端末700の動作シーケンスの一例を示す動作シーケンス図である。同図は、本実施例の音声連携再生システムを動作させるためのアプリケーションを携帯情報端末700が起動し、コンテンツの視聴を継続したのちに視聴を終了するまでの一連の流れを示すものである。
 まず、携帯情報端末700は、本実施例の音声連携再生システムを動作させるためのアプリケーションを起動し(S101)、連携するコンテンツ表示装置100の認証を行う。本実施例の音声連携再生システムが図5Aに示すシステムを構成している場合は、携帯情報端末700は、ネットワークを介してパスワード入力等により認証を行う。本実施例の音声連携再生システムが図5Bに示すシステムを構成している場合は、ペアリング操作等によりコンテンツ表示装置100の認証を行う。
 本実施例の音声連携再生システムが図5Cに示すシステムを構成している場合は、携帯情報端末700は、ペアリング操作等により外部送信装置100bの認証を行う。なお、コンテンツ表示装置100や外部送信装置100bがNFC通信部を備える場合、携帯情報端末700は、NFC通信部723を介してコンテンツ表示装置100や外部送信装置100bの認証を直接行ってもよい。
 また、コンテンツ表示装置100がユーザ操作によって映像表示部173にQRコードを表示し、携帯情報端末700の画像処理部740が画像処理によってQRコードを処理することで認証を行ってもよい。特に、本実施例の音声連携再生システムは、家族のような複数ユーザでコンテンツを視聴することを想定しているため、NFC通信やQRコードを活用する方法は操作が簡単であり、子供からお年寄りまで簡単に連携を開始することが可能となる。
 本実施例の音声連携再生システムを動作させるためのアプリケーションの起動と各装置の認証が完了したら、音声連携再生を開始する。携帯情報端末700は、個人差による音声の聞こえ方の差異を低減するために、操作部730を介して再生基準音量の設定等が可能である。音声信号処理部753は、操作部730等により設定された設定値を確認(S103)した後、通信処理部720より受信する受信音声を確認し(S105)、前記受信した音声を、スピーカ音声出力部751またはヘッドフォン音声出力部752より出力する(S106)。
 音声連携再生を継続するか否かは、S103乃至S106の処理ループ内で常時監視されている(S102)。アプリケーションの中断/終了要求が操作部730より入力されたり、コンテンツ表示装置100の電源が切れてコンテンツ表示装置100と携帯情報端末700間の通信が途切れたりした場合、本実施例の音声連携再生システムを終了する。以上の処理により、コンテンツ表示装置100と携帯情報端末700による、本実施例の音声連携再生システムの動作が可能となる。
 図10は、図9に示す携帯情報端末700の動作シーケンスの一例において、音声出力(S106)の詳細な動作シーケンスの一例を示す動作シーケンス図である。まず、音声信号処理部753は、音声を出力するにあたり、携帯情報端末700が通話状態であるか否かを確認する(S10601)。
 具体的に、音声信号処理部753は、主制御部701へ通話状態の問合せをして、主制御部701から通話中であるか否かを示す情報を取得して判断する。音声信号処理部753は、もし通話状態である場合は(S10601:Yes)、着信音声を聴く上で支障にならないように、全ての音声信号の出力は行わずに処理を終了する。
 一方で、音声信号処理部753は、通話状態でない場合は(S10601:No)、音声信号は再生可能とし、次いでヘッドフォン接続検出部よる接続判定を行う(S10602)。音声信号処理部753は、ヘッドフォンが接続されている場合は(S10602:Yes)、2つ以上の音声信号の再生が可能であるため、スピーカ音声出力部751乃至ヘッドフォン音声出力部752の一方もしくは両方を使用して、1つまたは2つの音声信号の出力を行う(S10603)。
 一方で、ヘッドフォンが接続されていない場合、音声信号処理部753は、音声出力が可能であるのはスピーカ音声出力部751のみであるため、前記スピーカ音声出力部751より単一の音声信号を再生する(S10604)。S10603乃至S10604の処理で出力する音声信号の選択は、S103の処理において選択してもよいし、予め設定したデフォルト設定に基づいて選択してもよい。
 図10に示す動作シーケンスに基づいて音声信号を再生している途中に、携帯情報端末700に着信があった場合、音声信号処理部753は、S10601の処理における判断が変わり、音声信号の出力を中断する。通話が終了すると、音声信号処理部753は、S10601の処理における判断を再度変えて、音声信号の出力を再開する。
 また、ヘッドフォンを接続してスピーカ音声出力部751とヘッドフォン音声出力部752の両方からそれぞれ音声信号を再生している途中に、ヘッドフォンの接続が解除された場合、S10602の処理における判断を変えて、ヘッドフォン音声出力部752からの音声信号の出力を中断する。ヘッドフォンが接続されると、音声信号処理部753は、S10602の処理における選択を再度変えて、ヘッドフォン音声出力部752からの音声信号の出力を再開する。
 図9及び図10の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図9及び図10の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。
 [本実施例の音声連携再生システムの活用例]
 図11Aは、本実施例の音声連携再生システムの活用例の一例である、2種コンテンツ視聴を示す模式図である。コンテンツ表示装置100uaの映像表示部173で再生しているコンテンツを、Aユーザ10000uaaとBユーザ10000uabが視聴している。Bユーザ10000uabはAユーザ10000uaaよりコンテンツ表示装置100uaから離れた位置にいる。
 一方で、Cユーザ10000uacは、Bユーザ10000uabで前記コンテンツを視聴中に、携帯情報端末700uaで前記コンテンツの関連コンテンツの視聴を開始したものとする。ここで、携帯情報端末700uaのスピーカ音声出力部751は、コンテンツ表示装置100uaのスピーカ174が再生する音声を再生する。また、携帯情報端末700uaのヘッドフォン音声出力部752は、前記関連コンテンツの音声を再生する。これにより、Aユーザ10000uaaとBユーザ10000uabはコンテンツ表示装置100uaの映像表示部173で再生しているコンテンツを視聴し、Cユーザ10000uacは前記コンテンツの再生を阻害することなく、携帯情報端末700uaで前記コンテンツの関連コンテンツを視聴することが可能となる。
 図11Bは、本実施例の音声連携再生システムの活用例の一例である、2画面のコンテンツ表示装置のコンテンツ視聴を示す模式図である。コンテンツ表示装置100ubは、チューナ/復調部131を2つ備え、映像表示部173を2分割し、第一コンテンツと第二コンテンツを再生している。
 ここで、Aユーザ10000ubaとBユーザ10000ubbは第一コンテンツを視聴したい一方で、Cユーザ10000uccは第二コンテンツを視聴したいものとする。そこで、コンテンツ表示装置100ubのスピーカ174と携帯情報端末700ubのスピーカ音声出力部751から前記第一コンテンツの音声を再生する。また、携帯情報端末700ubのヘッドフォン音声出力部752から前記第二コンテンツの音声を再生する。これにより、Aユーザ10000ubaとBユーザ10000ubbは、第一コンテンツを、Cユーザ10000uccは第二コンテンツを、それぞれ他方のコンテンツの視聴を阻害することなく、映像/音声共に視聴することが可能となる。
 図12Aは、本実施例の音声連携再生システムの活用例の一例である、多重音声コンテンツ視聴を示す模式図である。コンテンツ表示装置100ucは、第一音声と第二音声を含む多重音声コンテンツを再生している。
 ここで、Aユーザ10000ucaとBユーザ10000ucbは前記多重音声コンテンツを第一音声で視聴したい一方で、Cユーザ10000uccは前記多重音声コンテンツを第二音声で視聴したいものとする。そこで、コンテンツ表示装置100ucのスピーカ174と携帯情報端末700ucのスピーカ音声出力部751から前記第一音声を再生する。また、携帯情報端末700ucのヘッドフォン音声出力部752から前記第二音声を再生する。これにより、Aユーザ10000ucaとBユーザ10000ucbは第一音声で、Cユーザ10000uccは第二音声で、それぞれ他方の視聴を阻害することなく、多重音声コンテンツを視聴することが可能となる。
 図12Bは、本実施例の音声連携再生システムの活用例の一例である、サラウンドサウンドコンテンツ視聴を示す模式図である。コンテンツ表示装置100udは、例えば5.1chのようなサラウンドサウンドを含むコンテンツを再生している。
 ここで、前記コンテンツを視聴するAユーザ10000uda、Bユーザ10000udb、及びCユーザ10000udcの周囲に、A携帯情報端末700uda、B携帯情報端末700udb、C携帯情報端末700udc、及びD携帯情報端末700uddを配置しているものとする。コンテンツ表示装置100udは、前記サラウンドサウンドをA携帯情報端末700uda乃至D携帯情報端末700uddに伝送する。A携帯情報端末700uda乃至D携帯情報端末700uddは、伝送された各音声を再生する。これにより、Aユーザ10000uda乃至Cユーザ10000udcは、サラウンドサウンドコンテンツを高臨場な視聴環境で視聴することが可能となる。
 なお、本実施例の音声連携再生システムを動作させるためのアプリケーションの拡張機能として、コンテンツ表示装置と複数の携帯情報端末の台数や位置関係を登録し、前記携帯情報端末の台数や位置関係に基づいて、所望のサラウンドサウンド視聴を実現するための各音声を生成し、前記各音声を各携帯情報端末に伝送するようにしてもよい。
 以上説明したように、実施例2に記載の音声連携再生システムによれば、コンテンツ表示装置100から携帯情報端末700へ音声データを送信するので、コンテンツ表示装置100だけでなく、携帯情報端末700の音声出力部(例えば、スピーカ音声出力部751)でも出力することができる。このように、複数の音声出力部に対する複数の音声コンテンツの選択的な出力制御が可能な携帯情報端末700を用い、コンテンツ表示装置100で再生する第一のコンテンツの視聴環境を向上させると同時に、携帯情報端末700のユーザが第二のコンテンツを視聴可能な音声連携再生システムを実現できる。
 (実施例3)
 以下では、本発明の実施例3に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2と同様であるものとする。このため、以下では、本実施例と実施例2との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生を行う際に、コンテンツ表示装置からの距離の違いに依る音声の聞こえ方の差異が少ない視聴環境を構築したい場合がある。この際、コンテンツ表示装置から携帯情報端末700までの距離が離れるほど携帯情報端末700のスピーカ音量を上げるように制御するのが望ましい。
 そこで、本実施例では、携帯情報端末700は、コンテンツ表示装置100から出力された音声を入力し、入力された音声の音量に基づいて、スピーカ音声出力部751から音声を出力する。
 具体的に、携帯情報端末700の音声入力部754が周囲の音声(端末外部の音声)を入力し、音声信号処理部753が、当該音声を取得する。音声信号処理部753は、当該音声と、コンテンツ表示装置100から通信により取得した音声データとを比較して、入力した音声の中からコンテンツ表示装置100から出力した音声を特定し、当該音声の音量を特定する。音声信号処理部753は、特定した音量と、設定された基準音量とに基づいてコンテンツ表示装置100から取得した音声データの音量を特定して、音声出力する。
 図13は、本実施例の音声連携再生システムにおける音量制御の一例を示す模式図である。コンテンツ表示装置100で再生されるコンテンツのユーザとして、コンテンツ表示装置100から近い場所にAユーザ10000a、コンテンツ表示装置100から遠い場所にBユーザ10000bがいる。Aユーザ10000aはA携帯情報端末700aを所持しており、Bユーザ10000bはB携帯情報端末700bを所持している。
 Aユーザ10000aは、コンテンツ表示装置100のスピーカ174から出力される音声を、Aユーザの位置におけるコンテンツ表示装置のスピーカ音量100saで聞く。一方でBユーザ10000bは、コンテンツ表示装置100のスピーカ174から出力される音声を、Bユーザの位置におけるコンテンツ表示装置のスピーカ音量100sbで聞く。前記Bユーザの位置におけるコンテンツ表示装置のスピーカ音量100sbは、前記Aユーザの位置におけるコンテンツ表示装置のスピーカ音量100saと比較して小さく、Bユーザ10000bはAユーザ10000aと比較して、スピーカ174が出力する音声が聞き取りづらくなる。
 そこで、A携帯情報端末700aとB携帯情報端末700bはコンテンツ表示装置100と連携し、A携帯情報端末700aはスピーカ音声出力部751からA携帯情報端末のスピーカ音量700saで音声を再生し、B携帯情報端末700bはスピーカ音声出力部751からB携帯情報端末のスピーカ音量700sbで音声を再生する。
 前記A携帯情報端末のスピーカ音量700saと比較し、B携帯情報端末のスピーカ音量700sbは大きい音量である。このとき、Aユーザ10000aとBユーザ10000bが聞く音量はそれぞれ、Aユーザが聞く音量800saとBユーザが聞く音量800sbとなる。A携帯情報端末700aとB携帯情報端末700bは、前記Aユーザが聞く音量800saと前記Bユーザが聞く音量800sbがおおよそ同じ値となるよう、それぞれ前記A携帯情報端末のスピーカ音量700saと前記B携帯情報端末のスピーカ音量700sbを制御する。
 図14は、図9に示す携帯情報端末700の動作シーケンスに対し、スピーカ音声出力部751の音量制御を考慮した動作シーケンスの一例を示す動作シーケンス図である。図9中のS105の処理では受信音声の確認のみであったのに対し、図14中のS104の処理では受信音声に加えて音声入力部754から入力される入力音声の確認を行う。
 音声信号処理部753は、受信音声と入力音声を確認したら、音声入力部754から入力される入力音声の音量を計測する(S107)。図13に示すように、音声信号処理部753は、コンテンツ表示装置100がスピーカ174より出力する出力音声と携帯情報端末700がスピーカ音声出力部751より出力する出力音声の音量の合計が再生基準音量に常時近い値となるよう、携帯情報端末700のスピーカ音声出力部751より出力する音声の音量を算出する(S108)。そして、携帯情報端末700は、算出した音量の音声を、スピーカ音声出力部751より出力する(S106)。
 図15は、図14に示す携帯情報端末700の動作シーケンスの一例において、入力音声確認/受信音声確認(S104)の詳細な動作シーケンスの一例を示す動作シーケンス図である。まず、音声信号処理部753は、携帯情報端末700の音声入力部754から入力される入力音声を確認し(S10401)、所定時間のバッファリングが可能なバッファへ入力音声データを格納する(S10402)。
 一方、携帯情報端末700の通信処理部720が受信した受信音声を確認し(S10403)、所定時間のバッファリングが可能なバッファへ受信音声データを格納する(S10404)。そして、前記入力音声データが格納されたバッファと前記受信音声が格納されたバッファの両バッファ間において、同一の音声データと判定される箇所を検出する(S10405)。前記検出を行うことで、入力音声データに含まれる音声コンテンツの音声信号成分のみの大きさを算出することが可能となる。
 図14及び図15の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図14及び図15の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。
 音量制御は、コンテンツ表示装置100のスピーカ174より出力される音声と同一の音声信号を携帯情報端末700のスピーカ音声出力部751より出力する場合は、コンテンツ表示装置100からの距離の違いに依る聞こえ方の差異を低減するために、デフォルト設定ではオンとしておくのが望ましい。一方で、前記音声信号をヘッドフォン音声出力部752より出力する場合は、コンテンツ表示装置100からの距離の違いに依る聞こえ方の差異は非常に小さいため、デフォルト設定ではオフとしておくのが望ましい。
 以上説明したように、スピーカ音声出力部751が携帯情報端末700の外部の音声を入力し、音声信号処理部753が、入力された音声に基づいて、音声出力を制御する。具体的には、音声信号処理部753は、スピーカ音声出力部751によって入力された音声に基づいて、受信した音声データの音量を定めて出力する。これにより、コンテンツ表示装置100から離れている利用者にも適切な音量で音声データをスピーカ音声出力部751から出力することができる。
 以上説明したように、本発明では、コンテンツ表示装置100から携帯情報端末700までの距離が離れるほど携帯情報端末のスピーカ音量を上げるように制御することで、コンテンツ表示装置100からの距離の違いに依る音声の聞こえ方の差異が少ない音声連携再生システムを実現可能とする。
 (実施例4)
 以下では、本発明の実施例4に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2と同様であるものとする。このため、以下では、本実施例と実施例2との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生を行う際に、コンテンツ表示装置100のスピーカから出力する音声信号と、携帯情報端末700のスピーカ音声出力部751から出力する前記音声信号と同一の音声信号の再生タイミングがずれる場合がある。これは、コンテンツ表示装置100と携帯情報端末700間の通信遅延によるものである。この際、好適な視聴環境を得るためには、前記同一の音声信号、さらにはコンテンツ表示装置が再生する映像の再生タイミングを同期させる制御を行うのが望ましい。
 本実施例の音声連携再生システムは、上記の再生タイミングを調整するものである。具体的に、携帯情報端末700の音声入力部754が周囲の音声を入力し、音声信号処理部753が、当該音声を取得し、記憶する。また、音声信号処理部753は、通信処理部720を介して取得した音声データを記憶する。
 音声信号処理部753は、音声入力部754から入力した音声と、通信処理部720を介して取得した音声データとを比較して、一致するデータの有無を判断する。音声信号処理部753は、一致するデータがある場合、音声入力時の時刻と、受信データの受信時刻とを比較して、時刻差を算出する。音声信号処理部753は、当該時刻差に基づき、音声出力タイミングを調整する。具体的には、音声入力時の時刻の方が先である場合、音声信号処理部753は、コンテンツ表示装置100の再生タイミングを遅らせる旨制御する。また、音声データの方が早い場合、携帯情報端末700の再生タイミングを遅らせる。
 同期制御は音声入力部754から入力される入力音声に基づいて行うため、携帯情報端末700の動作シーケンスは図16となる。図16は、図15に示す入力音声確認/受信音声確認(S104)の詳細な動作シーケンスに対し、同期制御を考慮した動作シーケンスの一例である。入力音声データと受信音声データの同一箇所を検出(S10405)したのちに、入力音声における前記同一の音声データの可聴タイミングと、受信音声における前記同一の音声データの再生タイミングの時刻差を計算する(S10406)。
 ここで、入力音声の方が早い場合は、コンテンツ表示装置100におけるコンテンツ再生タイミングを遅らせ(S10408)、一方で受信音声の方が早い場合は、携帯情報端末700のスピーカ音声出力部751における音声再生タイミングを遅らせる(S10409)。S10408の処理は、携帯情報端末700からコンテンツ表示装置100への通信が可能な場合のみ実行できるため、本実施例の音声連携再生システムとしては、図5A、または図5Bに示すシステム構成をとる場合に有効となる。
 図17は、本実施例の音声連携再生システムにおける同期制御の一例を示す模式図である。コンテンツとして、コンテンツ表示装置100が受信したBS/地上デジタル放送を視聴することを想定する。コンテンツ表示装置100と携帯情報端末700間の伝送時間等を考慮すると、基本的には、コンテンツ表示装置100のスピーカ174より出力される音声、すなわち携帯情報端末700の音声入力部754から入力される入力音声の方が、携帯情報端末700の通信処理部720が受信する受信音声より、時間的に早いデータとなる。
 そこで、音声信号処理部753は、同期前の入力音声100spの可聴タイミング11000aと、同期前の受信音声700spの再生タイミング11000bとの時刻差を解消するために、S10408の処理を行う。S10408の処理では、まずコンテンツ表示装置100におけるコンテンツ再生タイミングを遅らせる指示をコンテンツ表示装置100の外部通信部103に伝送し、指示を受信したコンテンツ表示装置100は、リップシンク技術等を活用することで、50msec程度の分解能100sdtで、スピーカ174や映像表示部173の再生タイミングを遅らせる。
 しかし、入力音声の可聴タイミングと受信音声の再生タイミングは、空気中の音声の伝搬遅延等を考慮してさらに細かいオーダーで同期をとらないと、ユーザにはエコーがかかったように聞こえてしまう。そこで、音声信号処理部753は、入力音声の可聴タイミングが受信音声の再生タイミングより遅くなるように前記分解能100sdtに基づいてスピーカ174の再生タイミングを遅らせると同時に、さらに細かい20usec程度の分解能700sdtで、携帯情報端末700のスピーカ音声出力部751における再生タイミングを遅らせる。
 分解能100sdtに基づいて遅らせた同期後の入力音声100sqの可聴タイミングと、分解能700sdtに基づいて遅らせた同期後の受信音声700sqの再生タイミングは、同期タイミング11000cで一致し、ユーザはエコーが低減された視聴環境でコンテンツを視聴することが可能となる。
 本実施例の音声連携再生システムにおけるコンテンツとして、コンテンツ表示装置100が受信したストリーミングコンテンツを視聴する場合も、図16に示す動作シーケンスに基づいて同期制御を行うことができる。BS/地上デジタル放送との視聴時と異なり、S10408の処理においてストリーミングを行うためのプログラムを制御することで、コンテンツ表示装置100の再生タイミングを遅らせてもよい。
 本実施例の音声連携再生システムにおけるコンテンツとして、携帯情報端末700が受信したストリーミングコンテンツまたはワンセグメント放送コンテンツを視聴する場合を想定する。この場合、携帯情報端末700からコンテンツ表示装置100への伝送時間等を考慮すると、基本的には、コンテンツ表示装置100のスピーカ174より出力される音声の再生タイミングの方が、携帯情報端末700のスピーカ音声出力部751より出力される音声の再生タイミングより、時間的に遅くなる。したがって、携帯情報端末700の再生タイミングを遅らせるS10409の処理のみで同期制御を行うことが可能となる。
 図16の動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図16の動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。
 1台のコンテンツ表示装置100に対し、2台以上の携帯情報端末700を連携させ、本実施例の音声連携再生システムを構築する場合においても、図16に示す動作シーケンスに基づいて同期制御を行うことで、これらの全装置における音声や映像等の同期制御を行うことが可能となる。
 同期制御は、コンテンツ表示装置100のスピーカ174より出力される音声と同一の音声信号を、携帯情報端末700のスピーカ音声出力部751乃至ヘッドフォン音声出力部752より出力するいずれの場合においても、コンテンツ表示装置100が再生する映像との再生タイミングを同期させるという目的で、デフォルト設定ではオンとしておくのが望ましい。
 以上説明したように、本実施例では、音声信号処理部753は、音声入力部754により入力されたタイミングを特定し、当該タイミングに基づいて、スピーカ音声出力部751へ出力するタイミングを制御する。これにより、コンテンツ表示装置100から出力される音声と、携帯情報端末700から出力する音声との出力タイミングを適切に調整することができ、例えば、通信遅延により受信タイミングにズレが生じても、適切に調整することができる。
 (実施例5)
 以下では、本発明の実施例5に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2乃至4と同様であるものとする。このため、以下では、本実施例と実施例2乃至4との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2乃至4においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生を行う際に、再生するコンテンツの音声の他にも、周辺音を解析し、周辺状況に合わせてコンテンツの音声の音量を制御したい場合がある。例えばコンテンツの視聴ユーザが他人に話しかけられた場合、会話を聞き取りやすくするために、携帯情報端末のスピーカの音量は下げるのが望ましい。一方で、例えばコンテンツの視聴ユーザの周囲の生活音が大きい場合、コンテンツの音声を聞き取りやすくするために、携帯情報端末のスピーカの音量は上げるのが望ましい。
 本実施例の音声連携再生システムは、周辺音の種別を解析し、当該種別に基づいて、出力する音声の音量を制御するものである。具体的に、携帯情報端末700の音声入力部754が周囲の音声を入力し、音声信号処理部753が、当該音声を取得し、記憶する。また、音声信号処理部753は、通信処理部720を介して取得した音声データを記憶する。
 音声信号処理部753は、音声入力部754から入力した音声と、通信処理部720を介して取得した音声データとを比較して、一致する部分を抽出すると共に、音声入力部754から入力した音声から一致しない部分(周辺音部分)を抽出する。音声信号処理部753は、周辺音の種別(例えば、会話、周辺の騒音)を特定して、特定した周辺音の種別に応じて、受信した音声データの音声出力音量を決定し、当該音量に基づいて音声出力する。
 本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図18は、図9に示す携帯情報端末700の動作シーケンスに対し、周辺音の解析に基づく音量制御を考慮した動作シーケンスの一例を示す動作シーケンス図である。S104の処理において、音声入力部754から入力される入力音声の中から受信音声と一致するデータ、すなわちコンテンツの音声を検出した際、前記入力音声においてコンテンツの音声と周辺音の分離を行う(S109)。
 音声信号処理部753は、分離した周辺音に基づき、前記周辺音に含まれる主成分が例えば会話であるのか、あるいは生活音であるのか、といった種別解析を行う(S110)。音声信号処理部753は、一方で、前記周辺音の音量を計測し(S111)、S108の処理では、周辺音の種別解析結果と音量を考慮した上で、携帯情報端末700のスピーカ音声出力部751より出力する音声の音量を算出する。
 音量の制御方法の例としては、前記周辺音の種別解析結果が例えば会話であった場合、スピーカ音声出力部751より出力する音声は一律で所定の小さい音量とし、前記周辺音の種別解析結果が例えば生活音であった場合、スピーカ音声出力部751より出力する音声は、生活音の音量が大きいほど大きくなるように音量の制御を行う。
 ここで、音声分離(S109)や周辺音の解析(S110)等は、携帯情報端末700の内部で行ってもよいし、インターネット上のサーバ装置において行ってもよい。処理S109やS110等が長い処理時間を要するようであれば、処理時間の最大値を予め見積もった上で、S104の処理における同期制御では前記処理時間の最大値を考慮する。そして、図7Bに示すS10406の処理で前記処理時間の最大値、すなわち受信音声を確認(S10403)してから周辺音を解析し実際に出力(S106)されるまでの時間を考慮して入力音声との時刻差を計算してもよい。
 図18の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図18の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。
 このように、音声信号処理部753は、周辺音を抽出し、当該周辺音の種別を解析して、当該解析結果に基づいて、出力音量を制御するので、周辺状況に応じた音量制御をすることができる。
 以上説明したように、本発明では、周辺音を解析し、周辺状況に合わせてコンテンツの音声の音量を制御可能な音声連携再生システムを実現可能である。
 (実施例6)
 以下では、本発明の実施例6に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2乃至4と同様であるものとする。このため、以下では、本実施例と実施例2乃至4との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2乃至4においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生システムによりコンテンツを視聴している最中に、携帯情報端末を用いて通話を行いたい場合がある。この際、通話を行う相手に対して明瞭な音声を届けるためには、マイクより入力する音声に含まれる通話内容成分を増大させるか、視聴中のコンテンツの音声成分をなるべく低減するのが望ましい。
 前者の方式の一例としては、実施例5における音声分離処理(S109)を適用することで、マイクより入力する音声に含まれる通話内容成分と視聴中のコンテンツの音声成分を分離し、このうち通話内容成分のみを増幅させる方式がある。後者の方式の一例としては、スピーカ音声出力部751より出力するために受信している受信音声情報を用いて、マイクより入力する音声に含まれる視聴中のコンテンツの音声成分を打ち消す方式が考えられる。
 本実施例の音声連携システムは、携帯情報端末700が、コンテンツ表示装置100から受信する音声データを出力しつつ、通話処理をしている場合に、通話音声(通話による入力音声)を適切に制御するものである。具体的には、音声信号処理部753は、主制御部701へ通話状態の問合せをして、主制御部701から通話中であるか否かを示す情報を取得して判断する。音声信号処理部753は、受信した音声データの位相反転と、音声入力部754に入力されるコンテンツの音声成分の音量に基づく振幅調整をして、ユーザの発信音声に加算する。
 本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図19は、図9に示す携帯情報端末700の動作シーケンスに対し、本実施例の音声連携再生システムを動作させるためのアプリケーションと通話アプリケーションの連携動作を考慮した動作シーケンスの一例を示す動作シーケンス図である。通話アプリケーションは、着信もしくは発信したら処理ループを開始する(S121)。まず、着信音声の確認(S123)と、受話部より前記着信音声の出力を行う(S124)。一方、音声入力部754からのユーザの発信音声を確認する(S125)。
 ここで、前記発信音声を発信するにあたり、音声連携再生システムとして動作している携帯情報端末700のスピーカ音声出力部751より出力するコンテンツの音声を利用する。具体的には、音声信号処理部753は、S106の処理でスピーカ音声出力部751より出力するコンテンツの音声の位相反転と、発信音声に含まれるコンテンツの音声成分の音量に基づく振幅調整を行う(S120)。そして、音声信号処理部753は、S125の処理で確認したユーザの発信音声に加算(S126)することで、発信音声に含まれるコンテンツの音声成分を低減し、明瞭な発信音声を生成することが可能となる。そして、前記明瞭な発信音声を発信する(S127)。
 通話を継続するか否かは、S123乃至S127の処理ループ内で常時監視されており(S122)、終話要求が操作部730より入力されたり、通話を行う相手が終話を要求したりした場合、本実施例の通話を終了する。
 図19の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図19の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。
 上述の実施例のように、音声信号処理部753は、音声入力部754により入力された音声と、通信処理部720を介して取得した音声データとに基づいて、音声入力部754により入力された音声に含まれる通話音声を強調する。具体的には、音声信号処理部753は、当該強調処理として、通信処理部720により受信された音声データの位相を反転させた結果を、音声入力部754により入力された音声に加算する。これにより、音声信号処理部753は、受信した音声データ(音声コンテンツ)部分を弱める処理をするので、コンテンツを視聴している最中でも、明瞭な音声で通話を行うことができる。
 なお、音声信号処理部753は、上述の例で挙げたように、実施例5における音声分離処理をして、マイクより入力する音声に含まれる通話内容成分と視聴中のコンテンツの音声成分を分離し、このうち通話内容成分(通話音声部分)のみを増幅するようにしてもよい。この場合、音声信号処理部753は、通話内容部分を強調するので、コンテンツを視聴している最中でも、明瞭な音声で通話を行うことができる。
 (実施例7)
 以下では、本発明の実施例7に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2乃至4と同様であるものとする。このため、以下では、本実施例と実施例2乃至4との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2乃至4においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生システムによりコンテンツを視聴している最中に、携帯情報端末において音声のみならず、映像または字幕を表示したい場合がある。特に、字幕に関しては、複数ユーザが視聴するコンテンツ表示装置で表示する場合に、映像に重畳する字幕を邪魔と考えるユーザがいる場合がある。このとき、例えばコンテンツ表示装置には字幕を表示せず、字幕を必要とするユーザが所持する携帯情報端末にのみ字幕を表示するのが望ましい。
 本実施例の音声連携システムでは、携帯情報端末700が、音声データに関連する字幕データを受信して、当該字幕データを表示する。
 本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図20は、携帯情報端末700の表示部741における表示画面の一例である。前記表示部741はタッチパネル機能を備え、操作部730を兼ねる。まず、メニュー741bでは、ユーザが映像や字幕の表示要否等を選択する。ユーザが字幕の表示を選択した場合、字幕741aが表示される。
 前記字幕741aは、タッチパネル機能を活用して上下方向にスライドさせることで、所定の時間の字幕データを遡ることができ、もし一時的にコンテンツの見逃し/聞き逃しをした場合、コンテンツの再生を止めずに見逃し/聞き逃しをした箇所の内容を知ることが可能となる。表示する字幕741aは、スクロールバー741cにおいて現在の字幕の位置を示すつまみ741dを操作することにより移動することも可能である。
 以上説明したように、本発明では、携帯情報端末において音声のみならず、映像または字幕を表示することが可能な音声連携再生システムを実現可能とする。
 (実施例8)
 以下では、本発明の実施例8に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例2乃至4と同様であるものとする。このため、以下では、本実施例と実施例2乃至4との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。
 実施例2乃至4においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。
 音声連携再生を行う際に、再生するコンテンツの一種類以上の音声や一種類以上の字幕において、視聴ユーザが理解可能な言語が含まれていない場合がある。このとき、前記一種類以上の音声や一種類以上の字幕のいずれかを用いて翻訳を行い、ユーザが理解可能な言語の音声または字幕として提供できるのが望ましい。
 本実施例では、携帯情報端末700は、字幕データを受信して、受信した字幕データを外部のサーバ(翻訳部)に翻訳要求し、当該外部サーバが当該翻訳要求に応じて翻訳して、当該翻訳結果を表示したり、音声出力したりする。なお、携帯情報端末700自身が翻訳手段を備えるようにしてもよい。
 本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図21は、各種翻訳パターンにおいて必要となる各種処理の一例を示す図である。翻訳パターンとしては、翻訳前のデータとして「字幕」「音声」の2パターンがあり、翻訳後のデータとしても「字幕」「音声」の2パターンがあるため、翻訳パターンの組み合わせとしては、2×2=4パターンを取り得る。
 具体的には、図21に示すように、字幕から字幕への翻訳パターン23000、字幕から音声への翻訳パターン23001、音声から字幕への翻訳パターン23002、音声から音声への翻訳パターン23003である。また、一般的に翻訳はテキストベースで行うことが多いため、前記4パターンの翻訳を行うための処理として、音声をテキストに変換するための音声テキスト化処理23004、テキストベースの翻訳処理23005、テキストを音声に変換するためのテキスト音声化処理23006が必要となる。前記3種類の処理を図21に示すように適用することで、前記4パターンの翻訳が可能となる。
 音声から字幕への翻訳パターン23002、音声から音声への翻訳パターン23003は、図14に示す携帯情報端末700の動作シーケンスにおいて、S104の処理内で受信音声を確認したのちに実行する。字幕から字幕への翻訳パターン23000、字幕から音声への翻訳パターン23001についても、音声と同等のタイミングで伝送される字幕を用いて行うため、音声を用いて行う翻訳パターンと同等のタイミングで実行する。ここで、音声テキスト化処理23004乃至テキスト音声化処理23006は、携帯情報端末700の内部で行ってもよいし、インターネット上のサーバ装置において行ってもよい。
 翻訳後の字幕または音声は、コンテンツに元より含まれてはいないデータであるため、ユーザへの提供タイミングは図16に示す動作シーケンスのように厳密な同期は取れないが、コンテンツの映像と大まかに同期が取れているのが望ましい。そのため、音声テキスト化処理23004乃至テキスト音声化処理23006が長い処理時間を要するようであれば、処理時間の最大値を予め見積もる。そして、S104の処理における同期制御では前記処理時間の最大値を考慮し、図16に示すS10406の処理で前記処理時間の最大値、すなわち受信音声を確認(S10403)してから翻訳を行い実際に出力(S106)されるまでの時間を考慮して入力音声との時刻差を計算してもよい。
 図21に示す設定はあくまで一例であり、例えばテキストベースの翻訳処理ではなく、音声から音声への翻訳が可能な音声ベースの翻訳処理の適用も許容する。
 以上説明したように、本発明では、一種類以上の音声や一種類以上の字幕のいずれかを用いて翻訳を行い、ユーザが理解可能な言語の音声または字幕を提供可能な音声連携再生システムを実現可能とする。
 以上、本発明の実施形態の例を、実施例1~8を用いて説明したが、言うまでもなく、本発明の技術を実現する構成は前記実施例に限られるものではなく、様々な変形例が考えられる。例えば、ある実施例の構成の一部を他の実施例の構成と置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。これらは全て本発明の範疇に属するものである。また、文中や図中に現れる数値やメッセージ等もあくまでも一例であり、異なるものを用いても本発明の効果を損なうことはない。
 例えば、携帯情報端末700は、近距離無線通信手段(例えば、ビーコン等)を用いて、携帯情報端末700とコンテンツ表示装置100との距離を算出して、算出した結果に基づいて、受信した音声データを出力する音量の制御するようにしてもよい。例えば、携帯情報端末700は、距離に応じた音量を定めた情報を記憶しておき、当該情報を参照して、算出した距離に対応する音量を特定し、当該音量で音声データを出力するようにしてもよい。
 この場合、携帯情報端末700は、距離が長い場合に音量を高めるようにすれば、コンテンツ表示装置100と離れていても、携帯情報端末700から高い音量で音声データを出力するので、視聴環境を向上させることができる。
 また、コンテンツ表示装置100は、受信対象のコンテンツの変更を受け付けた場合、変更後のコンテンツの音声データを携帯情報端末700へ送信するようにしてもよい。また、コンテンツ表示装置100は、受信対象のコンテンツの変更を受け付けた場合、変更前のコンテンツを携帯情報端末700へ送信するようにしてもよい。
 なお、コンテンツ表示装置100が、受信対象のコンテンツの変更を受け付けた場合において、当該変更に応じて携帯情報端末700へ送信する音声データを変えるか否かを予め定めておいてもよいし、携帯情報端末700へ問い合わせるようにしてもよい。
 前述した本発明の機能等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、マイクロプロセッサユニット等がそれぞれの機能等を実現する動作プログラムを解釈して実行することによりソフトウェアで実現してもよい。ハードウェアとソフトウェアを併用してもよい。
 また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
 100…コンテンツ表示装置、100a…アンテナ、100b…外部送信装置、100b1…主制御部、100b2…システムバス、100b3…音声入力部、100b4…外部信号送信部、101…主制御部、102…システムバス、103…外部通信部、131…チューナ/復調部、132…分離部、173…映像表示部、174…スピーカ、200…インターネット、210…ルータ装置、300t…放送局の電波塔、600b…移動体電話通信網の基地局、700…携帯情報端末、701…主制御部、702…システムバス、720…通信処理部、721…LAN通信部、722…移動体電話網通信部、723…NFC通信部、730…操作部、740…画像処理部、741…表示部、742…画像信号処理部、743…第一画像入力部、744…第二画像入力部、750…音声処理部、751…スピーカ音声出力部、752…ヘッドフォン音声出力部、753…音声信号処理部、754…音声入力部。

Claims (15)

  1.  音声コンテンツを出力する、第1の音声出力部及び第2の音声出力部を備えた端末であって、
     第1の音声コンテンツと、第2の音声コンテンツとを取得する音声取得部と、
     前記第1の音声コンテンツ及び前記第2の音声コンテンツの出力先を示す情報を設定する設定部と、
     前記設定部により設定された情報に基づいて、前記第1の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の一方に出力し、前記第2の音声コンテンツを前記第1の音声出力部及び第2の音声出力部の他方に出力する音声出力制御部と、
    を備える端末。
  2.  受信したコンテンツを表示するコンテンツ表示装置と、請求項1に記載の端末とを備える音声連携システムであって、
     前記コンテンツ表示装置は、
     前記受信したコンテンツから映像データ及び音声データを取得する取得部と、
     前記取得部により取得された映像データを表示する表示部と、
     前記取得部により取得された音声データを出力する第3の音声出力部と、
     前記音声データを前記端末へ送信する送信部と、を備え、
     前記端末は、
     前記コンテンツ表示装置から前記音声データを前記第1の音声コンテンツとして受信する受信部、を備える、
    音声連携システム。
  3.  請求項2に記載の音声連携システムであって、
     前記端末は、
     前記第3の音声出力部によって出力された音声を含む端末外部の音声を入力する入力部をさらに備え、
     前記音声出力制御部は、前記入力部により入力された音声に基づいて出力制御する、音声連携システム。
  4.  請求項3に記載の音声連携システムであって、
     前記音声出力制御部は、前記入力部により入力された音声の音量を特定し、当該音量に基づいて、前記第1の音声出力部または第2の音声出力部へ出力する音量を制御する、音声連携システム。
  5.  請求項3または4のいずれか一項に記載の音声連携システムあって、
     前記音声出力制御部は、前記入力部により入力された音声の入力タイミングを特定し、当該入力タイミングに基づいて、前記第1の音声出力部または第2の音声出力部へ出力するタイミングを制御する、音声連携システム。
  6.  請求項3から5のいずれか一項に記載の音声連携システムであって、
     前記入力部により入力された音声から周辺音を抽出し、当該周辺音の種別を解析する解析部をさらに備え、
     前記音声出力制御部は、前記解析部による解析結果に基づいて、前記第1の音声出力部または第2の音声出力部へ出力する音量を制御する、音声連携システム。
  7.  請求項3から5のいずれか一項に記載の音声連携システムであって、
     前記端末は、電話網を用いて通話可能であり、
     前記音声出力制御部は、前記入力部により入力された音声と、前記受信部により受信された音声データとに基づいて、前記入力部により入力された音声に含まれる通話音声を強調する強調処理をする、音声連携システム。
  8.  請求項7に記載の音声連携システムであって、
     前記音声出力制御部は、前記強調処理として、前記受信部により受信された音声データの位相を反転させた結果を、前記入力部により入力された音声に加算する、音声連携システム。
  9.  請求項7または8に記載の音声連携システムであって、
     前記音声出力制御部は、前記強調処理として、前記入力部により入力された音声を分離した結果の内、通話音声部分を増幅させる、音声連携システム。
  10.  請求項3から8のいずれか一項に記載の音声連携システムであって、
     前記コンテンツ表示装置は、
     受信対象のコンテンツの変更を受け付ける変更受付部をさらに備え、
     前記送信部は、前記変更受付部により受け付けられた変更に応じたコンテンツの音声データを送信する、音声連携システム。
  11.  請求項2に記載の音声連携システムであって、
     前記端末は、
     前記端末と前記コンテンツ表示装置との距離を算出する算出部をさらに備え、
     前記音声出力制御部は、前記算出部により算出された距離に基づき、前記第1の音声出力部または第2の音声出力部へ出力する音量を制御する、音声連携システム。
  12.  請求項3から11のいずれか一項に記載の音声連携システムであって、
     前記端末は、
     情報を表示出力する表示部と、
     前記表示部へ前記情報を表示させるように制御する表示制御部と、
    をさらに備え、
     前記受信部は、前記音声データに関連する字幕データをさらに取得し、
     前記表示制御部は、前記字幕データに関する情報を前記表示部へ表示する、音声連携システム。
  13.  請求項12に記載の音声連携システムであって、
     前記字幕データを翻訳する翻訳部をさらに備え、
     前記表示制御部は、前記翻訳されたデータを、前記字幕データに関する情報として、前記表示部へ表示する、音声連携システム。
  14.  請求項3から11のいずれか一項に記載の音声連携システムであって、
     情報を翻訳する翻訳部をさらに備え、
     前記受信部は、前記音声データに関連する字幕データをさらに取得し、
     前記音声出力制御部は、前記字幕データを前記翻訳部に翻訳させたデータを音声出力する、音声連携システム。
  15.  音声コンテンツを出力可能な端末と通信手段により通信可能であり、受信したコンテンツを表示するコンテンツ表示装置であって、
     前記受信したコンテンツから映像データ及び音声データを取得する取得部と、
     前記取得部により取得された映像データを表示する表示部と、
     前記取得部により取得された音声データを出力する音声出力部と、
     前記音声データを前記端末へ送信する送信部と、
    を備えるコンテンツ表示装置。
PCT/JP2017/028700 2017-08-08 2017-08-08 端末、音声連携再生システム及びコンテンツ表示装置 WO2019030811A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN202111097955.XA CN113824999A (zh) 2017-08-08 2017-08-08 终端、声音协作***和内容显示装置
JP2019535464A JP7004727B2 (ja) 2017-08-08 2017-08-08 音声連携システム
US16/637,121 US11140484B2 (en) 2017-08-08 2017-08-08 Terminal, audio cooperative reproduction system, and content display apparatus
CN201780093830.5A CN110999318B (zh) 2017-08-08 2017-08-08 终端、声音协作再现***和内容显示装置
PCT/JP2017/028700 WO2019030811A1 (ja) 2017-08-08 2017-08-08 端末、音声連携再生システム及びコンテンツ表示装置
US17/490,809 US12052556B2 (en) 2021-09-30 Terminal, audio cooperative reproduction system, and content display apparatus
JP2022000181A JP7467513B2 (ja) 2017-08-08 2022-01-04 端末、音声連携再生システム及びコンテンツ表示装置
JP2024060287A JP2024096765A (ja) 2017-08-08 2024-04-03 音声出力端末及び音声出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/028700 WO2019030811A1 (ja) 2017-08-08 2017-08-08 端末、音声連携再生システム及びコンテンツ表示装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/637,121 A-371-Of-International US11140484B2 (en) 2017-08-08 2017-08-08 Terminal, audio cooperative reproduction system, and content display apparatus
US17/490,809 Continuation US12052556B2 (en) 2021-09-30 Terminal, audio cooperative reproduction system, and content display apparatus

Publications (1)

Publication Number Publication Date
WO2019030811A1 true WO2019030811A1 (ja) 2019-02-14

Family

ID=65271173

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/028700 WO2019030811A1 (ja) 2017-08-08 2017-08-08 端末、音声連携再生システム及びコンテンツ表示装置

Country Status (4)

Country Link
US (1) US11140484B2 (ja)
JP (3) JP7004727B2 (ja)
CN (2) CN113824999A (ja)
WO (1) WO2019030811A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110636395A (zh) * 2019-09-03 2019-12-31 杭州友邦演艺设备有限公司 一种舞台音响智能调节方法
US11468736B2 (en) * 2020-04-22 2022-10-11 Igt Gaming audio content output control features

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824999A (zh) * 2017-08-08 2021-12-21 麦克赛尔株式会社 终端、声音协作***和内容显示装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005151443A (ja) * 2003-11-19 2005-06-09 Sharp Corp ビデオ電話機能付情報機器、それを備えた通信システム、ビデオ電話機能付情報機器による通信方法、プログラム、および、そのプログラムを記録した記録媒体
JP2006197551A (ja) * 2004-12-14 2006-07-27 Fujitsu Ten Ltd 表示装置及び出力制御装置
JP2008005190A (ja) * 2006-06-22 2008-01-10 Sharp Corp テレビ受像機

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004146894A (ja) 2002-10-22 2004-05-20 Sharp Corp 携帯端末装置及び音声制御プログラムを記録した記録媒体
CN100489954C (zh) * 2004-10-20 2009-05-20 富士通天株式会社 显示装置
EP1804233A4 (en) 2004-10-20 2009-05-27 Fujitsu Ten Ltd DISPLAY DEVICE
JP2008085515A (ja) 2006-09-27 2008-04-10 Hitachi Ltd コンテンツ受信端末システム及びコンテンツ受信端末装置
JP5593852B2 (ja) 2010-06-01 2014-09-24 ソニー株式会社 音声信号処理装置、音声信号処理方法
RU2015111194A (ru) 2012-08-28 2016-10-20 Конинклейке Филипс Н.В. Устройство пересылки звука и соответствующий способ
US9131298B2 (en) * 2012-11-28 2015-09-08 Qualcomm Incorporated Constrained dynamic amplitude panning in collaborative sound systems
JP5738360B2 (ja) 2013-07-12 2015-06-24 日立マクセル株式会社 コンテンツ受信システム、携帯端末、およびコンテンツ受信装置
JP6143869B2 (ja) * 2013-07-31 2017-06-07 日立マクセル株式会社 携帯端末および映像表示装置
CN106131322A (zh) * 2016-06-30 2016-11-16 努比亚技术有限公司 双屏移动终端播放声音的方法及装置
CN113824999A (zh) 2017-08-08 2021-12-21 麦克赛尔株式会社 终端、声音协作***和内容显示装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005151443A (ja) * 2003-11-19 2005-06-09 Sharp Corp ビデオ電話機能付情報機器、それを備えた通信システム、ビデオ電話機能付情報機器による通信方法、プログラム、および、そのプログラムを記録した記録媒体
JP2006197551A (ja) * 2004-12-14 2006-07-27 Fujitsu Ten Ltd 表示装置及び出力制御装置
JP2008005190A (ja) * 2006-06-22 2008-01-10 Sharp Corp テレビ受像機

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110636395A (zh) * 2019-09-03 2019-12-31 杭州友邦演艺设备有限公司 一种舞台音响智能调节方法
US11468736B2 (en) * 2020-04-22 2022-10-11 Igt Gaming audio content output control features

Also Published As

Publication number Publication date
JPWO2019030811A1 (ja) 2020-07-27
CN113824999A (zh) 2021-12-21
JP7467513B2 (ja) 2024-04-15
US20200252726A1 (en) 2020-08-06
US20220021980A1 (en) 2022-01-20
CN110999318B (zh) 2021-10-12
US11140484B2 (en) 2021-10-05
JP2022050516A (ja) 2022-03-30
CN110999318A (zh) 2020-04-10
JP2024096765A (ja) 2024-07-17
JP7004727B2 (ja) 2022-01-21

Similar Documents

Publication Publication Date Title
US10129729B2 (en) Smartphone Bluetooth headset receiver
US8649538B2 (en) Hearing aid having multiple sound inputs and methods therefor
JP7467513B2 (ja) 端末、音声連携再生システム及びコンテンツ表示装置
JP5877351B2 (ja) 通信装置および通信方法
US20180288365A1 (en) Apparatus, systems and methods for synchronization of multiple headsets
Kim et al. A review of assistive listening device and digital wireless technology for hearing instruments
JP2007274227A (ja) 通信システム、情報処理装置、情報処理方法、およびプログラム
KR20090053141A (ko) 멀티미디어기기 및 그의 동기설정방법
US20120202424A1 (en) Apparatus and method for playing music
US9438963B2 (en) Wireless audio transmission method and device
CN115344230A (zh) 用于在呼叫期间切换无线音频连接的方法和***
JP2010011274A (ja) 映像音声出力装置及び映像音声出力方法
JP2013153428A (ja) 音響信号の映像表示への同期性を向上させるシステム、補聴器、および方法
JP2006074572A (ja) 情報端末
CN111491191A (zh) 机顶盒和蓝牙耳机自动配对的方法及多媒体播放***
US12052556B2 (en) Terminal, audio cooperative reproduction system, and content display apparatus
US20190182557A1 (en) Method of presenting media
US10142698B2 (en) Method and system for audio data transmission
JP3237275U (ja) 音声集音器、音声集音機能付き音声送信器、および、音声認識システム
US11573761B2 (en) Audio-based near field communication
JP2015179953A (ja) 動画処理装置、音声出力装置、動画処理方法、及びプログラム
KR20170028625A (ko) 디스플레이 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17921062

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019535464

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17921062

Country of ref document: EP

Kind code of ref document: A1