WO2014091965A1 - 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2014091965A1
WO2014091965A1 PCT/JP2013/082444 JP2013082444W WO2014091965A1 WO 2014091965 A1 WO2014091965 A1 WO 2014091965A1 JP 2013082444 W JP2013082444 W JP 2013082444W WO 2014091965 A1 WO2014091965 A1 WO 2014091965A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sound
content
information processing
processing apparatus
Prior art date
Application number
PCT/JP2013/082444
Other languages
English (en)
French (fr)
Inventor
浩二 浦脇
Original Assignee
Necカシオモバイルコミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necカシオモバイルコミュニケーションズ株式会社 filed Critical Necカシオモバイルコミュニケーションズ株式会社
Publication of WO2014091965A1 publication Critical patent/WO2014091965A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a computer-readable recording medium on which a program is recorded.
  • Patent Documents 1 and 2 describe apparatuses that reproduce audio or the like associated with the content while reproducing the audio or the like of the content.
  • An information terminal described in Patent Literature 1 receives content data stored in a server and audio data related to a utterance for the content. Play.
  • the device described in Patent Document 2 converts supplementary content included in broadcast radio transmission, for example, character data of a program name, an artist name, and a song title into audio data, and converts the audio related to the converted audio data to the primary content. Play with audio.
  • the present invention has been made in view of the above circumstances, and provides an information processing apparatus, an information processing method, and a program that can reduce a communication burden and that can receive posted message data for content and convert it into audio data.
  • An object is to provide a recorded computer-readable recording medium.
  • an information processing apparatus provides: Content receiving means for receiving content data including audio data of content; Post message collection means for collecting post message data consisting of character data related to the content; Voice conversion means for converting post message data collected by the post message collection means into voice data; Multiple sound simultaneous reproduction means for simultaneously reproducing the sound related to the sound data converted by the sound conversion means and the sound related to the sound data of the content data received by the content receiving means; Is provided.
  • An information processing method includes: A content receiving step of receiving content data including audio data of the content; A post message collecting step for collecting post message data consisting of character data related to the content; A voice conversion step of converting the posted message data collected in the posted message collection step into voice data; A multiple sound simultaneous reproduction step of simultaneously reproducing the sound related to the sound data converted in the sound conversion step and the sound related to the sound data of the content data received in the content receiving step; including.
  • a computer-readable recording medium is Computer Content receiving means for receiving content data including audio data of content; Post message collection means for collecting post message data consisting of character data related to the content, Voice conversion means for converting post message data collected by the post message collection means into voice data; Multiple sound simultaneous reproduction means for simultaneously reproducing the sound related to the sound data converted by the sound conversion means and the sound related to the sound data of the content data received by the content receiving means; Record the program that will function as
  • FIG. 1 It is a figure which shows the structure of the multiple content simultaneous viewing-and-listening system which concerns on Embodiment 1 of this invention. It is a figure which shows the structure of the information processing apparatus which concerns on FIG. 3 is a flowchart for explaining a multiple content simultaneous viewing process performed by the information processing apparatus according to FIG. 1. It is a figure which shows the structure of the information processing apparatus which concerns on Embodiment 2 of this invention. 5 is a flowchart for explaining a multiple content simultaneous viewing process performed by the information processing apparatus of FIG. 4. It is a figure which shows the structure of the multiple content simultaneous viewing-and-listening system which concerns on Embodiment 3 of this invention. It is a figure which shows the structure of the information processing apparatus which concerns on FIG.
  • Embodiment 1 of the present invention will be described with reference to FIGS.
  • the multiple content simultaneous viewing system 1 includes a content server 10, a posted message server 20, an information processing device 100, and an audio device 30, as shown in FIG.
  • the content server 10 stores video data, audio data, and the like of content such as moving images, audio, and web services, that is, content data.
  • the content server 10 is connected to the Internet 40 and distributes content data to the information processing apparatus 100 and the like via the Internet 40.
  • the posted message server 20 accumulates data posted by various people, for example, data of messages posted by E-Mail (Electronic Mail) or SNS (Social Network Service) (hereinafter referred to as posted message data). Yes.
  • the posted message server 20 is connected to the Internet 40 and distributes posted message data to the information processing apparatus 100 and the like via the Internet 40.
  • the information processing apparatus 100 is composed of an arbitrary information terminal such as a mobile phone, a smartphone, a tablet PC (Personal Computer), a notebook PC, etc. that can receive content data and reproduce video and audio related to the content data. Is done.
  • the information processing apparatus 100 includes a tablet PC as illustrated in FIG.
  • the information processing apparatus 100 includes a content receiving unit 101, a posted message collection unit 103, an audio conversion unit 104, and a multiple sound simultaneous reproduction unit 105 in terms of functions.
  • These functional units include a CPU (Central Processor Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), a communication unit, a storage unit, an output unit, and the like included in the information processing apparatus 100.
  • the content receiving unit 101 receives content data distributed from the content server 10 or the like.
  • the posted message collection unit 103 collects posted message data distributed from the posted message server 20.
  • the voice conversion unit 104 converts the posted message data collected by the posted message collection unit 103 into voice data.
  • the multiple sound simultaneous reproduction unit 105 simultaneously reproduces the audio related to the audio data converted by the audio conversion unit 104 and the audio related to the content audio data (hereinafter referred to as content audio).
  • the acoustic device 30 is composed of headphones and the like.
  • the acoustic device 30 is connected to the information processing apparatus 100.
  • the acoustic device 30 outputs the sound reproduced by the multiple sound simultaneous reproduction unit 105 to the outside as an actual sound.
  • the information processing apparatus 100 When the user operates the information processing apparatus 100 to activate an application for viewing content, the information processing apparatus 100 starts a multiple content simultaneous viewing process.
  • the content receiving unit 101 connects to the Internet 40, receives content data from the content server 10, and stores it (step S111).
  • the posted message collection unit 103 is connected to the Internet 40 and collects and stores posted message data composed of character data related to the content data received in step S111 from the posted message server 20 (step S112).
  • the voice conversion unit 104 converts the posted message data saved by the posted message collection unit 103 into voice data, and saves the voice data (step S113).
  • the multi-sound simultaneous reproduction unit 105 reads out the audio data of the content stored by the content receiving unit 101 and the audio data stored by the audio conversion unit 104, and outputs these audio data to the acoustic device 30 at the same time. These audio data are reproduced as audio via the acoustic device 30. That is, the multiple sound simultaneous playback unit 105 plays back the sound of the content and the sound related to the posted message data at the same time (step S114).
  • the multi-content simultaneous viewing process ends.
  • the information processing apparatus 100 By executing the multiple content simultaneous viewing process described so far, the information processing apparatus 100 performs a posted message (second content) in parallel with the reproduction of the content (first content) received from the content server 10. Is output as audio.
  • the information processing apparatus 100 allows the user to listen to the content of the posted message by voice while viewing the main content.
  • the information processing apparatus 100 receives post message data including character data. Since the amount of character data is much smaller than that of voice data, the communication burden can be reduced compared to the case of receiving voice data. Further, since the information processing apparatus 100 includes the posted message collection unit 103 and the voice conversion unit 104, it can collect posted message data for content and convert the posted message data into voice data.
  • the information processing apparatus 100 reproduces the audio of the content and the audio related to the posted message data at the same time, a sense of unity is created between the content and the posted message, and a sense of reality can be obtained. Furthermore, the user does not need to directly view other people's posted messages while viewing the content. Therefore, the information processing apparatus 100 can reduce the burden on the user.
  • the user can grasp the general content by the voice related to the posted message data. For example, even if the user is listening to the audio related to the posted message data even if he / she is doing other work (cleaning up his / her surroundings, etc.) while viewing the content, if the scene approaches an important scene, Can be grasped. Therefore, the information processing apparatus 100 can prevent the user from missing an important scene of the content.
  • the posted message collecting unit 103 collects posted message data related to the content data.
  • the embodiment of the present invention is not limited to this, and content data reception and post message reception may be performed in parallel.
  • the content data and the posted message data are received and both are reproduced after the audio conversion is completed.
  • the present invention is not limited to this, and the so-called streaming format (data reception and reproduction is performed in parallel). Format).
  • the multiple content simultaneous viewing system 2 according to Embodiment 2 has the same components as the multiple content simultaneous viewing system 1 according to Embodiment 1, the same components as the multiple content simultaneous viewing system 1 are the same. The description is omitted by attaching the reference numerals. The same applies to the third and fourth embodiments.
  • Embodiment 2 describes an information processing apparatus 200 that is a more specific example of the information processing apparatus 100 according to Embodiment 1 described above.
  • the information processing apparatus 200 includes an input unit 201, a control unit 202, a communication unit 203, a storage unit 204, a display control unit 205, a screen display unit 206, a voice conversion unit 207, a voice output unit 208, and a bus 209. It has.
  • the input unit 201 includes a touch panel, a keyboard, and the like.
  • the control unit 202 is composed of a CPU (Central Processing Unit) and the like.
  • the control unit 202 controls the entire system.
  • the communication unit 203 connects to the Internet 40 and receives content data, posted message data, and the like.
  • the storage unit 204 includes a memory, a hard disk, and the like, and stores received data, data that has undergone arithmetic processing, a program for operating the control unit 202, and the like.
  • the display control unit 205 controls the screen display unit 206.
  • the screen display unit 206 includes a display or the like.
  • the screen display unit 206 displays a video or the like related to the content data.
  • the voice conversion unit 207 converts the posted message data into voice data.
  • the audio output unit 208 outputs audio of content and audio related to post message data.
  • the bus 209 connects each unit such as the input unit 201, the control unit 202, the communication unit 203, the storage unit 204, the display control unit 205, and the audio conversion unit 207.
  • the content receiving means is constituted by the communication unit 203, for example.
  • the posted message collection means is configured by the communication unit 203, for example.
  • the voice conversion means is constituted by, for example, a voice conversion unit 207.
  • the multiple sound simultaneous reproduction means is constituted by, for example, an audio output unit 208.
  • the information processing apparatus 200 starts a simultaneous viewing process for multiple contents.
  • the communication unit 203 connects to the Internet 40 and receives content data from the content server 10.
  • the communication unit 203 stores the received content data in the storage unit 204 (step S211).
  • the communication unit 203 is connected to the Internet 40 and receives post message data including character data related to the content data received in step S211 from the post message server 20.
  • the communication unit 203 stores the received post message data in the storage unit 204 (step S212).
  • the display control unit 205 outputs video data of the content data stored in the storage unit 204 to the screen display unit 206 and controls the screen display unit 206. That is, the display control unit 205 reproduces the content video via the screen display unit 206 (step S213).
  • the screen display unit 206 displays content video.
  • the voice conversion unit 207 converts the posted message data stored in the storage unit 204 into voice data.
  • the voice conversion unit 207 stores the voice data in the storage unit 204 (step S214).
  • the audio output unit 208 reads out the audio data of the content stored in the storage unit 204 and the audio data related to the posted message, and outputs these audio data to the acoustic device 30 at the same time. These audio data are reproduced as audio via the acoustic device 30. That is, the audio output unit 208 reproduces the audio of the content and the audio related to the posted message data at the same time (step S215).
  • the information processing apparatus 200 ends the simultaneous viewing process of the plurality of contents when the video / audio of the content and the sound related to the posted message data are reproduced to the end.
  • the information processing apparatus 200 receives post message data composed of character data, the communication burden can be reduced as compared with receiving voice data.
  • the information processing apparatus 200 includes the communication unit 203 and the voice conversion unit 207, it is possible to collect post message data for content and convert the post message data into voice data.
  • post message data related to the content data is collected after the content data is received. However, these may be performed in parallel. Data reception and reproduction may also be executed in parallel.
  • the posted message data is received from the posted message server 20 via the Internet 40.
  • the posted message data may be received via another network instead of the Internet 40.
  • the post message data may be received by directly communicating with another information processing apparatus.
  • post message data may be received via wireless communication such as Bluetooth (registered trademark).
  • the acoustic device 30 is configured by headphones, but the acoustic device 30 may be configured by earphones or speakers.
  • the external audio device 30 is used, the audio device 30 may be used without using the audio device 30 and a speaker built in the information processing apparatuses 100 and 200 may be used.
  • the multiple content simultaneous viewing system 3 includes a content server 10, a posted message server 20, an information processing device 300, and an audio device 31, as shown in FIG.
  • the information processing apparatus 300 includes an input unit 201, a control unit 202, a communication unit 203, a storage unit 204, a display control unit 205, a screen display unit 206, a voice conversion unit 307, a voice output unit 308, and a posted message.
  • a selection unit 310, a posted message classification unit 311, a reproduction timing adjustment unit 312, and a bus 209 are provided.
  • the voice conversion unit 307 includes a voice quality setting unit 307a.
  • the voice quality setting unit 307a sets a different voice quality for each poster who has posted a message related to the posted message data. Specifically, the voice quality setting unit 307a holds data related to a plurality of voice qualities (voice quality data), and assigns voice qualities to a plurality of contributors so as not to overlap.
  • the voice quality setting unit 307a classifies and holds the voice quality, for example, as a high voice of a young male, a low voice of a young male, a low voice of an elderly male, and the like, and assigns a voice quality to each poster.
  • the audio output unit 308 includes a surround audio reproduction unit 308a. The surround sound reproduction unit 308a reproduces sound by setting a sound image position related to sound data.
  • the posted message selection unit 310 selects posted message data to be reproduced based on a predetermined condition.
  • Post message classification unit 311 classifies post message data based on a predetermined condition.
  • the reproduction timing adjustment unit 312 adjusts the timing for reproducing the voice related to the posted message data.
  • the acoustic device 31 includes speakers 31a, 31b, 31c, 31d, and 31e capable of reproducing surround sound.
  • the speakers 31a to 31e are connected to the information processing apparatus 300 via wireless communication such as Bluetooth (registered trademark), for example.
  • the speaker 31a is located in front of the user.
  • the speaker 31b is located on the front right side of the user.
  • the speaker 31c is located on the front left side of the user.
  • the speaker 31d is located on the rear right side of the user.
  • the speaker 31e is located on the rear left side of the user.
  • the posted message selection unit 310 selects posted message data that satisfies all the following three conditions as posted message data to be reproduced from the posted message data collected by the communication unit 203.
  • the first condition is that the message related to the posted message data is highly related to the content.
  • a message highly related to the content for example, there is a message that includes words appearing in the audio of the content.
  • the second condition is that the message related to the posted message data is not understandable to the user.
  • Examples of the message that cannot be understood by the user include a message composed only of symbols and a message indicating an Internet link destination.
  • the third condition is that the message related to the posted message data is not the same as the message posted before the time when the message was posted.
  • the posted message selection unit 310 selects posted message data to be reproduced based on a predetermined condition.
  • the information processing apparatus 300 can reduce the number of voices to be reproduced, thereby reducing the burden on the user.
  • the voice quality setting unit 307a of the voice conversion unit 307 analyzes the voice quality of the content from the voice data of the content stored in the storage unit 204, and compares the voice quality of the content with the stored voice quality data. Identify.
  • the voice quality of the content is voice quality 1 as shown in FIG.
  • the voice quality setting unit 307a sets a voice quality different from the voice quality of the content specified by the above-described analysis to the contributor of the posted message to be reproduced from the held voice quality data.
  • the voice quality setting unit 307a sets the voice quality 2 for the contributor A and sets the voice quality 3 for the contributor B.
  • the voice qualities 2 and 3 are composed of, for example, mechanical sounds, and have a voice quality different from the voice quality 1.
  • the voice quality setting unit 307a sets the voice quality to be different for each contributor. For example, when the voice quality setting unit 307a sets the voice quality 2 for the contributor A, the contributor B has a property (voice quality) that is different from the voice quality (voice quality 1) of the content and the voice quality (voice quality 2) set for the poster A. 3) is set.
  • the voice conversion unit 307 converts the posted message data into voice data in a state where the voice qualities 2 and 3 for the posters A and B are set as described above.
  • the information processing apparatus 300 sets a voice quality (voice quality 2, 3) different from the voice quality 1 of the content for the contributor (posters A and B) of the posted message to be reproduced. Therefore, when the information processing apparatus 300 reproduces the content, the user can clearly distinguish and recognize the audio of the content and the audio related to the posted message data of the posters A and B. In addition, since the information processing apparatus 300 sets different voice qualities for each contributor of the posted message, it is possible to reproduce the voice by clearly distinguishing which poster posted the posted message.
  • the voice quality setting unit 307a may refer to information indicating attributes such as the profile of a message poster and set a voice quality that matches the information. In that case, for example, if the information indicating the poster's profile indicates that the poster is male, the voice quality setting unit 307a assigns the male voice quality to the poster. Conversely, if the poster is a female, the voice quality setting unit 307a assigns the female voice quality to the poster. Further, if the information indicating the poster's profile indicates that the poster is a child, the voice quality of the child may be assigned to the poster, and the voice quality corresponding to that may be assigned if the age is high.
  • the audio conversion unit 307 extracts only audio data from the content data stored in the storage unit 204.
  • the audio conversion unit 307 checks the number of channels Nc of the audio data (hereinafter referred to as the content audio channel number Nc) and stores the content audio channel number Nc in the storage unit 204.
  • the content audio channel number Nc of 3 will be described as an example.
  • the surround sound reproduction unit 308a checks the number of channels that can be output by the speakers 31a to 31e (hereinafter referred to as the number of output sound channels) and stores the number of output sound channels in the storage unit 204.
  • the acoustic device 31 includes five speakers (speakers 31a to 31e), and the number of output audio channels No is five.
  • the surround sound reproduction unit 308a sets Nc speakers for reproduction of content sound, and sets Nt speakers for reproduction of sound related to poster message data.
  • the number of output audio channels No is 5
  • the number of content audio channels Nc is 3, and Nt is 2.
  • the surround sound reproduction unit 308a sets the three speakers 31a, 31b, and 31c for reproduction of the content sound, and sets the two speakers 31d and 31e for the sound related to the poster message. Set for playback. Since Nc is 3, the surround sound reproduction unit 308a allocates three speakers (speakers 31a, 31b, and 31c) for reproduction of content sound. Similarly, since Nt is 2, the surround sound reproducing unit 308a allocates two speakers (speakers 31d and 31e) for reproducing the posted message.
  • the surround sound reproducing unit 308a specifies sound image positions S1, S2, and S3 from the sound data of the content as shown in FIG.
  • the surround sound reproduction unit 308a sets the sound image positions ST1 and ST2 related to the sound data converted by the sound conversion unit 307 at positions that do not overlap with the sound image positions S1, S2, and S3. Furthermore, the surround sound reproduction unit 308a sets different sound image positions ST1 and ST2 for each of the posters A and B. Then, the surround sound reproduction unit 308a reproduces the sound of the content and the sound related to the posted message data at the same time with the sound image positions ST1 and ST2 set as described above.
  • the main audio of the content is reproduced from the sound image position S1 in the surround space, and the background music (BGM) is reproduced from the sound image positions S2 and S3. Also, the sound related to the posted message data of the poster A is reproduced from the sound image position ST1, and the sound related to the posted message data of the poster B is reproduced from the sound image position ST2.
  • the information processing apparatus 300 sets the sound image position related to the posted message data at a position that does not overlap with the sound image positions S1, S2, and S3 related to the sound data of the content, and reproduces the sound. Therefore, the user can clearly distinguish between the audio of the content and the audio related to the posted message data. Furthermore, the information processing apparatus 300 sets different sound image positions ST1 and ST2 for each of the posters A and B, and reproduces sound. Therefore, the user can clearly distinguish the voices of the posters A and B.
  • the case where the content having the number Nc of the content audio channels of 3 is reproduced in the audio device having five speakers is not limited to this.
  • the number of speakers allocated for content and posted messages is arbitrary within a range in which sound image positions can be set.
  • the example in which the playback of the content sound and the posted message is played back by using a different speaker has been described. However, if the sound image position can be set independently, both of them can be played back by the same speaker. Also good.
  • the reproduction timing adjustment unit 312 analyzes the distribution of the audio volume from the audio data of the content stored in the storage unit 204, and specifies a time zone with a high audio volume and a time zone with a low audio volume (see FIG. 9). For example, the reproduction timing adjustment unit 312 calculates the average value of the audio volume throughout the entire volume in the audio data of the content, and then the audio volume is set to a predetermined ratio (for example, 300% of the average value) from the average value. The time zone that exceeds is identified as the “time zone with a large amount of audio”.
  • the reproduction timing adjustment unit 312 causes the audio output unit 308 to reduce the number of audio reproductions related to the posted message data in a time zone with a large amount of audio, and to reduce the audio related to the posted message data for the reduced amount of time To play them together. Specifically, the playback timing adjustment unit 312 sets a threshold value for the number of voices to be played back, for example, in a time zone with a large amount of voices, and after playing back the voice related to the posted message data by the threshold number, Next, the reproduction of the sound related to the posted message is stopped until the time period when the sound volume is low is entered. In this way, the audio output unit 308 reproduces the audio with the reproduction timing adjustment unit 312 adjusting the timing for reproducing the audio related to the posted message data.
  • the information processing apparatus 300 adjusts the timing of reproducing the voice related to the posted message data, so that it is possible to prevent the user from getting difficult to hear the voice of the content, and the user understands each posted message. This makes it possible to reduce the burden for this.
  • the screen display unit 206 displays the audio reproduction status related to the posted message data as shown in FIG.
  • the screen display unit 206 displays the user's avatar (the avatar refers to a character representing an alternate) and the avatars of the posters A and B.
  • the screen display unit 206 displays the user's avatar so that the relative position between the user's avatar and the avatars of the posters A and B corresponds to the relative position between the user and the sound image positions ST1 and ST2 in the surround space. indicate.
  • the screen display unit 206 highlights the avatar of the poster by blinking or the like so that the user can know who the poster is.
  • the screen display unit 206 displays a post message input screen for the poster A (not shown). Then, when a message is input on the posted message input screen and the posting button displayed on the screen display unit 206 is pressed, the communication unit 203 transmits the posted message data created by the user via the Internet 40. Send to server 20.
  • the information processing apparatus 300 can realize the surround environment desired by the user by resetting each sound image position when, for example, it is desired to focus on a specific posted message.
  • the posted message classification unit 311 analyzes a message related to the posted message data stored in the storage unit 204.
  • the posted message classifying unit 311 divides posted message data into a group of posted message data related to positive messages (hereinafter referred to as positive message data) and posted message data related to negative messages (hereinafter referred to as negative messages). Data)) group.
  • the positive message includes, for example, the letters “good”, and the negative message includes, for example, the letters “bad”.
  • the surround sound reproduction unit 308a divides the sound image position setting area related to the posted message data into an area R1 and an area R2 as shown in FIG.
  • the surround sound reproducing unit 308a sets the sound image position related to the positive message data in the region R1.
  • the surround sound reproducing unit 308a sets a sound image position related to negative message data in the region R2.
  • the surround sound reproducing unit 308a sets a different sound image position for each poster in each of the regions R1 and R2. Then, the surround sound reproducing unit 308a simultaneously reproduces the sound of the content and the sound related to the posted message data with the sound image position set as described above.
  • the audio related to the positive message data is reproduced from the area R1 and the audio related to the negative message data is reproduced from the area R2.
  • the information processing apparatus 300 analyzes the message related to the posted message data and classifies the posted message data into groups based on the message.
  • the information processing apparatus 300 divides the sound image position setting area for each group of posted message data, and sets each sound image position. Therefore, the information processing apparatus 300 can clearly distinguish the voice for each group of posted message data for the user.
  • the post message selection unit 310 selects post message data that satisfies all three conditions as post message data to be played back, but the criteria for making post message data to be played back is arbitrary. It is.
  • the posted message selection unit 310 may select posted message data that satisfies any one or two of the above three conditions. Further, the conditions and number for selecting post message data to be reproduced may be appropriately changed.
  • the number of content audio channels Nc is 3 and the number of output audio channels No is 5.
  • the number of content audio channels Nc and the number of output audio channels No can be arbitrary. Yes, you may change as appropriate. For example, when the number of output audio channels No and the number of content audio channels Nc are the same number, the number of channels set for content audio playback is reduced, and the reduced number of channels is used for audio playback related to post message data. May be set. When the number of output audio channels No is smaller than the number of content audio channels Nc, the number of channels set for content audio playback is reduced, and empty channels are set for audio playback related to posted message data. Also good.
  • the acoustic device 31 is configured with the speakers 31a to 31e.
  • the acoustic device 31 may be configured with headphones capable of reproducing surround sound (hereinafter referred to as surround headphones). Even when this surround headphone is used, it is possible to obtain the same surround sound as in the case where the acoustic device 31 including a speaker is used.
  • the posted message data is classified into the positive message data group and the negative message data group.
  • the classification method may be appropriately changed. For example, when viewing content such as a discussion program, the approval or disagreement included in the posted message is analyzed. Then, the posted message data is classified into a group of posted message data with an intention of approval and a group of posted message data with an intention of opposite.
  • the sound of the content and the sound related to the posted message data are always played back.
  • the timing of playing the posted message data may be limited to a specific time. For example, it is possible to reproduce the posted message data only at the timing when a specific operation is performed by the user during the reproduction of the content. In this way, for example, when the user determines that the specific scene of the content is difficult to understand, the user can operate the input unit 201 to reproduce the sound related to the posted message data related to the scene. The user can obtain a hint for interpreting the hard-to-understand scene by listening to the voice related to the posted message data.
  • the information processing apparatus 200 automatically estimates whether the user can understand the content being played back, and specifies the timing when the user cannot understand the content. It may be. For example, when it is detected that the user has removed his / her line of sight using an image capturing the user, it is assumed that the user does not understand the content at the time of detection, and the user understands the content at the timing. Identify the timing that is not completed.
  • an electroencephalogram sensor may be attached to the user's head to measure the user's electroencephalogram, analyze the user's concentration level, etc., and specify a timing that the user cannot understand.
  • Embodiment 4 In the first to third embodiments described above, the example in which the information processing apparatus plays back the content received from the content server has been described. However, the present invention is not limited to this. For example, post message data related to content input through a microphone or the like may be reproduced. From here, Embodiment 4 of this invention is demonstrated with reference to FIG. 13 and FIG.
  • the multiple content simultaneous viewing system 4 includes a posting message server 20, an information processing apparatus 400, an audio device 30, and a microphone 50 as shown in FIG.
  • the information processing apparatus 400 includes a recording unit 413 as shown in FIG. 14 in addition to the configuration of the information processing apparatus 300 of the third embodiment.
  • the content receiving means is constituted by a recording unit 413, for example.
  • the recording unit 413 receives the audio data output from the microphone 50.
  • the recording unit 413 is connected to the bus 209.
  • the microphone 50 collects ambient sounds of the user.
  • the microphone 50 is connected to the recording unit 413 of the information processing apparatus 400.
  • the microphone 50 collects the voice of the presenter and outputs the voice as voice data.
  • the recording unit 413 receives the audio data output from the microphone 50 as content data.
  • the recording unit 413 stores the received audio data in the storage unit 204.
  • the posted message server 20 when another person who is viewing the presentation of the same presenter creates and posts message data such as supplementary explanations and question items on an information processing device such as a smartphone, the posted message The data is stored in the posted message server 20.
  • the communication unit 203 receives the posted message data via the posted message server 20 and stores the posted message data in the storage unit 204.
  • the voice conversion unit 307 converts the post message data stored in the storage unit 204 into voice data.
  • the voice output unit 308 reads the voice data related to the presenter's speech saved by the recording unit 413 and the voice data related to the posted message data corresponding to the presenter's speech from the storage unit 204.
  • the audio output unit 308 outputs these audio data to the acoustic device 30 at the same time. That is, the information processing apparatus 400 reproduces the presenter's voice and the voice related to the posted message data at the same time.
  • the information processing apparatus 400 receives audio data output from the microphone 50 as content data. Therefore, the information processing apparatus 400 can simultaneously reproduce the voice of the presenter and the voice related to the posted message data in real time during the presentation of the presenter.
  • the acoustic device 30 including headphones is used.
  • the acoustic device 31 including the speaker according to the third embodiment may be used.
  • the posted message data is based on the location information of the posted message poster, for example, the location information using the GPS (Global Positioning System) function of the smartphone or the like used by the poster.
  • GPS Global Positioning System
  • Such a sound image position may be set. Specifically, the relative position between the actual user and the poster is checked, and the sound image position related to the posted message data of the poster in the surround space is set to a position corresponding to the actual relative position. As a result, it is possible to hear a surround sound with a high sense of presence from the position where the contributor is actually present, as if the contributor is tweeting out a message.
  • the external microphone 50 is used.
  • the external microphone 50 may not be used, and the microphone built in the information processing apparatus 400 may be used.
  • the information processing apparatus 400 simultaneously reproduces the voice received via the microphone 50 and the voice related to the posted message data.
  • the data received by the information processing apparatus 400 in the fourth embodiment is not limited to the voice received via the microphone 50.
  • the information processing apparatus 400 may include a video camera that can collect video and audio at the same time instead of the microphone 50, and may include a video recording unit instead of the recording unit 413.
  • the information processing apparatus 400 reproduces simultaneously the video and audio received via the video camera and the audio related to the posted message data.
  • Such an information processing apparatus 400 can reproduce post message data related to a specific image (for example, a two-dimensional barcode) and specific sound collected by a video camera.
  • the functions of the information processing apparatuses 100, 200, 300, and 400 may be realized by a computer executing a program.
  • Programs for realizing the functions of the information processing apparatuses 100, 200, 300, and 400 include a USB memory, an SD memory card, a CD-ROM (Compact Disc Read Only Memory), a DVD (Digital Versatile Disc), and an HDD (Hard Disc Drive). And the like, or may be downloaded to a computer via a network.
  • the information processing apparatuses 100, 200, 300, and 400 are arbitrary, such as a mobile phone, a smartphone, a game machine, a tablet PC (Personal Computer), a notebook PC, and a PDA (Personal Data Assistant).
  • Content receiving means for receiving content data including audio data of content
  • Post message collection means for collecting post message data consisting of character data related to the content
  • Voice conversion means for converting post message data collected by the post message collection means into voice data
  • Multiple sound simultaneous reproduction means for simultaneously reproducing the sound related to the sound data converted by the sound conversion means and the sound related to the sound data of the content data received by the content receiving means;
  • the voice conversion means includes voice quality setting means for setting different voice quality for each contributor who posted the message related to the posted message data.
  • the information processing apparatus according to appendix 1, wherein
  • the multiple sound simultaneous reproduction means sets the sound image position related to the sound data converted by the sound conversion means at a position that does not overlap with the sound image position related to the sound data of the content data, and surround sound reproduction for reproducing sound With means,
  • the information processing apparatus according to appendix 1 or 2, characterized in that:
  • the surround sound reproduction means sets a different sound image position for each contributor who has posted a message related to the posted message data, and reproduces sound.
  • the content receiving means receives audio data output from a microphone as the content data.
  • the information processing apparatus according to any one of appendices 1 to 7, characterized in that:
  • Appendix 9 The information processing apparatus according to any one of appendices 1 to 7, A content server that distributes the content data to the information processing apparatus; A posted message server that distributes the posted message data to the information processing apparatus; A system for simultaneously viewing multiple contents, comprising:
  • Appendix 10 The information processing apparatus according to appendix 8, A microphone that outputs the content data to the information processing apparatus; A posted message server that distributes the posted message data to the information processing apparatus; A system for simultaneously viewing multiple contents, comprising:
  • Computer Content receiving means for receiving content data including audio data of content; Post message collection means for collecting post message data consisting of character data related to the content, Voice conversion means for converting post message data collected by the post message collection means into voice data; Multiple sound simultaneous reproduction means for simultaneously reproducing the sound related to the sound data converted by the sound conversion means and the sound related to the sound data of the content data received by the content receiving means;
  • a computer-readable recording medium storing a program that functions as a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

 情報処理装置(100)は、コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信部(101)と、コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集部(103)と、を備える。また、情報処理装置(100)は、投稿メッセージ収集部(103)により収集された投稿メッセージデータを音声データに変換する音声変換部(104)と、音声変換部(104)により変換された音声データに係る音声とコンテンツ受信部(101)により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生部(105)と、を備える。

Description

情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体
 本発明は、情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 ユーザが投稿したメッセージをスマートフォンやタブレットPC(Personal Computer)等の情報端末の画面上に表示するメッセージコミュニケーションサービスが存在する。このメッセージコミュニケーションサービスを利用することで、ユーザは、例えばテレビ番組やストリーミング等のコンテンツを視聴しながら、そのコンテンツに対して他のユーザが投稿したメッセージを見ることができる。しかし、コンテンツの視聴をしながら画面上に表示された投稿メッセージを見ることは、ユーザにとって負担が大きい。しかも、コンテンツの音声等と投稿メッセージの文字との間に一体感が無く、ユーザは臨場感を得ることができない。また、ユーザがコンテンツの視聴をしながら、更に他の作業(例えば身の周りの片付け)をした場合には、コンテンツの重要なシーンを見逃してしまう可能性がある。
 コンテンツの音声等を再生しつつ、そのコンテンツに関連付けられた音声等を再生する装置が特許文献1、2に記載されている。特許文献1に記載された情報端末は、サーバに保存されているコンテンツのデータと、そのコンテンツに対する発言に係る音声データとを受信して、コンテンツの映像・音声と共に、そのコンテンツに対する発言に係る音声を再生する。特許文献2に記載された装置は、ブロードキャストラジオ送信に含まれる補足コンテンツ、例えば番組名やアーティスト名、曲名の文字データを音声データに変換し、その変換後の音声データに係る音声をプライマリコンテンツの音声と共に再生する。
特開2011-193372号公報 特表2010-531113号公報
 特許文献1に開示されている技術では、情報端末が音声データをサーバから受信するため、通信負担が大きくなってしまう。また、特許文献2に開示されている技術では、ブロードキャストラジオ送信のプライマリコンテンツを再生する際に、そのブロードキャストラジオ送信に含まれる補足コンテンツの文字データを再生するのみであり、ブロードキャストラジオ送信に含まれないデータ(コンテンツに対する投稿メッセージデータ等)を再生することについては想定していない、という問題があった。
 本発明は、上記実情に鑑みてなされたものであり、通信負担を軽減でき、かつ、コンテンツに対する投稿メッセージデータを受信して音声データに変換することができる情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
 上記目的を達成するために、本発明の第1の観点に係る情報処理装置は、
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
 前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
 前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
 を備える。
 また、本発明の第2の観点に係る情報処理方法は、
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
 前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
 前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
 を含む。
 また、本発明の第3の観点に係るコンピュータ読み取り可能な記録媒体は、
 コンピュータを、
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
 前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
 前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
 として機能させるプログラムを記録する。
 本発明によれば、通信負担を軽減でき、かつ、コンテンツに対する投稿メッセージデータを受信して音声データに変換することができる。
本発明の実施の形態1に係る複数コンテンツ同時視聴システムの構成を示す図である。 図1に係る情報処理装置の構成を示す図である。 図1に係る情報処理装置が行う複数コンテンツ同時視聴処理を説明するためのフローチャートである。 本発明の実施の形態2に係る情報処理装置の構成を示す図である。 図4の情報処理装置が行う複数コンテンツ同時視聴処理を説明するためのフローチャートである。 本発明の実施の形態3に係る複数コンテンツ同時視聴システムの構成を示す図である。 図6に係る情報処理装置の構成を示す図である。 投稿メッセージの投稿者毎に設定した声質を説明するための図である。 投稿メッセージデータに係る音声の再生タイミングを調整する様子を説明するための図である。 画面表示部に投稿メッセージデータに係る音声のサラウンド再生状況が表示された状態を示す図である。 音像位置を変更する様子を示す図である。 投稿メッセージデータのグループ毎に音像位置を設定する様子を示す図である。 本発明の実施の形態4に係る複数コンテンツ同時視聴システムの構成を示す図である。 図13に係る情報処理装置の構成を示す図である。
 (実施の形態1)
 本発明の実施の形態1について図1から図3を参照して説明する。
 実施の形態1に係る複数コンテンツ同時視聴システム1は、図1に示すようにコンテンツサーバ10、投稿メッセージサーバ20、情報処理装置100及び音響機器30を備えている。
 コンテンツサーバ10は、動画や音声、webサービス等のコンテンツの映像データや音声データ等、即ちコンテンツデータを蓄積している。コンテンツサーバ10は、インターネット40に接続されており、このインターネット40を介して情報処理装置100等にコンテンツデータを配信する。
 投稿メッセージサーバ20は、様々な人が投稿したメッセージ、例えばE-Mail(Electronic Mail)やSNS(Social Network Service)等で投稿されたメッセージのデータ(以下、投稿メッセージデータという。)を蓄積している。投稿メッセージサーバ20は、インターネット40に接続されており、このインターネット40を介して情報処理装置100等に投稿メッセージデータを配信する。
 情報処理装置100は、コンテンツデータを受信し、このコンテンツデータに係る映像や音声を再生可能な端末装置全般、例えば携帯電話機、スマートフォン、タブレットPC(Personal Computer)、ノートPC等任意の情報端末から構成される。本実施形態では、一例として、図1に示すように情報処理装置100はタブレットPCから構成されるものとする。
 情報処理装置100は、機能面では、図2に示すように、コンテンツ受信部101、投稿メッセージ収集部103、音声変換部104及び複数音同時再生部105を備える。これらの機能部は、情報処理装置100が備えるCPU(Central Processor Unit)やROM(Read Only Memory)、RAM(Random Access Memory)、通信部、記憶部、出力部等から構成される。
 コンテンツ受信部101は、コンテンツサーバ10等から配信されたコンテンツデータを受信する。投稿メッセージ収集部103は、投稿メッセージサーバ20から配信された投稿メッセージデータを収集する。
 音声変換部104は、投稿メッセージ収集部103により収集された投稿メッセージデータを音声データに変換する。複数音同時再生部105は、音声変換部104により変換された音声データに係る音声と、コンテンツの音声データに係る音声(以下、コンテンツの音声という。)と、を同時に再生する。
 音響機器30は、ヘッドホン等から構成されている。音響機器30は情報処理装置100に接続している。音響機器30は、複数音同時再生部105が再生する音声を、実際の音として外部に出力する。
 次に、情報処理装置100の動作について図3を参照して説明する。
 ユーザが情報処理装置100を操作し、コンテンツを視聴するためのアプリケーションを起動させると、情報処理装置100は、複数コンテンツ同時視聴処理を開始する。
 複数コンテンツ同時視聴処理では、まず、コンテンツ受信部101は、インターネット40に接続し、コンテンツサーバ10からコンテンツデータを受信して保存する(ステップS111)。
 投稿メッセージ収集部103は、インターネット40に接続し、投稿メッセージサーバ20から、ステップS111で受信したコンテンツデータに関連する、文字データから成る投稿メッセージデータを収集して保存する(ステップS112)。
 音声変換部104は、投稿メッセージ収集部103により保存された投稿メッセージデータを音声データに変換して、この音声データを保存する(ステップS113)。
 複数音同時再生部105は、コンテンツ受信部101により保存されたコンテンツの音声データと、音声変換部104により保存された音声データと、を読み出し、これらの音声データを同時に音響機器30に出力する。これらの音声データは、音響機器30を介して音声として再生される。即ち、複数音同時再生部105は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する(ステップS114)。
 情報処理装置100は、コンテンツの音声及び投稿メッセージデータに係る音声を最後まで再生すると、複数コンテンツ同時視聴処理を終了する。
 ここまで示した複数コンテンツ同時視聴処理を実行することにより、情報処理装置100は、コンテンツサーバ10から受信したコンテンツ(第1のコンテンツ)の再生と並行し、投稿されたメッセージ(第2のコンテンツ)を音声にして出力する。情報処理装置100により、ユーザは、メインコンテンツを視聴しつつ、投稿されたメッセージの内容を音声で聞くことができる。
 上述したように情報処理装置100は、文字データから成る投稿メッセージデータを受信する。文字データは音声データに比べてデータ量が格段に小さいため、音声データを受信する場合に比べて通信負担を軽減できる。また、情報処理装置100は、投稿メッセージ収集部103及び音声変換部104を備えているので、コンテンツに対する投稿メッセージデータを収集し、その投稿メッセージデータを音声データに変換することができる。
 上述したように情報処理装置100は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生するので、コンテンツと投稿メッセージとの間に一体感が生まれ、臨場感を得ることができる。更に、ユーザは、コンテンツを視聴しながら他人の投稿メッセージを直接見る必要がなくなる。従って、情報処理装置100は、ユーザの負担を少なくすることができる。
 また、ユーザは、情報処理装置100がコンテンツを再生している間に目を離したとしても、投稿メッセージデータに係る音声により、コンテンツの大まかな内容を把握することができる。例えばコンテンツを視聴しながら更に他の作業(身の周りの片付け等)をしていても、ユーザは、投稿メッセージデータに係る音声を聞いていれば、場面が重要なシーンに差し掛かった場合にそれを把握することができる。従って、情報処理装置100は、ユーザがコンテンツの重要なシーンを見逃してしまうことを防止することができる。
 なお、上述した例では、コンテンツ受信部101がコンテンツデータを受信した後で、投稿メッセージ収集部103が、当該コンテンツデータに関連する投稿メッセージデータを収集している。しかしながら、本発明の実施形態はこれに限られず、コンテンツデータの受信と投稿メッセージの受信とを並行して実施してもよい。また、上述した例では、コンテンツデータ及び投稿メッセージデータを受信し、音声変換を完了した後で両者を再生しているが、これに限られず、いわゆるストリーミング形式(データの受信と再生を並行して行う形式)によってもよい。
 (実施の形態2)
 次に、本発明の実施の形態2について図4と図5を参照して説明する。
 実施の形態2に係る複数コンテンツ同時視聴システム2は、実施の形態1に係る複数コンテンツ同時視聴システム1と同様の構成部分を有するので、複数コンテンツ同時視聴システム1と同様の構成部分については、同じ符号を付すことで説明を省略する。以下、実施の形態3、4についても同様とする。
 実施の形態2では、上記実施の形態1に係る情報処理装置100をより具体化した情報処理装置200について説明する。図4に示すように情報処理装置200は、入力部201、制御部202、通信部203、記憶部204、表示制御部205、画面表示部206、音声変換部207、音声出力部208及びバス209を備えている。
 入力部201は、タッチパネルやキーボード等から構成されている。制御部202は、CPU(Central Processing Unit)等から構成されている。制御部202は、システム全体を制御する。通信部203は、インターネット40に接続し、コンテンツデータや投稿メッセージデータ等を受信する。
 記憶部204は、メモリやハードディスク等から構成され、受信したデータや演算処理を行ったデータ、制御部202が動作するためのプログラム等を記憶する。表示制御部205は、画面表示部206を制御する。画面表示部206は、ディスプレイ等から構成されている。画面表示部206は、コンテンツデータに係る映像等を表示する。
 音声変換部207は、投稿メッセージデータを音声データに変換する。音声出力部208は、コンテンツの音声や投稿メッセージデータに係る音声を出力する。バス209は、入力部201や制御部202、通信部203、記憶部204、表示制御部205、音声変換部207等の各部を接続する。
 コンテンツ受信手段は、例えば、通信部203によって構成される。投稿メッセージ収集手段は、例えば、通信部203によって構成される。音声変換手段は、例えば、音声変換部207によって構成される。複数音同時再生手段は、例えば、音声出力部208によって構成される。
 次に、情報処理装置200の動作について図5を参照して説明する。
 ユーザが入力部201を操作し、コンテンツを視聴するためのアプリケーションを起動させると、情報処理装置200は、複数コンテンツ同時視聴処理を開始する。
 複数コンテンツ同時視聴処理では、まず、通信部203は、インターネット40に接続し、コンテンツサーバ10からコンテンツデータを受信する。通信部203は、受信したコンテンツデータを記憶部204に保存する(ステップS211)。
 また、通信部203は、インターネット40に接続し、投稿メッセージサーバ20から、ステップS211で受信したコンテンツデータに関連する、文字データから成る投稿メッセージデータを受信する。通信部203は、受信した投稿メッセージデータを記憶部204に保存する(ステップS212)。
 表示制御部205は、記憶部204に保存されたコンテンツデータのうち映像データを画面表示部206に出力するとともに、画面表示部206を制御する。即ち、表示制御部205は、画面表示部206を介してコンテンツの映像を再生する(ステップS213)。画面表示部206にはコンテンツの映像が表示される。
 音声変換部207は、記憶部204に保存された投稿メッセージデータを音声データに変換する。音声変換部207は、この音声データを記憶部204に保存する(ステップS214)。
 音声出力部208は、記憶部204に保存されたコンテンツの音声データと投稿メッセージに係る音声データとを読み出し、これらの音声データを同時に音響機器30に出力する。これらの音声データは、音響機器30を介して音声として再生される。即ち、音声出力部208は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する(ステップS215)。
 情報処理装置200は、コンテンツの映像・音声及び投稿メッセージデータに係る音声を最後まで再生すると、複数コンテンツ同時視聴処理を終了する。
 上述したように情報処理装置200は、文字データから成る投稿メッセージデータを受信するので、音声データを受信するよりも通信負担を軽減できる。また、情報処理装置200は、通信部203及び音声変換部207を備えているので、コンテンツに対する投稿メッセージデータを収集し、その投稿メッセージデータを音声データに変換することが可能となる。
 なお、上述した例では、コンテンツデータの受信後に、当該コンテンツデータに関連する投稿メッセージデータを収集しているが、これらを並行して実施してもよい。また、データの受信と再生についても、並行して実行してもよい。
(変形例1)
 上記実施の形態1、2では、インターネット40を介して投稿メッセージサーバ20から投稿メッセージデータを受信する構成としたが、インターネット40ではなく他のネットワークを介して投稿メッセージデータを受信する構成としてもよい。また、他の情報処理装置と直接通信して投稿メッセージデータを受信する構成としてもよい。例えば、Bluetooth(登録商標)等の無線通信を介して投稿メッセージデータを受信する構成としてもよい。
(変形例2)
 上記実施の形態1、2では、音響機器30をヘッドホンにより構成したが、音響機器30をイヤホンやスピーカにより構成してもよい。また、外付けの音響機器30を用いる構成としたが、音響機器30を用いないで、情報処理装置100、200に内蔵されたスピーカを用いる構成としてもよい。
 (実施の形態3)
 次に、本発明の実施の形態3を、図6から図10を参照して説明する。
 実施の形態3に係る複数コンテンツ同時視聴システム3は、図6に示すようにコンテンツサーバ10、投稿メッセージサーバ20、情報処理装置300及び音響機器31から構成される。
 図7に示すように情報処理装置300は、入力部201、制御部202、通信部203、記憶部204、表示制御部205、画面表示部206、音声変換部307、音声出力部308、投稿メッセージ選抜部310、投稿メッセージ分類部311、再生タイミング調整部312及びバス209を備えている。
 音声変換部307は、声質設定部307aを備えている。声質設定部307aは、投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する。具体的には、声質設定部307aは、複数の声質に関するデータ(声質データ)を保持し、複数の投稿者に、重複しないように声質を割り当てる。声質設定部307aは、例えば声質を、若い男性の高い声、若い男性の低い声、年配の男性の低い声等に分類して保持しており、投稿者に対し、それぞれ声質を割り当てる。
 音声出力部308は、サラウンド音声再生部308aを備えている。サラウンド音声再生部308aは、音声データに係る音像位置を設定して音声を再生する。
 投稿メッセージ選抜部310は、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する。投稿メッセージ分類部311は、予め定めた条件に基づいて投稿メッセージデータを分類する。再生タイミング調整部312は、投稿メッセージデータに係る音声を再生するタイミングを調整する。
 図6に示すように音響機器31は、サラウンド音声の再生可能なスピーカ31a、31b、31c、31d、31eから構成される。スピーカ31a~31eは、例えば、Bluetooth(登録商標)等の無線通信を介して情報処理装置300に接続している。スピーカ31aはユーザの前方に位置している。スピーカ31bはユーザの前方右側に位置している。スピーカ31cはユーザの前方左側に位置している。スピーカ31dはユーザの後方右側に位置している。スピーカ31eはユーザの後方左側に位置している。
 次に、情報処理装置300の特徴的な動作について説明する。
 投稿メッセージ選抜部310は、通信部203により収集された投稿メッセージデータのうちから、以下の3つの条件をすべて満たす投稿メッセージデータを再生対象にする投稿メッセージデータとして選抜する。
 1つめの条件は、投稿メッセージデータに係るメッセージがコンテンツに関係性の高いこと、である。コンテンツに関係性の高いメッセージとしては、例えば、コンテンツの音声に出てくる言葉が含まれているものがある。
 2つめの条件は、投稿メッセージデータに係るメッセージがユーザにとって理解できないものでないこと、である。ユーザにとって理解できないメッセージとしては、例えば、記号のみから構成されたものやインターネットのリンク先を示したものがある。
 3つめの条件は、投稿メッセージデータに係るメッセージが、そのメッセージが投稿された時刻よりも前に投稿されたメッセージと同じものでないこと、である。
 このように投稿メッセージ選抜部310は、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する。これにより情報処理装置300は、再生する音声の数を減らすことができ、ユーザの負担を減らすことが可能となる。
 次に、音声変換部307の声質設定部307aは、記憶部204に保存されたコンテンツの音声データからそのコンテンツの声質を分析し、保持している声質データと対比することにより、コンテンツの声質を特定する。本実施の形態3では、図8に示すようにコンテンツの声質を声質1とする。また、声質設定部307aは、保持している声質データから、再生対象とした投稿メッセージの投稿者に、上述の分析により特定したコンテンツの声質とは異なる声質を設定する。例えば、声質設定部307aは、投稿者Aに対して声質2を設定し、投稿者Bに対して声質3を設定する。声質2、3は、例えば機械的な音で構成され、声質1とは異なる声質となっている。また、声質設定部307aは、投稿者毎にも声質が異なるように設定する。例えば声質設定部307aは、投稿者Aに対して声質2を設定した場合、投稿者Bには、コンテンツの声質(声質1)とも投稿者Aに設定した声質(声質2)とも異なる性質(声質3)を設定する。
 音声変換部307は、上記のように投稿者A、Bに対する声質2、3を設定した状態で、投稿メッセージデータを音声データに変換する。
 上述したように情報処理装置300は、再生対象とした投稿メッセージの投稿者(投稿者A、B)に対してコンテンツの声質1とは異なる声質(声質2、3)を設定する。そのため、情報処理装置300がコンテンツを再生した場合に、ユーザは、コンテンツの音声と投稿者A、Bの投稿メッセージデータに係る音声とを明確に区別して認識することができる。また、情報処理装置300は、投稿メッセージの投稿者毎に異なる声質を設定するので、どの投稿者が投稿した投稿メッセージであるのかを明確に区別して音声を再生することが可能である。
 なお、本実施の形態においては、上述した例に限られない。例えば、声質設定部307aは、メッセージの投稿者のプロフィール等の属性を示す情報を参照し、それに合致した声質を設定してもよい。その場合、例えば、投稿者のプロフィールを示す情報において、投稿者が男性であることが示されていれば、声質設定部307aは当該投稿者に男性の声質を割り当てる。逆に、投稿者が女性であれば、声質設定部307aは当該投稿者に女性の声質を割り当てる。また、投稿者のプロフィールを示す情報において、投稿者が子どもであることが示されていれば、その投稿者に子どもの声質を割り当て、年齢が高ければそれに応じた声質を割り当ててもよい。
 また、音声変換部307は、記憶部204に保存されたコンテンツデータから音声データのみを抽出する。音声変換部307は、その音声データのチャンネル数Nc(以下、コンテンツ音声チャンネル数Ncという。)を調べ、そのコンテンツ音声チャンネル数Ncを記憶部204に保存する。ここでは、コンテンツ音声チャンネル数Ncが3であるコンテンツを例として説明する。
 サラウンド音声再生部308aは、スピーカ31a~31eで出力可能なチャンネル数No(以下、出力音声チャンネル数Noという。)を調べ、その出力音声チャンネル数Noを記憶部204に保存する。本実施の形態3で示す例では、音響機器31がスピーカーを5つ(スピーカ31a~31e)備えており、出力音声チャンネル数Noは5である。
 サラウンド音声再生部308aは、出力音声チャンネル数Noからコンテンツ音声チャンネル数Ncを引いた数Nt(Nt=No-Nc)を算出する。サラウンド音声再生部308aは、Nc個のスピーカをコンテンツの音声の再生用に設定し、Nt個のスピーカを投稿者メッセージデータに係る音声の再生用に設定する。ここで示す例においては、出力音声チャンネル数Noが5、コンテンツ音声チャンネル数Ncが3であり、Ntは2である。
 本実施の形態3では、サラウンド音声再生部308aは、一例として、3つのスピーカ31a、31b、31cをコンテンツの音声の再生用に設定し、2つのスピーカ31d、31eを投稿者メッセージに係る音声の再生用に設定する。Ncが3であることから、サラウンド音声再生部308aは、3つのスピーカ(スピーカ31a、31b、31c)をコンテンツの音声の再生用に割り当てる。同様に、Ntが2であることから、サラウンド音声再生部308aは2つのスピーカ(スピーカ31d、31e)を投稿メッセージの再生用に割り当てる。
 また、サラウンド音声再生部308aは、コンテンツの音声データから、図6に示すように音像位置S1、S2、S3を特定する。サラウンド音声再生部308aは、音像位置S1、S2、S3と重複しない位置に、音声変換部307により変換された音声データに係る音像位置ST1、ST2を設定する。更に、サラウンド音声再生部308aは、投稿者A、B毎に異なる音像位置ST1、ST2を設定する。そして、サラウンド音声再生部308aは、上記のように音像位置ST1、ST2を設定した状態で、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する。
 コンテンツの映像・音声が再生されると、図6に示すようにサラウンド空間において、音像位置S1からコンテンツのメインの音声が再生され、音像位置S2、S3からBGM(Background music)が再生される。また、音像位置ST1から投稿者Aの投稿メッセージデータに係る音声が再生され、音像位置ST2から投稿者Bの投稿メッセージデータに係る音声が再生される。
 このように情報処理装置300は、コンテンツの音声データに係る音像位置S1、S2、S3と重複しない位置に、投稿メッセージデータに係る音像位置を設定して、音声を再生する。そのため、ユーザは、コンテンツの音声と投稿メッセージデータに係る音声とを明確に区別することができる。更に、情報処理装置300は、投稿者A、B毎に異なる音像位置ST1、ST2を設定して、音声を再生する。そのため、ユーザは投稿者A、B毎の音声を明確に区別することができる。
 上述した例では、スピーカーを5つ備えた音響機器において、コンテンツ音声チャンネル数Ncが3であるコンテンツを再生するケースについて説明したが、これに限られない。音像位置をそれぞれ設定できる範囲内において、コンテンツ用及び投稿メッセージ用に割り当てるスピーカ数は任意である。また、上述した例では、コンテンツ音声と投稿メッセージの再生とは別のスピーカで再生する例について説明したが、それぞれ音像位置を独立に設定できるならば、同一のスピーカーで両者を再生するようにしてもよい。
 再生タイミング調整部312は、記憶部204に保存されたコンテンツの音声データから音声量の分布を解析し、音声量の多い時間帯と音声量の少ない時間帯を特定する(図9参照)。例えば、再生タイミング調整部312は、コンテンツの音声データにおいて、全編を通じての音声量の平均値を割り出した後、音声量が、その平均値からみて所定の割合(例えば平均値の300%等)を超える時間帯を、「音声量の多い時間帯」と特定する。再生タイミング調整部312は、音声出力部308に、音声量の多い時間帯の投稿メッセージデータに係る音声の再生数を減らし、その減らした分の投稿メッセージデータに係る音声を音声量の少ない時間帯にまとめて再生させる。具体的には、再生タイミング調整部312は、例えば音声量が多い時間帯には、再生する音声の数に閾値を設定し、その閾値の数だけ投稿メッセージデータに係る音声を再生した後は、次に音声量の少ない時間帯に入るまで投稿メッセージに係る音声の再生を停止する。このようにすることで、再生タイミング調整部312により投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声出力部308は音声を再生する。
 このように情報処理装置300は、投稿メッセージデータに係る音声を再生するタイミングを調整するので、ユーザにとってコンテンツの音声が聞き取りづらくなるのを防止することができ、ユーザが各々の投稿メッセージを理解するための負担を抑えることが可能になる。
 次に、特定の投稿メッセージに対する返答メッセージを投稿する方法について説明する。
 ユーザは、投稿者Aの投稿メッセージデータに係る音声に対し返答メッセージを投稿する場合には、画面表示部206に表示されたサラウンド再生状況表示ボタン(図示せず)を押す。画面表示部206は、上述したユーザの操作を受けて、図10に示すように投稿メッセージデータに係る音声の再生状況を表示する。この際、画面表示部206は、ユーザのアバター(アバターとは、分身を表すキャラクターのことをいう。)と投稿者A、Bのアバターを表示する。ここで、ユーザのアバターと投稿者A、Bのアバターとの相対位置が、サラウンド空間におけるユーザと音像位置ST1、ST2との相対位置に対応するように、画面表示部206は、ユーザのアバターを表示する。なお、投稿メッセージデータに係る音声を再生する際には、投稿者が誰であるかユーザに分かるように、画面表示部206はその投稿者のアバターを点滅する等により強調して表示する。
 ユーザによって画面表示部206に表示された投稿者Aのアバターがタッチされると、画面表示部206は、投稿者Aに対する投稿メッセージ入力画面を表示する(図示せず)。そして、その投稿メッセージ入力画面においてメッセージが入力され、画面表示部206に表示されている投稿ボタンが押されると、通信部203は、ユーザが作成した投稿メッセージデータを、インターネット40を介して投稿メッセージサーバ20に送信する。
 次いで、音像位置の再設定方法について説明する。
 ユーザは、音像位置を変更する場合には、例えば、図11に示すように投稿者Aのアバターを指でタッチしながら、ユーザのアバターの前方に指を移動して、その指を離す。投稿者Aのアバターは、ユーザのアバターの前方に位置する。これによりサラウンド空間における音像位置ST1がユーザの前方に設定される。このように情報処理装置300は、特定の投稿メッセージに注力したいとき等に、各音像位置を再設定することで、ユーザの望むサラウンド環境を実現できる。
 次に、投稿メッセージデータをコンテンツに対するメッセージに基づいてグループに分類し、音像位置を設定する処理について説明する。
 例えば、ユーザによって情報処理装置300の図示しない設定画面における肯定否定分類ボタンが押されると、投稿メッセージ分類部311は、記憶部204に保存された投稿メッセージデータに係るメッセージを分析する。投稿メッセージ分類部311は、投稿メッセージデータを、肯定的なメッセージに係る投稿メッセージデータ(以下、肯定的メッセージデータという。)のグループと、否定的なメッセージに係る投稿メッセージデータ(以下、否定的メッセージデータという。)のグループと、に分類する。肯定的なメッセージは、例えば、「良い」という文字が含まれているものであり、否定的なメッセージは、例えば、「悪い」という文字が含まれているものである。
 サラウンド音声再生部308aは、投稿メッセージデータに係る音像位置の設定領域を、図12に示すように領域R1と領域R2とに分ける。サラウンド音声再生部308aは、領域R1内に肯定的メッセージデータに係る音像位置を設定する。また、サラウンド音声再生部308aは、領域R2内に否定的メッセージデータに係る音像位置を設定する。なお、この場合も、サラウンド音声再生部308aは、各領域R1、R2内において投稿者毎に異なる音像位置を設定する。そして、サラウンド音声再生部308aは、上記のように音像位置を設定した状態で、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する。
 コンテンツの映像及び音声が再生されると、サラウンド空間において、領域R1内から肯定的メッセージデータに係る音声が再生され、領域R2内から否定的メッセージデータに係る音声が再生される。
 上記したように情報処理装置300は、投稿メッセージデータに係るメッセージを分析し、そのメッセージに基づいて投稿メッセージデータをグループに分類する。そして、情報処理装置300は、投稿メッセージデータのグループ毎に音像位置の設定領域を分けて、各音像位置を設定する。従って、情報処理装置300は、ユーザに対し、投稿メッセージデータのグループ毎に音声を明確に区別することができる。
(変形例1)
 上記に示した例では、投稿メッセージ選抜部310は、3つの条件をすべて満たす投稿メッセージデータを再生対象にする投稿メッセージデータとして選抜することとしたが、投稿メッセージデータを再生対象にする基準は任意である。例えば、投稿メッセージ選抜部310は、上記3つの条件のうちいずれか1つ又は2つの条件を満たす投稿メッセージデータを選抜してもよい。また、再生対象にする投稿メッセージデータを選抜するための条件や数を、適宜変更してもよい。
(変形例2)
 上記実施の形態3では、コンテンツ音声チャンネル数Ncを3とし、出力音声チャンネル数Noを5としたが、すでに述べたようにコンテンツ音声チャンネル数Ncや出力音声チャンネル数Noは任意のものが可能であり、適宜変更してもよい。例えば出力音声チャンネル数Noとコンテンツ音声チャンネル数Ncとが同じ数の場合には、コンテンツの音声の再生用に設定するチャンネル数を減らし、減らした分のチャンネルを投稿メッセージデータに係る音声の再生用に設定してもよい。出力音声チャンネル数Noがコンテンツ音声チャンネル数Ncよりも少ない場合には、コンテンツの音声の再生用に設定するチャンネル数を減らし、空いているチャンネルを投稿メッセージデータに係る音声の再生用に設定してもよい。
(変形例3)
 上記実施の形態3では、音響機器31をスピーカ31a~31eで構成したが、音響機器31を、サラウンド音声を再生することができるヘッドホン(以下、サラウンドヘッドホンという。)から構成してもよい。このサラウンドヘッドホンを用いても、スピーカから成る音響機器31を用いる場合と同様のサラウンド音声を得ることができる。
(変形例4)
 上記実施の形態3では、投稿メッセージデータを、肯定的メッセージデータのグループと否定的メッセージデータのグループとに分類したが、分類する方法を適宜変更してもよい。例えば、討論番組等のコンテンツを視聴する場合には、投稿メッセージに込められた賛成又は反対の意図を分析する。そして、投稿メッセージデータを、賛成の意図が込められた投稿メッセージデータのグループと反対の意図が込められた投稿メッセージデータのグループとに分類する。
(変形例5)
 上述した実施形態では、コンテンツの音声と投稿メッセージデータに係る音声とを常時再生するようにしたが、投稿メッセージデータを再生するタイミングを特定の時期に限定してもよい。例えば、コンテンツの再生中、ユーザにより特定の操作がなされたタイミングに限って投稿メッセージデータを再生するようにすることもできる。このようにすると、例えばユーザは、コンテンツの特定のシーンが判りにくいと判断したときに、入力部201を操作し、そのシーンに関連する投稿メッセージデータに係る音声を再生することができる。ユーザは、投稿メッセージデータに係る音声を聞くことで、その判りにくいシーンを解釈するヒントを得ることができる。
 また、入力部201に対する入力操作を省くために、情報処理装置200は、自動的に再生中のコンテンツをユーザが理解できているかを推測し、ユーザがコンテンツを理解できていないタイミングを特定するようにしてもよい。例えば、ユーザを撮影している画像を用いてユーザがコンテンツに対する視線を外していることを検出すると、検出した時点ではユーザがコンテンツを理解できていないと推測し、そのタイミングをユーザがコンテンツを理解できていないタイミングと特定する。または、脳波センサーをユーザの頭部に装着してユーザの脳波を測定し、ユーザの集中度等を解析して、ユーザが理解できていないタイミングを特定してもよい。
 (実施の形態4)
 上述した実施の形態1~3においては、情報処理装置が、コンテンツサーバから受信したコンテンツを再生する例を説明した。しかし、本発明はこれに限定されず、例えばマイクロホン等を通じて入力されたコンテンツに関連する投稿メッセージデータを再生するものであってもよい。ここから、本発明の実施の形態4を、図13と図14を参照して説明する。
 実施の形態4に係る複数コンテンツ同時視聴システム4は、図13に示すように投稿メッセージサーバ20、情報処理装置400、音響機器30及びマイクロホン50を備えている。
 情報処理装置400は、実施の形態3の情報処理装置300の構成に加え、図14に示すように録音部413を備えている。本実施の形態4では、コンテンツ受信手段は、例えば、録音部413によって構成される。
 録音部413は、マイクロホン50から出力された音声データを受信する。録音部413は、バス209に接続している。
 マイクロホン50は、ユーザの周囲音を集める。マイクロホン50は、情報処理装置400の録音部413に接続している。
 次に、情報処理装置400の特徴的な動作について説明する。なお、セミナーや講義等で、ユーザが発表者の発表を視聴する場面を例として説明する。
 マイクロホン50は発表者の音声を集め、その音声を音声データとして出力する。録音部413は、マイクロホン50から出力された音声データをコンテンツデータとして受信する。録音部413は、受信した音声データを記憶部204に保存する。
 一方、同じ発表者の発表を視聴している他人が、その発表者の発言に対して補足説明や質問事項等のメッセージデータを、スマートフォン等の情報処理装置で作成して投稿すると、その投稿メッセージデータは、投稿メッセージサーバ20に蓄積される。
 通信部203は、投稿メッセージサーバ20を介して、上記投稿メッセージデータを受信し、その投稿メッセージデータを記憶部204に保存する。音声変換部307は、記憶部204に保存された投稿メッセージデータを音声データに変換する。
 音声出力部308は、録音部413が保存した発表者の発言に係る音声データと、発表者の発言に対する投稿メッセージデータに係る音声データと、を記憶部204から読み出す。音声出力部308は、これらの音声データを同時に音響機器30に出力する。即ち、情報処理装置400は、発表者の音声と投稿メッセージデータに係る音声とを同時に再生する。
 上述したように情報処理装置400は、マイクロホン50から出力された音声データをコンテンツデータとして受信する。従って、情報処理装置400は、発表者の発表中、リアルタイムに、発表者の音声と投稿メッセージデータに係る音声とを同時に再生することができる。
(変形例1)
 上記実施の形態4では、ヘッドホンから成る音響機器30を用いる構成としたが、実施の形態3のスピーカから成る音響機器31を用いる構成としてもよい。また、サラウンドヘッドホンを用いる構成としてもよい。音響機器31やサラウンドヘッドホンを用いる場合には、投稿メッセージの投稿者の位置情報、例えば投稿者が利用したスマートフォン等のGPS(Global Positioning System)機能を用いた位置情報に基づいて、投稿メッセージデータに係る音像位置を設定してもよい。具体的には、実際のユーザと投稿者との相対位置を調べ、サラウンド空間においてその投稿者の投稿メッセージデータに係る音像位置を、実際の相対位置に対応する位置に設定する。これにより、実際に投稿者がいる位置から、あたかもその投稿者がメッセージを声に出してつぶやいているような臨場感の高いサラウンド音声を聞くことができるようになる。
(変形例2)
 上記実施の形態4では、外付けのマイクロホン50を用いる構成としたが、外付けのマイクロホン50を用いないで、情報処理装置400に内蔵されたマイクロホンを用いる構成としてもよい。
(変形例3)
 上記実施の形態4では、セミナーや講義等で、ユーザが発表者の発表を視聴する場面を例として説明したが、情報処理装置400を使用する場面は必ずしもこれに限られない。例えば、情報処理装置400を、コンサートや演劇を視聴する場合に使用してもよい。
(変形例4)
 上記に示した例では、情報処理装置400は、マイクロホン50を介して受信した音声と、投稿メッセージデータに係る音声とを同時に再生する。しかし、実施の形態4で情報処理装置400が受信するデータは、マイクロホン50を介して受信する音声に限られない。例えば情報処理装置400は、マイクロホン50に代えて、映像と音声とを同時に収集できるビデオカメラを備え、また録音部413に代えてビデオ記録部を備えるものであってもよい。この場合、情報処理装置400は、ビデオカメラを介して受信した映像及び音声と、投稿メッセージデータに係る音声とを同時に再生する。このような情報処理装置400は、特定の画像(例えば、2次元バーコード等)と、特定の音声とをビデオカメラで収集した場合に、それに関連する投稿メッセージデータを再生することができる。
 また、コンピュータがプログラムを実行することで、情報処理装置100、200、300、400の機能を実現してもよい。情報処理装置100、200、300、400の機能を実現するためのプログラムは、USBメモリ、SDメモリカード、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、HDD(Hard Disc Drive)等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。
 情報処理装置100、200、300、400は、携帯電話、スマートフォン、ゲーム機、タブレットPC(Personal Computer)、ノートPC、PDA(Personal Data Assistants:携帯情報端末)等、任意である。
 なお、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
 前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
 前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
 を備えることを特徴とする情報処理装置。
 (付記2)
 前記音声変換手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する声質設定手段を備える、
 ことを特徴とする付記1に記載の情報処理装置。
 (付記3)
 前記複数音同時再生手段は、前記コンテンツデータの音声データに係る音像位置と重複しない位置に、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生するサラウンド音声再生手段を備える、
 ことを特徴とする付記1又は2に記載の情報処理装置。
 (付記4)
 前記サラウンド音声再生手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる音像位置を設定して、音声を再生する、
 ことを特徴とする付記3に記載の情報処理装置。
 (付記5)
 前記投稿メッセージ収集手段により収集された投稿メッセージデータを、予め定めた条件に基づいてグループに分類する投稿メッセージ分類手段を備え、
 前記サラウンド音声再生手段は、前記グループ毎に音像位置の設定領域を分けて、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生する、
 ことを特徴とする付記3又は4に記載の情報処理装置。
 (付記6)
 前記投稿メッセージ収集手段により収集された投稿メッセージデータのうちから、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する投稿メッセージ選抜手段を備え、
 前記複数音同時再生手段は、前記投稿メッセージ選抜手段により選抜された投稿メッセージデータに係る音声を再生する、
 ことを特徴とする付記1乃至5のいずれか1つに記載の情報処理装置。
 (付記7)
 前記投稿メッセージデータに係る音声を再生するタイミングを調整する再生タイミング調整手段を備え、
 前記複数音同時再生手段は、前記再生タイミング調整手段により前記投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声を再生する、
 ことを特徴とする付記1乃至6のいずれか1つに記載の情報処理装置。
 (付記8)
 前記コンテンツ受信手段は、マイクロホンから出力された音声データを前記コンテンツデータとして受信する、
 ことを特徴とする付記1乃至7のいずれか1つに記載の情報処理装置。
 (付記9)
 付記1乃至7のいずれか1つに記載の情報処理装置と、
 前記情報処理装置に前記コンテンツデータの配信を行うコンテンツサーバと、
 前記情報処理装置に前記投稿メッセージデータの配信を行う投稿メッセージサーバと、
 を備えることを特徴とする複数コンテンツ同時視聴システム。
 (付記10)
 付記8に記載の情報処理装置と、
 前記情報処理装置に前記コンテンツデータの出力を行うマイクロホンと、
 前記情報処理装置に前記投稿メッセージデータの配信を行う投稿メッセージサーバと、
 を備えることを特徴とする複数コンテンツ同時視聴システム。
 (付記11)
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
 前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
 前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
 を含むことを特徴とする情報処理方法。
 (付記12)
 コンピュータを、
 コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
 前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
 前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
 前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
 として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
 本発明は、2012年12月12日に出願された日本国特許出願2012-271234号に基づく。本明細書中に日本国特許出願2012-271234号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
1、2、3、4 …複数コンテンツ同時視聴システム
10    …コンテンツサーバ
20    …投稿メッセージサーバ
30、31 …音響機器
31a~e …スピーカ
40    …インターネット
50    …マイクロホン
100   …情報処理装置
101   …コンテンツ受信部
103   …投稿メッセージ収集部
104   …音声変換部
105   …複数音同時再生部
200   …情報処理装置
201   …入力部
202   …制御部
203   …通信部
204   …記憶部
205   …表示制御部
206   …画面表示部
207   …音声変換部
208   …音声出力部
209   …バス
300   …情報処理装置
302   …制御部
307   …音声変換部
307a  …声質設定部
308   …音声出力部
308a  …サラウンド音声再生部
310   …投稿メッセージ選抜部
311   …投稿メッセージ分類部
312   …再生タイミング調整部
400   …情報処理装置
413   …録音部
S1、S2、S3 …音像位置
ST1、ST2  …音像位置
R1、R2    …音像位置の設定領域

Claims (10)

  1.  コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
     前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
     前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
     前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
     を備えることを特徴とする情報処理装置。
  2.  前記音声変換手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する声質設定手段を備える、
     ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記複数音同時再生手段は、前記コンテンツデータの音声データに係る音像位置と重複しない位置に、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生するサラウンド音声再生手段を備える、
     ことを特徴とする請求項1又は2に記載の情報処理装置。
  4.  前記サラウンド音声再生手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる音像位置を設定して、音声を再生する、
     ことを特徴とする請求項3に記載の情報処理装置。
  5.  前記投稿メッセージ収集手段により収集された投稿メッセージデータを、予め定めた条件に基づいてグループに分類する投稿メッセージ分類手段を備え、
     前記サラウンド音声再生手段は、前記グループ毎に音像位置の設定領域を分けて、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生する、
     ことを特徴とする請求項3又は4に記載の情報処理装置。
  6.  前記投稿メッセージ収集手段により収集された投稿メッセージデータのうちから、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する投稿メッセージ選抜手段を備え、
     前記複数音同時再生手段は、前記投稿メッセージ選抜手段により選抜された投稿メッセージデータに係る音声を再生する、
     ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7.  前記投稿メッセージデータに係る音声を再生するタイミングを調整する再生タイミング調整手段を備え、
     前記複数音同時再生手段は、前記再生タイミング調整手段により前記投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声を再生する、
     ことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8.  前記コンテンツ受信手段は、マイクロホンから出力された音声データを前記コンテンツデータとして受信する、
     ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9.  コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
     前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
     前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
     前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
     を含むことを特徴とする情報処理方法。
  10.  コンピュータを、
     コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
     前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
     前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
     前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
     として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2013/082444 2012-12-12 2013-12-03 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体 WO2014091965A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012271234 2012-12-12
JP2012-271234 2012-12-12

Publications (1)

Publication Number Publication Date
WO2014091965A1 true WO2014091965A1 (ja) 2014-06-19

Family

ID=50934257

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/082444 WO2014091965A1 (ja) 2012-12-12 2013-12-03 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
WO (1) WO2014091965A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006237864A (ja) * 2005-02-23 2006-09-07 Yamaha Corp 複数話者の音声信号を処理する端末装置、サーバ装置およびプログラム
JP2011193372A (ja) * 2010-03-16 2011-09-29 Sony Corp 情報管理装置、情報端末、および情報コンテンツ視聴方法
JP2012005138A (ja) * 2011-08-08 2012-01-05 Dwango Co Ltd コメント配信サーバ、コメント配信方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006237864A (ja) * 2005-02-23 2006-09-07 Yamaha Corp 複数話者の音声信号を処理する端末装置、サーバ装置およびプログラム
JP2011193372A (ja) * 2010-03-16 2011-09-29 Sony Corp 情報管理装置、情報端末、および情報コンテンツ視聴方法
JP2012005138A (ja) * 2011-08-08 2012-01-05 Dwango Co Ltd コメント配信サーバ、コメント配信方法、及びプログラム

Similar Documents

Publication Publication Date Title
US9959783B2 (en) Converting audio to haptic feedback in an electronic device
US10225608B2 (en) Generating a representation of a user's reaction to media content
KR101659674B1 (ko) 보이스 링크 시스템
WO2014192552A1 (ja) 表示制御装置、表示制御方法及びコンピュータプログラム
WO2018091856A1 (fr) Dispositif à casque audio, perfectionné
JP2005149431A (ja) コミュニケーションサービス提供システム、サーバ、サービス提供方法およびサービス提供プログラム
CN102197646A (zh) 用便携式电子装置产生多通道音频的***和方法
US20070219912A1 (en) Information distribution system, information distribution method, and program product for information distribution
CN112653902A (zh) 说话人识别方法、装置及电子设备
TW201036443A (en) Device, method and computer program product for transmitting data within remote application
JP6267819B1 (ja) 授業システム、授業サーバ、授業支援方法、及び授業支援プログラム
JP2008032786A (ja) 語学学習システム及び語学学習システム用プログラム
JP6367748B2 (ja) 認識装置、映像コンテンツ提示システム
WO2014091965A1 (ja) 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2018165978A (ja) 授業システム、授業サーバ、授業支援方法、及び授業支援プログラム
CN115550595A (zh) 线上会议实现方法、装置、设备及可读存储介质
Wincott et al. Spatial awareness: State of the art and future needs of spatial audio journalism
Rovithis et al. Design recommendations for a collaborative game of bird call recognition based on internet of sound practices
Werner Phones, applications, mobility: Framing music use on the go
JP2012182552A (ja) コンテンツ再生装置およびコンテンツ再生方法
Atalay et al. THE RISE OF AUDIO-BASED COMMUNICATION TECHNOLOGIES: A RESEARCH ON PODCAST, CLUBHOUSE AND AUDIOBOOK APPLICATIONS
JP2014116941A (ja) メッセージの収録及び再生システム並びにその方法
WO2023162119A1 (ja) 情報処理端末、情報処理方法、情報処理プログラム
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
US20230421981A1 (en) Reproducing device, reproducing method, information processing device, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13862731

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13862731

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP