WO2020261805A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020261805A1
WO2020261805A1 PCT/JP2020/019600 JP2020019600W WO2020261805A1 WO 2020261805 A1 WO2020261805 A1 WO 2020261805A1 JP 2020019600 W JP2020019600 W JP 2020019600W WO 2020261805 A1 WO2020261805 A1 WO 2020261805A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
sound
subtitle
vibration
data
Prior art date
Application number
PCT/JP2020/019600
Other languages
English (en)
French (fr)
Inventor
猛史 荻田
山野 郁男
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021527471A priority Critical patent/JPWO2020261805A1/ja
Priority to CN202080045646.5A priority patent/CN114008566A/zh
Priority to US17/621,455 priority patent/US20220353457A1/en
Publication of WO2020261805A1 publication Critical patent/WO2020261805A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • H04N5/9305Regeneration of the television signal or of selected parts thereof involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • H04N9/8715Regeneration of colour television signals involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal

Definitions

  • This technology relates to information processing devices, information processing methods, and programs that assist viewers in viewing video files.
  • subtitles explaining the audio content are displayed to assist the hearing-impaired person in lacking audio information when viewing the video.
  • this subtitle in addition to the words spoken by the person, sound effects for explaining the situation are also displayed.
  • Patent Document 1 describes that a tactile effect is generated by an automated tactile sensation algorithm.
  • Automated tactile algorithms analyze movie audio and video tracks to pattern identify for the generation of tactile effects.
  • the A / V receiver analyzes the closed caption text for the keyword. For example, when "explosion" is discovered as a keyword, the automated tactile algorithm searches for an explosion pattern around the time stamp of the discovered keyword, and further generates a corresponding tactile effect such as an intense vibration corresponding to the explosion.
  • the A / V device outputs the tactile effect at the time corresponding to the event occurring in the movie.
  • the purpose of this technology is to provide an information processing device, an information processing method, and a program that can assist the hearing impaired in viewing when playing a moving image.
  • the information processing device includes a control unit.
  • the control unit is a moving image file including subtitle information having subtitle data including sound subtitle data indicating sound effect by character information and spoken subtitle data indicating person's speech by character information, and sound information including sound data.
  • subtitle information having subtitle data including sound subtitle data indicating sound effect by character information and spoken subtitle data indicating person's speech by character information, and sound information including sound data.
  • sound information including sound data.
  • the vibration signal corresponding to the effect sound subtitle data and the vibration signal corresponding to the spoken subtitle data based on the waveform of the sound data using the analysis result obtained by analyzing the subtitle information and the sound information. Generate at least one.
  • the control unit divides the sound data into sound data corresponding to the effect sound subtitle data and sound data corresponding to the spoken subtitle data, and based on the waveform of each sound data, the sound subtitle data.
  • the vibration signal corresponding to the above and the vibration signal corresponding to the spoken subtitle data may be generated.
  • the control unit obtains at least one of the subtitle display position information on the image, the symbol information displayed on the image, the subtitle character typeface information, and the subtitle character color information included in the subtitle information. It may be used to determine whether the subtitle data is the effect sound subtitle data or the spoken subtitle data.
  • the control unit uses the subtitle information in the conversation scene by the plurality of persons and utters the words in the order of speech in the conversation.
  • the subtitle data may be separated and the vibration signal may be generated corresponding to each.
  • the control unit generates a vibration signal for the vibration signal corresponding to the sound effect sound and the vibration signal corresponding to the speech of the person so that the magnitude of vibration based on both vibration signals is relatively different. You may.
  • the moving image file includes the content meta information
  • the control unit may generate the vibration signal by adding the content meta information.
  • the control unit may generate the vibration signal in consideration of the information about the user.
  • a vibration presenting unit that presents vibration to the user based on the vibration signal may be further provided.
  • a plurality of the above vibration presenting units may be provided.
  • the control unit generates a vibration signal corresponding to the effect sound subtitle data and a vibration signal corresponding to the spoken subtitle data by using the analysis result obtained by analyzing the subtitle information and the sound information, and each vibration signal. May be output to each of the plurality of vibration presenting units that are different from each other.
  • the information processing method has subtitle data including sound subtitle data indicating sound effect by character information and spoken subtitle data indicating person's speech by character information. Vibration corresponding to the effect sound subtitle data based on the waveform of the sound data using the analysis result of analyzing the subtitle information and the sound information of the moving image file including the subtitle information and the sound information including the sound data. At least one of the signal and the vibration signal corresponding to the spoken subtitle data is generated.
  • a program has subtitle data including sound subtitle data indicating sound effect by character information and spoken subtitle data indicating person's speech by character information. Corresponding to the effect sound subtitle data based on the waveform of the sound data by using the step of analyzing the subtitle information and the sound information of the moving image file including the sound data and the sound information and the analysis result.
  • the information processing apparatus is made to execute a process including a step of generating at least one of the vibration signal and the vibration signal corresponding to the spoken subtitle data.
  • FIG. 1 is a diagram showing a configuration of a vibration presentation system, and includes a functional block diagram of an information processing device that is a part of the vibration presentation system.
  • FIG. 2 is a perspective view showing a state in which the user U is using the information processing device including the vibration presenting device.
  • the vibration presentation system of the present embodiment is used for audio content such as a movie, a TV drama, or a game for a user U having a hearing impairment (hereinafter, may be referred to as a viewer). It assists in grasping the expression of. More specifically, the vibration corresponding to the voice is presented to the user U in real time by using the voice information and the subtitle information of the moving image file including the voice information, the video information and the subtitle information. In the present embodiment, the vibration corresponding to the sound effect and the vibration corresponding to the speech of the person are generated separately. As a result, for example, in the case of a movie, the viewer can grasp the intonation, volume, utterance speed, sound effect volume, duration, change in volume, etc. of the person appearing in the movie by vibration. You can get a deeper understanding of the situation inside.
  • the hearing-impaired user U displays "explosion sound" in the image as an explanation of the sound effect in the subtitle for explaining the audio content to assist the lack of audio information when viewing the video.
  • the viewer cannot tell from the subtitle information alone whether the explosion sound is a ground noise with a continuous low sound or a loud sound that sounds momentarily.
  • by generating a vibration signal based on the waveform of the voice data of the sound effect it is possible to present to the user what kind of explosion sound is by vibration. This allows the user U to have a deeper understanding of the situation in the movie.
  • the subtitles spoken by a person are displayed, it may be difficult to read the emotions of the person only with the subtitle information.
  • the intonation, volume, speech speed, etc. of the voice of the person can be presented by the vibration. This allows the user U to have a deeper understanding of the situation in the movie. The details will be described below.
  • the vibration presentation system 20 includes an information processing device 1 and a content distribution server 10.
  • the vibration presentation system 20 presents vibration to the viewer in real time based on the subtitle information and audio information included in the moving image file when the moving image file distributed from the content distribution server 10 is played back.
  • the information processing device 1 and the content distribution server 10 are connected to each other so as to be able to communicate with each other via a network such as the Internet.
  • the information processing device 1 may request the content distribution server 10 to acquire list data or refer to it as a moving image file. ) Is transmitted, and the content distribution server 10 transmits list data, a moving image file, and the like to the information processing device 1.
  • the vibration presentation system 20 includes an information processing device 1 and a content distribution server 10.
  • the content distribution server 10 holds paid or free content data.
  • the content distribution server 10 provides a moving image file.
  • the information processing device 1 accesses the content distribution server 10
  • a list of contents is displayed on the display unit 2 described later of the information processing device 1, and when the user U selects the content, the video of the content is displayed from the content distribution server 10. Download the file.
  • the video file contains content meta information, subtitle information, video information, and sound information.
  • the content meta information includes video category information, video type information, broadcast status information, and the like.
  • the video category includes, for example, movies, sports, animation, news, and the like.
  • Types of video include, for example, action, science fiction, and romance. Broadcasting conditions include during programs and during commercials.
  • Video information includes video data.
  • the information contained in the video data includes object information such as cars, trains, guns, and people, human emotion information such as emotions, movement information of objects such as stopping and moving fast, flash information generated during explosions and foaming, and sign language. There is information etc.
  • the sound information includes voice data, the number of sound channels, sound source position information, sub-voice information, and the like.
  • the voice data includes frequency information, sound pressure change information, and the like. From the frequency information, high-low information such as high-pitched sound and low-pitched sound can be obtained. From the sound pressure change information, information on the loudness of sounds such as explosion sounds and powerful sound effects can be obtained.
  • the sub-audio information includes audio data in the sub-audio language in bilingual broadcasting, as well as commentary broadcasting to the visually impaired.
  • Subtitle information includes subtitle data, display position information of subtitles on images, symbol information displayed on images, typeface information of subtitle characters, color information of subtitle characters, and the like.
  • the subtitle data is subtitle text data.
  • the subtitle data includes two types of subtitle data: spoken subtitle data that indicates a person's speech as character information, and auxiliary subtitle data.
  • the auxiliary subtitle data is subtitle data that assists the viewer in grasping the video content.
  • the auxiliary subtitle data includes sound effect subtitle data for explaining the sound effect with text information and subtitle data for explaining the situation.
  • the sound effect subtitle data basically explains a sound that is not spoken by a person.
  • sound effects include environmental sounds that are actually emitted during video playback, such as car horns, elevator arrival notification sounds, dog barks, door opening and closing sounds, and explosion sounds, as well as sound effects during video playback.
  • the subtitle data for explaining the situation assists in grasping the situation, which is not emitted as a sound during the playback of the moving image.
  • the name of the person who speaks is displayed in parentheses before the person speaks in the subtitles.
  • the name of this person corresponds to the subtitle data for explaining the situation.
  • the viewer can grasp which word is made by which person.
  • the words displayed in parentheses are personal names, for example, the female personal name is displayed in red and the male personal name is displayed in blue, and the colors may be different so that the gender can be distinguished.
  • the words displayed in parentheses are personal names, for example, the female personal name is displayed in red and the male personal name is displayed in blue, and the colors may be different so that the gender can be distinguished.
  • the colors may be different so that the gender can be distinguished.
  • it is subtitle data for explaining the situation can be distinguished by the color of the characters displayed in parentheses.
  • the information processing device 1 accesses the content distribution server 10 and downloads a moving image file.
  • the information processing device 1 includes an application program that generates a vibration signal of vibration presented to a user by using subtitle information and sound information of a moving image file.
  • the information processing device 1 may be, for example, a mobile phone, a PDA (Personal Digital Assistant), or a portable game device.
  • a mobile phone will be described as an example of an information processing device including a vibration device as a vibration presentation unit and a display unit.
  • the information processing device 1 may have a communication function by a wireless communication method such as a wireless LAN (Local Area Network) method or a mobile phone method, and may be connected to an external device with a priority cable such as a USB cable to provide content. It may be configured to communicate with the distribution server.
  • a wireless communication method such as a wireless LAN (Local Area Network) method or a mobile phone method
  • a priority cable such as a USB cable to provide content. It may be configured to communicate with the distribution server.
  • the information processing device 1 of the present embodiment has a horizontally long display unit 2 and is gripped by both hands of the user U in a so-called horizontally held state.
  • the information processing device 1 includes a left-hand vibration device 4L and a right-hand vibration device 4R.
  • the left-hand vibration device 4L is positioned corresponding to the left hand of the user U
  • the right-hand vibration device 4R is located corresponding to the right hand of the user U while being gripped by the user U.
  • the left-hand vibration device 4L is driven and vibrates based on the vibration signal output from the control unit 6 described later, so that the vibration is presented to the left hand of the user U.
  • the vibration device 4R for the right hand is driven and vibrates based on the vibration signal output from the control unit 6, so that the vibration is presented to the right hand of the user U.
  • vibration devices 4L and 4R when it is not necessary to distinguish between the left-hand vibration device 4L and the right-hand vibration device 4R, they are referred to as vibration devices 4L and 4R.
  • the information processing device 1 of the present embodiment outputs the waveform of the input audio signal as vibration.
  • the information processing device 1 includes a display unit 2, a sound output unit 3, a left-hand vibration device 4L, a right-hand vibration device 4R, a communication unit 5, a control unit 6, and an input unit. It has a speaker amplifier 8, a left-hand vibration device drive amplifier 9L, and a right-hand vibration device drive amplifier 9R.
  • the display unit 2 displays various information such as video data of the reproduced content and a content list as a test or an image.
  • the display unit 2 is composed of, for example, a CRT (Cathode Ray Tube) display, a liquid crystal display (LCD), an OLED (Organic Light Emitting Diode), or the like.
  • the display unit 2 displays an image based on the video data and the subtitle data output from the control unit 6.
  • the sound output unit 3 is a speaker, headphones, or the like.
  • the sound output unit 3 changes the sound data or the like output from the control unit 6 into sound and outputs it.
  • the vibration devices 4L and 4R are driven based on the vibration signal output from the control unit 6 and present the vibration to the user.
  • the vibration signal is generated by the vibration generation unit 64, which will be described later, based on the waveform of the sound data of the moving image file.
  • the vibration device 4 for example, an oscillator capable of following the vibration of a voice signal in a frequency band up to about 20 kHz, such as an electromagnetic type oscillator, is used.
  • known devices such as an eccentric motor type actuator and a linear resonance actuator can be used.
  • the information processing device 1 of the present embodiment has two vibration devices 4L and 4R.
  • the communication unit 5 sends and receives information to and from an external device.
  • the communication unit 5 is communicably connected to an external device by, for example, LAN, Bluetooth (registered trademark), Wi-Fi, or the like, and transmits / receives information.
  • the information processing device 1 of the present embodiment receives a moving image file from the content distribution server 10 which is an external device.
  • the control unit 6 controls the information processing device 1.
  • the control unit 6 generates a vibration signal of the vibration device 4 by using the subtitle information and the sound information included in the acquired moving image file, and outputs the vibration signal to the vibration device 4. Further, the control unit 6 outputs video data and subtitle data to the display unit 2 and outputs sound data to the sound output unit 3. The details of the control unit 6 will be described later.
  • the input unit 7 is an input interface for the information processing device 1.
  • the user can input viewer information as user information via the input unit 7.
  • the viewer information includes attribute information and viewing environment information of the viewer who is the user.
  • the viewer's attribute information includes the viewer's hearing loss status, age, vibration preference, and the like.
  • the hearing loss situation of the viewer is the degree of hearing loss in each of the left and right ears, such as difficulty in hearing both ears, difficulty in hearing only the right ear, and no hearing in the left ear.
  • the viewing environment information is environmental information around the viewer when viewing the content using the information processing device 1. Examples of the environment include indoors, outdoors, and traveling by car or train. The strength of the vibration may be adjusted by comprehensively determining the viewer information.
  • the type of the input unit 7 is not limited, and the input unit 7 may be various known input units.
  • a touch panel is used as the input unit 7, and the touch panel is provided on the display surface of the display unit 2.
  • a mouse, a keyboard, a switch, or the like may be applied.
  • the speaker amplifier 8 amplifies the sound data output from the control unit 6 and outputs the sound data to the sound output unit 3.
  • the left-hand vibration device drive amplifier 9L amplifies the left-hand vibration signal output from the control unit 6 and outputs it to the left-hand vibration device 4L.
  • the right-hand vibration device drive amplifier 9R amplifies the right-hand vibration signal output from the control unit 6 and outputs it to the right-hand vibration device 4R.
  • the control unit 6 includes a memory 61, an acquisition unit 62, an analysis unit 63, and a vibration generation unit 64.
  • the acquisition unit 62 acquires the moving image file received from the content distribution server 10 via the communication unit 5 and the viewer information input by the input unit 7.
  • the memory 61 stores programs and various data used for processing of the control unit 6, various data acquired from the outside such as viewer information acquired by the acquisition unit 62, and the like.
  • the analysis unit 63 analyzes the subtitle information and the sound information included in the moving image file. More specifically, the analysis unit 63 analyzes the subtitle information at the time of playing the moving image, and obtains the display position information of the subtitle on the image, the symbol status displayed on the image, the style information of the subtitle, and the color information of the characters of the subtitle. Using at least one of them, the subtitle data is divided into spoken subtitle data and sound effect subtitle data. At this time, the analysis unit 63 states that the subtitle data displayed in a three-dimensional typeface, not in parentheses, and displayed in horizontal writing is spoken subtitle data, and the other subtitle data is auxiliary subtitle data. To analyze. Further, among the auxiliary subtitle data, it is analyzed that the subtitles displayed in red or blue characters in parentheses are the subtitle data for explaining the situation, and the others are the effect subtitle data.
  • 5 (A), 6 (A), 7 (A), and 8 (A) to 8 (C) are diagrams for showing one scene of a moving image and explaining an example of displaying subtitles in an image. Is.
  • the subtitle data may be spoken subtitle data or an effect depending on the display position of the subtitles on the image. It can be determined whether it is sound subtitle data. For example, in the one scene 40 shown in FIG. 5A, which is a moving image in which Japanese is used for subtitles, the spoken subtitle data 42 is displayed in horizontal writing, and the sound effect subtitle data 41 explaining the alarm sound which is the sound effect. Is displayed vertically. In this way, it is possible to determine whether the subtitle data is spoken subtitle data or sound effect subtitle data depending on the display position of the subtitle data.
  • the subtitle data can be divided into spoken subtitle data and auxiliary subtitle data according to the symbols displayed on the image.
  • the sound effect subtitle data 41 is displayed in parentheses, and the spoken subtitle data 42 does not use symbols such as parentheses.
  • the one scene 45 shown in FIG. 7A which is an example of a moving image in which Japanese is used for subtitles, although it is displayed in horizontal writing, auxiliary subtitle data 46 explaining the sound of the car horn, which is a sound effect. Is displayed in parentheses.
  • auxiliary subtitle data 46 explaining the sound of the car horn, which is a sound effect.
  • the auxiliary subtitle data 51 indicating the sound of the elevator, which is a sound effect
  • the auxiliary subtitle data 54 indicating the smoldering laughter of a person as a sound effect and the sound effect subtitle data indicating the squeaking sound of the door as a sound effect 56 is displayed in parentheses, and symbols such as parentheses are not used in the spoken subtitle data 55.
  • the auxiliary character subtitle data can be divided into sound effect subtitle data and situation explanation subtitle data according to the color of the subtitle characters in the parentheses. .. If the characters in parentheses are red or blue, it can be determined that the characters in parentheses are situation explanation subtitle data, and if not, it can be determined that they are sound effect subtitle data.
  • the characters in parentheses are displayed in a color that is neither red nor blue, so that the characters in parentheses are displayed in colors that are neither red nor blue. It can be determined that the subtitle is sound effect subtitle data.
  • FIG. 6 (A) which is a moving image in which Japanese is used for subtitles, is a scene in which two people talk, and in the subtitles, which word is by which person. As you can see, the person's name is displayed in parentheses.
  • "Naomi” which is one of the commonly used names of Japanese women in parentheses, is displayed in red, and is the name of a commonly used Japanese man in parentheses.
  • One "Ichiro” is displayed in blue. Therefore, since the color of the characters of the subtitles in parentheses is red or blue, it can be determined that the subtitles in parentheses are the subtitle data for explaining the situation. Further, in the subtitle of one scene 47 shown in FIG.
  • the person's name is displayed in parentheses, and the color of the character is blue. Therefore, since the color of the characters of the subtitles in parentheses is red or blue, it can be determined that the subtitles in parentheses are the subtitle data for explaining the situation.
  • the subtitle data for explaining the situation and the sound effect subtitle data can be divided according to the color of the subtitle characters.
  • the analysis unit described later analyzes whether the word displayed in parentheses is a person's name.
  • personal name data in which a plurality of personal names are recorded in advance can be stored in the memory 61 described later, and the analysis unit 63 described later can refer to the personal name data and determine whether or not the word in parentheses is a personal name. .. If it is determined that the name is a person, the subtitles in parentheses can be determined to be subtitle data for explaining the situation.
  • the characters in parentheses represent a person's name
  • the words of that person are displayed after the person's name is written in parentheses.
  • the utterance subtitle data can be separated by the parentheses information (symbol information) in the utterance order of the conversation. Specifically, it is possible to separate the spoken subtitle data "decided?" And the spoken subtitle data "Yeah.”, And it is possible to distinguish the spoken data by different persons.
  • auxiliary subtitle data representing the feelings of a person who has not been displayed is displayed in italics, which is an obliquely inclined typeface.
  • the italicized subtitle portion is not written in parentheses and is sound effect subtitle data.
  • it can be determined that the subtitle portion of the three-dimensional typeface is spoken subtitle data without being written in parentheses.
  • italicized subtitles can be determined to be auxiliary subtitle data.
  • it is not written in parentheses it can be judged that it is sound effect subtitle data, and the subtitles that are written in parentheses and displayed in red or blue are subtitle data for situation explanation, in colors other than red and blue.
  • the displayed subtitles can be judged as sound effect subtitle data.
  • the sound effect subtitle data and the utterance which are sound effects such as the feelings and narration of the person who are not actually uttered, although they are uttered as sounds during video playback. It is possible to distinguish the subtitle data from.
  • the subtitle data can be divided into sound effect subtitle data and spoken subtitle data by analyzing the subtitle information of the moving image file by the analysis unit 63.
  • the analysis unit 63 analyzes the sound data and separates the sound data into the sound data spoken by a person and the sound data of the sound effect. Separation of the sound data of a person's speech and the sound data of a sound effect can be performed by using, for example, a difference in volume or frequency. In addition, separation can be performed based on a machine learning database constructed from a large number of utterance sound data and sound effect sound data.
  • the vibration generation unit 64 generates a vibration signal based on the analysis result by the analysis unit 63.
  • the vibration generation unit 64 generates a vibration signal corresponding to the speech based on the waveform of the sound data corresponding to the speech by the person, and corresponds to the sound effect based on the waveform of the sound data corresponding to the sound effect. Generates a vibration signal. Then, in the present embodiment, the vibration generation unit 64 outputs the vibration signal corresponding to the speech by the person to the right-hand vibration device 4R and the vibration signal corresponding to the sound effect to the left-hand vibration device 4L.
  • the vibration generation unit 64 outputs a vibration signal corresponding to the sound data when the moving image is reproduced, that is, when the sound data is reproduced.
  • the method for generating the vibration signal for driving the vibrator (vibration device) described in Japanese Patent Application Laid-Open No. 2008-283305 can be used. More specifically, a spectrogram of the audio signal at the same time is obtained from the time waveform of the audio signal during audio data reproduction. The spectrogram shows the time change of the spectrum of the audio signal with respect to the frequency, and the vertical axis represents the frequency and the horizontal axis represents the time. Extract the generation timing of a strong spectrum that occurs instantly in a wide frequency band of the spectrogram.
  • the time derivative of the spectrum is performed, the value, that is, the timing when the amount of time change of the spectrum is large is extracted, the time derivative value is acquired as the intensity, and the vibration signal having a waveform vibrating with the amplitude corresponding to the intensity is obtained.
  • the vibration signal generated in this way is referred to as a vibration signal based on the basic settings.
  • the vibration signal is generated based on the waveform of the sound data
  • the vibration reflects the intonation, volume, speech speed, etc. of the speech of the person. It becomes a thing. Therefore, the viewer can easily imagine the emotions of the person by the vibration, can deepen the understanding of the situation of the scene, and can assist the viewing.
  • the vibration caused by the vibration signal generated based on the waveform of the sound data is the volume, change in volume, and continuation of the sound sound, for example, a car cracking sound or an explosion sound. It reflects the time, etc. Therefore, the viewer can deepen the understanding of the situation by the vibration and can assist the viewing.
  • the vibration generation unit 64 may generate a vibration signal by adjusting the vibration signal according to the basic setting based on the analysis result of the caption information.
  • the vibration generation unit 64 may adjust and generate a vibration signal in the vibration device 4 so that the vibration corresponding to the speech of a person is weaker than the vibration according to the basic setting.
  • the vibration signal may be adjusted and generated so that the vibration corresponding to the sound is relatively weaker than the vibration corresponding to the speech of the person.
  • the speech time of a person tends to be long, and if a strong vibration is presented for a long time corresponding to this, it may be troublesome for the viewer.
  • the vibration generator 64 adjusts the vibration signal according to the basic setting so that the frequency of the vibration corresponding to the speech of the woman is higher than the frequency of the vibration corresponding to the speech of the man. May generate a vibration signal.
  • adult women have a higher voice than adult men, so it is necessary to intuitively understand which of the men and women speaks in the conversation scene between men and women based on the high frequency. Can be done.
  • the vibration signal may be generated by using the content meta information.
  • the vibration signal may not be generated for the speech of the person, and the vibration signal may be generated only for the sound effect. As a result, it is possible to present a sharp vibration signal according to the action scene throughout the moving image.
  • FIG. 3 is a basic flow diagram of the vibration generation method.
  • the acquisition unit 62 acquires the moving image file and reproduces the moving image (S1).
  • the analysis unit 63 analyzes the presence / absence of subtitle information included in the moving image file (S2), and determines whether or not there is subtitle information (S3). In the analysis of the subtitle information, the presence or absence of the subtitle information is determined. Further, when there is subtitle information, the analysis unit 63 determines that the subtitle display position information on the image, the symbol information displayed on the image, the typeface information of the subtitle characters, and the subtitle characters included in the subtitle information. Using the color information, the subtitle data is divided into sound effect subtitle data and spoken subtitle data. Also, in the case of a scene where a plurality of people talk, the utterance subtitle data is divided in the utterance order in the conversation according to the position of the parentheses.
  • the process returns to S2 and the process is repeated. If it is determined that there is subtitle information (Yes), the process proceeds to S4.
  • the analysis unit 63 analyzes the sound information included in the moving image file (S3). When the analysis unit 63 determines that the sound effect subtitle data and the spoken subtitle data are mixed in the subtitle information analysis, the sound information analysis determines that the sound data corresponding to the sound and the sound data corresponding to the person's speech are obtained. Is separated, and each sound data is associated with the effect sound subtitle data and the spoken subtitle data. Further, when the analysis unit 63 determines in the analysis of the subtitle information that only one of the sound effect subtitle data and the spoken subtitle data exists, the sound data separation work becomes unnecessary, and the subtitle data corresponds to the sound data. Be attached.
  • the vibration generation unit 64 generates a vibration signal based on the analysis results of the subtitle information and the sound information, and outputs the vibration signal to the vibration device (S5). That is, a vibration signal corresponding to the sound is generated based on the waveform of the sound data corresponding to the sound, and a vibration signal corresponding to the speech is generated based on the waveform of the sound data corresponding to the speech. The vibration signal is output to the vibration device.
  • the vibration generation process is started when, for example, the viewer grasps the information processing device 1 functioning as the vibration presenting device, and ends when the information processing device 1 is released from the hand. Further, when the subtitle does not exist on the screen, the vibration by the vibration devices 4L and 4R is controlled to be turned off.
  • the vibration corresponding to the sound effect is output to the left-hand vibration device 4L and the vibration corresponding to the speech is output to the right-hand vibration device 4R.
  • the vibration corresponding to the sound effect is the vibration for the right hand.
  • the vibration that is output to the device 4R and corresponds to the speech may be output to the left-hand vibration device 4L. In this way, the viewer can deepen the understanding of the situation of the scene by generating the vibration corresponding to the sound effect and the vibration corresponding to the speech of the person by different vibration devices.
  • FIG. 4 is a flow chart of an example of a vibration generation method when vibration is presented using each of the two vibration devices 4R and 4L, and is a diagram showing S5 of FIG. 3 in more detail.
  • the same step names as those described in FIG. 3 will be given the same step names, and the description thereof will be omitted.
  • S51 to S54 in FIG. 4 correspond to S5 in FIG.
  • the vibration generation unit 64 generates a vibration signal based on the waveform of the sound data for each of the sound effect and the speech of the person using the analysis result (S51). More specifically, the left-hand vibration signal, which is the vibration signal corresponding to the sound data corresponding to the sound data separated by analysis, and the right-hand vibration signal, which is the vibration signal corresponding to the sound data corresponding to the speech. , Is generated.
  • the vibration generation unit 64 determines whether or not the generated vibration signal corresponds to the sound effect (S52). If it is a sound effect (Yes), the process proceeds to S53, and the vibration generator 64 outputs the left-hand vibration signal, which is the vibration signal corresponding to the sound effect, to the left-hand vibration device 4L. If it is not a sound effect (No), the process proceeds to S54, and the vibration generation unit 64 outputs a vibration signal for the right hand, which is a vibration signal corresponding to the speech of a person, to the vibration device 4R for the right hand. As a result, the left-hand vibration device 4L is driven based on the input left-hand vibration signal, and the vibration corresponding to the sound effect is presented to the user. Similarly, the right-hand vibration device 4R is driven based on the input right-hand vibration signal, and the vibration corresponding to the sound effect is presented to the user.
  • a vibration signal corresponding to the speech is generated based on the waveform of the sound data corresponding to the speech, and the sound effect sound.
  • the vibration signal corresponding to the alarm is generated based on the waveform of the sound data corresponding to the alarm.
  • the vibration devices 4R and 4L are driven to present the vibration to the viewer.
  • “sound” indicates sound data
  • “vibration” indicates a vibration signal
  • the vibration signal corresponding to the speech is based on the waveform of the sound data corresponding to the speech of each of the male and female. Is generated.
  • a vibration signal corresponding to the horn is generated based on the waveform of the sound data corresponding to the horn which is a sound effect.
  • a vibration signal is generated based on the sound data corresponding to the utterance, and the vibration is presented to the viewer, so that the intonation, volume, utterance speed, etc. of the utterance that cannot be read only by the subtitle information can be felt by touch. You can feel it, you can easily imagine the character and feelings of the person, and you can deepen your understanding of the situation. Similarly, in the case of sound effects, the volume, volume change, sound duration, etc. can be sensed by vibration, and the understanding of the situation can be deepened.
  • the vibration signal may be generated by adjusting so that the vibration corresponding to the sound effect is relatively smaller than the vibration corresponding to the speech of the person. As a result, as described above, comfortable viewing becomes possible.
  • the vibration generation unit 64 sets the frequency of the vibration corresponding to the female speech to the vibration corresponding to the male speech.
  • the vibration signal may be generated by adjusting the frequency to be higher than the frequency of. This makes it easier for the viewer to intuitively recognize which of the male and female words is spoken by receiving the vibration presentation in the conversation scene between the male and female.
  • the vibration generation unit 64 stops the vibration corresponding to the sound effect in that scene.
  • the vibrating device that emits the vibration corresponding to the first word may be limited, and thereafter, the left and right vibrating devices may be alternately vibrated at each break. For example, in a conversation scene between two people, the vibration corresponding to the first speech is output to the right-hand vibration device 4R, and the vibration corresponding to the second speech is output to the left-hand vibration device 4L.
  • the left-hand vibration signal and the right-hand vibration signal are generated.
  • the vibration corresponding to the first speech is output to the right-hand vibration device 4R, and the vibration corresponding to the second speech is the left-hand vibration device 4L, the third.
  • the vibration corresponding to the wording of is generated a left-hand vibration signal and a right-hand vibration signal so as to alternately drive the vibration device such as the right-hand vibration device 4R.
  • the viewer can sense the utterance speed of each person during the conversation and the utterance speed of each person by vibration, and can deepen the understanding of the situation of the scene.
  • the conversation mode may be set, and in other cases, the vibration signal may be generated as the normal mode.
  • the vibration corresponding to the sound effect is stopped, and the vibration signals are alternately output to the left and right vibration devices 4L and 4R at each conversation break.
  • the normal mode a vibration signal corresponding to a sound effect is output to the left-hand vibration device, and a vibration signal corresponding to a person's speech is output to the right-hand vibration device.
  • one vibration device corresponds to a vibration signal corresponding to a speech and a vibration signal corresponding to a sound effect. It may be configured to be vibrable based on each. In this case, if the vibration corresponding to the speech and the vibration corresponding to the sound effect occur at the same time, one of the vibrations may be stopped. Which vibration is stopped can be determined by using, for example, the content meta information. For example, when the type is action in the content meta information, the vibration for the person's speech is stopped and the vibration signal for the sound effect is output. This presents a sharp vibration according to the action scene, and deepens the understanding of the situation.
  • the information processing device may include at least a control unit and a communication unit for connecting to an external device.
  • the above-mentioned vibration presentation system is applied to a movie theater, and a screen serving as a display unit, a chair equipped with a vibration device, eyewear and a vest that can be directly worn by the viewer, etc. are used as external devices. It may be an information processing device capable of communicating with the device.
  • the hearing aid may be equipped with a vibration device, which may be an external device capable of communicating with an information processing device having a control unit.
  • a vibration device which may be an external device capable of communicating with an information processing device having a control unit.
  • the movie or drama is assumed as the moving image file, but the present technology can be applied to, for example, a moving image file of a game.
  • video files of RPG (Role-Playing Game) games and simulation games contain subtitle information and sound information
  • vibration signals may be generated using them.
  • a moving image file including sound position information such as VR (Virtual Reality) contents, which vibration device among a plurality of vibration devices is driven by which vibration signal, for example, by further using the sound position information. May be decided.
  • the number of vibration devices is two or one has been described, but the number may be three or more.
  • a vibration signal is generated using content meta information, video information, and viewer information. It may be generated. This makes it possible to present vibrations suitable for assisting in grasping the contents of the scene.
  • the content of the scene can be grasped more deeply.
  • a person holding his head is detected using video information, and by recognizing that this person seems to be sad, he / she responds to the speech by this person.
  • the vibration signal may be generated so that the vibration is smaller than the basic setting. As a result, the sad state of the person can be better grasped by vibration.
  • the viewer information includes the attribute information of the viewer who is the user and the viewing environment information.
  • the viewer's attribute information includes the viewer's hearing loss status, age, vibration preference, and the like.
  • the strength of vibration can be adjusted, for example, when the viewer cannot hear at all, the vibration is made stronger than when the viewer can hear a little.
  • elderly people have reduced hearing and reduced perception of vibration due to aging. Therefore, if the viewer is elderly, the strength of the vibration can be adjusted by using the age information, such as strengthening the vibration.
  • the viewer can present more preferable vibration by setting the preference of vibration.
  • the viewer environment information since the outdoor environment is generally noisier than the indoor environment, the viewer is provided with vibration suitable for the viewing environment by adjusting the vibration outdoors more strongly than indoors. Can be presented. The strength of the vibration may be adjusted by comprehensively judging the viewer information.
  • a temperature sensation such as warm or cold a pressure sensation of a suppressed feeling, etc. are presented to the user. It may be configured to do so.
  • a device that presents a feeling of warmth, coldness, or pressure is used.
  • languages such as fire, fire, and flame are included by analysis of subtitle information and audio information, and an image is obtained by video information analysis.
  • the warmth presentation device can present a warm warmth sensation to the user.
  • the wind sensation or the water sensation may be presented to the user by emitting wind or water toward the user using a blowing device, a device capable of discharging water, or the like. Further, it may be configured so that a plurality of sensations can be presented by combining two or more sensations such as vibration sensation, temperature sensation, pressure sensation, wind sensation, and water sensation.
  • An information processing device provided with a control unit.
  • the control unit divides the sound data into sound data corresponding to the effect sound subtitle data and sound data corresponding to the spoken subtitle data, and based on the waveform of each sound data, the sound subtitle data.
  • An information processing device that generates a vibration signal corresponding to the above and a vibration signal corresponding to the spoken subtitle data.
  • the control unit obtains at least one of the subtitle display position information on the image, the symbol information displayed on the image, the subtitle character typeface information, and the subtitle character color information included in the subtitle information.
  • An information processing device that determines whether the subtitle data is the effect sound subtitle data or the spoken subtitle data.
  • the control unit uses the subtitle information in the conversation scene by the plurality of persons and utters the words in the order of speech in the conversation.
  • An information processing device that divides subtitle data and generates the above vibration signal corresponding to each.
  • the control unit generates a vibration signal for the vibration signal corresponding to the sound effect sound and the vibration signal corresponding to the speech of the person so that the magnitude of vibration based on both vibration signals is relatively different.
  • Information processing device (6)
  • the above video file contains content meta information
  • the control unit is an information processing device that generates the vibration signal by adding the content meta information.
  • the control unit is an information processing device that generates the vibration signal by adding information about the user.
  • An information processing device further provided with a vibration presenting unit that presents vibration to the user based on the vibration signal.
  • a vibration presenting unit that presents vibration to the user based on the vibration signal.
  • An information processing device including a plurality of the above vibration presentation units.
  • the control unit uses the subtitle information and the analysis result of analyzing the sound information to generate a vibration signal corresponding to the effect sound subtitle data and a vibration signal corresponding to the spoken subtitle data, and each vibration signal.
  • An information processing device that outputs data to each of the plurality of vibration presenting units that are different from each other.
  • Information processing including a step of generating at least one of a vibration signal corresponding to the effect sound subtitle data and a vibration signal corresponding to the spoken subtitle data based on the waveform of the sound data using the analysis result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】動画再生時に、聴覚障害者に対して視聴の補助が可能な情報処理装置、情報処理方法及びプログラムを提供する。 【解決手段】情報処理装置は制御部を具備する。上記制御部は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成する。

Description

情報処理装置、情報処理方法及びプログラム
 本技術は、動画ファイルの視聴者に対して視聴の補助を行う情報処理装置、情報処理方法及びプログラムに関する。
 一般に、聴覚障害者に対応した映画やドラマといった映像には、聴覚障害者が映像を視聴する際の音声情報の欠落を補助するために音声内容を説明する字幕が表示される。この字幕には、人物の発語の他、状況を説明するための効果音なども表示される。しかし、テキスト表現による字幕では、登場人物の声の抑揚や、音量、発話速度等を表現することが難しい。
 ここで、特許文献1には、自動化触覚化アルゴリズムにより触覚効果を発生させることが記載されている。自動化触覚化アルゴリズムは、触覚効果の生成のために映画のオーディオ及びビデオトラックをパターン識別するように分析する。これに加えて、A/V受信機がキーワードのためにクローズドキャプションテキストを分析する。例えばキーワードとして「爆発」が発見されると、自動化触覚化アルゴリズムは、発見したキーワードのタイムスタンプ周辺の爆発パターンを探し、さらに爆発に相当する強烈な振動のような対応する触覚効果を発生する。A/V機器は、その映画内にて生じるイベントに対応する時間で触覚効果を出力する。
特開2015-53048号公報
 特許文献1に記載される発明では、「爆発」といった所謂効果音に対応する触覚効果をユーザに対して提示することはできるが、聴覚障害者にとって、例えば人物の会話における抑揚や発話速度などを認識することは難しいものとなっている。
 本技術の目的は、動画再生時に、聴覚障害者に対して視聴の補助が可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は制御部を具備する。
 上記制御部は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成する。
 このような構成によれば、音データに基づいて効果音や発語に対応する振動信号を生成しているので、視聴者に対して振動によって動画ファイルの視聴の補助を行うことができる。
 上記制御部は、上記音データを、上記効果音字幕データに対応する音データと上記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成してもよい。
 上記制御部は、上記字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも1つを用いて、上記字幕データが、上記効果音字幕データか、或いは、上記発語字幕データかを判断してもよい。
 上記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、上記制御部は、上記複数の人物による会話シーンにおいて、上記字幕情報を用いて、上記会話での発語順に上記発語字幕データを区切り、それぞれに対応して上記振動信号を生成してもよい。
 上記制御部は、上記効果音に対応する振動信号と、上記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成してもよい。
 上記動画ファイルにはコンテンツメタ情報が含まれ、上記制御部は、上記コンテンツメタ情報を加味して、上記振動信号を生成してもよい。
 上記制御部は、上記ユーザに関する情報を加味して、上記振動信号を生成してもよい。
 上記振動信号に基づいて上記ユーザに対して振動を提示する振動提示部を更に具備してもよい。
 上記振動提示部を複数具備してもよい。
 上記制御部は、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の上記振動提示部それぞれに出力してもよい。
 上記目的を達成するため、本技術の一形態に係る情報処理方法は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成する。
 上記目的を達成するため、本技術の一形態に係るプログラムは、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析するステップと、解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成するステップを含む処理を情報処理装置に実行させる。
振動提示システムの構成を説明する概略図である。 振動提示システムの一部を構成する、振動提示デバイスを備える情報処理装置を、ユーザが用いている様子を示す斜視図である。 振動生成方法の基本フロー図である。 振動生成の1例を説明するフロー図である。 字幕表示された動画のワンシーン例と、当該ワンシーンにおける人物の発語及び効果音それぞれの音波形、当該音波形に基づいて生成された振動信号の波形を示す図である。 字幕表示された他の動画のワンシーン例と、当該ワンシーンにおける人物の発語の音波形及び当該音波形に基づいて生成された振動信号の波形を示す図である。 字幕表示された更に他の動画のワンシーン例と、当該ワンシーンにおける効果音の音波形及び当該音波形に基づいて生成された振動信号の波形を示す図である。 字幕表示された他の動画のワンシーン例を示す図である。
 [振動提示システムの概要]
 本技術の実施形態に係る振動提示システムついて、図1及び図2を用いて説明する。
 図1は、振動提示システムの構成を示す図であり、振動提示システムの一部である情報処理装置の機能ブロック図を含む。
 図2は、振動提示デバイスを備える上記情報処理装置をユーザUが使用している様子を示す斜視図である。
 本実施形態の振動提示システムは、聴覚障害を有するユーザU(以下、視聴者と称する場合がある。)に対して、映画やテレビドラマ、ゲームといった動画のコンテンツを使用する上での、音声上の表現等の把握を補助するものである。
 より具体的には、音声情報、映像情報及び字幕情報を備える動画ファイルの音声情報及び字幕情報を用いて、音声に対応した振動をリアルタイムにユーザUに提示する。本実施形態においては、効果音に対応する振動と、人物の発語に対応する振動を別々に生成する。これにより、例えば映画の場合、視聴者は、映画に登場する人物の声の抑揚、音量、発話速度、効果音の音量、継続時間、音量の変化等を、振動で把握することで、映画の中での状況をより深く理解することができる。
 例えば、聴覚障害を有するユーザUが映像を視聴する際の音声情報の欠落を補助するために音声内容を説明するための字幕に、効果音の説明として画像に「爆発音」と表示される場合、視聴者には、字幕情報だけでは、爆発音が、低い音が持続する地鳴りのような音なのか、或いは、瞬間的に鳴る大きな音なのかがわからない。
 本実施形態においては、効果音の音声データの波形を基に振動信号を生成することにより、どのような爆発音かを振動でユーザに提示することができる。これにより、ユーザUは、映画の中での状況をより深く理解することができる。
 また、他の例として、人物の発語の字幕が表示される場合、字幕情報だけでは人物の感情が読み取りにくい場合がある。本実施形態においては、人物の発語の音声データの波形を基に振動を生成することにより、人物の声の抑揚、音量、発話速度等を振動で提示することができる。これにより、ユーザUは映画の中での状況をより深く理解することができる。
 以下、詳細に説明する。
 図1に示すように、振動提示システム20は、情報処理装置1と、コンテンツ配信サーバ10と、を有する。
 振動提示システム20は、コンテンツ配信サーバ10から配信される動画ファイルの再生時に、動画ファイルに含まれる字幕情報及び音声情報に基づいてリアルタイムに視聴者に振動を提示するものである。
 振動提示システム20では、情報処理装置1とコンテンツ配信サーバ10とがインターネットなどのネットワーク経由で通信可能に接続される。情報処理装置1は、コンテンツ配信サーバ10に対してリストデータの取得要求や、動画ファイルと称する場合がある。)のダウンロード要求を送信し、またコンテンツ配信サーバ10は、情報処理装置1に対してリストデータや、動画ファイルなどを送信する。
 以下では、ダウンロードした動画の再生時に、動画ファイルに含まれる字幕情報及び音声情報に基づいて振動を提示する例をあげて説明する。
 (コンテンツ配信サーバ)
 コンテンツ配信サーバ10は、有料又は無料のコンテンツデータを保持している。コンテンツ配信サーバ10は、動画ファイルを提供する。情報処理装置1がコンテンツ配信サーバ10にアクセスすると、情報処理装置1の後述する表示部2にはコンテンツのリストが表示され、ユーザUがコンテンツを選択することで、コンテンツ配信サーバ10からコンテンツの動画ファイルをダウンロードする。
 動画ファイルには、コンテンツメタ情報と、字幕情報と、映像情報と、音情報と、が含まれる。
 コンテンツメタ情報は、動画のカテゴリ情報、動画の種類情報、放映の状況情報等を含む。
 動画のカテゴリとしては、例えば、映画、スポーツ、アニメ、ニュース等がある。動画の種類としては、例えば、アクション、SF、恋愛等がある。放映の状況としては、番組中、CM中等がある。
 映像情報は、映像データを含む。映像データに含まれる情報には、車、電車、鉄砲、人といった物体情報、喜怒哀楽等のヒトの感情情報、止まる、速く動くといった物体の動き情報、爆発時や発泡時にでるフラッシュ情報、手話情報等がある。
 音情報は、音声データ、音チャンネル数、音源位置情報、副音声情報等を含む。
 音声データは周波数情報、音圧変化情報等を含む。周波数情報によって、高い音、低い音といった音の高低情報が得られる。音圧変化情報によって、爆発音や迫力ある効果音といった音の大きさの情報が得られる。
 副音声情報には、二か国語放送における副音声の言語の音声データの他、目の不自由な方への解説放送等がある。
 字幕情報は、字幕データ、画像上の字幕の表示位置情報、画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報等が含まれる。
 字幕データは字幕テキストデータである。字幕データには、人物の発語を文字情報で示す発語字幕データと、補助字幕データの2種類が含まれる。
 補助字幕データは、視聴者の動画内容の把握を補助する字幕データである。補助字幕データには、効果音を文字情報で説明する効果音字幕データと状況説明用字幕データがある。
 効果音字幕データとは、基本的には人物による発語でない音を説明するものである。例えば、効果音には、車のクラクション、エレベータの到着を知らせる音、犬の鳴き声、扉の開閉音、爆発音等といった、動画再生時に実際に発せられる環境音の他、動画再生時に音として発せられる人物の発語ではあるが、現実的には人物が発語していない人物の心情や、ナレーション等も含まれる。
 状況説明用字幕データは、動画再生中に音として発せられない、状況把握を補助するものである。例えば、複数の人物が会話するシーンでは、字幕に、人物による発語の前に、発語をする人物の名前等が括弧書きで表示される。この人物の名前が、状況説明用字幕データに相当する。このような状況説明用字幕データによって、視聴者は、どの発語がどの人物によるものなのかを把握することができる。尚、括弧内に表示される言葉が人名である場合、例えば、女性の人名は赤色、男性の人名は青色で表示され、性別が区別できるように色を異ならせて表示される場合がある。括弧内に表示される文字の色によって状況説明用字幕データか否かを区別できるようになっている。
 (情報処理装置の構成)
 情報処理装置1は、コンテンツ配信サーバ10にアクセスして動画ファイルをダウンロードする。情報処理装置1は、動画ファイルの字幕情報及び音情報を用いてユーザに対して提示する振動の振動信号を生成するアプリケーションプログラムを備えている。
 情報処理装置1は、例えば携帯電話やPDA(Personal Digital Assistant)、携帯型ゲーム器であってもよい。ここでは、振動提示部としての振動デバイス及び表示部を備える情報処理装置として携帯電話を例にあげて説明する。
 情報処理装置1は、無線LAN(Local Area Network)方式や携帯電話方式等の無線通信方式による通信機能を有していてもよく、また、USBケーブルなどの優先ケーブルで外部機器と接続してコンテンツ配信サーバと通信する構成であってもよい。
 図2に示すように、本実施形態の情報処理装置1は、横長のサイズの表示部2を有し、所謂横持ちの状態でユーザUの両手により把持される。情報処理装置1は、左手用振動デバイス4Lと右手用振動デバイス4Rを有する。ユーザUにより把持された状態で、左手用振動デバイス4LはユーザUの左手に対応して位置し、右手用振動デバイス4RはユーザUの右手に対応して位置する。後述する制御部6から出力された振動信号に基づいて左手用振動デバイス4Lが駆動し振動することにより、ユーザUの左手に振動が提示される。同様に、制御部6から出力された振動信号に基づいて右手用振動デバイス4Rが駆動し振動することにより、ユーザUの右手に振動が提示される。
 ここで、左手用振動デバイス4Lと右手用振動デバイス4Rというように両者を特に区別する必要がない場合は振動デバイス4L、4Rと称する。
 本実施形態の情報処理装置1は、入力された音声信号の波形を振動として出力する。
 図1に示すように、情報処理装置1は、表示部2と、音出力部3と、左手用振動デバイス4Lと、右手用振動デバイス4Rと、通信部5と、制御部6と、入力部7と、スピーカ用アンプ8と、左手用振動デバイス駆動アンプ9Lと、右手用振動デバイス駆動アンプ9Rを有する。
 表示部2は、再生されたコンテンツの映像データやコンテンツリスト等の各種情報をテスト又はイメージで表示する。表示部2は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD)、OLED(Organic Light Emitting Diode)などで構成される。
 表示部2は、制御部6から出力される映像データ及び字幕データに基づく画像を表示する。
 音出力部3は、スピーカやヘッドホン等である。音出力部3は、制御部6から出力される音データ等を音に変化して出力する。
 振動デバイス4L、4Rは、制御部6から出力される振動信号に基づいて駆動しユーザに対して振動を提示する。振動信号は、動画ファイルの音データの波形を基に後述する振動生成部64により生成される。
 振動デバイス4としては、例えば電磁型の振動子のように、音声信号が有する20kHz程度までの周波数帯域の振動に追従可能な振動子を用いる。振動デバイス4には、偏心モータ型アクチュエータ、リニア共振アクチュエータ等、既知のものを用いることができる。
 本実施形態の情報処理装置1は、2つの振動デバイス4L、4Rを有する。
 通信部5は、外部機器との情報の送受信を行う。通信部5は、例えば、LAN、Bluetooth(登録商標)、Wi-Fi等により外部機器と通信可能に接続され、情報の送受信を行う。本実施形態の情報処理装置1は、外部機器であるコンテンツ配信サーバ10から動画ファイルを受信する。
 制御部6は、情報処理装置1を制御する。制御部6は、取得した動画ファイルに含まれる字幕情報及び音情報を用いて振動デバイス4の振動信号を生成し、振動デバイス4へ振動信号を出力する。また、制御部6は、表示部2へ映像データ及び字幕データを出力し、音出力部3へ音データを出力する。制御部6の詳細については後述する。
 入力部7は、情報処理装置1に対する入力インターフェースである。ユーザは、入力部7を介してユーザ情報としての視聴者情報を入力することができる。
 視聴者情報には、ユーザである視聴者の属性情報と視聴環境情報が含まれる。
 視聴者の属性情報は、視聴者の難聴状況、年齢、振動の好み等がある。
 視聴者の難聴状況とは、両耳が聞き取りにくい、右耳のみが聞き取りにくい、左耳は全く聞こえない等の、左右それぞれの耳の難聴の程度である。
 視聴環境情報は、情報処理装置1を用いてコンテンツを視聴する際の視聴者の周辺の環境情報である。環境の例として、屋内、屋外、車や電車等で移動中などがある。
 これらの視聴者情報を総合的に判定して振動の強弱の調整が行われてもよい。
 入力部7の種類は限定されず、入力部7は各種の公知の入力部であってよい。本実施形態では、入力部7としてタッチパネルが用いられ、当該タッチパネルは表示部2の表示面上に設けられる。入力部7の他の例としては、マウス、キーボード、スイッチ等が適用され得る。
 スピーカ用アンプ8は、制御部6から出力された音データを増幅し、音出力部3へ出力する。
 左手用振動デバイス駆動アンプ9Lは、制御部6から出力された左手用振動信号を増幅し、左手用振動デバイス4Lへ出力する。
 右手用振動デバイス駆動アンプ9Rは、制御部6から出力された右手用振動信号を増幅し、右手用振動デバイス4Rへ出力する。
 制御部6について説明する。
 制御部6は、メモリ61と、取得部62と、解析部63と、振動生成部64と、を備える。
 取得部62は、通信部5を介してコンテンツ配信サーバ10から受信した動画ファイルや入力部7で入力された視聴者情報を取得する。
 メモリ61は、制御部6の処理に用いられるプログラムや各種データ、及び取得部62により取得された視聴者情報といった外部から取得した各種データなどを格納する。
 解析部63は、動画ファイルに含まれる字幕情報及び音情報を解析する。
 より詳細には、解析部63は、動画再生時に、字幕情報を解析し、画像上の字幕の表示位置情報、画像上に表示される記号状況、字幕の書体情報、字幕の文字の色情報のうち少なくとも1つを用いて、字幕データを、発語字幕データと、効果音字幕データとに分ける。この際、解析部63は、立体の書体で表示され、かつ、括弧書きされず、かつ、横書きで表示された字幕データは、発語字幕データであり、それ以外は補助字幕データである、と解析する。更に、補助字幕データのうち、括弧書きで赤色又は青色の文字で表示された字幕は状況説明用字幕データであり、それ以外は効果字幕データである、と解析する。
 ここで、動画上の字幕の表示例を参照して、効果音字幕データと発語字幕データとの区別について図を用いて説明する。
 図5(A)、図6(A)、図7(A)、図8(A)~(C)は、それぞれ動画のワンシーンを示し、画像での字幕の表示例について説明するための図である。
 日本映画等の、横書きも縦書きも可能な言語である日本語が字幕に主に用いられる動画においては、画像上の字幕の表示位置によって、字幕データが、発語字幕データか、或いは、効果音字幕データかを判断することができる。
 例えば、字幕に日本語が用いられる動画である図5(A)に示すワンシーン40では、発語字幕データ42は横書きで表示され、効果音である警報の音を説明する効果音字幕データ41が縦書きで表示される。このように、字幕データの表示位置によって、発語字幕データか、或いは、効果音字幕データかを判断することができる。
 また、画像上に表示される記号によって、字幕データを、発語字幕データと補助字幕データとに分けることが可能である。
 例えば、図5(A)に示す動画のワンシーン40では、効果音字幕データ41は括弧書きで表示され、発語字幕データ42には括弧のような記号は用いられていない。
 また、字幕に日本語が用いられる動画例である図7(A)に示すワンシーン45においては、横書きで表示されているが、効果音である車のクラクションの音を説明する補助字幕データ46は括弧書きで表示されている。
 また、洋画等の横書きの言語が字幕に主に用いられる動画例である図8(B)に示すワンシーン50においては、効果音であるエレベータの音を示す補助字幕データ51は括弧書きで表示され、発語字幕データ52には括弧のような記号は用いられていない。
 また、洋画の動画例である図8(C)に示すワンシーン53では、効果音である人物のくすくす笑いを示す補助字幕データ54や、効果音である扉のきしむ音を示す効果音字幕データ56は括弧書きで表示され、発語字幕データ55には括弧のような記号は用いられていない。
 このように、括弧といった記号によって、発語字幕データと、補助字幕データとを区別することが可能である。尚、図5(A)に示すワンシーン40では、括弧書きで表示されるのに加え、縦書きで表示されることにより、効果音字幕データ41であることが判断できる。
 また、画像上に表示される括弧(記号)に加えて、括弧内の字幕の文字の色によって、補助字字幕データを、効果音字幕データと状況説明用字幕データとに分けることが可能である。
 括弧内の文字が赤色又は青色である場合、括弧内の文字は状況説明用字幕データであると判断し、そうでない場合は効果音字幕データであると判断できる。
 図7(A)、図8(B)及び(C)それぞれに示すワンシーン45、47、50では、括弧内の文字が赤色、青色のいずれでもない色で表示されているので、括弧内の字幕は効果音字幕データであると判断できる。
 一方、日本語が字幕に用いられる動画である図6(A)に示すワンシーン43は、二人の人物が会話するシーンであり、字幕に、どの発語がどの人物によるものであるかがわかるように、括弧書きで人物名が表示されている。図6(A)において、括弧書き内の一般的に用いられる日本人女性の名前の1つである「なおみ」は赤字で表示され、括弧書き内の一般的に用いられる日本人男性の名前の1つである「一郎」は青字で表示されている。したがって、括弧内の字幕の文字の色が赤色又は青色であるので、括弧内の字幕は状況説明用字幕データであると判断できる。
 また、日本語が字幕に用いられる動画である図8(A)に示すワンシーン47の字幕では、括弧書きで人物名が表示され、その文字の色は青色となっている。したがって、括弧内の字幕の文字の色が赤色又は青色であるので、括弧内の字幕は状況説明用字幕データであると判断できる。
 このように、字幕の文字の色によって、状況説明用字幕データと効果音字幕データとに分けることができる。
 尚、効果音字幕データと状況説明用字幕データとで色による区別がない場合、括弧内に表示される言葉が人名かどうかを後述する解析部にて解析するように構成してもよい。この場合、例えば、後述するメモリ61に予め複数の人名が収録された人名データを格納し、後述する解析部63で人名データを参照し括弧内の言葉が人名か否かを判定することができる。そして人名であると判定されれば、括弧内の字幕は状況説明用字幕データと判断できる。
 また、複数の人物が会話をしているワンシーン43で、括弧書き内の文字が人名を表している場合、人名の括弧書きの後にその人物の発語が表示される。例えば図6(A)に示すように「(なおみ)決まった? (一郎)うん。」という字幕が表示される。この場合、括弧情報(記号情報)によって、会話の発語順に発語字幕データを区切ることができる。具体的には、「決まった?」という発語字幕データと、「うん。」という発語字幕データとを区切ることができ、異なる人物による発語データを区別することができる。
 また、字幕の文字の書体によって、発語字幕データと補助字幕データとに分けることができる。
 例えば図5(A)に示すワンシーン40では、人物による発語は、傾かずに垂直した正立した書体である立体で表示される。これに対し、字幕に日本語が用いられる動画である図8(A)に示すワンシーン47では、動画再生時に音として発せられる人物の発語ではあるが、現実的には人物が発語していない人物の心情を表す補助字幕データ48は、斜めに傾いた書体である斜体で表示される。
 従って、括弧書きされず、かつ、斜体の字幕部分は効果音字幕データであると判断することができる。また、括弧書きされず、立体の書体の字幕部分は発語字幕データであると判断することができる。
 このように、斜体の字幕部分は補助字幕データであると判断できる。斜体であるのに加え、括弧書きされていない場合は効果音字幕データであると判断でき、括弧書きされ、赤色又は青色で表示される字幕は状況説明用字幕データ、赤及び青以外の色で表示される字幕は効果音字幕データと判断できる。
 このように、字幕の書体によって、動画再生中に音として発せられる発語ではあるが、現実的には人物が発語しない人物の心情やナレーションといった効果音である効果音字幕データと、発語字幕データをと区別することができる。
 以上のように、解析部63により動画ファイルの字幕情報を解析することにより、字幕データを、効果音字幕データと発語字幕データに分けることができる。
 また、解析部63は、音データを解析し、人物による発語の音データと効果音の音データとにわける。
 人物による発語の音データと効果音の音データとの分離は、例えば音量や周波数の違いなどを用いて行うことができる。その他、多数の発話の音データ、効果音の音データから構築された機械学習によるデータベースをもとに分離を行うことができる。
 振動生成部64は、解析部63による解析結果に基づいて振動信号を生成する。振動生成部64は、人物による発語に対応する音データの波形を基にして発語に対応する振動信号を生成し、効果音に対応する音データの波形を基にして効果音に対応する振動信号を生成する。
 そして、本実施形態においては、振動生成部64は、人物による発語に対応する振動信号を右手用振動デバイス4Rへ、効果音に対応する振動信号を左手用振動デバイス4Lへ出力する。振動生成部64は、動画再生時、すなわち音データの再生時に、当該音データに対応する振動信号を出力する。
 振動信号の生成には、例えば特開2008-283305号公報に記載される振動子(振動デバイス)を駆動するための振動信号の生成方法を用いることができる。より詳細には、音声データ再生中の音声信号の時間波形から、同じ時間における音声信号のスペクトログラムを得る。スペクトログラムは周波数に対する音声信号のスペクトルの時間変化を示したものであり、縦軸が周波数、横軸は時間を表す。スペクトログラムの広範囲にわたる周波数帯域で瞬時に生じる強いスペクトルの発生タイミングを抽出する。具体的にはスペクトルの時間微分を行い、その値、すなわちスペクトルの時間変化量が大きいタイミングを抽出し、時間微分値を強度として取得し、当該強度に応じた振幅で振動する波形を有する振動信号を生成する。このように生成する振動信号を基本設定による振動信号と称する。
 このように、音データの波形に基づいて振動信号が生成されるため、例えば人物の発語に対応する振動の場合、その振動は、人物の発語の抑揚、音量、発話速度等を反映したものとなる。したがって、視聴者は振動によって人物の心情等が想像しやすく、シーンの状況の理解をより深めることができ、視聴を補助することができる。
 同様に、効果音に対応する振動の場合では、音データの波形に基づいて生成された振動信号による振動は、例えば車のクラクション音や爆発音といった効果音の音量、音量の変化、音の継続時間等を反映したものとなる。したがって、視聴者は振動によって状況の理解をより深めることができ、視聴を補助することができる。
 更に、振動生成部64は、字幕情報の解析結果に基づいて、基本設定による振動信号を調整して振動信号を生成してもよい。
 具体例として、振動生成部64は、振動デバイス4において、人物の発語に対応する振動を基本設定による振動よりも弱くなるように、振動信号を調整して生成してもよく、更に、効果音に対応する振動が人物の発語に対応する振動よりも相対的に弱くなるように、振動信号を調整して生成してもよい。一般的に、人物の発語時間は長くなりやすく、これに対応して強い振動が長時間提示されると、視聴者にとって煩わしい場合がある。このため、例えば、人物の発語に対応する音データを基に上述のように生成した基本設定による振動信号を波形の振幅が小さくなるように調整して振動信号を生成することにより、より快適な視聴が可能となる。
 また、他の具体例として、振動生成部64は、女性の発語に対応する振動の周波数が男性の発語に対応する振動の周波数よりも大きくなるように、基本設定による振動信号を調整して振動信号を生成してもよい。一般的に、成人女性は成人男性よりも声が高くなるため、振動数の多さによって、男女による会話シーンにおいて男女のうちどちらの発語に対応する振動であるかを直感的に把握することができる。
 また、字幕情報及び音情報に加え、コンテンツメタ情報を用いて振動信号が生成されてもよい。例えば、コンテンツメタ情報で種類がアクションである場合、人物の発語に対しては振動信号を生成せず、効果音に対してのみ振動信号を生成するようにしてもよい。これにより、動画全体にわたって、アクションシーンに応じたメリハリのある振動信号を提示することができる。
 [振動生成方法]
 次に、制御部6における振動生成方法について図3を用いて説明する。
 図3は振動生成方法の基本フロー図である。
 まず、取得部62により、動画ファイルが取得され、動画が再生される(S1)。
 次に、解析部63により、動画ファイルに含まれる字幕情報の有無が解析され(S2)、字幕情報があるかどうかが判定される(S3)。
 字幕情報の解析では、字幕情報の有無が判定される。更に、字幕情報がある場合は、解析部63により、字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報を用いて、字幕データは効果音字幕データと発語字幕データとに分けられる。また、複数の人物が会話するシーンの場合、括弧の位置によって会話での発語順に発語字幕データを区切る。
 字幕情報がないと判定されると(No)、S2に戻り、処理が繰り返される。字幕情報があると判定されると(Yes)、S4に進む。
 S4では、解析部63により動画ファイルに含まれる音情報が解析される(S3)。
 解析部63により、字幕情報の解析で効果音字幕データと発語字幕データが混在すると判断された場合、音情報解析により、効果音に対応する音データと人物の発語に対応する音データとが分離され、それぞれの音データは、効果音字幕データ、発語字幕データに対応づけされる。
 また、解析部63により、字幕情報の解析で効果音字幕データ又は発語字幕データのいずれか一方のみが存在すると判断された場合、音データの分離作業は不要となり、字幕データは音データと対応づけされる。
 次に、振動生成部64により、字幕情報及び音情報の解析結果に基づいて振動信号が生成され、振動デバイスへ出力される(S5)。すなわち、効果音に対応する音データの波形に基づいて効果音に対応する振動信号が生成され、発語に対応する音データの波形に基づいて発語に対応する振動信号が生成され、それぞれの振動信号が振動デバイスへ出力される。
 振動生成処理は、例えば、視聴者が、振動提示デバイスとして機能する情報処理装置1を把持したときに開始され、情報処理装置1を手から離したときに終了する。また、字幕が画面上に存在しない場合は、振動デバイス4L、4Rによる振動がオフ状態となるように制御される。
 次に、具体的な振動信号の生成方法の一例について図4を用いて説明する。
 ここでは、効果音に対応する振動が左手用振動デバイス4Lに出力され、発語に対応する振動が右手用振動デバイス4Rに出力される例をあげるが、効果音に対応する振動が右手用振動デバイス4Rに出力され、発語に対応する振動が左手用振動デバイス4Lに出力されるようにしてもよい。
 このように、効果音に対応する振動と人物の発語に対応する振動をそれぞれ互いに異なる振動デバイスで発生させることにより、視聴者はシーンの状況の把握をより深めることができる。
 図4は、2つの振動デバイス4R、4Lそれぞれを用いて振動を提示する場合の振動生成方法の一例のフロー図であり、図3のS5をより詳細に示した図である。図3で説明したステップと同様のステップについては同様のステップ名を付し、説明を省略する。図4におけるS51~S54が図3のS5に対応する。
 図4に示すように、S4の後、振動生成部64により、解析結果を用いて、効果音及び人物の発語それぞれにおいて、音データの波形を基に振動信号が生成される(S51)。より具体的には、解析により分離された効果音に対応する音データに対応する振動信号となる左手用振動信号と、発語に対応する音データに対応する振動信号となる右手用振動信号と、が生成される。
 次に、振動生成部64により、生成された振動信号が効果音に対応するものか否かが判定される(S52)。効果音であると(Yes)、S53に進み、振動生成部64により、効果音に対応する振動信号である左手用振動信号は左手用振動デバイス4Lに出力される。効果音でないと(No)、S54に進み、振動生成部64により、人物の発語に対応する振動信号である右手用振動信号は右手用振動デバイス4Rに出力される。
 これにより、入力された左手用振動信号に基づいて左手用振動デバイス4Lが駆動し、効果音に対応する振動がユーザに提示される。同様に、入力された右手用振動信号に基づいて右手用振動デバイス4Rが駆動し、効果音に対応する振動がユーザに提示される。
 例えば図5(A)に示すワンシーン40の例では、図5(B)に示すように、発語に対応する音データの波形を基に発語に対応する振動信号が生成され、効果音である警報機に対応する音データの波形を基に警報機に対応する振動信号が生成される。これら振動信号に基づいて、振動デバイス4R、4Lは駆動し視聴者に振動が提示される。
 尚、図5(B)において、「音」は音データを示し、「振動」は振動信号を示し、図6(B)、図7(B)においても同様である。
 また、図6(A)に示すワンシーン43の例では、図6(B)に示すように、男性、女性それぞれの発語に対応する音データの波形を基に発語に対応する振動信号が生成される。
 また、図7(A)に示すワンシーン45の例では、図7(B)に示すように、効果音であるクラクションに対応する音データの波形を基にクラクションに対応する振動信号が生成される。
 このように、発語に対応する音データを基に振動信号が生成され、視聴者に振動が提示されることにより、字幕情報だけでは読み取れない発語の抑揚、音量、発話速度等を触感で感じ取ることができ、人物の性格や心情などが想像しやすく、状況の理解を深めることができる。同様に、効果音においても、音量、音量変化、音の継続時間等を、振動で感じ取ることができ状況の理解を深めることができる。
 また、振動生成において、効果音に対応する振動が人物の発語に対応する振動よりも相対的に小さくするように調整して振動信号を生成してもよい。これにより、上述したように、快適な視聴が可能となる。
 また、振動生成において、字幕情報解析結果によって発語をする人物の性別が判定されている場合、振動生成部64により、女性の発語に対応する振動の周波数を男性の発語に対応する振動の周波数よりも大きくなるように調整して振動信号が生成されてもよい。これにより、視聴者は、男女の会話のシーンにおいて振動提示をうけることによって直感的に男女のうちどちらの発語かを認識し易くなる。
 また、複数人物が会話するシーンにおいて、括弧によって会話での発語順に発語字幕データの区切りが解析されている場合、振動生成部64は、そのシーンでは効果音に対応する振動を停止し、最初の発語に対応する振動を発する振動デバイスを限定し、それ以降は区切り毎に、交互に左右の振動デバイスを交互に振動させるようにしてもよい。
 例えば、2人の人物による会話のシーンでは、最初の発語に対応する振動は右手用振動デバイス4Rに出力し、2番目の発語に対応する振動は左手用振動デバイス4Lに出力するというように、左手用振動信号及び右手用振動信号を生成する。
 また、3人以上の人物による会話のシーンであれば、最初の発語に対応する振動は右手用振動デバイス4Rに出力、2番目の発語に対応する振動は左手用振動デバイス4L、3番目の発語に対応する振動は右手用振動デバイス4R、というように交互に振動デバイスを駆動するように、左手用振動信号及び右手用振動信号を生成する。
 これにより、視聴者は、会話のやり取りの間や各人物の発話速度を振動によって感じ取ることができ、シーンの状況の理解を深めることができる。
 このように、字幕情報解析により、複数の人物による会話シーンであると判断された場合は会話モードとし、それ以外の場合は通常モードとして振動信号が生成されてもよい。会話モードでは、効果音に対応する振動は停止し、会話の区切り毎に左右それぞれの振動デバイス4L、4Rへ交互に振動信号が出力される。通常モードでは、左手用振動デバイスに効果音に対応する振動信号が、右手用振動デバイスに人物の発語に対応する振動信号が出力される。
 尚、ここでは、振動デバイスが2つある場合を例にあげて説明したが、振動デバイスが1つでもよく、1つの振動デバイスが、発語に対応する振動信号と効果音に対応する振動信号それぞれに基づいて振動可能に構成されてもよい。
 この場合、発語に対応する振動と効果音に対する振動が同時に生じる場合、いずれか一方の振動を停止するようにしてもよい。どちらの振動を停止するかは、例えば、コンテンツメタ情報を用いて決定することができる。
 例えば、コンテンツメタ情報で種類がアクションである場合、人物の発語に対する振動は停止し、効果音に対する振動信号を出力するように構成する。これによりアクションシーンに応じたメリハリのある振動が提示され、状況把握がより深まる。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 上述の実施形態においては、情報処理装置として、制御部の他、表示部及び振動デバイスを備える携帯電話を例にあげて説明したが、これに限定されない。情報処理装置は、少なくとも制御部と、外部機器と接続するための通信部を備えていればよい。
 例えば、上述の振動提示システムを映画館に適用し、表示部となるスクリーンと、振動デバイスを備えるイスや、視聴者が直接身に着けることができるアイウェアやベスト等を外部機器とし、当該外部機器と通信可能な情報処理装置としてもよい。イス、アイウェア、ベスト等に設ける振動デバイスは1つ以上あればよく、上述の実施形態の振動デバイスと同様に振動を提示させることができる。
 また、補聴器に振動デバイスを搭載し、これを、制御部を有する情報処理装置と通信可能な外部機器としてもよい。これにより、例えば補聴器のユーザが聴覚の低下が進んでいる場合にも、振動提示によってユーザに音声を喚起することができる。
 また、上述の実施形態においては、動画ファイルとして映画やドラマ等を想定して記載したが、例えばゲームの動画ファイルに本技術を適用することができる。例えば、RPG(Role-Playing Game)ゲームやシミュレーション系のゲームの動画ファイルでは字幕情報及び音情報が入っているため、それらを用いて振動信号を生成してもよい。
 また、VR(Virtual Reality)コンテンツ等、音の位置情報を含む動画ファイルの再生において、音の位置情報を更に用いて、例えば、複数の振動デバイスのうちどの振動デバイスをどの振動信号で駆動させるかを決定するようにしてもよい。
 また、上述の実施形態においては、振動デバイスを2つ又は1つの場合について説明したが、3つ以上であってもよい。
 また、上述の実施形態においては、主に字幕情報及び音声情報を用いて振動を生成する例をあげたが、これに加えて、コンテンツメタ情報、映像情報、視聴者情報を用いて振動信号を生成してもよい。これにより、シーンの内容把握を補助するのに適した振動を提示することができる。
 コンテンツメタ情報を加味して振動信号を生成することにより、画像の内容の特徴に沿った振動を提示することができる。例えば、上述したように動画の種類がアクションという動画ファイルの再生において、人物による発語に対応する振動は発生させず、効果音に対応する振動のみを発生させることができる。
 また、映像情報を加味して振動信号を生成することによって、シーンの内容把握がより深いものとなる。例えば、図5(A)に示すワンシーン40において、映像情報を用いて頭を抱える人物を検出し、この人物が悲しんでいる様子であると認識することによって、この人物による発語に対応する振動が基本設定よりも小さくなるように振動信号を生成してもよい。これにより、人物の悲しい様子を振動によってより把握することができる。
 また、視聴者情報を加味して振動信号を生成することにより、視聴者にとってより好ましい振動を提示することができる。上述したように、視聴者情報には、ユーザである視聴者の属性情報と視聴環境情報が含まれる。視聴者の属性情報は、視聴者の難聴状況、年齢、振動の好み等がある。
 視聴者の難聴状況によって、例えば、全く聞こえない場合は、少し聞こえる場合よりも振動をより強くするなどの振動の強弱の調整ができる。
 また、一般に、高齢者は、老化により聴覚が低下し、また、振動の知覚が低下する。このため視聴者が高齢であれば振動を強めにする等、年齢情報を用いて振動の強弱を調整することができる。
 また、振動の強弱の好みは個人差があるため、視聴者が振動の好みを設定することによってより好ましい振動を提示することができる。
 また、視聴者環境情報において、一般的に屋外は屋内よりも騒がしい環境であるので、屋外では振動を屋内でよりも振動を強く調整するなどして、視聴する環境に適した振動を視聴者に提示することができる。
 これらの視聴者情報を総合的に判断して振動の強弱の調整が行われてもよい。
 また、上述の実施形態では、皮膚感覚提示として振動感覚を提示する例をあげて説明したが、他の皮膚感覚として、温かい、冷たいといった温度感覚、押さえられた感じの圧感覚などをユーザに提示するように構成してもよい。この場合、温感、冷感、圧感といった感覚を提示するデバイスが用いられる。
 例えば、字幕情報、音声情報に加え映像情報を用いて皮膚感覚提示を生成する際、字幕情報や音声情報の解析により火事、火、炎等の言語が含まれ、更に、映像情報解析により画像が炎で赤くなっている場合、温感提示デバイスにより、ユーザに対して温かい温度感覚を提示することができる。
 また、皮膚感覚提示として、送風デバイスや水が吐出可能なデバイスなどを用いてユーザにむけて風や水を発することによって、風感覚や水感覚などをユーザに提示してもよい。
 また、振動感覚、温度感覚、圧感覚、風感覚、水感覚などから2つ以上くみあわせて複数の感覚を提示できるように構成してもよい。
 なお、本技術は以下のような構成もとることができる。
 (1)
 効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成する制御部
 を具備する情報処理装置。
 (2)
 上記(1)に記載の情報処理装置であって、
 上記制御部は、上記音データを、上記効果音字幕データに対応する音データと上記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成する
 情報処理装置。
 (3)
 上記(2)に記載の情報処理装置であって、
 上記制御部は、上記字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも1つを用いて、上記字幕データが、上記効果音字幕データか、或いは、上記発語字幕データかを判断する
 情報処理装置。
 (4)
 上記(1)又は(2)に記載の情報処理装置であって、
 上記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、上記制御部は、上記複数の人物による会話シーンにおいて、上記字幕情報を用いて、上記会話での発語順に上記発語字幕データを区切り、それぞれに対応して上記振動信号を生成する
 情報処理装置。
 (5)
 上記(3)に記載の情報処理装置であって、
 上記制御部は、上記効果音に対応する振動信号と、上記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成する
 情報処理装置。
 (6)
 上記(1)~(4)のいずれか1つに記載の情報処理装置であって、
 上記動画ファイルにはコンテンツメタ情報が含まれ、
 上記制御部は、上記コンテンツメタ情報を加味して、上記振動信号を生成する
 情報処理装置。
 (7)
 上記(1)~(6)のいずれか1つに記載の情報処理装置であって、
 上記制御部は、上記ユーザに関する情報を加味して、上記振動信号を生成する
 情報処理装置。
 (8)
 上記(1)~(7)のいずれか1つに記載の情報処理装置であって、
 上記振動信号に基づいて上記ユーザに対して振動を提示する振動提示部
 を更に具備する情報処理装置。
 (9)
 上記(8)に記載の情報処理装置であって、
 上記振動提示部を複数具備する
 情報処理装置。
 (10)
 上記(9)に記載の情報処理装置であって、
 上記制御部は、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の上記振動提示部それぞれに出力する
 情報処理装置。
 (11)
 効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成する
 情報処理方法。
 (12)
 効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析するステップと、
 解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも1つを生成するステップ
 を含む処理を情報処理装置に実行させるためのプログラム。
 1…情報処理装置
 6…制御部
 42、44、52、55…発語字幕データ
 41、46、48、51、54、56…効果音字幕データ

Claims (12)

  1.  効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも1つを生成する制御部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記音データを、前記効果音字幕データに対応する音データと前記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、前記効果音字幕データに対応する振動信号と前記発語字幕データに対応する振動信号を生成する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記制御部は、前記字幕情報に含まれる、画像上の字幕の表示位置情報、前記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも1つを用いて、前記字幕データが、前記効果音字幕データか、或いは、前記発語字幕データかを判断する
     情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、前記制御部は、前記複数の人物による会話シーンにおいて、前記字幕情報を用いて、前記会話での発語順に前記発語字幕データを区切り、それぞれに対応して前記振動信号を生成する
     情報処理装置。
  5.  請求項3に記載の情報処理装置であって、
     前記制御部は、前記効果音に対応する振動信号と、前記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成する
     情報処理装置。
  6.  請求項3に記載の情報処理装置であって、
     前記動画ファイルにはコンテンツメタ情報が含まれ、
     前記制御部は、前記コンテンツメタ情報を加味して、前記振動信号を生成する
     情報処理装置。
  7.  請求項3に記載の情報処理装置であって、
     前記制御部は、前記ユーザに関する情報を加味して、前記振動信号を生成する
     情報処理装置。
  8.  請求項3に記載の情報処理装置であって、
     前記振動信号に基づいて前記ユーザに対して振動を提示する振動提示部
     を更に具備する情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記振動提示部を複数具備する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記制御部は、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記効果音字幕データに対応する振動信号と前記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の前記振動提示部それぞれに出力する
     情報処理装置。
  11.  効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも1つを生成する
     情報処理方法。
  12.  効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析するステップと、
     解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも1つを生成するステップ
     を含む処理を情報処理装置に実行させるためのプログラム。
PCT/JP2020/019600 2019-06-28 2020-05-18 情報処理装置、情報処理方法及びプログラム WO2020261805A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021527471A JPWO2020261805A1 (ja) 2019-06-28 2020-05-18
CN202080045646.5A CN114008566A (zh) 2019-06-28 2020-05-18 信息处理装置、信息处理方法和程序
US17/621,455 US20220353457A1 (en) 2019-06-28 2020-05-18 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019121121 2019-06-28
JP2019-121121 2019-06-28

Publications (1)

Publication Number Publication Date
WO2020261805A1 true WO2020261805A1 (ja) 2020-12-30

Family

ID=74060876

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019600 WO2020261805A1 (ja) 2019-06-28 2020-05-18 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20220353457A1 (ja)
JP (1) JPWO2020261805A1 (ja)
CN (1) CN114008566A (ja)
WO (1) WO2020261805A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242301A1 (zh) * 2021-05-20 2022-11-24 荣耀终端有限公司 振动描述文件的生成方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010200085A (ja) * 2009-02-26 2010-09-09 Funai Electric Co Ltd 映像機器
JP2016054398A (ja) * 2014-09-03 2016-04-14 株式会社東芝 映像装置および映像装置の制御方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10271392A (ja) * 1997-03-21 1998-10-09 Iida Denshi Sekkei Kk 画像への字幕スーパー重畳システム
US6256070B1 (en) * 1998-08-03 2001-07-03 Ati International Srl Concurrent discrete time oscillators (DTO) for video and closed caption encoding
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
KR101830656B1 (ko) * 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
KR101564659B1 (ko) * 2014-04-22 2015-10-30 주식회사 뱁션 효과음을 이용한 자막 삽입 시스템 및 방법
KR101719868B1 (ko) * 2014-06-18 2017-03-27 한양대학교 산학협력단 카메라촬영효과를 기반으로 한 감정정보 추출 및 전달 방법 및 장치
US10162506B2 (en) * 2014-07-18 2018-12-25 Apple Inc. Systems and methods for selecting portions of media for a preview
CN206147183U (zh) * 2016-10-28 2017-05-03 福建太尔电子科技股份有限公司 具有骨传导功能的vr眼镜
KR20190056119A (ko) * 2017-11-16 2019-05-24 삼성전자주식회사 디스플레이장치 및 그 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010200085A (ja) * 2009-02-26 2010-09-09 Funai Electric Co Ltd 映像機器
JP2016054398A (ja) * 2014-09-03 2016-04-14 株式会社東芝 映像装置および映像装置の制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAMAKAWA, TATSUYA,: "Astudy of haptic interface to transmit emotion of the actors in a drama", IEICE TECHNICAL REPORT, vol. 114, no. 357, 4 December 2014 (2014-12-04), pages 23 - 27 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242301A1 (zh) * 2021-05-20 2022-11-24 荣耀终端有限公司 振动描述文件的生成方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
JPWO2020261805A1 (ja) 2020-12-30
CN114008566A (zh) 2022-02-01
US20220353457A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
US8638966B2 (en) Haptic chair sound enhancing system with audiovisual display
EP2165531B1 (en) An audio animation system
US8873767B2 (en) Audio or audio/visual interactive entertainment system and switching device therefor
US8760575B2 (en) Adaptive videodescription player
US8010366B1 (en) Personal hearing suite
US10741089B2 (en) Interactive immersion system for movies, television, animation, music videos, language training, entertainment, video games and social networking
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
Huwiler A Narratology of Audio Art: Telling Stories by Sound¹
Bicevskis et al. Visual-tactile integration in speech perception: Evidence for modality neutral speech primitives
WO2020261805A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
WO2023084933A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20180035236A1 (en) Audio System with Binaural Elements and Method of Use with Perspective Switching
JP6523038B2 (ja) 感覚提示装置
JP7279861B2 (ja) 送信装置、コミュニケーション方法、及びプログラム
Aguilar Testimonios and Turntables: Claiming Our Narratives through Sound and Space
JPH10282970A (ja) 音声情報表示装置
US20020128847A1 (en) Voice activated visual representation display system
JP2009000248A (ja) ゲーム機
Abraitienė et al. Translation as a Means of Social Integration.
JP2002118828A (ja) 動作端末およびその制御方法
CN116504265A (zh) 用于控制音频的***和方法
JP2002239220A (ja) 遊戯情報、遊戯システム及び情報記憶媒体
JP2023023032A (ja) 手話情報伝送装置、手話情報出力装置、手話情報伝送システム及びプログラム
JP2007192882A (ja) 評価装置、評価方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20832631

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021527471

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20832631

Country of ref document: EP

Kind code of ref document: A1