WO2012063415A1 - 音声制御装置および音声制御方法 - Google Patents

音声制御装置および音声制御方法 Download PDF

Info

Publication number
WO2012063415A1
WO2012063415A1 PCT/JP2011/005966 JP2011005966W WO2012063415A1 WO 2012063415 A1 WO2012063415 A1 WO 2012063415A1 JP 2011005966 W JP2011005966 W JP 2011005966W WO 2012063415 A1 WO2012063415 A1 WO 2012063415A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
speaker
output
speaker information
Prior art date
Application number
PCT/JP2011/005966
Other languages
English (en)
French (fr)
Inventor
信裕 神戸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Publication of WO2012063415A1 publication Critical patent/WO2012063415A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • Voice communication tools represented by telephones are tools that can exchange information without visual inspection.
  • various infrastructures for providing a high-quality voice communication environment have been prepared by increasing the speed and capacity of Internet communication. Therefore, the voice communication tool enables realistic voice communication using such infrastructure. That is, the possibility of applying the voice communication tool to various fields is expanding due to the improvement of the quality of related technology.
  • One of the most promising application fields is an unspecified number of multi-point voice communication systems such as video conference systems, multi-party calls, and voice chat.
  • multi-point voice communication systems such as video conference systems, multi-party calls, and voice chat.
  • Patent Document 1 For example, refer to Patent Document 1, when a large number of people's utterances are converted into characters and displayed on the screen, such as in a roundtable or a meeting, a speaker name is additionally added to each utterance category. indicate. Further, it is conceivable to use a technique (for example, refer to Patent Document 2) that visually displays speaker information indicating a speaker of the speech voice by a visual indicator.
  • a user may be interested in a certain utterance voice being output and want to know who the speaker is.
  • Such a situation can occur, for example, when there are a plurality of conversation groups or when the conference is heated.
  • An object of the present invention is to provide a voice control device and a voice control method that can more reliably notify the user of the speaker information of the uttered voice being output that the user wants to know.
  • the voice control device includes a receiving unit that receives voice data including a voice, a voice output unit that outputs the voice based on the acquired voice data, and a speaker of the voice that is being output.
  • a speaker information holding unit that holds information; and an operation input unit that accepts a predetermined operation at an arbitrary timing; and the voice output unit outputs the utterance voice being output when the predetermined operation is performed.
  • the speaker information is output by voice.
  • the voice control method of the present invention includes a step of receiving voice data including an utterance voice, a step of outputting the utterance voice based on the acquired voice data, and holding speaker information of the utterance voice being output And a step of accepting a predetermined operation at an arbitrary timing, and a step of outputting the speaker information of the uttered voice being output by voice when the predetermined operation is performed.
  • the present invention it is possible to more reliably notify the user of the speaker information of the uttered voice being output that the user wants to know.
  • the system block diagram which shows the structure of the audio
  • the flowchart which shows an example of operation
  • the figure which shows an example of the setting content of arrangement
  • the block diagram which shows an example of a structure of the audio
  • the flowchart which shows an example of operation
  • Embodiment 1 of the present invention is an example in which the sound control apparatus according to the present invention is applied to a digital radio receiving apparatus.
  • FIG. 1 is a system configuration diagram showing the configuration of the voice control device according to the first embodiment of the present invention.
  • the voice control device 100 includes a receiving unit 110, an operation input unit 120, a speaker information holding unit 130, and a voice output unit 140.
  • the receiving unit 110 includes, for example, an antenna and a tuner, receives audio data broadcast from the audio providing apparatus 200 as a digital radio signal, and outputs the audio data to the audio output unit 140. At this time, the receiving unit 110 acquires the identification information of the audio data from the arrangement information described later, and adds the identification information to the audio data. In addition, the reception unit 110 receives the speaker information broadcast in association with the time of the voice data from the voice providing apparatus 200 and outputs the speaker information to the speaker information holding unit 130. At this time, the receiving unit 110 adds identification information to the speaker information.
  • the audio providing apparatus 200 in the present embodiment is a communication facility of a digital radio broadcasting station, for example. Also, the voice providing apparatus 200 broadcasts a plurality of voice data generated for each speaker to be output at the same time by channel multiplexing.
  • the speaker information in the present embodiment includes text data of a pseudonym name of the speaker (hereinafter referred to as “speaker name”), and is added to the audio data broadcast by the audio providing apparatus 200.
  • the identification information is information set by the receiving unit 110 based on channel identification information and the like, and is arrangement information indicating a direction in which the uttered voice of the speaker can be heard by the user.
  • FIG. 2 is a schematic diagram for explaining the arrangement information.
  • the receiving unit 110 virtually arranges each speaker 500 (speech data transmission source) in a virtual space assumed around the user 400 on the basis of the basic posture of the user 400. And the receiving part 110 sets the information which shows the arrangement place with respect to each speaker 500 as arrangement information.
  • some speaker 500 1 the front direction in the basic posture of the user 400, and is set as the placement information.
  • the speaker 500 1 speech sound from the front direction in the basic posture of the user 400 hear, the arrangement of the sound is controlled.
  • the audio controller 100 a feeling of the speaker 5001 is as if located in front can be given to the user.
  • the operation input unit 120 has a motion sensor, for example, and accepts designation of arrangement information by a predetermined operation from a user at an arbitrary timing. Then, when a predetermined operation is performed, the operation input unit 120 outputs a speaker information request indicating that to the speaker information holding unit 130 together with designated arrangement information (hereinafter referred to as “designated arrangement information”). To do.
  • the operation input unit 120 may be a key button, a switch, a dial, or the like. Further, the operation input unit 120 may include a remote controller separated from the voice control device 100 and a controller reception unit that receives an operation signal from the remote controller.
  • the speaker information holding unit 130 When the speaker name added to the arrangement information is input from the receiving unit 110, the speaker information holding unit 130 in FIG. However, the speaker information holding unit 130 holds only the latest speaker name for the speaker names of the same arrangement information, and deletes the speaker names for which a predetermined time has passed since the input.
  • the speaker information holding unit 130 receives the speaker information request and the designated arrangement information from the operation input unit 120, and extracts the speaker name corresponding to the designated arrangement information. Then, each time a speaker information request is input, the speaker information holding unit 130 outputs the speaker name to the voice output unit 140 together with the designated arrangement information.
  • the audio output unit 140 generates output audio data from the audio data input from the receiving unit 110 at a virtual position indicated by the arrangement information, and transmits the output audio data to the audio output device 300.
  • the audio output device 300 is, for example, a stereo speaker or a stereo headphone, and outputs stereo audio based on the received output audio data. Note that the processing delay from the reception of audio data in the audio control apparatus 100 to the audio output in the audio output apparatus 300 is very short.
  • the voice output unit 140 outputs a plurality of uttered voices based on the plurality of voice data via the voice output device 300.
  • the voice output unit 140 when the voice output unit 140 receives the designated arrangement information and the speaker name from the speaker information holding unit 130, the voice output unit 140 generates data of a reading voice of the speaker name. Then, the voice output unit 140 superimposes the generated voice data of the speaker name on the output voice data being generated. At this time, the voice output unit 140 superimposes the voice data so that the speaker name can be heard from the direction corresponding to the designated arrangement information. That is, every time a speaker information request is issued, the voice of the speaker name is output from the direction corresponding to the designated arrangement information. Note that it is desirable that the voice output unit 140 arranges the voice of the speaker information in a direction (for example, a slightly lower direction) slightly different from the direction indicated by the designated arrangement information (the direction in which the speaker is arranged). This makes it easy for the user to distinguish and listen to the speech and speaker information while recognizing them in association with each other.
  • a direction for example, a slightly lower direction
  • Such a voice control device 100 can let the user hear the voice in a different direction for each speaker. Further, when the user performs an operation of turning his / her face in any direction, the voice control device 100 can notify the user of the speaker name of the speaker set in that direction by voice.
  • the speaker name speaker 500 1, from the front direction are arranged in the speaker 500 1, so that the user is notified 400 by voice.
  • the voice control device 100 outputs the speaker information of the voice that can be heard from the direction specified by the user at a user's arbitrary operation timing. Therefore, the voice control device 100 can more reliably notify the user of the name of the uttered voice being output that the user wants to know.
  • FIG. 3 is a flowchart showing an example of the operation of the voice control device 100.
  • step S1000 the receiving unit 110 determines whether or not there has been a request for termination of an operation by a user operation or the like. If there is no termination request (S1000: NO), the receiving unit 110 proceeds to step S2000.
  • step S2000 the receiving unit 110 determines whether or not one or a plurality of audio data broadcast from the audio providing apparatus 200 has been received. As described above, speaker information is added to the audio data by the receiving unit 110. If the audio data is not received (S2000: NO), the receiving unit 110 returns to step S1000. Moreover, the receiving part 110 progresses to step S3000, when audio
  • step S3000 the receiving unit 110 determines whether there is audio data (transmission source, channel) for which arrangement information is not set in the received audio data. If there is audio data for which arrangement information is not set (S3000: YES), the receiving unit 110 proceeds to step S4000. Moreover, the receiving part 110 progresses to step S5000, when arrangement
  • step S4000 the receiving unit 110 sets the arrangement information in the vacant direction for the audio data for which the arrangement information is not set, and proceeds to step S5000.
  • FIG. 4 is a diagram showing an example of setting contents of the arrangement information.
  • the receiving unit 110 assigns audio data 720 for each direction 710. Then, the reception unit 110 sets information indicating the allocation destination direction 710 as arrangement information for the audio data 720. For example, as shown in FIG. 4, it is assumed that voice data 1 including Mr. Yamada's speech is assigned in the front direction. In this case, when the user crawls in the front direction, the voice “Mr. Yamada” is heard from the front direction by the subsequent processing. Further, for example, as shown in FIG. 4, it is assumed that no audio data is assigned in the left direction. In this case, when receiving audio data for which arrangement information is not set, the receiving unit 110 assigns the audio data in the left direction, and sets the arrangement information in the left direction in the audio data.
  • the receiving unit 110 outputs the voice data to which the placement information is added to the voice output unit 140, and outputs the speaker information to which the placement information is added to the speaker information holding unit 130.
  • the speaker information holding unit 130 is in a state of holding the speaker information corresponding to the voice data being received.
  • step S6000 the audio output unit 140 generates output audio data from the audio data so that the user 400 can hear it from the position of the arrangement information added to the audio data, and outputs the output audio data to the audio output device 300.
  • step S7000 the operation input unit 120 waits for a predetermined operation, that is, a request for presentation of speaker information, to be input while the audio output unit 140 is outputting audio.
  • a predetermined operation that is, a request for presentation of speaker information
  • operation input unit 120 proceeds to step S8000. If the predetermined operation has not been performed (S7000: NO), operation input unit 120 proceeds to step S9500.
  • step S8000 the speaker information holding unit 130 specifies a speaker name corresponding to the designated arrangement information added to the speaker information request, and outputs the speaker name and the designated arrangement information to the voice output unit 140.
  • step S9000 the voice output unit 140 generates output voice data of the spoken name speech so that the user 400 can hear from the position of the designated arrangement information added to the speaker information request. Then, the audio output unit 140 superimposes the generated audio data on the audio data input from the receiving unit 110 and outputs the superimposed audio data to the audio output device 300. Then, the process proceeds to step S9500.
  • step S9500 the voice control device 100 determines whether voice is being output continuously. If the sound control apparatus 100 is outputting sound (S9500: YES), the sound control apparatus 100 returns to step S7000 and continues sound output and monitoring of a predetermined operation. When performing stream processing on audio data, the audio control device 100 may return to step S6000. Further, when the output of the voice is completed (S9500: NO), the voice control device 100 returns to step S1000 and continues to monitor reception of new voice data.
  • the process of holding the received speaker information and outputting the received voice data, the process of accepting the operation input, and the process of outputting the voice of the speaker name may be executed simultaneously in different threads. Further, a plurality of processes for holding the speaker information and outputting the received voice data may exist simultaneously, and the plurality of processes may be executed in parallel.
  • the voice control device 100 holds the speaker information of the uttered voice being output, and holds the utterance when a predetermined operation is performed during the output of the uttered voice. Person information is output by voice. Thereby, the voice control apparatus 100 can more reliably notify the user of the speaker information of the uttered voice being output that the user wants to know.
  • the voice control device 100 is suitable for radio broadcast viewing while driving a vehicle, voice communication during housework, and the like.
  • the predetermined operation is not limited to the above-described example, and for example, a predetermined button pressing operation may be performed.
  • the operation for specifying the placement information is not limited to the above example.
  • the final push of the button is performed on the assumption that the placement information is switched in a predetermined order each time one button is pushed. It may be performed by the number of times.
  • the speaker information holding unit 130 does not necessarily have to delete the speaker information after a predetermined time has elapsed.
  • the speaker information holding unit 130 desirably deletes the corresponding speaker information before the timing of changing the speaker of the voice data of the same channel. For this reason, the speaker information holding unit 130 may delete the corresponding speaker information every time the voice data ends.
  • the speaker information holding unit 130 may delete each speaker information as appropriate in the order of low speaking frequency of the speaker, or delete the speaker information of the speaker who has not spoken for a certain period of time. Good.
  • the arrangement information may be set by the voice providing apparatus 200.
  • the voice providing apparatus 200 adds arrangement information to the voice data of each channel, for example.
  • voice control apparatus 100 uses the arrangement
  • the arrangement information may be manually set or changed by the user of the voice control device 100.
  • the second embodiment of the present invention is an example in which the voice control device according to the present invention is applied to a voice communication tool for a multipoint conference system.
  • FIG. 5 is a block diagram showing an example of the configuration of the voice control device according to the present embodiment.
  • the voice control device 100a includes a voice input unit 150a and a transmission unit 160a in addition to the configuration of FIG.
  • the voice control device 100a according to the present embodiment includes an operation input unit 120a and a speaker information holding unit 130a that are different from those in the first embodiment.
  • the voice input unit 150a is connected to the voice input device 600a that inputs the user's uttered voice by wire or wirelessly, and receives an electrical signal of voice including the user's uttered voice from the voice input device 600a. Then, the audio input unit 150a converts the received electrical signal into audio data of a digital signal (hereinafter referred to as “user audio data”) by an A / D converter.
  • the voice input device 600a is, for example, a headset microphone, and is a device that converts input voice into an electrical signal.
  • the voice input unit 150a receives the mode switching operation information input from the operation input unit 120a, and switches between the speaker information input mode and the conversation mode. In the speaker information input mode, the voice input unit 150a outputs the received user voice data to the speaker information holding unit 130a. In the conversation mode, the voice input unit 150a outputs user voice data to the transmission unit 160a.
  • the voice input unit 150a may sequentially determine whether a preset voice command is included in the user voice data by the voice recognition function. Then, when a voice command is detected, the voice input unit 150a may output command information indicating the content to the operation input unit 120a. Alternatively, the function of detecting this voice command may be installed in the operation input unit 120a.
  • the user voice data in the conversation mode is hereinafter referred to as “conversation voice data”.
  • the conversation voice data corresponds to “voice data” broadcast from the voice providing apparatus 200 in the first embodiment.
  • the operation input unit 120a has a function of receiving a mode switching operation and outputting mode switching operation information to the voice input unit 150a in addition to the function of the operation input unit 120 of the first embodiment.
  • the mode switching operation information is information that designates the timing of recording start and recording end, for example. Note that this function is not necessarily required when the mode is switched by a voice command.
  • the speaker information holding unit 130a has a function of holding the speaker information input from the voice input unit 150a in addition to the function of the speaker information holding unit 130 of the first embodiment. It is assumed that the speaker information in the present embodiment is voice data (hereinafter referred to as “speaker information voice data”) read out by the user of the speaker name.
  • speaker information voice data voice data (hereinafter referred to as “speaker information voice data”) read out by the user of the speaker name.
  • the transmission unit 160a has a network device for connecting to the Internet, for example, and transmits conversation voice data input from the voice input unit 150a to the voice providing apparatus 200a. At this time, the transmission unit 160a adds the speaker information voice data held in the speaker information holding unit 130a to the conversation voice data. It is assumed that receiving section 110 according to the present embodiment has a network device for connecting to the Internet.
  • the voice providing device 200a is, for example, a communication server provided on the Internet and provided with a file system and a database.
  • a voice providing apparatus 200a receives conversation voice data from a voice control apparatus 100a in a multipoint conference, the voice providing apparatus 200a transfers the conversation voice data to all the other voice control apparatuses 100a participating in the multipoint meeting. It has a function.
  • Such a voice control device 100a can transmit conversation voice data to which the speaker information voice data is added to another voice control device 100a via the voice providing device 200a. This eliminates the need to prepare a function for adding the speaker information to the conversational voice data, particularly in the voice providing apparatus 200a. In addition, the user can easily set the speaker information. Further, since the speaker information is voice data, the text-to-speech function can be dispensed with and the user's voice can be added as information.
  • FIG. 6 is a flowchart showing an example of the operation of the voice control device 100a, and corresponds to FIG. 3 of the first embodiment.
  • the same parts as those in FIG. 3 are denoted by the same reference numerals, and description thereof will be omitted.
  • the voice input unit 150a determines whether or not the speaker information input mode is set in step S1100a. If the voice input unit 150a is in the speaker information input mode (S1100a: YES), the voice input unit 150a outputs the user voice data (that is, the speaker information voice data) to the speaker information holding unit 130a, and proceeds to step S1200a. If the speaker input mode is not the speaker information input mode (S1100a: NO), the voice input unit 150a outputs user voice data (here, conversation voice data) to the transmission unit 160a and proceeds to step S1300a.
  • step S1200a the speaker information holding unit 130a holds the input speaker information voice data, and proceeds to step S1300a.
  • the speaker information holding unit 130a may overwrite past speaker information voice data with newly input speaker information, or may hold a plurality of types of speaker information voice data.
  • step S1300a the transmission unit 160a determines whether conversation voice data is input from the voice input unit 150a.
  • conversation voice data is input (S1300a: YES)
  • transmission section 160a proceeds to step S1400a. If the conversation voice data is not input (S1300a: NO), the transmission unit 160a proceeds to step S2000.
  • step S1400a the transmission unit 160a adds the speaker information voice data held in the speaker information holding unit 130a to the input conversation voice data and transmits it to the voice providing apparatus 200a, and the process proceeds to step S2000.
  • the transmission unit 160a may switch the speaker information audio data to be used according to a user operation or a transmission destination.
  • step S2000 The operations after step S2000 are the same as those in the first embodiment. However, since the speaker information acquired from the voice providing device 200a is the speaker information voice data, the voice control device 100a directly outputs the voice from the speaker information without generating the reading voice.
  • the voice control device 100a can transmit conversation voice data to which speaker information voice data is added.
  • the voice control device 100a since the voice control device 100a according to the present embodiment transmits conversation voice data to which speaker information is added, it is suitable for a system in which voice data is exchanged.
  • the speaker voice data since the speaker voice data is used, the text-to-speech function can be dispensed with. Further, since the speaker information voice data is created by recording the user's own voice, the user can recognize the speaker more intuitively.
  • the speaker information does not necessarily need to be transmitted every time conversation voice data is transmitted, and may be transmitted only once, for example, at the start of a conference.
  • the speaker information is transmitted every time, there is an advantage that it is not necessary to strictly manage the correspondence between the transmission source and the arrangement of the conversation voice data on the receiving side, but the utterance of each transmitting source once received on the receiving side Person information must be stored. Further, when the number of times the speaker information is transmitted is suppressed, there is an advantage that the communication load is reduced.
  • the speaker information may be managed by the voice providing apparatus 200a, not by the voice control apparatus 100a on the transmission side. Further, when the speech control apparatus 100a does not transmit the speaker information every time the conversation voice data is transmitted, it is necessary to use an identifier that uniquely associates the speaker information with the conversation voice data.
  • This identifier may be information inherently held by the voice control device 100a such as a serial number or a MAC (media access control) address. Alternatively, this identifier may be a value set by the voice control device 100a or the voice providing device 200a.
  • the function of the voice providing apparatus 200a may be mounted on one or a plurality of voice control apparatuses 100a. In this case, an ad hoc network environment is formed.
  • the receiving unit associates the voice data with the time of the voice data.
  • the speaker information may be received and held in the speaker information holding unit.
  • the voice output unit may output the speaker information corresponding to the time of the voice data being output.
  • the speaker information is information that can identify the speaker such as the speaker name, but is not necessarily limited thereto.
  • the speaker information can be voice information such as a number, a beep sound, music, or the like.
  • the voice to be identified does not necessarily have to be a voice of speech or conversation, for example, a sound of musical instrument performance or a singing voice.
  • the output source of the sound to be identified is not necessarily a person, and may be, for example, an animal or a vehicle.
  • the present invention is useful as a voice control device and a voice control method that can more reliably notify the user of the speaker information of the uttered voice being output that the user wants to know.
  • SYMBOLS 100, 100a Voice control apparatus 110 Reception part 120, 120a Operation input part 130, 130a Speaker information holding part 140 Voice output part 150a Voice input part 160a Transmitter 200, 200a Voice providing apparatus 300 Voice output apparatus 600a Voice input apparatus

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)

Abstract

 ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置。この装置(100)は、発話音声を含む音声データを受信する受信部(110)と、取得された音声データに基づいて発話音声を出力する音声出力部(140)と、出力中の発話音声の発話者情報を保持する発話者情報保持部(130)と、所定の操作を任意のタイミングで受け付ける操作入力部(120)とを有し、音声出力部(140)は、所定の操作が行われたとき、出力中の発話音声の発話者情報を音声で出力する。

Description

音声制御装置および音声制御方法
 本発明は、発話音声を含む音声データを出力する音声制御装置および音声制御方法に関する。
 近年、情報の入出力が音声によって行われる、携帯電話機等の音声コミュニケーションツールが、日常に不可欠なものとなっている。
 電話に代表される音声コミュニケーションツールは、目視することなく情報をやりとりすることが可能なツールである。一方で、インターネット通信の高速化および大容量化により、高品質な音声通信環境を提供する各種インフラが整ってきている。したがって、音声コミュニケーションツールは、このようなインフラを利用することにより、臨場感のある音声コミュニケーションが可能となっている。すなわち、音声コミュニケーションツールは、関連技術の品質向上により、各種分野への適用の可能性が広がっている。
 最も期待されている適用分野の1つは、テレビ会議システム、多人数間での通話、および音声チャット等の、不特定多数の多地点音声コミュニケーションシステムである。ところが、このようなシステムでは、出力されている発話音声が誰のものであるか、すなわち誰が発言しているかが、分かり辛いことがある。
 そこで、発言者名を文字表示する技術(例えば特許文献1参照)を用いることが考えられる。特許文献1記載の技術は、座談会や会議のように多数の人の発言を文字に変換して文書を作成して画面に表示する際に、各発言区分に発言者名を付加的に文字表示する。また、発話音声の発話者を示す発話者情報を、視覚インジケータにより視覚的に表示する技術(例えば特許文献2参照)を用いることが考えられる。これらの従来技術を音声コミュニケーションツールに適用することにより、ユーザは、聞こえてくる発話音声が誰のものであるかをより確実に特定することができる。
特開平10-320385号公報 特開2005-100420号公報
 ところで、多数の発言者が同時に発言している状況において、ユーザがある出力中の発話音声に興味を持ち、その発言者が誰であるのかを知りたいと望むことがある。このような状況は、例えば、複数の会話グループが存在している場合や、会議が白熱している場合等に起こり得る。
 しかしながら、上述の従来技術では、このような場合において、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに確実に通知することができないという課題がある。なぜなら、従来技術では、複数の発話者情報が一度に提示され、ユーザは、その複数の情報の中から、興味を持った発話音声に対応する情報を自ら探し出さなければならないからである。
 本発明の目的は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法を提供することである。
 本発明の音声制御装置は、発話音声を含む音声データを受信する受信部と、取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、所定の操作を任意のタイミングで受け付ける操作入力部とを有し、前記音声出力部は、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する。
 本発明の音声制御方法は、発話音声を含む音声データを受信するステップと、取得された前記音声データに基づいて前記発話音声を出力するステップと、出力中の前記発話音声の発話者情報を保持するステップと、所定の操作を任意のタイミングで受け付けるステップと、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップとを有する。
 本発明によれば、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。
本発明の実施の形態1に係る音声制御装置の構成を示すシステム構成図 本実施の形態1における配置情報を説明するための模式図 本実施の形態1に係る音声制御装置の動作の一例を示すフローチャート 本実施の形態1に係る配置情報の設定内容の一例を示す図 本発明の実施の形態2に係る音声制御装置の構成の一例を示すブロック図 本実施の形態2に係る音声制御装置の動作の一例を示すフローチャート
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本発明の実施の形態1は、本発明に係る音声制御装置を、デジタルラジオの受信装置に適用した場合の例である。
 図1は、本発明の実施の形態1に係る音声制御装置の構成を示すシステム構成図である。
 図1において、音声制御装置100は、受信部110、操作入力部120、発話者情報保持部130、および音声出力部140を有する。
 受信部110は、例えばアンテナおよびチューナを有し、音声提供装置200からデジタルラジオ信号により放送される音声データを受信して、音声出力部140へ出力する。このとき、受信部110は、後述の配置情報から音声データの識別情報を取得し、音声データに識別情報を付加する。また、受信部110は、音声データの時刻に対応付けて放送される発話者情報を、音声提供装置200から受信し、発話者情報保持部130へ出力する。このとき、受信部110は、識別情報を発話者情報に付加する。
 本実施の形態における音声提供装置200は、例えば、デジタルラジオの放送局の通信設備である。また、音声提供装置200は、話者毎に生成された同時に出力されるべき複数の音声データを、チャネル多重化して放送する。また、本実施の形態における発話者情報は、発話者の名前(以下「発話者名」という)の仮名のテキストデータを含むものであり、音声提供装置200が放送する音声データに付加されている。また、識別情報は、チャネルの識別情報等に基づいて受信部110が設定する情報であり、ユーザに対して発話者の発話音声が聴こえる方向を示す配置情報である。
 図2は、配置情報を説明するための模式図である。
 受信部110は、ユーザ400の基本姿勢を基準として、ユーザ400の周囲に想定した仮想的な空間に、各発話者500(音声データの送信元)を仮想配置する。そして、受信部110は、各発話者500に対して、その配置場所を示す情報を、配置情報として設定する。
 例えば、ある発話者500は、ユーザ400の基本姿勢における正面方向が、配置情報として設定されたとする。この場合、後述の通り、ユーザ400の基本姿勢における正面方向から発話者500の発話音声が聞こえるように、音声の配置が制御される。これにより、音声制御装置100は、発話者500があたかも目の前に位置しているような感覚を、ユーザに与える事ができる。
 図1の操作入力部120は、例えばモーションセンサを有し、所定の操作による配置情報の指定を、任意のタイミングでユーザから受け付ける。そして、操作入力部120は、所定の操作が行われたとき、その旨を示す発話者情報要求を、指定された配置情報(以下「指定配置情報」という)とともに発話者情報保持部130へ出力する。なお、操作入力部120は、キーボタン、スイッチ、ダイヤル等でもよい。また操作入力部120は、音声制御装置100から分離したリモートコントローラと、このリモートコントローラから操作信号を受信するコントローラ受信部とから構成されてもよい。
 本実施の形態では、所定の操作は、ユーザが頷く動作であるものとする。すなわち、指定配置情報とは、ユーザが頷く動作を行ったときのユーザの顔の向き(以下「顔方向」という)に関する情報である。
 図2で説明すると、ユーザ400が発話者500の方を向いて頷く動作を行ったとき、正面方向を示す配置情報が指定されることになる。
 図1の発話者情報保持部130は、配置情報に付加された発話者名が受信部110から入力されると、これを格納する。但し、発話者情報保持部130は、同一の配置情報の発話者名については最新の発話者名のみを保持し、かつ、入力されてから所定の時間が経過した発話者名については削除する。
 また、発話者情報保持部130は、操作入力部120から発話者情報要求と指定配置情報とを受け取り、指定配置情報に該当する発話者名を抽出する。そして、発話者情報保持部130は、発話者情報要求を入力される毎に、発話者名を、指定配置情報とともに音声出力部140に出力する。
 音声出力部140は、受信部110から入力される音声データから、配置情報が示す仮想位置に出力音声データを生成し、音声出力装置300へ送信する。音声出力装置300は、例えばステレオスピーカやステレオヘッドフォンであり、受信した出力音声データに基づいてステレオ音声を出力する。なお、音声制御装置100における音声データの受信から音声出力装置300における音声出力までの処理遅延は、非常に短いものとする。また、音声出力部140は、発話音声を含む音声データが複数入力されている場合、複数の音声データに基づく複数の発話音声を、音声出力装置300を介して出力することになる。
 また、音声出力部140は、指定配置情報および発話者名を発話者情報保持部130から受け取ると、発話者名の読み上げ音声のデータを生成する。そして、音声出力部140は、生成した発話者名の音声データを、生成中の出力音声データに重畳する。このとき、音声出力部140は、指定配置情報に対応する方向から発話者名が聞こえるように、音声データの重畳を行う。すなわち、発話者情報要求が発せられる毎に、発話者名の音声を、指定配置情報に対応する方向から出力させる。なお、音声出力部140は、発話者情報の音声を、指定配置情報が示す方向(発話者が配置された方向)とは少し異なる方向(例えば少し下の方向)に配置することが望ましい。これにより、ユーザは、発話音声と発話者情報とを、互いに関連付けて認識しつつ、区別して聞き取る事が容易となる。
 このような音声制御装置100は、発話者毎に異なる方向で、発話音声をユーザに聞かせることができる。また、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、音声制御装置100は、その方向に設定された発話者の発話者名を、音声でユーザに通知することができる。
 図2で説明すると、ユーザ400が正面方向から聞こえてくる発話内容に興味を持ち、誰の発話であるのかを知りたくなり、正面方向を向いて頷く動作を行ったとする。この場合、発話者500の発話者名が、発話者500の配置されている正面方向から、音声によってユーザ400に通知されることになる。
 すなわち、音声制御装置100は、ユーザの任意の操作タイミングで、ユーザが指定した方向から聞こえる発話音声の発話者情報を音声で出力する。したがって、音声制御装置100は、ユーザが知りたいと望む出力中の発話音声の発話者名を、ユーザに対してより確実に通知することができる。
 次に、音声制御装置100の動作について説明する。
 図3は、音声制御装置100の動作の一例を示すフローチャートである。
 まず、ステップS1000において、受信部110は、ユーザ操作等による動作の終了の要求があったか否かを判断する。受信部110は、終了の要求が無い場合(S1000:NO)、ステップS2000へ進む。
 ステップS2000において、受信部110は、音声提供装置200から放送される1つまたは複数の音声データを受信したか否かを判断する。音声データには、上述の通り、受信部110により発話者情報が付加されている。受信部110は、音声データを受信していない場合(S2000:NO)、ステップS1000へ戻る。また、受信部110は、音声データを受信した場合(S2000:YES)、ステップS3000へ進む。
 そして、ステップS3000において、受信部110は、受信した音声データに配置情報が設定されていない音声データ(送信元、チャネル)があるか否かを判断する。受信部110は、配置情報が未設定の音声データがある場合(S3000:YES)、ステップS4000へ進む。また、受信部110は、受信した音声データの全てに配置情報が設定されている場合(S3000:NO)、ステップS5000へ進む。
 ステップS4000において、受信部110は、配置情報が未設定の音声データに対して、空いている方向の配置情報を設定して、ステップS5000へ進む。
 図4は、配置情報の設定内容の一例を示す図である。
 図4に示すように、受信部110は、方向710毎に、音声データ720を割り当てる。そして、受信部110は、その割り当て先の方向710を示す情報を、その音声データ720に対して、配置情報として設定する。例えば、図4に示すように、正面方向に、山田さんの発話音声を含む音声データ1が割り当てられたとする。この場合、ユーザが正面方向を向いて頷いたとき、後続の処理により、正面方向から「山田さん」という音声が聞こえてくることになる。また、例えば、図4に示すように、左方向にはどの音声データも割り当てられていないとする。この場合において、配置情報が未設定の音声データを受信したとき、受信部110は、左方向にその音声データを割り当て、その音声データに左方向の配置情報を設定する。
 図3のステップS5000において、受信部110は、配置情報が付加された音声データを音声出力部140へ出力し、配置情報が付加された発話者情報を発話者情報保持部130へ出力する。この結果、発話者情報保持部130は、受信中の音声データに対応する発話者情報を保持した状態となる。
 ステップS6000において、音声出力部140は、音声データに付加された配置情報の位置からユーザ400に聞こえるように、音声データから出力音声データを生成し、音声出力装置300へ出力する。
 そして、ステップS7000において、操作入力部120は、音声出力部140が音声を出力している間、所定の操作、つまり、発話者情報の提示に対する要求が入力されるのを待ち受ける。操作入力部120は、所定の操作が行われた場合(S7000:YES)、ステップS8000へ進む。また、操作入力部120は、所定の操作が行われていない場合(S7000:NO)、ステップS9500へ進む。
 ステップS8000において、発話者情報保持部130は、発話者情報要求に付加された指定配置情報に対応する発話者名を特定し、発話者名と指定配置情報とを音声出力部140に出力する。
 そして、ステップS9000において、音声出力部140は、発話者情報要求に付加された指定配置情報の位置からユーザ400に聞こえるように、発話者名の読み上げ音声の出力音声データを生成する。そして、音声出力部140は、受信部110から入力された音声データに生成した音声データを重畳して、音声出力装置300へ出力する。そして、処理は、ステップS9500へ進む。
 ステップS9500において、音声制御装置100は、継続して音声を出力中であるか否かを判断する。音声制御装置100は、音声を出力中である場合(S9500:YES)、ステップS7000へ戻り、音声出力と所定の操作の監視とを継続する。なお、音声データに対してストリーム処理を行う場合、音声制御装置100は、ステップS6000へ戻ってもよい。また、音声制御装置100は、音声の出力が終了した場合(S9500:NO)、ステップS1000へ戻り、新たな音声データの受信の監視を継続する。
 そして、受信部110は、終了の要求があると(S1000:YES)、一連の動作を終了する。
 このような動作により、音声制御装置100は、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、その方向に設定された発話者の発話者名を、音声でユーザに聞かせることができる。また、この発話者名の音声は、本来の音声に重畳された状態となる。
 なお、受信した発話者情報の保持と受信した音声データの出力とを行う処理、操作入力を受け付ける処理、および発話者名の音声出力の処理は、別のスレッドで同時に実行されてもよい。また、発話者情報の保持と受信した音声データの出力を行う処理は、同時に複数存在してもよく、これら複数の処理は、同時並行で実行されてもよい。
 以上のように、本実施の形態に係る音声制御装置100は、出力中の発話音声の発話者情報を保持し、発話音声の出力中に所定の操作が行われたとき、保持している発話者情報を音声で出力する。これにより、音声制御装置100は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。
 例えば、ラジオのスイッチを入れて発話者の発言を途中から聞き始めたときや、複数の発話者が同時に発言しているときなど、声だけでは発話者が誰であるか認識できない場合がある。このような場合でも、音声制御装置100を用いることにより、ユーザは、文字による視覚情報を用いることなく、つまり、視覚を用いる事なく、発話者の情報を取得することができる。したがって、音声制御装置100は、車両の運転中のラジオ放送視聴や、家事を行っている間の音声コミュニケーション等に好適である。
 なお、所定の操作は、上述の例に限定されるものではなく、例えば、所定のボタンの押下操作としてもよい。また、配置情報を指定する操作は、上述の例に限定されるものではなく、例えば、1つのボタンが押下される毎に、配置情報が所定の順番で切り替わる前提で、ボタンの最終的な押下回数により行われてもよい。
 また、発話者情報保持部130は、必ずしも所定の時間が経過した発話者情報を削除しなくてもよい。また、発話者情報保持部130は、削除を行う場合、同一チャネルの音声データの話者が変更されるタイミングよりも前に該当する発話者情報の削除を行う事が望ましい。このために、発話者情報保持部130は、音声データが終了する毎に対応する発話者情報を削除してもよい。また、発話者情報保持部130は、発話者の発話頻度が少ない順に各発話者情報を適宜削除してもよいし、一定時間発話していない発話者の発話者情報を削除するようにしてもよい。
 また、配置情報は、音声提供装置200により設定されてもよい。この場合、音声提供装置200は、例えば、各チャネルの音声データに配置情報を付加する。そして、音声制御装置100の受信部110は、音声データに付加された配置情報を用いる。また、配置情報は、音声制御装置100のユーザにより手動で設定または変更されてもよい。
 (実施の形態2)
 本発明の実施の形態2は、本発明に係る音声制御装置を、多地点会議システム用の音声コミュニケーションツールに適用した例である。
 図5は、本実施の形態に係る音声制御装置の構成の一例を示すブロック図である。
 図5に示すように、本実施の形態に係る音声制御装置100aは、図1の構成に加えて音声入力部150aおよび送信部160aを有している。また、本実施の形態に係る音声制御装置100aは、実施の形態1とは異なる操作入力部120a、発話者情報保持部130aを有している。
 音声入力部150aは、ユーザの発話音声を入力する音声入力装置600aと有線または無線により接続し、音声入力装置600aから、ユーザの発話音声を含む音声の電気信号を受信する。そして、音声入力部150aは、受信した電気信号を、A/Dコンバータにより、デジタル信号の音声データ(以下「ユーザ音声データ」という)へと変換する。音声入力装置600aは、例えば、ヘッドセットのマイクロフォンであり、入力した音声を電気信号に変換する装置である。音声入力部150aは、操作入力部120aから入力されるモード切替操作情報を受けて、発話者情報入力モードと会話モードとを切り替える。発話者情報入力モードのとき、音声入力部150aは、受信したユーザ音声データを、発話者情報保持部130aへ出力する。会話モードのとき、音声入力部150aは、ユーザ音声データを、送信部160aへ出力する。
 なお、音声入力部150aは、音声認識機能により、予め設定された音声コマンドがユーザ音声データに含まれているかを逐次判断してもよい。そして、音声入力部150aは、音声コマンドが検出されたとき、その内容を示すコマンド情報を、操作入力部120aに出力してもよい。または、この音声コマンドを検出する機能は、操作入力部120aに搭載されていてもよい。
 なお、会話モードにおけるユーザ音声データは、以下「会話音声データ」という。会話音声データは、実施の形態1において音声提供装置200から放送される「音声データ」に相当する。
 操作入力部120aは、実施の形態1の操作入力部120の機能に加え、モード切替の操作を受け付け、モード切替操作情報を音声入力部150aへ出力する機能を有する。モード切替操作情報は、例えば、録音開始と録音終了のタイミングを指定する情報である。なお、モード切替が音声コマンドによって行われる場合、必ずしもこの機能は必要ではない。
 発話者情報保持部130aは、実施の形態1の発話者情報保持部130の機能に加え、音声入力部150aから入力された発話者情報を保持する機能を有する。本実施の形態における発話者情報は、発話者名をユーザが読み上げた音声データ(以下「発話者情報音声データ」という)であるものとする。
 送信部160aは、例えばインターネットに接続するためのネットワークデバイスを有し、音声入力部150aから入力される会話音声データを、音声提供装置200aへ送信する。このとき、送信部160aは、会話音声データに、発話者情報保持部130aに保持された発話者情報音声データを付加する。なお、本実施の形態に係る受信部110は、インターネットに接続するためのネットワークデバイスを有するものとする。
 音声提供装置200aは、例えば、インターネット上に配置された、ファイルシステムおよびデータベース等を備えたコミュニケーションサーバである。音声提供装置200aは、ある多地点会議において、ある音声制御装置100aから会話音声データを受信したとき、その会話音声データを、多地点会議に参加する他の全ての音声制御装置100aへと転送する機能を有する。
 このような音声制御装置100aは、発話者情報音声データを付加した会話音声データを、音声提供装置200aを介して、他の音声制御装置100aへ送信することができる。これにより、特に音声提供装置200aに発話者情報を会話音声データに付与する機能を用意する必要がなくなる。また、ユーザが自ら発話者情報を簡単に設定することができる。また、発話者情報を音声データとしたため、テキスト読み上げ機能を不要とすることができると共に、ユーザ本人の声を情報として付加することができる。
 次に、音声制御装置100aの動作について説明する。
 図6は、音声制御装置100aの動作の一例を示すフローチャートであり、実施の形態1の図3に対応するものである。図3と同一部分には同一符号を付し、これについての説明を省略する。
 まず、音声入力部150aは、終了要求が無い場合(S1000:NO)、ステップS1100aにおいて、発話者情報入力モードであるか否かを判断する。音声入力部150aは、発話者情報入力モードである場合(S1100a:YES)、ユーザ音声データ(つまり発話者情報音声データ)を発話者情報保持部130aへ出力して、ステップS1200aへ進む。また、音声入力部150aは、発話者情報入力モードではない場合(S1100a:NO)、ユーザ音声データ(ここでは会話音声データとする)を送信部160aへ出力してステップS1300aへ進む。
 ステップS1200aにおいて、発話者情報保持部130aは、入力された発話者情報音声データを保持して、ステップS1300aへ進む。発話者情報保持部130aは、過去の発話者情報音声データを新たに入力された発話者情報により上書きしてもよいし、複数種類の発話者情報音声データを保持してもよい。
 ステップS1300aにおいて、送信部160aは、会話音声データが音声入力部150aから入力されたか否かを判断する。送信部160aは、会話音声データが入力された場合(S1300a:YES)、ステップS1400aへ進む。また、送信部160aは、会話音声データが入力されていない場合(S1300a:NO)、ステップS2000へ進む。
 ステップS1400aにおいて、送信部160aは、入力された会話音声データに、発話者情報保持部130aに保持された発話者情報音声データを付加して音声提供装置200aへ送信し、ステップS2000へ進む。複数種類の発話者情報音声データが発話者情報保持部130aに保持されている場合、送信部160aは、ユーザ操作や送信先に応じて、使用する発話者情報音声データを切り替えてもよい。
 ステップS2000以降の動作は実施の形態1と同様である。但し、音声制御装置100aは、音声提供装置200aから取得した発話者情報が発話者情報音声データであるため、読み上げ音声を生成せずに発話者情報から直接音声出力を行う。
 このような動作により、音声制御装置100aは、発話者情報音声データを付加した会話音声データを送信することができる。
 以上のように、本実施の形態に係る音声制御装置100aは、発話者情報を付加した会話音声データを送信するので、音声データが交換されるシステムに好適である。また、本実施の形態では、発話者音声データを用いるので、テキスト読み上げの機能を不要とすることができる。また、発話者情報音声データは、ユーザ自身の声の録音により作成されるので、ユーザが発話者をより直感的に認識することが可能となる。
 なお、発話者情報は、必ずしも会話音声データを送信する毎に送信される必要はなく、例えば、会議の開始時に1回のみ送信されるようにしてもよい。発話者情報が毎回送信される場合、受信側で会話音声データの送信元と配置との対応付けを厳格に管理する必要がなくなるというメリットがあるが、受信側で一旦受信した各送信元の発話者情報を記憶しておく必要がある。また、発話者情報の送信回数を抑えた場合、通信負荷が軽減されるというメリットがある。
 また、発話者情報は、送信側の音声制御装置100aではなく、音声提供装置200aにおいて管理されていてもよい。また、音声制御装置100aは、会話音声データを送信する毎に発話者情報を送信しない場合、発話者情報と会話音声データとを一意に対応付ける識別子を使用する必要がある。この識別子は、例えば、シリアル番号やMAC(media access control)アドレス等の音声制御装置100aが固有に保持している情報でもよい。あるいは、この識別子は、音声制御装置100aまたは音声提供装置200aによって設定された値であってもよい。
 また、音声提供装置200aの機能は、1つまたは複数の音声制御装置100aに搭載されていてもよい。この場合、アドホックネットワーク環境が形成される。
 また、以上説明した各実施の形態では、受信した音声データの音声出力がほぼリアルタイムに行われる場合について説明したが、必ずしもリアルタイムに行われなくてもよい。音声データを録音しておいて後で再生する場合等、受信時刻と音声出力時刻とが大きくずれる場合でも発話者情報を出力するために、受信部は、音声データの時刻に対応付けて、発話者情報を受信して発話者情報保持部に保持させればよい。そして、音声出力部は、出力中の音声データの時刻に対応する発話者情報を出力するようにすればよい。
 また、以上説明した各実施の形態では、発話者情報は、発話者名等の発話者が誰であるかを特定することができる情報としたが、必ずしもこれに限定されない。同一の話者による発言であることを識別することのみが目的である場合、発話者情報は、番号やビープ音や音楽等の音声情報とすることができる。また、識別の対象となる音声は、必ずしも発言や会話の発話音声でなくてもよく、例えば、楽器演奏の音や歌声でもよい。また、識別の対象となる音声の出力元は、必ずしも人でなくてもよく、例えば、動物や車両でもよい。
 2010年11月9日出願の特願2010-250892の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法として有用である。
 100、100a 音声制御装置
 110 受信部
 120、120a 操作入力部
 130、130a 発話者情報保持部
 140 音声出力部
 150a 音声入力部
 160a 送信部
 200、200a 音声提供装置
 300 音声出力装置
 600a 音声入力装置

Claims (10)

  1.  発話音声を含む音声データを受信する受信部と、
     取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、
     出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、
     所定の操作を任意のタイミングで受け付ける操作入力部と、を有し、
     前記音声出力部は、
     前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する、
     音声制御装置。
  2.  前記受信部は、
     前記音声データの時刻に対応付けて、前記発話者情報を受信して前記発話者情報保持部に保持させ、
     前記音声出力部は、
     出力中の音声データの時刻に対応する前記発話者情報を、前記発話者情報保持部から取得して音声で出力する、
     請求項1記載の音声制御装置。
  3.  前記受信部は、
     前記発話者情報に対応付けて、前記音声データの識別情報を取得して前記発話者情報保持部に保持させ、
     前記操作入力部は、
     前記識別情報を指定する操作を受け付け、
     前記音声出力部は、
     前記所定の操作が行われ、かつ、前記識別情報を指定する操作が行われたとき、出力中の前記発話音声の前記発話者情報のうち、指定された前記識別情報に対応する前記発話者情報を音声で出力する、
     請求項2記載の音声制御装置。
  4.  前記音声出力部は、
     前記受信部が複数の音声データを受信するとき、前記複数の音声データに基づく複数の前記発話音声を出力する、
     請求項3記載の音声制御装置。
  5.  前記識別情報は、方向に関する情報である、
     請求項4記載の音声制御装置。
  6.  前記操作入力部は、
     前記所定の操作が行われたとき、ユーザの顔の方向に関する情報を、前記指定された識別情報として取得する、
     請求項5記載の音声制御装置。
  7.  前記受信部は、
     前記複数の音声データの送信元を識別し、送信元毎に、前記ユーザに対する方向を示す配置情報を、前記識別情報として設定する、
     請求項6記載の音声制御装置。
  8.  前記ユーザの発話音声を含む音声データを取得する音声入力部と、
     取得された前記音声データを他の装置へ送信する送信部と、を有し、
     前記送信部は、
     前記音声データの時刻に対応付けて、前記ユーザを示す発話者情報を前記他の装置へ送信する、
     請求項1記載の音声制御装置。
  9.  前記操作入力部は、
     取得された前記音声データに含まれる特定の音声を、前記所定の操作とする、
     請求項8記載の音声制御装置。
  10.  発話音声を含む音声データを受信するステップと、
     取得された前記音声データに基づいて前記発話音声を出力するステップと、
     出力中の前記発話音声の発話者情報を保持するステップと、
     所定の操作を任意のタイミングで受け付けるステップと、
     前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップと、を有する、
     音声制御方法。
PCT/JP2011/005966 2010-11-09 2011-10-26 音声制御装置および音声制御方法 WO2012063415A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010250892A JP2012103845A (ja) 2010-11-09 2010-11-09 音声制御装置および音声制御方法
JP2010-250892 2010-11-09

Publications (1)

Publication Number Publication Date
WO2012063415A1 true WO2012063415A1 (ja) 2012-05-18

Family

ID=46050586

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/005966 WO2012063415A1 (ja) 2010-11-09 2011-10-26 音声制御装置および音声制御方法

Country Status (2)

Country Link
JP (1) JP2012103845A (ja)
WO (1) WO2012063415A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10215331A (ja) * 1997-01-30 1998-08-11 Toshiba Corp 音声会議システムとその情報端末装置
JP2008109686A (ja) * 2007-11-19 2008-05-08 Yamaha Corp 音声会議端末装置およびプログラム
JP2008141348A (ja) * 2006-11-30 2008-06-19 Yamaha Corp 通信装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10215331A (ja) * 1997-01-30 1998-08-11 Toshiba Corp 音声会議システムとその情報端末装置
JP2008141348A (ja) * 2006-11-30 2008-06-19 Yamaha Corp 通信装置
JP2008109686A (ja) * 2007-11-19 2008-05-08 Yamaha Corp 音声会議端末装置およびプログラム

Also Published As

Publication number Publication date
JP2012103845A (ja) 2012-05-31

Similar Documents

Publication Publication Date Title
CN101459717B (zh) 无线终端和在其中实现多声道复用的方法
US8712564B2 (en) Audio conversation apparatus
CN101937693B (zh) 基于语音命令的视音频播放方法及***
US20070263823A1 (en) Automatic participant placement in conferencing
CN106790940B (zh) 录音方法、录音播放方法、装置及终端
JPWO2004030328A1 (ja) テレビ電話通訳システムおよびテレビ電話通訳方法
CN110996308B (zh) 声音播放设备及其控制方法、控制装置和可读存储介质
JP2006203548A (ja) 複数話者の音声信号を処理する音声信号処理装置およびプログラム
CN112313971A (zh) 信息处理装置、信息处理方法和信息处理***
JP2006254064A (ja) 遠隔会議システム、音像位置割当方法および音質設定方法
US8989396B2 (en) Auditory display apparatus and auditory display method
CN110176231B (zh) 音响输出***、音响输出方法及存储介质
CN111696552B (zh) 一种翻译方法、装置和耳机
JPWO2019030811A1 (ja) 端末、音声連携再生システム及びコンテンツ表示装置
CN108353255B (zh) 通过多个ptt信道的ptt通信方法和装置
CN114531425B (zh) 一种处理方法和处理装置
WO2012063415A1 (ja) 音声制御装置および音声制御方法
WO2022054900A1 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
CN113545096B (zh) 信息处理装置和信息处理***
CN113993114A (zh) 蓝牙广播方法、设备及计算机可读存储介质
JP4531013B2 (ja) 映像音声会議システムおよび端末装置
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP7087745B2 (ja) 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP2022042234A (ja) 収音システム
JP4849494B2 (ja) 遠隔会議システム、音像位置割当方法および音質設定方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11839481

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11839481

Country of ref document: EP

Kind code of ref document: A1