JP7449070B2 - Voice input device, voice input method and its program - Google Patents
Voice input device, voice input method and its program Download PDFInfo
- Publication number
- JP7449070B2 JP7449070B2 JP2019197231A JP2019197231A JP7449070B2 JP 7449070 B2 JP7449070 B2 JP 7449070B2 JP 2019197231 A JP2019197231 A JP 2019197231A JP 2019197231 A JP2019197231 A JP 2019197231A JP 7449070 B2 JP7449070 B2 JP 7449070B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- input
- trigger
- time point
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000001514 detection method Methods 0.000 claims description 39
- 230000005236 sound signal Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Description
本開示は、音声入力装置、音声入力方法及び音声入力方法を用いたプログラムに関する。 The present disclosure relates to a voice input device, a voice input method, and a program using the voice input method.
例えば特許文献1には、ユーザの操作により、音声入力操作を可能にする音声入力開始操作手段と、ユーザの音声を取得する音声入力手段と、音声入力開始操作手段でユーザが操作を行なった時刻からユーザが実際に発話を開始するまでの時間を学習した発話開始学習時間を保持する発話開始時間学習データ保持手段と、計測時間と発話開始時間学習データ保持手段からの発話開始学習時間とを比較し、時間計測した音声がユーザの入力音声か否かを判定し、ユーザの入力音声である時は音声認識する音声認識手段とを備える音声認識装置が開示されている。
For example,
この音声認識装置では、ユーザごとに学習し、学習した発話開始時間を使用することで、音声がユーザか否かを認識することができる。 This voice recognition device learns for each user and uses the learned utterance start time to recognize whether or not the voice is from the user.
しかしながら、特許文献1に開示される技術では、ユーザが音声入力装置の操作を行った時刻からユーザが実際に発話を開始するまでの期間を予め学習する必要がある。このため、従来の音声認識装置では、学習による計算量が増大する恐れがある。
However, with the technique disclosed in
そこで、本開示は、簡易な処理で話者を識別することで計算量の増大を抑制することができる音声入力装置、音声入力方法及びプログラムを提供することを目的とする。 Therefore, an object of the present disclosure is to provide a voice input device, a voice input method, and a program that can suppress an increase in the amount of calculation by identifying a speaker through simple processing.
本開示の一態様に係る音声入力装置は、1以上の話者が発話する際のそれぞれの音声を取得する取得部と、前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、トリガが入力されるトリガ入力部と、前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部と、前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部とを備え、前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する。 A voice input device according to an aspect of the present disclosure includes an acquisition unit that acquires each voice uttered by one or more speakers, and a voice input device that acquires each voice uttered by one or more speakers, and a a storage unit that stores sounds; a trigger input unit into which a trigger is input; and a starting position at which the utterance starts from each of the voices that is stored in the storage unit each time the trigger is input to the trigger input unit. at least a first time point when the trigger is input to the trigger input section, and a second time point of the start position of the speech detected by the speech start detection section from each of the voices. a speaker identification unit that identifies one of the one or more speakers based on the information, and at least registers which of the first time point and the second time point is the previous time. and a utterance time registration unit, the speaker identification unit includes the first time point, the second time point, and a plurality of registered information in which the utterance time registration unit indicates the timing of the second time point with respect to the first time point. one of the one or more speakers is identified based on the one or more speakers .
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。 Note that some specific aspects of these may be realized using a system, a method, an integrated circuit, a computer program, or a computer-readable recording medium such as a CD-ROM. It may be implemented using any combination of integrated circuits, computer programs, and storage media.
本開示の音声入力装置等によれば、簡易な処理で話者を識別することで計算量の増大を抑制することができる。 According to the voice input device and the like of the present disclosure, an increase in the amount of calculation can be suppressed by identifying the speaker through simple processing.
本開示の一態様に係る音声入力装置は、1以上の話者が発話する際のそれぞれの音声を取得する取得部と、前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、トリガが入力されるトリガ入力部と、前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部とを備える。 A voice input device according to an aspect of the present disclosure includes an acquisition unit that acquires each voice uttered by one or more speakers, and a voice input device that acquires each voice uttered by one or more speakers, and a a storage unit that stores sounds; a trigger input unit into which a trigger is input; and a starting position at which the utterance starts from each of the voices that is stored in the storage unit each time the trigger is input to the trigger input unit. an utterance start detection unit that detects the utterance, and at least a first time point when the trigger is input to the trigger input unit, and a second time point of the utterance start position detected by the utterance start detection unit from the respective voices. and a speaker identification unit that identifies any one of the one or more speakers based on the one or more speakers.
これによれば、例えば、1以上の話者のうちの話者によるトリガを検知した第1時点と、話者が発話した音声の第2時点との時間的な前後関係によって、1以上の話者のうちからいずれかの話者を識別することができる。つまり、第1時点から第2時点までの期間を学習しなくても、取得部が取得した音声の話者が、1以上の話者のうちのいずれの話者であるかを識別することができる。 According to this, for example, depending on the temporal relationship between the first point in time when a trigger from one or more speakers is detected and the second point in time of the voice uttered by the speaker, one or more speech It is possible to identify any one of the speakers. In other words, it is possible to identify which of one or more speakers the speaker of the voice acquired by the acquisition unit is without learning the period from the first time point to the second time point. can.
したがって、この音声入力装置では、簡易な処理で話者を識別することで計算量の増大を抑制することができる。 Therefore, in this voice input device, an increase in the amount of calculation can be suppressed by identifying the speaker through simple processing.
特に、話者は、第1時点に対する発話の時機に基づいて、音声の話者を識別することができる。このため、音声入力装置では、簡単な操作で音声の話者を識別することができる。また、音声入力装置の操作が簡単となるため、音声入力装置に複数のボタンを配置する等の、音声入力装置の複雑化を抑制することができる。このため、この音声入力装置では、例えばトリガ入力部がボタンである場合、1つのボタンでも1以上の話者のうちのいずれの話者であるかを識別することができるため、音声入力装置の構成をより簡易にすることができる。 In particular, the speaker can identify the speaker of the audio based on the timing of the utterance relative to the first point in time. Therefore, with the voice input device, the speaker of the voice can be identified with a simple operation. Furthermore, since the voice input device can be easily operated, it is possible to suppress the complexity of the voice input device, such as arranging a plurality of buttons on the voice input device. For this reason, in this voice input device, if the trigger input section is a button, it is possible to identify which one of one or more speakers is the speaker with just one button. The configuration can be made simpler.
本開示の他の態様に係る音声入力方法は、1以上の話者が発話する際のそれぞれの音声を取得することと、取得した前記1以上の話者の発話による前記それぞれの音声を記憶部に記憶することと、トリガが入力されることと、前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出することと、少なくとも、前記トリガが入力される第1時点と、前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することとを含む。 A voice input method according to another aspect of the present disclosure includes acquiring each voice uttered by one or more speakers, and storing each of the acquired voices uttered by the one or more speakers in a storage unit. a trigger is input; and each time the trigger is input, detecting a starting position at which the utterance starts from each of the voices stored in the storage unit; identifying one of the one or more speakers based on a first time point at which a trigger is input and a second time point at a start position of an utterance detected from each of the voices; include.
この音声入力方法においても、上述の音声入力装置と同様の作用効果を奏する。 This voice input method also provides the same effects as the voice input device described above.
また、本開示の他の態様に係るプログラムは、音声入力方法をコンピュータに実行させるためのプログラムである。 Further, a program according to another aspect of the present disclosure is a program for causing a computer to execute a voice input method.
このプログラムにおいても、上述の音声入力装置と同様の作用効果を奏する。 This program also provides the same effects as the voice input device described above.
本開示の他の態様に係る音声入力装置は、前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部を備え、前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する。 The voice input device according to another aspect of the present disclosure includes a speech timing registration unit that registers at least which of the first time point and the second time point is the previous time, and the speaker identification unit is based on the first time point, the second time point, and a plurality of pieces of registered information indicating the timing of the second time point with respect to the first time point, and the utterance time registration unit selects which one of the one or more speakers. identify the speaker.
これによれば、1以上の話者が所望する条件として、第1時点と第2時点との時間的な前後関係を予め登録することができる。このため、話者識別部は、第1時点及び第2時点の時間的な前後関係が、登録情報に示されているかどうかを判定するだけで、1以上の話者のうちからいずれかの話者を識別することができる。その結果、この音声入力装置では、簡易な処理で、より確実に話者を識別することができる。 According to this, the temporal relationship between the first time point and the second time point can be registered in advance as a condition desired by one or more speakers. Therefore, the speaker identification unit only needs to determine whether or not the temporal relationship between the first time point and the second time point is indicated in the registered information. person can be identified. As a result, this voice input device can identify the speaker more reliably with simple processing.
本開示の他の態様に係る音声入力装置において、前記発話時機登録部は、前記1以上の話者のそれぞれの発話の時機を登録する際に、前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が後の時間であることを示す第1時間情報と、前記1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録し、前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が前の時間であることを示す第2時間情報と、前記1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。 In the voice input device according to another aspect of the present disclosure, the utterance timing registration unit is configured to register the utterance timing registration unit, when registering the utterance timing of each of the one or more speakers, when the trigger is input to the trigger input unit. first time information indicating that the second time point of the starting position of the utterance is later than the first time point; and one of the one or more speakers. First registration information that is linked registration information is registered, and the second time point of the start position at which the utterance is started is a time earlier than the first time point when the trigger is input to the trigger input section. Second registration information that is registration information that associates second time information indicating that the second time information is the same as another speaker from among the one or more speakers is registered.
これによれば、話者は、発話を開始する前に取得部にトリガを入力するという条件を登録したり、発話を開始した後に取得部にトリガを入力するという条件を登録したりすることができる。このように、予め話者が条件を登録しておけば、音声入力装置は、学習することなく、話者を簡易かつ確実に識別することができる。 According to this, the speaker can register a condition to input a trigger to the acquisition unit before starting to speak, or register a condition to input a trigger to the acquisition unit after starting to speak. can. In this way, if the speaker registers the conditions in advance, the voice input device can easily and reliably identify the speaker without learning.
本開示の他の態様に係る音声入力装置において、前記話者識別部は、前記第1時点に対する前記第2時点の時機を算出し、算出した時機を示す結果と前記複数の登録情報とを照らし合わせて、前記第1時点よりも前記第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、前記第1時点よりも前記第2時点の方が前の時間である場合は、発話した話者が前記第1話者と別の第2話者であると判定する。 In the voice input device according to another aspect of the present disclosure, the speaker identification unit calculates the timing of the second point in time with respect to the first point in time, and compares a result indicating the calculated timing with the plurality of registered information. In addition, if the second time point is later than the first time point, it is determined that the speaker who spoke is the first speaker, and the second time point is later than the first time point. If the time is earlier, it is determined that the speaker who spoke is a second speaker different from the first speaker.
これによれば、話者識別部は、トリガ入力部に入力された第1時点と、発話開始検出部が検出した第2時点とから、第1時点に対する第2時点の時機を算出することができる。これにより、発話開始検出部は、第1時点が第2時点よりも先の時間であるか、後の時間であるかという、時機を示す結果を算出することができる。この結果、発話開始検出部は、算出した時機を示す結果と複数の登録情報とを比較することで、1以上の話者のうちのいずれの話者であるかを、より確実に識別することができる。 According to this, the speaker identification section can calculate the timing of the second time point relative to the first time point from the first time point input to the trigger input section and the second time point detected by the speech start detection section. can. Thereby, the speech start detection unit can calculate a result indicating the timing, such as whether the first time point is earlier or later than the second time point. As a result, the speech start detection unit can more reliably identify which of the one or more speakers the speaker is by comparing the calculated timing result with the plurality of registered information. Can be done.
また、話者が複数存在する場合、例えば第1時点から第2時点までの期間を登録することで、複数の話者が存在しても、いずれの話者であるかを識別することができる。 In addition, if there are multiple speakers, for example, by registering the period from the first time point to the second time point, it is possible to identify which speaker the speaker is, even if there are multiple speakers. .
本開示の他の態様に係る音声入力装置において、前記トリガ入力部は、予め設定された音声の入力を受付ける音声入力インターフェイスであり、前記トリガ入力部には、予め設定された音声が前記トリガとして入力される。 In the audio input device according to another aspect of the present disclosure, the trigger input section is an audio input interface that accepts input of preset audio, and the trigger input section receives preset audio as the trigger. input.
これによれば、話者がウエイクアップワード等のような予め設定された音声による発話をするだけで、音声入力装置は、マジックワード認識を行い、話者の識別を実行することができる。このため、音声入力装置は、操作性に優れている。 According to this, the voice input device can perform magic word recognition and identify the speaker simply by the speaker speaking a preset voice such as a wake-up word. Therefore, the voice input device has excellent operability.
本開示の他の態様に係る音声入力装置において、前記トリガ入力部は、前記音声入力装置に設けられた操作ボタンであり、前記トリガ入力部には、受付けた操作入力が前記トリガとして入力される。 In the voice input device according to another aspect of the present disclosure, the trigger input section is an operation button provided on the voice input device, and a received operation input is inputted to the trigger input section as the trigger. .
これによれば、話者がトリガ入力部を操作することで、トリガ入力部にトリガを確実に入力することができる。 According to this, the speaker can reliably input a trigger to the trigger input section by operating the trigger input section.
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。 Note that some specific aspects of these may be realized using a system, a method, an integrated circuit, a computer program, or a computer-readable recording medium such as a CD-ROM. It may be implemented using any combination of integrated circuits, computer programs, or recording media.
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。 The embodiments described below are all specific examples of the present disclosure. The numerical values, shapes, materials, components, arrangement positions of the components, etc. shown in the following embodiments are merely examples, and do not limit the present disclosure. Further, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims will be described as arbitrary constituent elements. Moreover, in all embodiments, the contents of each can be combined.
以下、本開示の一態様に係る音声入力装置、音声入力方法及びそのプログラムについて、図面を参照しながら具体的に説明する。 Hereinafter, a voice input device, a voice input method, and a program thereof according to one aspect of the present disclosure will be specifically described with reference to the drawings.
(実施の形態)
<構成:話者認識装置1>
図1は、実施の形態における話者認識装置1の外観と、話者の発話による話者認識装置1の使用場面の一例を示す図である。図1では、複数の話者が話者認識装置1をシェアし、発話する際に話者認識装置1を使用している様子を例示している。
(Embodiment)
<Configuration:
FIG. 1 is a diagram showing an example of an external appearance of a
図1に示すように、話者認識装置1は、1以上の話者が発話した音声を取得し、取得した音声に基づいて、1以上の話者のうちのいずれの話者であるかを識別する装置である。つまり、話者認識装置1は、1以上の話者のそれぞれが発話したそれぞれの音声を取得し、取得したそれぞれの音声ごとに話者を識別する。話者認識装置1は、音声入力装置の一例である。
As shown in FIG. 1, a
なお、話者認識装置1は、発話者と会話相手との間の会話を取得し、取得した会話に基づいて、発話者と会話相手とのうちのいずれの話者であるかを識別してもよい。
Note that the
本実施の形態では、話者認識装置1は、1以上の話者のそれぞれが発話したそれぞれの音声を取得し、取得したそれぞれの音声と、入力されたトリガとのそれぞれの時機(タイミング)に基づいて、話者を識別する。
In the present embodiment, the
本実施の形態の図1では、複数の話者である第1話者と第2話者が個別に話者認識装置1を使用し、それぞれの話者が発話する様子を例示する。例えば、第1話者の音声認識が終了した後に第2話者が、二点鎖線で示す話者認識装置1を使用してもよい。つまり、話者認識装置1は、それぞれの話者が別々のタイミング及びイベントで使用してもよく、第1話者と第2話者とが会話する際には同時に使用してもよい。第1話者及び第2話者は、話者の一例である。なお、第2話者は、第1話者の会話相手であってもよい。
In FIG. 1 of this embodiment, a first speaker and a second speaker who are a plurality of speakers individually use the
ここで、第1話者と第2話者とは、同一の言語で発話してもよいが、異なる2つの言語間で発話してもよい。この場合、話者認識装置1は、第1話者が発話する第1言語と、第2話者が発話する第2言語との同一の又は異なる2つの言語間において、第1話者と第2話者とが発話したそれぞれの音声ごとに、第1話者か第2話者かを識別する。例えば、第1言語及び第2言語は、日本語、英語、フランス語、ドイツ語、中国語等である。
Here, the first speaker and the second speaker may speak in the same language, or may speak in two different languages. In this case, the
本実施の形態では、第1話者を話者認識装置1の所有者とし、話者認識装置1へのトリガとなる入力と、入力されるトリガに対する話者が発話との時機に関する登録は、主に第1話者によって行われる。つまり、第1話者は、話者認識装置1の操作方法を理解している、話者認識装置1の使用者である。
In this embodiment, the first speaker is the owner of the
本実施の形態では、話者が話者認識装置1にトリガを入力した後に発話することで、話者認識装置1は、例えば第1話者が発話したことを認識する。また、別の話者が発話した後に、話者認識装置1にトリガが入力されることで、話者認識装置1は、例えば第2話者が発話したことを認識する。
In this embodiment, when the speaker speaks after inputting a trigger to the
話者認識装置1は、スマートホン及びタブレット端末等の、第1話者が携帯可能な携帯端末である。
The
図2Aは、実施の形態における話者認識装置1を示すブロック図である。
FIG. 2A is a block diagram showing the
図2Aに示すように、話者認識装置1は、発話時機登録部25と、取得部21と、記憶部22と、トリガ入力部23と、発話開始検出部24と、話者識別部26と、出力部31と、電源部35とを有する。
As shown in FIG. 2A, the
[発話時機登録部25]
発話時機登録部25は、第1時点と第2時点とのいずれの時点が前の時間であるかを少なくとも登録する。具体的には、発話時機登録部25は、トリガの入力に対する1以上の話者のそれぞれの発話の時機を登録する登録装置である。
[Utterance timing registration unit 25]
The utterance
発話時機登録部25は、1以上の話者の操作によって所望の条件を設定し、設定した条件を登録することができる。具体的には、発話時機登録部25は、1以上の話者のそれぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が後の時間であることを示す第1時間情報と、1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録する。具体例を示すと、トリガ入力部23にトリガを入力した後に、第1話者が発話を開始するという条件を設定し、発話時機登録部25は、設定した条件を示す第1時間情報と、ラベルAとを紐付けた第1登録情報を登録する。発話時機登録部25には、メモリが格納され、設定した第1登録情報を記憶する。なお、発話時機登録部25が設定した第1登録情報は、記憶部22に記憶されてもよい。
The utterance
また、発話時機登録部25は、それぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が前の時間であることを示す第2時間情報と、1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。具体例を示すと、トリガ入力部23にトリガを入力する前に、第2話者が発話を開始するという条件を設定し、発話時機登録部25は、設定した条件を示す第2時間情報と、ラベルBとを紐付けた第2登録情報を登録する。発話時機登録部25には、メモリが格納され、設定した第2登録情報を記憶する。なお、発話時機登録部25が設定した第2登録情報は、記憶部22に記憶されてもよい。
Furthermore, when registering the timing of each utterance, the utterance
例えば、第1話者がラベルAで設定した第1登録情報の条件で発話する場合、第1話者が第2話者に対してラベルBで設定した第2登録情報の条件で発話するように促せば(第1話者と第2話者との間で使用する条件を決定しておく)、異なる話者が異なる条件で発話することができる。このため、発話時機登録部25によって発話の条件を個別に登録すれば、話者識別部26が話者識別を行う判断材料となる。
For example, if the first speaker speaks under the conditions of the first registered information set at label A, the first speaker will speak to the second speaker under the conditions of the second registered information set at label B. By prompting (the conditions to be used between the first speaker and the second speaker are determined in advance), different speakers can speak under different conditions. Therefore, if the utterance conditions are individually registered by the utterance
発話時機登録部25は、登録した第1登録情報及び第2登録情報等の複数の登録情報を話者識別部26に出力する。
The utterance
なお、発話時機登録部25は、トリガ入力部23へトリガを入力する第1時点から話者による発話の第2時点までの期間を設定できる。つまり、発話時機登録部25は、トリガ入力部23にトリガを入力した第1時点から○○秒後又は○○秒以降に話者が発話を開始するという条件を登録情報として登録してもよい。また、発話時機登録部25は、話者が発話を開始してから○○秒後又は○○秒以降にトリガ入力部23にトリガを入力するという条件を登録情報として登録してもよい。言い換えれば、発話時機登録部25は、第1時点から○○秒後又は○○秒以降に第2時点を設定、第2時点から○○秒後又は○○秒以降に第1時点を設定し、設定した情報を登録情報として登録してもよい。ここでいう「○○」は、任意の数字であり、必ずしも同一の時間を示しているわけではない。
Note that the utterance
なお、発話時機登録部25は、トリガ入力部23へのトリガの連続入力時間の長さを、登録情報として登録してもよい。例えば、トリガ入力部23が操作ボタンである場合、話者の発話のタイミングに応じて操作ボタンを長押しする(トリガ入力部23への連続入力する)時間の長さも発話時機登録部25が登録しておけば、登録した長押しの時間を、話者識別部26が話者を識別する判断材料として用いることもできる。
Note that the utterance
例えば、発話時機登録部25は、トリガ入力部23にトリガを入力した第1時点から○○秒後又は○○秒以降にトリガ入力部23にトリガを〇〇秒間、トリガを入力し続けるという条件を登録情報として登録してもよい。また、発話時機登録部25は、話者が発話を開始してから○○秒後又は○○秒以降にトリガ入力部23にトリガを〇〇秒間、トリガを入力し続けるという条件を登録情報として登録してもよい。
For example, the utterance
[取得部21]
取得部21は、1以上の話者が発話する際の音声を取得する。つまり、取得部21は、1以上の話者のそれぞれが発話した音声を取得し、取得した話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
[Acquisition unit 21]
The
取得部21は、音声を音声信号に変換することで、音声信号を取得するマイクロホン部である。なお、取得部21は、マイクロホンと電気的に接続される入力インターフェイスであってもよい。つまり、取得部21は、マイクロホンから、音声信号を取得してもよい。また、取得部21は、複数のマイクロホンから構成されるマイクロホンアレイ部であってもよい。取得部21は話者認識装置1の周囲に存在する話者の音声を収音することができればよいため、話者認識装置1における取得部21の配置については特に限定されない。
The
[記憶部22]
記憶部22は、取得部21が取得した1以上の話者のそれぞれの音声の音声情報を記憶する。具体的には、記憶部22は、取得部21から取得した音声信号が示す音声の音声情報を記憶する。つまり、記憶部22には、1以上の話者のそれぞれが発話した音声の音声情報が、自動的に記憶される。
[Storage unit 22]
The
また、記憶部22は、話者認識装置1が起動したときに、録音を再開する。また、記憶部22は、話者認識装置1の起動後に、最初に話者がトリガ入力部23にトリガを入力した時点から録音を開始してもよい。つまり、最初に話者によるトリガ入力部23へのトリガの入力によって、記憶部22は音声の録音を開始してもよい。また、記憶部22は、トリガ入力部23へのトリガの入力によって、音声の録音を中止又は停止してもよい。
Furthermore, the
なお、記憶部22に記憶される容量には限りがあるため、記憶部22に記憶された音声情報は、規定容量に達すると、自動的に古い音声データから削除してもよい。つまり、音声情報には、話者の音声と、日時を示す情報(タイムスタンプ)とが付加されていてもよい。記憶部22は、日時を示す情報に基づいて、古い音声情報を削除する。
Note that since the storage capacity of the
また、記憶部22は、HDD(Hard Disk Drive)又は半導体メモリ等で構成される。
Furthermore, the
[トリガ入力部23]
トリガ入力部23には、話者によって、トリガが入力される。具体例を示すと、トリガ入力部23は、例えば第1話者が発話する前に予め設定されたトリガの入力を話者から受付ける。また、トリガ入力部23は、例えば第2話者が発話した後に、予め設定されたトリガの入力を話者から受付ける。つまり、トリガ入力部23は、第1話者では第1話者が発話する前にトリガの入力を受付け、第2話者では第2話者が発話した後にトリガの入力を受付ける。トリガ入力部23は、1以上の話者のそれぞれが発話する度に、話者からのトリガの入力を受付ける。
[Trigger input section 23]
A trigger is input to the
なお、トリガ入力部23は、話者からの操作入力によって、記憶部22への音声の録音を開始してもよく、記憶部22への音声の録音を中止又は停止してもよい。
Note that the
トリガ入力部23は、入力されたトリガを検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。入力信号には、第1時点を示す情報(タイムスタンプ)が含まれる。
When the
本実施の形態では、トリガ入力部23は、話者認識装置1に設けられた1つの操作ボタンである。この場合、トリガ入力部23には、話者による操作ボタンの押下を受付けた操作入力が、トリガとして入力される。つまり、本実施の形態では、トリガは、話者がトリガ入力部23に操作入力した入力信号である。なお、トリガ入力部23は、話者認識装置1に2つ以上設けられていてもよい。
In this embodiment, the
なお、トリガ入力部23は、話者認識装置1の表示部33と一体的に設けられるタッチセンサであってもよい。この場合、話者認識装置1の表示部33には、話者による操作入力を受付ける操作ボタンであるトリガ入力部23が表示されていてもよい。
Note that the
図2Bは、実施の形態における別の話者認識装置1の一例を示すブロック図である。
FIG. 2B is a block diagram showing an example of another
図2Bに示すように、トリガ入力部23aは、予め設定された音声の入力を受付ける音声入力インターフェイスであってもよい。この場合、トリガ入力部23aには、取得部21aを介して予め設定された音声がトリガとして入力される。つまり、この場合では、トリガは、トリガ入力部23aに入力された話者の発話した音声が入力信号となる。ここで、予め設定された音声は、ウエイクアップワード等である。話者認識装置1は、ウエイクアップワードが例えば「OK!○○、××」であれば第1話者及び「○○、OK!××」であれば第2話者と設定されていれば、話者が「OK!○○、××」と発話すると第1話者と識別し、「○○、OK!××」と発話すると第2話者と識別する。なお、トリガ入力部23aが音声入力インターフェイスであれば、音声の内容ごとに話者を設定することで、第1話者と第2話者とからそれぞれの話者を確実に識別することができる。
As shown in FIG. 2B, the
[発話開始検出部24]
図1及び図2Aに示すように、発話開始検出部24は、トリガ入力部23にトリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出する検出装置である。
[Speech start detection unit 24]
As shown in FIGS. 1 and 2A, the utterance
具体的には、発話開始検出部24は、記憶部22に記憶されるそれぞれの音声情報の音声において、話者によるトリガ入力部23へのトリガの入力をした第1時点から規定期間が経過するまでの間に第1話者が発話した音声であって、第1話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部24は、トリガ入力部23がトリガの入力を検知した第1時点から規定期間が経過するまでの間に、第1話者が発話した音声の発話開始の第2時点である開始位置を検出する。
Specifically, the speech
また、発話開始検出部24は、記憶部22に記憶されるそれぞれの音声情報の音声において、話者によるトリガ入力部23へのトリガを入力した第1時点から第1時点よりも規定期間前までの間に第2話者が発話を開始した音声であって、第2話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部24は、第1時点から第1時点よりも規定期間前までの間に、第2話者が発話した音声の発話開始の第2時点である開始位置を検出する。
In addition, the speech
発話開始検出部24は、それぞれの音声ごとに、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を、話者識別部26に出力する。開始位置情報は、話者が発話した音声の発話開始時点である開始位置を示す情報(タイムスタンプ)である。
The speech
[話者識別部26]
話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、1以上の話者のうちからいずれかの話者を識別する装置である。
[Speaker identification unit 26]
The
具体的には、話者識別部26は、トリガ入力部23から第1時点が示される入力信号を取得し、発話開始検出部24から開始位置情報を取得すると、第1時点に対する第2時点の時機を算出する。つまり、話者識別部26は、入力信号に示される第1時点に対する、開始位置情報に示される第2時点の時間的な前後関係を比較し算出する。話者識別部26が算出した結果が、第1時点に対する第2時点の時機を示す結果となる。
Specifically, when the
また、話者識別部26は、発話時機登録部25から登録情報を取得すると、算出した第1時点に対する第2時点の時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、話者を特定する。また、話者識別部26は、この時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が前の時間である場合は、発話した話者が第2話者であると判定し、話者を特定する。
Further, when the
より具体的には、話者識別部26は、トリガ入力部23からのトリガの入力を受付けた第1時点から前後の期間である規定期間における1以上の話者が発話したそれぞれの音声から、いずれの話者かを判定する。話者識別部26は、第1時点を基点として、第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間において、話者が発話した直近(最新)の音声を、記憶部22に記憶されているそれぞれの音声の中から選択する。話者識別部26は、選択した音声によって、いずれかの話者を識別する。
More specifically, the
ここで規定期間は、例えば、1秒、2秒等の数秒間であり、例えば10秒間であってもよい。これにより、話者識別部26は、1以上の話者のそれぞれが直近に発話したそれぞれの音声ごとの第1時点と第2時点とに基づいて、話者を識別する。これは、古すぎる音声に基づいて、話者識別部26が話者を識別しても、直近に発話した話者を正確に識別することができなくなる不具合を避けるためである。
Here, the prescribed period is, for example, several seconds, such as 1 second or 2 seconds, and may be, for example, 10 seconds. Thereby, the
話者識別部26は、話者を識別した結果を含む結果情報を、出力部31に出力する。結果情報は、1以上の話者のうちから、識別されたいずれかの話者を示す情報を含む。例えば、結果情報は、話者の発話によって記憶された音声情報が、識別された第1話者であることを示す情報、又は、話者の発話によって記憶された音声情報が、識別された第2話者であることを示す情報を含む。
The
[表示部33]
表示部33は、例えば、液晶パネル、又は、有機ELパネル等のモニタである。表示部33は、話者識別部26から取得した結果情報に示される話者をテキスト文として表示する。例えば、表示部33は、話者が発話すると、発話した話者が第1話者であることを示す表示をする。また、表示部33は、話者が発話すると、発話した話者が第2話者であることを示す表示をする。表示部33は、出力部31の一例である。
[Display section 33]
The display unit 33 is, for example, a monitor such as a liquid crystal panel or an organic EL panel. The display unit 33 displays the speaker indicated by the result information obtained from the
なお、話者認識装置1は、音声出力部を有していてもよい。この場合、音声出力部は、話者識別部26から取得した結果情報に示される話者を音声として出力するスピーカであってもよい。つまり、音声出力部は、話者が発話した場合、結果情報に示される話者が第1話者であることを示す音声を出力する。また、音声出力部は、話者が発話した場合、結果情報に示される話者が第2話者であることを示す音声を出力する。音声出力部は、出力部31の一例となる。
Note that the
[電源部35]
電源部35は、例えば一次電池又は二次電池等であり、配線を介して発話時機登録部25、取得部21、記憶部22、トリガ入力部23、発話開始検出部24、話者識別部26及び出力部31等と電気的に接続される。電源部35は、発話時機登録部25、取得部21、記憶部22、トリガ入力部23、発話開始検出部24、話者識別部26及び出力部31等に電力を供給する。
[Power supply section 35]
The
<動作>
以上のように構成される話者認識装置1が行う動作について説明する。
<Operation>
The operation performed by the
図3は、第1話者が発話した場合の話者認識装置1の動作を示すフローチャートである。図4は、第1話者が発話する場合と第2話者が発話する場合との、発話による音声ごとの第1時点と第2時点との時系列を例示した図である。
FIG. 3 is a flowchart showing the operation of the
図3及び図4では、発話時機登録部25には、話者がトリガ入力部23にトリガを入力した後に、第1話者が発話を開始するという条件を示す第1時間情報とラベルAとを紐付けた第1登録情報が、発話時機登録部25のメモリに登録されているものとする。また、発話時機登録部25は、話者がトリガ入力部23にトリガを入力する前に、第2話者が発話を開始するという条件を示す第2時間情報とラベルBとを紐付けた第2登録情報が、発話時機登録部25のメモリに登録されているものとする。
In FIGS. 3 and 4, the utterance
図2A、図3及び図4に示すように、まず、トリガ入力部23には、取得部21によるそれぞれの音声の取得を開始するためのトリガが入力される。つまり、トリガ入力部23は、一方の話者が発話する前に、話者によって予め設定されたトリガの入力を受付ける。これにより、トリガ入力部23は、話者から入力されたトリガを検知する(S11)。トリガ入力部23は、トリガの入力を検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。
As shown in FIGS. 2A, 3, and 4, first, a trigger for starting acquisition of each audio by the
次に、取得部21は、一方の話者が発話した音声を取得する(S12)。取得部21は、取得した一方の話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
Next, the
次に、記憶部22は、取得部21が取得した音声信号が示す音声の音声情報を記憶する(S13)。つまり、記憶部22には、一方の話者が発話した直近の音声の音声情報が自動的に記憶される。
Next, the
次に、発話開始検出部24は、トリガ入力部23から入力信号を取得すると、記憶部22に記憶された音声情報の音声において、発話を開始した開始位置(第2時点)を検出する(S14)。具体的には、発話開始検出部24は、話者によるトリガ入力部23にトリガを入力した直後に一方の話者が発話した音声であって、一方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。発話開始検出部24は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を話者識別部26に出力する。
Next, upon acquiring the input signal from the
次に、話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、第1話者及び第2話者のうちからいずれかの話者を識別する(S15)。図3では、話者識別部26は、第1時点の方が第2時点よりも時間的に早い時点であるため、開始位置情報の音声(発話した音声)は第1話者であると識別する。つまり、話者識別部26は、一方の話者を第1話者であると識別する。
Next, the
次に、話者識別部26は、第1話者を識別した結果を含む結果情報を、出力部31に出力する(S16)。
Next, the
そして、話者認識装置1は、処理を終了する。
Then, the
図5は、第2話者が発話した場合の話者認識装置1の動作を示すフローチャートである。図3と同様の処理については適宜説明を省略する。
FIG. 5 is a flowchart showing the operation of the
図2A、図4及び図5に示すように、まず、取得部21は、他方の話者が発話した音声を取得する(S21)。取得部21は、取得した他方の話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
As shown in FIGS. 2A, 4, and 5, the
次に、トリガ入力部23には、取得部21によるそれぞれの音声の取得を開始するためのトリガが入力される。つまり、トリガ入力部23は、他方の話者が発話した後に、話者によって予め設定されたトリガの入力を受付ける。これにより、トリガ入力部23は、話者から入力されたトリガを検知する(S22)。トリガ入力部23は、トリガの入力を検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。
Next, a trigger for starting acquisition of each audio by the
次に、記憶部22は、取得部21が取得した音声信号が示す音声の音声情報を記憶する(S13)。つまり、記憶部22には、他方の話者が発話した直近の音声の音声情報が自動的に記憶される。
Next, the
次に、発話開始検出部24は、トリガ入力部23から入力信号を取得すると、記憶部22に記憶された音声情報の音声において、発話を開始した開始位置(第2時点)を検出する(S14)。具体的には、発話開始検出部24は、話者によるトリガ入力部23にトリガを入力した直後に他方の話者が発話した音声であって、他方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。発話開始検出部24は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を話者識別部26に出力する。
Next, upon acquiring the input signal from the
次に、話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、第1話者及び第2話者のうちからいずれかの話者を識別する(S15)。図5では、話者識別部26は、第2時点の方が第1時点よりも時間的に早い時点であるため、開始位置情報の音声は第2話者であると識別する。つまり、話者識別部26は、他方の話者を第2話者であると識別する。
Next, the
次に、話者識別部26は、第2話者を識別した結果を含む結果情報を、出力部31に出力する(S16)。
Next, the
そして、話者認識装置1は、処理を終了する。
Then, the
図6は、実施の形態における話者認識装置1の話者識別部26における動作を示すフローチャートである。
FIG. 6 is a flowchart showing the operation of the
図3、図5及び図6に示すように、まず、話者識別部26は、トリガ入力部23から第1時点が示される入力信号を取得し、発話開始検出部24から第2時点が示される開始位置情報を取得すると、第1時点に対する第2時点の時機を算出する(S31)。つまり、話者識別部26は、第1時点に対する第2時点の時間的な前後関係を比較し算出する。
As shown in FIGS. 3, 5, and 6, the
話者識別部26は、算出した第1時点に対する第2時点の時機を示す結果と登録情報とを照らし合わせ、第1時点の方が第2時点よりも前の時間であるかどうかを判定する(S32)。
The
第1時点の方が第2時点よりも前の時間である場合、話者識別部26は、登録情報における第1登録情報に示される内容と同様であると判定し(S32でYES)、発話した話者が第1話者であると判定する(S33)。
If the first time point is earlier than the second time point, the
話者識別部26は、第1話者及び第2話者のうちから第1話者を識別した結果を含む結果情報を、表示部に出力する。そして、話者識別部26は、処理を終了する。
The
第1時点の方が第2時点よりも後の時間である場合、話者識別部26は、登録情報における第2登録情報に示される内容と同様であると判定し(S32でNO)、発話した話者が第2話者であると判定する(S34)。
If the first time point is later than the second time point, the
話者識別部26は、第1話者及び第2話者のうちから第2話者を識別した結果を含む結果情報を、表示部に出力する。そして、話者識別部26は、処理を終了する。
The
<作用効果>
次に、本実施の形態における話者認識装置1の作用効果について説明する。
<Effect>
Next, the effects of the
以上のように、本実施の形態における話者認識装置1は、1以上の話者が発話する際のそれぞれの音声を取得する取得部21と、取得部21が取得した1以上の話者の発話によるそれぞれの音声を記憶する記憶部22と、トリガが入力されるトリガ入力部23と、トリガ入力部23にトリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出する発話開始検出部24と、少なくとも、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点とに基づいて、1以上の話者のうちからいずれかの話者を識別する話者識別部26とを備える。
As described above, the
これによれば、例えば、1以上の話者のうちの話者によるトリガを検知した第1時点と、話者が発話した音声の第2時点との時間的な前後関係によって、1以上の話者のうちからいずれかの話者を識別することができる。つまり、第1時点から第2時点までの期間を学習しなくても、取得部21が取得した音声の話者が、1以上の話者のうちのいずれの話者であるかを識別することができる。
According to this, for example, depending on the temporal relationship between the first point in time when a trigger from one or more speakers is detected and the second point in time of the voice uttered by the speaker, one or more speech It is possible to identify any one of the speakers. In other words, it is possible to identify which one of one or more speakers is the speaker of the voice acquired by the
したがって、この話者認識装置1では、簡易な処理で話者を識別することで計算量の増大を抑制することができる。
Therefore, in this
特に、話者は、第1時点に対する発話の時機に基づいて、音声の話者を識別することができる。このため、話者認識装置1では、簡単な操作で音声の話者を識別することができる。また、話者認識装置1の操作が簡単となるため、話者認識装置1に複数のボタンを配置する等の、話者認識装置1の複雑化を抑制することができる。このため、この音声入力装置1では、例えばトリガ入力部23がボタンである場合、1つのボタンでも1以上の話者のうちのいずれの話者であるかを識別することができるため、音声入力装置1の構成をより簡易にすることができる。
In particular, the speaker can identify the speaker of the audio based on the timing of the utterance relative to the first point in time. Therefore, the
また、本実施の形態における音声入力方法は、1以上の話者が発話する際のそれぞれの音声を取得することと、取得した1以上の話者の発話によるそれぞれの音声を記憶部22に記憶することと、トリガが入力されることと、トリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出することと、少なくとも、トリガが入力される第1時点と、それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、1以上の話者のうちからいずれかの話者を識別することとを含む。
Furthermore, the voice input method in this embodiment includes acquiring each voice uttered by one or more speakers, and storing each acquired voice uttered by the one or more speakers in the
この音声入力方法においても、上述の話者認識装置1と同様の作用効果を奏する。
This voice input method also provides the same effects as the
また、本実施の形態におけるプログラムは、音声入力方法をコンピュータに実行させるためのプログラムである。 Further, the program in this embodiment is a program for causing a computer to execute a voice input method.
このプログラムにおいても、上述の話者認識装置1と同様の作用効果を奏する。
This program also provides the same effects as the
また、本実施の形態における話者認識装置1は、第1時点と第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部25を備える。そして、話者識別部26は、第1時点と第2時点と発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、1以上の話者のうちからいずれかの話者を識別する。
Furthermore, the
これによれば、1以上の話者が所望する条件として、第1時点と第2時点との時間的な前後関係を予め登録することができる。このため、話者識別部26は、第1時点及び第2時点の時間的な前後関係が、登録情報に示されているかどうかを判定するだけで、1以上の話者のうちからいずれかの話者を識別することができる。その結果、この話者認識装置1では、簡易な処理で、より確実に話者を識別することができる。
According to this, the temporal relationship between the first time point and the second time point can be registered in advance as a condition desired by one or more speakers. For this reason, the
また、本実施の形態における話者認識装置1において、発話時機登録部25は、1以上の話者のそれぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が後の時間であることを示す第1時間情報と、1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録する。そして、発話時機登録部25は、それぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が前の時間であることを示す第2時間情報と、1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。
Furthermore, in the
これによれば、話者は、発話を開始する前に取得部21にトリガを入力するという条件を登録したり、発話を開始した後に取得部21にトリガを入力するという条件を登録したりすることができる。このように、予め話者が条件を登録しておけば、話者認識装置1は、学習することなく、話者を簡易かつ確実に識別することができる。
According to this, the speaker registers a condition to input a trigger to the
また、本実施の形態における話者認識装置1において、話者識別部26は、第1時点に対する第2時点の時機を算出し、算出した時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、第1時点よりも第2時点の方が前の時間である場合は、発話した話者が第1話者と別の第2話者であると判定する。
Furthermore, in the
これによれば、話者識別部26は、トリガ入力部23に入力された第1時点と、発話開始検出部24が検出した第2時点とから、第1時点に対する第2時点の時機を算出することができる。これにより、発話開始検出部24は、第1時点が第2時点よりも先の時間であるか、後の時間であるかという、時機を示す結果を算出することができる。この結果、発話開始検出部24は、算出した時機を示す結果と複数の登録情報とを比較することで、1以上の話者のうちのいずれの話者であるかを、より確実に識別することができる。
According to this, the
また、話者が複数存在する場合、例えば第1時点から第2時点までの期間を登録することで、複数の話者が存在しても、いずれの話者であるかを識別することができる。 In addition, if there are multiple speakers, for example, by registering the period from the first time point to the second time point, it is possible to identify which speaker the speaker is, even if there are multiple speakers. .
また、本実施の形態における話者認識装置1において、トリガ入力部23は、予め設定された音声の入力を受付ける音声入力インターフェイスである。そして、トリガ入力部23には、予め設定された音声がトリガとして入力される。
Furthermore, in the
これによれば、話者がウエイクアップワード等のような予め設定された音声による発話をするだけで、話者認識装置1は、マジックワード認識を行い、話者の識別を実行することができる。このため、話者認識装置1は、操作性に優れている。
According to this, the
また、本実施の形態における話者認識装置1において、トリガ入力部23は、話者認識装置1に設けられた操作ボタンである。そして、トリガ入力部23には、受付けた操作入力がトリガとして入力される。
Furthermore, in the
これによれば、話者がトリガ入力部23を操作することで、トリガ入力部23にトリガを確実に入力することができる。
According to this, the speaker can reliably input a trigger to the
(その他変形例等)
以上、本開示について、実施の形態に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。
(Other variations, etc.)
Although the present disclosure has been described above based on the embodiments, the present disclosure is not limited to these embodiments.
例えば、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムにおいて、取得部が取得した音声に基づいて、音声入力装置に対する話者の方向を推定してもよい。この場合、マイクロホンアレイ部の取得部を用いて、話者のそれぞれが発話した、音声入力装置に対する音源方向を推定してもよい。具体的には、音声入力装置は、取得部におけるそれぞれのマイクロホンに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定してもよい。 For example, in the voice input device, voice input method, and program thereof according to each of the embodiments described above, the direction of the speaker with respect to the voice input device may be estimated based on the voice acquired by the acquisition unit. In this case, the acquisition unit of the microphone array unit may be used to estimate the direction of the sound source relative to the audio input device in which each speaker speaks. Specifically, the audio input device may calculate the time difference (phase difference) between the sounds reaching each microphone in the acquisition unit, and estimate the sound source direction using, for example, a delay time estimation method.
また、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムにおいて、音声入力装置は、取得部が取得する話者の音声の区間を検出することで、取得部が取得する話者の音声を取得できない期間が所定期間以上検出されれば、自動的に録音を中止又は停止してもよい。 Furthermore, in the voice input device, the voice input method, and the program thereof according to each of the above embodiments, the voice input device detects the section of the speaker's voice acquired by the acquisition unit. If a predetermined period or more is detected during which the audio cannot be acquired, recording may be automatically stopped or stopped.
また、上記各実施の形態に係る音声入力方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。 Further, the voice input method according to each of the embodiments described above is realized by a program using a computer, and such a program may be stored in a storage device.
また、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。 Further, the audio input device, audio input method, and each processing unit included in the program according to each of the embodiments described above is typically realized as an LSI, which is an integrated circuit. These may be individually integrated into one chip, or may be integrated into one chip including some or all of them.
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 Further, circuit integration is not limited to LSI, and may be realized using a dedicated circuit or a general-purpose processor. An FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 Note that in each of the above embodiments, each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態は例示された数字に制限されない。 Moreover, all the numbers used above are exemplified to specifically explain the present disclosure, and the embodiments of the present disclosure are not limited to the illustrated numbers.
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。 Furthermore, the division of functional blocks in the block diagram is just an example; multiple functional blocks can be realized as one functional block, one functional block can be divided into multiple functional blocks, or some functions can be moved to other functional blocks. It's okay. Further, functions of a plurality of functional blocks having similar functions may be processed in parallel or in a time-sharing manner by a single piece of hardware or software.
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。 Further, the order in which the steps in the flowchart are executed is for illustrative purposes to specifically explain the present disclosure, and may be in an order other than the above. Further, some of the above steps may be executed simultaneously (in parallel) with other steps.
その他、実施の形態に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。 In addition, this invention also includes forms obtained by making various modifications to the embodiments that those skilled in the art can think of, and forms realized by arbitrarily combining the components and functions of the embodiments without departing from the spirit of the present disclosure. Included in disclosure.
本開示は、複数の話者のそれぞれの発話がどの話者であるかを特定するために用いられる音声入力装置、音声入力方法及びそのプログラムに適用することができる。 The present disclosure can be applied to a voice input device, a voice input method, and a program thereof, which are used to identify which speaker is responsible for each utterance of a plurality of speakers.
1 話者認識装置(音声入力装置)
21 取得部
22 記憶部
23 トリガ入力部
24 発話開始検出部
25 発話時機登録部
26 話者識別部
1 Speaker recognition device (voice input device)
21
Claims (7)
前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、
トリガが入力されるトリガ入力部と、
前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、
少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部と、
前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部とを備え、
前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する
音声入力装置。 an acquisition unit that acquires each voice when one or more speakers speak;
a storage unit that stores each of the voices uttered by the one or more speakers acquired by the acquisition unit;
a trigger input section into which a trigger is input;
an utterance start detection unit that detects a start position at which an utterance is started from each of the voices stored in the storage unit each time the trigger is input to the trigger input unit;
Based on at least a first time point at which the trigger is input to the trigger input section and a second time point at which the utterance start position is detected from the respective voices by the utterance start detection section, the one or more speakers a speaker identification unit that identifies one of the speakers ;
an utterance timing registration unit that registers at least which time point of the first time point or the second time point is the previous time;
The speaker identification unit identifies the one or more utterances based on the first time point, the second time point, and a plurality of pieces of registered information that the utterance time registration unit indicates the timing of the second time point with respect to the first time point. identify one of the speakers
Voice input device.
前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が後の時間であることを示す第1時間情報と、前記1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録し、
前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が前の時間であることを示す第2時間情報と、前記1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する
請求項1に記載の音声入力装置。 The utterance timing registration unit, when registering the utterance timing of each of the one or more speakers,
first time information indicating that the second time point of the start position of the utterance is a later time than the first time point when the trigger is input to the trigger input section; registering first registration information that is registration information linking one of the speakers with one of the speakers;
second time information indicating that the second time point at the start position of the utterance is earlier than the first time point when the trigger is input to the trigger input section; The voice input device according to claim 1, wherein second registration information is registered that is registration information linking one of the speakers with another speaker.
前記第1時点に対する前記第2時点の時機を算出し、
算出した時機を示す結果と前記複数の登録情報とを照らし合わせて、前記第1時点よりも前記第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、前記第1時点よりも前記第2時点の方が前の時間である場合は、発話した話者が前記第1話者と別の第2話者であると判定する
請求項1又は2に記載の音声入力装置。 The speaker identification unit includes:
calculating the timing of the second point in time with respect to the first point in time;
Comparing the calculated result indicating the timing with the plurality of registered information, if the second time point is later than the first time point, the speaker who uttered the utterance is the first speaker. If it is determined that the second time point is earlier than the first time point, it is determined that the speaker who uttered the utterance is a second speaker different from the first speaker . Or the voice input device according to 2 .
前記トリガ入力部には、予め設定された音声が前記トリガとして入力される
請求項1~3のいずれか1項に記載の音声入力装置。 The trigger input unit is an audio input interface that accepts preset audio input,
The audio input device according to any one of claims 1 to 3 , wherein a preset audio is input as the trigger to the trigger input section.
前記トリガ入力部には、受付けた操作入力が前記トリガとして入力される
請求項1~3のいずれか1項に記載の音声入力装置。 The trigger input section is an operation button provided on the voice input device,
The audio input device according to any one of claims 1 to 3 , wherein a received operation input is input as the trigger to the trigger input section.
取得した前記1以上の話者の発話による前記それぞれの音声を記憶部に記憶することと、
トリガが入力されることと、
前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出することと、
少なくとも、前記トリガが入力される第1時点と、前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することと、
前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録することと、
前記第1時点と前記第2時点と前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することとを含む
音声入力方法。 Obtaining each voice when one or more speakers speak;
storing each of the acquired voices uttered by the one or more speakers in a storage unit;
that a trigger is input,
detecting a starting position at which an utterance is started from each of the voices stored in the storage unit each time the trigger is input;
Identify one of the one or more speakers based on at least a first point in time when the trigger is input and a second point in time at the start position of the utterance detected from each of the voices. And ,
registering at least which time point between the first time point and the second time point is the previous time;
Identifying one of the one or more speakers based on the first time point, the second time point, and a plurality of registered information indicating the timing of the second time point with respect to the first time point. and voice input methods.
プログラム。 A program for causing a computer to execute the voice input method according to claim 6 .
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010206519.0A CN111754986A (en) | 2019-03-27 | 2020-03-23 | Voice input device, voice input method, and recording medium |
US16/828,018 US11308966B2 (en) | 2019-03-27 | 2020-03-24 | Speech input device, speech input method, and recording medium |
EP20166229.3A EP3716268A1 (en) | 2019-03-27 | 2020-03-27 | Speech input device, speech input method, and program therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962824619P | 2019-03-27 | 2019-03-27 | |
US62/824,619 | 2019-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020160430A JP2020160430A (en) | 2020-10-01 |
JP7449070B2 true JP7449070B2 (en) | 2024-03-13 |
Family
ID=72643246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019197231A Active JP7449070B2 (en) | 2019-03-27 | 2019-10-30 | Voice input device, voice input method and its program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7449070B2 (en) |
CN (1) | CN111754986A (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001222295A (en) | 2000-02-10 | 2001-08-17 | Fujitsu Ltd | Individual collating device and recording medium with program for realizing it recorded thereon |
JP2004094077A (en) | 2002-09-03 | 2004-03-25 | Nec Corp | Speech recognition device and control method, and program |
JP2006313261A (en) | 2005-05-09 | 2006-11-16 | Mitsubishi Electric Corp | Voice recognition device and voice recognition program and computer readable recording medium with the voice recognition program stored |
JP2014096153A (en) | 2012-11-09 | 2014-05-22 | Samsung Electronics Co Ltd | Display device, voice acquisition device and voice recognition method |
-
2019
- 2019-10-30 JP JP2019197231A patent/JP7449070B2/en active Active
-
2020
- 2020-03-23 CN CN202010206519.0A patent/CN111754986A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001222295A (en) | 2000-02-10 | 2001-08-17 | Fujitsu Ltd | Individual collating device and recording medium with program for realizing it recorded thereon |
JP2004094077A (en) | 2002-09-03 | 2004-03-25 | Nec Corp | Speech recognition device and control method, and program |
JP2006313261A (en) | 2005-05-09 | 2006-11-16 | Mitsubishi Electric Corp | Voice recognition device and voice recognition program and computer readable recording medium with the voice recognition program stored |
JP2014096153A (en) | 2012-11-09 | 2014-05-22 | Samsung Electronics Co Ltd | Display device, voice acquisition device and voice recognition method |
Also Published As
Publication number | Publication date |
---|---|
JP2020160430A (en) | 2020-10-01 |
CN111754986A (en) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210210071A1 (en) | Methods and devices for selectively ignoring captured audio data | |
JP2020012954A (en) | Information processing apparatus, information processing method and program | |
KR20180084392A (en) | Electronic device and operating method thereof | |
US20160372110A1 (en) | Adapting voice input processing based on voice input characteristics | |
JPWO2016098228A1 (en) | Speech recognition apparatus and speech recognition method | |
JP7330066B2 (en) | Speech recognition device, speech recognition method and its program | |
JP2011248140A (en) | Voice recognition device | |
US11507759B2 (en) | Speech translation device, speech translation method, and recording medium | |
US20200312305A1 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
TW202223877A (en) | User speech profile management | |
JP6827536B2 (en) | Voice recognition device and voice recognition method | |
JP2016061888A (en) | Speech recognition device, speech recognition subject section setting method, and speech recognition section setting program | |
JP7449070B2 (en) | Voice input device, voice input method and its program | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
US20180350360A1 (en) | Provide non-obtrusive output | |
JP7287006B2 (en) | Speaker Determining Device, Speaker Determining Method, and Control Program for Speaker Determining Device | |
JP2011039222A (en) | Speech recognition system, speech recognition method and speech recognition program | |
US10818298B2 (en) | Audio processing | |
JP2015161718A (en) | speech detection device, speech detection method and speech detection program | |
US11308966B2 (en) | Speech input device, speech input method, and recording medium | |
JP7429107B2 (en) | Speech translation device, speech translation method and its program | |
JP2017201348A (en) | Voice interactive device, method for controlling voice interactive device, and control program | |
JP2015036826A (en) | Communication processor, communication processing method and communication processing program | |
JP6351440B2 (en) | Speech recognition apparatus and computer program | |
JP7242873B2 (en) | Speech recognition assistance device and speech recognition assistance method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7449070 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |