JP2021500616A

JP2021500616A - オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体

Info

Publication number: JP2021500616A
Application number: JP2020522805A
Authority: JP
Inventors: 明▲遠▼ ▲張▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-23
Filing date: 2018-08-30
Publication date: 2021-01-07
Anticipated expiration: 2038-08-30
Also published as: JP6938784B2; WO2019080639A1; CN108305615A; US11289072B2; CN108305615B; KR20200012963A; KR102339594B1; EP3614377B1; EP3614377A4; US20200058293A1; EP3614377A1

Abstract

オブジェクト識別の方法であって、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得するステップと、前記声紋特徴情報に対応する音声信頼度を取得するステップと、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む。

Description

関連出願の相互参照
本願は、２０１７年１０月２３日に提出した中国特許出願第２０１７１０９９２６０５．７号、発明の名称「オブジェクト識別の方法及びその装置、記憶媒体、端末」の優先権を主張し、その全内容が本願の一部分として援用される。

本願はコンピュータ技術分野に関し、特にオブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体に関する。

科学技術の継続的な発展に伴い、声紋識別は生体識別技術として発展しており、声紋識別によって複数の話し手からある話し手を識別することができるだけでなく、ある音声の声紋特徴を識別することにより該音声に対応する話し手の身元を決定することもできる。例えば、音声識別システムにおける記録システムは声紋によってあるシーンにおけるすべての話し手を区別する（例えば、記録システムにおける声紋識別技術によって審尋シーンにおける裁判官と犯人を区別する）ことができる。

従来技術において、主に音響学モデルの声紋特徴（例えば、語調、方言、リズム及び鼻音等）をマッチングすることにより声紋識別を行うが、類似度のより高い声紋特徴がある場合、声紋マッチング結果の相違がより小さく、声紋マッチング結果に基づいて話し手を区別することが困難である状況が生じやすく、それにより声紋識別結果の精度に悪影響を与えてしまう。

本願の様々な実施例はオブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体を提供する。

メモリ及びプロセッサを備えるコンピュータ装置において実行されるオブジェクト識別の方法であって、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
前記声紋特徴情報に対応する音声信頼度を取得するステップと、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む。

コンピュータ装置であって、
プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。

不揮発性のコンピュータ装置可読記憶媒体であって、
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるとき、前記１つ又は複数のプロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。

本願の１つ又は複数の実施例の詳細は以下の図面及び説明において提供される。本願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。

図１は本願の実施例に係るオブジェクト識別装置のハードウェアアーキテクチャの模式図である。図２は本願の実施例に係るオブジェクト識別装置のシステムブロック図である。図３は本願の実施例に係るオブジェクト識別の方法のフローチャートである。図４は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図５は本願の実施例に係るビームフォーミング方式に基づく音声分離表示の模式図である。図６は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図７は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図８は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図９は本願の実施例に係るオブジェクト識別装置の構造模式図である。図１０は本願の実施例に係る他のオブジェクト識別装置の構造模式図である。図１１は本願の実施例に係るオブジェクト情報取得モジュールの構造模式図である。図１２は本願の実施例に係る信頼度取得モジュールの構造模式図である。図１３は本願の実施例に係る結果取得モジュールの構造模式図である。図１４は本願の実施例に係る第２結果取得ユニットの構造模式図である。図１５は本願の実施例に係る端末の構造模式図である。

本願の実施例の技術案をより明確に説明するために、以下に実施例の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は単に本願の実施例の一例であって、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。

以下、本願の実施例の図面を参照しながら、本願の実施例の技術案を明確且つ完全に説明し、無論、説明される実施例は本願の実施例の一部であり、実施例のすべてではない。本願の実施例に基づき、当業者が進歩性のある労働を必要とせずに得られる他の実施例は、いずれも本願の保護範囲に属する。

本願の実施例に係るオブジェクト識別の方法は多重音源環境における音源オブジェクトに対して声紋識別を行って、目標オブジェクトを識別するシーンに適用されてもよく、例えば、オブジェクト識別装置は現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、最後に前記声紋特徴情報に対応する音声信頼度を取得することにより、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。

本願の実施例に係るオブジェクト識別装置はタブレットＰＣ、スマートフォン、携帯情報端末及びモバイルインターネットデバイス（ＭＩＤ）等の他のマイク配列を統合でき又はマイク配列から送信された音源方位情報を受信できて声紋識別機能を有する端末装置であってもよい。前記オブジェクト識別装置のハードウェアアーキテクチャは図１に示されてもよく、オーディオプロセッサは騒音低減及び方向の特定に用いられ、システムプロセッサはクラウドに接続されて声紋特徴分析を行うことに用いられ、記憶システムはオブジェクトを識別するアプリケーションプログラムを記憶することに用いられる。前記オブジェクト識別装置のシステムブロック図は図２に示されてもよく、マイク配列は異なる方位の音源に対応する音声情報を識別して、異なる音源に対して角度位置決めを行うことができる。

以下、図３〜図８を参照しながら、本願の実施例に係るオブジェクト識別の方法を詳しく説明する。

図３は本願の実施例に係るオブジェクト識別の方法のフローチャートである。図３に示すように、一実施例では、オブジェクト識別の方法は以下のステップＳ１０１〜ステップＳ１０３を含んでもよい。

Ｓ１０１において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得する。

具体的に、オブジェクト識別装置はマイク配列に基づいて現在の音声環境における目標オブジェクトの音声情報を取得して、マイク配列に基づいて目標オブジェクトの方位情報を取得することができる。

一実施例では、目標オブジェクトは現在の音声環境における有効音源オブジェクト（例えば、案件を審尋する際の裁判官、弁護士、被告及び原告）であってもよく、説明すべきことは、オブジェクト識別装置が現在の音声環境から取得した音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報（例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等）であってもよく、オブジェクト識別装置は現在の音声環境における音声情報集合を取得した後、音声情報集合に対してスクリーニング処理を行って、目標オブジェクトの音声情報を取得することができる。

一実施例では、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する（つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する）ことができる。

Ｓ１０２において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。

具体的に、オブジェクト識別装置は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行うことができる。

一実施例では、声紋マッチングモデルは予め収集された声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報をある訓練アルゴリズム（例えば、ニューラルネットワーク方法、隠れマルコフ方法又はＶＱクラスタリング方法等）で訓練して確立したモデルであってもよい。

一実施例では、声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限しない。声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよい。

一実施例では、オブジェクト識別装置は声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。

Ｓ１０３において、声紋特徴情報に対応する音声信頼度を取得する。

具体的に、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度を取得することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよいと理解される。例えば、音声信頼度が９０％である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が９０％であると示されてもよい。

一実施例では、オブジェクト識別装置は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、次にマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Ａのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が９０％であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が９０％であると決定できる。

Ｓ１０４において、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。

具体的に、オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報の属する目標オブジェクトを示してもよい。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報を分類する（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する）ことができる。

一実施例では、声紋特徴情報には類似する声紋特徴が２つある場合、オブジェクト識別装置は上記２つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。

上記状況については、オブジェクト識別装置は音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得することができる。具体的に、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、目標オブジェクトを識別するためのオブジェクト識別結果のオブジェクト識別情報を決定し、更にオブジェクト識別情報に基づいてオブジェクト識別結果を取得することができ、オブジェクト識別情報は方位情報であってもよく、声紋特徴情報であってもよいと理解される。

一実施例では、オブジェクト識別装置は音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定し、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得し（つまり、声紋特徴情報を用いて目標オブジェクトを識別するが、方位情報が識別に参加せずに音源特定のみとして使用される）、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得し（つまり、声紋特徴情報を用いて目標オブジェクトを識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別する）、音声信頼度が第２信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する（つまり、方位情報により音源を特定した特定方向のみを用いて目標オブジェクトを識別する）ことができる。

上記実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。

説明すべきことは、声紋識別は複数の話し手の識別であってもよく、ある話し手の身元確認であってもよいため、話し手の識別に関わる実行過程は下記図４に示される実施例を参照し、話し手の身元確認に関わる実行過程は下記図８に示される実施例を参照する。

図４は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図４に示すように、一実施例では、オブジェクト識別の方法は以下のステップを含んでもよい。

Ｓ２０１において、声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成する。

具体的に、声紋識別を行う前に、オブジェクト識別装置は声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。オブジェクト識別装置はニューラルネットワーク、隠れマルコフ又はＶＱクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができると理解される。声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよい。

Ｓ２０２において、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得する。

具体的に、オブジェクト識別装置はマイク配列に基づいて現在の音声環境における音声情報集合を取得することができる。音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報（例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等）であってもよく、目標オブジェクトは現在の音声環境における有効音源オブジェクト（例えば、案件を審尋する際の裁判官、弁護士、被告及び原告）であってもよいと理解される。

一実施例では、音声情報集合における音声情報はすべて目標オブジェクトの音声情報ではないため、オブジェクト識別装置は音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することができる。スクリーニング処理は騒音低減処理による騒音のフィルタリング、エコーの除去又は処理対象の目標オブジェクトの音声情報の特徴（音声の音量、音色又は他の特徴情報）に基づく非目標オブジェクトの音声のフィルタリングであってもよく、他の音声フィルタリング処理であってもよい。

Ｓ２０３において、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定する。

マイク配列は音声情報集合を収集すると同時に、音声情報集合における各音声情報に対応する位相情報を取得することができると理解される。具体的に、オブジェクト識別装置は位相情報を取得することができ、且つ位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することができる。一実施例では、位相情報における位相は音声情報の音声波形のある時刻でのスケールを示してもよく、音声信号波形が変化する度量を説明でき、一般的に度（角度）を単位とし、位相角とも称される。

一実施例では、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する（つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する）ことができる。図５に示すように、ビームフォーミング方式は異なる方向への音源によってそれぞれピックアップビームを形成して、他の方向の音声を抑制することにより、音声抽出又は分離を行うことであってもよい。

Ｓ２０４において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行い、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。

具体的に、オブジェクト識別装置は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。

Ｓ２０５において、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得する。

具体的に、オブジェクト識別装置は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することができる。

一実施例では、異なる人の声紋特徴が異なり、同じ人の声紋特徴であっても話し手自身の身体状況又は位置する環境によって異なる。従って、声紋特徴情報の声紋特徴及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングするとき、取得されたマッチング度値も異なるが、すべてのマッチング度値を比較することによりその中から特徴マッチング度の最も高い際のマッチング度値を取得することができる。

Ｓ２０６において、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定する。

具体的に、オブジェクト識別装置はマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が９０％である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が９０％であると示されてもよいと理解される。

一実施例では、オブジェクト識別装置はマッチング度値を声紋特徴情報に対応する音声信頼度として直接決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Ａのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が９０％であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が９０％であると決定できる。

Ｓ２０７において、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。

一実施例では、オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができる。オブジェクト識別結果は目標オブジェクトの音声情報が目標オブジェクトに属すると示されてもよい。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報を分類する（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する）ことができる。

上記状況については、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。所定の音声信頼度値は複数回の識別過程における経験によって取得されてもよく、少なくとも２つの所定の音声信頼度閾値を含んでもよいと理解される。オブジェクト識別情報は目標オブジェクトを識別することに用いられてもよく、方位情報又は声紋特徴情報を含んでもよい。

一実施例では、図６に示すように、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよい。

Ｓ３０１において、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。

具体的に、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより高いと示されてもよく、オブジェクト識別装置は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトを識別することができ、この時の方位情報が識別に参加せずに音源特定のみとして使用される。

一実施例では、第１信頼度閾値を９０％、９５％又は他の実際の状況に応じて決定された値に設定してもよい。

Ｓ３０２において、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。

具体的に、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあると示されてもよい。目標オブジェクトをより正確に識別するために、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行って目標オブジェクトを最初に識別すると同時に、方位情報により特定した音源方向を用いて目標オブジェクトを更に識別することができる。

一実施例では、第１信頼度閾値を９０％、９５％又は他の実際の状況に応じて決定された値に設定してもよく、第２信頼度閾値を５０％、５５％、６０％又は他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。

Ｓ３０３において、音声信頼度が第２信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。

具体的に、音声信頼度が第２信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの精度がより低いと示されてもよく、オブジェクト識別装置は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトを識別し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。

上記実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。

一実施例では、図７に示すように、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよい。

Ｓ４０１において、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定する。

音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあり、つまり、声紋特徴情報に基づいて目標オブジェクトのオブジェクト識別結果を識別するとき、決定されたオブジェクト識別結果の信頼性が普通であると示されてもよく、この時、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することができると理解される。

Ｓ４０２において、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得する。

具体的に、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。一実施例では、目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報を正確に分類することができる。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも２つある場合、候補識別結果に対応する目標オブジェクトの言語情報の分類が正確ではない。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置はそれらに対して音声情報分類を行うとき、裁判官Ａの音声情報を犯人Ｂの音声情報に分類し、又は犯人Ｂの音声情報を裁判官Ａの音声情報に分類する可能性がある。

Ｓ４０３において、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定する。

具体的に、オブジェクト識別装置が声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、オブジェクト識別装置は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、オブジェクト識別装置は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度がより大きく、オブジェクト識別装置は裁判官Ａと犯人Ｂの位置する位置に基づき、候補識別結果、すなわち正確に分類できない音声情報からそれらの音声情報を更に正確に分類することができる。

上記実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。

上記オブジェクト識別の方法において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。

図８は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図８に示すように、本願の実施例の方法は以下のステップを含んでもよい。

Ｓ５０１において、目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成する。

声紋識別によって１つの言語情報に対応する話し手の身元情報を確認することができることと、声紋識別によって複数の言語情報から目標話し手を識別することとの相違点は、声紋マッチングモデルの確立過程であると理解される。

具体的に、オブジェクト識別装置は目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。オブジェクト識別装置はニューラルネットワーク、隠れマルコフ又はＶＱクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができ、声紋訓練音声集合における音声に対応する音声収集者がステップＳ２０１におけるものと異なり、この時、声紋訓練音声集合における音声に対応する音声収集者は必ず目標オブジェクトを含まなければならず、声紋訓練音声に対応するサンプル特徴情報が声紋訓練音声の声紋特徴情報であってもよいと理解される。

Ｓ５０２において、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得する。

Ｓ５０３において、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定する。

Ｓ５０４において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。

Ｓ５０５において、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得する。

Ｓ５０６において、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定する。

Ｓ５０７において、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。

オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報に対応する目標オブジェクトの身元情報を示してもよいと理解される。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報に対応する目標オブジェクトを決定して、目標オブジェクトの身元情報を決定することができる（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告に分類した後、音声Ａが裁判官に属し、音声Ｂが被告に属し、音声Ｃが原告に属する等を決定することができる。）。

上記状況については、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。

一実施例では、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよく、具体的に図６に示される過程を参照してもよい。

具体的に、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより高いと示されてもよく、オブジェクト識別装置は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトの身元情報を識別することができ、この時の方位情報が身元確認に参加せずに音源特定のみとして使用される。

具体的に、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性が平均レベルにあると示されてもよい。目標オブジェクトの身元をより正確に識別するために、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトの身元を最初に決定すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトの身元を更に識別することができる。

具体的に、音声信頼度が第２信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクト身元の精度がより低いと示されてもよく、オブジェクト識別装置は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトの身元を決定し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。説明すべきことは、このような状況において、現在の音声環境が特定の音声環境であり、例えば、目標オブジェクトの位置がいずれも決定された環境（例えば、審尋中、裁判官と犯人の位置が決定されたもの）である必要がある。

一実施例では、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよく、具体的に図７に示される過程を参照してもよい。

具体的に、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。一実施例では、目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報から目標オブジェクトの音声情報を明確に識別することができ、目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも２つある場合、候補識別結果で示す目標オブジェクトと音声情報との対応関係が正確ではない可能性があり、例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置は審尋中の複数の音声情報から裁判官Ａの音声情報を識別するとき、犯人Ｂの音声情報が裁判官Ａに属すると間違えられる可能性もあるし、裁判官Ａの音声情報が犯人Ｂに属すると間違えられる可能性もある。

具体的に、オブジェクト識別装置は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、オブジェクト識別装置は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、オブジェクト識別装置は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度がより大きく、候補識別結果は裁判官Ａの音声情報が犯人Ｂに対応すると示され、裁判官Ａの位置情報と組み合わせてオブジェクト識別装置は裁判官Ａの音声情報を裁判官Ａに対応することができる。

以下、図９〜図１４を参照しながら、本願の実施例に係るオブジェクト識別装置を詳しく説明する。説明すべきことは、図９〜図１４に示される装置は本願の図３〜図８に示される実施例の方法を実行することに用いられ、説明都合上、本願の実施例に関連する部分のみを示し、図示しない具体的な技術詳細は本願の図３〜図８に示される実施例を参照してもよい。

図９は本願の実施例に係るオブジェクト識別装置の構造模式図である。図９に示すように、本願の実施例のオブジェクト識別装置１はオブジェクト情報取得モジュール１１、特徴情報取得モジュール１２、信頼度取得モジュール１３及び結果取得モジュール１４を備えてもよい。

オブジェクト情報取得モジュール１１は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することに用いられる。

具体的に実現するとき、オブジェクト情報取得モジュール１１はマイク配列に基づいて現在の音声環境における目標オブジェクトの音声情報を取得して、マイク配列に基づいて目標オブジェクトの方位情報を取得することができる。目標オブジェクトは現在の音声環境における有効音源オブジェクト（例えば、案件を審尋する際の裁判官、弁護士、被告及び原告）であってもよいと理解される。説明すべきことは、オブジェクト情報取得モジュール１１が現在の音声環境から取得した音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報（例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等）であってもよく、オブジェクト情報取得モジュール１１は現在の音声環境における音声情報集合を取得した後、音声情報に対してスクリーニング処理を行って、目標オブジェクトの音声情報を取得することができる。

本願の実施例において、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する（つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する）ことができる。

特徴情報取得モジュール１２は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することに用いられる。

一実施例では、特徴情報取得モジュール１２は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行うことができる。声紋マッチングモデルは予め収集された声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報をある訓練アルゴリズム（例えば、ニューラルネットワーク方法、隠れマルコフ方法又はＶＱクラスタリング方法等）で訓練して確立したモデルであってもよいと理解される。声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。

更に、特徴情報取得モジュール１２は声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。

信頼度取得モジュール１３は声紋特徴情報に対応する音声信頼度を取得することに用いられる。

一実施例では、信頼度取得モジュール１３は声紋特徴情報に対応する音声信頼度を取得することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が９０％である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が９０％であると示されてもよいと理解される。

一実施例では、信頼度取得モジュール１３は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、次にマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Ａのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が９０％であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が９０％であると決定できる。

結果取得モジュール１４は方位情報、声紋特徴情報及び音声信頼度を用いて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。

オブジェクト識別装置１は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報の属する目標オブジェクトを示してもよいと理解される。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報を分類する（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する）ことができる。

一実施例では、声紋特徴情報には類似する声紋特徴が２つある場合、オブジェクト識別装置１は上記２つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。

上記状況については、結果取得モジュール１４は音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得することができる。具体的に実現するとき、結果取得モジュール１４は音声信頼度と所定の音声信頼度閾値との関係に基づき、目標オブジェクトを識別するためのオブジェクト識別結果のオブジェクト識別情報を決定し、更にオブジェクト識別情報に基づいてオブジェクト識別結果を取得することができる。オブジェクト識別情報は方位情報であってもよく、声紋特徴情報であってもよいと理解される。

本願の具体的な実現方式では、結果取得モジュール１４は音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる（つまり、声紋特徴情報を用いて目標オブジェクトを識別するが、方位情報が識別に参加せずに音源特定のみとして使用される）。音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する（つまり、声紋特徴情報を用いて目標オブジェクトを識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別する）。音声信頼度が第２信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する（つまり、方位情報により音源を特定した特定方向のみを用いて目標オブジェクトを識別する）。

本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。

説明すべきことは、声紋識別は複数の話し手の識別であってもよく、ある話し手の身元確認であってもよいため、話し手の識別に関わる実行過程は下記図１０に示される実施例の第１実現方式を参照し、話し手の身元確認に関わる実行過程は下記図１０に示される実施例の第２実現方式を参照する。

図１０は本願の実施例に係る他のオブジェクト識別装置の構造模式図である。図１０に示すように、本願の実施例のオブジェクト識別装置１はオブジェクト情報取得モジュール１１、特徴情報取得モジュール１２、信頼度取得モジュール１３、結果取得モジュール１４及びモデル生成モジュール１５を備えてもよく、図１０に示される実施例の第１実現方式では、
モデル生成モジュール１５は声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。

一実施例では、声紋識別を行う前に、モデル生成モジュール１５は声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。モデル生成モジュール１５はニューラルネットワーク、隠れマルコフ又はＶＱクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができ、声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。

一実施例では、オブジェクト情報取得モジュール１１は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することができる。

図１１は本願の実施例に係るオブジェクト情報取得モジュールの構造模式図である。図１１に示すように、オブジェクト情報取得モジュール１１は以下を備えてもよい。

情報取得ユニット１１１は、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することに用いられる。

一実施例では、情報取得ユニット１１１はマイク配列に基づいて現在の音声環境における音声情報集合を取得することができる。音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報（例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等）であってもよく、目標オブジェクトは現在の音声環境における有効音源オブジェクト（例えば、案件を審尋する際の裁判官、弁護士、被告及び原告）であってもよいと理解される。

一実施例では、音声情報集合における音声情報はすべて目標オブジェクトの音声情報ではないため、情報取得ユニット１１１は音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することができる。スクリーニング処理は具体的に騒音低減処理による騒音のフィルタリング、エコーの除去又は処理対象の目標オブジェクトの音声情報の特徴（音声の音量、音色又は他の特徴情報）に基づく非目標オブジェクトの音声のフィルタリングであってもよく、他の音声フィルタリング処理であってもよい。

情報決定ユニット１１２は、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することに用いられる。

一実施例では、マイク配列は音声情報集合を収集すると同時に、音声情報集合における各音声情報に対応する位相情報を取得することができる。具体的に実現するとき、情報決定ユニット１１２は位相情報を取得して、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することができる。位相情報における位相は音声情報の音声波形のある時刻でのスケールを示してもよく、音声信号波形が変化する度量を説明でき、一般的に度（角度）を単位とし、位相角とも称されると理解される。

一実施例では、特徴情報取得モジュール１２は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。

具体的に実現するとき、信頼度取得モジュール１３は声紋特徴情報に対応する音声信頼度を取得することができる。

図１２は本願の実施例に係る信頼度取得モジュールの構造模式図である。図１２に示すように、信頼度取得モジュール１３は以下を備えてもよい。

マッチング度値取得ユニット１３１は、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することに用いられる。

一実施例では、マッチング度値取得ユニット１３１は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することができる。異なる人の声紋特徴が異なり、同じ人の声紋特徴であっても話し手自身の身体状況又は位置する環境によって異なるため、声紋特徴情報の声紋特徴及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングするとき、取得されたマッチング度値も異なるが、すべてのマッチング度値を比較することによりその中から特徴マッチング度の最も高い際のマッチング度値を取得することができると理解される。

信頼度決定ユニット１３２は、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することに用いられる。

一実施例では、信頼度決定ユニット１３２はマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が９０％である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が９０％であると示されてもよいと理解される。

一実施例では、信頼度決定ユニット１３２はマッチング度値を声紋特徴情報に対応する音声信頼度として直接決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Ａのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が９０％であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が９０％であると決定できる。

結果取得モジュール１４は、具体的に、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。

一実施例では、オブジェクト識別装置１は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができる。オブジェクト識別結果は目標オブジェクトの音声情報が目標オブジェクトに属すると示されてもよい。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報を分類する（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する）ことができる。

上記状況については、結果取得モジュール１４は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。所定の音声信頼度値は複数回の識別過程における経験によって取得されてもよく、少なくとも２つの所定の音声信頼度閾値を含んでもよいと理解される。オブジェクト識別情報は目標オブジェクトを識別することに用いられてもよく、方位情報又は声紋特徴情報を含んでもよい。

本願の実施例の具体的な実現方式では、図１３に示すように、結果取得モジュール１４は以下のいくつかのユニットを備えてもよい。

第１結果取得ユニット１４１は、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。

一実施例では、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより高いと示されてもよく、第１結果取得ユニット１４１は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトを識別することができ、この時の方位情報が識別に参加せずに音源特定のみとして使用される。

第２結果取得ユニット１４２は、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。

一実施例では、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあると示されてもよく、目標オブジェクトをより正確に識別するために、第２結果取得ユニット１４２は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトを最初に識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別することができる。

一実施例では、第１信頼度閾値を９０％、９５％又は他の実際の状況に応じて決定された値に設定してもよく、第２信頼度閾値を５０％、５５％又は６０％等他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。

第３結果取得ユニット１４３は、音声信頼度が第２信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。

一実施例では、音声信頼度が第２信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの精度がより低いと示されてもよい。第３結果取得ユニット１４３は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトを識別し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。

本願の実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。

一実施例では、図１４に示すように、第２結果取得ユニット１４２は以下のいくつかのサブユニットを備えてもよい。

情報決定サブユニット１４２１は、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することに用いられる。

一実施例では、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあり、つまり、声紋特徴情報に基づいて目標オブジェクトのオブジェクト識別結果を識別するとき、決定されたオブジェクト識別結果の信頼性が普通であると示されてもよく、この時、情報決定サブユニット１４２１は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することができる。

候補結果取得サブユニット１４２２は、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することに用いられる。

一実施例では、情報決定サブユニット１４２１は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、候補結果取得サブユニット１４２２は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報を正確に分類することができると理解される。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも２つある場合、候補識別結果に対応する目標オブジェクトの言語情報の分類が正確ではない。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置はそれらに対して音声情報分類を行うとき、裁判官Ａの音声情報を犯人Ｂの音声情報に分類し、又は犯人Ｂの音声情報を裁判官Ａの音声情報に分類する可能性がある。

結果取得サブユニット１４２３は、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定することに用いられる。

一実施例では、候補結果取得サブユニット１４２２は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、結果取得サブユニット１４２３は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、結果取得サブユニット１４２３は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度がより大きく、オブジェクト識別装置は裁判官Ａと犯人Ｂの位置する位置に基づき、候補識別結果、すなわち正確に分類できない音声情報からそれらの音声情報を更に正確に分類することができる。

本願の実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。

本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。

図１０に示される実施例の第２実現方式では、
モデル生成モジュール１５は、具体的に、目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。

声紋識別によって１つの言語情報に対応する話し手の身元情報を確認することと、声紋識別によって複数の言語情報から目標話し手を識別することとの相違点は、声紋マッチングモデルの確立過程であると理解される。

一実施例では、モデル生成モジュール１５は目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。モデル生成モジュール１５はニューラルネットワーク、隠れマルコフ又はＶＱクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練し、声紋訓練音声集合における音声に対応する音声収集者が図８に示される実施例の第１実現方式におけるモデル生成モジュール１５におけるものと異なり、この時、声紋訓練音声集合における音声に対応する音声収集者は必ず目標オブジェクトを含まなければならず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。

一実施例では、情報取得ユニット１１１が目標オブジェクトの音声情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

具体的に実現するとき、情報決定ユニット１１２が目標オブジェクトの方位情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

具体的に実現するとき、特徴情報取得モジュール１２が声紋特徴情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

具体的に実現するとき、マッチング度値取得ユニット１３１がマッチング度値を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

具体的に実現するとき、信頼度決定ユニット１３２が音声信頼度を決定する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

オブジェクト識別装置１は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報に対応する目標オブジェクトの身元情報を示してもよいと理解される。例えば、現在の音声環境には少なくとも２つの目標オブジェクトがあり、オブジェクト識別装置１は少なくとも２つの目標オブジェクトの声紋特徴情報によって少なくとも２つの目標オブジェクトの音声情報に対応する目標オブジェクトを決定して、目標オブジェクトの身元情報を決定することができる（例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告に分類した後、音声Ａが裁判官に属し、音声Ｂが被告に属し、音声Ｃが原告に属する等を決定することができる。）。

上記状況については、結果取得モジュール１４は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。

本願の実施例の具体的な実現方式では、図１３に示すように、結果取得モジュール１４は以下のユニットを備えてもよい。

一実施例では、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより高いと示されてもよく、第１結果取得ユニット１４１は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトの身元情報を識別することができ、この時の方位情報が身元確認に参加せずに音源特定のみとして使用される。

一実施例では、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性が平均レベルにあると示されてもよく、目標オブジェクトの身元をより正確に識別するために、第２結果取得ユニット１４２は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトの身元を最初に決定すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトの身元を更に識別することができる。

一実施例では、音声信頼度が第２信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの身元の精度がより低いと示されてもよい。第３結果取得サブユニット１３２３は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトの身元を決定し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。説明すべきことは、このような状況において、現在の音声環境が特定の音声環境であり、例えば、目標オブジェクトの位置がいずれも決定された環境（例えば、審尋中、裁判官と犯人の位置が決定されたもの）である必要がある。

本願の実施例の具体的な実現方式では、図１４に示すように、結果取得モジュール１４は以下のサブユニットを備えてもよい。

具体的に実現するとき、情報決定サブユニット１４２１がオブジェクト識別情報を決定する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。

具体的に実現するとき、情報決定サブユニット１４２１は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、候補結果取得サブユニット１４２２は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報から目標オブジェクトの音声情報を明確に識別することができると理解される。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも２つある場合、候補識別結果で示す目標オブジェクトと音声情報との対応関係が正確ではない可能性がある。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置は審尋中に複数の音声情報から裁判官Ａの音声情報を識別するとき、犯人Ｂの音声情報が裁判官Ａに属すると間違えられる可能性もあるし、裁判官Ａの音声情報が犯人Ｂに属すると間違えられる可能性もある。

一実施例では、候補結果取得サブユニット１４２２は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、結果取得サブユニット１４２３は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、結果取得サブユニット１４２３は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Ａと犯人Ｂの声紋特徴情報の類似度がより大きく、候補識別結果は裁判官Ａの音声情報が犯人Ｂに対応すると示され、裁判官Ａの位置情報と組み合わせてオブジェクト識別装置は裁判官Ａの音声情報を裁判官Ａに対応することができる。

本願の実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。

一実施例では、コンピュータ装置を提供し、メモリ及びプロセッサを備え、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、声紋特徴情報に対応する音声信頼度を取得し、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。

一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行するとき、マイク配列に基づいて現在の音声環境における音声情報集合を取得し、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得し、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定するステップを実行する。

一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行する前に、更に、声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行する。

一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定するステップを実行する。

一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定し、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。

一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、音声信頼度が第１信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第２信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定するステップを実行する。

一実施例では、音声信頼度が第２信頼度閾値以上であって、第１信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサはオブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得し、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定するステップを実行する。

上記コンピュータ装置は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。

不揮発性のコンピュータ装置可読記憶媒体であって、コンピュータ可読命令が記憶され、コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるとき、１つ又は複数のプロセッサは、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、声紋特徴情報に対応する音声信頼度を取得し、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。

上記コンピュータ装置可読記憶媒体は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。

図１５は本願の実施例に係る端末の構造模式図である。図１５に示すように、前記端末１０００は少なくとも１つのプロセッサ１００１、例えばＣＰＵ、少なくとも１つのネットワークインターフェース１００４、ユーザーインターフェース１００３、メモリ１００５、少なくとも１つの通信バス１００２を備えてもよい。通信バス１００２はこれらのコンポーネント同士の接続通信を実現することに用いられる。ユーザーインターフェース１００３はディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）を備えてもよく、好ましくは、ユーザーインターフェース１００３は更に標準の有線インターフェース、無線インターフェースを備えてもよい。好ましくは、ネットワークインターフェース１００４は標準の有線インターフェース、無線インターフェース（例えば、ＷＩ−ＦＩインターフェース）を備えてもよい。メモリ１００５は高速ＲＡＭメモリであってもよく、不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリであってもよい。好ましくは、メモリ１００５は更に上記プロセッサ１００１を離れる少なくとも１つの記憶装置であってもよい。図１５に示すように、コンピュータ記憶媒体としてのメモリ１００５はオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及びオブジェクト識別アプリケーションプログラムを備えてもよい。

図１５に示される端末１０００において、ユーザーインターフェース１００３は主にユーザーに入力インターフェースを提供し、ユーザーの入力したデータを取得することに用いられ、ネットワークインターフェース１００４はユーザー端末とデータ通信を行うことに用いられるが、プロセッサ１００１はメモリ１００５に記憶されるオブジェクト識別アプリケーションプログラムを呼び出して、具体的に上記オブジェクト識別の方法を実行することに用いられてもよい。

当業者であれば、上記実施例方法における全部又は一部のプロセスを実現することは、コンピュータプログラムが関連するハードウェアを命令することで完了してもよく、前記プログラムがコンピュータ装置可読記憶媒体に記憶されてもよく、該プログラムは実行時、上記各方法の実施例のプロセスを含んでもよいと理解される。前記記憶媒体は磁気ディスク、光ディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）又はランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であってもよい。

以上の説明は本発明の好適な実施例であって、本発明の特許請求の範囲を制限するためのものではなく、従って、本発明の請求項に基づき行った等価変更は、依然として本発明の保護範囲に属する。

1 オブジェクト識別装置
11 オブジェクト情報取得モジュール
12 特徴情報取得モジュール
13 信頼度取得モジュール
14 結果取得モジュール
15 モデル生成モジュール
111 情報取得ユニット
112 情報決定ユニット
131 マッチング度値取得ユニット
132 信頼度決定ユニット
141 第１結果取得ユニット
142 第２結果取得ユニット
143 第３結果取得ユニット
1000 端末
1001 プロセッサ
1003 ユーザーインターフェース
1004 ネットワークインターフェース 1005 メモリ
1421 情報決定サブユニット
1422 候補結果取得サブユニット
1423 結果取得サブユニット

Claims

メモリ及びプロセッサを備えるコンピュータ装置において実行されるオブジェクト識別の方法であって、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
前記声紋特徴情報に対応する音声信頼度を取得するステップと、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む、前記オブジェクト識別の方法。
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得することは、
マイク配列に基づいて現在の音声環境における音声情報集合を取得するステップと、
前記音声情報集合に対してスクリーニング処理を行うステップであって、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得するステップと、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得するステップと、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップと、を含むことを特徴とする
請求項１に記載の方法。
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得する前に、更に、
声紋訓練音声集合を取得するステップと、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練するステップであって、訓練後の声紋マッチングモデルを生成するステップと、を含むことを特徴とする
請求項１に記載の方法。
前記声紋特徴情報に対応する音声信頼度を取得するステップは、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングするステップであって、特徴マッチング度の最も高い際のマッチング度値を取得する、ステップと、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップと、を含むことを特徴とする
請求項３に記載の方法。
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップと、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含むことを特徴とする
請求項１に記載の方法。
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定することは、
前記音声信頼度が第１信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
前記音声信頼度が第２信頼度閾値以上であって、前記第１信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
前記音声信頼度が第２信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップと、を含むことを特徴とする
請求項５に記載の方法。
前記音声信頼度が第２信頼度閾値以上であって、前記第１信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得するステップと、
前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップと、を含むことを特徴とする
請求項６に記載の方法。
コンピュータ装置であって、
プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する、前記コンピュータ装置。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
請求項８に記載のコンピュータ装置。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
声紋訓練音声集合を取得し、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
請求項８に記載のコンピュータ装置。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
請求項１０に記載のコンピュータ装置。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行することを特徴とする
請求項８に記載のコンピュータ装置。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
前記音声信頼度が第１信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第２信頼度閾値以上であって、前記第１信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第２信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行することを特徴とする
請求項１２に記載のコンピュータ装置。
前記音声信頼度が第２信頼度閾値以上であって、前記第１信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得し、
前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップを実行することを特徴とする
請求項１３に記載のコンピュータ装置。
不揮発性のコンピュータ装置可読記憶媒体であって、
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つ又は複数のプロセッサにより実行されるとき、前記１つ又は複数のプロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する、前記不揮発性のコンピュータ装置可読記憶媒体。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
請求項１５に記載のコンピュータ装置可読記憶媒体。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
声紋訓練音声集合を取得し、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
請求項１５に記載のコンピュータ装置可読記憶媒体。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
請求項１７に記載のコンピュータ装置可読記憶媒体。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行することを特徴とする
請求項１５に記載のコンピュータ装置可読記憶媒体。
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
前記音声信頼度が第１信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第２信頼度閾値以上であって、前記第１信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第２信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行することを特徴とする
請求項１９に記載のコンピュータ装置可読記憶媒体。