JP2021500616A - オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 - Google Patents

オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 Download PDF

Info

Publication number
JP2021500616A
JP2021500616A JP2020522805A JP2020522805A JP2021500616A JP 2021500616 A JP2021500616 A JP 2021500616A JP 2020522805 A JP2020522805 A JP 2020522805A JP 2020522805 A JP2020522805 A JP 2020522805A JP 2021500616 A JP2021500616 A JP 2021500616A
Authority
JP
Japan
Prior art keywords
information
voice
voiceprint
reliability
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020522805A
Other languages
English (en)
Other versions
JP6938784B2 (ja
Inventor
明▲遠▼ ▲張▼
明▲遠▼ ▲張▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021500616A publication Critical patent/JP2021500616A/ja
Application granted granted Critical
Publication of JP6938784B2 publication Critical patent/JP6938784B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オブジェクト識別の方法であって、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得するステップと、前記声紋特徴情報に対応する音声信頼度を取得するステップと、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む。

Description

関連出願の相互参照
本願は、2017年10月23日に提出した中国特許出願第201710992605.7号、発明の名称「オブジェクト識別の方法及びその装置、記憶媒体、端末」の優先権を主張し、その全内容が本願の一部分として援用される。
本願はコンピュータ技術分野に関し、特にオブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体に関する。
科学技術の継続的な発展に伴い、声紋識別は生体識別技術として発展しており、声紋識別によって複数の話し手からある話し手を識別することができるだけでなく、ある音声の声紋特徴を識別することにより該音声に対応する話し手の身元を決定することもできる。例えば、音声識別システムにおける記録システムは声紋によってあるシーンにおけるすべての話し手を区別する(例えば、記録システムにおける声紋識別技術によって審尋シーンにおける裁判官と犯人を区別する)ことができる。
従来技術において、主に音響学モデルの声紋特徴(例えば、語調、方言、リズム及び鼻音等)をマッチングすることにより声紋識別を行うが、類似度のより高い声紋特徴がある場合、声紋マッチング結果の相違がより小さく、声紋マッチング結果に基づいて話し手を区別することが困難である状況が生じやすく、それにより声紋識別結果の精度に悪影響を与えてしまう。
本願の様々な実施例はオブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体を提供する。
メモリ及びプロセッサを備えるコンピュータ装置において実行されるオブジェクト識別の方法であって、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
前記声紋特徴情報に対応する音声信頼度を取得するステップと、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む。
コンピュータ装置であって、
プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
不揮発性のコンピュータ装置可読記憶媒体であって、
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるとき、前記1つ又は複数のプロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
本願の1つ又は複数の実施例の詳細は以下の図面及び説明において提供される。本願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。
図1は本願の実施例に係るオブジェクト識別装置のハードウェアアーキテクチャの模式図である。 図2は本願の実施例に係るオブジェクト識別装置のシステムブロック図である。 図3は本願の実施例に係るオブジェクト識別の方法のフローチャートである。 図4は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。 図5は本願の実施例に係るビームフォーミング方式に基づく音声分離表示の模式図である。 図6は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。 図7は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。 図8は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。 図9は本願の実施例に係るオブジェクト識別装置の構造模式図である。 図10は本願の実施例に係る他のオブジェクト識別装置の構造模式図である。 図11は本願の実施例に係るオブジェクト情報取得モジュールの構造模式図である。 図12は本願の実施例に係る信頼度取得モジュールの構造模式図である。 図13は本願の実施例に係る結果取得モジュールの構造模式図である。 図14は本願の実施例に係る第2結果取得ユニットの構造模式図である。 図15は本願の実施例に係る端末の構造模式図である。
本願の実施例の技術案をより明確に説明するために、以下に実施例の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は単に本願の実施例の一例であって、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。
以下、本願の実施例の図面を参照しながら、本願の実施例の技術案を明確且つ完全に説明し、無論、説明される実施例は本願の実施例の一部であり、実施例のすべてではない。本願の実施例に基づき、当業者が進歩性のある労働を必要とせずに得られる他の実施例は、いずれも本願の保護範囲に属する。
本願の実施例に係るオブジェクト識別の方法は多重音源環境における音源オブジェクトに対して声紋識別を行って、目標オブジェクトを識別するシーンに適用されてもよく、例えば、オブジェクト識別装置は現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、最後に前記声紋特徴情報に対応する音声信頼度を取得することにより、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。
本願の実施例に係るオブジェクト識別装置はタブレットPC、スマートフォン、携帯情報端末及びモバイルインターネットデバイス(MID)等の他のマイク配列を統合でき又はマイク配列から送信された音源方位情報を受信できて声紋識別機能を有する端末装置であってもよい。前記オブジェクト識別装置のハードウェアアーキテクチャは図1に示されてもよく、オーディオプロセッサは騒音低減及び方向の特定に用いられ、システムプロセッサはクラウドに接続されて声紋特徴分析を行うことに用いられ、記憶システムはオブジェクトを識別するアプリケーションプログラムを記憶することに用いられる。前記オブジェクト識別装置のシステムブロック図は図2に示されてもよく、マイク配列は異なる方位の音源に対応する音声情報を識別して、異なる音源に対して角度位置決めを行うことができる。
以下、図3〜図8を参照しながら、本願の実施例に係るオブジェクト識別の方法を詳しく説明する。
図3は本願の実施例に係るオブジェクト識別の方法のフローチャートである。図3に示すように、一実施例では、オブジェクト識別の方法は以下のステップS101〜ステップS103を含んでもよい。
S101において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得する。
具体的に、オブジェクト識別装置はマイク配列に基づいて現在の音声環境における目標オブジェクトの音声情報を取得して、マイク配列に基づいて目標オブジェクトの方位情報を取得することができる。
一実施例では、目標オブジェクトは現在の音声環境における有効音源オブジェクト(例えば、案件を審尋する際の裁判官、弁護士、被告及び原告)であってもよく、説明すべきことは、オブジェクト識別装置が現在の音声環境から取得した音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報(例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等)であってもよく、オブジェクト識別装置は現在の音声環境における音声情報集合を取得した後、音声情報集合に対してスクリーニング処理を行って、目標オブジェクトの音声情報を取得することができる。
一実施例では、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する(つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する)ことができる。
S102において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。
具体的に、オブジェクト識別装置は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行うことができる。
一実施例では、声紋マッチングモデルは予め収集された声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報をある訓練アルゴリズム(例えば、ニューラルネットワーク方法、隠れマルコフ方法又はVQクラスタリング方法等)で訓練して確立したモデルであってもよい。
一実施例では、声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限しない。声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよい。
一実施例では、オブジェクト識別装置は声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。
S103において、声紋特徴情報に対応する音声信頼度を取得する。
具体的に、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度を取得することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよいと理解される。例えば、音声信頼度が90%である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が90%であると示されてもよい。
一実施例では、オブジェクト識別装置は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、次にマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Aのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が90%であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が90%であると決定できる。
S104において、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報の属する目標オブジェクトを示してもよい。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報を分類する(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する)ことができる。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、オブジェクト識別装置は音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得することができる。具体的に、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、目標オブジェクトを識別するためのオブジェクト識別結果のオブジェクト識別情報を決定し、更にオブジェクト識別情報に基づいてオブジェクト識別結果を取得することができ、オブジェクト識別情報は方位情報であってもよく、声紋特徴情報であってもよいと理解される。
一実施例では、オブジェクト識別装置は音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定し、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得し(つまり、声紋特徴情報を用いて目標オブジェクトを識別するが、方位情報が識別に参加せずに音源特定のみとして使用される)、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得し(つまり、声紋特徴情報を用いて目標オブジェクトを識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別する)、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する(つまり、方位情報により音源を特定した特定方向のみを用いて目標オブジェクトを識別する)ことができる。
上記実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。
説明すべきことは、声紋識別は複数の話し手の識別であってもよく、ある話し手の身元確認であってもよいため、話し手の識別に関わる実行過程は下記図4に示される実施例を参照し、話し手の身元確認に関わる実行過程は下記図8に示される実施例を参照する。
図4は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図4に示すように、一実施例では、オブジェクト識別の方法は以下のステップを含んでもよい。
S201において、声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成する。
具体的に、声紋識別を行う前に、オブジェクト識別装置は声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。オブジェクト識別装置はニューラルネットワーク、隠れマルコフ又はVQクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができると理解される。声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよい。
S202において、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得する。
具体的に、オブジェクト識別装置はマイク配列に基づいて現在の音声環境における音声情報集合を取得することができる。音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報(例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等)であってもよく、目標オブジェクトは現在の音声環境における有効音源オブジェクト(例えば、案件を審尋する際の裁判官、弁護士、被告及び原告)であってもよいと理解される。
一実施例では、音声情報集合における音声情報はすべて目標オブジェクトの音声情報ではないため、オブジェクト識別装置は音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することができる。スクリーニング処理は騒音低減処理による騒音のフィルタリング、エコーの除去又は処理対象の目標オブジェクトの音声情報の特徴(音声の音量、音色又は他の特徴情報)に基づく非目標オブジェクトの音声のフィルタリングであってもよく、他の音声フィルタリング処理であってもよい。
S203において、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定する。
マイク配列は音声情報集合を収集すると同時に、音声情報集合における各音声情報に対応する位相情報を取得することができると理解される。具体的に、オブジェクト識別装置は位相情報を取得することができ、且つ位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することができる。一実施例では、位相情報における位相は音声情報の音声波形のある時刻でのスケールを示してもよく、音声信号波形が変化する度量を説明でき、一般的に度(角度)を単位とし、位相角とも称される。
一実施例では、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する(つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する)ことができる。図5に示すように、ビームフォーミング方式は異なる方向への音源によってそれぞれピックアップビームを形成して、他の方向の音声を抑制することにより、音声抽出又は分離を行うことであってもよい。
S204において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行い、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。
具体的に、オブジェクト識別装置は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。
S205において、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得する。
具体的に、オブジェクト識別装置は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することができる。
一実施例では、異なる人の声紋特徴が異なり、同じ人の声紋特徴であっても話し手自身の身体状況又は位置する環境によって異なる。従って、声紋特徴情報の声紋特徴及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングするとき、取得されたマッチング度値も異なるが、すべてのマッチング度値を比較することによりその中から特徴マッチング度の最も高い際のマッチング度値を取得することができる。
S206において、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定する。
具体的に、オブジェクト識別装置はマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が90%である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が90%であると示されてもよいと理解される。
一実施例では、オブジェクト識別装置はマッチング度値を声紋特徴情報に対応する音声信頼度として直接決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Aのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が90%であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が90%であると決定できる。
S207において、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
一実施例では、オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができる。オブジェクト識別結果は目標オブジェクトの音声情報が目標オブジェクトに属すると示されてもよい。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報を分類する(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する)ことができる。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。所定の音声信頼度値は複数回の識別過程における経験によって取得されてもよく、少なくとも2つの所定の音声信頼度閾値を含んでもよいと理解される。オブジェクト識別情報は目標オブジェクトを識別することに用いられてもよく、方位情報又は声紋特徴情報を含んでもよい。
一実施例では、図6に示すように、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよい。
S301において、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより高いと示されてもよく、オブジェクト識別装置は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトを識別することができ、この時の方位情報が識別に参加せずに音源特定のみとして使用される。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよい。
S302において、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあると示されてもよい。目標オブジェクトをより正確に識別するために、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行って目標オブジェクトを最初に識別すると同時に、方位情報により特定した音源方向を用いて目標オブジェクトを更に識別することができる。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよく、第2信頼度閾値を50%、55%、60%又は他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。
S303において、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第2信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの精度がより低いと示されてもよく、オブジェクト識別装置は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトを識別し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。
上記実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。
一実施例では、図7に示すように、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよい。
S401において、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定する。
音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあり、つまり、声紋特徴情報に基づいて目標オブジェクトのオブジェクト識別結果を識別するとき、決定されたオブジェクト識別結果の信頼性が普通であると示されてもよく、この時、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することができると理解される。
S402において、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得する。
具体的に、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。一実施例では、目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報を正確に分類することができる。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも2つある場合、候補識別結果に対応する目標オブジェクトの言語情報の分類が正確ではない。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置はそれらに対して音声情報分類を行うとき、裁判官Aの音声情報を犯人Bの音声情報に分類し、又は犯人Bの音声情報を裁判官Aの音声情報に分類する可能性がある。
S403において、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定する。
具体的に、オブジェクト識別装置が声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、オブジェクト識別装置は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、オブジェクト識別装置は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度がより大きく、オブジェクト識別装置は裁判官Aと犯人Bの位置する位置に基づき、候補識別結果、すなわち正確に分類できない音声情報からそれらの音声情報を更に正確に分類することができる。
上記実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。
上記オブジェクト識別の方法において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。
図8は本願の実施例に係る他のオブジェクト識別の方法のフローチャートである。図8に示すように、本願の実施例の方法は以下のステップを含んでもよい。
S501において、目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成する。
声紋識別によって1つの言語情報に対応する話し手の身元情報を確認することができることと、声紋識別によって複数の言語情報から目標話し手を識別することとの相違点は、声紋マッチングモデルの確立過程であると理解される。
具体的に、オブジェクト識別装置は目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。オブジェクト識別装置はニューラルネットワーク、隠れマルコフ又はVQクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができ、声紋訓練音声集合における音声に対応する音声収集者がステップS201におけるものと異なり、この時、声紋訓練音声集合における音声に対応する音声収集者は必ず目標オブジェクトを含まなければならず、声紋訓練音声に対応するサンプル特徴情報が声紋訓練音声の声紋特徴情報であってもよいと理解される。
S502において、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得する。
S503において、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定する。
S504において、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得する。
S505において、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得する。
S506において、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定する。
S507において、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
オブジェクト識別装置は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報に対応する目標オブジェクトの身元情報を示してもよいと理解される。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報に対応する目標オブジェクトを決定して、目標オブジェクトの身元情報を決定することができる(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告に分類した後、音声Aが裁判官に属し、音声Bが被告に属し、音声Cが原告に属する等を決定することができる。)。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、オブジェクト識別装置は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。
一実施例では、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよく、具体的に図6に示される過程を参照してもよい。
S301において、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより高いと示されてもよく、オブジェクト識別装置は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトの身元情報を識別することができ、この時の方位情報が身元確認に参加せずに音源特定のみとして使用される。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよい。
S302において、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性が平均レベルにあると示されてもよい。目標オブジェクトの身元をより正確に識別するために、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトの身元を最初に決定すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトの身元を更に識別することができる。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよく、第2信頼度閾値を50%、55%、60%又は他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。
S303において、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する。
具体的に、音声信頼度が第2信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクト身元の精度がより低いと示されてもよく、オブジェクト識別装置は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトの身元を決定し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。説明すべきことは、このような状況において、現在の音声環境が特定の音声環境であり、例えば、目標オブジェクトの位置がいずれも決定された環境(例えば、審尋中、裁判官と犯人の位置が決定されたもの)である必要がある。
上記実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することは、以下のいくつかのステップを含んでもよく、具体的に図7に示される過程を参照してもよい。
S401において、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定する。
S402において、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得する。
具体的に、オブジェクト識別装置は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。一実施例では、目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報から目標オブジェクトの音声情報を明確に識別することができ、目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも2つある場合、候補識別結果で示す目標オブジェクトと音声情報との対応関係が正確ではない可能性があり、例えば、裁判官Aと犯人Bの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置は審尋中の複数の音声情報から裁判官Aの音声情報を識別するとき、犯人Bの音声情報が裁判官Aに属すると間違えられる可能性もあるし、裁判官Aの音声情報が犯人Bに属すると間違えられる可能性もある。
S403において、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定する。
具体的に、オブジェクト識別装置は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、オブジェクト識別装置は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、オブジェクト識別装置は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度がより大きく、候補識別結果は裁判官Aの音声情報が犯人Bに対応すると示され、裁判官Aの位置情報と組み合わせてオブジェクト識別装置は裁判官Aの音声情報を裁判官Aに対応することができる。
上記実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。
上記オブジェクト識別の方法において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。
以下、図9〜図14を参照しながら、本願の実施例に係るオブジェクト識別装置を詳しく説明する。説明すべきことは、図9〜図14に示される装置は本願の図3〜図8に示される実施例の方法を実行することに用いられ、説明都合上、本願の実施例に関連する部分のみを示し、図示しない具体的な技術詳細は本願の図3〜図8に示される実施例を参照してもよい。
図9は本願の実施例に係るオブジェクト識別装置の構造模式図である。図9に示すように、本願の実施例のオブジェクト識別装置1はオブジェクト情報取得モジュール11、特徴情報取得モジュール12、信頼度取得モジュール13及び結果取得モジュール14を備えてもよい。
オブジェクト情報取得モジュール11は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することに用いられる。
具体的に実現するとき、オブジェクト情報取得モジュール11はマイク配列に基づいて現在の音声環境における目標オブジェクトの音声情報を取得して、マイク配列に基づいて目標オブジェクトの方位情報を取得することができる。目標オブジェクトは現在の音声環境における有効音源オブジェクト(例えば、案件を審尋する際の裁判官、弁護士、被告及び原告)であってもよいと理解される。説明すべきことは、オブジェクト情報取得モジュール11が現在の音声環境から取得した音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報(例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等)であってもよく、オブジェクト情報取得モジュール11は現在の音声環境における音声情報集合を取得した後、音声情報に対してスクリーニング処理を行って、目標オブジェクトの音声情報を取得することができる。
本願の実施例において、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する(つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する)ことができる。
特徴情報取得モジュール12は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することに用いられる。
一実施例では、特徴情報取得モジュール12は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行うことができる。声紋マッチングモデルは予め収集された声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報をある訓練アルゴリズム(例えば、ニューラルネットワーク方法、隠れマルコフ方法又はVQクラスタリング方法等)で訓練して確立したモデルであってもよいと理解される。声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。
更に、特徴情報取得モジュール12は声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。
信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することに用いられる。
一実施例では、信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が90%である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が90%であると示されてもよいと理解される。
一実施例では、信頼度取得モジュール13は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、次にマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Aのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が90%であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が90%であると決定できる。
結果取得モジュール14は方位情報、声紋特徴情報及び音声信頼度を用いて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
オブジェクト識別装置1は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報の属する目標オブジェクトを示してもよいと理解される。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報を分類する(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する)ことができる。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置1は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、結果取得モジュール14は音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得することができる。具体的に実現するとき、結果取得モジュール14は音声信頼度と所定の音声信頼度閾値との関係に基づき、目標オブジェクトを識別するためのオブジェクト識別結果のオブジェクト識別情報を決定し、更にオブジェクト識別情報に基づいてオブジェクト識別結果を取得することができる。オブジェクト識別情報は方位情報であってもよく、声紋特徴情報であってもよいと理解される。
本願の具体的な実現方式では、結果取得モジュール14は音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる(つまり、声紋特徴情報を用いて目標オブジェクトを識別するが、方位情報が識別に参加せずに音源特定のみとして使用される)。音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する(つまり、声紋特徴情報を用いて目標オブジェクトを識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別する)。音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得する(つまり、方位情報により音源を特定した特定方向のみを用いて目標オブジェクトを識別する)。
本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。
説明すべきことは、声紋識別は複数の話し手の識別であってもよく、ある話し手の身元確認であってもよいため、話し手の識別に関わる実行過程は下記図10に示される実施例の第1実現方式を参照し、話し手の身元確認に関わる実行過程は下記図10に示される実施例の第2実現方式を参照する。
図10は本願の実施例に係る他のオブジェクト識別装置の構造模式図である。図10に示すように、本願の実施例のオブジェクト識別装置1はオブジェクト情報取得モジュール11、特徴情報取得モジュール12、信頼度取得モジュール13、結果取得モジュール14及びモデル生成モジュール15を備えてもよく、図10に示される実施例の第1実現方式では、
モデル生成モジュール15は声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。
一実施例では、声紋識別を行う前に、モデル生成モジュール15は声紋訓練音声集合を取得して、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。モデル生成モジュール15はニューラルネットワーク、隠れマルコフ又はVQクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練することができ、声紋訓練音声集合における音声に対応する音声収集者はランダムな実験オブジェクトであってもよく、特定の目標オブジェクトを制限せず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。
オブジェクト情報取得モジュール11は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することに用いられる。
一実施例では、オブジェクト情報取得モジュール11は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することができる。
図11は本願の実施例に係るオブジェクト情報取得モジュールの構造模式図である。図11に示すように、オブジェクト情報取得モジュール11は以下を備えてもよい。
情報取得ユニット111は、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することに用いられる。
一実施例では、情報取得ユニット111はマイク配列に基づいて現在の音声環境における音声情報集合を取得することができる。音声情報集合における音声情報は目標オブジェクトの音声情報であってもよく、他の非必須な音声情報(例えば、案件を審尋する際の聴衆の音声情報又は他の物体の出した騒音等)であってもよく、目標オブジェクトは現在の音声環境における有効音源オブジェクト(例えば、案件を審尋する際の裁判官、弁護士、被告及び原告)であってもよいと理解される。
一実施例では、音声情報集合における音声情報はすべて目標オブジェクトの音声情報ではないため、情報取得ユニット111は音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することができる。スクリーニング処理は具体的に騒音低減処理による騒音のフィルタリング、エコーの除去又は処理対象の目標オブジェクトの音声情報の特徴(音声の音量、音色又は他の特徴情報)に基づく非目標オブジェクトの音声のフィルタリングであってもよく、他の音声フィルタリング処理であってもよい。
情報決定ユニット112は、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することに用いられる。
一実施例では、マイク配列は音声情報集合を収集すると同時に、音声情報集合における各音声情報に対応する位相情報を取得することができる。具体的に実現するとき、情報決定ユニット112は位相情報を取得して、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することができる。位相情報における位相は音声情報の音声波形のある時刻でのスケールを示してもよく、音声信号波形が変化する度量を説明でき、一般的に度(角度)を単位とし、位相角とも称されると理解される。
一実施例では、マイク配列は複数のマイクによって異なる方位から収集された同じ目標オブジェクトの音声情報を取得することができ、複数のマイクがマイク配列における異なる位置に位置するため、各マイクは音声の大きさに応じて該目標オブジェクトの位相情報を取得し、取得された位相情報に基づいてビームフォーミング方式で該目標オブジェクトの方位情報を計算する(つまり、該目標オブジェクトの現在の音声環境における位置情報を決定する)ことができる。図5に示すように、ビームフォーミング方式は異なる方向への音源によってそれぞれピックアップビームを形成して、他の方向の音声を抑制することにより、音声抽出又は分離を行うことであってもよい。
特徴情報取得モジュール12は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することに用いられる。
一実施例では、特徴情報取得モジュール12は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することができる。声紋特徴情報は目標オブジェクトの音声情報における区別特徴情報であってもよく、例えば、スペクトル、ケプストラム、フォルマント、基音、反射係数等の情報であってもよいと理解される。
信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することに用いられる。
具体的に実現するとき、信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することができる。
図12は本願の実施例に係る信頼度取得モジュールの構造模式図である。図12に示すように、信頼度取得モジュール13は以下を備えてもよい。
マッチング度値取得ユニット131は、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することに用いられる。
一実施例では、マッチング度値取得ユニット131は声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することができる。異なる人の声紋特徴が異なり、同じ人の声紋特徴であっても話し手自身の身体状況又は位置する環境によって異なるため、声紋特徴情報の声紋特徴及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングするとき、取得されたマッチング度値も異なるが、すべてのマッチング度値を比較することによりその中から特徴マッチング度の最も高い際のマッチング度値を取得することができると理解される。
信頼度決定ユニット132は、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することに用いられる。
一実施例では、信頼度決定ユニット132はマッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することができる。音声信頼度は声紋特徴情報と目標オブジェクトとの対応関係の信頼性を示してもよく、例えば、音声信頼度が90%である場合、該音声信頼度に対応する声紋特徴情報に基づいて識別した目標オブジェクトの信頼性が90%であると示されてもよいと理解される。
一実施例では、信頼度決定ユニット132はマッチング度値を声紋特徴情報に対応する音声信頼度として直接決定することができる。例えば、声紋特徴情報及び声紋訓練音声集合における各声紋訓練音声に対応するサンプル特徴情報をマッチングした後、声紋訓練音声Aのサンプル特徴情報と声紋特徴情報とのマッチング度が最も高く、且つ最高値が90%であると検出する場合、オブジェクト識別装置は声紋特徴情報に対応する音声信頼度が90%であると決定できる。
結果取得モジュール14は、具体的に、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、オブジェクト識別装置1は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができる。オブジェクト識別結果は目標オブジェクトの音声情報が目標オブジェクトに属すると示されてもよい。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報を分類する(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告等に分類する)ことができる。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、結果取得モジュール14は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。所定の音声信頼度値は複数回の識別過程における経験によって取得されてもよく、少なくとも2つの所定の音声信頼度閾値を含んでもよいと理解される。オブジェクト識別情報は目標オブジェクトを識別することに用いられてもよく、方位情報又は声紋特徴情報を含んでもよい。
本願の実施例の具体的な実現方式では、図13に示すように、結果取得モジュール14は以下のいくつかのユニットを備えてもよい。
第1結果取得ユニット141は、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより高いと示されてもよく、第1結果取得ユニット141は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトを識別することができ、この時の方位情報が識別に参加せずに音源特定のみとして使用される。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよい。
第2結果取得ユニット142は、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあると示されてもよく、目標オブジェクトをより正確に識別するために、第2結果取得ユニット142は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトを最初に識別すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトを更に識別することができる。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよく、第2信頼度閾値を50%、55%又は60%等他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。
第3結果取得ユニット143は、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第2信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの精度がより低いと示されてもよい。第3結果取得ユニット143は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトを識別し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。
本願の実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。
一実施例では、図14に示すように、第2結果取得ユニット142は以下のいくつかのサブユニットを備えてもよい。
情報決定サブユニット1421は、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することに用いられる。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報と目標オブジェクトとの対応関係の信頼性が平均レベルにあり、つまり、声紋特徴情報に基づいて目標オブジェクトのオブジェクト識別結果を識別するとき、決定されたオブジェクト識別結果の信頼性が普通であると示されてもよく、この時、情報決定サブユニット1421は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することができる。
候補結果取得サブユニット1422は、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することに用いられる。
一実施例では、情報決定サブユニット1421は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、候補結果取得サブユニット1422は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報を正確に分類することができると理解される。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも2つある場合、候補識別結果に対応する目標オブジェクトの言語情報の分類が正確ではない。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置はそれらに対して音声情報分類を行うとき、裁判官Aの音声情報を犯人Bの音声情報に分類し、又は犯人Bの音声情報を裁判官Aの音声情報に分類する可能性がある。
結果取得サブユニット1423は、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定することに用いられる。
一実施例では、候補結果取得サブユニット1422は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、結果取得サブユニット1423は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、結果取得サブユニット1423は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度がより大きく、オブジェクト識別装置は裁判官Aと犯人Bの位置する位置に基づき、候補識別結果、すなわち正確に分類できない音声情報からそれらの音声情報を更に正確に分類することができる。
本願の実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、取得されたオブジェクト識別結果の精度を更に向上させる。
本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。
図10に示される実施例の第2実現方式では、
モデル生成モジュール15は、具体的に、目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。
声紋識別によって1つの言語情報に対応する話し手の身元情報を確認することと、声紋識別によって複数の言語情報から目標話し手を識別することとの相違点は、声紋マッチングモデルの確立過程であると理解される。
一実施例では、モデル生成モジュール15は目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することができる。モデル生成モジュール15はニューラルネットワーク、隠れマルコフ又はVQクラスタリング等のアルゴリズムで声紋マッチングモデルを訓練し、声紋訓練音声集合における音声に対応する音声収集者が図8に示される実施例の第1実現方式におけるモデル生成モジュール15におけるものと異なり、この時、声紋訓練音声集合における音声に対応する音声収集者は必ず目標オブジェクトを含まなければならず、声紋訓練音声に対応するサンプル特徴情報は声紋訓練音声の声紋特徴情報であってもよいと理解される。
オブジェクト情報取得モジュール11は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することに用いられる。
一実施例では、オブジェクト情報取得モジュール11は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得することができる。
図11は本願の実施例に係るオブジェクト情報取得モジュールの構造模式図である。図11に示すように、オブジェクト情報取得モジュール11は以下を備えてもよい。
情報取得ユニット111は、マイク配列に基づいて現在の音声環境における音声情報集合を取得して、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得することに用いられる。
一実施例では、情報取得ユニット111が目標オブジェクトの音声情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
情報決定ユニット112は、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定することに用いられる。
具体的に実現するとき、情報決定ユニット112が目標オブジェクトの方位情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
特徴情報取得モジュール12は訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得することに用いられる。
具体的に実現するとき、特徴情報取得モジュール12が声紋特徴情報を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することに用いられる。
具体的に実現するとき、信頼度取得モジュール13は声紋特徴情報に対応する音声信頼度を取得することができる。
図12は本願の実施例に係る信頼度取得モジュールの構造模式図である。図12に示すように、信頼度取得モジュール13は以下を備えてもよい。
マッチング度値取得ユニット131は、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得することに用いられる。
具体的に実現するとき、マッチング度値取得ユニット131がマッチング度値を取得する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
信頼度決定ユニット132は、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定することに用いられる。
具体的に実現するとき、信頼度決定ユニット132が音声信頼度を決定する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
結果取得モジュール14は、具体的に、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
オブジェクト識別装置1は声紋特徴情報を用いて目標オブジェクトのオブジェクト識別結果を生成することができ、オブジェクト識別結果は目標オブジェクトの音声情報に対応する目標オブジェクトの身元情報を示してもよいと理解される。例えば、現在の音声環境には少なくとも2つの目標オブジェクトがあり、オブジェクト識別装置1は少なくとも2つの目標オブジェクトの声紋特徴情報によって少なくとも2つの目標オブジェクトの音声情報に対応する目標オブジェクトを決定して、目標オブジェクトの身元情報を決定することができる(例えば、審尋時の録音システムにおけるすべての目標オブジェクトの音声を裁判官、被告及び原告に分類した後、音声Aが裁判官に属し、音声Bが被告に属し、音声Cが原告に属する等を決定することができる。)。
一実施例では、声紋特徴情報には類似する声紋特徴が2つある場合、オブジェクト識別装置1は上記2つの類似する声紋特徴によって目標オブジェクトのオブジェクト識別結果を正確に取得することができない状況が生じる可能性がある。
上記状況については、結果取得モジュール14は音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することができる。
本願の実施例の具体的な実現方式では、図13に示すように、結果取得モジュール14は以下のユニットを備えてもよい。
第1結果取得ユニット141は、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより高いと示されてもよく、第1結果取得ユニット141は声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて目標オブジェクトの身元情報を識別することができ、この時の方位情報が身元確認に参加せずに音源特定のみとして使用される。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよい。
第2結果取得ユニット142は、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性が平均レベルにあると示されてもよく、目標オブジェクトの身元をより正確に識別するために、第2結果取得ユニット142は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、次に声紋特徴情報を用いて声紋識別を行い、目標オブジェクトの身元を最初に決定すると同時に、方位情報により特定された音源方向を用いて目標オブジェクトの身元を更に識別することができる。
一実施例では、第1信頼度閾値を90%、95%又は他の実際の状況に応じて決定された値に設定してもよく、第2信頼度閾値を50%、55%、60%又は他の実際の状況に応じて決定された平均値を示してもよいデータに設定してもよい。
第3結果取得ユニット143は、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定して、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得することに用いられる。
一実施例では、音声信頼度が第2信頼度閾値より小さい場合、声紋特徴情報に基づいて確認した目標オブジェクトの身元情報の信頼性がより低く、声紋特徴情報を用いて識別した目標オブジェクトの身元の精度がより低いと示されてもよい。第3結果取得サブユニット1323は上記方位情報を使用されるオブジェクト識別情報として決定し、次に方位情報により音源を特定した特定方向を用いて目標オブジェクトの身元を決定し、同じ音声環境における人語分離を実現することができる。方位情報をオブジェクト識別情報として用いるとき、識別中には許容範囲内の誤差があってもよいと理解される。説明すべきことは、このような状況において、現在の音声環境が特定の音声環境であり、例えば、目標オブジェクトの位置がいずれも決定された環境(例えば、審尋中、裁判官と犯人の位置が決定されたもの)である必要がある。
本願の実施例において、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させる。
本願の実施例の具体的な実現方式では、図14に示すように、結果取得モジュール14は以下のサブユニットを備えてもよい。
情報決定サブユニット1421は、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定することに用いられる。
具体的に実現するとき、情報決定サブユニット1421がオブジェクト識別情報を決定する詳細な過程は上記方法実施例における説明を参照してもよく、ここで詳細な説明は省略する。
候補結果取得サブユニット1422は、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することに用いられる。
具体的に実現するとき、情報決定サブユニット1421は方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定した後、候補結果取得サブユニット1422は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得することができる。目標オブジェクトの声紋特徴情報は明確な区別がある場合、候補識別結果は最終的な目標オブジェクトのオブジェクト識別結果であってもよく、つまり、オブジェクト識別装置は複数の音声情報から目標オブジェクトの音声情報を明確に識別することができると理解される。目標オブジェクトには声紋特徴情報の区別が明確ではない目標オブジェクトが少なくとも2つある場合、候補識別結果で示す目標オブジェクトと音声情報との対応関係が正確ではない可能性がある。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度が極めて大きく、オブジェクト識別装置は審尋中に複数の音声情報から裁判官Aの音声情報を識別するとき、犯人Bの音声情報が裁判官Aに属すると間違えられる可能性もあるし、裁判官Aの音声情報が犯人Bに属すると間違えられる可能性もある。
結果取得サブユニット1423は、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定することに用いられる。
一実施例では、候補結果取得サブユニット1422は声紋特徴情報に基づいて目標オブジェクトの候補識別結果を最初に識別すると同時に、結果取得サブユニット1423は方位情報により特定された音源方向を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を更に特定することができ、つまり、結果取得サブユニット1423は候補識別結果を調整して目標オブジェクトのオブジェクト識別結果を最終的に決定することができる。例えば、裁判官Aと犯人Bの声紋特徴情報の類似度がより大きく、候補識別結果は裁判官Aの音声情報が犯人Bに対応すると示され、裁判官Aの位置情報と組み合わせてオブジェクト識別装置は裁判官Aの音声情報を裁判官Aに対応することができる。
本願の実施例において、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。
本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。
一実施例では、コンピュータ装置を提供し、メモリ及びプロセッサを備え、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、声紋特徴情報に対応する音声信頼度を取得し、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行するとき、マイク配列に基づいて現在の音声環境における音声情報集合を取得し、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得し、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行する前に、更に、声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定し、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定するステップを実行する。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサはオブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得し、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定するステップを実行する。
上記コンピュータ装置は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。
不揮発性のコンピュータ装置可読記憶媒体であって、コンピュータ可読命令が記憶され、コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるとき、1つ又は複数のプロセッサは、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、声紋特徴情報に対応する音声信頼度を取得し、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行するとき、マイク配列に基づいて現在の音声環境における音声情報集合を取得し、音声情報集合に対してスクリーニング処理を行って、スクリーニング処理後の目標オブジェクトの音声情報を取得し、音声情報集合を収集する際のマイク配列の位相情報を取得し、位相情報によって示される音声方位に基づいて目標オブジェクトの方位情報を決定するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得するステップを実行する前に、更に、声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、声紋特徴情報と声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、マッチング度値に基づいて声紋特徴情報に対応する音声信頼度を決定するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定し、オブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
一実施例では、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサは音声信頼度と所定の音声信頼度閾値との関係に基づき、方位情報及び声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、音声信頼度が第1信頼度閾値以上である場合、声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、音声信頼度が第2信頼度閾値より小さい場合、上記方位情報を使用されるオブジェクト識別情報として決定するステップを実行する。
一実施例では、音声信頼度が第2信頼度閾値以上であって、第1信頼度閾値より小さい場合、方位情報及び声紋特徴情報を使用されるオブジェクト識別情報として決定し、コンピュータ可読命令がプロセッサにより実行されるとき、プロセッサはオブジェクト識別情報に基づいて目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、声紋特徴情報に基づいて目標オブジェクトの候補識別結果を取得し、方位情報を用いて候補識別結果から目標オブジェクトのオブジェクト識別結果を特定するステップを実行する。
上記コンピュータ装置可読記憶媒体は現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させる。
図15は本願の実施例に係る端末の構造模式図である。図15に示すように、前記端末1000は少なくとも1つのプロセッサ1001、例えばCPU、少なくとも1つのネットワークインターフェース1004、ユーザーインターフェース1003、メモリ1005、少なくとも1つの通信バス1002を備えてもよい。通信バス1002はこれらのコンポーネント同士の接続通信を実現することに用いられる。ユーザーインターフェース1003はディスプレイ(Display)、キーボード(Keyboard)を備えてもよく、好ましくは、ユーザーインターフェース1003は更に標準の有線インターフェース、無線インターフェースを備えてもよい。好ましくは、ネットワークインターフェース1004は標準の有線インターフェース、無線インターフェース(例えば、WI−FIインターフェース)を備えてもよい。メモリ1005は高速RAMメモリであってもよく、不揮発性メモリ(non−volatilememory)、例えば少なくとも1つの磁気ディスクメモリであってもよい。好ましくは、メモリ1005は更に上記プロセッサ1001を離れる少なくとも1つの記憶装置であってもよい。図15に示すように、コンピュータ記憶媒体としてのメモリ1005はオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及びオブジェクト識別アプリケーションプログラムを備えてもよい。
図15に示される端末1000において、ユーザーインターフェース1003は主にユーザーに入力インターフェースを提供し、ユーザーの入力したデータを取得することに用いられ、ネットワークインターフェース1004はユーザー端末とデータ通信を行うことに用いられるが、プロセッサ1001はメモリ1005に記憶されるオブジェクト識別アプリケーションプログラムを呼び出して、具体的に上記オブジェクト識別の方法を実行することに用いられてもよい。
本願の実施例において、現在の音声環境における目標オブジェクトの音声情報及び目標オブジェクトの方位情報を取得し、次に訓練後の声紋マッチングモデルに基づいて音声情報に対して声紋特徴抽出を行って、声紋特徴抽出後の音声情報に対応する声紋特徴情報を取得し、最後に声紋特徴情報に対応する音声信頼度を取得することにより、音声信頼度に基づいて、方位情報及び声紋特徴情報を用いて、目標オブジェクトのオブジェクト識別結果を取得する。音声信頼度のオブジェクト識別結果の取得における調整作用を分析することにより、方位情報又は声紋特徴情報に基づいてオブジェクト識別結果を取得し、取得されたオブジェクト識別結果の精度を向上させ、音声信頼度によってオブジェクトを識別するためのオブジェクト識別情報を決定し、オブジェクト識別中に非必須な情報の識別過程を避け、オブジェクト識別効率を向上させ、方位情報及び声紋特徴情報によって目標オブジェクトのオブジェクト識別結果を同時に識別し、更に取得されたオブジェクト識別結果の精度を向上させる。
当業者であれば、上記実施例方法における全部又は一部のプロセスを実現することは、コンピュータプログラムが関連するハードウェアを命令することで完了してもよく、前記プログラムがコンピュータ装置可読記憶媒体に記憶されてもよく、該プログラムは実行時、上記各方法の実施例のプロセスを含んでもよいと理解される。前記記憶媒体は磁気ディスク、光ディスク、読み出し専用メモリ(ROM:Read−OnlyMemory)又はランダムアクセスメモリ(RAM:RandomAccessMemory)等であってもよい。
以上の説明は本発明の好適な実施例であって、本発明の特許請求の範囲を制限するためのものではなく、従って、本発明の請求項に基づき行った等価変更は、依然として本発明の保護範囲に属する。
1 オブジェクト識別装置
11 オブジェクト情報取得モジュール
12 特徴情報取得モジュール
13 信頼度取得モジュール
14 結果取得モジュール
15 モデル生成モジュール
111 情報取得ユニット
112 情報決定ユニット
131 マッチング度値取得ユニット
132 信頼度決定ユニット
141 第1結果取得ユニット
142 第2結果取得ユニット
143 第3結果取得ユニット
1000 端末
1001 プロセッサ
1003 ユーザーインターフェース
1004 ネットワークインターフェース 1005 メモリ
1421 情報決定サブユニット
1422 候補結果取得サブユニット
1423 結果取得サブユニット

Claims (20)

  1. メモリ及びプロセッサを備えるコンピュータ装置において実行されるオブジェクト識別の方法であって、
    現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
    訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
    前記声紋特徴情報に対応する音声信頼度を取得するステップと、
    前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む、前記オブジェクト識別の方法。
  2. 現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得することは、
    マイク配列に基づいて現在の音声環境における音声情報集合を取得するステップと、
    前記音声情報集合に対してスクリーニング処理を行うステップであって、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得するステップと、
    前記音声情報集合を収集する際の前記マイク配列の位相情報を取得するステップと、
    前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得する前に、更に、
    声紋訓練音声集合を取得するステップと、
    前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練するステップであって、訓練後の声紋マッチングモデルを生成するステップと、を含むことを特徴とする
    請求項1に記載の方法。
  4. 前記声紋特徴情報に対応する音声信頼度を取得するステップは、
    前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングするステップであって、特徴マッチング度の最も高い際のマッチング度値を取得する、ステップと、
    前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
    前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップと、
    前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含むことを特徴とする
    請求項1に記載の方法。
  6. 前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定することは、
    前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
    前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
    前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
    前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得するステップと、
    前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップと、を含むことを特徴とする
    請求項6に記載の方法。
  8. コンピュータ装置であって、
    プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
    現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
    訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
    前記声紋特徴情報に対応する音声信頼度を取得し、
    前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する、前記コンピュータ装置。
  9. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
    マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
    前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
    前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
    前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
    請求項8に記載のコンピュータ装置。
  10. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
    声紋訓練音声集合を取得し、
    前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
    請求項8に記載のコンピュータ装置。
  11. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
    前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
    前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
    請求項10に記載のコンピュータ装置。
  12. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
    前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
    前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行することを特徴とする
    請求項8に記載のコンピュータ装置。
  13. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
    前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
    前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
    前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行することを特徴とする
    請求項12に記載のコンピュータ装置。
  14. 前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
    前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得し、
    前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップを実行することを特徴とする
    請求項13に記載のコンピュータ装置。
  15. 不揮発性のコンピュータ装置可読記憶媒体であって、
    コンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるとき、前記1つ又は複数のプロセッサは、
    現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
    訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
    前記声紋特徴情報に対応する音声信頼度を取得し、
    前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する、前記不揮発性のコンピュータ装置可読記憶媒体。
  16. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
    マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
    前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
    前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
    前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
    請求項15に記載のコンピュータ装置可読記憶媒体。
  17. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
    声紋訓練音声集合を取得し、
    前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
    請求項15に記載のコンピュータ装置可読記憶媒体。
  18. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
    前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
    前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
    請求項17に記載のコンピュータ装置可読記憶媒体。
  19. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
    前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
    前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行することを特徴とする
    請求項15に記載のコンピュータ装置可読記憶媒体。
  20. 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
    前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
    前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
    前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行することを特徴とする
    請求項19に記載のコンピュータ装置可読記憶媒体。
JP2020522805A 2017-10-23 2018-08-30 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 Active JP6938784B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710992605.7 2017-10-23
CN201710992605.7A CN108305615B (zh) 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端
PCT/CN2018/103255 WO2019080639A1 (zh) 2017-10-23 2018-08-30 一种对象识别方法、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021500616A true JP2021500616A (ja) 2021-01-07
JP6938784B2 JP6938784B2 (ja) 2021-09-22

Family

ID=62869914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020522805A Active JP6938784B2 (ja) 2017-10-23 2018-08-30 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体

Country Status (6)

Country Link
US (1) US11289072B2 (ja)
EP (1) EP3614377B1 (ja)
JP (1) JP6938784B2 (ja)
KR (1) KR102339594B1 (ja)
CN (1) CN108305615B (ja)
WO (1) WO2019080639A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022130269A (ja) * 2021-02-25 2022-09-06 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ処理方法、装置、端末、及び記憶媒体

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107945815B (zh) * 2017-11-27 2021-09-07 歌尔科技有限公司 语音信号降噪方法及设备
CN108197449A (zh) * 2017-12-27 2018-06-22 廖晓曦 一种基于移动终端的询问笔录装置、***及其笔录方法
CN112425157A (zh) * 2018-07-24 2021-02-26 索尼公司 信息处理装置和方法以及程序
CN110782622A (zh) * 2018-07-25 2020-02-11 杭州海康威视数字技术股份有限公司 一种安全监控***、安全检测方法、装置及电子设备
CN109256147B (zh) * 2018-10-30 2022-06-10 腾讯音乐娱乐科技(深圳)有限公司 音频节拍检测方法、装置及存储介质
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN109410956B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质
CN111951809B (zh) * 2019-05-14 2024-06-21 深圳市金桐科技有限公司 多人声纹辨别方法及***
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110505504B (zh) * 2019-07-18 2022-09-23 平安科技(深圳)有限公司 视频节目处理方法、装置、计算机设备及存储介质
CN110491411B (zh) * 2019-09-25 2022-05-17 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、***、存储设备及终端
US11664033B2 (en) 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及***
CN111904424B (zh) * 2020-08-06 2021-08-24 苏州国科医工科技发展(集团)有限公司 基于相阵麦克风的睡眠监测及调控***
CN111988426B (zh) * 2020-08-31 2023-07-18 深圳康佳电子科技有限公司 基于声纹识别的通信方法、装置、智能终端及存储介质
CN112233694B (zh) * 2020-10-10 2024-03-05 中国电子科技集团公司第三研究所 一种目标识别方法、装置、存储介质及电子设备
CN112507294B (zh) * 2020-10-23 2022-04-22 重庆交通大学 一种基于人机交互的英语教学***及教学方法
CN112530452B (zh) * 2020-11-23 2024-06-28 北京海云捷迅科技股份有限公司 一种后置滤波补偿方法、装置和***
CN112885370B (zh) * 2021-01-11 2024-05-31 广州欢城文化传媒有限公司 一种声音卡片有效性检测方法及装置
CN113113044B (zh) * 2021-03-23 2023-05-09 北京小米松果电子有限公司 音频处理方法及装置、终端及存储介质
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition
CN113707173B (zh) * 2021-08-30 2023-12-29 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN114863932A (zh) * 2022-03-29 2022-08-05 青岛海尔空调器有限总公司 一种工作模式设置方法及装置
CN114694635A (zh) * 2022-03-29 2022-07-01 青岛海尔空调器有限总公司 一种睡眠场景设置方法及装置
CN114999472A (zh) * 2022-04-27 2022-09-02 青岛海尔空调器有限总公司 一种空调控制方法、装置及一种空调
CN115331673B (zh) * 2022-10-14 2023-01-03 北京师范大学 一种复杂声音场景下的声纹识别家电控制方法和装置
CN116299179B (zh) * 2023-05-22 2023-09-12 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证***

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
FR2761848B1 (fr) * 1997-04-04 2004-09-17 Parrot Sa Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及***
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US9800731B2 (en) * 2012-06-01 2017-10-24 Avaya Inc. Method and apparatus for identifying a speaker
CN102930868A (zh) * 2012-10-24 2013-02-13 北京车音网科技有限公司 身份识别方法和装置
EP2797078B1 (en) * 2013-04-26 2016-10-12 Agnitio S.L. Estimation of reliability in speaker recognition
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9922667B2 (en) * 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
CN105321520A (zh) * 2014-06-16 2016-02-10 丰唐物联技术(深圳)有限公司 一种语音控制方法及装置
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
CN104219050B (zh) * 2014-08-08 2015-11-11 腾讯科技(深圳)有限公司 声纹验证方法、服务器、客户端及***
US10262655B2 (en) * 2014-11-03 2019-04-16 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
US10397220B2 (en) * 2015-04-30 2019-08-27 Google Llc Facial profile password to modify user account data for hands-free transactions
CN104935819B (zh) * 2015-06-11 2018-03-02 广东欧珀移动通信有限公司 一种控制摄像头拍摄方法及终端
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和***
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
CN106503513A (zh) * 2016-09-23 2017-03-15 北京小米移动软件有限公司 声纹识别方法及装置
US20190182176A1 (en) * 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
CN106898355B (zh) * 2017-01-17 2020-04-14 北京华控智加科技有限公司 一种基于二次建模的说话人识别方法
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022130269A (ja) * 2021-02-25 2022-09-06 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ処理方法、装置、端末、及び記憶媒体
JP7240445B2 (ja) 2021-02-25 2023-03-15 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ処理方法、装置、端末、及び記憶媒体

Also Published As

Publication number Publication date
JP6938784B2 (ja) 2021-09-22
WO2019080639A1 (zh) 2019-05-02
CN108305615A (zh) 2018-07-20
US11289072B2 (en) 2022-03-29
CN108305615B (zh) 2020-06-16
KR20200012963A (ko) 2020-02-05
KR102339594B1 (ko) 2021-12-14
EP3614377B1 (en) 2022-02-09
EP3614377A4 (en) 2020-12-30
US20200058293A1 (en) 2020-02-20
EP3614377A1 (en) 2020-02-26

Similar Documents

Publication Publication Date Title
JP6938784B2 (ja) オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
Sahidullah et al. Introduction to voice presentation attack detection and recent advances
US11508381B2 (en) Voiceprint recognition method, model training method, and server
US10593336B2 (en) Machine learning for authenticating voice
US9865253B1 (en) Synthetic speech discrimination systems and methods
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
EP3156978A1 (en) A system and a method for secure speaker verification
JP2019522840A (ja) アイデンティティ認証方法及び装置
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN111199741A (zh) 声纹识别方法、声纹验证方法、装置、计算设备及介质
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
US8954327B2 (en) Voice data analyzing device, voice data analyzing method, and voice data analyzing program
EP3816996B1 (en) Information processing device, control method, and program
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
EP3613040B1 (en) Speaker recognition method and system
Chetty Biometric liveness detection based on cross modal fusion
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Kanrar Dimension compactness in speaker identification
JP7287442B2 (ja) 情報処理装置、制御方法、及びプログラム
CN116863953A (zh) 语音分离方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210901

R150 Certificate of patent or registration of utility model

Ref document number: 6938784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150