JP2014026455A - メディアデータ解析装置、方法、及びプログラム - Google Patents
メディアデータ解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014026455A JP2014026455A JP2012166138A JP2012166138A JP2014026455A JP 2014026455 A JP2014026455 A JP 2014026455A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2014026455 A JP2014026455 A JP 2014026455A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- content data
- feature
- data
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】次元削減空間学習部3によって、半教師付き次元削減手法により、特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元を削減した特徴ベクトルを各々生成する。分類器学習部4によって、次元を削減した特徴ベクトルに基づいて、事後確率推定に基づく分類器をタグごとに学習する。特徴次元削減部6によって、入力されたメディアデータについて抽出された特徴べクトルから、次元を削減した特徴ベクトルを生成し、分類器評価部7によって、学習された分類器に基づいて、タグごとに、入力されたメディアデータにタグを付与するか否かを分類し、タグベクトルを出力する。
【選択図】図5
Description
識別学習に基づくアプローチで教師付・半教師付分類器を設計することで、十分な規模の学習データが得られない状況でも高い精度を確保できるアプローチを取る。特に、分類器としてサポートベクターマシン(SVM)、最小二乗確率的分類器(LSPC)、ラプラシアンSVM を用いて、この分類器をメディアとラベルとの共起関係を考慮した潜在変数空間の上で駆動することにより、精度の高いアノテーションを可能にする。
<問題の定式化>
メディアデータへの自動タグ付けは、例えばメディアデータとして音響信号を考える場合、クエリとなる音素材sqが入力された時、あらかじめ選定されたタグの種類の集合V={v1,v2,...,v|V|}から、音素材sqを説明する適切なタグを選んで付与するという問題である。ここで、sqはフィールドレコーディングで録音された音源や効果音などの音響信号であり、それぞれのタグviは「鳥の声」、「雨」、「車」などのその音素材に含まれる音や、「森林」、「街」などの音素材全体を表す単語、あるいはループミュージック用の素材や効果音であれば「ループミュージック」や「効果音」などの用途を表す単語などである。入力sqに対する出力は、タグの種類数|V|と等しい数の次元数を持つベクトルyqで表す。すなわち、i番目のタグviを付与する場合には、ベクトルyqのi番目の要素の値yq,iを1とし、付与しない場合には0とする。以下では、このようなタグの情報を表すベクトルをタグベクトルと呼ぶ。メディアデータ(上記の説明では音素材)sqから抽出される特徴ベクトルをxqで表すと、上記の問題はxqを入力として、適切なタグベクトルyqを出力する関数f′(・)を求める問題として表すことができる。
ただし、XTは、ベクトルまたは行列Xの転置を表わす。
で表し、タグ付き訓練標本、あるいは単にタグ付き標本と呼ぶ。また、NT:=|D(T)|はタグ付き訓練標本の数を表す。i番目のタグに対する分類器の学習の際には、全てのタグの情報
が用いられることはなく、i番目のタグが付与されているかどうかを表す情報
のみを用いる。
タグごとに分類器を学習する場合、そのタグがメディアデータに付与されるか否かという情報しか使えない。実際は、異なるタグの間には相関があり、例えば「雨」というタグであれば「嵐」や「風」、「雷」などのタグと同時に付与されることが多いが、「シンセサイザー」や「ループミュージック」といったようなタグと同時に付与されることはあまりない。このようなタグの共起情報を用いれば、よりタグ付けの精度を向上させられる可能性がある。タグの共起情報はタグを個別にではなく、一度に扱うようにすれば利用することができるが、全てのタグを付与するか否かを一度に出力する関数を学習しようとすると問題が複雑になる。そこで、本発明では、全てのタグを一度に扱える次元削減手法、正準相関分析(CCA:Canonical Correlation Analysis、文献:H. Hotelling, “ Analysis of complex of statistical variables into principal components ”, J. Educ. Psych., Vol.24, 1933.)を用いることで、タグの共起情報を利用する。
メディアデータの自動タグ付けに適用する教師付き学習に基づく分類手法を説明する。一つ目の手法は、サポートベクターマシン(SVM:Support Vector Machine)である。SVMは音楽のジャンル分類や曲調認識などの問題に対しても適用され、良い成果を上げている。二つ目の手法は、確率的分類器である最小二乗確率的分類器(LSPC:Least-Squares Probabilistic Classifier、文献:M. Sugiyama,“Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”,in IEICE Transactions on Information and Systems,Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011.)を用いる。LSPCは近年提案された確率的分類手法であり、学習を行う際に解が解析的に求められるため、高速に学習を行うことができ分類精度も良い。
SVMはマージンという概念を用いて決定関数を学習させる2値分類手法である。マージンとは、正のクラス(yj,i=1)と負のクラス(yj,i=0)を分ける超平面から、最も近い正例の訓練標本あるいは負例の訓練標本までの特徴空間における距離である。SVMはこのマージンの幅を最大化させるように決定関数の学習を行う。
LSPCは事後確率推定に基づく分類器であり、下記の線形モデルを用いて事後確率推定する。
<問題の定式化>
タグが付いていないメディアデータであれば容易に集めてくることができるが、教師付き学習の枠組みの中ではこれらの訓練標本を学習に用いることはできない。半教師付き学習に基づく手法を用いることで、タグ付き訓練標本とタグなし訓練標本の両方を学習に使った分類器の作成方法を説明する。
、その数をNU:=|D(U)|とする。また、タグ付きとタグなしの訓練標本を合わせた訓練標本の総数はN:=NT+NUを用いて表す。
教師付きの次元削減手法として、タグ間の相関を扱うCCAについて述べたが、CCAで次元削減を行うと過学習が起きてしまって分類性能が低下してしまうことが分かっている。タグなし訓練標本を用いてこのような過学習を防ぐ、半教師付きの次元削減手法SemiCCA(文献:A.Kimura, H.Kameoka, M. Sugiyama, T. Nakano, E. Maeda, H. Sakano, K. Ishiguro,“ SemiCCA: Efficient semi-supervised learning of canonical correlations ”, in International Conference on Pattern Recognition(ICPR), pp. 2933-2936, Istanbul, Turkey, 2010.)を説明する。SemiCCAは、近年提案されたCCAに基づく半教師付きの次元削減手法である。SemiCCAは、主成分分析(PCA: Principal Component Analysis)をCCAに組み合わせることで、タグ付きとタグなしの全訓練標本の主成分に基づく補正を行い、過学習を防ぐ。特徴ベクトル、およびタグベクトルの主成分軸への写像をそれぞれwPCA x 、wPCA yとおくと、これらPCAの解は以下の固有値問題を解くことにより求めることができる。
SVMを半教師化した分類手法はいくつか存在するが、本発明では、その中でも良く知られたLaplacian-SVM(文献:M. Belkin, P. Niyogi, and V. Sindhwani,“ On Manifold Regularization”,in Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS), Barbados, January 2005.)を用いる。Laplacian-SVMはLaplacian正規化によって半教師化を行ったSVMである。この半教師化の方法は、目的関数に対して関数をより滑らかにするLaplacian 正規化項と呼ばれる項を加える半教師化の手法である。
Laplacian正規化はタグ付きとタグなしの訓練標本を用いて決定関数を滑らかにする半教師化の手法である。半教師化に伴って具体的に行う操作は、分類器の決定関数のパラメータを決める際に解く最適化問題の目的関数に、関数の滑らかさに基づくペナルティの項を加えることである。決定関数fLapSVM iの滑らかさは下記に示すSLapSVMで表すことができ、この値が0に近づくほど関数は滑らかとなる。
<システム構成>
図5は、本発明の第1の実施の形態に係るメディアデータ解析装置100を示すブロック図である。メディアデータ解析装置100は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合を入力し、メディアデータに付与するタグ情報を分類するための分類器を学習すると共に、タグ情報が与えられていないメディアデータを入力し、メディアデータに付与するタグ情報を出力する装置であり、具体的にはCPU(Central Processing Unit)と、RAMと、後述する分類器学習処理ルーチン及びタグ付与処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本実施の形態に係るメディアデータ解析装置100の作用について説明する。まず、タグベクトルが与えられたタグ付き学習用データ集合、及びタグベクトルが与えられていないタグなし学習用データ集合が、メディアデータ解析装置100に入力されると、メディアデータ解析装置100によって、入力されたタグ付き学習用データ集合及びタグなし学習用データ集合が、学習用データベース1へ格納される。そして、メディアデータ解析装置100によって、図7に示す分類器学習処理ルーチンが実行される。
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第3の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第4の実施の形態について説明する。なお、第4の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第5の実施の形態について説明する。なお、第5の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第6の実施の形態について説明する。なお、第6の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第7の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
教師付き学習および半教師付き学習に基づく分類手法と次元削減手法をそれぞれメディアデータの自動タグ付け問題に適用し、各手法の比較検討を行った。
2 学習用データ特徴抽出部
3 次元削減空間学習部
4、704 分類器学習部
5 入力データ特徴抽出部
6 特徴次元削減部
7、707 分類器評価部
8 タグベクトル出力部
10 入力部
20、720 演算部
30 タグベクトル出力部
100、700 メディアデータ解析装置
Claims (3)
- 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段と、
を含むメディアデータ解析装置。 - 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、
学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、
次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、
次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、
分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、
入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、
特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、
分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する
メディアデータ解析方法。 - 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、
コンピュータを、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012166138A JP2014026455A (ja) | 2012-07-26 | 2012-07-26 | メディアデータ解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012166138A JP2014026455A (ja) | 2012-07-26 | 2012-07-26 | メディアデータ解析装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014026455A true JP2014026455A (ja) | 2014-02-06 |
Family
ID=50200041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012166138A Pending JP2014026455A (ja) | 2012-07-26 | 2012-07-26 | メディアデータ解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014026455A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550172A (zh) * | 2016-01-13 | 2016-05-04 | 夏峰 | 一种分布式文本检测方法及*** |
EP3016033A1 (en) | 2014-10-29 | 2016-05-04 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and information processing method |
CN105701077A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种多语种文献检测方法及*** |
CN105701075A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献联合检测方法及*** |
CN105701086A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种滑动窗口文献检测方法及*** |
CN105701087A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种公式抄袭检测方法及*** |
JP2019133496A (ja) * | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | コンテンツ特徴量抽出装置、方法、及びプログラム |
CN110781906A (zh) * | 2018-07-31 | 2020-02-11 | 中国工程物理研究院电子工程研究所 | 一种基于半监督支持向量机的n-γ甄别方法 |
CN111639540A (zh) * | 2020-04-30 | 2020-09-08 | 中国海洋大学 | 基于相机风格和人体姿态适应的半监督人物重识别方法 |
CN113392642A (zh) * | 2021-06-04 | 2021-09-14 | 北京师范大学 | 一种基于元学习的育人案例自动标注***及方法 |
CN114582366A (zh) * | 2022-03-02 | 2022-06-03 | 浪潮云信息技术股份公司 | 一种基于LapSVM实现音频分段打标签的方法 |
US11367003B2 (en) | 2017-04-17 | 2022-06-21 | Fujitsu Limited | Non-transitory computer-readable storage medium, learning method, and learning device |
JP7410334B2 (ja) | 2020-05-27 | 2024-01-09 | ロブロックス・コーポレーション | ゲームタグの自動生成 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282980A (ja) * | 2008-05-20 | 2009-12-03 | Ricoh Co Ltd | 画像学習、自動注釈、検索方法及び装置 |
JP2010250391A (ja) * | 2009-04-10 | 2010-11-04 | Nippon Telegr & Teleph Corp <Ntt> | データ分類方法及び装置及びプログラム |
-
2012
- 2012-07-26 JP JP2012166138A patent/JP2014026455A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282980A (ja) * | 2008-05-20 | 2009-12-03 | Ricoh Co Ltd | 画像学習、自動注釈、検索方法及び装置 |
JP2010250391A (ja) * | 2009-04-10 | 2010-11-04 | Nippon Telegr & Teleph Corp <Ntt> | データ分類方法及び装置及びプログラム |
Non-Patent Citations (3)
Title |
---|
CSNG201001047001; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 * |
JPN6015003223; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 * |
JPN6015003224; Takagi: 'Automatic audio tag classification via semi-supervised canonical density estimation' Acoustics, Speech and Signal Processing (ICASSP) , 20110522, 2232 - 2235ページ * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3016033A1 (en) | 2014-10-29 | 2016-05-04 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and information processing method |
US10284583B2 (en) | 2014-10-29 | 2019-05-07 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and information processing method |
CN105701077A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种多语种文献检测方法及*** |
CN105701075A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献联合检测方法及*** |
CN105701086A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种滑动窗口文献检测方法及*** |
CN105701087A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种公式抄袭检测方法及*** |
CN105550172A (zh) * | 2016-01-13 | 2016-05-04 | 夏峰 | 一种分布式文本检测方法及*** |
US11367003B2 (en) | 2017-04-17 | 2022-06-21 | Fujitsu Limited | Non-transitory computer-readable storage medium, learning method, and learning device |
JP6993250B2 (ja) | 2018-02-01 | 2022-01-13 | 日本電信電話株式会社 | コンテンツ特徴量抽出装置、方法、及びプログラム |
JP2019133496A (ja) * | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | コンテンツ特徴量抽出装置、方法、及びプログラム |
CN110781906A (zh) * | 2018-07-31 | 2020-02-11 | 中国工程物理研究院电子工程研究所 | 一种基于半监督支持向量机的n-γ甄别方法 |
CN111639540A (zh) * | 2020-04-30 | 2020-09-08 | 中国海洋大学 | 基于相机风格和人体姿态适应的半监督人物重识别方法 |
CN111639540B (zh) * | 2020-04-30 | 2023-08-04 | 中国海洋大学 | 基于相机风格和人体姿态适应的半监督人物重识别方法 |
JP7410334B2 (ja) | 2020-05-27 | 2024-01-09 | ロブロックス・コーポレーション | ゲームタグの自動生成 |
CN113392642A (zh) * | 2021-06-04 | 2021-09-14 | 北京师范大学 | 一种基于元学习的育人案例自动标注***及方法 |
CN113392642B (zh) * | 2021-06-04 | 2023-06-02 | 北京师范大学 | 一种基于元学习的育人案例自动标注***及方法 |
CN114582366A (zh) * | 2022-03-02 | 2022-06-03 | 浪潮云信息技术股份公司 | 一种基于LapSVM实现音频分段打标签的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014026455A (ja) | メディアデータ解析装置、方法、及びプログラム | |
Sun et al. | Domain adversarial training for accented speech recognition | |
US9311609B2 (en) | Techniques for evaluation, building and/or retraining of a classification model | |
Zhuang et al. | Real-world acoustic event detection | |
Wang et al. | Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection | |
Babaee et al. | An overview of audio event detection methods from feature extraction to classification | |
Dekel et al. | An online algorithm for hierarchical phoneme classification | |
Bouguila | A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity | |
US20220309292A1 (en) | Growing labels from semi-supervised learning | |
Zou et al. | Improved voice activity detection based on support vector machine with high separable speech feature vectors | |
US20210357704A1 (en) | Semi-supervised learning with group constraints | |
Cho et al. | Non-contrastive self-supervised learning for utterance-level information extraction from speech | |
Egas-López et al. | Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers | |
Borgström | Bayesian estimation of PLDA in the presence of noisy training labels, with applications to speaker verification | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
US20210192318A1 (en) | System and method for training deep-learning classifiers | |
US8185490B1 (en) | Class-specific iterated subspace classifier | |
CN114547264A (zh) | 一种基于马氏距离和对比学习的新意图数据识别方法 | |
JP4256314B2 (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
US11107460B2 (en) | Adversarial speaker adaptation | |
Wilkinson | Robust voice activity detection for low-resource automatic speech recognition | |
Hammami et al. | Tree distributions approximation model for robust discrete speech recognition | |
Kangala et al. | A Fractional Ebola Optimization Search Algorithm Approach for Enhanced Speaker Diarization. | |
Sholokhov | Improving machine learning methods for speaker recognition and segmentation | |
Affek et al. | Open-Set Speaker Identification Using Closed-Set Pretrained Embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150721 |