JPWO2011122522A1 - 感性表現語選択システム、感性表現語選択方法及びプログラム - Google Patents

感性表現語選択システム、感性表現語選択方法及びプログラム Download PDF

Info

Publication number
JPWO2011122522A1
JPWO2011122522A1 JP2012508289A JP2012508289A JPWO2011122522A1 JP WO2011122522 A1 JPWO2011122522 A1 JP WO2011122522A1 JP 2012508289 A JP2012508289 A JP 2012508289A JP 2012508289 A JP2012508289 A JP 2012508289A JP WO2011122522 A1 JPWO2011122522 A1 JP WO2011122522A1
Authority
JP
Japan
Prior art keywords
sound
expression word
sensitivity
frequency
sensitivity expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012508289A
Other languages
English (en)
Inventor
野村 俊之
俊之 野村
裕三 仙田
裕三 仙田
恭太 比嘉
恭太 比嘉
隆行 荒川
隆行 荒川
康行 三井
康行 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011122522A1 publication Critical patent/JPWO2011122522A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、所定の場から得られるオーディオ信号を分析し、前記所定の場で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記所定の場で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。【選択図】図1

Description

本発明は、感性表現語選択システム、感性表現語選択方法及びプログラムに関する。
離れた場所の雰囲気を相手に伝えたいことがある。このような場合、その場に設置されているマイク等で周囲の音を集音して、相手に聞かせることで周囲の雰囲気を伝えることができる。しかしながら、マイクや受話器では、モノラル音しか集音できないため、通話者の周囲の雰囲気を完全に伝えることができないという問題がある。
そこで、高音質で臨場感のある電話通信を実現できるステレオ電話装置が提案されている(例えば、特許文献1)。
特許文献1に記載されているステレオ電話装置は、ステレオ電話機同士でステレオの音声相互通信を行うことができるので、モノラル音よりも立体感のある音声で会話をすることができる。
しかしながら、特許文献1に記載のステレオ装置では、通話用のマイクを使って周囲の環境音も伝えるため、ステレオ電話機同士で通話中に、その場の環境音を相手にうまく伝えることができなかった。
そこで、その場の環境音を相手にうまく伝えることを目的とした技術として、特許文献2の技術が提案されている。特許文献2の技術は、通話する際に発信者が受信者に周囲の雰囲気などを伝えたい場合、受信者の電話番号とともにコンテンツサーバの電話番号を入力する。コンテンツサーバには、発信者の周囲の環境音を集音して立体音響データとしてリアルタイムに配信するものや音楽を配信するものなどがある。受信側電話装置では、電話機が発呼する際に送信側で指定されたコンテンツサーバの情報が通知されるので、このIPアドレス情報に基づいてコンテンツサーバに接続して立体音響データを取得して、電話装置に接続されたサラウンドシステムで立体音響を再生する。これにより、受信者は、発信者と通話しながら、発信者とほぼ同じ雰囲気を体感できる。
特開平6−268722号公報 特開2007−306597号公報
ところで、人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がないような場合や、殆ど無音に近い場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音(無音の場合も含む)により色々な感性を感じ取る。
しかし、特許文献1や特許文献2の技術は、その場で発生している音をなるべく忠実に再現して臨場感のある音場を再生することを目的としており、音以外に人間が感じる色々な感性を伝えることはできなかった。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる感性表現語選択システム、感性表現語選択方法及びプログラムを提供することにある。
上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。
上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択方法である。
上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理とを情報処理装置に実行させるプログラムである。
本発明は、場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。
図1は本実施の形態における感性表現語選択システムのブロック図である。 図2は第1の実施の形態の感性表現語選択システムのブロック図である。 図3は感性表現語データベース21の一例を示した図である。 図4は第2の実施の形態の感性表現語選択システムのブロック図である。 図5はオーディオ信号の周波数情報の例を説明するための図である。 図6は感性音情報が音圧レベルと周波数重心(正規化値)とである場合、音圧レベル(正規化値)と周波数重心(正規化値)との2次元に感性表現語がマッピングされた感性表現語データベース21の一例を示した図である。 図7は周波数情報がスペクトル包絡の傾きの例を説明する為の図である。 図8は周波数情報が倍音数の例を説明する為の図である。 図9は周波数情報が周波数帯域及び周波数重心の例を説明する為の図である。 図10は第3の実施の形態の感性表現語選択システムのブロック図である。 図11は第4の実施の形態の感性表現語選択システムのブロック図である。 図12は第5の実施の形態の感性表現語選択システムのブロック図である。 図13は第6の実施の形態の感性表現語選択システムのブロック図である。
本発明の実施の形態を説明する。
まず、本発明の概要を説明する。
図1は本実施の形態における感性表現語選択システムのブロック図である。
図1に示す如く、本実施の形態の感性表現語選択システムは、入力信号分析部1と、感性表現語選択部2とを有する。
入力信号分析部1は、ある所定の場で取得されたオーディオ信号を入力し、オーディオ信号を分析して、その所定の場で発生している音(以下、感性音と記載する)に関する感性音情報を生成する。感性音とは、オーディオ信号を取得した場で発生している様々な音、例えば、音声や、音声以外の環境音を含む概念である。人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がない場合や、発生している音が小さい(オーディオ信号音圧レベルが低い)場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音(無音の場合も含む)により色々な感性を感じ取る。
そこで、入力信号分析部1は、所定の場で発生している感性音のオーディオ信号を分析し、その場ではどのような感性音が発生しているかを分析し、感性音に関する感性音情報を生成する。ここで、感性音情報とは、オーディオ信号の音圧の大きさや、オーディオ信号の周波数、オーディオ信号の種類(例えば、音声や、雨の音や自動車の音等といった音声を除く環境音の種別)等である。
感性表現語選択部2は、入力信号分析部1で生成された感性音情報に基づいて、オーディオ信号を取得した場で発生している感性音に対応した感性表現語を選択する。ここで、感性表現語とは、オーディオ信号を取得した場で発生している音で人が感じる内容、例えば、気持ちや感性、感覚を表現する語である。感性表現語の代表的なものに擬音語や擬態語がある。
例えば、感性音情報がオーディオ信号の音圧レベルである場合、音圧レベルが大きいほど大きな音が発生していると考えられ、オーディオ信号を取得した場では大きな音が発生しており、その場が騒がしいことが判る。そこで、感性表現語選択部2は、「ザワザワ」や、「ガヤガヤ」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。また、音圧レベルが殆ど0に近く、無音に近いと考えられる場合は、「シーン」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。
また、感性音情報がオーディオ信号の周波数である場合、音の発生源に応じてオーディオ信号の周波数は変化すると考えられる。そこで、感性表現語選択部2は、オーディオ信号の周波数が低い場合には工事の騒音をイメージさせる「ドッドッ」や車の排気音をイメージさせる「ブーン」、逆に高い場合には「カンカン」のような金属的なイメージを表す感性表現語、あるいは、「コンコン」のような木を打ちたたく感性表現語を選択する。
さらに、オーディオ信号の種別を感性音情報として用いる場合は、その場で生じている音の種別に応じてより正確な感性表現語を感性表現語選択部2で選択する。例えば、工事のドリルなのか車の排気音を区別して、「ドッドッ」あるいは「ブーン」を選択することが出来る。
このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
これにより、今まで、臨場感、すなわち、その場の雰囲気や互いの状況を得るために、忠実な音場を再現することに注視されていた従来のものと比べて、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により明確に表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。
以下、具体的な実施の形態を説明する。
<第1の実施の形態>
第1の実施の形態を説明する。
第1の実施の形態では、ある所定の場で発生している感性音から取得されたオーディオ信号の音の大きさに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語(擬音語、擬態語等)を選択する例を説明する。
図2は、第1の実施の形態の感性表現語選択システムのブロック図である。
第1の実施の形態の感性表現語選択システムは、入力信号分析部1と、感性表現語選択部2とを有する。
入力信号分析部1は、音圧レベル算出部10を有する。音圧レベル算出部10は、入力された感性音のオーディオ信号の音圧を算出し、音圧レベルを正規化した値(0〜1.0)を感性音情報として感性表現語選択部2に出力する。
感性表現語選択部2は、感性表現語データベース21と、感性表現語検索部22とを有する。
感性表現語データベース21は、感性音情報の値(0〜1.0)に対応する感性表現語が格納されたデータベースである。図3に感性表現語データベース21の一例を示す。
図3に示される感性表現語データベース21では、感性音情報の値(音圧レベル:0〜1.0)とそれに対応する感性表現語(例えば、擬音語や、擬態語)を示したものであり、例えば、感性音情報の値が「0.0」の場合の感性表現語は「シーン」であり、感性音情報の値が「0.1」の場合の感性表現語は「コソコソ」である。また、感性音情報の値が「0.9以上、0.95未満」の値である場合には感性表現語は「ワイワイ」であり、感性音情報の値が「0.95以上、1以下」の値である場合には感性表現語は「ガヤガヤ」である。このように、感性音情報の値に対応する感性表現語が格納されている。
感性表現語検索部22は、入力信号分析部1から感性音情報を入力し、この感性音情報に対応した感性表現語を、感性表現語データベース21から検索する。例えば、入力信号分析部1から得られた感性音情報の値が「0.64」の場合、感性表現語データベース21から「0.64」に対応する感性表現語を選択する。図3に示される感性表現語データベース21の例では、「0.64」に対応する感性表現語は、0.6〜0.7の間にある「ペチャペチャ」である。従って、感性音情報の値「0.64」に対応する感性表現語として「ペチャペチャ」を検索する。検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
以上の如く、第1の実施の形態では、その場の音の大きさに応じた感性表現語(擬音語や擬態語)が選択されるので、その場の音の大きさに応じた雰囲気や互いの状況を人間の感性に訴えた感性表現語(擬音語や擬態語)を得ることができる。
<第2の実施の形態>
第2の実施の形態を説明する。
第2の実施の形態では、第1の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を周波数分析し、音の大きさと周波数スペクトルとに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
図4は、第2の実施の形態の感性表現語選択システムのブロック図である。
入力信号分析部1は、第1の実施の形態に加え、周波数解析部11を有する。
周波数解析部11は、入力信号の基本周波数や、周波数重心、周波数帯域や、スペクトル包絡の傾き、倍音数などの音の周波数上での特徴を現す周波数情報を算出する。
各項目の概念図を図5に示す。
ここで、基本周波数とは、周期的な音の音高を表す周波数であり、音の振動周期で決まり音の振動周期が短いと音の高さは高くなり、振動周期が長いと音の高さは低くなる。また、周波数重心とは、エネルギを重みとした重み付け平均周波数であり、雑音の場合の音の高さを表す。また、周波数帯域とは、入力されたオーディオ信号が取りうる周波数の帯域である。また、スペクトル包絡とは、スペクトルの大まかな傾向を表し、その傾きは音色に影響する。
周波数解析部11は、上述のような周波数情報を感性音情報として出力する。
感性表現語検索部22は、音圧レベルと周波数情報とを感性音情報として入力し、感性音情報に対応する感性表現語を感性表現語データベース21から選択する。このため、感性表現語データベース21には音圧レベルのみならず、周波数情報も考慮されて学習された感性音情報に対応する感性表現語が格納されている。また、感性表現語検索部22は、音圧レベルと周波数情報とを感性音情報として入力し、感性表現語データベース21から音圧レベルと周波数情報とにあった感性表現語を選択する。
感性表現語検索部22の感性表現語の検索の一例を説明する。
図6は感性音情報が音圧レベルと周波数重心(正規化値)とである場合、音圧レベル(正規化値)と周波数重心(正規化値)との2次元に感性表現語がマッピングされた感性表現語データベース21の一例を示したものである。
感性表現語検索部22は、例えば、音圧レベルの値が大きく、周波数重心の値が小さい感性音情報を受信すると、オーディオ信号を取得した場では迫力ある音がしていると判断して、感性表現語「ドンドン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値が大きい感性音情報を受信すると、オーディオ信号を取得した場ではもの足りない音がしていると判断して、感性表現語「トントン」を選択する。また、音圧レベルの値が大きく、周波数重心の値も大きい感性音情報を受信すると、オーディオ信号を取得した場では鋭い音がしていると判断して、感性表現語「キンキン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値も小さい感性音情報を受信すると、オーディオ信号を取得した場では鈍い音がしていると判断して、感性表現語「ゴンゴン」を選択する。尚、周波数重心に代えて基本周波数であっても同様である。
上述では音圧レベルと周波数重心又は基本周波数との例を示したが、これに限られない。例えば、図7に示すように、周波数情報がスペクトル包絡の傾きであり、その傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語から音圧レベルに対応した感性表現語を選択し、傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。
また、例えば、図8に示すように、周波数情報が倍音数であり、その数が多い場合には汚い印象(雑音になる)となる濁音のある感性表現語から音圧レベルに対応した感性表現語を選択し、その数が少ない場合にはきれいな印象(純音に近い)になる濁音が無い感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。
更に、例えば、図9に示すように、周波数情報が周波数帯域及び周波数重心であり、その帯域が狭く周波数重心が低い場合には鈍い印象(高域の音を含まない)の非金属的な印象を与え、かつ、低い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「ドンドン」を選択する。一方、その帯域が広く周波数重心が高い場合には鋭い印象(高域の音を含む)の金属的な印象を与え、かつ、高い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「キンキン」を選択するようにしても良い。
このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
なお、上記で説明した複数の周波数情報を用いても良い。
また、上記の例では、音圧レベルと周波数情報とを組み合わせた例を説明したが、周波数情報のみを用いて感性表現語を選択することもできる。
以上の如く、第2の実施の形態では、感性音情報に音圧レベルに加えて周波数情報を加えることにより、よりその場の雰囲気を表す感性表現語を選択することができる。
<第3の実施の形態>
第3の実施の形態を説明する。
第3の実施の形態では、第2の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を音声と音声以外の環境音とに識別し、音の大きさ、周波数分析、音声と環境音との識別に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
図10は、第3の実施の形態の感性表現語選択システムのブロック図である。
入力信号分析部1は、第2の実施の形態に加え、音声・環境音判定部12を有する。
音声・環境音判定部12は、入力されたオーディオ信号に対し、人が発声した音声か、その他の環境音かを判定する。判定方法としては、以下の方法が考えられる。
(1)オーディオ信号のスペクトル形状の時間変化が少なすぎる(定常雑音)、もしくは急激すぎる(突発雑音)のとき、音声を除く環境音と判定する。
(2)オーディオ信号のスペクトル形状が、フラット、もしくは1/fに近いとき、音声を除く環境音と判定する。
(3)オーディオ信号に対して数ms(8 kHzサンプリングの場合、10次)程度の線形予測を行い、その線形予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。また、オーディオ信号に対して十数ms(8 kHzサンプリングの場合、40〜160次)程度の長期予測を行い、その長期予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。
(4)オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離を測定し、その入力音が一定以上離れていた場合には音声を除く環境音と判定する。
(5)オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離と、変換した信号とガーベッジモデルもしくはユニバーサルモデルとの距離とを測定し、ガーベッジモデルもしくはユニバーサルモデルにより近い場合には、その入力音を音声以外の環境音と判定する。
上述した方法の音声の標準モデルとしては、Gaussian Mixture Model(GMM)やHidden Markov Model(HMM)などを用いることができる。GMMやHMMは予め人が発声した音声から統計的もしくは機械学習のアルゴリズムを用いて作成する。尚、ガーベッジモデルとは、人の発声以外の音から作成したモデルであり、ユニバーサルモデルとは、人の発声した音声とそれ以外の音声を全て合わせて作成したモデルである。
入力信号分析部1は、音圧レベル算出部10が算出した音圧レベルと、周波数解析部11が算出した周波数情報と、音声・環境音判定部12が算出した音の種別(音声、又は、音声以外の環境音)を感性音情報として出力する。
感性表現語検索部22は、基本的な構成は第2の実施の形態と同様であるが、音圧レベル、周波数情報及び音の種別(音声、又は、音声以外の環境音)を感性音情報として入力し、感性表現語を検索する。このため、感性表現語データベース21には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。
感性表現語検索部22は、例えば、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が高く、音圧レベルが低くい場合には、音声に対応した感性表現語「ヒソヒソ」を検索する。一方、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が低く、音圧レベルが高い場合には音声に対応した感性表現語「ガヤガヤ」を検索する。また、感性表現語検索部22は、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が低く、音圧レベルが低くい場合には感性表現語「ゴンゴン」等の音声以外の環境音に対応した感性表現語を検索する。一方、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が高く、音圧レベルが高い場合には感性表現語「キンキン」等の音声以外の環境音に対応した感性表現語を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式にあわせて出力される。
尚、音声・環境音判定部12により音声と判断された場合、感性表現語検索部22は、音圧レベル、周波数情報に基づいて話者数を分析して、その人数に適した感性表現語を選択するようにしても良い。例えば、一人が小さな声で話している場合は「ブツブツ」、大きな声の場合は「ワー」、複数の人が小さな声で話している場合は「ヒソヒソ」、複数の人が大きな声の場合は「ワイワイ」を検索する。
このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
尚、上記の例では、音圧レベルと、周波数情報と、音声と環境音との識別とを組み合わせた例を説明したが、音声と環境音との識別のみ、音圧レベルと音声と環境音との識別との組み合わせを用いて感性表現語を選択することもできる。
第3の実施の形態では、音声と音声以外の環境音とを識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。
<第4の実施の形態>
第4の実施の形態を説明する。
第4の実施の形態では、第3の実施の形態の構成に加え、更に、音声以外の環境音の種別を識別し、音の大きさ、周波数分析、感性音の識別(音声や、車の音等の環境音の種別)に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
図11は、第4の実施の形態の感性表現語選択システムのブロック図である。
入力信号分析部1は、第2の実施の形態に加え、音声・環境音種別判定部13を有する。
音声・環境音種別判定部13は、入力されたオーディオ信号に対し、人が発声した音声、音声以外の環境音の種別を判定する。判定方法としては、GMMを使う方法やHMMを使う方法が考えられる。例えば、音声以外の環境音の種類ごとに予め作成されたGMMやHMMが格納されており、入力音に一番距離が近い環境音の種別が選択される。これらの環境音の種別を識別する方法は、文献“音声言語情報処理29−14「HMMを用いた環境音識別の検討」”に記載された技術を参考にすることができる。
入力信号分析部1は、音圧レベル算出部10が算出した音圧レベルと、周波数解析部11が算出した周波数情報と、音声・環境音種別判定部13が算出した環境音の種別(音声、車の音、雨の音と言った環境音の種別)とを感性音情報として出力する。
感性表現語検索部22は、音圧レベル、周波数情報及び環境音の種別(音声、車の音、雨の音と言った環境音の種別)を感性音情報として入力し、感性表現語を選択する。そのため、感性表現語データベース21には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。
例えば、感性表現語検索部22は、例えば、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が高く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「カンカン」を検索する。一方、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が低く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「ガンガン」を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
尚、上記の例では、音圧レベルと、周波数情報と、感性音の識別とを組み合わせた例を説明したが、感性音の識別のみ、音圧レベルと感性音の識別との組み合わせを用いて感性表現語を選択することもできる。
第4の実施の形態では、上述した実施の形態に加え、環境音の種別を識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。
<第5の実施の形態>
第5の実施の形態を説明する。
第5の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行う例を説明する。
図12は、第5の実施の形態の感性表現語選択システムのブロック図である。
入力信号分析部1は、第4の実施の形態に加え、アクティブ判定部30を有する。
アクティブ判定部30は、オーディオ信号がある一定のレベルにある場合のみ、音圧レベル算出部10、周波数解析部11と、音声・環境音種別判定部13とにオーディオ信号を出力する。
第5の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行うので、無駄な感性表現語選択の処理などを防止することができる。
<第6の実施の形態>
第6の実施の形態を説明する。
第6の実施の形態は、上述した実施の形態をプログラムで動作するコンピュータで行う例を説明する。
図13は、第6の実施の形態の感性表現語選択システムのブロック図である。
第6の実施の形態の感性表現語選択システムは、コンピュータ50と、感性表現語データベース21とを有する。
コンピュータ50は、プログラムが格納されるプログラムメモリ52と、プログラムで動作されるCPU51とを有する。
CPU51は、音声レベル算出部10の動作と同様な処理を音声レベル算出処理100で行い、周波数算出部11の動作と同様な処理を周波数算出処理101で行い、音声・環境判定部12の動作と同様な処理を音声・環境判定処理102で行い、感性表現語検索部22の動作と同様な処理を感性表現語検索処理200で行う。
尚、感性表現語データベース21は、コンピュータ50の内部に格納されていても良い。
また、本実施の形態では、第3の実施の形態に相当するものを例にしたが、これに限られず、第1、第2、第4及び第5の実施の形態に相当するものをコンピュータで実現することもできる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
を有する感性表現語選択システム。
(付記2) 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記1に記載の感性表現語選択システム。
(付記3) 前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記1又は付記2に記載の感性表現語選択システム。
(付記4) 前記感性音情報が音圧レベルを含む場合、
前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記3に記載の感性表現語選択システム。
(付記5) 前記感性音情報が基本周波数又は周波数重心を含む場合、
前記感性表現語選択部は、
前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記3又は付記4に記載の感性表現語選択システム。
(付記6) 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
前記感性表現語選択部は、
前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記3から付記5のいずれかに記載の感性表現語選択システム。
(付記7) 前記感性音情報がスペクトル包絡の傾きを含む場合、
前記感性表現語選択部は、
前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記3から付記6のいずれかに記載の感性表現語選択システム。
(付記8) 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
前記感性表現語選択部は、
前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記3から付記7のいずれかに記載の感性表現語選択システム。
(付記9) 前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
付記3から付記8のいずれかに記載の感性表現語選択システム。
(付記10) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
感性表現語選択方法。
(付記11) 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記10に記載の感性表現語選択方法。
(付記12) オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記10又は付記11に記載の感性表現語選択方法。
(付記13) 前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記12に記載の感性表現語選択方法。
(付記14) 前記感性音情報が基本周波数又は周波数重心を含む場合、
前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記12又は付記13に記載の感性表現語選択方法。
(付記15) 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記12から付記14のいずれかに記載の感性表現語選択方法。
(付記16) 前記感性音情報がスペクトル包絡の傾きを含む場合、
前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記12から付記15のいずれかに記載の感性表現語選択方法。
(付記17) 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記12から付記16のいずれかに記載の感性表現語選択方法。
(付記18) 前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
付記12から付記17のいずれかに記載の感性表現語選択方法。
(付記19) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
を情報処理装置に実行させるプログラム。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
本出願は、2010年3月30日に出願された日本出願特願2010−078123号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 入力信号分析部
2 感性表現語選択部
10 音圧レベル算出部
11 周波数解析部
12 音声・環境音判定部
13 音声・環境音種別判定部
21 感性表現データベース
22 感性表現語検索部
30 アクティブ判定部
50 コンピュータ
51 CPU
52 プログラムメモリ

Claims (19)

  1. オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
    前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
    を有する感性表現語選択システム。
  2. 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
    請求項1に記載の感性表現語選択システム。
  3. 前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
    請求項1又は請求項2に記載の感性表現語選択システム。
  4. 前記感性音情報が音圧レベルを含む場合、
    前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
    請求項3に記載の感性表現語選択システム。
  5. 前記感性音情報が基本周波数又は周波数重心を含む場合、
    前記感性表現語選択部は、
    前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
    前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
    請求項3又は請求項4に記載の感性表現語選択システム。
  6. 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
    前記感性表現語選択部は、
    前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
    前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
    請求項3から請求項5のいずれかに記載の感性表現語選択システム。
  7. 前記感性音情報がスペクトル包絡の傾きを含む場合、
    前記感性表現語選択部は、
    前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
    前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
    請求項3から請求項6のいずれかに記載の感性表現語選択システム。
  8. 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
    前記感性表現語選択部は、
    前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
    前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
    前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
    前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
    請求項3から請求項7のいずれかに記載の感性表現語選択システム。
  9. 前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
    請求項3から請求項8のいずれかに記載の感性表現語選択システム。
  10. オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
    前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
    感性表現語選択方法。
  11. 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
    請求項10に記載の感性表現語選択方法。
  12. オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
    請求項10又は請求項11に記載の感性表現語選択方法。
  13. 前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
    請求項12に記載の感性表現語選択方法。
  14. 前記感性音情報が基本周波数又は周波数重心を含む場合、
    前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
    前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
    請求項12又は請求項13に記載の感性表現語選択方法。
  15. 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
    前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
    前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
    請求項12から請求項14のいずれかに記載の感性表現語選択方法。
  16. 前記感性音情報がスペクトル包絡の傾きを含む場合、
    前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
    前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
    請求項12から請求項15のいずれかに記載の感性表現語選択方法。
  17. 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
    前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
    前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
    前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
    前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
    請求項12から請求項16のいずれかに記載の感性表現語選択方法。
  18. 前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
    請求項12から請求項17のいずれかに記載の感性表現語選択方法。
  19. オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
    前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
    を情報処理装置に実行させるプログラム。
JP2012508289A 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム Pending JPWO2011122522A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010078123 2010-03-30
JP2010078123 2010-03-30
PCT/JP2011/057543 WO2011122522A1 (ja) 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム

Publications (1)

Publication Number Publication Date
JPWO2011122522A1 true JPWO2011122522A1 (ja) 2013-07-08

Family

ID=44712219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012508289A Pending JPWO2011122522A1 (ja) 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム

Country Status (3)

Country Link
US (1) US9286913B2 (ja)
JP (1) JPWO2011122522A1 (ja)
WO (1) WO2011122522A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390245B2 (en) * 2012-08-02 2016-07-12 Microsoft Technology Licensing, Llc Using the ability to speak as a human interactive proof
CN103971680B (zh) 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
JP6758890B2 (ja) * 2016-04-07 2020-09-23 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
JP6508635B2 (ja) * 2017-06-22 2019-05-08 オリンパス株式会社 再生装置、再生方法、再生プログラム
SG10201801749PA (en) * 2018-03-05 2019-10-30 Kaha Pte Ltd Methods and system for determining and improving behavioural index

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268722A (ja) 1993-03-11 1994-09-22 Hitachi Telecom Technol Ltd ステレオ電話装置
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
JP2002057736A (ja) 2000-08-08 2002-02-22 Nippon Telegr & Teleph Corp <Ntt> データ伝送方法、データ伝送装置及びデータ伝送プログラムを記録した媒体
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US6506148B2 (en) * 2001-06-01 2003-01-14 Hendricus G. Loos Nervous system manipulation by electromagnetic fields from monitors
JP2006033562A (ja) * 2004-07-20 2006-02-02 Victor Co Of Japan Ltd 擬声語受信装置
CN101069213B (zh) * 2004-11-30 2010-07-14 松下电器产业株式会社 场景修饰表现生成装置以及场景修饰表现生成方法
CN101506874B (zh) * 2006-09-13 2011-12-07 日本电信电话株式会社 情感检测方法、情感检测装置
JP4891802B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
BRPI0809759A2 (pt) 2007-04-26 2014-10-07 Ford Global Tech Llc "sistema informativo emotivo, sistemas de informações emotivas, métodos de condução emotiva de informações, sistemas informativos emotivos para um veículo de passageiro e método implementado por computador"
JP2007306597A (ja) 2007-06-25 2007-11-22 Yamaha Corp 音声通信装置、音声通信システム、及び音声通信装置用プログラム
WO2009090600A1 (en) 2008-01-16 2009-07-23 Koninklijke Philips Electronics N.V. System and method for automatically creating an atmosphere suited to social setting and mood in an environment
EP2406787B1 (en) * 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
JP2010258687A (ja) 2009-04-23 2010-11-11 Fujitsu Ltd 無線通信装置
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US9224033B2 (en) * 2010-11-24 2015-12-29 Nec Corporation Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program
WO2012070429A1 (ja) * 2010-11-24 2012-05-31 日本電気株式会社 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
JPWO2012070430A1 (ja) * 2010-11-24 2014-05-19 日本電気株式会社 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system

Also Published As

Publication number Publication date
US20130024192A1 (en) 2013-01-24
WO2011122522A1 (ja) 2011-10-06
US9286913B2 (en) 2016-03-15

Similar Documents

Publication Publication Date Title
JP4327241B2 (ja) 音声強調装置および音声強調方法
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
US7536303B2 (en) Audio restoration apparatus and audio restoration method
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
CN110149805A (zh) 双向语音翻译***、双向语音翻译方法和程序
US20070038455A1 (en) Accent detection and correction system
RU2003129075A (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи
WO2011122521A1 (ja) 情報表示システム、情報表示方法及びプログラム
US11727949B2 (en) Methods and apparatus for reducing stuttering
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
US20160034247A1 (en) Extending Content Sources
JP4185866B2 (ja) 音響信号処理装置および音響信号処理方法
CN110910895B (zh) 一种声音处理的方法、装置、设备和介质
KR20150118974A (ko) 음성 처리 장치
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
JP2008040431A (ja) 音声加工装置
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
CN112581935A (zh) 环境感知语音辅助设备以及相关***和方法
JP2009020352A (ja) 音声処理装置およびプログラム
Peng Multisensor Speech Enhancement Technology in Music Synthesizer Design
JP4297433B2 (ja) 音声合成方法及びその装置
CN112331179A (zh) 一种数据处理方法和耳机收纳装置
CN117912478A (zh) 耳机自识别噪声的方法及***
JP6182894B2 (ja) 音響処理装置および音響処理方法
CN118197263A (zh) 声音合成方法、装置、终端设备以及存储介质