JP2021174005A - バリアフリースマート音声システムとその制御方法 - Google Patents

バリアフリースマート音声システムとその制御方法 Download PDF

Info

Publication number
JP2021174005A
JP2021174005A JP2021072552A JP2021072552A JP2021174005A JP 2021174005 A JP2021174005 A JP 2021174005A JP 2021072552 A JP2021072552 A JP 2021072552A JP 2021072552 A JP2021072552 A JP 2021072552A JP 2021174005 A JP2021174005 A JP 2021174005A
Authority
JP
Japan
Prior art keywords
voice
audio
tag
command
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021072552A
Other languages
English (en)
Other versions
JP7422702B2 (ja
Inventor
荘連豪
Lien Hao Chuang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2021174005A publication Critical patent/JP2021174005A/ja
Application granted granted Critical
Publication of JP7422702B2 publication Critical patent/JP7422702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】バリアフリースマート音声システムとその制御方法を提供する。【解決手段】制御補法は、音声オーディオから独立した語意単位とする複数のワードを識別し、識別したワードが、ある標的物または情報の名称、名前、呼称、コードネーム、単一又は複合命令、プログラム、音声メッセージ、録音メッセージ等を示すユーザーが作成した複数の音声タグのうちの1つであるか否かを判断し、比較が成功した音声タグの組み合わせに基づいて、語意タグがデータベースで指向する対象物、プログラムコマンド及び注記説明であるか否かを判断し、その結果に基づいて対応するプログラムを起動するか、遠隔デバイスを作動するようにトリガーする。【選択図】図3

Description

本発明は、音声認識技術に関し、更に詳しくは、音声オーディオから複数の独立した語意単位を識別した後、続けてそれがユーザーが自分で作成した複数の音声タグのうちの1つであるかどうか比較し、比較した音声タグ(ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す)の組み合わせに基づいて音声オーディオが対応する音声命令(音声コードネームともいう)を判断し、対応するプログラムを起動するか、他の被制御デバイスを作動するようにトリガーする「バリアフリースマート音声システムとその制御方法」に関する。
科学技術の発展に伴い、音声識別システムを有しているモバイルデバイスが日に日に普及している。現在多くの音声識別システムは言語理解技術により、ユーザーが自然言語とモバイルデバイスとを直接コミュニケーションさせている。例えば、ユーザーがモバイルデバイスに対し「来週の水曜日の東京行きの航空券を買って、中華航空の」と連続的な音声命令を発する。
しかしながら、前述した従来の音声認識技術では、音声識別システムが音声認識のレベルに達するようにするためには、前記連続的音声命令に対し文法分析(例えば、構文解析器を利用する)及び語意解読(例えば、意味解析器を利用する)を実行し、連続的音声命令の各ワードに対し品詞注記を行い、語幹を抽出し、構文木を構成し、構文木の各語彙に主題役割を付与した後、全音声命令の語意を分析するためには多くの演算量を必要とする。
また、通常このような連続的音声命令の文法構造は、特定の文法規則(統語論及び形態論を含む)の制限を受け、且つ異なる言語の文法構造にも差異があるため、ユーザーが発した連続的音声命令が複雑であったり、冗長であったり、少し話を止めたり、ユーザーが発した文法構造が不正確であったり、個人の発音の差異やユーザーが異なる単一言語及び混成語を使用した場合にも、音声識別システムの識別精度に影響が及び、自然言語処理モデル(NLP)のトレーニングにも一定の難度をもたらした。
さらに、声紋識別技術を採用しなければ、従来の音声識別システムはユーザーの声から特定の動作を実行する権限があるかどうかを識別できなかった。言語理解技術を普遍的に採用している音声識別システムの音声識別のための演算量を減らし、音声識別システムに与える文法構造の影響を低下させ、バリアフリーで使用でき、使用権の認証と秘密保持とを両立し、盗難防止特性を有するオーディオ識別技術を提供することが、解決の待たれる問題であった。
そこで、本発明者は上記の欠点が改善可能と考え、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
本発明は、以上の従来技術の課題を解決する為になされたものである。即ち、本発明の目的は、バリアフリースマート音声システムの制御方法を提供することである。そのステップは、
(1)音声認識ユニットを音声データベースに接続し、音声受信ユニットが受信した音声オーディオに対して音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対して形態論解析を実行し、その中から独立した語意単位とする複数のワードを識別する音声オーディオを分析するステップと、
(2)音声認識ユニットをタグデータベースに接続して複数のワードがモバイルデバイスにより定義されている複数のターゲット音声タグのうちの1つであるかどうか、及びモバイルデバイスにより定義されている複数のコマンド音声タグのうちの1つであるかどうかを判断する音声タグを比較するステップと、
(3)モバイルデバイスのプロセッサが、比較したターゲット音声タグがタグデータベースで指向する対象物、及び比較したコマンド音声タグがタグデータベースで指向するプログラムコマンドに基づいて、モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含む。
上記課題を解決するために、本発明のある態様のバリアフリースマート音声システムは、
モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
前記プロセッサに接続されている通信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの1つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの1つであるか否かを判断し、
前記音声認識ユニットは、前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる。
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
本発明の一実施形態に係るスマート音声システムを模式的に示したブロック図である。 本発明の一実施形態に係るスマート音声システムの情報の流れを示した概略図である。 本発明の一実施形態に係るスマート音声システムの制御方法を示したフローチャート図である。 本発明の音声オーディオのステップを分析する概略図である。 本発明の実施形態を示した概略図(一)である。 本発明の実施形態を示した概略図(二)である。 本発明の他の実施形態(一)の情報の流れを示した概略図である。 本発明の他の実施形態(一)を示した概略図(一)である。 本発明の他の実施形態(一)を示した概略図(二)である。 本発明の他の実施形態(二)を示したブロック図である。 本発明の他の実施形態(三)の方法を示したフローチャート図である。 本発明の他の実施形態(四)の方法を模式的に示したブロック図である。 本発明の他の実施形態(五)を示した概略図である。
本発明における好適な実施の形態について、添付図面を参照して説明する。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また、以下に説明される構成の全てが、本発明の必須要件であるとは限らない。
まず、図1と図2を参照しながら、本発明のバリアフリースマート音声システム10をさらに詳しく説明する。
本発明のバリアフリースマート音声システム10は、下記ユニットを備えている。
(1)モバイルデバイス101のプロセッサ1012に接続され、音声オーディオVの受信に用いられている音声受信ユニット1011。音声受信ユニット1011はモバイルデバイス101のマイクやワイヤレス通信によりモバイルデバイス101と接続するワイヤレスイヤホンでもよい。
(2)プロセッサ1012に接続されている通信ユニット1013。
(3)複数の音声オーディオサンプルを保存し、且つ各音声オーディオサンプル中の各/各組の音声(phone)は独立した語意単位とするワード(word)に対応している音声データベース1021。前述の音声オーディオサンプルは、音声認識ユニット1023が音声オーディオVの各種声母(Initial)及び各種韻母(Final)に基づいて音声オーディオサンプル中から1つまたは複数の音節(Syllable)を識別する。また、前述の音声オーディオサンプルの言語は、中国語、英語、広東語、日本語、韓国語等であるが、但しこれらに限られない。
(4)複数のターゲット音声タグL1及び複数のコマンド音声タグL2を保存しているタグデータベース1022。
(5)通信ユニット1013、音声データベース1021、及びタグデータベース1022とそれぞれ接続されている音声認識ユニット1023。ネットワークNを経由して音声受信ユニット1011から送信された音声オーディオVを受信し、且つ音声オーディオVに対し音声分析を実行し、音声データベース1021の読み取り結果に基づいて、その中から複数の音声(phone)を識別した後、複数の音声に対して形態論解析(morphological)を実行し、その中から独立した複数のワード(Word)を識別する。好ましくは、本発明は前述の複数の音声を識別した後、同時に音声オーディオVに対して音素分析(Phonological Analysis)を実行し、前記音声が属する言語の音素(Phoneme)の帰属を識別する。音素は語義識別機能を有している最小の音声単位であるため、音声認識ユニット1023が複数の音声をワードとして識別するために利用する。
(6)音声認識ユニット1023はタグデータベース1022の読み取り結果に基づいて複数のワードがモバイルデバイス101により定義されている複数のターゲット音声タグL1のうちの1つであるか否か、及びモバイルデバイス101により定義されている複数のコマンド音声タグL2のうちの1つであるか否かを判断する。
(7)音声認識ユニット1023は、通信ユニット1013により、比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、モバイルデバイス101のプロセッサ1012によってモバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる。
(8)前項を受けて、音声受信ユニット1011、プロセッサ1012、及び通信ユニット1013は本実施例では全てモバイルデバイス101上で作動する。
(9)前項を受けて、音声データベース1021、タグデータベース1022、及び音声認識ユニット1023は本実施例では全てサーバー102上で作動する。当然ながら、サーバー102は第二プロセッサを有してもよく、ここでは、その説明を省略する。
図1に示される対象物Oはモバイルデバイス101に保存されている担当者の氏名、担当者のコードネーム、担当者の呼称等の担当者情報、或いは標的物の名称、標的物のコードネーム、標的物の呼称、スケジュール情報、To Do情報、To Doリスト情報、ファイルアドレス情報、ハイパーリンク等の標的物情報であるが、但しこれらに限られない。このほか、対象物OはネットワークNを介してモバイルデバイス101の通信ユニット1013と通信接続する被制御デバイス(図示省略)でもよい。
また、図1に例示されるネットワークNは、例えば、ワイヤレスネットワーク(例えば、3G、4G LTE、Wi-Fi)、有線ネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WA)等のパブリックネットワークまたはプライベートネットワークであるが、但しこれらに限られない。
また、図1に例示されるサーバー102は接続サービスを提供する独立したサーバー、サーバー内に装設されて運用される仮想機械(VM)、バーチャル・プライベート・サーバー(Virtual Private Server)形式で運用されるサーバー、パブリッククラウド、プライベートクラウド、或いはエッジデバイス(edge device)等であるが、但しこれらに限られない。
図1に例示されるプロセッサ1012は、CPU、MPU、MCU、アプリケーションプロセッサ(AP)、組み込み型プロセッサ、或いはASICのうちの1種類でもよい。
また、図1に例示される音声データベース1021及びタグデータベース1022は、それ自体が物理データベースホストやクラウドデータベースであってもよく、或いは、複数のテーブル(Table)形式でサーバー102に保存され、関係データベースまたはNoSQLとしてもよいが、但しこれらに限られない。
図1、図2と図3を参照すれば、バリアフリースマート音声システム10は音声オーディオVの解析に適用され、且つ音声受信ユニット1011と、音声データベース1021と、タグデータベース1022と、音声認識ユニット1023と、モバイルデバイス101のプロセッサ1012と、を備えている。バリアフリースマート音声システムの制御方法Sは、下記ステップを含む。
(1)音声オーディオを分析する(ステップS10)では、音声認識ユニット1023を音声データベース1021に接続し、音声受信ユニット1011が受信した音声オーディオVに対し音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対し形態論解析を実行し、その中から独立した語意単位とする複数のワード(word)を識別する。例えば、「本」、「book」、「男性」、「boy」等は全て単独のワードである。このステップに関し、「図4」の音声オーディオを分析するステップの概略図を参照すると、「図4」に示されるように、音声受信ユニット1011が受信した音声オーディオVは、「阿部社長が掛ける」、「阿部社長に掛ける」、「阿部主任に掛ける」、「阿部社長がCallする」、「阿部社長にCallする」、「阿部主任がCallする」、「阿部所長が掛ける(▲びん▼南語t'au'-ke)」、「阿部所長に掛ける」、或いは「阿部所長がCallする」という複数の音声に識別され、実際の表現に文法的間違いがあっても、全て「阿部社長」及び「掛ける」、「阿部所長」及び「掛ける」、「阿部主任」及び「掛ける」、「阿部社長」及び「電話を掛ける」、「阿部主任」及び「Callする」、「阿部所長」及び「Callする」、或いは「阿部社長」及び「Callする」から構成されている複数のワードであるとさらに識別される。同様に、音声オーディオVが「阿部社長の集合写真を見せる」、「阿部社長との集合写真を見せる」、「阿部所長の集合写真を見せる」、「阿部所長との集合写真を見せる」、「阿部社長との集合写真をShowする」、「Showする阿部社長との集合写真」、「阿部所長の集合写真をShowする」、或いは「阿部所長との集合写真をShowする」という複数の音声に識別される例では、実際の表現に文法的間違いがあっても、全て「阿部社長」、「集合写真」及び「見せる」、「阿部所長」、「集合写真」及び「見せる」、「阿部社長」、「集合写真」及び「Showする」、或いは「阿部所長」、「集合写真」及び「Showする」で構成されている複数のワードであるとさらに識別される。これは例示に過ぎず、これに制限するものではない。
(2)音声タグを比較する(ステップS20)では、図4の音声オーディオを分析するステップの概略図を参照すると、図4に示されるように、音声認識ユニット1023をタグデータベース1022に接続し、前記複数のワードがモバイルデバイス101により定義されている複数のターゲット音声タグL1のうちの1つであるか否か、及びモバイルデバイス101により定義されている複数のコマンド音声タグL2のうちの1つであるか否かを判断する。より具体的には、音声オーディオVが「阿部社長」+「掛ける」、「阿部所長」+「掛ける」、「阿部社長」+「電話を掛ける」、「阿部社長」+「Callする」、「阿部所長」+「Callする」で構成される複数のワードであると識別される例では、ステップS20において音声認識ユニット1023はターゲット音声タグL1の「阿部社長」、及びコマンド音声タグL2の「Callする」または「掛ける」を比較し、或いは他のターゲット音声タグL1の「阿部所長」、及びコマンド音声タグL2「Callする」または「掛ける」を比較する。同様に、音声オーディオVが「阿部社長」+「集合写真」+「見せる」、「阿部所長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット1023はターゲット音声タグL1の「阿部社長の集合写真」及びコマンド音声タグL2の「見せる」或いは「Showする」を比較し、または他のターゲット音声タグL1の「阿部所長の集合写真」及びコマンド音声タグL2の「見せる」または「Showする」を比較する。ここでは、音声認識ユニット1023のターゲット音声タグL1及びコマンド音声タグL2に対する比較結果が符合している場合、続けてステップS30を実行し、符合していない場合、オーディオが識別不能であることを示し、ステップS10またはステップS20を再度実行する。
(3)対応する音声コマンドを実行する(ステップS30)では、プロセッサ1012は、比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、モバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる。より具体的には、音声オーディオVが「阿部社長」+「掛ける」、「阿部社長」+「電話を掛ける」、或いは「阿部社長」+「Callする」で構成される複数のワードであると識別される例では、ステップS30において音声認識ユニット1023が比較したターゲット音声タグL1の「阿部社長」に基づいて、モバイルデバイス101の対象物Oの「阿部太郎の連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Callする」または「掛ける」に基づいて、プログラムコマンドIの「対象物に対しモバイルデバイス101にインストールされている電話アプリケーションプログラム(APP)を実行する」に対応しているか否か判断し、且つ実行し、ここでは、図5Aに示す。同様に、音声オーディオVが「阿部社長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット1023が比較したターゲット音声タグL1の「阿部社長の集合写真」に基づいてモバイルデバイス101の対象物Oの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Showする」または「見せる」に基づいてプログラムコマンドIの「モバイルデバイス101にインストールされているフォトビューワープログラムを実行する」に対応しているか否か判断し、実行する(図5B参照)。
また、図6A乃至図6Cを参照すれば、本実施例に係る音声認識ユニット1023はステップS20(音声タグを比較する)の実行時に、音声オーディオVにより識別された前記複数のワードがモバイルデバイス101により定義されている注記ボイスタグL3を含んでいるか否か判断し、含んでいる場合、モバイルデバイス101のプロセッサ1012は、注記ボイスタグL3がタグデータベース1022で指向する注記説明Rに基づいて、プログラムコマンドIまたは対象物Oの内容を調整する。より具体的には、音声オーディオVが「阿部社長」+「掛ける」+「ホーム」、或いは「阿部社長」+「Callする」+「ホーム」で構成される複数のワードである例では、音声認識ユニット1023がステップS20(音声タグを比較する)において、ターゲット音声タグL1の「阿部社長」、コマンド音声タグL2の「掛ける」或いは「Callする」、及び注記ボイスタグL3の「ホーム」を比較する。これにより、音声認識ユニット1023はステップS30(対応する音声コマンドを実行する)を実行する際に、比較したターゲット音声タグL1の「阿部社長」及び注記ボイスタグL3の「ホーム」に基づいてモバイルデバイス101の対象物Oの「阿部太郎のホームの連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Callする」または「掛ける」に基づいてプログラムコマンドIの「対象物に対しモバイルデバイス101にインストールされている電話アプリケーションプログラム(APP)を実行する」に対応しているか否か判断し、且つ実行し、ここでは図6Bに示されるように、注記ボイスタグL3が対象物Oの内容を調整する例を示す。同様に、「阿部社長」+「集合写真」+「見せる」+「メモする」、或いは「阿部社長」+「集合写真」+「Showする」+「注釈する」で構成される複数のワードの例では、ステップS20(音声タグを比較する)において音声認識ユニット1023がターゲット音声タグL1の「阿部社長の集合写真」、コマンド音声タグL2の「見せる」或いは「Showする」、及び注記ボイスタグL3の「注釈する」或いは「メモする」を比較することで、ステップS30(対応する音声コマンドを実行する)の実行時に音声認識ユニット1023は比較したターゲット音声タグL1の「阿部社長の集合写真」に基づいてモバイルデバイス101の対象物Oの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Showする」または「見せる」、及び比較した注記ボイスタグL3の「注釈する」或いは「メモする」に基づいて、プログラムコマンドIの「モバイルデバイス101にインストールされているフォトビューワープログラムを実行し、対象物に関連する注釈情報を再生または表示する」に対応しているか否か判断し、且つ実行し、ここでは、図6Cに示されるように、注記ボイスタグL3がプログラムコマンドIの内容を調整する例を示す。
図7は図1〜図3に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システム10が複数のプログラムコマンドを保存し、且つ音声認識ユニット1023と接続している権限検証ユニット1024をさらに備え、権限検証ユニット1024は比較したターゲット音声タグL1、比較したコマンド音声タグL2、及び音声認識ユニット1023によるタグデータベース1022の読み取り結果に基づいて、音声オーディオVが対応する権限レベルを判断し、音声認識ユニット1023がモバイルデバイス101の現在の権限レベルに基づいてプログラムコマンドIを実行するかどうか判断する。換言すれば、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「使用権を確認する」(ステップS25)ステップをさらに含み、権限検証ユニット1024が比較したターゲット音声タグL1、比較したコマンド音声タグL2、及び音声認識ユニット1023によるタグデータベース1022の読み取り結果に基づいて、音声オーディオVが対応する権限レベルを判断し、プロセッサ1012がステップ30(対応する音声コマンドを実行する)の実行時に、モバイルデバイス101の現在の権限レベルに基づいてプログラムコマンドIを実行するかどうかを判断する。例えば、権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2が、タグデータベース1022に保存されているテーブル中では第一レベル(最高レベル)に属すると判断することで、モバイルデバイス101の現在の権限レベルが所有者であると判断する。また、プログラムコマンドIの権限レベルが第一レベルである場合、モバイルデバイス101が現在プログラムコマンドIを実行する権限を有していると判断し、第二レベル及び第三レベルの権限レベルでは、例えば家族ユーザーであり、第一レベルに属するプログラムコマンドIを実行できない。権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2がタグデータベース1022に保存されているテーブル中では第二レベルに属すると判断し、且つプログラムコマンドIの権限レベルが第三レベルまたは第二レベルである場合、モバイルデバイス101は現在プログラムコマンドIを実行する権限を有していると判断する。相対的に、権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2がタグデータベース1022に保存されているテーブル中では第三レベルに属すると判断し、且つプログラムコマンドIの権限レベルが第二レベルである場合、モバイルデバイス101は現在プログラムコマンドIを実行する権限を有していないと判断し、以降も同様である。
図8は、図1〜図3に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「起動音声を検出する」(ステップS5)ステップを含み、音声認識ユニット1023はまず音声受信ユニット1011が予め定義されている「シロ」、「秘書」等の起動オーディオを受信したかどうか判断し、受信した場合、起動オーディオを起動操作と見なし、続けて音声オーディオVに対しステップS10(音声オーディオを分析する)を実行し、音声オーディオVに対し音声分析及び形態論解析を実行する。また、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「スリープ音声を検出する」(ステップS35)ステップをさらに含み、音声認識ユニット1023は音声受信ユニット1011が予め定義されている「シロ、終了」、「秘書、休憩」等のスリープオーディオを受信したかどうか判断し、受信した場合、スリープオーディオをスリープ操作と見なし、音声オーディオVに対するステップS10(音声オーディオを分析する)の実行を停止する。即ち、音声オーディオVに対する音声分析及び形態論解析を実行を一時停止し、続けてステップS5のみ実行可能にする。また、ステップS35は、ステップS5、ステップS10、或いはステップS20の後に続けて実行され、且つ図8に例示する順序に限られない。
図9と図1〜図3とを比較すると、本実施例に係るバリアフリースマート音声システム10は、音声データベース1021、タグデータベース1022、音声認識ユニット1023、及び権限検証ユニット1024が全てモバイルデバイス101に内設されている。本実施例に係るバリアフリースマート音声システム10は、通信ネットワークがない状況でも、ユーザーがモバイルデバイス101により直接音声命令の識別及び実行を即時完遂可能である。
図10と図1乃至図3を参照すれば、本実施例に係るバリアフリースマート音声システム10は、音声認識ユニット1023が比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、プロセッサ1012によって、モバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる場合、対象物Oは被制御デバイス103であり、例えば、モバイルデバイス101以外の電動ドア、ライト、テレビ、電子機器等である。一例を挙げると、ユーザーがモバイルデバイス101を操作し、音声受信ユニット1011に音声オーディオVを受信させた後、音声オーディオVが音声認識ユニット1023により「開く」(コマンド音声タグL2に対応する)+「テレビ、TVS」(ターゲット音声タグL1に対応する)で構成される複数のワードであると識別され、且つ音声オーディオVの文法構造が正確であるかどうかに拘わらず、全て音声認識ユニット1023によりターゲット音声タグL1に対応する対象物Oの「テレビ、TVSニュースチャンネル」及びコマンド音声タグL2に対応するプログラムコマンドIの「モバイルデバイス101の通信ユニット1013により、ワイヤレス方式でスマートテレビを点ける」として比較される。但し、これは例示にすぎず、これに制限するものではない。
続いて、本発明は前述のバリアフリースマート音声システムの制御方法Sを実行するパソコンのプログラム製品をさらに提供する。パソコンシステムには前記パソコンプログラム製品の複数のプログラムコマンドがインストールされた後、前述のバリアフリースマート音声システムの制御方法SのステップS5、ステップS10、ステップS20、ステップS25、ステップS30、及びステップS35を少なくとも完遂する。
続いて、本発明を実施すると、下記の有利な効果を少なくとも達成する。
(1)音声オーディオの文法規則が正確であるか否かに拘わらず、本発明はユーザーが作成した音声タグの組み合わせ(ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す)を比較することで、特定の対象物及びプログラムコマンドに対応可能かどうか識別可能である。従来の自然言語理解(NLU)または自然言語処理(NLP)と比べると、演算量を効果的に減らし、システムの処理速度を高速化し、システムの判断ミスを最小限にし、異なる言語間の音声翻訳差異及びミスを排除する。また、言語、口調、音色の制限を受けない。よって、本発明は構音障害者のオーディオ、さらには子供、一般成人、老齢者等の健常者の音声オーディオも識別可能であり、バリアフリーな使用を達成させる。
(2)本発明はユーザーが作成した音声タグの組み合わせを比較し、同時に音声オーディオの現在の権限レベルを判断し、検証及びオーディオ暗号化に類する技術を有している。第三者がユーザーが作成した音声タグの組み合わせを知らず、本来のユーザーからの音声オーディオではない場合、音声オーディオを発してモバイルデバイスの特定の機能を実行するように駆動させたり、モバイルデバイス以外の被制御デバイスを起動することはできない。
上記説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或いは範囲を限縮するように解すべきではない。また、本発明の各部構成は、上記実施例に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。
10 バリアフリースマート音声システム
101 モバイルデバイス
1011 音声受信ユニット
1012 プロセッサ
1013 通信ユニット
102 サーバー
1021 音声データベース
1022 タグデータベース
1023 音声認識ユニット
1024 権限検証ユニット
103 被制御デバイス
V 音声オーディオ
Phone 音声
Word ワード
L1 ターゲット音声タグ
L2 コマンド音声タグ
L3 注記ボイスタグ
O 対象物
I プログラムコマンド
R 注記説明
N ネットワーク
S バリアフリースマート音声システムの制御方法
S5 起動音声を検出する
S10 音声オーディオを分析する
S20 音声タグを比較する
S25 使用権を確認する
S30 対応する音声コマンドを実行する
S35 スリープ音声を検出する

Claims (10)

  1. オーディオの解析に適用し、音声受信ユニットと、音声データベースと、タグデータベースと、音声認識ユニットと、権限検証ユニットと、モバイルデバイスのプロセッサと、を備えているバリアフリースマート音声システムの制御方法であって、
    前記音声認識ユニットを前記音声データベースに接続し、前記音声受信ユニットが受信した前記音声オーディオに対し音声分析を実行し、その中から複数の音声を識別した後、前記複数の音声に対し形態論解析を実行し、その中から独立した語意単位とする複数のワードを識別する音声オーディオを分析するステップと、
    前記音声認識ユニットを前記タグデータベースに接続し、前記複数のワードが前記モバイルデバイスにより定義されている複数のターゲット音声タグのうちの1つであるかどうか、及び前記モバイルデバイスにより定義されている複数のコマンド音声タグのうちの1つであるかどうかを判断する音声タグを比較するステップと、
    前記プロセッサが、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物、及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含むことを特徴とするバリアフリースマート音声システムの制御方法。
  2. 前記音声認識ユニットが前記音声受信ユニットが予め定義されている起動オーディオを受信したかどうかを判断し、受信した場合、前記起動オーディオを起動操作と見なし、続けて前記音声オーディオに対し前記オーディオ分析ステップを実行する起動音声を検出するステップをさらに含むことを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
  3. 前記音声タグを比較するステップの実行時に、前記音声認識ユニットが前記音声オーディオから識別した前記複数のワードが前記モバイルデバイスにより定義されている注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンドまたは前記対象物の内容を調整することを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
  4. 権限検証ユニットが、比較した前記ターゲット音声タグ及び比較した前記コマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記プロセッサが前記対応する音声コマンドを実行するステップの実行時に、前記モバイルデバイスに現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定する使用権を確認するステップをさらに含むことを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
  5. 前記音声認識ユニットは前記音声受信ユニットが予め定義されているスリープオーディオを受信したかどうかを判断し、受信した場合、前記スリープオーディオをスリープ操作と見なし、前記音声オーディオに対する前記オーディオ分析ステップの実行を停止するスリープ音声を検出するステップをさらに含むことを特徴とする請求項1または2に記載のバリアフリースマート音声システムの制御方法。
  6. モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
    前記プロセッサに接続されている通信ユニットと、
    複数の音声オーディオサンプルを保存している音声データベースと、
    複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
    前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
    前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの1つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの1つであるか否かを判断し、
    前記音声認識ユニットは前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。
  7. 前記音声認識ユニットは前記音声受信ユニットが予め定義されている起動オーディオ及びスリープオーディオを受信したかどうか判断し、前記起動オーディオを受信した場合、続けて前記音声オーディオに対し前記音声分析及び前記形態論解析を実行し、前記スリープオーディオを受信した場合、前記音声オーディオに対する前記音声分析及び前記形態論解析の実行を停止することを特徴とする請求項6に記載のバリアフリースマート音声システム。
  8. 前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記音声オーディオが識別した前記複数のワードが前記モバイルデバイスにより定義された注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンド或いは前記対象物の内容を調整することを特徴とする請求項6に記載のバリアフリースマート音声システム。
  9. 権限検証ユニットをさらに備え、前記音声認識ユニットと接続され、比較した前記ターゲット音声タグ及び比較したコマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記音声認識ユニットが前記プロセッサに前記モバイルデバイスの現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定することを特徴とする請求項6に記載のバリアフリースマート音声システム。
  10. プロセッサを有しているモバイルデバイスに適用するバリアフリースマート音声システムであって、
    前記プロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
    複数の音声オーディオサンプルを保存している音声データベースと、
    複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
    前記音声データベース及び前記タグデータベースとそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信すると共に前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
    前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている複数のターゲット音声タグのうちの1つであるかどうか、及び前記モバイルデバイスにより定義されている複数のコマンド音声タグのうちの1つであるかどうかを判断し、
    判断結果が符合した場合、前記音声認識ユニットが比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。
JP2021072552A 2020-04-22 2021-04-22 バリアフリースマート音声システムとその制御方法 Active JP7422702B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW109113480A TWI752474B (zh) 2020-04-22 2020-04-22 無障礙智能語音系統及其控制方法
TW109113480 2020-04-22

Publications (2)

Publication Number Publication Date
JP2021174005A true JP2021174005A (ja) 2021-11-01
JP7422702B2 JP7422702B2 (ja) 2024-01-26

Family

ID=78222657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021072552A Active JP7422702B2 (ja) 2020-04-22 2021-04-22 バリアフリースマート音声システムとその制御方法

Country Status (3)

Country Link
US (1) US11705126B2 (ja)
JP (1) JP7422702B2 (ja)
TW (1) TWI752474B (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2004301893A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声認識装置の制御方法
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
WO2017145373A1 (ja) * 2016-02-26 2017-08-31 三菱電機株式会社 音声認識装置
JP2020042420A (ja) * 2018-09-07 2020-03-19 株式会社牧野フライス製作所 工作機械の制御装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236699A1 (en) * 2001-07-10 2004-11-25 American Express Travel Related Services Company, Inc. Method and system for hand geometry recognition biometrics on a fob
US8171298B2 (en) * 2002-10-30 2012-05-01 International Business Machines Corporation Methods and apparatus for dynamic user authentication using customizable context-dependent interaction across multiple verification objects
CN104462262B (zh) * 2014-11-21 2017-10-31 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端
CN110750774B (zh) * 2019-10-21 2021-12-03 深圳众赢维融科技有限公司 身份识别的方法及装置
TWM601446U (zh) * 2020-04-22 2020-09-11 莊連豪 無障礙智能語音系統

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2004301893A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声認識装置の制御方法
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
WO2017145373A1 (ja) * 2016-02-26 2017-08-31 三菱電機株式会社 音声認識装置
JP2020042420A (ja) * 2018-09-07 2020-03-19 株式会社牧野フライス製作所 工作機械の制御装置

Also Published As

Publication number Publication date
TWI752474B (zh) 2022-01-11
TW202141466A (zh) 2021-11-01
JP7422702B2 (ja) 2024-01-26
US11705126B2 (en) 2023-07-18
US20210335359A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
US11289100B2 (en) Selective enrollment with an automated assistant
US10733978B2 (en) Operating method for voice function and electronic device supporting the same
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
US20240071382A1 (en) Temporary account association with voice-enabled devices
US11704940B2 (en) Enrollment with an automated assistant
US11966764B2 (en) Adapting client application of feature phone based on experiment parameters
US20160343376A1 (en) Voice Recognition System of a Robot System and Method Thereof
US7487096B1 (en) Method to automatically enable closed captioning when a speaker has a heavy accent
CN107331400A (zh) 一种声纹识别性能提升方法、装置、终端及存储介质
US10741174B2 (en) Automatic language identification for speech
CN109360563B (zh) 一种语音控制方法、装置、存储介质及空调
CN108735210A (zh) 一种语音控制方法及终端
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及***
CN106649253B (zh) 基于后验证的辅助控制方法及***
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
US20180350360A1 (en) Provide non-obtrusive output
KR101775532B1 (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
JP2021174005A (ja) バリアフリースマート音声システムとその制御方法
TWM601446U (zh) 無障礙智能語音系統
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
CN113870857A (zh) 一种语音控制场景方法和语音控制场景***
CN113852849A (zh) 一种酒店客房智能管理方法
CN113160821A (zh) 一种基于语音识别的控制方法及装置
CN113539252A (zh) 无障碍智能语音***及其控制方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230930

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150