JP2021174005A

JP2021174005A - バリアフリースマート音声システムとその制御方法

Info

Publication number: JP2021174005A
Application number: JP2021072552A
Authority: JP
Inventors: 荘連豪; Lien Hao Chuang
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-04-22
Filing date: 2021-04-22
Publication date: 2021-11-01
Anticipated expiration: 2041-04-22
Also published as: TWI752474B; TW202141466A; JP7422702B2; US11705126B2; US20210335359A1

Abstract

【課題】バリアフリースマート音声システムとその制御方法を提供する。【解決手段】制御補法は、音声オーディオから独立した語意単位とする複数のワードを識別し、識別したワードが、ある標的物または情報の名称、名前、呼称、コードネーム、単一又は複合命令、プログラム、音声メッセージ、録音メッセージ等を示すユーザーが作成した複数の音声タグのうちの１つであるか否かを判断し、比較が成功した音声タグの組み合わせに基づいて、語意タグがデータベースで指向する対象物、プログラムコマンド及び注記説明であるか否かを判断し、その結果に基づいて対応するプログラムを起動するか、遠隔デバイスを作動するようにトリガーする。【選択図】図３

Description

本発明は、音声認識技術に関し、更に詳しくは、音声オーディオから複数の独立した語意単位を識別した後、続けてそれがユーザーが自分で作成した複数の音声タグのうちの１つであるかどうか比較し、比較した音声タグ（ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す）の組み合わせに基づいて音声オーディオが対応する音声命令（音声コードネームともいう）を判断し、対応するプログラムを起動するか、他の被制御デバイスを作動するようにトリガーする「バリアフリースマート音声システムとその制御方法」に関する。

科学技術の発展に伴い、音声識別システムを有しているモバイルデバイスが日に日に普及している。現在多くの音声識別システムは言語理解技術により、ユーザーが自然言語とモバイルデバイスとを直接コミュニケーションさせている。例えば、ユーザーがモバイルデバイスに対し「来週の水曜日の東京行きの航空券を買って、中華航空の」と連続的な音声命令を発する。

しかしながら、前述した従来の音声認識技術では、音声識別システムが音声認識のレベルに達するようにするためには、前記連続的音声命令に対し文法分析（例えば、構文解析器を利用する）及び語意解読（例えば、意味解析器を利用する）を実行し、連続的音声命令の各ワードに対し品詞注記を行い、語幹を抽出し、構文木を構成し、構文木の各語彙に主題役割を付与した後、全音声命令の語意を分析するためには多くの演算量を必要とする。

また、通常このような連続的音声命令の文法構造は、特定の文法規則（統語論及び形態論を含む）の制限を受け、且つ異なる言語の文法構造にも差異があるため、ユーザーが発した連続的音声命令が複雑であったり、冗長であったり、少し話を止めたり、ユーザーが発した文法構造が不正確であったり、個人の発音の差異やユーザーが異なる単一言語及び混成語を使用した場合にも、音声識別システムの識別精度に影響が及び、自然言語処理モデル（NLP）のトレーニングにも一定の難度をもたらした。

さらに、声紋識別技術を採用しなければ、従来の音声識別システムはユーザーの声から特定の動作を実行する権限があるかどうかを識別できなかった。言語理解技術を普遍的に採用している音声識別システムの音声識別のための演算量を減らし、音声識別システムに与える文法構造の影響を低下させ、バリアフリーで使用でき、使用権の認証と秘密保持とを両立し、盗難防止特性を有するオーディオ識別技術を提供することが、解決の待たれる問題であった。

そこで、本発明者は上記の欠点が改善可能と考え、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。

本発明は、以上の従来技術の課題を解決する為になされたものである。即ち、本発明の目的は、バリアフリースマート音声システムの制御方法を提供することである。そのステップは、
（１）音声認識ユニットを音声データベースに接続し、音声受信ユニットが受信した音声オーディオに対して音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対して形態論解析を実行し、その中から独立した語意単位とする複数のワードを識別する音声オーディオを分析するステップと、
（２）音声認識ユニットをタグデータベースに接続して複数のワードがモバイルデバイスにより定義されている複数のターゲット音声タグのうちの１つであるかどうか、及びモバイルデバイスにより定義されている複数のコマンド音声タグのうちの１つであるかどうかを判断する音声タグを比較するステップと、
（３）モバイルデバイスのプロセッサが、比較したターゲット音声タグがタグデータベースで指向する対象物、及び比較したコマンド音声タグがタグデータベースで指向するプログラムコマンドに基づいて、モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含む。

上記課題を解決するために、本発明のある態様のバリアフリースマート音声システムは、
モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
前記プロセッサに接続されている通信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの１つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの１つであるか否かを判断し、
前記音声認識ユニットは、前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる。

本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。

本発明の一実施形態に係るスマート音声システムを模式的に示したブロック図である。本発明の一実施形態に係るスマート音声システムの情報の流れを示した概略図である。本発明の一実施形態に係るスマート音声システムの制御方法を示したフローチャート図である。本発明の音声オーディオのステップを分析する概略図である。本発明の実施形態を示した概略図（一）である。本発明の実施形態を示した概略図（二）である。本発明の他の実施形態（一）の情報の流れを示した概略図である。本発明の他の実施形態（一）を示した概略図（一）である。本発明の他の実施形態（一）を示した概略図（二）である。本発明の他の実施形態（二）を示したブロック図である。本発明の他の実施形態（三）の方法を示したフローチャート図である。本発明の他の実施形態（四）の方法を模式的に示したブロック図である。本発明の他の実施形態（五）を示した概略図である。

本発明における好適な実施の形態について、添付図面を参照して説明する。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また、以下に説明される構成の全てが、本発明の必須要件であるとは限らない。

まず、図１と図２を参照しながら、本発明のバリアフリースマート音声システム１０をさらに詳しく説明する。

本発明のバリアフリースマート音声システム１０は、下記ユニットを備えている。
（１）モバイルデバイス１０１のプロセッサ１０１２に接続され、音声オーディオＶの受信に用いられている音声受信ユニット１０１１。音声受信ユニット１０１１はモバイルデバイス１０１のマイクやワイヤレス通信によりモバイルデバイス１０１と接続するワイヤレスイヤホンでもよい。
（２）プロセッサ１０１２に接続されている通信ユニット１０１３。
（３）複数の音声オーディオサンプルを保存し、且つ各音声オーディオサンプル中の各／各組の音声（phone）は独立した語意単位とするワード（word）に対応している音声データベース１０２１。前述の音声オーディオサンプルは、音声認識ユニット１０２３が音声オーディオＶの各種声母（Initial）及び各種韻母（Final）に基づいて音声オーディオサンプル中から１つまたは複数の音節（Syllable）を識別する。また、前述の音声オーディオサンプルの言語は、中国語、英語、広東語、日本語、韓国語等であるが、但しこれらに限られない。
（４）複数のターゲット音声タグＬ１及び複数のコマンド音声タグＬ２を保存しているタグデータベース１０２２。
（５）通信ユニット１０１３、音声データベース１０２１、及びタグデータベース１０２２とそれぞれ接続されている音声認識ユニット１０２３。ネットワークＮを経由して音声受信ユニット１０１１から送信された音声オーディオＶを受信し、且つ音声オーディオＶに対し音声分析を実行し、音声データベース１０２１の読み取り結果に基づいて、その中から複数の音声（phone）を識別した後、複数の音声に対して形態論解析（morphological）を実行し、その中から独立した複数のワード（Word）を識別する。好ましくは、本発明は前述の複数の音声を識別した後、同時に音声オーディオＶに対して音素分析（Phonological Analysis）を実行し、前記音声が属する言語の音素（Phoneme）の帰属を識別する。音素は語義識別機能を有している最小の音声単位であるため、音声認識ユニット１０２３が複数の音声をワードとして識別するために利用する。
（６）音声認識ユニット１０２３はタグデータベース１０２２の読み取り結果に基づいて複数のワードがモバイルデバイス１０１により定義されている複数のターゲット音声タグＬ１のうちの１つであるか否か、及びモバイルデバイス１０１により定義されている複数のコマンド音声タグＬ２のうちの１つであるか否かを判断する。
（７）音声認識ユニット１０２３は、通信ユニット１０１３により、比較したターゲット音声タグＬ１がタグデータベース１０２２で指向する対象物Ｏ及び比較したコマンド音声タグＬ２がタグデータベース１０２２で指向するプログラムコマンドＩに基づいて、モバイルデバイス１０１のプロセッサ１０１２によってモバイルデバイス１０１に対象物Ｏに対するプログラムコマンドＩを実行させる。
（８）前項を受けて、音声受信ユニット１０１１、プロセッサ１０１２、及び通信ユニット１０１３は本実施例では全てモバイルデバイス１０１上で作動する。
（９）前項を受けて、音声データベース１０２１、タグデータベース１０２２、及び音声認識ユニット１０２３は本実施例では全てサーバー１０２上で作動する。当然ながら、サーバー１０２は第二プロセッサを有してもよく、ここでは、その説明を省略する。

図１に示される対象物Ｏはモバイルデバイス１０１に保存されている担当者の氏名、担当者のコードネーム、担当者の呼称等の担当者情報、或いは標的物の名称、標的物のコードネーム、標的物の呼称、スケジュール情報、To Do情報、To Doリスト情報、ファイルアドレス情報、ハイパーリンク等の標的物情報であるが、但しこれらに限られない。このほか、対象物ＯはネットワークＮを介してモバイルデバイス１０１の通信ユニット１０１３と通信接続する被制御デバイス（図示省略）でもよい。

また、図１に例示されるネットワークＮは、例えば、ワイヤレスネットワーク（例えば、3G、4G LTE、Wi-Fi）、有線ネットワーク、ローカルエリアネットワーク（LAN）、ワイドエリアネットワーク（WA）等のパブリックネットワークまたはプライベートネットワークであるが、但しこれらに限られない。

また、図１に例示されるサーバー１０２は接続サービスを提供する独立したサーバー、サーバー内に装設されて運用される仮想機械（VM）、バーチャル・プライベート・サーバー（Virtual Private Server）形式で運用されるサーバー、パブリッククラウド、プライベートクラウド、或いはエッジデバイス（edge device）等であるが、但しこれらに限られない。

図１に例示されるプロセッサ１０１２は、CPU、MPU、MCU、アプリケーションプロセッサ（AP）、組み込み型プロセッサ、或いはASICのうちの１種類でもよい。

また、図１に例示される音声データベース１０２１及びタグデータベース１０２２は、それ自体が物理データベースホストやクラウドデータベースであってもよく、或いは、複数のテーブル（Table）形式でサーバー１０２に保存され、関係データベースまたはNoSQLとしてもよいが、但しこれらに限られない。

図１、図２と図３を参照すれば、バリアフリースマート音声システム１０は音声オーディオＶの解析に適用され、且つ音声受信ユニット１０１１と、音声データベース１０２１と、タグデータベース１０２２と、音声認識ユニット１０２３と、モバイルデバイス１０１のプロセッサ１０１２と、を備えている。バリアフリースマート音声システムの制御方法Ｓは、下記ステップを含む。
（１）音声オーディオを分析する（ステップＳ１０）では、音声認識ユニット１０２３を音声データベース１０２１に接続し、音声受信ユニット１０１１が受信した音声オーディオＶに対し音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対し形態論解析を実行し、その中から独立した語意単位とする複数のワード（word）を識別する。例えば、「本」、「book」、「男性」、「boy」等は全て単独のワードである。このステップに関し、「図４」の音声オーディオを分析するステップの概略図を参照すると、「図４」に示されるように、音声受信ユニット１０１１が受信した音声オーディオＶは、「阿部社長が掛ける」、「阿部社長に掛ける」、「阿部主任に掛ける」、「阿部社長がCallする」、「阿部社長にCallする」、「阿部主任がCallする」、「阿部所長が掛ける（▲びん▼南語t'au'-ke）」、「阿部所長に掛ける」、或いは「阿部所長がCallする」という複数の音声に識別され、実際の表現に文法的間違いがあっても、全て「阿部社長」及び「掛ける」、「阿部所長」及び「掛ける」、「阿部主任」及び「掛ける」、「阿部社長」及び「電話を掛ける」、「阿部主任」及び「Callする」、「阿部所長」及び「Callする」、或いは「阿部社長」及び「Callする」から構成されている複数のワードであるとさらに識別される。同様に、音声オーディオＶが「阿部社長の集合写真を見せる」、「阿部社長との集合写真を見せる」、「阿部所長の集合写真を見せる」、「阿部所長との集合写真を見せる」、「阿部社長との集合写真をShowする」、「Showする阿部社長との集合写真」、「阿部所長の集合写真をShowする」、或いは「阿部所長との集合写真をShowする」という複数の音声に識別される例では、実際の表現に文法的間違いがあっても、全て「阿部社長」、「集合写真」及び「見せる」、「阿部所長」、「集合写真」及び「見せる」、「阿部社長」、「集合写真」及び「Showする」、或いは「阿部所長」、「集合写真」及び「Showする」で構成されている複数のワードであるとさらに識別される。これは例示に過ぎず、これに制限するものではない。
（２）音声タグを比較する（ステップＳ２０）では、図４の音声オーディオを分析するステップの概略図を参照すると、図４に示されるように、音声認識ユニット１０２３をタグデータベース１０２２に接続し、前記複数のワードがモバイルデバイス１０１により定義されている複数のターゲット音声タグＬ１のうちの１つであるか否か、及びモバイルデバイス１０１により定義されている複数のコマンド音声タグＬ２のうちの１つであるか否かを判断する。より具体的には、音声オーディオＶが「阿部社長」+「掛ける」、「阿部所長」+「掛ける」、「阿部社長」+「電話を掛ける」、「阿部社長」+「Callする」、「阿部所長」+「Callする」で構成される複数のワードであると識別される例では、ステップＳ２０において音声認識ユニット１０２３はターゲット音声タグＬ１の「阿部社長」、及びコマンド音声タグＬ２の「Callする」または「掛ける」を比較し、或いは他のターゲット音声タグＬ１の「阿部所長」、及びコマンド音声タグＬ２「Callする」または「掛ける」を比較する。同様に、音声オーディオＶが「阿部社長」+「集合写真」+「見せる」、「阿部所長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット１０２３はターゲット音声タグＬ１の「阿部社長の集合写真」及びコマンド音声タグＬ２の「見せる」或いは「Showする」を比較し、または他のターゲット音声タグＬ１の「阿部所長の集合写真」及びコマンド音声タグＬ２の「見せる」または「Showする」を比較する。ここでは、音声認識ユニット１０２３のターゲット音声タグＬ１及びコマンド音声タグＬ２に対する比較結果が符合している場合、続けてステップＳ３０を実行し、符合していない場合、オーディオが識別不能であることを示し、ステップＳ１０またはステップＳ２０を再度実行する。
（３）対応する音声コマンドを実行する（ステップＳ３０）では、プロセッサ１０１２は、比較したターゲット音声タグＬ１がタグデータベース１０２２で指向する対象物Ｏ及び比較したコマンド音声タグＬ２がタグデータベース１０２２で指向するプログラムコマンドＩに基づいて、モバイルデバイス１０１に対象物Ｏに対するプログラムコマンドＩを実行させる。より具体的には、音声オーディオＶが「阿部社長」+「掛ける」、「阿部社長」+「電話を掛ける」、或いは「阿部社長」+「Callする」で構成される複数のワードであると識別される例では、ステップＳ３０において音声認識ユニット１０２３が比較したターゲット音声タグＬ１の「阿部社長」に基づいて、モバイルデバイス１０１の対象物Ｏの「阿部太郎の連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグＬ２の「Callする」または「掛ける」に基づいて、プログラムコマンドＩの「対象物に対しモバイルデバイス１０１にインストールされている電話アプリケーションプログラム（APP）を実行する」に対応しているか否か判断し、且つ実行し、ここでは、図５Ａに示す。同様に、音声オーディオＶが「阿部社長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット１０２３が比較したターゲット音声タグＬ１の「阿部社長の集合写真」に基づいてモバイルデバイス１０１の対象物Ｏの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグＬ２の「Showする」または「見せる」に基づいてプログラムコマンドＩの「モバイルデバイス１０１にインストールされているフォトビューワープログラムを実行する」に対応しているか否か判断し、実行する（図５Ｂ参照）。

また、図６Ａ乃至図６Ｃを参照すれば、本実施例に係る音声認識ユニット１０２３はステップＳ２０（音声タグを比較する）の実行時に、音声オーディオＶにより識別された前記複数のワードがモバイルデバイス１０１により定義されている注記ボイスタグＬ３を含んでいるか否か判断し、含んでいる場合、モバイルデバイス１０１のプロセッサ１０１２は、注記ボイスタグＬ３がタグデータベース１０２２で指向する注記説明Ｒに基づいて、プログラムコマンドＩまたは対象物Ｏの内容を調整する。より具体的には、音声オーディオＶが「阿部社長」+「掛ける」+「ホーム」、或いは「阿部社長」+「Callする」+「ホーム」で構成される複数のワードである例では、音声認識ユニット１０２３がステップＳ２０（音声タグを比較する）において、ターゲット音声タグＬ１の「阿部社長」、コマンド音声タグＬ２の「掛ける」或いは「Callする」、及び注記ボイスタグＬ３の「ホーム」を比較する。これにより、音声認識ユニット１０２３はステップＳ３０（対応する音声コマンドを実行する）を実行する際に、比較したターゲット音声タグＬ１の「阿部社長」及び注記ボイスタグＬ３の「ホーム」に基づいてモバイルデバイス１０１の対象物Ｏの「阿部太郎のホームの連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグＬ２の「Callする」または「掛ける」に基づいてプログラムコマンドＩの「対象物に対しモバイルデバイス１０１にインストールされている電話アプリケーションプログラム（APP）を実行する」に対応しているか否か判断し、且つ実行し、ここでは図６Ｂに示されるように、注記ボイスタグＬ３が対象物Ｏの内容を調整する例を示す。同様に、「阿部社長」+「集合写真」+「見せる」+「メモする」、或いは「阿部社長」+「集合写真」+「Showする」+「注釈する」で構成される複数のワードの例では、ステップＳ２０（音声タグを比較する）において音声認識ユニット１０２３がターゲット音声タグＬ１の「阿部社長の集合写真」、コマンド音声タグＬ２の「見せる」或いは「Showする」、及び注記ボイスタグＬ３の「注釈する」或いは「メモする」を比較することで、ステップＳ３０（対応する音声コマンドを実行する）の実行時に音声認識ユニット１０２３は比較したターゲット音声タグＬ１の「阿部社長の集合写真」に基づいてモバイルデバイス１０１の対象物Ｏの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグＬ２の「Showする」または「見せる」、及び比較した注記ボイスタグＬ３の「注釈する」或いは「メモする」に基づいて、プログラムコマンドＩの「モバイルデバイス１０１にインストールされているフォトビューワープログラムを実行し、対象物に関連する注釈情報を再生または表示する」に対応しているか否か判断し、且つ実行し、ここでは、図６Ｃに示されるように、注記ボイスタグＬ３がプログラムコマンドＩの内容を調整する例を示す。

図７は図１〜図３に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システム１０が複数のプログラムコマンドを保存し、且つ音声認識ユニット１０２３と接続している権限検証ユニット１０２４をさらに備え、権限検証ユニット１０２４は比較したターゲット音声タグＬ１、比較したコマンド音声タグＬ２、及び音声認識ユニット１０２３によるタグデータベース１０２２の読み取り結果に基づいて、音声オーディオＶが対応する権限レベルを判断し、音声認識ユニット１０２３がモバイルデバイス１０１の現在の権限レベルに基づいてプログラムコマンドＩを実行するかどうか判断する。換言すれば、本実施例に係るバリアフリースマート音声システムの制御方法Ｓは、「使用権を確認する」（ステップＳ２５）ステップをさらに含み、権限検証ユニット１０２４が比較したターゲット音声タグＬ１、比較したコマンド音声タグＬ２、及び音声認識ユニット１０２３によるタグデータベース１０２２の読み取り結果に基づいて、音声オーディオＶが対応する権限レベルを判断し、プロセッサ１０１２がステップ３０（対応する音声コマンドを実行する）の実行時に、モバイルデバイス１０１の現在の権限レベルに基づいてプログラムコマンドＩを実行するかどうかを判断する。例えば、権限検証ユニット１０２４が音声オーディオＶは対応するターゲット音声タグＬ１及びコマンド音声タグＬ２が、タグデータベース１０２２に保存されているテーブル中では第一レベル（最高レベル）に属すると判断することで、モバイルデバイス１０１の現在の権限レベルが所有者であると判断する。また、プログラムコマンドＩの権限レベルが第一レベルである場合、モバイルデバイス１０１が現在プログラムコマンドＩを実行する権限を有していると判断し、第二レベル及び第三レベルの権限レベルでは、例えば家族ユーザーであり、第一レベルに属するプログラムコマンドＩを実行できない。権限検証ユニット１０２４が音声オーディオＶは対応するターゲット音声タグＬ１及びコマンド音声タグＬ２がタグデータベース１０２２に保存されているテーブル中では第二レベルに属すると判断し、且つプログラムコマンドＩの権限レベルが第三レベルまたは第二レベルである場合、モバイルデバイス１０１は現在プログラムコマンドＩを実行する権限を有していると判断する。相対的に、権限検証ユニット１０２４が音声オーディオＶは対応するターゲット音声タグＬ１及びコマンド音声タグＬ２がタグデータベース１０２２に保存されているテーブル中では第三レベルに属すると判断し、且つプログラムコマンドＩの権限レベルが第二レベルである場合、モバイルデバイス１０１は現在プログラムコマンドＩを実行する権限を有していないと判断し、以降も同様である。

図８は、図１〜図３に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システムの制御方法Ｓは、「起動音声を検出する」（ステップＳ５）ステップを含み、音声認識ユニット１０２３はまず音声受信ユニット１０１１が予め定義されている「シロ」、「秘書」等の起動オーディオを受信したかどうか判断し、受信した場合、起動オーディオを起動操作と見なし、続けて音声オーディオＶに対しステップＳ１０（音声オーディオを分析する）を実行し、音声オーディオＶに対し音声分析及び形態論解析を実行する。また、本実施例に係るバリアフリースマート音声システムの制御方法Ｓは、「スリープ音声を検出する」（ステップＳ３５）ステップをさらに含み、音声認識ユニット１０２３は音声受信ユニット１０１１が予め定義されている「シロ、終了」、「秘書、休憩」等のスリープオーディオを受信したかどうか判断し、受信した場合、スリープオーディオをスリープ操作と見なし、音声オーディオＶに対するステップＳ１０（音声オーディオを分析する）の実行を停止する。即ち、音声オーディオＶに対する音声分析及び形態論解析を実行を一時停止し、続けてステップＳ５のみ実行可能にする。また、ステップＳ３５は、ステップＳ５、ステップＳ１０、或いはステップＳ２０の後に続けて実行され、且つ図８に例示する順序に限られない。

図９と図１〜図３とを比較すると、本実施例に係るバリアフリースマート音声システム１０は、音声データベース１０２１、タグデータベース１０２２、音声認識ユニット１０２３、及び権限検証ユニット１０２４が全てモバイルデバイス１０１に内設されている。本実施例に係るバリアフリースマート音声システム１０は、通信ネットワークがない状況でも、ユーザーがモバイルデバイス１０１により直接音声命令の識別及び実行を即時完遂可能である。

図１０と図１乃至図３を参照すれば、本実施例に係るバリアフリースマート音声システム１０は、音声認識ユニット１０２３が比較したターゲット音声タグＬ１がタグデータベース１０２２で指向する対象物Ｏ及び比較したコマンド音声タグＬ２がタグデータベース１０２２で指向するプログラムコマンドＩに基づいて、プロセッサ１０１２によって、モバイルデバイス１０１に対象物Ｏに対するプログラムコマンドＩを実行させる場合、対象物Ｏは被制御デバイス１０３であり、例えば、モバイルデバイス１０１以外の電動ドア、ライト、テレビ、電子機器等である。一例を挙げると、ユーザーがモバイルデバイス１０１を操作し、音声受信ユニット１０１１に音声オーディオＶを受信させた後、音声オーディオＶが音声認識ユニット１０２３により「開く」（コマンド音声タグＬ２に対応する）+「テレビ、TVS」（ターゲット音声タグＬ１に対応する）で構成される複数のワードであると識別され、且つ音声オーディオＶの文法構造が正確であるかどうかに拘わらず、全て音声認識ユニット１０２３によりターゲット音声タグＬ１に対応する対象物Ｏの「テレビ、TVSニュースチャンネル」及びコマンド音声タグＬ２に対応するプログラムコマンドＩの「モバイルデバイス１０１の通信ユニット１０１３により、ワイヤレス方式でスマートテレビを点ける」として比較される。但し、これは例示にすぎず、これに制限するものではない。

続いて、本発明は前述のバリアフリースマート音声システムの制御方法Ｓを実行するパソコンのプログラム製品をさらに提供する。パソコンシステムには前記パソコンプログラム製品の複数のプログラムコマンドがインストールされた後、前述のバリアフリースマート音声システムの制御方法ＳのステップＳ５、ステップＳ１０、ステップＳ２０、ステップＳ２５、ステップＳ３０、及びステップＳ３５を少なくとも完遂する。

続いて、本発明を実施すると、下記の有利な効果を少なくとも達成する。
（１）音声オーディオの文法規則が正確であるか否かに拘わらず、本発明はユーザーが作成した音声タグの組み合わせ（ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す）を比較することで、特定の対象物及びプログラムコマンドに対応可能かどうか識別可能である。従来の自然言語理解（NLU）または自然言語処理（NLP）と比べると、演算量を効果的に減らし、システムの処理速度を高速化し、システムの判断ミスを最小限にし、異なる言語間の音声翻訳差異及びミスを排除する。また、言語、口調、音色の制限を受けない。よって、本発明は構音障害者のオーディオ、さらには子供、一般成人、老齢者等の健常者の音声オーディオも識別可能であり、バリアフリーな使用を達成させる。
（２）本発明はユーザーが作成した音声タグの組み合わせを比較し、同時に音声オーディオの現在の権限レベルを判断し、検証及びオーディオ暗号化に類する技術を有している。第三者がユーザーが作成した音声タグの組み合わせを知らず、本来のユーザーからの音声オーディオではない場合、音声オーディオを発してモバイルデバイスの特定の機能を実行するように駆動させたり、モバイルデバイス以外の被制御デバイスを起動することはできない。

上記説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或いは範囲を限縮するように解すべきではない。また、本発明の各部構成は、上記実施例に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。

１０バリアフリースマート音声システム
１０１モバイルデバイス
１０１１音声受信ユニット
１０１２プロセッサ
１０１３通信ユニット
１０２サーバー
１０２１音声データベース
１０２２タグデータベース
１０２３音声認識ユニット
１０２４権限検証ユニット
１０３被制御デバイス
Ｖ音声オーディオ
Ｐｈｏｎｅ音声
Ｗｏｒｄワード
Ｌ１ターゲット音声タグ
Ｌ２コマンド音声タグ
Ｌ３注記ボイスタグ
Ｏ対象物
Ｉプログラムコマンド
Ｒ注記説明
Ｎネットワーク
Ｓバリアフリースマート音声システムの制御方法
Ｓ５起動音声を検出する
Ｓ１０音声オーディオを分析する
Ｓ２０音声タグを比較する
Ｓ２５使用権を確認する
Ｓ３０対応する音声コマンドを実行する
Ｓ３５スリープ音声を検出する

Claims

オーディオの解析に適用し、音声受信ユニットと、音声データベースと、タグデータベースと、音声認識ユニットと、権限検証ユニットと、モバイルデバイスのプロセッサと、を備えているバリアフリースマート音声システムの制御方法であって、
前記音声認識ユニットを前記音声データベースに接続し、前記音声受信ユニットが受信した前記音声オーディオに対し音声分析を実行し、その中から複数の音声を識別した後、前記複数の音声に対し形態論解析を実行し、その中から独立した語意単位とする複数のワードを識別する音声オーディオを分析するステップと、
前記音声認識ユニットを前記タグデータベースに接続し、前記複数のワードが前記モバイルデバイスにより定義されている複数のターゲット音声タグのうちの１つであるかどうか、及び前記モバイルデバイスにより定義されている複数のコマンド音声タグのうちの１つであるかどうかを判断する音声タグを比較するステップと、
前記プロセッサが、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物、及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含むことを特徴とするバリアフリースマート音声システムの制御方法。
前記音声認識ユニットが前記音声受信ユニットが予め定義されている起動オーディオを受信したかどうかを判断し、受信した場合、前記起動オーディオを起動操作と見なし、続けて前記音声オーディオに対し前記オーディオ分析ステップを実行する起動音声を検出するステップをさらに含むことを特徴とする請求項１に記載のバリアフリースマート音声システムの制御方法。
前記音声タグを比較するステップの実行時に、前記音声認識ユニットが前記音声オーディオから識別した前記複数のワードが前記モバイルデバイスにより定義されている注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンドまたは前記対象物の内容を調整することを特徴とする請求項１に記載のバリアフリースマート音声システムの制御方法。
権限検証ユニットが、比較した前記ターゲット音声タグ及び比較した前記コマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記プロセッサが前記対応する音声コマンドを実行するステップの実行時に、前記モバイルデバイスに現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定する使用権を確認するステップをさらに含むことを特徴とする請求項１に記載のバリアフリースマート音声システムの制御方法。
前記音声認識ユニットは前記音声受信ユニットが予め定義されているスリープオーディオを受信したかどうかを判断し、受信した場合、前記スリープオーディオをスリープ操作と見なし、前記音声オーディオに対する前記オーディオ分析ステップの実行を停止するスリープ音声を検出するステップをさらに含むことを特徴とする請求項１または２に記載のバリアフリースマート音声システムの制御方法。
モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
前記プロセッサに接続されている通信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの１つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの１つであるか否かを判断し、
前記音声認識ユニットは前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。
前記音声認識ユニットは前記音声受信ユニットが予め定義されている起動オーディオ及びスリープオーディオを受信したかどうか判断し、前記起動オーディオを受信した場合、続けて前記音声オーディオに対し前記音声分析及び前記形態論解析を実行し、前記スリープオーディオを受信した場合、前記音声オーディオに対する前記音声分析及び前記形態論解析の実行を停止することを特徴とする請求項６に記載のバリアフリースマート音声システム。
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記音声オーディオが識別した前記複数のワードが前記モバイルデバイスにより定義された注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンド或いは前記対象物の内容を調整することを特徴とする請求項６に記載のバリアフリースマート音声システム。
権限検証ユニットをさらに備え、前記音声認識ユニットと接続され、比較した前記ターゲット音声タグ及び比較したコマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記音声認識ユニットが前記プロセッサに前記モバイルデバイスの現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定することを特徴とする請求項６に記載のバリアフリースマート音声システム。
プロセッサを有しているモバイルデバイスに適用するバリアフリースマート音声システムであって、
前記プロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記音声データベース及び前記タグデータベースとそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信すると共に前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている複数のターゲット音声タグのうちの１つであるかどうか、及び前記モバイルデバイスにより定義されている複数のコマンド音声タグのうちの１つであるかどうかを判断し、
判断結果が符合した場合、前記音声認識ユニットが比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。