JP2558682B2 - 知的ワ−クステ−シヨン - Google Patents

知的ワ−クステ−シヨン

Info

Publication number
JP2558682B2
JP2558682B2 JP62056738A JP5673887A JP2558682B2 JP 2558682 B2 JP2558682 B2 JP 2558682B2 JP 62056738 A JP62056738 A JP 62056738A JP 5673887 A JP5673887 A JP 5673887A JP 2558682 B2 JP2558682 B2 JP 2558682B2
Authority
JP
Japan
Prior art keywords
unit
information
image
data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62056738A
Other languages
English (en)
Other versions
JPS63223965A (ja
Inventor
典正 野村
和宏 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP62056738A priority Critical patent/JP2558682B2/ja
Priority to US07/167,256 priority patent/US4907274A/en
Publication of JPS63223965A publication Critical patent/JPS63223965A/ja
Application granted granted Critical
Publication of JP2558682B2 publication Critical patent/JP2558682B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S379/00Telephonic communications
    • Y10S379/908Multimedia

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は電話音声による問合せに効果的に対処し得る
知的ワークステーションに関する。
(従来の技術) 近似、電話を利用した銀行の振替照合サービスが注目
されている。このサービス機能は、任意の電話端末から
電話回線を介して音声入力されたID番号等を示す数値情
報を認識し、その認識結果に従って情報蓄積装置(デー
タベース)に蓄積されている情報(数値や単語,句)を
検索抽出し、これを音声合成して前記電話回線を介して
音声出力するものである。つまり電話を利用して音声入
力された情報に従って必要な情報を検索し、この検索情
報を上記電話により音声応答するものである。
ところで情報化社会の多様化により、電話による情報
の問合せの種類が益々多様化する傾向にある。例えば上
述した銀行振替の数値データ等の問合せのみならず、最
寄り駅から訪問先への道順の問合せを実現すること等が
考えられている。
ところでこのような道順の問合せに対処する場合、一
般的には案内図等を図形の形でその応答が得られた方が
好都合であることが多々ある。
そこで従来のワークステーションでは、種々の目標物
に対する道順の情報を案内図として図形(画像)データ
としてデータベースに格納しておき、その問合せに対し
てファクシミリ(FAX)等の画像通信手段を用いて上記
案内図を画像データ出力して応答することが考えられて
いる。
ところが電話による問合せは、必ずしもファクシミリ
機能を備えた電話端末からなされるとは限らず、ファク
シミリ機能を持たない出先の公衆電話から問合せがなさ
れることが多いと考えられる。しかしてこのような場合
には、上述した案内図の画像出力ができないことから、
当然のことながら音声データとしてその道順を案内する
文章を音声応答する必要がある。そこで上記各案内図の
図形(画像)データと共に、この案内図の内容を示す案
内文章をデータベースに登録しておき、これらを問合せ
のあった電話端末の種別に応じて選択的に応答出力する
ことが考えられている。
然し乍ら、こような問合せ応答を実現するには、デー
タベースに上記案内図を示す図形(画像)データを格納
しておくことのみならず、その案内文章までも格納して
おく必要が生じるので、データベースに要求されるメモ
リ容量が極めて膨大なものとなる等の不具合が生じた。
またこれらの情報の管理も非常に繁雑化すると云う問題
が生じた。
更には各案内図に対応して、その道順を示す案内文章
を予め作成しておる必要があるので、その文章作成作業
に多大な労力を必要とする等の問題があった。
(発明が解決しようとする問題点) このように電話による種々の問合せに対処しようとす
る場合、従来のワークステーションではその応答情報を
格納するためのデータベースのメモリ容量が徒に膨大化
し、また案内図等に対応した案内文章を予め作成する為
に多大な労力を必要とする等の不具合があった。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、データベースとして必要なメ
モリ容量の削減を刷り得ると共に、電話を介する種々の
問合せに対してその電話端末の種別に応じた情報メディ
アで効果的に応答することのできる実用性の高い知的ワ
ークステーションを提供することにある。
[発明の構成] (問題点を解決するための手段) 本発明は第1図にその概念を示すように、データベー
スAに目標物に対する案内図等の地図情報を格納してお
き、電話回線を通して入力された単語音声を認識してそ
の認識結果を分析し(処理B)、この分析結果に従って
上記データベースAを検索して上記入力音声によって特
定される地図情報を該データベースAから抽出する(処
理C)。
しかして前記電話回線を介して音声入力した通信端末
が画像出力機能を備えるか否かを検定し(処理D)、上
記通信端末が画像出力機能を備える場合には上記地図情
報を前記電話回線を介して画像送信する(処理E)。
一方、前記通信端末が画像出力機能を備えていない場
合には前記地図情報を分析し(処理F)、その分析結果
に従って前記地図の内容を示す文章データ、例えば道順
案内の文章を作成する(処理G)。そしてこの処理Gに
て作成された文章データを音声合成して前記電話回線を
介して出力する(処理H)。
このようにして問合せが発せられた電話端末の種別に
応じて、上記案内図を図形データとして、或いは上記案
内図から作成される案内文章を音声データとして応答出
力するようにしたことを特徴とするものである。
(作用) 本発明によれば、電話による問合せに対してデータベ
ースから案内図等の図形情報が検索され、電話端末が画
像データたの通信機能を備える場合には、上記図形情報
が画像データとして応答出力される。また電話端末が画
像データ通信機能を備えない場合には、図形情報が解析
されてその図形情報の内容を示す文章データが作成され
る。そしてこの文章データが音声合成されて応答出力さ
れる。
従ってデータベースとしては、案内図等の図形情報を
格納しておけば良いので、必要なメモリ容量が徒に膨大
化することがなくなる。換言すればデータベースの必要
メモリ容量の低減を図り、装置構成の簡素化を図ること
が可能となる。
またデータベースから検索された図形情報に従って、
その解析結果から該図形情報の内容を示す、例えば道順
案内文等の文章が自動的に作成され、この文章データが
音声合成されて出力される。従って予め各図形情報毎
に、それに対応する文章データを作成しておく必要がな
く、文章作成に対する労力を大幅に軽減することができ
る。しかも音声応答時に必要な文章データを、データベ
ースから検索された図形情報に従って必要に応じて作成
すれば良いので、問合せ要求に応じた対処が可能とな
り、文章データ作成の為の無駄な労力を軽減することが
できる等の効果が奏せられる。つまり、問合せに対して
音声応答が必要な場合にのみ、文章データの作成を行え
ば良いので、データベースの格納された図形情報の全て
に対して文章データを作成する必要がなくなり、利用さ
れていない文章データを作成する等の無駄を省くことが
可能となる。
(実施例) 以下、図面を参照して本発明の実施例につき説明す
る。
第2図は本発明の実施例に係る知的ワークステーショ
ンの概略構成図である。この知的ワークステーション
は、以下の各部を備えて構成される。
バス1;以下に説明する各部の間ので必要な情報転送を行
なう為に用いられる。
制御部2;マイクロプロセッサを主体として構成され、該
知的ワークステーションの各部の動作をそれぞれ制御す
るものである。
イメージ入力装置3;カメラやスキャナ、或いはOCR等か
らなり、各種のイメージ情報を入力する。
位置座標入力装置4;タブレットやマウス等からなり、指
定された位置座標情報を入力する。
音声入力部5;マイクロフォン等により構成され、音声情
報を入力する。
キーボード部6;複数のキーを備え、文字・記号コードや
制御コード等を入力する為のものである。
ICカード部7;後述するようにICカードが装着され、該IC
カードとの間で必要な情報入出力するものである。
バスコントローラ8;バス1を介する各部間の情報転送を
制御する。
音声出力部9;スピーカ等からなり、音声情報を出力す
る。
ディスプレイ部10;CRTディスプレイや液晶ディスプレイ
等からなり、文字・図形・画像等を表示する。
イメージ出力装置11;FAXやカラープリンタ等からなり、
種々のイメージ情報をプリント出力する。
通信装置12,13;該ワークステーションと電話機、或いは
遠隔地に設置された他のワークステーションや端末等と
の情報通信を行なう。
切換え装置14;複数の通信装置を切換え使用する。
タイマー部15;該ワークステーションに時刻情報や時間
情報を提供する。
暗号化処理部16;種々情報を暗号化処理する。
音声照合部17;与えられた音声情報が特定の音声である
か否かを照合処理する。
イメージ照合部18;与えられたイメージ情報が特定のイ
メージであるか否かを照合処理する。
音声認識部19;与えられた音声情報を認識処理する。
音声分析部20;音声入力部5等から入力された音声の特
徴を抽出する等して該音声を分析処理する。
文字認識部21;前記イメージ入力装置3等から入力され
た文字・記号パターンを認識処理する。
イメージ認識部23;前記イメージ入力装置3等から入力
された図形イメージ等を認識処理する。
出力形態選択部24;該ワークステーションから出力する
情報の形態を選択制御する。
作業環境データ収集部25;該ワークステーションの機能
状態や、それによるオフィス内の作業環境等の情報を収
集入力する。
音声合成部26;処理データに従って合成音声を生成す
る。
イメージ合成部27;複数のイメージ情報を合成処理した
り、処理データに従ってイメージの編集処理を実行す
る。
図形合成処理部28;種々の図形を合成処理したり、処理
データに従って図形の加入・削除等の編集処理を実行す
る。
音声の圧縮・身長部29;音声データを圧縮符号化した
り、圧縮された音声データの復元伸長を行なう。
イメージの圧縮・伸長部30;イメージ・データを圧縮符
号化したり、圧縮されたイメージ・データの復元伸長を
行なう。
信号処理部31;種々の信号情報の符号化圧縮やその復元
伸長、必要な情報の付加等の一連の信号処理を実行す
る。
データベース部32;種々の情報を複数のリレーションに
それぞれ分類し、データベースとして蓄積する。尚、こ
のデータベースはコード情報のみならず、イメージや音
声等としても構築される。
本発明に係る知的ワークステーションは、基本的には
上述した各部を備えて構成され、上述した各部がそれぞ
れ持つ機能を有効に利用して全体的にインテリジェンス
な機能を呈するものとなっている。
次に前述したキーボード部5等のように一般的ではな
く、この知的ワークステーションにおいて特徴的な機能
を呈するICカード部7や暗号化処理部16等について更に
詳しく説明する。
先ずICカードは、例えば第3図に示すように名刺大の
大きさのカード本体7a内にマイクロプロセッサやメモリ
回路等の半導体回路を内蔵し、カードの一端部に上述し
た構成の知的ワークステーション本体に接続する為のイ
ンターフェース部7b、および表示窓部7cを設けて構成さ
れる。
尚、表示窓部7cは透明偏光体を埋め込んで形成される
もので、その位置はインターフェース部7bや半導体回路
と乗畳しない位置に設定される。またカード本体7aは、
上記表示窓部7cに対応する部分のみが透明であっても良
く、またその基板全体が透明なものであっても良い。
しかしてICカードは、具体的には第4図にその分解斜
視図を示すように、一対のカバー基板7d,7e、これらの
カバー基板7d,7eに挟持される埋め込み基板7f、コアシ
ート材7g、プリント基板7hを一体的に熱圧着して構成さ
れる。
このプリント基板7hの前記インターフェース部7bに対
向する位置には入出力端子7iが設けられ、また表示窓部
7cに対向する位置には液晶表示装置7jが設けられる。更
にはプリント基板7hには半導体集積回路7kが設けられ
る。またカバー基板7eには前記プリント基板7hにおける
発熱を発散する為の金属箔7mが設けられる。
尚、カバー基板7d,7eや埋め込み基板7f、コアシート
材7gにそれぞれ穿たれた孔部はプリント基板7hに集積さ
れた半導体集積回路7j等にそれぞれ対向する位置に設け
られたものである。これらの孔部に上記半導体集積回路
7k等を嵌合させて前記カバー基板7d,7e、埋め込み基板7
f、コアシート材7g、プリント基板7hが積層一体化され
てICカードが構成される。そして入出力端子7iは、カバ
ー基板7dに穿たれた孔部を介して露出し、ワークステー
ション本体に電気的に接続されるインターフェース部7b
を構成する。
尚、前記液晶表示装置7jは、例えば第5図にプリント
基板7k部の断面構造を示すように、スペーサを介して設
けられた一対のポリエーテルサルフォンフィルム基板の
間に液晶層を挟持し、該フィルム基板の内側面に透明導
電膜をそれぞれ形成すると共に、下面側のフィルム基板
に偏光体や反射体を設けて構成される。このようにポリ
エーテルサルフォンフィルム基板を用いて液晶表示装置
7jを構成すれば、その厚みを0.6μm以下にすることも
容易であり、ガラス基板を用いて液晶表示装置を構成す
る場合に比較してICカード自体を薄くすることができ
る。
またこのICカードの駆動電源については、前記インタ
ーフェース部7bを介してワークステーション本体側から
供給するようにしても良いが、カード内に内蔵するよう
にしても良い。この場合には、例えば高分子フィルムを
用いたシート状の電池として組込むようにすれば良い。
しかして前記半導体集積回路7kは、例えば第6図に示
すようにCPU7pや、データ・メモリであるPROM7q、E2PRO
M7r、およびこれらのメモリに対する選択部7s等を備え
て構成される。PROM7qは消去・書替え不可能な大容量の
不揮発性メモリであり、前記CPU7pに対する制御プログ
ラムや、永久記録すべき情報等を格納している。またE2
PROM7rは書替え可能な小容量の不揮発性メモリであり、
例えば情報の取引番号や、情報取引時に用いられる番
号、およびその使用時に更新される情報が格納される。
これらのメモリは前記選択部7sの制御により選択的に
駆動され、前記CPU7pとの間で情報の入出力を行なう。C
PU7pはこれらのメモリを用いて必要な情報処理を実行
し、またそのインターフェース部から前述した端子部7i
を介して知的ワークステーション本体との間で情報の入
出力を行なう。
前記ICカード部7は、このようなICカードを装着し、
該ICカードとの間で情報の入出力を行なうことになる。
尚、ICカードは上述した構成に限定されるものでない
ことは勿論のことであり、その構成に応じてICカード部
7が構成されることも云うまでもない。
次に暗号化処理部16について説明する。
この暗号化処理部16は、例えば第7図に示すように暗
号化部16a、復号化部16b、秘密鍵ファイル部16c、公開
鍵ファイル部16d、そして鍵更新部16eを備えて構成され
る。
そして第8図にその概念を示すように、与えられた通
信原文を暗号鍵に従って暗号化してその暗号通信文を生
成したり、また逆に与えられた暗号通信文を暗号鍵に従
って復号してその原文を求める処理を実行する。
秘密鍵ファイル部16cおよび公開鍵ファイル部16dはこ
の暗号・復号化に用いられる鍵を記憶するものであり、
鍵更新部16eはこれらのファイルされた鍵の更新を司
る。
ここで秘密鍵は、この暗号化処理部16を所有するワー
クステーションのみが知る鍵であり、他のワークステー
ション等に対しては秘密にされる。これに対して公開鍵
は各ワークステーションに設定された各秘密鍵とそれぞ
れ対をなすものであり、他のワークステーションにそれ
ぞれ与えられて公開される。公開鍵ファイル部16dは、
これらの複数のワークステーションがそれぞれ公開した
公開鍵を、各ワークステーションに対応して記憶するも
のである。
暗号化部16aは第9図に示すように、RSA処理部16iと
暗号化種別付加部16jとを備えて構成される。そして通
信原文を暗号化して情報通信しようとするとき、その通
信相手先のワークステーションが公開した公開鍵を用い
て通信文を暗号化し、その暗号通信文に暗号の種別を示
す情報を付加して通信情報を作成し、これを通信するも
のとなっている。尚、暗号の種別の情報は、例えば“0"
で暗号化していないこと、また“1"で暗号化しているこ
とを示す情報や、暗号方式を示す情報等からなる。
また復号化部16bは、自己ワークステーションが公開
した公開鍵を用いて或るワークステーションが暗号化し
て通信してきた暗号通信文を入力し、これを上記秘密鍵
に対応した秘密鍵を用いて復号化するものであり、第10
図に示すように暗号文分割部16k、暗号種別判定部16m、
切換え部16nh16p、RSA処理部16qを備えて構成される。
暗号文分割部16kは、前述したフォーマットで通信さ
れてきた通信情報を前述した暗号種別の情報と暗号化通
信文とに分割するものであり、暗号種別判定部16mは該
暗号種別情報からその通信文が暗号化されているか否か
を判別している。そして暗号化されていない場合にはそ
の通信文を切換え部16n,16pを介して出力し、暗号化さ
れている場合にはその通信文をRSA処理部16qに導いてい
る。このRSA処理部16qにおて前記秘密鍵を用いて暗号化
通信文が復号化処理され、上記切換え部16pを介して出
力される。
尚、RSA処理部16i,16qは、例えば第11図に示すように
ブロック分割部16sとべき乗・剰余計算部16t、およびブ
ロック連結部16uとを備えて構成される。
ここでブロック分割部16sは与えられた信号系列を一
定の長さのブロックMiに分割するものであり、べき乗・
剰余計算部16tは各ブロックMi毎に暗号化の鍵kを用い
て Ni=Mi k(mod n) なる信号系列Niを求めている。但し、nは固定の値であ
る。この信号系列Niがブロック連結部16uを介して順に
連結されて出力される。
暗号化処理にあっては、上記信号系列Miが通信原文で
あり、この通信原文から暗号化された通信文が信号系列
Niとして求められる。また復号化処理にあっては上記信
号系列Miが暗号化通信文であり、この暗号化通信文から
復号化された通信原文が信号系列Niとして求められる。
このような暗号化・復号化を担う鍵kが前述した公開
鍵と秘密鍵であり、これらは対をなして制定される。
従ってワークステーションは、他のワークステーショ
ンから公開された公開鍵に従って通信情報をそれぞれ暗
号化することはできるが、その暗号化された通信文を復
号化し得るのは、その公開限と対をなす秘密限を知り得
る特定のワークステーションだけとなる。これ故、或る
情報を暗号化して通信しようとするワークステーション
は、通信相手先のワークステーションが公開した公開鍵
に従って該通信原文を暗号化して通信する。そしてその
通信情報は、秘密鍵を持つ通信相手先のワークステーシ
ョンのみが復号し得るものとなっている。
尚、他のワークステーションがそれぞれ公開した公開
鍵の全てを公開鍵ファイル16dに格納しておく必要はな
い。例えばシステムに対して別に設けられた公開鍵ファ
イル・メモリに、各ワークステーションが公開した公開
鍵を各ワークステーションに対応されてファイルしてお
く。そして情報通信が必要となったとき、その通信相手
先の公開鍵を上記公開鍵ファイル・メモリから読出して
自己のワークステーションの公開鍵ファイル部16に格納
するようにしても良い。
以上が暗号化処理部16の基本的な構成とその機能であ
る。
次にイメージ照合部18について説明する。
このイメージ照合部18は、前記イメージ入力装置3か
ら入力されたイメージ情報、例えば個人の顔のイメージ
を入力し、その個人同定を行なうものである。
第12図はこのイメージ照合部の概略構成を示すもの
で、18aはイメージ記憶部、18bは正規化回路、18cは2
値化(細線化)回路、18dは特徴データ抽出回路であ
る。また、18eはイメージデータを記憶したデータ記憶
部であり、18fは検索回路、18gは照合回路、そして、18
hは出力部である。
イメージ記憶部18aは前記イメージ入力装置3を介し
て入力されたイメージ情報を記憶し、そのイメージ照合
処理に供するものである。このイメージ記憶部18aに記
憶されたイメージ情報に対して正規化回路18bは正規化
処理し、また2値化回路18cは2値化処理する。具体的
には、ここでは個人の顔のイメージからその個人同定を
行なうべく、正規化回路18bはその顔の大きさを正規化
している。この正規化された顔のイメージに対して2値
化回路18cは、例えばエッジ線分検出、そのエッジ線分
化処理等を行なって該イメージの2値画像を求めてい
る。
特徴データ抽出回路18dは、このようにして正規化・
2値化されたイメージ情報からその特徴データを抽出す
るものである。即ち、顔のイメージによる照合処理にあ
っては、例えば第13図に示すように顔の輪郭を1つの特
徴として抽出し、更にそのイメージ中の目、鼻、口等の
特徴を抽出している。具体的には、顔の輪郭的特徴を分
類されたコード情報として、また両眼間の距離l、口の
大きさm、目と口との距離n等を数値データとしてその
イメージの特徴として抽出している。
しかしてデータ記憶部18eには、予め各個人について
求められた顔のイメージの特徴データが、例えば第14図
に示すように登録されている。即ち、各個人毎にその個
人名を識別名として上述した顔のイメージの特徴データ
が登録され、且つその顔のイメージ・データがポインタ
によって結ばれている。
検索回路18fは前記特徴データ抽出回路18dにて抽出さ
れた特徴データに基いて該テータ記憶部18eを検索して
いる。そしてその検索データは照合回路18gに与えら
れ、前記特徴データ抽出回路18dで求められた特徴デー
タと照合処理されている。
この照合処理は、例えば前記特徴データ抽出回路18d
で求められた入力イメージの特徴データをXi(iは特徴
の種別)、データ記憶部18eに登録されているイメージ
の特徴データをYiとしたとき、 なる演算を行い、その演算結果Dの値が最も小さいもの
を、その個人として同定することによって行われる。こ
の同定結果が出力部18hを介して出力される。
イメージ照合部18は、基本的にはこのようにして入力
イメージを照合処理し、例えば該入力イメージの個人同
定等を行なう。
次に音声認識部19について説明する。
音声認識部19は、例えば第15図に示すように構成され
る。音声入力回路19aは、前記音声入力部5から入力さ
れた存性信号、または公衆電話回線を介して前記通信装
置12,13にて受信された音声信号を入力するもので、こ
の入力音声信号を適当な信号レベルに増幅する増幅器
や、帯域制限用のバンドパスフィルタおよびA/D変換器
等によって構成される。入力音声はこの音声入力回路19
aにて、例えば30〜3400Hzの周波数帯域の信号に制限さ
れ、12KHzのサンプリング周期で12ビットのディジタル
信号に量子化される。
音響処理部19bは、例えば専用のハードウェアにより
構成された積和回路からなる。そして基本的には前記音
声入力回路19aと同期してパイプライン的に高速動作す
る。
ここでの音響処理は、2種のバンドパスフィルタ群に
より実行される。その1つは16チャンネルのフィルタバ
ンクで、このフィルタバンクを介して入力音声信号のス
ペクトルの変化が抽出される。今1つは、同じ帯域を4
チャンネルに分割したグロスフィルタであり、このグロ
スフィルタを介して入力音声の音響的特徴が抽出され
る。
これらの2種類のフィルタ群(フィルタバンクとグロ
スフィルタ)は、例えば4次巡回形のディジタルフィル
タとして構成される。そして、例えば10msec毎にそのフ
ィルタリング出力を求めるものとなっている。尚、この
音響処理部の制御はマイクロプログラム方式にて行われ
る。
しかして前処理・認識部19cは、高速プロセッサ19d、
パターンマッチング処理部19e、単語辞書メモリ19f、お
よびバッファメモリ19gによって構成される。
バッファメモリ19gは上記音響処理部19bにてフィルタ
リング処理された音声信号を入力し、例えば最大1.8秒
分の音声データを蓄積するものとなっている。高速プロ
セッサ19dはこのバッファメモリ19gに格納されたデータ
に対して、音声区間検出、リサンプリング、ラベリン
グ、遷移ネットワークによる認識処理、およびその総合
論理判定処理の実行を行なっている。またこの高速プロ
セッサ19dにより、ホスト計算機との間の通信や該音声
認識部19全体の動作制御が行われる。
この高速プロセッサ19dにて処理された音声データに
ついて、パターンマッチング処理部19eは単語辞書メモ
リ19fに登録された単語音声の標準パターンデータとの
間で複合類似度計算等のマッチング処理を実行とし、そ
の認識候補を求めている。
例えば認識対象となる音声単語は離散的に発声され
る。そこで高速プロセッサ19dは、例えば音響処理の際
に10msec毎に計算される入力音声エネルギを用いて単語
音声の入力区間を検出している。
具体的には第16図に示すように、背景雑音レベルと入
力音声レベルとから適応的に計算される閾値Eθを用
い、入力音声信号レベルが上記閾値Eθを一定時間以上
継続して越えたとき、該閾値Eθを越えた時点を音声単
語の始端Sとして検出している。その後、上記入力音声
信号のレベルが上記閾値Eθを一定時間以上継続して下
回ったとき、該閾値Eθを下回った時点を音声単語の終
端Eとして検出している。
ところで音声認識はパターン認識の一種として考え得
る。しかし音声特有のパターン変動や、話者性別・発音
器官の形状・発声法等に起因する個人差、また話者自信
が発声する雑音や周囲環境の雑音、更には電話音声の場
合には公衆電話回線を経由したことによるレベル差や雑
音の問題がある。この為、これらを考慮し、上述した変
動要素を吸収して、如何に精度良く、安定に音声認識す
るかか問題となる。
そこでこの前処理・認識部19cではパターンマッチン
グ法と構造解析法とを2段階に組合せ、ハイブリッド構
造マッチング法と称される認識法を採用している。
即ち、上述したように単語音声区間が検出されると、
先ずその音声区間(S,E)を15等分し、その16点をそれ
ぞれリサンプル点とする。そして前述した如く音響処理
された16チャンネルの音声データ(スペクトル時系列)
から上記各リサンプル点でのスペクトルを抽出する。
尚、音声データのサンプル点と上記リサンプル点との間
でずれがある場合には、リサンプル点の最近傍点のスペ
クトルを抽出すれば良い。
このリサンプル処理によっえ例えば16×16(=256)
次元の音声パターン・ベクトルXを求める。即ち、第j
(j=1,2,3〜16)番目のリサンプル点をrjとすると
き、rjでの16チャンネルのスペクトルデータを Srj=(S1rj,2rt,〜S16rj) としてそれぞれ求め、これらのSirjを並べ換えて X=(S1r1,1r2,2r1,〜S16r16 なる音声パターンのベクトルXを求める。但し、tは行
列の転置を示す。
このようにして求められた入力音声パターンベクトル
Xと、単語辞書メモリ19fに予め登録された単語音声の
標準パターンとの類似度が、例えば複合類似度法によっ
て計算される。
ここで単語辞書メモリ19fに予め登録された単語音声
の標準パターンは、その単語カテゴリωについて、 (ψ1k,ψ2k,〜ψLk) (λ1k,λ2k,〜λLk) 但し、 (λ1k≧λ2k≧〜≧λLk) として準備されている。尚、ψ.k,λ.kはカテゴリω
に属するパターンベクトルXの共分散行列Kにおける固
有ベクトルとその固有値である。このような単語辞書に
ついては、上述した複合類似度S(k)は として計算される。尚、上式において‖X‖はベクトル
Xのノルムである。
このような複合類似度計算が全てのカテゴリについて
それぞれ行われ、上位に位置する類似度値と、それを得
たカテゴリ名とが対にして求められる。
このように複合類似度法によるパターンマッチングに
よって、多くのパターン変動を救出した認識処理が可能
となる。しかし類似パターンや雑音が加わったパターン
では、異なるカテゴリ間でその類似度値の値が小さくな
ることがある。
そこで前述したようにパターンマッチング法を補うも
のとして、以下の構造解析の手法を導入している。この
構造解析は、単語音声を構成する音の違いに着目して認
識処理するもので、音素ラベル系列と音響的特徴系列の
2つの時系列を利用している。
即ち、音素ラベル系列は、入力音声信号から10msec毎
に計算される16チャンネルのスペクトルを用いて音素辞
書との類似度を計算し、一定値以上の類似度を持つ音素
のラベル付けして求める。尚、この音素ラベルは、例え
ば5つの母音と鼻音との6種類からなる。この際、音素
辞書は、男声と女声に分けてそれぞれ準備しておく方が
望ましい。
ここで比較的安定に発音される母音に比べ、子音を音
素として個々にラベル付けすることが困難である。従っ
てその子音についてはその音響的な特徴ラベル付けし、
これを特徴情報とする。具体的には、音響処理で求めら
れる4チャンネルのグロスフィルタの出力と音声エネル
ギとから音響的特徴を抽出する。このようにして特徴抽
出されてラベル付けされる音響的特徴は、例えば第17図
にグロスフィルタの出力の特徴と対比して示すように、
無音性、無声性、摩擦性、破裂性、エネルギ・ディップ
等の12種類からなる。
しかして入力音声について求められた音素・音響ラベ
ル系列は、前記音声期間(S,E)を含む範囲に亙って、
各単語カテゴリ毎に作られた、例えば第18図に示す如き
遷移ネットワークに入力される。
この遷移ネットワークの各ノード毎に、指定された音
素ラベルや音響的特徴の有無をチェックする。そして無
であればリジェクト、有であれば次のノードに遷移さ
せ、その特徴系列が終了した時転で遷移ネットワークの
ゴールに到達した入力系列を受理し、そのカテゴリを求
める。尚、系列のチェックの方向は、ネットワーク毎に
その正逆を選択可能なものである。
総合判定論理は、前述した如くパターンマッチングに
よって順序付けられた候補カテゴリと、遷移ネットワー
クにより求められた認識結果とを総合して、その最終判
定を行なうとロジックである。
即ち、この総合判定論理は、パターンマッチングで求
められた最大類似度をS1としたとき、これを所定の閾値
θと比較する。そして(S1<θ)の場合、これを雑音と
してリジェクトする。
また(S1≧θ)の場合には、別の閾値Δθを用いて
(S1−Δθ)以上の類似度を持つカテゴリを候補として
抽出する。そしてその抽出されたカテゴリの数nが1つ
である、これを認識結果として抽出する。また複数のカ
テゴリが抽出された場合には、前記遷移ネットワークに
よる解析結果を参照し、遷移ネットワークで受理された
カテゴリのみを抽出する。そしてその中で最大の類似度
を持つカテゴリを認識結果として求める。
尚、閾値処理によって抽出されたカテゴリの中に、遷
移ネットワークで受理されたものが含まれない場合に
は、判定不能とする。
以上のようにして複合類似度法によるパターン認識処
理結果と、遷移ネットワークを用いた認識結果とを統合
してその入力単語音声の認識が行われる。
第19図はこの音声認識部における単語音声の認識処理
手続きの流れを示すもので、音声区間検出処理の後、リ
サンプル処理してパターンマッチングを行い、同時にラ
ベリング処理して遷移ネットワークによるチェックを行
い、しかる後、これらの各認識結果を統合してその総合
判定論理処理を行なうことが示されている。このような
処理が前記高速プロセッサ19dによる処理シーケンスの
下で実行される。
ところで離散的に発声された単語音声ではなく、連続
音声された音声中の単語を認識する場合には次のように
すれば良い。即ち、この場合には入力音声を種々の部分
区間に分割し、その部分区間毎に単語識別を行なって単
語類似度を求めるようにすれば良い。
具体的には、例えば第20図に示すように入力音声区間
における全ての分析フレーム間をそれぞれ部分区間の境
界候補とし、該入力音声区間を複数の部分区間に分け
る。この際、認識対象となる単語の継続時間長について
は最大時間長Dmaxと最小時間長Dminが設定できるので、
その範囲内の部分区間だけを認識処理対象とすれば良
い。
ここで第20図に示す例では、連続発声された音声の単
語数が2個の場合を想定して2つの部分区間を求めてい
る。しかし一般的には入力音声の単語数は不明であるか
ら、2単語からn単語までが単語候補として存在すると
仮定して部分区間をそれぞれ検出すれば良い。そして検
出された各部分区間について単語類似度の計算を行い、
その類似度結果の繋がり関係を相互に比較して最も信頼
性の高い部分区間の境界を求め、その境界によって区切
られた部分区間の各単語認識結果を求めるようにすれば
良い。
然し乍ら、このようにして部分区間を求めて単語類似
度計算を行なう場合、部分区間の数が膨大なものとなる
為、処理の高速化が妨げられる。従って実際的には処理
の高速化を考慮して、例えば入力単語数が2〜5単語、
1単語の継続時間長が128〜640msec、1回の発声におけ
る単語長の比が2.5以下、フレーム周期は16msec(8msec
周期で2個に1個の単語を取出す)等の制限を加えて部
分区間を検出するようにすれは良い。
このようにすれば連続発声された音声中の単語をそれ
ぞれ効果的に認識することが可能となる。
ところでこのような音声認識処理に供される辞書(単
語辞書)の学習は次のようにして行われる。
この学習処理は、母音パターンおよび子音パターン
からその特性核を求める処理と、その特性核に対する
固有値と固有ベクトルを求める処理とに大別される。そ
してこの固有値と固有ベクトルとを、その固有値の大き
いものから順にN個求める。この処理は一般にKL展開と
称されるものである。
先ず特性核を求める処理について説明すると、入力音
声パターン(学習パターン)の特性核Kは、その学習パ
ターンの縦ベクトルSmとしたとき、次のようにして求め
られる。
Sm=(Sm1,m2,〜Smn 尚、この学習パターンSmは、子音パターンの場合には
64次元の縦ベクトルとして与えられる。また母音パター
ンの場合には16次元の縦ベクトルとして与えられる。
しかして特性核Kはm個の学習パターンについて、そ
の縦ベクトルSmと、この縦ベクトルSmを転置した横ベク
トルSmとを掛合わせて作成される行列の各成分を、上記
m個の学習パターンに亙って平均化して求められる。従
って特性核の要素数は上記ベクトルの要素数の2乗とな
る。
尚、このような処理によってそのカテゴリのパターン
分布を反映した特性核Kを得るには、或る程度の量の学
習パターンを必要とする。この為、学習パターン・メモ
リに予め所定数の学習パターンを蓄積しておくことが必
要となる。
ところが母音の場合には16次元で最低6個のカテゴリ
の学習パターンを準備するだけで良いが、子音の場合に
は101カテゴリも存在し、しかも64次元のデータとして
求める必要がある。この為、このままでは膨大なメモリ
容量を必要とすることが否めない。
そこで少数の学習パターンによってパターン分布を反
映した特性核Kを得るべく、次のような特性核の再新処
理を行い、逐次計算によってその特性核を次第にパター
ン分布を反映した形に改良して行くようにする。
即ち、 K=K′+wSnSn t なる演算処理を繰返し実行するようにする。但し、wは
特性核の更新時における重み係数である。この重み係数
wは正負の値を取り、正ならば特性核行列の入力パター
ンに対する類似度を大きくし、逆に負ならば上記類似度
を小さくする作用を呈する。
またK′はSnなる学習パターンを学習する前の特性核
を示しており、Kは学習パターンSnの学習によって更新
された特性核を示している。
しかる後、このようにして求められた特性核に対し
て、その固有値と固有ベクトルを求める処理が行われ、
この固有値と固有ベクトルとに基いて前述した複合類似
度計算に用いられる標準パターンが作成される。
標準パターンは、上記特性核をKL展開することによっ
て求められるものであり、例えばべき乗方によるKL展開
によってその標準パターンが求められる。
今、特性核Kが固有値λ1,λ2,〜λを持ち、これに
対応する固有ベクトルξ1,ξ2,〜ξを持つものとす
る。この場合、その任意ベクトルuoは、上記固有ベクト
ルξ1,ξ2,〜ξの線形結合して として表わされる。このとき、 Kξ=λξ なる関係が成立することから、 となる。
ここで、 であるから、Sが十分大きくなると上式の第2項が0に
収束することになる。
故に前述した式を Ksuo=αλ1 sξ と看做すことができる。
このことは、(KS+1uo)と(KSuo)との比が固有値λ
であることを示している。また(KSuo)は固有ベクト
ルξ1に比例していることが示される。
ところでこのような理論に基く演算過程にあっては、
その演算途中結果が直ぐにスケールアウトすることが多
い。そこでuoを任意の、例えば単位ベクトルとし、 vS+1=Kuo us+1(vS+1)/(bS+1) (S=0,1,2,…) なる演算を実行するようにする。ここで(bS+1)は、ベ
クトル(vS+1)の絶対値が最大の要素である。このと
き、 となることから、これよりλ1,s+1,ξ1,uS+1を求め
ることが可能となる。
このようにしてその絶対値が最大の固有値λと固有
ベクトルξとを求めたら、次に同様にしてその絶対値
が次に大きい固有値λと固有ベクトルξとを求め
る。
ここで K′=K−λξξ1 t を考えると、 ξ1 tξ=0 (i=2,3,〜,n) より、 K′ξ=Kξ−λξξ1 tξ =λξ−λξ=0 (i=1) K′ξ=Kξ−λξξi tξ =λξ (i≠1) となる。従って上記K′は、 |λ2|>…>|λr|>…>|λn|>0 なる固有値を持つことがわかる。尚、ここではξは正
規化されているとしている。
このような処理は、前記特性核を K′=K−λξ・ξ として変換したK′に対して、上述した処理を繰返し実
行することによって達せられる。この処理によって絶対
値の大きい固有値とそれに対応する固有ベクトルが順に
求められ、辞書の学習が行われる。
第21図はこのような計算アルゴリズムに基いて実行さ
れる辞書の学習処理の手続きを示すものである。
次に文字認識部21について説明する。
この文字認識部21は、スキャナ等によって読取られた
文字を認識する第1の文字認識ブロックと、タブレット
等を介してオンライン入力される文字情報を認識する第
2の文字認識ブロックとによって構成される。
この第1の文字認識ブロックは、例えば第22図に示す
ように、スキャナ等によって読取り入力された画像デー
タを格納する画像メモリ21aと、この画像メモリ21aに格
納された画像データ中から認識対象とする文字が記載さ
れた領域を検出する領域検出部21b、この領域検出結果
に従って前記画像メモリ21aに格納された画像データ中
から認識対象とする文字データを抽出する文字抽出部21
c、そして標準パターン辞書21dに予め登録された認識対
象文字の各標準文字パターンと、上記文字抽出部21cに
て抽出された文字パターンとを個々に照合して文字認識
する識別部21eとによって構成される。
この文字認識ブロックは、例えば第23図に示すように
FAX送信原稿用紙21f上の所定の位置に設定され、送信宛
先が記入される文字枠21gに記載された文字を認識する
ものである。このような送信宛先が記載される原稿用紙
21fは、送信原稿が複数枚からなる場合、その一番最初
(1枚目)の原稿として用いられる。そしてこの1枚目
の原稿の読取り入力された画像データが文字認識処理の
為に前記画像メモリ21aに蓄積される。
領域検出部21bは、予め定められているFAX送信原稿用
紙21fのフォーマット情報から前記文字枠21gの位置情報
を得、認識対象とする文字が記載される領域を検出する
ものである。文字抽出部21cはこの領域検出情報と、そ
の画像情報の射影パターンの情報とを用いて、例えば第
24図に示すように前記文字枠21gに記載された文字の画
像データを個々に抽出している。
識別部21eは、例えば特公昭49−12778号公報等に開示
されるように、抽出された文字画像からその文字パター
ンの特徴を抽出し、その抽出した文字パターンと標準パ
ターン辞書21dに登録された各文字の標準パターンとを
パターンマッチングしている。そしてこのパターンマッ
チングによって照合の取れた標準パターンの文字カテゴ
リをその認識結果として求めている。
尚、パターンマッチングの手法は種々変形できること
は云うまでもない。
ところでタブレット等を介してオンライン入力される
文字情報を認識する第2の文字認識ブロックは、例えば
第25図に示すように構成される。
この第2の文字認識ブロックは、タブレット等を介し
てオンライン入力される文字の筆記ストロークを示す位
置座標の系列を順次検出する座標検出回路21hを備えて
いる。
この座標検出回路21hにて検出された位置座標の時系
列データは前処理回路21iに入力され、前記タブレット
4における検出誤り等の微小な雑音が除去された後、座
標系列記憶回路21jに順に記憶され、文字認識処理に供
される。尚、この前処理回路21iにて、例えば1文字分
の文字が入力されたとき、その文字の大きさの正規化処
理等が行われる。
また画数検出回路21kは、例えば筆記ストロークの途
切れ(位置座標データの時系列の区切り)から、その文
字パターンの筆記ストローク数、つまり画像を検出して
いる。
しかして認識処理部21mは、前記画数の情報に従って
標準特徴パターンメモリ21nに登録された認識対象文字
カテゴリの標準パターンの中から、該当する画数の標準
パターンを選択的に抽出している。そしてこの標準パタ
ーンの各ストロークの特徴と座標系列記憶回路21jに記
憶された入力文字パターンのストロークの特徴とを相互
に比較(マッチング処理)ている。答決定回路21pはそ
のマッチング処理結果を判定し、入力文字パターンのス
トロークの特徴に該当するストロークを持つ認識対象文
字カテゴリを、その認識結果として求めている。
つまりオンライン入力される文字パターンの筆記スト
ロークの特徴に従って、そのストロークの特徴を標準文
字パターンのストロークの特徴とマッチング処理して上
記入力文字パターンを認識するものとなっている。
尚、ストロークの特徴としては、筆記ストロークを折
線近似したときの端点や交点、折点等の位置座標の情報
を用いるようにすれば良い。
以上のような機能を備えた文字認識部21によって、ス
キャナ等を介して読取り入力された文字情報や、タブレ
ット等の位置座標入力装置を介してオンライン入力され
る文字情報がそれぞれ文字認識される。
次に図形認識部22について説明する。
この図形認識部22は、例えば第26図に示すように構成
される。入力部22aは、例えば撮影入力された図形画像
を記憶し、図形認識処理に供する。輪郭追跡部22bは、
例えば線分の追跡方向を第27図に示すように8方向に分
け、入力画像中の図形の輪郭を追跡したときにその追跡
方向がどの向きであるかを順に求めている。具体的に
は、例えば第28図に示すように三角形の図形を右回りに
追跡し、その追跡の向きの情報を、例えば 「1,2,〜2,3,4,〜4,5,7,〜7」 なる方向コードの系列として求めている。
セグメンテーション部22cは、このようにして求めら
れる方向コードの系列から、例えばその曲りの部分等の
特異点を抽出し、この特異点に従って該図形の輪郭を複
数の特徴部分に分割している。マッチング部22dはこの
ようにしてセグメントテーションされた図形輪郭の情報
と、辞書メモリ22eに登録されている各種図形の特徴情
報とをマッチング処理して入力図形を認識するものとな
っている。
例えば第29図に示す図形が与えられた場合には、その
輪郭追跡によって求められる方向コードの系列から、例
えば相互に隣接する3つの輪郭点(i−1)(i)(i
+1)で方向コードの和を順に求め、これをその中央の
輪郭点iにおける方向コードとして平滑化処理する。こ
の平滑化処理によってノイズ成分の除去を行なう。
しかる後、セグメンテーション部22cにて輪郭の特徴
点である端点、つまり曲りが急峻な点を検出し、その端
点を中心としてその輪郭を分割する。そして分割された
輪郭部分毎に辞書メモリ22eと照合し、その認識結果を
求める。
以上の処理によって、第30図に例示するように丸図形
は端点が存在しないこと、三角図形は端点が3つ検出さ
れること、四角図形は端点が4つ検出されること等か
ら、これらの図形がそれぞれ識別認識される。この際、
上記各端点がそれぞれ凸状であることや、端点を結ぶ輪
郭が直線・曲線である等の情報を図形識別に利用しても
良い。
これに対してイメージ認識部23は次のように構成され
る。
第31図はこのイメージ認識部23の概略構成を示すもの
で、原画画像メモリ23a,2値化装置23b、処理画像メモリ
23c、細線化装置23d、そしてコード変換装置23eによっ
て構成される。
画像メモリ23aは与えられた認識対称イメージ画像を
記憶するもので、2値化装置23bはこれを2値化処理し
て画像メモリ23cに格納している。この2値化レベル
は、例えば2値化画像をディスプレイモニタしながら可
変設定される。
しかして細線化装置23dは2値化されたイメージ画像
を細線化処理してそのイメージを線図形化するものであ
る。この細線化処理されたイメージ画像によって前記画
像メモリ23cが書替えられて認識処理に供される。
コード変換装置23eは、例えば第32図に示すように構
成され、先ずセグメント分割部23fにて上記細線化画像
を複数のセグメントに分割している。このセグメントの
分割は、例えば線図形をその端点や分岐点、交点にて分
割することによって行われる。曲率変換部23gはこのよ
うにして分割された複数のセグメントについて、それぞ
れその曲率を求めている。
直線・曲線分割部23h,曲線分割部23i,屈折点分割部23
j,および変曲点分割部23hは、上述した如く分割された
各セグメントを、その曲率の情報に従って更に分割する
もので、これらによって屈折点や直線と曲線との切替わ
り点、変曲点、曲線における半径変化点等がそれぞれ検
出される。このようなセグメント分割と特徴点検出によ
って前記イメージ線図形を構成する各部の情報がそれぞ
れ抽出される。
近似情報作成部23mは、これらの分割されたセグメン
トおよびそのセグメント中の特徴点の情報を総合して前
記イメージ図形を表現する情報、例えば各セグメントの
始点および終点の位置座標、およびそのセグメントの種
別を特定するコード情報を得る。
例えば入力イメージ画像が第33図(a)に示す如く与
えられた場合、その入力画像中のイメージ線図形23nを
細線化して抽出し、同図(b)に示すようにセグメント
分割する。この例では、円図形と四角図形とが直線によ
って所謂串刺しにされたイメージ線図形23nが入力され
ている。しかしてこのイメージ線図形23nは、第33図
(b)に示すようにその交点で分割され、2つの半円と
2つのコの字状図形、および4つの直線にセグメント化
される。
曲率変換部23gは、第34図に示すようにセグメント分
割された各セグメントの曲率を求めており、前記直線・
曲線分割部23h,曲線分割部23i,屈折点分割部23j,および
変曲点分割部23hはその曲率変化点から各セグメントの
特徴点を検出している。具体的には第34図(a)に示す
例では2つの直線の屈折点における曲率が急峻に増大す
ることから、その曲率の変化から屈折点を検出すること
が可能となる。また第34図(b)に示す例では直線から
曲線への変化部分で曲率の変化が検出されるので、この
曲率の変化からその特徴点を検出することができる。
同様にして第34図(c)(d)に示す例では、その曲
率の変化点から、そのセグメントにおける特徴点を検出
することが可能となる。
このようにしてイメージ認識部23では、与えられたイ
メージ図形をセグメント化し、各セグメントの特徴点を
検出している。そして該イメージ線図形を複数のセグメ
ントの各種別を示すコード情報とその位置座標として近
似表現して認識するものとなっている。
さて音声照合部17は次のように構成されている。この
音声照合部17は、音声入力した話者を個人認識(個人同
定)するものであり、例えば第35図に示すように構成さ
れる。
即ち、音声入力部17aを介して与えられる音声は、音
韻フィルタ17bおよび個人用フィルタ17cにてそれぞれフ
ィルタリングされ、その音声特徴が抽出される。音韻フ
ィルタ17bの複数のチャンネルの各帯域は、例えば第36
図(a)に示すように音声周波数帯域を等分割して設定
されている。このようなフィルタ特性を備えた音韻フィ
ルタ17bによって入力音声の音韻特徴を示す特徴パラメ
ータが抽出される。尚、各チャンネルの帯域幅を、音声
周波数帯域を対数関数的に分割設定したものとしても良
い。
これに対して個人用フィルタ17cの複数のチャンネル
の各帯域幅は、第36図(b)に示すように音声周波数帯
域を指数関数的に分割して設定されている。このような
フィルタ特性を備えた個人用フィルタ17cによって、前
記入力音声の低減から中域にかけての音声特徴が、高域
側の特徴に比較して多く抽出されるようになっている。
そしてこれらの各チャンネルのフィルタ出力が個人照合
用と特徴パラメータとして決められている。
しかして単語認識部17dは、前記音韻フィルタ17bを介
して求められた音域特徴パラメータから、その入力音声
が示す単語を単語辞書17eを参照して認識するものであ
る。この単語認識の機能は前述した音声認識部19と同様
であり、該音声認識部19の機能をそのまま利用するよう
にしても良い。そしてこの単語認識結果に従って個人辞
書17fの個人照合に供される辞書が選択される。この個
人辞書17fは、話者照合の対称とする個人が予め発生し
た特定の単語の前記個人用フィルタ17cによる分析結果
を、その単語毎に分類して登録したものである。
しかして話者照合部17gは、個人辞書17fから選択され
た該当単語の各特徴パラメータと、前記個人用辞書17c
にて求められた入力音声の特徴パラメータとの類似度を
計算し、その類似度値を所定の閾値でそれぞれ弁別して
いる。そしてこれらの弁別結果を相互に比較して、例え
ば類似度値が最も高く、次に高い類似度値との差が十分
にある特徴パラメータを得た個人カテゴリを該入力音声
の発声者であるとして個人同定している。
ここで個人用フィルタ17cの特性について更に詳しく
説明すると、前述したように音韻特徴フィルタ17bとは
異なる特性に設定されている。この音声の個人性の識別
性について考察してみると、その識別性は、例えば F比=(個人間分散)/(個人内分散) として与えられるF比によって評価することができる。
今、音韻フィルタ17bに設定されたフィルタ特性の各
チャンネル出力のF比について検討すると、第37図に実
線で示す指数関数的な傾向を示す。これ故、従来では専
ら高域側の音声特徴情報を利用して個人照合を行なって
いる。
しかし音声の高域側の特徴だけを用いることよりも、
全周波数帯域の音声特徴を用いて個人同定が可能であれ
ば、その照合精度が更に向上すると考えられる。即ち、
全周波数帯域においてF比の値が1以上となり、個人間
分散が個人内分散を上回れば、更に精度の高い個人照合
が可能となる。
そこでここでは、前述したように個人用フィルタ17c
の特性を指数関数的に定め、個人性の特徴が顕著である
高域側については大雑把に特徴抽出し、低域側のチャン
ネル割当て数を増やすことによって該低域側の音声特徴
を細かく抽出するようにしている。
具体的には各チャンネルのF比の変化が指数関数的な
傾向を示すことから、低域側チャンネルの帯域幅に比較
して高域側チャンネルの帯域幅を指数関数的に増大させ
たフィルタバンクを構成し、これを個人用フィルタ17c
としている。
このように構成されたフィルタ17cの各チャンネル出
力によれば、そのF比は第37図に破線で示すようにな
り、中域でのF比の大幅な向上が認められる。この結
果、高域側の音声特徴のみならず、中域における音声特
徴をも積極的に利用して個人照合を行なうことが可能と
なり、その照合精度の向上を図ることが可能となる。
即ち、この音声照合部17では、入力音声の単語認識に
供する特徴とは別に、フィルタバンクの工夫によりその
個人性が顕著に現われる特徴情報を抽出している。この
結果、入力音声に対する音韻認識とは独立にその話者に
対する個人同定、つまり個人照合を高精度に行なうもの
となっている。
次に音声合成部26について説明する。
音声合成部26は、第38図に示すように判別器26a,復号
器26b,規則パラメータ生成装置26c,および音声合成器26
dを備えて構成される。
判別器26aは入力されたコード列が文字列でありる
か、或いは音声合成の為の分析パラメータを示す符号列
かを判定するものである。この情報判別は、例えば入力
コード列の一番最初に付加された識別情報を判定するこ
とによって行われる。そして分析パラメータであると判
定した場合には、その符号列を符号器26bに与え、これ
を復号処理してその音韻パラメータと韻律パラメータと
をそれぞれ求めている。
また文字列と判定した場合には、その文字列データを
規則合成パラメータ生成装置16cに与え、その音韻パラ
メータと韻律パラメータとの生成に供している。
音声合成器26dは、このようにして復号器26bまたは規
則合成パラメータ生成装置26cにて求められた音韻パラ
メータと韻律パラメータとに従い、音源液を声道近似フ
ィルタを介して処理して合成音声波を生成している。
ここで規則合成パラメータ生成装置26cについて更に
説明すると、該装置26cは第39図に示す如く構成されて
いる。文字列解析部26eは言語辞書26を参照して入力文
字列中の単語を個々に同定し、その単語についてのアク
セント情報や単語・文節境界、品詞・活用等の文法情報
を求めている。そしてこの解析結果に対して音韻規則、
および韻律規則がそれぞれ適用され、その制御情報が生
成される。
ここで音韻規則は、解析された単語の読みの情報を与
えると共に、単語の連接によって生じる連濁や無声化等
の現象を実現し、その音韻記号列を生成するものであ
る。音声パラメータ生成部26gはこの音韻記号列を入力
し、その音節単位に従ってCVファイル26hから音節パラ
メータを順次求めて補間結合している。この音声パラメ
ータ生成部26gにて上記音韻記号列から音韻パラメータ
系列が生成される。
また韻律規則は、単語・文節境界等の文法情報に従っ
て発話の境界や息継ぎ位置を決定し、各音の継続時間長
やポーズ長等を決定するものである。同時にこの韻律規
則により、各単語の基本アクセントをベースとし、その
文節アクセントを考慮した韻律記号列が生成される。韻
律パラメータ生成部26iはこの韻律記号列を入力し、ピ
ッチの時間変化パターンを表わす韻律パラメータ列を生
成している。
一方、入力コード列が音声合成の為の分析パラメータ
を示す符号列である場合、前記復号器26bは次のように
機能している。
即ち、分析パラメータの符号列がCVファイルのケプス
トラム係数を示す場合、その符号列26mは一般に第40図
に示すようにパラメータP(ピッチ)とCo,1,〜C
m(ケプトストラム係数)に対してピット割当てがなさ
れて情報圧縮されている。そこで復号器26bではパラメ
ータ変換テーブル26nを用い、上記情報圧縮された分析
パラメータを音声合成器26dに合せたピット数に変換・
復号している。例えば各パラメータをそれぞれ8ビット
に変換し、音韻パラメータ列(ケプストラム係数)とそ
の韻律パラメータ列(ピッチ)とをそれぞれ求めてい
る。
音声合成器26dは、例えば第41図に示すように有声音
源26qと無声音源(M系列発生器)26rとを備え、入力さ
れる韻律パラメータ列のピッチデータPに従って有声音
源波(P≠0)、または無声音源波(P=0)を選択的
に発生している。この音源波は前置増幅器26sに入力さ
れ、前記音韻パラメータのケプストラム係数Coに応じて
レベル制御されて対数振幅近似ディジタルフィルタ26t
に入力される。この対数振幅近似ディジタルフィルタ26
tは前記音韻パラメータのケプストラム係数C1,〜Cm
従って声道特性を近似する共振回路を構成し、上記音源
波をフィルタリング処理するものである。この対数振幅
近似ディジタルフィルタ26tにて前記音韻パラメータお
よび韻律パラメータで示される音声データが合成出力さ
れる。
そして対数振幅近似ディジタルフィルタ26tにて合成
された信号は、D/A変換器26uを介した後、LPF26vを介し
てフィルタリングされて合成音声信号(アナログ信号)
として出力される。
以上のように構成された音声合成部26にて、入力デー
タ系列からそのデータ系列が示す音声が規則合成されて
出力される。
次にイメージ合成部27について説明する。
イメージ合成部27は、第42図に示すように制御計算機
27a,ディスペリファイルメモリ27b,イメージ合成回路27
c,イメージメモリ27d,そして必要に応じてディスプレイ
27eを備えて構成される。尚、このディスプレイ27eは、
該ワークステーションについて準備された前記ディスプ
レイ部10であっても良い。
イメージ合成回路27は、専用の制御計算機27aの制御
の下でディスプレイファイル27bに書込まれているベク
トルや多角形・円弧のパラメータを読出し、それによっ
て示される線図形を発生してイメージ・メモリ27dの指
定されたアドレスに書込んでいる。このイメージ合成回
路27のイメージ発生機能によってイメージメモリ27d上
に指定された線図形イメージが構築される。そしてこの
線図形イメージは、制御計算機27aの制御の下で前記デ
ィスプレイ27eにて表示されてモニタされる。
またイメージ発生回路27bは、イメージ発生に対する
特殊処理機能と塗潰し処理機能とを備えている。この特
殊処理機能は、例えば複数のイメージ図形の重なりに対
して隠線の消去を行なったり、クリッピング処理を行な
う等の機能からなる。また塗潰し機能は、イメージ図形
の部分領域を指定された色を用いて塗潰す処理からな
る。
このようなイメージ合成回路27bの機能によって、種
々のイメージ図形が作成され、またその合成処理等が行
われる。
ところで上述した如く発生したイメージ図形と自然画
との合成は次の2つに大別される。その1つは、例えば
風景写真等の自然画を背景として、その中に計算機処理
によって求められたイメージ画像を埋め込み合成する処
理であり、他の1つのは計算機が内部モデルとして持っ
ている或る平面イメージ内に自然画を埋め込み合成する
処理からなる。
ここで前者の自然画中にイメージ画像を埋め込み処理
する場合には、例えば第43図にその概念を例示するよう
に、計算機が発生する図形中に「透明色」を示すコード
を与えておき、これを自然画に対して重ね合せて合成す
ることによって達せられる。すると「透明色」コードが
与えられた画像領域は、自然画の情報がそのまま表示さ
れることになり、その他の部分は計算機が発生した図形
が表示されることになる。この結果、自然画を背景とし
たイメージ合成が実現されることになる。この手法はオ
ーバーレイと称される。
これに対して第44図にその概念を示すように画像メモ
リ内に自然画を書込んでおき、その上(手前)に計算機
が発生した図形を書込んで行くようにしても良い。この
手法はzバッファ法と称されるものでは、前述したオー
バーレイ法と共に比較的簡単に実現することができる。
ところで計算機の内部モデルとして示される平面内に
自然画を嵌め込み合成する後者の場合には、次のように
して高速処理される。
平面上にある自然画を、3次元空間内の任意の方向を
向いている平面に埋め込む為に必要な座標変換は次式で
与えられる。
但し、X,Yは表示面での座標であり、u,vは自然画での
座標である。
この座標変換処理をそのまま実行しようとすると、1
画素を表示する毎に6回の乗算と2回の除算が必要とな
り、膨大な計算量と計算処理時間を必要とする。
そこでここでは、次のような中間座標(s,t)を介し
て上述した演算を2回の変換処理に分解して実行するも
のとなっている。この演算処理は、例えばアフィン変換
を利用して高速に実行される。
u=(α1s+α2 t+α)/t (1) v=(α7s+α8 t+α)/t s=C5X−C4Y (2) t=C4X+C5Y+C6 即ち、上述した第(1)式を用いて透視変換を行い、
その後、第(2)式を用いて2次元アフィン変換を行な
って任意の平面への透視変換を高速に行なうものとなっ
ている。
ここで、第(1)式の分母は座標tそのものであるか
ら、従来より知られているアフィン変換回路を若干改良
するだけでその演算を高速に実行することが容易であ
る。
このようにしてイメージ合成部27では種々のイメージ
合成処理を高速に実行するものとなっている。
次に出力形態選択部24について説明する。
この出力形態選択部24はメディア選択要求信号を受け
て起動され、どのメディアを通じてデータ出力するかを
選択するものである。つまり種々のメディアのうち、ど
のメディアを通じて情報伝送するかを選択するものであ
る。
第45図はこの出力形態選択部24の概略構成図であり、
メディア選択制御部24a,入力メディア判定部24b,相手メ
ディア判定部24c,メディア変換テーブル24d,および自己
メディア機能テーブル24eを備えて構成される。また第4
6図はこの出力形態選択部24の処理の流れを示すもので
ある。この処理手続きの流れに沿って該出力形態選択部
24の機能を説明する。
メディア選択要求信号が与えられるとメディア選択制
御部24aは前記制御部2に対してメディア選択動作に必
要な入力メディア情報の提供を要求する。そして入力メ
ディア判定部24bに対してメディア情報検出要求とメデ
ィア機能識別要求を発する。
入力メディア判定部24bはメディア検出部24fとメディ
ア識別部24gとによって構成され、上記メディア選択制
御部24aによる情報要求を受けて制御部2から与えられ
る入力メディアを検出し、且つその検出メディアの機能
を識別判定するものとなっている。この入力メディア判
定部24bは、例えば入力メディアが音声である場合、そ
のメディアの機能がADPCMである等として識別判定す
る。
しかる後、メディア選択制御部24aは制御部2に対し
てそのデータ出力の相手先が自己端末(ワークステーシ
ョン内)の他の機能ブロックであるか、或いは通信回線
等を介して接続される別のワークステーションや通信端
末であるかを問合せる。そして別のワークステーション
や通信端末に対してデータ出力することが指示される
と、メディア選択制御部24aは送信相手局に関する識別
情報を制御部2に対して要求する。この要求を受けてデ
ータ出力する相手局に関する情報が相手メディア判定部
24cに入力される。
相手メディア判定部24cは、相手局識別部24h,相手局
メディア識別部24i,機能識別部24jを備えて構成され、
前記メディア選択制御部24aからの識別情報判定要求を
受けて作動する。そして相手局に対する識別情報から、
先ず相手局を識別し、相手局のメディアを識別する。そ
してその相手局メディアの機能を識別する。
具体的には、例えばデータ出力(送信)する相手局が
自動FAXであり、その通信メディアがイメージであっ
て、その機能がG IIIタイプである等を識別する。尚、
この相手局の識別は、相手局からそのネゴツェーション
(ハンドシェーク)機能を用いて送られてくる情報に基
いて行うようにしても良い。またネゴツェーション機能
がない場合には、そのメディア検出機能を機能識別部24
jに持たせておけば良い。このようにすれば相手側から
のメディア情報信号に従ってその機能識別を行なうこと
が可能となる。
第47図はこの相手局の識別手段手続きの流れを示すも
のである。この流れに示されるように、例えば通信相手
局が電話か否かを判定し、電話である場合にはFAX信号
が到来するか否かを判定する。
そして相手局が電話であり、FAX信号が到来する場合
には、これを相手機器がFAXであると識別すれば良い。
また電話であると判定され、FAX信号が到来しない場合
には、相手機器は通常の電話であると判断すれば良い。
更に電話でないと判定された場合には、相手機器は電話
以外の他の通信機器であると判定するようにすれば良
い。
このようにして通信相手局のメディアが識別判定され
ると、次にメディア選択制御部24aは、例えば第48図に
示すように構成されたメディア変換テーブル24dを参照
して、入力メディア、入力機能、相手機器、相手機器メ
ディア、相手機器の機能に対応したメディア変換選択情
報を得る。
例えば入力メディアが音声で、その機能がAD−PCMで
あり、相手機器がG IIIタイプのFAXである場合、相手機
器のメディアがイメージであること、そして主なメディ
ア変換機能が (音声)to(コード文字) (コード文字)to(イメージ) であること等が求められる。同時にそのその変換機能
が、 (ADPCM;音声)to(G III;FAX) によって実現できることが求められる。この際、従属的
なメディア変換情報が存在すれば、これも同時に求めら
れる。
このようにして求められたメディア変換情報が制御部
2に与えられ、前記データ出力の形式が選択的に指定さ
れる。
尚、データ出力が自己のワークステーション内部に対
して行われる場合には、メディア選択制御部24aは自己
メディア機能テーブル24eを参照して、データ出力が可
能な出力形式を求める。この情報に従ってメディア選択
制御部24aは前記メディア変換テーブル24dの自己メディ
ア変換テーブルを参照し、同様にしてメディア変換情報
を求め、これを制御部2に与える。
このようにして求められるメディア変換情報に従っ
て、例えば前述した音声合成部26を用いて文字コードの
系列で与えられる文章情報を音声情報に変換してデータ
出力したり、或いは音声認識部19を用いて音声情報が文
字コード系列の情報に変換してデータ出力することにな
る。
次にデータベース部32について説明する。
データベース部32はコードやイメージ、音声等の各種
のデータを整理して格納し、これを種々の応用システム
に供するものである。第49図はこのデータベース部32の
概略構成を示すもので、コマンドの解析処理等を実行す
るインターフェース部32a、データベースの検索処理等
を実行するデータ操作部32b、種々のデータを格納する
記憶媒体としての磁気ディスク装置32cや光ディスク装
置32d、そしてその付加機能部32eとによって構成され
る。
種々のデータは、そのデータの種別に従って複数のリ
レーションに分類整理され、各リレーション毎にそれぞ
れ登録されてデータベースが構築されている。
以下、このデータベース部32を、その論理構造、蓄え
られるデータ、物理構造、および付加機能の4つの分け
て説明する。
論理構造とはこのデータベース部32を応用システム側
から見た場合、種々のデータがどのように蓄積されてい
るかを示すものである。ここではリレーショナル・モデ
ルに従った論理構造として、例えば第50図に示すような
表のイメージとしてデータが取扱われるようになってい
る。
表(リレーション)には幾つかの欄(アトリビュー
ト)が設けられており、これらの各欄に所定の単位のデ
ータがそれぞれ格納される。データの単位(タップル)
は、各欄に格納すべき1組の値として定められる。この
ようなタップルを格納した任意個数のアトリビュートに
よって1つのリレーションが構築される。
しかしてこのモデルにあっては、リレーション名を指
定し、その各アトリビュートの値をそれぞれ与えること
によってデータベースへのデータの格納が行われる。ま
たデータベースの検索は、リレーションおよびアトリビ
ュートを指定し、そこに格納されている値が指定された
値、または別のアトリビュートに格納されている値との
間で所定の条件を満すか否かを判定し、その条件を満す
タップルを抽出することによって行われる。
この検索条件は、それらの値が等しい、等しくない、
小さい、大きい等として与えられる。この際、複数のア
トリビュートについてそれぞれ検索条件を指定し、その
条件判定結果を論理手段(アンドやオア)して行なうこ
とも可能である。更には、複数のリレーションを指定
し、或るリレーションの或るアトリビュートの値が他の
リレーションの或るアトリビュートの値に等しい等の条
件により、複数のリレーション中から所定のタップルを
求めるようなデータベース検索も可能である。
またデータベースからのデータ削除は、基本的には上
記検索と同様に行われるが、タップルを抽出することに
代えて、そのタップルを末消することによって行われ
る。
更にデータ更新も同様であり、得られたタップルの指
定されたアトリビュートの値を変更し、これを格納する
ことによって行われる。
また各リレーションには、各アトリビュート毎にデー
タの読出し,追加,変更が許可された人の情報(人名や
担当者コード)等が記入され、データ保護の対策が講じ
られている。尚、このデータ保護対策をアトリビュート
毎に行なうこに代えて、リレーション単位で行なうこと
も可能である。尚、ここに記載される人の情報は複数で
あっても良い。
しかして第50図に示すリレーションの例では、文字列
としてそのデータが示されているが、各リレーションに
蓄積されるデータは単なるビット列であっても良い。つ
まりリレーションに蓄積されるデータは文字列は勿論の
こと、イメージ情報や音声情報等があっても良い。
さてこのデータベースに蓄積されるデータは、上述し
た第50図を示す『個人スケジュール』のリレーションを
初めとして、例えば第51図に示すような『住所録』『個
人の仕事とその代行者』『操作履歴』『人事』『会議
室』『会議室予約』『会議』等の種々のリレーションか
らなる。
この例に示されるようにリレーションは、主に個人用
として用いられるものと、多くの利用者によって共通に
利用されるものとからなる。そして個人用のリレーショ
ンは各個人が使用するワークステーション毎に設けら
れ、また共通リレーションは複数の利用者にとって共通
なワークステーションに設けられる。
尚、共通のワークステーションとは必ずしもそのハー
ドウェアが他のワークステーションと異なることを意味
しない。また個人用のワークステーションが共通のワー
クステーションを兼ねても良いことも勿論のことであ
る。更には共通のワークステーションは1台に限られる
ものではなく、システムの階層レベルに応じて複数台設
けられるものであっても良い。要するに、複数のワーク
ステーションから容易に特定することのできるものとし
て共通のワークステーションが設定される。
ここで第50図に示した『個人スケジュール』リレーシ
ョンのデータ構造について簡単に説明する。
このリレーションからは、そのリレーション名が『個
人スケジュール』であり、『△△△△』によって作成さ
れたことが示される。このリレーション作成者『△△△
△』は該リレーションに対して全てのデータ操作が許可
される。
またこのリレーションに付加されたデータ保護機能に
よれば、データの読出しは全員に許可されており、デー
タの追加は『○○○○』と『技術部に所属する者』に対
してのみ許可されている。尚、この『技術部に所属する
者』は、例えば『人事』のリレーションを参照する等し
て求められる。またデータの変更は『人レベル』の値が
『5』以上のものに対してのみ許可されている。この
『人レベル』とは人事リレーションに関するものであ
り、例えば(部長;8)(次長;7)(課長;6)(主任;5)
等として役職を表わす。
更にこのリレーションには、『開始時刻』『終了時
刻』『種類』『名称』『場所』等のアトリビュートが設
定され、そのそれぞれにデータが書込まれるようになっ
ている。
次にこのデータベース部32における上述した各種のリ
レーションを実際に記憶する為の物理構造について説明
する。
情報蓄積部(記憶部)は大量データを蓄積し、その任
意の部分を比較的高速に読み書きすることができ、価格
的にさほど高価でないものとして、前述した磁気ディス
ク装置32cや光ディスク装置32gが用いられる。
この情報蓄積部へのデータベースの蓄積は、該情報蓄
積部の記憶領域を特定の大きさ(例えば数キロバイト程
度で、タップル長や計算機の速度等に応じて定められ
る)毎に区切り、各々をページとして管理して行われ
る。そして第52図に示すように、例えば第0ページにペ
ージ管理の情報を、第1ページにリレーション一覧表の
情報を、また第2ページに使用中のページ情報をそれぞ
れ格納する。
このリレーションの一覧表によって、データベース中
における種々のリレーションの所在が示される。
例えば第9ページおよび第11ページに格納された実デ
ータは、第5ページに格納されたリレーションのアトリ
ビュート(主アトリビュート)に基き、第10ページに格
納されたインデックスページの情報に従ってソートされ
るようになっている。このインデックスページの情報
は、アトリビュートの値が幾つから幾つ迄のものがどの
ページに格納されているかを示すものである。
この主アトリビュート以外のアトリビュートによりデ
ータ検索する場合には、そのアトリビュートについて第
20ページのサブ・インデックスを経由して、先ず第21ペ
ージや第22ページに示されるサブデータを得る。このサ
ブデータにはアトリビュートの値と前述した主アトリビ
ュートの値のみが入っており、ここで求められるアトリ
ビュートの値を用いて実際のデータが求められる。
尚、例えば画像データや音声データのようにその実デ
ータの量が膨大であり、その中の幾つかのビット誤りが
問題とならない場合には、これらの実データを光ディス
ク装置32d等の別の安価な情報記憶装置にファイルする
ようにしても良い。この場合には、第9ページや第11ペ
ージ等の実データ用ページには、その旨とその装置での
実データの格納位置情報を記憶しておくようにすれば良
い。
しかしてこのように構築されたテータベースに対する
付加機能は、例えば不要データの自動廃棄等からなる。
この不要データの自動廃棄は、リレーションの付加情報
として[廃棄;可/不可][廃棄の方法]等を与えてお
き、所定の間隔でリレーション毎の消去コマンドを動作
させて行われる。
尚、タップルの消去は、例えば会議情報についてはそ
の終了時刻が現在の時刻より前であるか否か等を判定し
て行なうことが可能である。従ってこのようなタップル
の消去については、格別の機能追加は不要である。
また付加機能の他の重要な機能としてデータの保全が
ある。このデータの保全機能は、例えばハードウェアの
故障や停電等に原因してデータが不正(でたらめになっ
たり失われたりすること)となることを防ぐものであ
る。具体的にはこのデータの保全機能は、情報の二重化
や磁気テープへの書出し等によって実現される。
このようにデータベース部32では、種々のデータをリ
レーション毎に分類整理し、且つページ単位に管理して
種々の応用システムに供するものとなっている。
次に作業環境データ収集部25について説明する。
この作業環境データ収集部25は、該ワークステーショ
ンに対する過去の操作履歴のデータを収集し、これに基
く操作ガイドを行なうものである。
ここで作業環境データ収集部25には、例えば第53図に
示すように当該情報処理システムが持つ機能に対応する
コマンドと、他の情報システムが持つ機能に対応するコ
マンドとを対応付けるコマンド対応テーブルが設けられ
ている。
具体的には当該情報処理システムをA、他の情報処理
システムをB,C,D,…としたとき、システムAにおけるコ
マンド“DELETE"に対応する他のシステムのコマンドが
“DEL"や“ERASE"“REMOVE"であることが、該コマンド
対応テーブルによって示されるようになっている。
第54図は利用者により入力されたコマンドを解析し、
所定の動作および各種ガイダンスを実行する作業環境デ
ータ収集部25の概略構成を示すものである。
この作業環境データ収集部25では、先ずコマンド入力
部25aから入力されたコマンドをコマンド解析部25bに与
え、コマンド対応テーブル25cを参照して解析してい
る。具体的には第55図に示す手続きの流れに従って入力
コマンドがコマンド対応テーブル25cに登録されている
かを調べている。即ち、コマンドが入力されると、先ず
その入力コマンドがシステムAのものであるか否かが調
べられる。そして入力コマンドがシステムAのコマンド
であると解析されると、前記コマンド解析部25bは該入
力コマンドをコマンド実行部25dに与え、そのコマンド
に基く所定の動作を実行させている。
一方、入力コマンドがシステムAのものでない場合に
は、他のシステムのコマンドに該当するか否かが調べら
れ、対応付けされているコマンドが存在する場合には、
その対応コマンドを画面表示部25eにて表示する。つま
り他のシステム(システムB)で用いられているコマン
ドが、例えば“DEL"である場合には、これに対応するシ
ステムAのコマンド“DELETE"を求め、これを操作ガイ
ダンスとして画面表示部25eに表示することになる。
尚、入力コマンドに該当するコマンドがコマンド対応
テーブル25cに存在しなかった場合には、画面表示部25e
にてコマンドエラーメッセージの表示を行なう。
具体的には次のようにしてそのコマンド入力に対する
処理が行われる。今、システムB,Cの操作経験の利用者
が始めてシステムA(当該情報処理システム)を操作す
るものとする。ここで利用者がコマンドを入力してデー
タ“ABC"を消去する場合、従来ではシステムAの取扱い
説明書に従ってデータ消去の為の“DELETE"なるコマン
ドを探し、これを入力することが必要となる。
しかしここでは、その利用者は過去の経験に従って、
例えばシステムCで用いていたデータ消去コマンド“ER
ASE ABC"を第56図(a)に示すように入力する。
すると作業環境データ収集部25ではこの入力コマンド
を解析し、前記コマンド対応テーブル25cから入力コマ
ンド“ERACE"に対応するシステムAのコマンド“DELET
E"を求め、これをガイドとして表示することになる。こ
の結果、利用者はシステムAを始めて操作する場合であ
ってもそのデータ消去のコマンドが“DELETE"であるこ
とを知り、そのコマンドをガイドに従って入力すること
により、そのデータ消去を行なうことが可能となる。
またファイル名のリストを表示するべく、例えば第56
図(b)に示すようにシステムBにおけるコマンド“DI
R"を入力した場合には、同様にして該システムAにおい
て対応するコマンド“CATA"が求められ、ガイド表示さ
れる。この結果、このガイドに従ってコマンド“CATA"
を入力することによって、そのファイル名のリストが表
示される。
このようにこの作業環境データ収集部25の機能を活用
することにより、過去の操作経験のあるシステムで用い
られていたコマンドの入力によって、そのシステムにお
ける対応コマンドがガイド表示される。従ってシステム
利用者は、過去に得た知識を最大限に利用してシステム
を操作することが可能となる。そして当該情報処理シス
テムのコマンドを容易に知ることが可能となる。従って
その都度、当該情報処理システムの操作声明書を調べる
等の煩わしさから解放される。故に、システムの操作の
習得に要する時間を大幅に短縮することができる等の効
果が期待できる。
尚、入力コマンドに対応するコマンドを求め、これを
ガイド表示したとき、その合否の判定入力を受けて、こ
のコマンドを実行するようにしても良い。
即ち、第57図にその手続きの流れを示し、第58図にそ
の表示例を示すように他のシステムの消去コマンド“ER
ASE"し、これに対応するシステムAの消去コマンド“DE
LETE"が求められたとき、これが正しいか否かを問合せ
る。そして正(Y)なる指示入力があったとき、その入
力コマンドが“DELETE"を示していると判定し、これを
コマンド実行部25dに送ってその処理を実行させるよう
にする。
このようにすれば、コマンドの対応関係がガイド指示
されると同時に、その入力コマンドに従って所望とする
処理が実行されるので、改めて正しいコマンドを入力し
直す必要がなくなる。つまり入力コマンドの対応コマン
ドへの自動変換が行われて、その処理が実行されること
になる。従って、更にその操作性の向上を図ることが可
能となる。
尚、対応コマンドはシステムの種類に応じて何種類存
在しても良いものである。要はコマンド対応テーブル25
cに対応付けてそれぞれ格納しておけば良い。またコマ
ンドは上述した文字列形式に限定されないことも云うま
でもない。
次にこの作業環境データ収集部25におけるシステム習
熟度のデータ収集について説明する。
第59図はシステム習熟度のデータ収集処理を示す流れ
図である。
利用者がその識別コード(ユーザ番号やパスワード
等)を入力すると、作業環境データ収集部25はその識別
コードに対応する習熟度表を外部記憶装置から求め、装
置内部にセットする。この習熟度表は各利用者がシステ
ムの様々な利用機能に対してどの程度習熟しているかを
格納したもので、例えば第60図に示す如く構成されてい
る。
即ち、この習熟度表は各利用機能に対してその利用頻
度、最終利用年月日時、ユーザが申告した該機能に対す
る習熟クラス、該機能を前回利用した際の習熟度クラ
ス、更には該機能の複雑度の情報等によって構成されて
いる。
ここで複雑度とは該当利用機能が専門知識を要求する
程高くなり、また基本機能より高級機能になる程高くな
るものである。
しかしてこのような習熟度表は各利用者毎に設けら
れ、外部記憶装置にそれぞれ記憶されている。尚、シス
テムを始めて利用する利用者に対しては、識別コードの
新規設定によりその利用者に対する習熟度表が作成さ
れ、外部記憶装置に登録される。
尚、外部記憶装置には、例えば第61図に示すように上
述した習熟度表に加えて、前記習熟度クラスに対応した
利用機能毎のメッセージが登録されている。このメッセ
ージは習熟度のクラスが低い程、その背景説明を含む判
り易い説明となっている。また習熟度の高いクラスほ
ど、簡略な説明と専門的な機能の紹介を含んだ高度な内
容となっている。
また習熟度のクラスは、例えば A;初級者クラス B;中級者クラス C;習熟者クラス のように分類設定される。
しかして入力された識別コードに対応した習熟度表が
求められると、次にその利用機能を利用者に選択させる
為のメニューが表示される。このメニューに対して利用
者は、例えばその利用機能に対応する番号等を入力す
る。すると制御部ではその入力情報が終了信号か利用機
能の選択信号かを判断し、利用機能選択信号の場合には
次のように動作する。
即ち、利用機能選択信号が入力されると、先ずその利
用者に関する前記習熟度表を参照し、選択された利用機
能に対応する利用頻度や最終利用年月日時,申告習熟度
クラス等の情報が求められる。そしてこれらの情報に従
って重み付け処理を施し、現在の習熟度クラスの決定が
行われる。
この習熟度クラスの判定は、例えば利用頻度をPi、最
小利用年月日時をTe、現在の利用年月日時をTc、利用者
申告習熟度クラスをX1、前回利用習熟度クラスをV
2 {A,B,C}、複雑度をPc、そして判別関数をFrとした
とき、 Fr=K1Pi+K2(Tc+Te)+K3G1[X1] +K4G2[X2]+K5Pc として求められ。但し、上式においてK1,2,3,K
4は、実験等によって適切な値に設定される定数であ
る。また上記G1,G2であり、Y1,2,3,1,2,Z3は、A,B,Cに対する評
価重みである。これらの評価重みは Y1<Y2<Y3,Z1<Z2<Z3 なる関係を有し、実験等によって適切な値に設定され
る。
ここでG1[X1]は、X1=AのときY1なる値を取り、X2
=BのときY2なる値を取ることを意味する。また(Tc
Te)は、最終利用年月日時から現在までの日数を時間換
算したものである。
しかしてクラス判定は、上述した判別関数Frの値によ
り次のようにして行われる。
Fr<N1 …Aクラス N1≦Fr<N2 …Bクラス N2≦Fr …Cクラス 尚、判定閾値N1,N2は実験等に基いて適切に定められ
る。
このようにして習熟度クラスが決定されると、その決
定された習熟度クラスに対応し、且つ前述した如く指定
された利用機能に該当するガイドメッセージやエラーメ
ッセージを外部記憶装置から求める。
しかる後、今回決定された習熟度クラスと、前記習熟
度表に格納されている前回の習熟度クラスとを比較照合
する。そして習熟度クラスに変更がある場合には、その
習熟度に変更がある旨を示すメッセージを前記ガイドメ
ッセージ等に付加して書込む。
この習熟度クラス変更のメッセージは、例えば第62図
に示すような4種類のメッセージからなる。そしてその
クラス変更の形態に応じて求められ、前記ガイドメッセ
ージ等と共に表示される。利用者はこのようにして表示
される各種メッセージに従ってその処理操作を行なうこ
とになる。
具体的には作成データをファイルに格納する利用機能
に対して、その利用者が初級者クラス(Aクラス)と判
定されると第63図に示す如きメッセージが表示される。
そしてこのメッセージにも拘らず利用者が情報入力を誤
った場合には、例えば第64図に示すようなエラーメッセ
ージの表示が行われ、その利用機能に対する操作のガイ
ドが行われる。
またその利用者の熟練度が中級者クラス(Bクラス)
と判定された場合には、第65図に示す如きメッセージが
表示される。そしてこのメッセージにも拘らず利用者が
情報力入力を誤った場合には、例えば第66図に示すよう
なエラーメッセージの表示が行われ、その利用機能に対
する操作のガイドが行われる。同様にその利用者の習熟
度が習熟者クラス(Cクラス)と判定された場合には、
第67図に示す如きメッセージが表示され、情報入力の誤
りがある場合には、例えば第68図に示すようなエラーメ
ッセージの表示が行われてその利用機能に対する操作の
ガイドが行われる。
しかして上述した如く表示したガイドメッセージの空
欄に対してデータ入力が行われると、制御部は前述した
如く求めている該当利用者の習熟度表の当該利用頻度を
(+1)すると共に、最終利用年月日時および前回利用
習熟クラスの更新を行なう。そして該利用機能の実行を
促すと共に、該当利用機能が終了したものと看做して前
述した利用機能選択の為のメニュー表示動作に戻る。
ここで再び利用機能選択信号が入力されると、上述し
た処理を再び繰返して実行することになる。しかし終了
選択信号が入力された場合には、上述した如く作成・更
新した習熟度表を外部記憶装置の習熟度ファイルに、そ
の該当利用者の識別コードと共に書込み、これを保存す
る。そしての一連の処理手続きを終了する。
このようにして作業環境データ収集部25では、システ
ムの操作に関する習熟度のデータを収集しながら、その
収集されたデータに従ってその操作を適切にガイダンス
するものとなっている。
以上が本ワークステーションの基本的な構成とその機
能である。
次に上述した如き基本機能を備えた本ワークステーシ
ョンにおける本発明の特徴的な処理機能について説明す
る。
この本発明に係る特徴的な機能、つまり電話を介する
情報の問合せに対する目的情報の抽出とその情報の上記
電話を介する応答出力機能は、主として前述した音声認
識処理機能、データベース部32の検索処理機能、図形認
識処理機能等を用いて実現される。
第69図は本処理機能の概略的な流れを示すものであ
る。この処理機能は、例えば出先の任意の電話端末から
電話回線を介して本ワークステーションをアクセスし、
この電話を介して本ワークステーションに対する処理手
続きの要求を音声入力することによって起動される(ス
テップa)。このワークステーションに対する処理手続
きの要求は、例えば特定の個人の自宅(目標物)までの
道順を問合せる場合、その要求項目を特定する単語音声
を入力することによって行われる。
具体的には、『案内(アンナイ)』『自宅(ジタ
ク)』『山田(ヤマダ)』『太郎(タロウ)』等の単語
音声を順に発声して、ワークステーションに対する要求
項目の情報を音声入力する。
しかしてこれらの単語音声の情報は前記通信装置12,1
3を介してワークステーションに取込まれ、前記音声認
識部19にて音声認識される。そしてその認識結果の解析
が行われ、入力音声の要求項目が認識され、例えば『山
田太郎さんの自宅までの案内情報の提供が要求されてい
る。』ことが解析される(ステップb)。
その後、上記認識結果が目標物に対する道案内を要求
しているか否かが判定される(ステップc)。そしてそ
の要求項目の内容に応じた処理がそれぞれ起動される。
ここで目標物に対する案内情報の提供が要求された場
合には、上記音声入力され、認識処理された項目情報に
従って前記データベースからの該当情報の検索抽出処理
が起動される(ステップd)。即ち、前記データベース
の“住所録リレーション”の中の“名前アトリビュー
ト”や“住所録アトリビュート”“自宅案内図アトリビ
ュート”等を前記音声入力された項目情報に従って順に
検索する。具体的には、上述した要求項目の情報が入力
された場合には、例えば“名前アトリビュート”から
『山田太郎』を検索し、これに対応する“自宅案内図ア
トリビュート”の内容を取出す。そしてこの内容から
『山田太郎さんの自宅案内図』の図面番号を求め、デー
タベースから該当図面番号の、例えば第70図に示すよう
な案内図(地図情報)の図面(画像)データを抽出す
る。
一方、前記出力形態選択部24にて上述した要求項目の
情報を電話回線を介して音声入力した電話端末の種別が
判定される。この判定処理は、該電話端末がファクシミ
リ(FAX)端末としての機能を備えているか否かを判定
し(ステップe)、FAX機能を備えていない場合には、
例えば上記電話端末が液晶ディスプレイ等の画像表示装
置を使用することができるか否かを判定することによっ
て行われる(ステップf)。
このような判定処理の結果、問合せ要求を発した電話
端末がFAX機能を備えている場合には、上記データベー
スから検索抽出した当該要求項目の案内図を、その電話
回線を介して上記電話端末にFAX送信出力する(ステッ
プg)。
また問合せ要求を発した電話端末がFAX機能を備えて
いないが、液晶ディスプレイ等の画像表示装置を具備し
ている、或いは画像表示装置を接続可能な場合には、前
記データベースから検索抽出した該当要求項目の案内図
を、その電話回線を介して上記電話端末に画像データ出
力する。そしてその電話端末の表示装置にて前記案内図
を画像表示させ、要求された情報を提供する(ステップ
h)。
これに対して問合せ要求を発した電話端末が、通常の
電話機の如き画像表示(出力)機能を持たない場合に
は、後で詳述するように前記データベースから検索抽出
された案内図の解析処理が行われ、その内容を示す文章
データの作成が行われる(ステップi)。そしてこの作
成文章データの音声合成処理が行われ、前記電話回線を
介する音声メッセージの応答出力による情報提供が行わ
れる(ステップj)。
さて前記データベース部32に格納され、電話による問
合せに対する情報提供に供される案内図(地図情報)
は、第70図に例示するように道路を示す線分と各種のシ
ンボルとによって表現される。尚、各種のシンボルは、
例えば第71図に示すように目標物に対する目印となる情
報(交番や病院等)を予め設定した図形パターンとして
与えられる。
ここでこれらの線分や各種のシンボルで表現される案
内図は、例えば各シンボルをそれぞれ孤立させて(道路
を示す線分と接することなく)作成され、道順を示す道
路線分を太線化する等して作成される。また道路を示す
線分の横には、例えば交差点や曲り点等の代表的な特徴
点間の距離を示す情報が記入される。
このように取決めに基いて案内図が作成されることに
より、その道順の案内情報が簡潔に、且つ適確に呈示さ
れるものとなっている。また以下に説明するように、案
内図の認識・分析処理による案内文章の作成の容易化が
図られるものとなっている。
さて、上記案内図からの案内文章の作成は次のように
して行われる。
第72図は前記図形認識部22の一部として実現される案
内図解析部の構成例を示すもので、細線化処理部22m,セ
グメント分割部22n,シンボル検出部22p,シンボル認識部
22q,道セグメント検出部22r,道順検出部22s,そして案内
文作成部22tを備えて構成される。
細線化処理部22mは前記データベースから読出された
案内図を細線化処理し、例えば前記道路を示す線分を線
幅1に細線化するものである。この細線化によって線分
の追跡の容易化が図られ、端点や分岐点の特徴点の抽出
が容易化される。
セグメント分割部22nは上述した如く細線化された案
内図の画像データを、例えば第73図に示すようにラスタ
スキャンして線分の開始点を求め、この開始点を1つの
特徴点として線分の追跡を行う。この線分の追跡は、例
えば第74図に示すように現在点への進入方向に対する進
行方向の優先順位を定め、前記線分を順に辿りながら進
行方向の変化を調べて交差点や屈折点等の特徴点を求め
る。そしてその線分を上記特徴点にて順にセグメント分
割し、各セグメントの特徴情報を抽出することによって
行われる。尚、このようにして抽出されるセグメントの
情報は、例えば第75図に例示するようなセグメント・テ
ーブルに順に格納されて後述する道セグメントの検出等
に供される。
尚、セグメント・テーブルは、検出されたセグメント
毎に順に番号付けして各セグメントの情報を管理するも
ので、そのセグメントの開始点座標,終点座標,長さ,
線幅,角点数,他のセグメントとのリンク情報,シンボ
ルや文字や道路の別を示すフラグ情報等を格納するもの
となっている。
尚、上記線幅は、例えば第76図に示すように線分を幅
方向に走査したときの黒点の数を計測し、最も少ない計
数値を線幅の値として求めるようにすれば良い。また角
点については第77図に示すように線分上の3点a,b,cを
一定間隔で求め、これらの3点間で形成される直線abと
直線bcとのなす角度θを求め、その各自θが所定値以下
となったときに上記点bを角点候補とする。そして上記
3点a,b,cをずらしながら同様な処理を繰返し、角点候
補を相互に比較して真の角点を最終的に決定するように
すれば、簡易に角点を求めることが可能となる。
しかして道セグメント検出部22rは上述した如く求め
られたセグメント情報から道路を示すセグメントを検出
しており、道順検出部22sは道路を示すセグメント中の
線幅の太いセグメントを抽出して、これを道順を示すセ
グメントであると判定している。
一方、シンボル検出部22pは前記セグメント情報中
の、例えば閉ループ形成するセグメントをシンボル・マ
ークとして検出しており、シンボル認識部22qはそのシ
ンボル・マークの特徴から前述した第71図に示す対応情
報に従い、そのシンボルを認識している。そしてその認
識されたシンボルが前述した道路を示すセグメントに対
してどのような位置関係にあるかを認識している。
以上のようにして前記データベースから検索抽出され
た案内図の図面情報がセグメント分割とシンボル認識等
によって分析され、認識処理される。
案内文作成部22tはこのような認識結果に従って、例
えば駅を道順案内開始点とし、目標物(目標地)までの
道順を前記太線で示される道路の情報として求めてい
る。同時にその道順に沿って、その道路長やその道路周
辺に存在するシンボルの認識結果を道順案内の目印とし
て求めている。そして、第70図に示す案内図が与えられ
た場合には、例えば次のような案内文を順に作成するも
のとなっている。
駅を出て20メートルほど直進します。
突当たった所で左に曲ります。
50メートルほど進むと右手に病院があり、交差点に
出ます。
この交差点を右に曲ります。
200メートルほど進むと右手に交番があり、交差点
に出ます。
この交差点を右に曲ります。
150メートルほど進むと右手に目的地があります。
以上です。
以上のように作成した文章データを音声合成部26に与
え、前述したようにその文字列を解析して上記文章デー
タに対応した音声を規則合成する。そしてこの規則合成
した音声データを前記通信装置12,13をから電話回線を
介して前述した問合せのあった電話端末に音声出力する
ことになる。
以上のように本発明によれば、電話回線を介して音声
入力された問合せの情報を音声認識し、例えば道順の問
合せに対する案内図がデータベースから検索抽出され
る。そして上記問合せを発した電話端末が画像データ通
信機能を備えている場合には、上記案内図を画像データ
通信してその電話端末に出力し、該電話端末が画像通信
機能を備えていない場合には、上記案内図の解析が行わ
れてその内容を示す案内文章の作成が行われる。そして
この案内文章を音声合成して電話端末に音声出力され
る。
従って問合せの要求を発した電話端末に対して、例え
ば目的地までの道順案内を案内図として、或いは案内文
章として効果的に応答することができる。しかも問合せ
を発した電話端末の種別に応じて、つまりFAX等の画像
通信機農やディスプレイ等の画像表示機能を備えている
かに応じて上記案内図を画像として、または案内文章を
音声として選択的に応答出力することができる。故に、
その問合せに対する応答を簡潔で理解し易い形式で与え
ることが可能となり、種種の状況下における種々の問合
せに効果的に対処することが可能となる。
またワークステーションにとっては、上述した案内文
章を予め作成しておき、この案内文章を案内図に対応さ
せてそれぞれデータベースに格納しておく必要がないの
で、データベースに必要なメモリ容量を低減することが
できる。換言すれば、データベースが持つメモリ容量を
有効に活用して、他の情報の格納を可能とする等の効果
が奏せられる。
しかも案内文章を必要とするか否かが不明な案内図に
関してまでも、予めその案内文章を作成しておく必要が
ないので、案内文章作成の為の労力を大幅に軽減するこ
とができる。そして案内文章が必要となった時点での
み、その案内図に基く案内文章の作成が行われるので、
その処理効率が高い等の実用上多大なる効果が奏せられ
る。
尚、本発明は上述した実施例に限定されるものではな
い。例えば案内図の解析アルゴリズムや、解析された案
内図の情報に基く案内文章の作成アルゴリズムはそのシ
ステム使用に応じて定めれば良いものである。また音声
の合成アルゴリズムも種々変形可能である。要するに本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。
[発明の効果] 以上説明したように本発明によれば、問合せ要求を発
した電話端末の種別に応じた効果的な問合せ応答を行う
ことが可能である。そして図面情報から必要に応じて文
章データを作成するので、予め音声メッセージデータを
作成しておく等の手間を省くことができ、また音声メッ
セージを格納しておく為の記憶装置が不要である等の効
果が奏せられる。この結果、高度な機能を備えたワーク
ステーションを低コストに構築することが可能となる等
の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、 第1図は本発明に係るワークステーションの特徴的な処
理機能を示す図、第2図はワークステーションの概略構
成図、 第3図はワークステーションに付随するICカードの外観
図、第4図はICカードの構造を示す分解斜視図、第5図
はICカードのプリント基板部の構造を示す図、第6図は
ICカードの半導体集積回路部の構成を示す図、 第7図はワークステーションにおける暗号化処理部の構
成を示す図、第8図は暗号・復号化の概念を示す図、第
9図は暗号化部の構成図、第10図は復号化部の構成図、
第11図はRSA処理部の構成図、 第12図はワークステーションにおけるイメージ照合部の
構成を示す図、第13図はイメージ処理される顔の例を示
す図、第14図はイメージ・データの構造を示す図、 第15図はワークステーションにおける音声認識部の構成
を示す図、第16図は入力音声パターンの例を示す図、第
17図は子音の音響的特徴を示す図、第18図は遷移ネット
ワークの例を示す図、第19図は音声認識処理の手続きを
示す図、第20図は入力音声に対する部分区間検出を説明
する為の図、第21図は音声認識辞書の学習処理手続きを
示す図、 第22図はワークステーションにおける文字認識部の第1
の文字認識ブロックの構成を示す図、第23図は認識対象
となる文字が記載されるFAX送信原稿用紙の例を示す
図、第24図は認識対象文字の切出し処理を説明する為の
図、第25図は文字認識部における第2の文字認識ブロッ
クの構成を示す図、 第26図はワークステーションにおける図形認識部の構成
を示す図、第27図乃至第30図は図形認識処理を説明する
為の図、 第31図はワークステーションにおけるイメージ認識部の
構成を示す図、第32図はコード変換装置の構成図、第33
図は入力イメージに対する処理例を示す図、第34図はセ
グメントにおける特徴点検出を示す図、 第35図はワークステーションにおける音声照合部の構成
を示す図、第36図はフィルタバンクの帯域分割例を示す
図、第37図はフィルタ特性を示す図、 第38図はワークステーションにおける音声合成部の構成
を示す図、第39図は規則合成パラメータ生成装置の構成
図、第40図は音声パラメータの変換構造を示す図、第41
図は音声合成器の構成図、 第42図はワークステーションにおけるイメージ合成部の
構成を示す図、第43図および第44図はイメージ合成処理
の概念を示す図、 第45図はワークステーションにおける出力形態選択部の
構成を示す図、第46図は出力形態選択処理手続きの流れ
を示す図、第47図は相手局識別処理手続きの流れを示す
図、第48図はメディア変換テーブルの構造を示す図、 第49図はワークステーションにおけるデータベース部の
構成を示す図、第50図はデータベースのデータ構造を示
す図、第51図はリレーションの例を示す図、第52図はリ
レーションの構造を示す図、 第53図はコマンド対応テーブルの構造を示す図、第54図
はワークステーションにおける作業環境データ収集部の
構成を示す図、第55図乃至第58図はコマンド部の処理を
説明する為の図、第59図はシステム習熟度のデータ収集
処理の流れを示す図、第60図は習熟度表の構造を示す
図、第61図乃至第68図は作業環境データ収集部の処理を
説明する為の図、 第69図乃至第77図は本ワークステーションにおける問合
せ応答の機能を説明する為の図で、第69図は問合せ応答
手続きの流れを示す図、第70図はデータベースから検索
抽出される案内図の例を示す図、第71図はシンボルの意
味を示す図、第72図は案内図を解析して案内文章を作成
する処理機能の概略的なブロック構成図、第73図乃至第
77図はそれぞれ案内図の解析処理手続きの手法を説明す
る為の図である。 1……バス、2……制御部、3……イメージ入力装置、
4……位置入力装置、5……音声入力部、6……キーボ
ード部、7……ICカード部、8……バスコントローラ、
9……音声出力装置、10……ディスプレイ部、11……イ
メージ出力装置、12,13……通信装置、14……切換え装
置、15……タイマー部、16……暗号化処理部、17……音
声照合部、18……イメージ照合部、19……音声認識部、
20……音声分析部、21……文字認識部、22……図形認識
部、22m……細線化処理部、22n……セグメント分割部、
22p……シンボル検出部、22q……シンボル認識部、22r
……道セグメント検出部、22s……道順検出部、22t……
案内文作成部、23……イメージ認識部、24……出力形態
選択部、25……作業環境データ収集部、26……音声合成
部、27……イメージ合成部、28……図形合成図、29……
音声の圧縮・伸長部、30……イメージの圧縮・伸長部、
31……信号処理部、32……データベース部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/62 335

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】電話回線を通して入力された単語音声を認
    識し、その認識結果を分析する手段と、この分析結果に
    従ってデータベースを検索して上記入力音声が示す地図
    情報を該データベースから抽出する手段と、前記電話回
    線を介して音声入力した通信端末が画像出力機能を備え
    るか否かを検定する手段と、上記通信端末が画像出力機
    能を備える場合には上記地図情報を前記電話回線を介し
    て画像送信する手段と、前記通信端末が画像出力機能を
    備えない場合には前記地図情報を分析し、その分析結果
    に従って前記地図の内容を示す文章データを作成する手
    段と、作成された文章データを音声合成して前記電話回
    線を介して出力する手段とを具備したことを特徴とする
    知的ワークステーション。
  2. 【請求項2】地図情報は、目標物に対する案内図であっ
    て、目標物毎に分類されてデータベースに格納されたも
    のである特許請求の範囲第1項記載の知的ワークステー
    ション。
JP62056738A 1987-03-13 1987-03-13 知的ワ−クステ−シヨン Expired - Lifetime JP2558682B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62056738A JP2558682B2 (ja) 1987-03-13 1987-03-13 知的ワ−クステ−シヨン
US07/167,256 US4907274A (en) 1987-03-13 1988-03-11 Intelligent work station

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62056738A JP2558682B2 (ja) 1987-03-13 1987-03-13 知的ワ−クステ−シヨン

Publications (2)

Publication Number Publication Date
JPS63223965A JPS63223965A (ja) 1988-09-19
JP2558682B2 true JP2558682B2 (ja) 1996-11-27

Family

ID=13035864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62056738A Expired - Lifetime JP2558682B2 (ja) 1987-03-13 1987-03-13 知的ワ−クステ−シヨン

Country Status (2)

Country Link
US (1) US4907274A (ja)
JP (1) JP2558682B2 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5303148A (en) * 1987-11-27 1994-04-12 Picker International, Inc. Voice actuated volume image controller and display controller
US5115501A (en) * 1988-11-04 1992-05-19 International Business Machines Corporation Procedure for automatically customizing the user interface of application programs
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
US4996707A (en) * 1989-02-09 1991-02-26 Berkeley Speech Technologies, Inc. Text-to-speech converter of a facsimile graphic image
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5293256A (en) * 1989-08-14 1994-03-08 Minolta Camera Kabushiki Kaisha Facsimile apparatus comprising a one-touch dial function
US5072309A (en) * 1990-02-02 1991-12-10 At&T Bell Laboratories Information retrievel arrangement including facsimile apparatus
JP2783630B2 (ja) * 1990-02-15 1998-08-06 キヤノン株式会社 端末装置
JPH04235669A (ja) * 1991-01-11 1992-08-24 Nec Corp 貨物送達状況音声認識応答システム
EP0505621A3 (en) 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5283731A (en) * 1992-01-19 1994-02-01 Ec Corporation Computer-based classified ad system and method
KR100206258B1 (ko) * 1992-04-28 1999-07-01 윤종용 화상추출장치
EP0569171A1 (en) * 1992-05-08 1993-11-10 Moore Business Forms, Inc. Method and apparatus for printing photographs on documents
JPH05347680A (ja) * 1992-06-12 1993-12-27 Canon Inc 通信装置
JP2773559B2 (ja) * 1992-07-16 1998-07-09 富士ゼロックス株式会社 画像編集処理装置および画像編集処理システム
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
US5945985A (en) * 1992-10-27 1999-08-31 Technology International, Inc. Information system for interactive access to geographic information
US5519809A (en) * 1992-10-27 1996-05-21 Technology International Incorporated System and method for displaying geographical information
US6396597B1 (en) 1993-02-10 2002-05-28 Qwest Communications International Inc. Computer network-based facsimile reception system
IT1272573B (it) * 1993-09-06 1997-06-23 Alcatel Italia Sistema automatico di acquisizione guidata di segnali vocali da linea telefonica
JP3138370B2 (ja) * 1993-09-09 2001-02-26 株式会社日立製作所 情報処理装置
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
US5454039A (en) * 1993-12-06 1995-09-26 International Business Machines Corporation Software-efficient pseudorandom function and the use thereof for encryption
US5532838A (en) * 1993-12-27 1996-07-02 Barbari; Edward P. Method & apparatus for dynamically creating and transmitting documents via facsimile equipment
US5835236A (en) * 1993-12-27 1998-11-10 Barbari; Edward P. Method and apparatus for dynamically creating and transmitting documents via facsmile equipment
CH689361A5 (de) * 1994-01-04 1999-03-15 Franz Piehler Kommunikationsverfahren und Einrichtung zur Kommunikation zwischen Teilnehmerstationen zum Informationsaustausch.
US5579393A (en) * 1994-06-21 1996-11-26 Escan, Inc. System and method for secure medical and dental record interchange
JP3499625B2 (ja) * 1995-01-11 2004-02-23 富士通株式会社 電子コミュニティシステム
US5682525A (en) 1995-01-11 1997-10-28 Civix Corporation System and methods for remotely accessing a selected group of items of interest from a database
JPH11505342A (ja) * 1995-02-27 1999-05-18 アンフォルマシオン メディカル エ スタティスティーク 情報オブジェクト、特に文書、を処理しアクセスする方法および該方法を実施するためのシステム
US5712905A (en) * 1995-06-08 1998-01-27 Shaw; Venson M. Sequential digital profile for processing analog signals
US5794221A (en) * 1995-07-07 1998-08-11 Egendorf; Andrew Internet billing method
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6335927B1 (en) 1996-11-18 2002-01-01 Mci Communications Corporation System and method for providing requested quality of service in a hybrid network
US6690654B2 (en) 1996-11-18 2004-02-10 Mci Communications Corporation Method and system for multi-media collaboration between remote parties
US6021220A (en) * 1997-02-11 2000-02-01 Silicon Biology, Inc. System and method for pattern recognition
US7606359B1 (en) * 1997-09-16 2009-10-20 Verizon Services Corp. Methods and apparatus for automating the servicing of telephone calls including requesting directional and/or other types of information
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US5927988A (en) 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US6195568B1 (en) * 1998-02-24 2001-02-27 Ericsson Inc. Radiotelephone adapted to the identity of its user
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system
US6478227B1 (en) * 2000-08-23 2002-11-12 Teco Image Systems Co., Ltd. Communication device for storing personal or department data
EP1241600A1 (de) * 2001-03-13 2002-09-18 Siemens Schweiz AG Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen
US7454400B2 (en) * 2002-10-24 2008-11-18 Xerox Corporation System for negotiation with mirroring
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
US7647212B2 (en) * 2003-11-14 2010-01-12 Palo Alto Research Center Incorporated Graph-based negotiation system with encapsulated constraint solver
US20050153267A1 (en) * 2004-01-13 2005-07-14 Neuroscience Solutions Corporation Rewards method and apparatus for improved neurological training
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
CN102804210A (zh) * 2010-03-15 2012-11-28 因诺瓦蒂尔公司 含有显示窗的电子卡和用于制造含有显示窗的电子卡的方法
KR101905426B1 (ko) * 2012-01-11 2018-10-10 한국전자통신연구원 자연영상에서 추출된 문자 정보의 순서화 방법 및 시스템
JP7462634B2 (ja) * 2019-07-17 2024-04-05 ホシデン株式会社 マイクユニット
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编***和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60119164A (ja) * 1983-11-30 1985-06-26 Fujitsu Ltd メツセ−ジ通信処理システム
JPS60120645A (ja) * 1983-12-02 1985-06-28 Oki Electric Ind Co Ltd 加入者の地図検索方式
US4799258A (en) * 1984-02-13 1989-01-17 National Research Development Corporation Apparatus and methods for granting access to computers
JPS60233972A (ja) * 1984-05-04 1985-11-20 Matsushita Electric Ind Co Ltd 音声認識構内交換機
JPS61146047A (ja) * 1984-12-20 1986-07-03 Fujitsu Ltd 音声ダイヤル電話機
US4785408A (en) * 1985-03-11 1988-11-15 AT&T Information Systems Inc. American Telephone and Telegraph Company Method and apparatus for generating computer-controlled interactive voice services
US4731841A (en) * 1986-06-16 1988-03-15 Applied Information Technologies Research Center Field initialized authentication system for protective security of electronic information networks

Also Published As

Publication number Publication date
US4907274A (en) 1990-03-06
JPS63223965A (ja) 1988-09-19

Similar Documents

Publication Publication Date Title
JP2558682B2 (ja) 知的ワ−クステ−シヨン
CN104217149A (zh) 基于语音的生物认证方法及设备
JPH07105848B2 (ja) メデイア変換方式
WO2021135454A1 (zh) 一种伪冒语音的识别方法、设备及计算机可读存储介质
JPS63276672A (ja) 知的ワ−クステ−シヨン
JP2582356B2 (ja) フアクシミリ通信方式
JPH06187351A (ja) スケジュール管理装置
JPH1020883A (ja) ユーザ認証装置
JPH0824323B2 (ja) 知的ワ−クステ−シヨン
JPS6386652A (ja) 電話着呼情報提供システム
JPS6385968A (ja) スケジユ−ル報知方式
JPS6385934A (ja) 知的ワ−クステ−シヨン
JPS6385929A (ja) フアイル検索装置
JPS6386648A (ja) 優先電話方式
JPS6385964A (ja) スケジユ−ル表示方式
JPS6385979A (ja) ワークステーション
JPS6385963A (ja) 会議アレンジ方式
JPS6386646A (ja) ワ−クステ−シヨン
JPS6386947A (ja) ワークステーシヨン
JPS6386662A (ja) Faxメ−ル方式
JPS6386647A (ja) 自動転送電話方式
JPS6385916A (ja) 短縮キ−方式
JPS6385967A (ja) スケジユ−ルプロテクシヨン方式
JPS6386658A (ja) 音声通知装置
JPS6385931A (ja) 知的ワ−クステ−シヨン

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term