CN1442992A - 学习装置、移动通信终端、信息识别***以及学习方法 - Google Patents

学习装置、移动通信终端、信息识别***以及学习方法 Download PDF

Info

Publication number
CN1442992A
CN1442992A CN03103794A CN03103794A CN1442992A CN 1442992 A CN1442992 A CN 1442992A CN 03103794 A CN03103794 A CN 03103794A CN 03103794 A CN03103794 A CN 03103794A CN 1442992 A CN1442992 A CN 1442992A
Authority
CN
China
Prior art keywords
mentioned
instructions
information
mobile communication
communication terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03103794A
Other languages
English (en)
Other versions
CN100426818C (zh
Inventor
真锅宏幸
平岩明
杉村利明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN1442992A publication Critical patent/CN1442992A/zh
Application granted granted Critical
Publication of CN100426818C publication Critical patent/CN100426818C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Image Analysis (AREA)
  • Computer And Data Communications (AREA)

Abstract

提供一种学习装置、移动通信终端、信息识别***以及学习方法。将用户的肌电信息发送到数据中心(28),用来生成进行基于肌电信息的发话内容识别所必需的识别参数的计算负荷高的学习,不是由移动通信终端(27)而是由数据中心(28)进行。由此,与固定型的计算机等相比在处理速度及存储器等的限制大的移动通信终端(27)中进行学习时相比较,可以在短时间内进行效率良好的学习。并且,因为是将在数据中心(28)中取得的识别参数发送到移动通信终端(27),此后,可以不与学习装置等进行信息的收发,而只利用移动通信终端适合地实施识别率高的发话内容的识别。

Description

学习装置、移动通信终端、 信息识别***以及学习方法
技术领域
本发明涉及根据有关用户发话动作时的调音器官的活动的信息,识别发话内容的移动通信终端、生成涉及发话的内容的识别的识别参数的学习装置、包含这些的信息识别***、利用此信息识别***进行的学习方法。
背景技术
现在,不依靠音响信息,根据发话动作进行者的口部周围的肌电信息以及***的影像等、有关调音器官的活动的信息,识别发话的内容的信息识别方法已经公知。据此,发话者不发出音响可从口及舌的活动识别发话的内容,比如,如日本专利特开平7-181888号公报中所公开的,从由于疾病及事故等不能发声的无咽头者的口部等活动识别发话的内容而代行发声的装置已经在应用。
于是,在根据有关这种调音器官的活动的信息对发话内容进行识别时,对应于每个话者的种种不同的发话特征对有关该调音器官的活动的信息等适应每个话者进行学习,生成每个话者固有的识别参数,根据每个话者的识别参数识别发话内容是重要的,由此可以提高发话内容的识别精度。
发明内容
这种信息识别方法,因为不需要音响信息,不受周围杂音的影响,并且只需要进行活动口舌等的无声发话动作,也可作为在室外等周围杂音大的场所及办公室和图书馆等要求安静的场所的发话内容的识别手段利用,比如可以适用于以便携式电话为代表的移动通信终端。
可是,要根据有关调音器官的活动的信息进行发话内容识别的学习需要大量的存储器及计算能力,在处理能力及存储器等有限制的便携式电话等移动通信终端中实行这种学习等是困难的,在移动通信终端中进行基于有关调音器官的活动的信息的发话内容的识别过去一直是困难的。
本发明正是鉴于上述情况而完成的,其目的在于提供可以在移动通信终端中进行基于有关调音器官的活动的信息的发话内容的识别的学习装置、移动通信终端、信息识别***以及学习方法。
本发明涉及的学习装置的是一种与可以经网络互相通信的移动通信终端一起,构成根据有关在该移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***的学习装置,其特征在于包括:接受从上述移动通信终端发送的关于上述调音器官的活动的信息的调音器官信息接收单元;取得与上述用户的发话动作相对应的教师数据的教师数据取得单元;根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习单元;以及将上述识别参数发送到上述移动通信终端的识别参数发送单元。
本发明涉及的移动通信终端的是一种与可以经网络互相通信的学习装置一起,构成根据有关在该移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***的移动通信终端,其特征在于包括:取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得单元;将有关上述调音器官活动的信息发送到上述学习单元的调音器官信息发送单元;接收从上述学习单元发送的有关上述发话内容的识别的识别参数的识别参数接收单元;以及根据有关上述调音器官动作的信息和上述识别参数进行针对上述发话动作内容的识别的信息识别单元。
本发明涉及的信息识别***的是一种包含移动通信终端和可以经网络与上述移动通信终端通信的学习装置,根据有关在上述移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***,其特征在于:上述移动通信终端包括:取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得单元;将有关上述调音器官活动的信息发送到上述学习装置的调音器官信息发送单元;接收从上述学习装置发送的有关上述发话内容的识别的识别参数的识别参数接收单元;根据有关上述调音器官动作的信息和上述识别参数进行针对上述发话动作内容的识别的信息识别单元;而上述学习装置包括:接受从上述移动通信终端发送的关于上述调音器官的活动的信息的调音器官信息接收单元;取得与上述用户的发话动作相对应的教师数据的教师数据取得单元;根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习单元;以及将上述识别参数发送到上述移动通信终端的识别参数发送单元。
本发明涉及的一种学习方法是一种包含移动通信终端和可以经网络与上述移动通信终端通信的学习装置,根据有关在上述移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***中的学习方法,其特征在于包括:上述移动通信终端取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得工序;上述移动通信终端将有关上述调音器官活动的信息发送到上述学习装置的调音器官信息发送工序;上述学习装置接收从上述移动通信终端发送的有关上述调音器官的活动的信息的调音器官信息接收工序;上述学习装置取得与上述用户的发话动作相对应的教师数据的教师数据取得工序;上述学习装置根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习工序;上述学习装置将上述识别参数发送到上述移动通信终端的识别参数发送工序;以及上述移动通信终端接收从上述学习装置发送的识别参数的识别参数接收工序。
本发明涉及的另一种学习方法是一种根据有关在上述移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***中的学习方法,其特征在于包括:接收从上述移动通信终端发送的有关上述调音器官的活动的信息的调音器官信息接收工序;取得与上述用户的发话动作相对应的教师数据的教师数据取得工序;根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习工序;以及将上述识别参数发送到上述移动通信终端的识别参数发送工序。
根据本发明的学习装置、移动通信终端、信息识别***及学习方法,向学习装置发送有关用户的调音器官的活动的信息、用来生成根据用户的调音器官的活动的信息进行发话内容的识别所必需的识别参数的计算负荷高的学习不是由移动通信终端而是由学习装置进行。由此,与固定型的计算机等相比在处理速度及存储器等的限制大的移动通信终端中进行学习时相比较,可以在短时间内进行效率良好的学习。并且,通过这种学习可将适合用户的识别参数发送到移动通信终端,自此以后,可以不与学习装置等进行信息的收发,而只利用移动通信终端适合地实施识别率高的发话内容的识别。
此处,在上述学习装置中备有将利用上述学习单元生成的识别参数对每个用户进行存储的识别参数数据库,上述学习单元,在通过上述学习生成识别参数时,最好是参照过去对该用户生成的识别参数。
另外,在上述信息识别***中,上述学习装置备有将利用上述学习单元生成的识别参数对每个用户进行存储的识别参数数据库,上述学习单元,在通过上述学习生成识别参数时,最好是参照过去对该用户生成的识别参数。
另外,在上述一种学习方法中,包含上述学习装置将利用上述学习工序生成的识别参数对每个用户存储到识别参数数据库的识别参数存储工序,上述学习工序,在通过上述学习生成识别参数时,最好是参照过去对该用户生成的识别参数。
另外,在上述另一种学习方法中,还包含将利用上述学习工序生成的识别参数对每个用户进行存储的识别参数存储工序,在上述学习工序中,在通过上述学习生成识别参数时,最好是参照过去对该用户生成的识别参数。
根据这些学习装置、信息识别***及学习方法,在学习装置的学习中,在对应该提高识别率的各用户每一个的过去的学习时得到的识别参数加以改良时,不需要将该过去的识别参数从各个移动通信终端发送到学习装置,可以容易地逐次改良识别参数。
另外,在上述学习装置中,上述教师数据取得单元具备将发生上述用户应该发话的模式作为教师数据的发话模式生成单元,上述识别参数发送单元最好还将该发话模式发送到上述移动通信终端。
另外,在上述移动通信终端中,上述识别参数接收单元,最好还接收从上述学习装置发送的发话模式,对上述用户提示上述发话模式的发话模式提示单元。
另外,在上述信息识别***中,上述教师数据取得单元具备将发生上述用户应该发话的模式作为教师数据的发话模式生成单元,上述学习装置的识别参数发送单元还将上述发话模式发送到上述移动通信终端,上述移动通信终端的识别参数接收单元,还接收从上述学习装置发送的发话模式,上述移动通信终端具备对上述用户提示上述发话模式的发话模式提示单元。
另外,在上述一种学习方法中,上述教师数据取得工序包含将发生上述用户应该发话的模式作为教师数据的发话模式生成工序,上述识别参数发送工序还将上述发话模式发送到上述移动通信终端,上述识别参数接收工序还接收从上述学习装置发送的发话模式,上述移动通信终端包含对上述用户提示上述发话模式的发话模式提示工序。
另外,在上述另一种学习方法中,上述教师数据取得工序最好包含将发生上述用户应该发话的模式作为教师数据的发话模式生成工序和将上述发话模式对上述移动通信终端进行发送的发话模式发送工序。
根据这些学习装置、移动通信终端、信息识别***及学习方法,适于学习的发话模式在学习装置侧生成并发送到移动通信终端,与在移动通信终端中在用户可以进行根据此发话模式的发话一起,在学习装置侧,将生成的发话模式作为教师数据进行学习,可有效地进行关于发话内容的识别的学习。另外,因为在学习装置侧进行适于学习的发话模式的生成,即使生成这种发话模式,也不会增加移动通信终端的计算及存储器等的负荷。
另外,在上述信息识别***中,上述学习装置具备将有关上述用户的个人信息与该用户相对应地进行存储的个人信息数据库,上述发话模式生成单元,最好是根据有关上述用户的个人信息生成上述发话模式。
另外,在上述一种学习方法中,还包含上述学习装置将有关上述用户的个人信息与该用户相对应地进行存储的个人信息存储工序,上述发话模式生成工序,最好是根据有关上述用户的个人信息生成上述发话模式。
另外,在上述另一种学习方法中,包含将有关上述用户的个人信息与该用户相对应地进行存储的个人信息存储工序,上述发话模式生成工序,最好是根据有关上述用户的个人信息生成上述发话模式。
根据这些学习装置、信息识别***及学习方法,可以根据各用户的个人信息,比如,年龄、性别、方言等生成适于各用户的发话模式,适于用户的识别参数的生成可更有效地进行,移动通信终端的识别率更容易提高。
此外,在上述学习装置中,上述调音器官信息接收单元,还接收有关从上述移动通信终端发送的上述发话动作时的音响的信息,上述教师数据取得单元,最好具备根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据的音响信息识别单元。
另外,在上述移动通信终端中,上述信息识别***具备取得在上述发话动作实行时发生的有关音响的信息的音响取得单元,上述调音器官信息发送单元最好还向上述学习装置发送有关上述音响的信息。
另外,在上述信息识别***中,上述移动通信终端具备取得在上述发话动作实行时发生的有关音响的信息的音响取得单元,上述调音器官信息发送单元还向上述学习装置发送有关上述音响的信息,上述学习装置的调音器官信息接收单元,还接收有关从上述移动通信终端发送的有关上述音响的信息,上述教师数据取得单元,最好具备根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据的音响信息识别单元。
另外,在上述一种学习方法中,包含上述移动通信终端,取得在上述发话动作实行时发生的有关音响的信息的音响取得工序,上述调音器官信息发送工序还向上述学习装置发送有关上述音响的信息,上述调音器官信息接收工序,还接收有关从上述移动通信终端发送的有关上述音响的信息,上述教师数据取得工序,最好包含根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据的音响信息识别工序。
另外,在上述另一种学习方法中,在上述调音器官信息接收工序中,还接收有关从上述移动通信终端发送的有关上述发话动作时的影响的信息,在上述教师数据取得工序中,最好包含根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据。
根据这些学习装置、移动通信终端、信息识别***及学习方法,因为在用户进行发话动作时发生的音响信息发送到学习装置并在学习装置中根据此音响信息得到教师数据,不会承受使用户进行特定的发话模式的发话等的负担,可以在进行通常的会话的同时得到有关发话内容识别的识别参数。
附图说明
图1为示出本实施方案的信息识别***的框图。
图2为示出图中的移动通信终端的肌电信号检出单元的一例的模式图。
图3为示出图中的移动通信终端的肌电信号检出单元的另一例的模式图。
图4为示出根据第一顺序的学习方法的流程图。
图5为在图4的学习方法中选出在数据中心侧进行的工序的流程图。
图6为示出根据第二顺序的学习方法的流程图。
图7为在图6的学习方法中选出在数据中心侧进行的工序的流程图。
图8为示出识别参数通过学习进行改良的顺序的流程图。
具体实施方式
下面参照附图对本发明的信息识别***(声音识别***)的优选实施方案予以详细说明。
图1为示出本实施方案的信息识别***的框图。本实施方案的信息识别***100,具备根据规定的识别参数进行发话内容的识别的移动通信终端27,适合使用移动通信终端27的用户通过学习生成识别参数的用作服务器计算机的数据中心28,这些设施经过有线或无线网络19互相连接。
移动通信终端27包括:由肌电信号检出单元11及肌电信号处理单元12构成的肌电信息取得单元(调音器官信息取得单元)30;由音响信号检出单元13及音响信号处理单元14构成的音响信息取得单元31;和数据中心28进行信息收发的音响肌电信息发送单元(调音器官信息发送单元)15 以及发话模式识别参数接收单元(识别参数接收单元)16;进行发话内容的识别的肌电信息识别单元(信息识别单元)17;提示识别结果的识别结果提示单元18以及向用户提示发话模式的发话模式提示单元10;并且作为便携式电话具有和其他的移动通信终端通信的功能(图中未示出)。
音响信号检出单元13检出在用户进行发话动作时发生的音响信号,音响信号处理单元14对由音响信号检出单元13检出的音响信号进行频谱分析及对数倒频谱分析等而取得音响信息。
肌电信号检出单元11,检出用户进行发话动作时的口部周围的筋肉(调音器官)的肌电信号,肌电信号处理单元12在对所取得的肌电信号进行放大的同时利用时间窗切出进行功率计算及频谱分析等而取得肌电信息。
此处,用户通过使唇、颚、齿、舌、鼻腔、软口盖等调音器官动作而进行发话动作。因为在这些调音器官中,主要是通过口部周围的筋肉活动而完成调音动作,通过取得用户口部周围的筋肉的肌电信号就可以合适地取得关于调音器官的活动的信息。
此处,比如,在应用于折叠式移动通信终端时,如图2所示,作为肌电信号检出单元11,可在用户面部皮肤接触面上设置板状电极42、43、44,并且,如图3所示,可以在与皮肤接触的部位设置针状电极45、46、47、48、49、50。另外,为了精度高地从肌电信息识别发话内容,最好是对肌电进行多信道检出。
音响肌电信息发送单元15,如图1所示,将来自肌电信号处理单元12的肌电信息及来自音响信号处理单元14的音响信息经网络19发送到数据中心28。
发话模式识别参数接收单元16,经网络19接收由数据中心28发送的来自肌电信息的发话内容的识别所必需的识别参数及有关用户要进行发话的发话模式的信息,发话模式提示单元10利用显示器及扬声器等将所接收的发话模式提示给用户。
肌电信息识别单元17,根据发话模式识别参数接收单元16所接收的识别参数和来自肌电信号处理单元12的肌电信息,用户进行发话动作的发话内容的识别(声音识别),识别结果提示单元18利用显示器及扬声器等将识别结果提示给用户等或通过通信网发送到其他移动通信终端。
此处,作为肌电信息识别单元17的发话内容识别算法,可采用种种的方法,比如,可以采用如在IEEE生物医学工程学会志(NoboruSugie et al.,A speech employing a speech synthesizer voweldiscrimination from perioral muscles activities and vowel production,IEEE transaction on Biomedical Engineering,Vol.32,No.7,1985,pp485-490)所述的,使肌电信号通过通频带滤波器,计数与阈值的交叉次数辨别5个元音(a,i,u,e,o)的算法,也可采用在日本专利特开平7-181888号公报中所述的,将口部周围的筋肉的肌电信息利用神经网络进行处理,不仅包含用户的元音也包含辅音的检出算法,并且也可采用隐藏Marcov模型等的算法。
另一方面,数据中心28包括:经网络19和移动通信终端27进行信息收发的音响肌电信息接收单元(调音器官信息接收单元)24及发话模式识别参数发送单元(识别参数发送单元)22;构成教师数据取得单元33的音响信息识别单元25及发话模式发生单元20;生成识别参数的肌电信息学习单元(学习单元)26;存储种种信息的个人信息数据库21及识别参数数据库23。
音响肌电信息接收单元24,经网络19接收从移动通信终端27发送的肌电信息及音响信息。
在个人信息数据库21中,与各用户对应存储使用移动通信终端27的每个用户的性别、年龄、使用的方言等个人信息。
发话模式发生单元20,根据存储于个人信息数据库21中的个人信息,发生适于每个用户学习的发话模式,在做成为教师数据的同时,将此发话模式发送到发话模式识别参数发送单元22。具体说,比如,根据该用户的性别、年龄、方言等将该用户最可能使用的单语、短语等及表示该用户发话特征的语尾等的模式输出。另外,在过去关于该用户进行过学习时,还可根据存储于识别参数数据库23(详情见后述)中的该用户的学习次数、识别率数据等生成适于进一步提高该用户的识别率的发话模式,比如,识别率不佳的单语等的发话模式。
音响信息识别单元25,根据音响肌电信息接收单元24接收的音响信息进行声音识别取得声音信息而取得与用户的发话动作相对应的教师数据。此处,对于音响信息识别单元25的声音识别方法没有特别限定,比如,可利用基于频谱包络的隐藏Marcov模型及DP匹配法等。
肌电信息学习单元26,在取得利用音响肌电信息接收单元24接收的肌电信息的同时,作为与此肌电信息相对应的教师数据,取得利用音响信息识别单元25取得的声音信息及利用发话模式发生单元20发生的发话模式,关于由肌电信息产生的发话内容的识别进行学习,生成用来对发话内容进行识别的识别参数。
此处,具体说,也可对应于移动通信终端27的肌电信息识别单元17中使用的发话内容的识别算法进行学习,比如,在肌电信息识别单元17中,在使用神经网络时,也可以对该神经网络应用反向传播法。
在识别参数数据库23中针对每个用户存储利用肌电信息学习单元26的学习所生成的识别参数、学习次数等的学习状况、利用该识别参数的识别率等、由音响信息识别单元25识别的声音信息等。另外,识别参数数据库23,与个人信息数据库21相连接,可以互相参照各用户的学习次数等数据。
发话模式识别参数发送单元22,将存储于识别参数数据库23中的各个用户的识别参数等以及由发话模式发生单元20生成的发话模式,经网络19发送到用户的移动通信终端27。另外,根据需要,也可以将识别参数数据库23及个人信息数据库21的内容也发送到移动通信终端27。
下面在对备有移动通信终端27及数据中心28的信息识别***100的动作予以说明的同时,一并对本实施方案的信息识别***100的学习方法予以说明。
首先,参照图4及图5,对于作为第一顺序,具有移动通信终端27的用户,在进行无声或有声的发话动作进行学习时的顺序予以说明。另外,图5是在图4中选出数据中心28进行的工序的示图。
用户,如果在移动通信终端27中,开始进行利用第一顺序的识别参数的学习的规定的按钮操作,则移动通信终端27,对数据中心28通告开始利用第一顺序的识别参数的学习(步骤101)。
然后,接受学习开始的通告的数据中心28,根据存储于个人信息数据库21中的有关该用户的信息等,发生适合发话内容识别的发话模式,将此发话模式发送到移动通信终端27(步骤102)。此处,在有关该用户的信息在个人信息数据库21中未登录时,生成被认为适合于万人的发话模式。另外,在过去关于该用户进行过学习时,还根据存储于识别参数数据库23中的该用户的学习次数及识别率数据等生成适用于进一步提高该用户的识别率的发话数据。
移动通信终端27,接收由数据中心28发出的发话模式并向用户提示发话模式(S103)。于是,用户按照提示的发话模式,通过有声或无声进行发话动作。
于是,移动通信终端27,检出用户的发话动作时的肌电信号,对此肌电信号进行规定的处理而作为肌电信息,将肌电信息发送到数据中心28(步骤104)。
数据中心28,接收此肌电信息,根据作为与此肌电信息相对应的教师数据的发话模式进行关于发话内容的识别而生成识别参数(步骤105)。另外,在该用户过去进行过学习时,从识别参数数据库23中读出该用户的过去的识别参数,以对此识别参数进行改良的形式生成新的识别参数。
于是,在步骤106中,在学习不结束或不能生成足够进行发话内容识别的识别参数时,返回步骤102生成新的发话模式并以此为基础进行学习。
另一方面,在生成足够的识别参数时,进入步骤107,将取得的识别参数,与该用户的学习次数及该识别参数的识别率等的数据一起存储于识别参数数据库23,同时将识别参数发送到移动通信终端27。
于是,移动通信终端27,接收此识别参数(步骤108)。于是,自此以后,移动通信终端27,根据适合此用户的识别参数和用户的肌电信息,可由肌电信息识别单元17局部地以高识别率进行对发话内容的识别,经过识别的声音信息(言语信息),利用画面、扬声器等输出,并且经网络19发送到其他移动通信终端。
这样,根据本实施方案,用户的发话动作时的肌电信息发送到数据中心28,用来生成为进行基于肌电信息的发话内容的识别所必需的识别参数的计算负荷高的学习,不是由移动通信终端27而是由数据中心28进行。由此,与固定型的计算机等相比,在处理速度和存储器等的限制大的移动通信终端27中为识别发话内容进行学习时相比较,可以在短时间内进行效率良好的学习。并且,可将这样取得的适合用户的识别参数发送到移动通信终端27,自此以后,在移动通信终端27中,可以不与数据中心28等进行信息的收发,而可以只利用移动通信终端27使用该识别参数实施识别率高的发话内容的识别。
另外,在数据中心28中,存储每个用户的识别参数,在数据中心28的学习中,在对各个用户的过去学习时得到的识别参数加以改良时,不需要将该用户过去的识别参数从各个移动通信终端27发送到数据中心28,可以容易地逐次改良识别参数,容易提高移动通信终端27的识别率。
另外,因为适于学习的发话模式在数据中心28侧生成并发送到移动通信终端27对用户进行提示,与在移动通信终端27中在用户可以进行根据适合于此学习的发话模式的发话一起,在数据中心28侧,根据该发话涉及到的肌电信息和作为教师数据的发话参数进行学习,可更有效地进行关于发话内容的识别的学习,对移动通信终端27的发话内容的识别的识别率可以更容易提高。另外,因为在数据中心28侧进行适于各个用户的学习的发话模式的生成,即使生成这种发话模式,也不会增加移动通信终端27的计算及存储器等的负荷。
另外,在数据中心28中,存储有各个用户的个人信息,在发生发话模式时可以根据各个用户的个人信息,比如,年龄、性别、方言等生成适于各用户的发话模式,学习可更有效地进行。另外,因为个人信息数据存储于数据中心28中,在学习时在参照个人信息时不需要从移动通信终端27向数据中心28发送个人信息。
下面,作为第二顺序,对根据用户的有声的任意的发话动作进行学习的顺序,参照图6及图7予以说明。另外,图7为在图6中选出在数据中心侧进行的工序的示图。
首先,用户,如果在移动通信终端27中,开始进行利用第二顺序的识别参数的学习的规定的按钮操作,则移动通信终端27,对数据中心28通告开始利用第二顺序的识别参数的学习(步骤201)。于是,用户,利用移动通信终端27,对其他的移动通信终端等进行通常的,即发话模式不受制约的自由的声音通话。
此时,移动通信终端27,与第一顺序一样地在取得用户的声音通话时的肌电信号并作为肌电信息发送到数据中心28的同时,检出用户的声音通话时的音响信号,在实施此音响信号规定的处理并做成为音响信息之后,将此音响信息发送到数据中心28(步骤202)。
数据中心28,接收移动通信终端27发出的肌电信息及音响信息,进行根据音响信息的声音识别,取得用户进行声音通话的声音信息(言语信息)(步骤203)。
此外,数据中心28,根据肌电信息和作为与该肌电信息相对应的教师数据的声音信息,进行关于来自肌电信息的发话内容的识别的学习,生成识别参数(步骤204)。另外,在过去该用户进行过学习时,与第一顺序一样,从识别参数数据库23中读出该用户的过去的识别参数,以对此识别参数进行改良的形式生成新的识别参数。
如果移动通信终端27的声音通话结束,数据中心28,在将生成的识别参数及声音信息等存储于识别参数数据库23的同时,将识别参数发送到移动通信终端27(步骤107),移动通信终端27接收识别参数(步骤108)。
于是,自此以后,移动通信终端27,根据适合此用户的识别参数和用户的肌电信息,可与上述同样地局部地进行对发话内容的识别。
在本实施方案中,因为有关用户的发话动作的音响信息发送到数据中心28,在数据中心28中根据此音响信息得到教师数据,不会承受使用户进行特定的发话模式的发话等的负担,可以在进行通常的会话的同时得到有关移动通信终端27侧的发话内容识别的识别参数。
另外,在移动通信终端27中,预先存储即使是不进行学习也应该可以识别在移动通信终端27中由肌电信号产生的局部的发话内容的、面向大众的一般的识别参数。不过,如图8所示,通过以任意顺序反复进行根据上述第一顺序的学习及根据上述第二顺序的学习,移动通信终端27的识别参数对利用该移动通信终端27的每个用户进行优化,在各用户的移动通信终端27中,通过利用此经过优化的识别参数,可以以高识别率对移动通信终端27的发话内容进行识别。
另外,本发明不限于上述实施方案,也可以有种种变型。
比如,在上述第一顺序中,数据中心28的肌电信息学习单元26,数据中心28的肌电信息学习单元26,将由发话模式发生单元20发生的发话模式作为教师数据进行学习,在用户以有声方式发生发话模式时,也可将由音响信息识别单元25识别的声音信息作为教师数据,另外,也可以将发话模式及声音信息两者作为教师数据。
另外,上述信息识别***100,在移动通信终端27中是对根据用户的肌电信息的发话内容进行识别,但不限于此。比如,在移动通信终端27中也可以取得用户的口舌的活动的图像等进行图像处理而对发话内容进行识别,归根到底,只要是在移动通信终端27中根据关于调音器官的活动的信息进行发话内容的识别就可以,数据中心28的学习是与此移动通信终端27的发话内容的识别方法相对应的学习就可以。
另外,上述信息识别***100,作为教师数据取得单元33,备有音响信息识别单元及发话模式发生单元20。但是,比如,在学习精度要求不到那样程度时等等,备有其中的任何一个也可以。
如上所述,根据本发明的学习装置、移动通信终端、信息识别***及学习方法,向学习装置发送有关用户的调音器官的活动的信息、用来生成根据用户的调音器官的活动的信息进行发话内容的识别所必需的识别参数的计算负荷高的学习不是由移动通信终端而是由学习装置进行。由此,与固定型的计算机等相比在处理速度及存储器等的限制大的移动通信终端中进行学习时相比较,可以在短时间内进行效率良好的学习。并且,将在学习装置中取得的适合该用户的识别参数发送到移动通信终端,自此以后,在移动通信终端中可以不与学习装置等进行信息的收发,而只利用移动通信终端适合地实施识别率高的发话内容的识别。
由此,在室外及电车内等使用的便携式电话等的移动通信终端中,特别是可以根据有关调音器官的活动的信息,从无声的发话合适地进行发话内容的识别。

Claims (15)

1.一种学习装置,与可以经网络互相通信的移动通信终端一起,构成根据有关在该移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***,其特征在于包括:
接受从上述移动通信终端发送的关于上述调音器官的活动的信息的调音器官信息接收单元;
取得与上述用户的发话动作相对应的教师数据的教师数据取得单元;
根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习单元;以及
将上述识别参数发送到上述移动通信终端的识别参数发送单元。
2.如权利要求1所述的学习装置,其特征在于包括:将由上述学习单元生成的识别参数对上述每个用户进行存储的识别参数数据库,
上述学习单元,在通过上述学习生成识别参数时,参照过去对该用户生成的识别参数。
3.如权利要求1或2所述的学习装置,其特征在于:
上述教师数据取得单元包括将发生上述用户应该发话的模式作为教师数据的发话模式生成单元,
上述识别参数发送单元还将该发话模式发送到上述移动通信终端。
4.如权利要求3所述的学习装置,其特征在于包括:将有关上述用户的个人信息与该用户相对应地进行存储的个人信息数据库,
上述发话模式生成单元,根据有关上述用户的个人信息生成上述发话模式。
5.如权利要求1~4中任何一项所述的学习装置,其特征在于:
上述调音器官信息接收单元还接收有关从上述移动通信终端发送的上述发话动作时的音响的信息,
上述教师数据取得单元包括根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据的音响信息识别单元。
6.一种移动通信终端,与可以经网络互相通信的学习装置一起,构成根据有关在该移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***,其特征在于包括:
取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得单元;
将有关上述调音器官活动的信息发送到上述学习装置的调音器官信息发送单元;
接收从上述学习装置发送的有关上述发话内容的识别的识别参数的识别参数接收单元;以及
根据有关上述调音器官动作的信息和上述识别参数进行针对上述发话动作内容的识别的信息识别单元。
7.如权利要求6所述的移动通信终端,其特征在于:
上述识别参数接收单元还接收从上述学习装置发送的发话模式,
包括对上述用户提示上述发话模式的发话模式提示单元。
8.如权利要求6或7所述的移动通信终端,其特征在于包括:取得在上述发话动作实行时发生的有关音响的信息的音响取得单元,
上述调音器官信息发送单元还向上述学习装置发送有关上述音响的信息。
9.一种信息识别***,包含移动通信终端和可以经网络与上述移动通信终端通信的学习装置,根据有关在上述移动通信终端的用户进行发话动作时的调音器官的活动的信息识别发话内容,其特征在于:
上述移动通信终端包括:
取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得单元;
将有关上述调音器官活动的信息发送到上述学习装置的调音器官信息发送单元;
接收从上述学习装置发送的有关上述发话内容的识别的识别参数的识别参数接收单元;以及
根据有关上述调音器官动作的信息和上述识别参数,进行针对上述发话动作内容的识别的信息识别单元;
上述学习装置包括:
接受从上述移动通信终端发送的关于上述调音器官的活动的信息的调音器官信息接收单元;
取得与上述用户的发话动作相对应的教师数据的教师数据取得单元;
根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习单元;以及
将上述识别参数发送到上述移动通信终端的识别参数发送单元。
10.一种学习方法,是包含移动通信终端和可以经网络与上述移动通信终端通信的学习装置,根据有关在上述移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***中的学习方法,其特征在于包括:
上述移动通信终端取得有关上述用户进行发话动作时的上述用户的调音器官的活动的信息的调音器官信息取得工序;
上述移动通信终端将有关上述调音器官活动的信息发送到上述学习装置的调音器官信息发送工序;
上述学习装置接收从上述移动通信终端发送的有关上述调音器官的活动的信息的调音器官信息接收工序;
上述学习装置取得与上述用户的发话动作相对应的教师数据的教师数据取得工序;
上述学习装置根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习工序;
上述学习装置将上述识别参数发送到上述移动通信终端的识别参数发送工序;以及
上述移动通信终端接收从上述学习装置发送的识别参数的识别参数接收工序。
11.一种学习方法,是一种根据有关在移动通信终端的用户进行发话动作时的调音器官的活动的信息,识别发话内容的信息识别***中的学习方法,其特征在于包括:
接收从上述移动通信终端发送的有关上述调音器官的活动的信息的调音器官信息接收工序;
取得与上述用户的发话动作相对应的教师数据的教师数据取得工序;
根据上述有关调音器官活动的信息和上述教师数据,进行有关针对上述发话动作的发话内容的识别的学习而生成识别参数的学习工序;以及
将上述识别参数发送到上述移动通信终端的识别参数发送工序。
12.如权利要求11所述的学习方法,其特征在于还包括:将利用上述学习工序生成的识别参数对每个用户存储到识别参数数据库的识别参数存储工序,
在上述学习工序中,在通过上述学习生成识别参数时,参照过去对该用户生成的识别参数。
13.如权利要求11或12所述的学习方法,其特征在于上述教师数据取得工序包括:
将发生上述用户应该发话的模式作为教师数据的发话模式生成工序,以及
将上述发话模式发送到上述移动通信终端的发话模式发送工序。
14.如权利要求13的学习装置,其特征在于还包括:上述学习装置将有关上述用户的个人信息与该用户相对应地进行存储的个人信息存储工序,
上述发话模式生成工序,根据有关上述用户的个人信息生成上述发话模式。
15.如权利要求11~14中任何一项所述的学习方法,其特征在于:
在上述调音器官信息接收工序中,还接收有关从上述移动通信终端发送的有关上述发话动作时的影响的信息,
在上述教师数据取得工序中,根据有关上述音响的信息进行声音识别得到与上述发话动作相对应的教师数据。
CNB031037941A 2002-02-19 2003-02-19 数据中心、移动通信终端、信息识别***以及学习方法 Expired - Fee Related CN100426818C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002042072 2002-02-19
JP042072/2002 2002-02-19
JP037064/2003 2003-02-14
JP2003037064A JP2003316387A (ja) 2002-02-19 2003-02-14 学習装置、移動通信端末、情報認識システム、及び、学習方法

Publications (2)

Publication Number Publication Date
CN1442992A true CN1442992A (zh) 2003-09-17
CN100426818C CN100426818C (zh) 2008-10-15

Family

ID=27624635

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031037941A Expired - Fee Related CN100426818C (zh) 2002-02-19 2003-02-19 数据中心、移动通信终端、信息识别***以及学习方法

Country Status (5)

Country Link
US (1) US7216078B2 (zh)
EP (1) EP1336947B1 (zh)
JP (1) JP2003316387A (zh)
CN (1) CN100426818C (zh)
DE (1) DE60315907T2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100464327C (zh) * 2005-03-28 2009-02-25 新诺亚舟科技(深圳)有限公司 一种手持终端设备所播放的多媒体文件的生成方法
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练***及方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004016658A (ja) 2002-06-19 2004-01-22 Ntt Docomo Inc 生体信号測定可能な携帯型端末および測定方法
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20100178956A1 (en) * 2009-01-14 2010-07-15 Safadi Rami B Method and apparatus for mobile voice recognition training
JP5949413B2 (ja) 2012-10-04 2016-07-06 日本電気株式会社 ユーザ指示認識システム、ユーザ指示認識方法、情報処理装置、携帯端末およびその制御方法と制御プログラム
KR102246893B1 (ko) * 2013-12-11 2021-04-30 삼성전자주식회사 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4096645A (en) * 1976-11-08 1978-06-27 Thomas Herbert Mandl Phonetic teaching device
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP3455921B2 (ja) * 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
FR2761800A1 (fr) * 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100464327C (zh) * 2005-03-28 2009-02-25 新诺亚舟科技(深圳)有限公司 一种手持终端设备所播放的多媒体文件的生成方法
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练***及方法
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练***及方法

Also Published As

Publication number Publication date
US7216078B2 (en) 2007-05-08
DE60315907T2 (de) 2008-05-15
US20030182112A1 (en) 2003-09-25
DE60315907D1 (de) 2007-10-11
EP1336947B1 (en) 2007-08-29
EP1336947A3 (en) 2005-02-23
JP2003316387A (ja) 2003-11-07
CN100426818C (zh) 2008-10-15
EP1336947A2 (en) 2003-08-20

Similar Documents

Publication Publication Date Title
CN110223705B (zh) 语音转换方法、装置、设备及可读存储介质
CN1236423C (zh) 说话人声音的后台学习
CN1324517C (zh) 采用视频-语音匹配进行人员认证的方法和***
CN1187734C (zh) 机器人控制设备
CN110399837B (zh) 用户情绪识别方法、装置以及计算机可读存储介质
CN1185621C (zh) 语音识别装置与语音识别方法
CN1235167C (zh) 信息识别装置与信息识别方法
CN1142647A (zh) 语音识别对话装置
KR20140137343A (ko) 건강 모니터링 시스템에서의 화자 확인
CN110223711B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN1950882A (zh) 语音识别***中的语音结束检测
EP4131256A1 (en) Voice recognition system and method using accelerometers for sensing bone conduction
CN113643693B (zh) 以声音特征为条件的声学模型
CN1591574A (zh) 使用基于谐波模型的前端用于健壮语音识别的方法和装置
CN1442992A (zh) 学习装置、移动通信终端、信息识别***以及学习方法
JP2005352154A (ja) 感情状態反応動作装置
CN1924994A (zh) 一种嵌入式语音合成方法及***
CN110875036A (zh) 语音分类方法、装置、设备及计算机可读存储介质
CN1300763C (zh) 嵌入式语音识别***的自动语音识别处理方法
Seneviratne et al. Speech based depression severity level classification using a multi-stage dilated cnn-lstm model
CN1201284C (zh) 一种语音识别***中的快速解码方法
CN111158490A (zh) 基于手势识别的辅助语义识别***
WO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
Dozorskyi et al. The Method of Commands Identification to Voice Control of the Electric Wheelchair
JP2014228644A (ja) 報知装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081015

Termination date: 20140219