语句识别装置、语句识别方法、程序和媒体
技术领域
本发明涉及利用例如声音识别和文本语句识别的语句识别装置、语句识别方法、程序和媒体。
背景技术
下面以声音识别手段为例说明已有技术。
在声音识别手段中,识别处理不完善而产生差错,并将差错原样输出。这成为声音识别付诸实用的大问题。
以往为了解决此问题,提出的方法是,识别结果的第1候补识别评分比第2候补以下识别评分相差一定值以下时,认为识别结果可靠度低,拒绝识别结果语句或促使再次输入。
下面利用例如采用作为连续声音识别手段的典型查找手段的“一遍取最佳n个”查找时的例子更具体地说明上述方法例。
预先用学习用声音DB提取各音素的音响特征,进而用文本DB预先计算作为上述音素串表示的单词间连接概率。识别时,分析每单位时间输入声音的音响特征,比较该特征量时间系列与预先学习的各音素音响特征量,作为各时间点的输入声音是各音素的概率,算出其音响评分。
根据单词词典上记述的单词的音素串,沿时间系列将音响评分相加,所得相加值为各时刻的音响评分。不留下全部音素串份额的查找空间时,仅留评分高的前N个结果并进行处理。
输入的声音包含多个单词时,参照预先学习的单词间的连接概率连接单词,并且在连接的时刻,除上述音响评分外,还在评分中加上单词间的连接概率(称为“语言评分”)。
这样算出的居先N个候补识别评分中,第1候补评分与第2候补评分的差为一定值以下时,就认为第1候补结果可靠性低,拒识该结果(例如,实广等的著作:“利用基于对立音素间的似然差的可靠性尺度的拒识”,电子情报通信学会技术报告SP97-76,第1~7页,1997)。
然而,上述识别评分表示输入声音与预先学习的音响模型或语言模型的类似性。由于进行输入的讲话者和发音内容不同,即使进行正确的识别,其值也大为不同。这是现状。因此,决定拒识用的评分比门限值非常困难,常常有拒绝正确的识别结果,或将错误的识别结果判断为正确并加以输出的情况发生。
这样,就难以利用声音识别和文本语句识别进行适当的语句识别。
发明内容
本发明考虑上述已有技术的这样的课题,其目的在于,提供能利用声音识别和文本语句识别进行适当语句识别的语句识别装置、语句识别方法、程序和媒体。
第1本发明(对应于权利要求1)是一种语句识别装置,该装置具备
存放由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对的数据库、
识别由多个单词构成的输入的语句的语句识别手段、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择手段、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断手段,以及
根据所述判断结果从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定手段。
第2本发明(对应于权利要求2)是第1本发明的语句识别装置,所述错识特定单词确定手段将判断为不是所述数据库存放的标准特定单词对的任意特定单词对中规定数量以上的任意特定单词对共用的特定单词确定为所述错识特定单词。
第3本发明(对应于权利要求3)是第1或2本发明的语句识别装置,具备再输入要求手段,该手段在有所述错识特定单词时,要求(1)再次输入与该错识特定单词对应的特定单词,或要求(2)再输入上述输入的语句。
第4本发明(对应于权利要求4)是第1或2本发明的语句识别装置,具备在有所述错识特定单词时将该信息通知用户的通知手段。
第5本发明(对应于权利要求5)是一种语句识别装置,具备
存放由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对的数据库、
识别由多个单词构成的输入的语句的语句识别手段、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择手段、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断手段,以及
根据所述判断结果、确定所述输入的语句是否错识的语句错识确定手段。
第6本发明(对应于权利要求6)是第5本发明的语句识别装置,具备在有所述错识别时要求再输入上述输入的语句的语句再输入要求手段。
第7本发明(对应于权利要求7)是第5本发明的语句识别装置,具备在有所述错识别时将该信息通知用户的通知手段。
第8本发明(对应于权利要求8)是一种语句识别装置,具备
存放预先确定的多个特定单词与所述特定单词所属的、预先确定的多个特定单词类别的对应关系的第1数据库、
存放由所述特定单词类别构成的、预先确定的多个标准特定单词类别对的第2数据库、
识别由所述多个单词构成的输入的语句的语句识别手段、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择手段、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词归属的所述特定单词类别的特定单词类别确定手段、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断手段,以及
根据所述判断结果,从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定手段。
第9本发明(对应于权利要求9)是第8本发明的语句识别装置,所述错识特定单词确定手段将判断为不是所述第2数据库存放的标准特定单词类别对的任意特定单词类别对中的规定数量以上的任意特定单词类别对共用的特定单词类别所属的特定单词确定为所述错识特定单词。
第10本发明(对应于权利要求10)是第8或9本发明的语句识别装置,具备再输入要求手段,该手段在有所述错识特定单词时,要求(1)再次输入与该错识特定单词对应的特定单词,或要求(2)再输入所述输入的语句。
第11本发明(对应于权利要求11)是第8或9本发明的语句识别装置,具备在有所述错识特定单词时将该信息通知用户的通知手段。
第12本发明(对应于权利要求12)是一种语句识别装置,具备
存放预先确定的多个特定单词与所述特定单词所属的、预先确定的多个特定单词类别的对应关系的第1数据库、
存放由所述特定单词类别构成的、预先确定的多个标准特定单词类别对的第2数据库、
识别由多个单词构成的、输入的语句的语句识别手段、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择手段、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词所属的所述特定单词类别的特定单词类别确定手段、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断手段,以及
根据所述判断结果,确定是否错识所述输入的语句的语句错识确定手段。
第13本发明(对应于权利要求13)是第12本发明的语句识别装置,具备在有所述错识时要求再输入所述输入的语句的语句再输入手段。
第14本发明(对应于权利要求14)是第12本发明的语句识别装置,具备在有所述错识时将该信息通知用户的通知手段。
第15本发明(对应于权利要求15)是一种语句识别方法,具备
将由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对存放到数据库的存放步骤、
识别由多个单词构成的、输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断步骤,以及
根据所述判断结果,从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定步骤。
第16本发明(对应于权利要求16)是一种语句识别方法,具备
将由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对存放到数据库的存放步骤、
识别由多个单词构成的、输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断步骤,以及
根据所述判断结果,确定是否错误识别所述输入语句的语句错识确定步骤。
第17本发明(对应于权利要求17)是一种语句识别方法,具备
将预先确定的多个特定单词与所述特定单词所属的、预先规定的多个特定单词类别的对应关系存放到第1数据库的第1存放步骤、
将由所述特定单词类别构成的、预先确定的多个标准特定单词类别对存放到第2数据库的第2存放步骤、
识别由多个单词构成的输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词归属的所述特定单词类别的特定单词类别确定步骤、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断步骤,以及
根据所述判断结果,从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定步骤。
第18本发明(对应于权利要求18)是一种语句识别方法,具备
将预先确定的多个特定单词与所述特定单词所属的、预先规定的多个特定单词类别的对应关系存放到第1数据库的第1存放步骤、
将由所述特定单词类别构成的、预先确定的多个标准特定单词类别对存放到第2数据库的第2存放步骤、
识别由多个单词构成的输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词归属的所述特定单词类别的特定单词类别确定步骤、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断步骤,以及
根据所述判断结果,确定是否错误识别所述输入的语句的语句错识确定步骤。
第19本发明(对应于权利要求19)是一种程序,用于使计算机执行权利要求15所述的语句识别方法的全部或部分步骤,该语句识别方法具有
将由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对存放到数据库的存放步骤、
识别由多个单词构成的输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断步骤,以及
根据所述判断结果、从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定步骤。
第20本发明(对应于权利要求20)是一种程序,用于使计算机执行权利要求16所述的语句识别方法的全部或部分步骤,该语句识别方法具有
将由预先确定的多个特定单词构成的、预先确定的多个标准特定单词对存放到数据库的存放步骤、
识别由多个单词构成的、输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
判断由所述选择的特定单词构成的任意特定单词对是否所述数据库存放的标准特定单词对的判断步骤,以及
根据所述判断结果,确定是否错误识别所述输入的语句的语句错识确定步骤。
第21本发明(对应于权利要求21)是一种程序,用于使计算机执行权利要求17所述的语句识别方法的全部或部分步骤,该语句识别方法具备
将预先确定的多个特定单词与所述特定单词所属预先规定的多个特定单词类别的对应关系存放到第1数据库的第1存放步骤、
将由所述特定单词类别构成的、预先确定的多个标准特定单词类别对存放到第2数据库的第2存放步骤、
识别由多个单词构成的输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词归属的所述特定单词类别的特定单词类别确定步骤、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断步骤,以及
根据所述判断结果,从所述选择的特定单词中确定所述识别错误的错识特定单词的错识特定单词确定步骤。
第22本发明(对应于权利要求22)是一种程序,用于使计算机执行权利要求18所述的语句识别方法的全部或部分步骤,该语句识别方法具备
将预先确定的多个特定单词与所述特定单词所属的、预先规定的多个特定单词类别的对应关系存放到第1数据库的第1存放步骤、
将由所述特定单词类别构成的、预先确定的多个标准特定单词类别对存放到第2数据库的第2存放步骤、
识别由多个单词构成的、输入的语句的语句识别步骤、
从构成所述识别的语句的多个单词中选择所述特定单词的特定单词选择步骤、
利用所述第1数据库存放的对应关系,确定所述选择的特定单词归属的所述特定单词类别的特定单词类别确定步骤、
判断由所述确定的特定单词类别构成的任意特定单词类别对是否所述第2数据库存放的标准特定单词类别对的判断步骤,以及
根据所述判断结果,确定是否错误识别所述输入的语句的语句错识确定步骤。
第23本发明(对应于权利要求23)是一种媒体,可利用计算机处理,承载第19本发明的程序。
第24本发明(对应于权利要求24)是一种媒体,可利用计算机处理,承载第20本发明的程序。
第25本发明(对应于权利要求25)是一种媒体,可利用计算机处理,承载第21本发明的程序。
第26本发明(对应于权利要求26)是一种媒体,可利用计算机处理,承载第22本发明的程序。
本发明还包含:(1)特征为根据识别结果语句包含的特定单词间的关系推断错识单词,在识别结果语句中反映推断结果并加以输出的声音识别手段中,其特征为,推断为用于推断错识单词的全部单词或许多单词是错识单词时,要求用户再次输入的结果拒识手段或再输入要求手段,以及(2)其特征在于,预先学习具有依存关系或共存关系的特定单词或单词类别对,并且在全部识别结果语句不包含或少包含与这些特定单词或单词类别对相同的单词对时,要求用户再次输入的结果拒识手段或再输入要求手段。
这种拒识手段的组成部分包含例如识别由多个单词组成的发音用的连续音识别手段、从识别结果提取特定单词的关键词提取手段、调查所提取的单词间的依存关系或共存关系并判断识别结果的可靠性的可靠性计算手段、识别结果无可靠性时拒绝该结果的拒识确定手段,以及拒识时产生再输入要求语句的输出语句产生手段。
这样的拒识手段中,从识别结果语句提取特定单词,根据提取的单词查找具有依存关系或共同关系的单词对,上述单词对不存在或数量少时,拒绝识别结果,从而即使讲话者或发音内容改变,也能稳定地拒绝错误的结果。
本发明还包含上述结果拒识手段或再输入要求手段,其特征为采用由一般同义词词典和学习用语句集中包含的单词间的关系决定的单词类别。
这样的拒识手段的组成部分包含例如将关键词分类的单词类别确定手段、预先记述单词类别间的关系的单词类别间关系表、识别由多个单词组成的发音用的连续音识别手段、从识别结果提取特定单词的关键词提取手段、调查所提取的单词间的依存关系或共存关系并判断识别结果可靠性的可靠性计算手段、识别结果无可靠性时拒绝该结果的拒识确定手段,以及拒识时产生再输入要求语句的输出语句产生手段。
在这样的拒识手段中,预先使单词实现最佳分类,并且调查单词类别间的依存关系或共存关系,记在表中。识别时,从识别结果语句提取特定单词,用先前记有依存关系或共同关系的关系表,从提取的单词查找具有依存关系或共存关系的单词对,上述单词对不存在或数量少时,拒绝识别结果,从而即使讲话者或发音内容改变,也能稳定地拒绝错误的结果。而且,即使识别时输入学习单词间关系的语句集中不存在的单词,也可拒识或进行再输入要求处理。
附图说明
图1是示出本发明实施形态1的再输入要求手段组成的框图。
图2是示出本发明实施形态2的再输入要求手段组成的框图。
图3是示出本发明实施形态3的声音识别装置组成的框图。
图4是本发明实施形态3中数据库101所存放的数据的说明图。
图5(a)是说明本发明实施形态3中声音识别装置的动作说明图(其1)。
图5(b)是说明本发明实施形态3中声音识别装置的动作说明图(其2)。
图6是示出本发明实施形态4的声音识别装置组成的框图。
图7是说明本发明实施形态5中声音识别装置的组成的框图。
图8(a)是本发明实施形态5中数据库201所存放数据的说明图。
图8(b)是本发明实施形态5中数据库202所存放数据的说明图。
图9(a)是说明本发明实施形态5中声音识别装置的动作说明图(其1)。
图9(b)是说明本发明实施形态5中声音识别装置的动作说明图(其2)。
图10是示出本发明实施形态6的声音识别装置组成的框图。
附图中:
1带标记语料库(tagged corpus)
2依存关系分析
3关键词依存关系表
4关键词词典
5声音识别
6关键词提取
7错识单词的推断
8确定拒识
9产生结果语句
10单词类别确定
11关键词类别依存关系表
12同义词词典(thesaurus)
具体实施形态
下面,参照附图说明本发明的实施形态。
实施形态1
首先,参照示出本发明实施形态1中再输入要求手段组成的框图(即图1)说明本实施形态的再输入要求手段的组成和工作。
这里,以声音识别手段中拒绝识别结果的情况为例进行说明。
进行识别前,预先用依存关系分析手段对已分析形态要素的语料库(以下称为“带标记语料库”)中每一词组进行依存结构分析,并将其结果作为各词组所含内容单词间的依存关系在表中记述具有依存关系的单词对。作为这里的依存结构分析手段,显然可采用例如格语法规则进行文节间的语句结构分析。
识别时,首先识别输入的声音,并输出识别结果的单词串。这时的识别方法,例如采用“一遍取最佳n个”查找的连续音识别方法,其结果可输出单词串作为识别候补。其次,从作为所输出的识别结果的单词串仅提取特定的单词。这里,将理解语句含义方面必需的单词(称为“关键词”)作为特定单词。具体而言,也可将内容单词作为特定单词。接着,调查所确定的关键词间的关系,从而推断错识单词。这种手段例在从例如识别结果提取的关键词中,调查具有预先分析的依存关系的单词对是否一起存在,将其他不构成与任何一个关键词相当的单词对的关键词当作错识单词。这种手段中,将全部单词当作错识单词时,认为本识别结果的可靠性显著降低,确定为拒识,产生促使讲话者再次输入的信息语句,显示在画面上。在这种情况下产生的语句是,“听不到。请再次发音。”等。不推断为若干单词误识的情况下,产生仅由含非错识关键词的词组构成的语句,输出到画面上。这种拒识确定手段在全部单词错识时决定拒识,但也可在例如认为从识别结果提取的关键词中一定比例以上的单词数量是错识单词时,确定为拒识,而在一定比例以下时输出识别结果。
本实施形态中,预先提取单词间的依存关系,将该依存关系与识别结果包含的关键词具有比较,从而推断识别结果包含的错识单词,在认为识别结果中全部或一定比例以上的关键词是错识单词时,拒绝识别结果,对讲话者提出再输入要求,这样,即使讲话者或发音内容有变化,也能稳定地拒绝错误结果,有效地要求再次输入。
因此,从识别结果语句所含关键词间的依存关系或共存关系推断错识单词,且在推断为多数单词是错识单词时,要求用户再次输入,从而即使讲话者或发音内容有变化,也能稳定地拒绝错误结果,有效地要求再次输入。
实施形态2
首先,参照图2,即参照示出本发明实施形态2中再输入要求手段的组成的框图,说明本实施形态中再输入要求手段的组成和动作。
这里,也以声音识别手段中拒绝识别结果的情况为例进行说明。
进行识别前,预先用依存关系分析手段对己分析形态要素的语料库(以下称为“带标记语料库”)中每一词组进行依存结构分析,并将其结果作为各词组所含内容单词间的依存关系在表中记述具有依存关系的单词对。方法与前一实施例相同。其次,为了对应输入语料库中不存在的单词的情况,将关系词分类。分类手段可以是,按照一般使用的同类词词典,将该词典中属于相同类目的关键词作为相同类别。然而,能限定输入范围(domain)时,可认为以下的手段能进行更好的分类。首先,按照同义词词典的含义代码把全部关键词分类,将其作为初始类别。根据存在先前分析的依存关系的单词对,从单词类别中去除属于相同类别的全部单词中的任何单词都不依存于相同单词的单词,将其按独立单词作为一类。把对全部单词对查找按上述条件从单词类别中去除的单词所得的结果确定为单词类别。一旦确定单词类别,就将先前提取的具有依存关系的单词对表示为单词类别对,记在表中。
识别时,也与前一实施例一样,进行连续音识别和关键词提取,与具有预先分析的依存关系的单词类别对比较,推断错识单词,确定拒识和输出再输入要求。
本实施形态预先提取单词间的依存关系,用同类词词典和先前的依存关系进行单词分类,将先前的依存关系作为单词类别间的依存关系记在表中。比较该单词类别间的依存关系和识别结果包含的关键词,从而推断识别结果包含的错识单词,在认为识别结果中全部或一定比例以上的关键词是错识单词时,拒绝识别结果,对讲话者提出再次输入的要求。借助于此,与上述实施例一样,即使讲话者或发音内容有变化,也能稳定地拒绝错误结果,有效要求再输入,除具有此效果外,还具有即使输入词料库没有的关键词也能进行错识推断、拒识确定等上述处理的效果。
因此,用同义词词典和语料库预先将关键词分类,并且用先前关键词分类间的依存关系推断识别结果包含的错识单词,在推断为多数单词是错识单词时,要求用户再次输入,从而即使讲话者或发音内容有变化,也能稳定地拒绝错误结果,有效地要求再次输入。即使输入语实料库中不包含的关键词和语句表达,也能进行错识推断,拒识确定等上述处理。
上述本实施形态1~2中,不是以识别评分为指标设定拒识门限值,而是以识别结果语句的作为语句的自然性为指标,调查识别结果包含的特定单词之间的依存关系或共存关系,在全部单词相互关系淡薄时进行拒识,从而即使讲话者或发音内容有变化,也能稳定地拒绝错误结果,有效地要求再输入。
实施形态3
首先,参照图3、即本发明实施形态3中声音识别装置的组成的框图,说明本实施形态中声音识别装置的组成。
本实施形态的声音识别装置具有数据库101、声音识别手段102、内容单词选择手段103、判断手段104、错识内容单词确定手段105和内容单词再输入要求手段106。
数据库101对应于本发明的数据库,声音识别手段102对应于本发明的语句识别手段,内容单词选择手段103对应于本发明的特定单词选择手段,判断手段104对应于本发明的判断手段,错识内容单词确定手段105对应于本发明的错识特定单词确定手段,内容单词再输入要求手段106对应于本发明的再输入要求手段,本实施形态的声音识别装置对应于本发明的语句识别装置。本实施形态的内容单词对应于本发明的特定单词。
下面参照图4,即本发明实施形态3中数据库101所存放的数据的说明图,更详细地说明本实施形态中声音识别装置的组成。
数据库101是一种手段,预先存放“热的、咖啡”、“咖啡、喝”等单词,作为由预先学习的内容单词构成的、具有预先决定的关键词依存关系的标准内容单词对(参考图4)。
声音识别手段102是对由单词构成的声音所输入的语句进行声音识别的手段。
内容单词选择手段103是一种选择手段,查找记载上述已学习内容单词的内容单词词典(图中省略),从构成声音识别的语句的单词中选择内容单词词典记载的内容单词。
判断手段104是一种判断手段,判断由选择的内容单词构成的任意内容单词对是否数据库101存放的标准内容单词对。
错误内容单词确定手段105是一种确定手段,将判断为不是数据库101所存放标准内容单词对的任意内容单词对中2个以上任意内容单词对共用的内容单词确定为错识内容单词。
内容单词再输入要求手段106是在有错识内容单词时要求再次输入与该错识别内容单词对应的内容单词的手段。
下面参照图5(a)和图5(b)说明本实施形态3中声音识别装置的动作,图5(a)是说明本发明实施形态3中声音识别装置的动作用的说明图(其1),图5(b)也是说明本发明实施形态3中声音识别装置的动作用的说明图(其2)。在说明本实施形态声音识别装置的动作的同时,也对本发明语句识别方法的一实施形态加以说明。
声音识别手段102在声音识别时将声音输入的语句“熱いコ一ヒ一を飲みますか。”错识为语句“青いコ一ヒ一を飲みますか。”。
内容单词选择手段103从构成识别语句“青い”、“コ一ヒ一”、“を”、“飲み”、“ます”、“か”中选择内容单词“青い”、“コ一ヒ一”、“飲む”参考图5(a)。而且,将话用形的内容单词选择为终止形(字典词条的形态),因而将“飲み”(连用形)选为“飲む”(终止形)。
判断手段104判断为,由所选内容单词构成的共3个任意内容单词对“青い、コ一ヒ一”、“青い、飲む”、“コ一ヒ一、飲む”中,“コ一ヒ一、飲む”是数据库101存放的标准内容单词对,“青い、コ一ヒ一”、“青い、飲む”是数据库101中没有存放的标准内容单词对(参考图5(b))。
错识内容单词确定手段105将判断为不是数据库101存放的标准内容单词对的任一内容单词对“青い、コ一ヒ一”、“青い、飲む”中的2个以上任意内容单词对共用的内容单词“青い”定为错识内容单词。
内容单词再输入要求手段106要求再次输入与错识内容单词“青い”对应的内容单词。
实施形态4
下面首先参照图6说明本实施形态的声音识别装置的组成,该图6是示出本发明实施形态4中声音识别装置的组成的框图。
本实施形态声音识别装置具有数据库101、声音识别手段102、内容单词选择手段103、判断手段104、语句错识确定手段105’和语句再输入要求手段106’。
数据库101对应于本发明的数据库,声音识别手段102对应于本发明的语句识别手段,内容单词选择手段103对应于本发明的特定单词选择手段,判断手段104对应于本发明的判断手段,语句错识确定手段105’对应于本发明的语句错识确定手段,语句再输入要求手段106’对应于本发明的语句再输入要求手段,本实施形态的声音识别装置对应于本发明的语句识别装置。本实施形态的内容单词对应于本发明的特定单词。
本实施形态的声音识别装置具有类似于上述实施形态中的声音识别装置的结构,但其特征为具有语句错识确定手段105’和语句再输入要求手段106’。
因此,对语句错识确定手段105’和语句再输入要求手段106’更详细进行说明。
语句错识确定手段105’是一种确定手段,该手段将判断为数据库101存放的标准内容单词对的任意内容单词对中完全不包含的内容单词定为错识内容单词,在选择的内容单词的个数X与错识内容单词个数Y之间存在
Y>0.4X
这样的关系时,确定为输入的语句被错识。
语句再输入要求手段106’是在有错识时要求再次输入已输入过的语句的手段。
下面说明本实施形态中声音识别装置的动作。在说明本实施形态中声音识别装置的动作的同时,还说明本发明的语句识别方法的一实施形态。
声音识别手段102将声音输入的语句“地元のビ一ルを飲んではいけませんか。”(“不可以喝本地啤酒吗”)的声音错识为识别语句“地元のビ一ルを呼んで池千か”。
内容单词选择手段103从构成该识别语句“地元のビ一ルを呼んで池千か”的单词“地元”、“の”、“ビ一ル”、“を”、“呼ん”、“で”、“池”、“千”、“か”中选择内容单词“地元”、“ビ一ル”、“呼ぶ”、“池”、“千”。进而,与上述实施形态3的情况相同,将活用形的内容单词选为终止形(词典词条的形态),所以将“呼ん”(连用形)作为“呼ぶ”(终止形)选择。
判断手段104判断为,由所选内容单词构成的共60个内容单词对“(地元、ビ一ル)”、“(地元、呼ぶ)”、“(地元、池)”、“(地元、千)”、…中,“(地元、ビ一ル)”是数据库101存放的标准内容单词对,其他的“(地元、呼ぶ)”、“(地元、池)”、“(地元、千)”…是数据库101没有存放的标准内容单词对。
语句错识手段105’将判断为是数据库101存放的标准内容单词对的任意内容单词对“(地元、ビ一ル”)中完全不包含的内容单词“呼ぶ”、“池”、“千”确定为错识别内容单词。又,语句错识确定手段105’由于选择的内容单词“地元”、“ビ一ル”、“呼ぶ”、“池”、“千”的个数X=5与错识内容单词“呼ぶ”、“池”、“千”的个数Y=3之间满足式(1)的关系,确认输入的语句“地元のビ一ルを飲んではルけませんか。”被错识。
于是,语句再输入要求手段106’要求再次输入所输入过的语句“地元のビ一ルを飲んではいけませんか。”。
实施形态5
首先,参照图7说明本实施形态5的文字识别装置的构成,该图7是示出本发明实施形态5的文字识别装置的构成的框图。
本实施形态的文字识别装置具有数据库201~202、文字识别手段203、内容单词选择手段204、内容单词类别确定手段205、判断手段206、错识内容单词确定手段207和内容单词再输入要求手段208。
数据库201对应于本发明的第1数据库,数据库202对应于本发明的第2数据库,文字识别手段203对应于本发明的语句识别手段,内容单词选择手段204对应于本发明的特定单词选择手段,内容单词类别确定手段205对应于本发明的特定单词类别确定手段,判断手段206对应于本发明的判断手段,错识内容单词确定手段207对应于本发明的错识特定单词确定手段,内容单词再输入要求手段208对应于本发明的再输入要求手段,本实施形态的文字识别装置对应于本发明的语句识别装置。本实施形态的内容单词对应于本发明的特定单词,本实施形态的内容单词类别对应于本发明的特定单词类别。
下面参照图8(a)和图8(b)较详细说明本实施形态中文字识别装置的构成,图8(a)是本发明实施形态5中数据库201所存放的数据的说明图,图8(b)是本发明实施形态5中数据库202所存放数据的说明图。
数据库201是一种存放手段,作为预先学习的内容单词与内容单词所属的、预先确定的内容单词类别的对应关系,存放“ビ一ル一100”、“コ一ヒ一一100”、“地元-200”、“熱い-200”、“飲む-300”、“呼ぶ-400”、等。在这里,“90”是对于类目“建筑物”的内容单词类别的含义代码,“100”是对于类目“飲料”的内容单词类别的含义代码,“200”是对于类目“飲料的性质”的内容单词类别的含义代码,“300”是对于类目“与飲料有关的动作”的内容单词的含义代码,“400”是对于类目“与声音有关的动作”的内容单词类别的含义代码。
数据库202是一种存放手段,存放“(100、200)”、“(100、300)”等,作为由内容单词类别构成的、具有预先决定的共存关系的标准内容单词类别。文字识别手段203是对由单词构成的OCR(光字符读出器)输入的语句进行文字识别的手段。
内容单词选择手段204是一种选择手段,查记载上述已学习的内容单词的内容单词词典(图中省略),从构成文字识别的语句的单词中选择内容单词词典记载的内容单词。
内容单词类别确定手段205是一种确定手段,利用数据库201存放的内容单词与内容单词类别的对应关系,确定选择的内容单词所属的内容类别。
判断手段206是判断由所确定的内容单词类别构成的任意单词类别对是否数据库202存放的标准内容单词类别对的手段。
错识内容单词确定手段207是一种确定手段,将判断为不是数据库202存放的标准内容单词类别对的任意内容单词类别对中的2个以上的任意内容单词类别对共用的内容单词类别所属的内容单词定为错识内容单词。
内容单词再输入要求手段是在有错识内容单词时要求再次输入与该错识内容单词对应的内容单词的手段。
下面参照图9(a)和图9(b)说明本实施形态中文字识别装置的动作,图9(a)是说明本发明实施形态5中声音识别装置的动作用的说明图(其1),图9(b)也是说明本发明实施形态5中声音识别装置的动作用的说明图(其2)。下面在说明本实施形态声音识别装置动作的同时,也说明本发明语句识别方法的一实施形态。
文字识别手段203将OCR输入的语句“地元のビ一ルを飲みますか。”(“喝本地啤酒吗”)错识为识别语句“地元のビ一ルを呼びますか”。
内容单词选择手段204从构成识别语句“地元のビ一ルを呼びますか”的单词“地元”、“の”、“ビ一ル”、“を”、“呼び”、“ます”、“か”中选择内容单词“地元”、“ビ一ル”、“呼ぶ”。还有,与上述实施形态3的情况相同,将活用形的内容单词选为终止形(词典词条的形态),所以将“呼び”(连用形)作为“呼ぶ”(终止形)选择。
内容单词类别决定手段205将利用数据库201存放的内容单词与内容单词类别的对应关系,确定所选择的内容单词“地元”、“ビ一ル”、“呼ぶ”所属的内容单词类别分别为“200”、“100”、“400”。
判断手段206判断为,由确定的内容单词类别构成的共3个任意内容单词类别对“(100、200)”、“(100、400)”、“(200、400)”中“(100、200)”是数据库202存放的标准内容单词类别对,“(100、400)”、“(200、400)”是数据库202没有存放的标准内容单词类别对。
错识内容单词确定手段207将判断为不是数据库202存放的标准内容单词类别对的任意内容单词内容类别对“(100、400)”、“(200、400)”中2个以上任意内容单词类别对共用的内容单词类别“400”所属的内容单词“呼ぶ”确定为错识内容单词。
内容单词再输入要求手段208要求再次输入与错识内容单词“呼ぶ”对应的内容单词。
实施形态6
首先,参照图10说明本实施形态的文字识别装置的构成。图10是示出本发明实施形态6的文字识别装置的组成的框图。
本实施形态的文字识别装置具有数据库201~202、文字识别手段203、内容单词选择手段204、内容单词类别确定手段205、判断手段206、语句错识确定手段207’和语句再输入要求手段208’。
数据库201对应于本发明的第1数据库,数据库202对应于本发明的第2数据库,文字识别手段203对应于本发明的语句识别手段,内容单词选择手段204对应于本发明的特定单词选择手段,内容单词类别确定手段205对应于本发明的特定单词类别确定手段,判断手段206对应于本发明的判断手段,语句错识确定手段207’对应于本发明的语句错识确定手段,语句再输入要求手段208’对应于本发明的再输入要求手段,本实施形态的文字识别装置对应于本发明的语句识别装置。本实施形态的内容单词对应于本发明的特定单词,本实施形态的内容单词类别对应于本发明的特定单词类别。
因此,本实施形态的声音识别装置具有类似于上述实施形态3中的声音识别装置的结构,但其特征在于具有语句错识确定手段207’和语句再输入要求手段208’。
因此,下面对语句错识确定手段207’和语句再输入要求手段208’进行更详细的说明。
语句错识确定手段207’是一种确定手段,将判断为是数据库202存放的标准内容单词类别对的任意内容单词类别对中完全不包含的内容单词定为错识内容单词,并且在选择的内容单词的个数X与错识内容单词的个数Y之间存在式(2)的关系时,确定为错识输入的语句。
Y>0.5X ……(2)
语句再输入要求手段208’是在有错识时要求再次输入所输入过的语句的手段。
下面参照图10说明本实施形态的文字识别装置的动作,该图10是本发明实施形态6的声音识别装置的构成的框图。下面在说明本实施形态的文字识别装置的动作的同时,也说明本发明语句识别方法的一实施形态。
文字识别手段203将OCR输入的语句“地元のビ一ルを飲みませんか。”(“不喝本地啤酒吗”)错识为识别语句“地元のビルを飲みませんか。”。
内容单词选择手段204从构成识别语句“地元のビルを呼びませんか”的单词“地元”、“の”、“ビル”、“を”、“呼び”、“ませ”、“ん”、“か”中选择内容单词“地元”、“ビル”、“呼ぶ”。还有,与上述实施形态3的情况相同,将活用形的内容单词选为终止形(词典词条的形态),所以将“呼び”(连用形)作为“呼ぶ”(终止形)选择。
内容单词类别决定手段205将利用数据库201存放的内容单词与内容单词类别的对应关系,确定所选择的内容单词“地元”、“ビル”、“呼ぶ”所属的内容单词类别分别为“200”、“90”、“400”。
判断手段206判断为由确定的内容单词类别构成的共3个任意内容单词类别对“(90、200)”、“(90、400)”、“(200、400)”中均无数据库202存放的标准内容单词类别对。
语句错识确定手段207’确定所选择的内容单词“地元”、“ビル”、“呼ぶ”都是错识内容单词。语句错识确定手段207’由于所选择的内容单词“地元”、“ビル”、“呼ぶ”的个数X=3与错识内容单词“地元”、“ビル”、“呼ぶ”的个数Y=3之间满足式(2)的关系,确定错识了所输入的语句“地元のビ一ルを飲んではいけませんか。”
于是,语句再输入要求手段208’要求再次输入所输入过的语句“地元のビ一ルを飲みませんか。”。
以上详细说明了实施形态1~6。
本发明的再输入要求手段在上述实施形态3、5中,在有错识特定单词时,要求再次输入与该错识特定单词对应的特定单词。然而,不限于此,例如,在有错识特定单词时,也可以要次再次输入所输入过的语句。
当然,也可以具有在有错识特定单词时(存在错识时),将该信息通知用户的通知手段。例如,利用声音或文本将“名称部分(有些)听不懂”之类的信息通知用户,这样也能取得类似于上述要求再输入的效果。
本发明包含与计算机协同工作的程序,用于使计算机执行上述本发明的语句识别装置的全部或部分手段(或器件、元件、电路、部等)的功能。当然,计算机不限于CPU等纯硬件,也可包含固件、OS、甚至***设备。
本发明还包含与计算机协同工作的程序,用于使计算机执行上述本发明的语句识别方法的全部或部分步骤(或工序、动作、作用等)的动作。
本发明的部分手段(或器件、元件、电路、部等)、本发明的部分步骤(或工序、动作、作用等)含义为这多种手段或步骤中的若干手段或步骤,或者含义为一个手段或步骤中的一部分功能或一部分动作。
本发明的部分装置(或元件、电路、部等)含义为这些装置中的若干装置,或者含义为一个装置中的一部分手段(或元件、电路、部等),或者含义为一个手段中的一部分功能。
本发明还包含记录本发明的程序的计算机可读记录媒体。本发明的程序的一种利用形态可以是记录于计算机可读记录媒体,并且与计算机协同工作的形态。本发明的程序的一利用形态可以是在传输媒体中传输并且由计算机读取后与计算机协同工作的形态。作为记录媒体,包含ROM等;作为传输媒体包含因特网等传输媒体以及光、电波、声波等。
本发明的组成可用软件方式实现,也可用硬件方式实现。
本发明包含这样的媒体,即该媒体承载用于使计算机执行上述本发明的语句识别装置的全部或部分手段的全部或部分功能,该媒体还可由计算机读取,而且读取的所述程序与所述计算机协同工作,实现所述功能。
本发明包含媒体,该媒体承载用于使计算机执行上述本发明的语句识别方法的全部或部分步骤的全部或部分动作,该媒体还可由计算机读取,而且读取的所述程序与所述计算机协同工作,执行所述动作。
上述文献的全部揭示在此完全原样引用(参考),使其综合为一体。
工业上的可用性
从上文所述可知,本发明具有能利用声音识别和文本语句识别进行适当的语句识别的优点。