CN101794577A - 声音识别服务器、电话机、声音识别***以及声音识别方法 - Google Patents
声音识别服务器、电话机、声音识别***以及声音识别方法 Download PDFInfo
- Publication number
- CN101794577A CN101794577A CN201010108535A CN201010108535A CN101794577A CN 101794577 A CN101794577 A CN 101794577A CN 201010108535 A CN201010108535 A CN 201010108535A CN 201010108535 A CN201010108535 A CN 201010108535A CN 101794577 A CN101794577 A CN 101794577A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- model
- sound
- telephone set
- telephone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 89
- 238000003909 pattern recognition Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 15
- 238000013500 data storage Methods 0.000 claims description 9
- 210000000352 storage cell Anatomy 0.000 claims description 8
- 210000004027 cell Anatomy 0.000 claims description 6
- 238000001514 detection method Methods 0.000 abstract description 12
- 238000012986 modification Methods 0.000 description 26
- 230000004048 modification Effects 0.000 description 26
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000014759 maintenance of location Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42136—Administration or customisation of services
- H04M3/42153—Administration or customisation of services by subscriber
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
- H04M2201/405—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/66—Details of telephonic subscriber devices user interface aspects for indicating selection options for a communication line
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供声音识别服务器、电话机、声音识别***以及声音识别方法。声音识别服务器(200)具备:声音接收部(202),其接收来自电话机(100)的声音;模型存储部(208),其存储用于将声音接收部(202)所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定部(204),其判定电话机(100)的当前呼出号码以及其它号码;模型选择部(206),其根据当前呼出号码以及其它号码选择模型存储部(208)中存储的声学模型,且根据当前呼出号码选择模型存储部(208)中存储的语言模型;和声音识别部(210),其根据模型选择部(206)所选择的声学模型以及语言模型,将声音接收部(202)所接收的声音转换为字符。
Description
技术领域
本发明涉及声音识别服务器、电话机、声音识别***以及声音识别方法。
背景技术
以往,例如专利文献1所公开的那样公知有如下的技术:在对用户发出的声音进行声音识别的情况下,根据电话号码来切换声音识别用的词典。另外,例如非专利文献1所公开的那样,开展了可以在一台终端利用多个电话号码及邮件地址的服务(所谓二合一(2in1)服务)。
【专利文献1】日本特开2000-10590号公报
【非专利文献1】2in1サ一ビスのシズテム開発(二合一服务的***开发),NTT DoCoMoテクニカル·ジヤ一ナル,vol.15No.3,P11-19
在采用了上述现有技术的服务中,当在相同的终端使用多个号码、并针对各个号码准备不同的语言模型及声学模型时,存在以下问题。即,尽管来自相同终端的发声通常是同一用户的声音,但是针对各个不同号码按照不同的模型来进行声音识别,并且对各个不同的模型单独地进行更新,从而有可能使模型的精度变低,声音识别的性能降低。
发明内容
因此,本发明是鉴于上述问题而完成的,其目的在于,提供声音识别服务器、电话机、声音识别***以及声音识别方法,它们能在一台终端中利用多个电话号码的服务中可提高模型的精度、提高声音识别性能。
为了解决上述课题,本发明的声音识别服务器与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别服务器具备:声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
另外,本发明的电话机与将声音转换为字符的声音识别服务器连接,且能在一台终端中利用多个电话号码,该电话机具备:声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器。
另外,本发明的声音识别***具有能在一台终端中利用多个电话号码的电话机、以及将来自上述电话机的声音转换为字符的声音识别服务器,其中,上述电话机具备:声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器,上述声音识别服务器具备:声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
另外,本发明的声音识别方法应用于声音识别服务器中,该声音识别服务器与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别方法的特征在于,具有以下步骤:模型存储步骤,上述声音识别服务器的模型存储单元存储用于将来自上述电话机的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;声音接收步骤,上述声音识别服务器的声音接收单元接收来自上述电话机的声音;号码判定步骤,上述声音识别服务器的号码判定单元判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择步骤,上述声音识别服务器的模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别步骤,上述声音识别服务器的声音识别单元根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
此时,在本发明的声音识别服务器中优选,上述模型存储单元存储对于一个电话机所能利用的全部电话号码通用的声学模型,上述模型选择单元也根据上述一个电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
根据本发明的声音识别服务器、电话机、声音识别***以及声音识别方法,声音识别服务器的模型选择单元根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然变低,但在本发明中,可以对来自新号码的声音使用与现有号码对应的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器的模型存储单元中的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,因此本发明的声音识别服务器的模型选择单元仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。
另外,本发明的声音识别服务器优选还具有声学模型更新单元,其利用来自上述一个电话机的全部声音来更新上述通用的声学模型。
利用来自一个电话机的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。
另外,本发明的声音识别服务器优选还具有语言模型更新单元,其利用对来自上述一个电话机的全部声音中的、针对每个上述电话号码的声音的识别结果,更新每个相应电话号码的语言模型。
利用针对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。
另外,本发明的声音识别服务器还具有数据存储单元,其将上述一个电话机可利用的上述多个电话号码、与该电话机的用户识别信息相关联地存储,上述模型选择单元可根据上述当前呼出号码以及上述其它号码来选择上述数据存储单元所存储的用户识别信息,且根据该选择的用户识别信息来选择上述模型存储单元所存储的声学模型。
在此情况下,模型选择单元可针对每个用户选择不同的声学模型。
另外,本发明的声音识别服务器还具有对应关系控制单元,其在上述数据存储单元所存储的上述多个电话号码与上述用户识别信息之间的对应关系中进行追加、变更或删除的处理。
在此情况下,可以控制电话号码与用户之间的对应关系。
另外,在本发明的声音识别服务器中,上述声音接收单元还接收为了上述模型选择单元选择上述声学模型以及上述语言模型而参照的模式识别信息,上述模型选择单元可根据上述模式识别信息来选择上述声学模型以及上述语言模型。
在此情况下,模型选择单元可选择与模式相符的声学模型以及语言模型。
另外,在本发明的声音识别服务器中,在上述声音接收单元接收了多个上述模式识别信息的情况下,上述模型选择单元可根据优先级高的模式识别信息来选择上述声学模型以及上述语言模型。
在此情况下,模型选择单元可以进一步考虑模式的优先级来选择与模式相符的声学模型以及语言模型。
另外,在本发明的声音识别服务器中,上述声音接收单元还接收上述电话机的用户属性信息,上述模型选择单元可进一步参照上述属性信息来选择上述声学模型以及上述语言模型。
在此情况下,模型选择单元可以进一步参照用户属性信息来选择与用户属性信息相符的声学模型以及语言模型。
另外,本发明的电话机能在一台终端中利用多个电话号码,该电话机具备:声音输入单元,其输入来自用户的声音;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型存储单元,其存储用于将上述声音输入单元所输入的声音转换为字符的声学模型以及语言模型;模型选择单元,其根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音输入单元所输入的声音转换为字符。
此时,在本发明的电话机中优选,上述模型存储单元存储对于该电话机可利用的全部电话号码通用的声学模型,上述模型选择单元也根据该电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
在本发明的电话机中,电话机的模型选择单元根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机中的声音识别为前提。即,虽然电话号码不同但用户是同一个,所以可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因而导致对新号码的声音识别性能必然降低,但在本发明中,对来自新号码的声音使用与现有号码对应的声学模型,所以可以提高对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器的模型存储单元中的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本发明的电话机的模型选择部仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。
另外,本发明的电话机优选还具有声学模型更新单元,其利用来自上述用户的全部声音来更新上述通用的声学模型。
利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。
另外,本发明的电话机优选还具有语言模型更新单元,其利用对来自上述用户的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模型。
利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。
根据本发明,可以提供声音识别服务器、电话机、声音识别***以及声音识别方法,它们能够在可在一台终端中利用多个电话号码的服务中提高模型精度、提高声音识别性能。
附图说明
图1是第1实施方式的声音识别***1的结构概要图。
图2是第1实施方式的声音识别***1的结构概要图。
图3是电话机100以及声音识别服务器200的硬件结构图。
图4是示出电话机100的功能结构的结构概要图。
图5是示出声音识别服务器200的功能结构的结构概要图。
图6是示出声音识别***1所进行的动作的流程图。
图7是用于详细说明图6的步骤S 104中的声学模型选择处理的图。
图8是用于详细说明图6的步骤S105中的语言模型选择处理的图。
图9是第2实施方式的声音识别服务器250的结构概要图。
图10中图10(A)是示出在号码转换数据存储部214中将电话号码与用户ID关联存储的一例的图。图10(B)是示出在模型存储部208中将用户ID与声学模型关联存储的一例的图。
图11是用于详细说明号码控制部218所进行的各个处理的流程图。
图12是示出号码控制部218所进行的新追加处理前后的状态的图。
图13是示出号码控制部218所进行的删除处理前后的状态的图。
图14是示出号码控制部218所进行的变更处理前后的状态的图。
图15是第3实施方式的声音识别服务器260的结构概要图。
图16是第4实施方式的声音识别***2以及电话机150的结构概要图。
符号说明
1,2-声音识别***,100,150-电话机,102-声音输入部,104-声音发送部,106-号码检知部,108-号码通知部,110-模型选择部,112-模型存储部,114-声音识别部,116-模型更新部,200,250,260-声音识别服务器,202-声音接收部,204-号码判定部,206-模型选择部,208-模型存储部,210声音识别部,212模型更新部,214-号码转换数据存储部,216号码转换部,218-号码控制部,220-模式识别信息接收部,300-通信网络,400-订户信息控制装置。
具体实施方式
以下,参照附图对本发明的声音识别服务器、电话机、声音识别***以及声音识别方法的优选实施方式进行详细说明。此外,在附图说明中对同一要素标注同一符号,并省略重复的说明。
<第1实施方式>
(声音识别***1的总体结构)
首先,参照图1以及图2说明本发明第1实施方式的声音识别***1的总体结构。图1以及图2是声音识别***1的结构概要图。如图1所示,声音识别***1由电话机100和声音识别服务器200构成,电话机100和声音识别服务器200通过通信网络300相互连接。电话机100是可在一台终端中利用多个电话号码及邮件地址(在日本称为“二合一服务”)的移动电话机。声音识别服务器200是将来自电话机100的声音转换为字符、并将结果发送至电话机100的服务器装置。另外,如图2所示,声音识别***1可构成为还具有订户信息控制装置400。订户信息控制装置400对所谓的“二合一服务”中的订户信息进行控制以及管理。
(电话机100的结构)
对电话机100进行详细说明。图3是电话机100的硬件结构图。如图3所示,电话机100物理上构成为具备:CPU 11、作为主存储装置的ROM 12以及RAM 13、操作按钮等输入设备14、LCD或有机EL显示器等输出设备15、与声音识别服务器200之间进行数据收发的通信模块16以及存储设备等辅助存储装置17。后述的电话机100的各个功能通过如下的方式来实现:通过在CPU 11、ROM 12、RAM 13等硬件上读入规定的软件,基于CPU 11的控制使输入设备14、输出设备15、通信模块16进行工作,并且对主存储装置12、13或辅助存储装置17中的数据进行读出以及写入。
图4是示出电话机100的功能结构的结构概要图。如图4所示,电话机100构成为在功能上具备:声音输入部102、声音发送部104(相当于权利要求中的“声音发送单元”)、号码检知部106(相当于权利要求中的“号码检知单元”)以及号码通知部108(相当于权利要求中的“号码通知单元”)。
声音输入部102输入用户发出的声音。声音发送部104将声音输入部102所输入的声音发送至声音识别服务器200。虽未图示,但还设置有从声音输入部102所输入的声音中提取声音特征量的单元,声音发送部104可将该声音特征量数据发送至声音识别服务器200。声音发送部104例如可由图3所示的通信模块16构成。
号码检知部106检知当前呼出号码以及其它号码。当前呼出号码是电话机100的当前的呼出电话号码。其它号码是在电话机100可利用的多个电话号码中的、除当前呼出号码以外的电话号码。号码通知部108将号码检知部106所检知的当前呼出号码以及其它号码通知给声音识别服务器200。号码通知部108可由例如图3所示的通信模块16构成。
如图1以及图4所示,电话机100可构成为将声音(声音特征量数据)以及号码信息直接发送至声音识别服务器200,如图2所示,电话机100可构成为将声音(声音特征量数据)以及号码信息经由订户信息控制装置400发送给声音识别服务器200。在后者的情况下,虽未图示,但可以在订户信息控制装置400中设置与号码检知部106以及号码通知部108相当的单元。
(声音识别服务器200的结构)
接着,对声音识别服务器200进行详细说明。图3是声音识别服务器200的硬件结构图。如图3所示,声音识别服务器200物理上构成为包含如下单元的通常计算机***:CPU 21、ROM 22和RAM 23等主存储装置;键盘以及鼠标等输入设备24;显示器等输出设备25;与电话机100之间进行数据收发的通信模块26;以及硬盘等辅助存储装置27等。后述的声音识别服务器200的各个功能通过以下方式来实现:通过在CPU21、ROM 22、RAM 23等硬件上读入预定的计算机软件,基于CPU 21的控制,使输入设备24、输出设备25、通信模块26进行工作,并且对主存储装置22、23及辅助存储装置27中的数据进行读出以及写入。
图5是示出声音识别服务器200的功能结构的结构概要图。如图5所示,声音识别服务器200构成为在功能上具备:声音接收部202(相当于权利要求中的“声音接收单元”)、号码判定部204(相当于权利要求中的“号码判定单元”)、模型选择部206(相当于权利要求中的“模型选择单元”)、模型存储部208(相当于权利要求中的“模型存储单元”)、声音识别部210(相当于权利要求中的“声音识别单元”)以及模型更新部212(相当于权利要求中的“声学模型更新单元”以及“语言模型更新单元”)。
声音接收部202从电话机100接收电话机100的用户所发出的声音或其特征量数据。或者,在如图2所示将声音识别***1构成为包含订户信息控制装置400的情况下,声音接收部202可经由订户信息控制装置400接收来自电话机100的声音或其特征量数据。声音接收部202可由例如图3所示的通信模块26构成。声音接收部202将所接收的声音或其特征量数据输出至声音识别部210以及模型更新部212。
号码判定部204根据来自电话机100的号码通知部108的通知,判定电话机100的当前呼出号码以及其它号码。或者,在如图2所示将声音识别***1构成为包含订户信息控制装置400的情况下,图5虽未图示,但也可以是,号码判定部204从订户信息控制装置400接收对当前呼出号码以及其它号码的通知,并根据该通知来判定电话机100的当前呼出号码以及其它号码。号码判定部204将已判定的当前呼出号码以及其它号码输出至模型选择部206。
模型选择部206根据号码判定部204所判定的当前呼出号码以及其它号码来选择存储在模型存储部208中的声学模型,且根据当前呼出号码来选择存储在模型存储部208中的语言模型。模型存储部208存储有用于将声音接收部202接收到的声音转换为字符的一个以上声学模型以及一个以上语言模型。模型存储部208存储对于一个电话机可利用的全部电话号码通用的声学模型,模型选择部206也根据一个电话机中任意的当前呼出号码以及其它号码来选择上述通用的声学模型。此外,在后述的“声音识别***1的动作”中参照图7以及图8来详细说明与模型选择部206以及模型存储部208相关联的处理。模型选择部206将所选择的声学模型以及语言模型输出至声音识别部210。
声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音接收部202所接收的声音转换为字符。声音识别的方法本身是例如下述参考文献1所公开的公知技术,所以这里省略说明。声音识别部210将进行了声音识别处理的结果向电话机100发送。电话机100接收该结果并向用户显示。另外,声音识别部210将声音识别结果输出至模型更新部212。
参考文献1:音声認識システム(声音识别***),ISBN/ASIN:4274132285,武田一哉,欧姆公司(オ一ム社)
模型更新部212利用声音接收部202所接收的来自电话机100的声音、以及从声音识别部210输入的声音识别结果作为学习对象,更新存储在模型存储部208中的声学模型以及语言模型。模型更新部212利用来自电话机100的全部声音以及来自声音识别部210的全部声音识别结果作为学习对象,更新一个电话机中通用的声学模型。即,例如电话机100可利用的电话号码是A以及B的情况下,模型更新部212利用在电话号码A以及B下发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电话号码A以及B通用的声学模型。
另一方面,模型更新部212利用来自声音识别部210的全部声音识别结果中的、依据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如电话机100可利用的电话号码是A以及B的情况下,模型更新部212利用针对电话号码A下发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机100的电话号码A的语言模型。另外,在此情况下,模型更新部212利用针对电话号码B下发出的声音的识别结果为学习对象,更新用于电话机100的电话号码B的语言模型。
作为模型更新方法、即声学模型以及语言模型中的各参数更新方法,举出了例如基于下式(1)的更新方法。
μ=μ0w+(1-w)X ...(1)
在上述式(1)中,μ是更新后的参数,μ0是更新前的参数,w是更新中的预定权重,X是输入声音的平均值。此外,模型更新的方法本身例如是下述参考文献2所公开的公知技术,所以这里省略说明。
参考文献2:確率モデルによる音声認識のための話者適応化技術、電字子情報通信学会論文誌D-II(用于概率模型的声音识别的说话者适应化技术,电子信息通信学会论文集D-II)vol.J87-D-II,no.2,pp.371-386(2004-2)
(声音识别***1的动作)
接着,参照图6来说明声音识别***1所进行的动作(权利要求中的“声音识别方法”)。图6是示出声音识别***1所进行的动作的流程图。此外,在以下的说明中为了便于说明而假定以下的事项。即,在电话机100中可以利用电话号码A以及B的多个电话号码,其中,当前呼出号码是电话号码A,其它号码是电话号码B。另外,不用说声音识别服务器200的模型存储部208存储用于将来自电话机100的声音转换为字符的声学模型以及语言模型,另外还存储用于对来自声音识别***1内存在的电话机100以外的其它电话机(未图示)的声音进行识别的声学模型以及语言模型。
首先,声音识别服务器200的声音接收部202从电话机100直接或经由订户信息控制装置400,接收电话机100的用户所发出的声音或其特征量数据。另外,声音识别服务器200的号码判定部204从电话机100或订户信息控制装置400接收对当前呼出号码以及其它号码的通知(步骤S101,相当于权利要求中的“声音接收步骤”)。
接着,声音识别服务器200的号码判定部204根据步骤S101的号码通知来判定电话机100的当前呼出号码以及其它号码。根据上述假定,号码判定部204判定当前呼出号码是A、其它号码是B(步骤S102以及步骤S103,相当于权利要求中的“号码判定步骤”)。
接着,声音识别服务器200的模型选择部206根据在步骤S102以及步骤S103中判定的当前呼出号码以及其它号码,选择模型存储部208所存储的、用于识别来自电话机100的声音的声学模型。另外,模型选择部206根据当前呼出号码,选择模型存储部208中存储的、用于识别来自电话机100的声音的语言模型(步骤S104以及步骤S105,相当于权利要求中的“模型选择步骤”)。
进一步参照图7来说明步骤S104的声学模型选择处理。模型存储部208存储如图7所示的表。图7中,将包含电话机100的声音识别***1内的全部电话机可利用的电话号码(A、B、C、D、E等)、和用于将各个电话号码中发出的声音转换为字符的声学模型(MAB、MC、MDE等)相关联地进行存储。即,可以采用声学模型MAB对电话号码A中发出的声音进行声音识别,可以采用声学模型MC对电话号码C中发出的声音进行声音识别。另外,图7中,在一个框内记载的电话号码表示一台电话机可利用的电话号码。即,电话号码A和B是电话机100可利用的号码,电话号码C是电话机100以外的另一个电话机(未图示)可利用的号码,电话号码D和E是电话机100以外的再一个电话机(未图示)可利用的号码。模型选择部206参照这样的表来选择声学模型。即,模型选择部206从图7的表的左列检索与电话机100的当前呼出号码以及其它号码相当的电话号码A以及B,并选择与电话号码A以及B相关联地存储的声学模型MAB。另外,此例为当前呼出号码是A、其它号码是B时的例子,相反,在当前呼出号码是B、其它号码是A时也可进行同样的选择。即,模型存储部208存储对于一个电话机可利用的全部电话号码通用的声学模型,模型选择部206也根据该一个电话机中任意的当前呼出号码以及其它号码选择上述通用的声学模型。
进一步参照图8来说明步骤S105的语言模型选择处理。模型存储部208存储如图8所示的表。图8中,将包含电话机100的声音识别***1内的全部电话机可利用的电话号码(A、B、C、D、E等)、与用于将各个电话号码中发出的声音转换为字符的语言模型(LA、LB、LC、LD、LE等)相关联地进行存储。即,可采用语言模型LA对电话号码A中发出的声音进行声音识别,可采用语言模型LC对电话号码C中发出的声音进行声音识别。模型选择部206参照这样的表来选择语言模型。即,模型选择部206从图8中表的左列检索与电话机100的当前呼出号码相当的电话号码A,选择与电话号码A相关联地存储的语言模型LA。另外,此例为当前呼出号码是A、其它号码是B时的例子,相反,在当前呼出号码是B、其它号码是A时,模型选择部206从图8中表的左列检索与电话机100的当前呼出号码相当的电话号码B,选择与电话号码B相关联地存储的语言模型LB。即,模型存储部208针对一个电话机可利用的全部电话号码分别存储不同的语言模型,模型选择部206针对每个电话号码来选择不同的语言模型。
返回图6的流程图,继步骤S104以及步骤S105的模型选择步骤之后,声音识别服务器200的声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音接收部202所接收的声音转换为字符。根据上述假定,声音识别部210基于声学模型MAB以及语言模型LA对来自电话机100的声音进行识别处理(步骤S106,相当于权利要求中的“声音识别步骤”)。
接着,声音识别服务器200的模型更新部212利用声音接收部202所接收的来自电话机100的声音、以及从声音识别部210输入的声音识别结果作为学习对象,更新模型存储部208所存储的声学模型以及语言模型。根据上述假定,模型更新部212利用电话号码A以及B发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电话号码A以及B通用的声学模型MAB。此外,因为在上述假定中当前呼出号码是A,所以利用在该电话号码A中发出的声音以及该声音的识别结果作为学习对象,来更新通用的声学模型MAB,但与其不同,在当前呼出号码是B的情况下,利用在该电话号码B中发出的声音以及该声音的识别结果作为学习对象,来更新通用的声学模型MAB。总之,根据呼出号码A中的发声以及呼出号码B中的发声双方来更新通用的声学模型MAB。另一方面,模型更新部212利用针对来自电话机100的全部声音中的、依据每个电话号码而区分的声音的识别结果(即,字符)作为学习对象,更新该每个电话号码的语言模型。根据上述假定,模型更新部212利用针对作为当前呼出号码的电话号码A中发出的声音的识别结果作为学习对象,更新用于电话机100的电话号码A的语言模型LA。总之,语言模型针对每个呼出号码来进行更新(步骤S107)。
最后,在电话机100侧接收步骤S106中的声音识别结果,然后显示给用户(步骤S108)。
(第1实施方式的作用以及效果等)
接着,对第1实施方式的作用以及效果进行说明。根据第1实施方式,声音识别服务器200的模型选择部206根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本实施方式以一个用户在一台终端中利用多个电话号码的电话机100中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此,可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到了良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然降低,但在本实施方式中,可对新号码的声音使用与现有号码对应的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过使用通用的声学模型,可以减少要存储在声音识别服务器200的模型存储部208中的声学模型的数量,由此能够减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本实施方式的声音识别服务器200的模型选择部206仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。
另外,通过利用来自一个电话机100的全部声音来更新通用的声学模型,可以高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。
另外,通过利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,可以在每个电话号码的话题不同的情况下,专门针对该话题来更新语言模型。
<第2实施方式>
接着,对本发明的第2实施方式进行说明。此外,省略与上述已说明的第1实施方式重复部分的说明,并以与第1实施方式的不同点为中心进行说明。
图9是第2实施方式的声音识别服务器250的结构概要图。与第1实施方式中的声音识别服务器200相比,声音识别服务器250还具备:号码转换数据存储部214(相当于权利要求中的“数据存储单元”)、号码转换部216(相当于权利要求中的“模型选择单元”)以及号码控制部218(相当于权利要求中的“对应关系控制单元”)。
号码转换数据存储部214将一个电话机可利用的多个电话号码与该电话机的用户识别信息相关联地存储。具体地说,号码转换数据存储部214存储如图10(A)所示的表。在图10(A)中,包含电话机100的声音识别***1内的全部电话机可利用的电话号码(A、B、C、D、E等)、与作为利用各个电话号码的用户的识别信息的用户ID被相关联地存储。即,如图10(A)所示,电话号码A、B被用户ID为AB的用户所利用,电话号码C被用户ID为CC的用户所利用,电话号码D、E被用户ID为DE的用户所利用。
返回图9,号码判定部204根据来自电话机100或订户信息控制装置400的号码通知来判定电话机100的当前呼出号码以及其它号码,将该结果输出至号码转换部216。
号码转换部216根据号码判定部204所判定的当前呼出号码以及其它号码,选择存储在号码转换数据存储部214中的用户ID。例如在电话机100可利用的电话号码是A以及B的情况下,号码转换部216参照号码转换数据存储部214,选择AB的用户ID。号码转换部216将所选择的用户ID通知给模型选择部206。
模型选择部206根据号码转换部216所选择的用户ID来选择模型存储部208中存储的声学模型。模型存储部208存储有如图10(B)所示的表。在图10(B)中,相关联地存储有包含电话机100的声音识别***1内的全部电话机的用户识别信息即用户ID(AB、CC、DE等)、和在与各个用户ID关联地进行声音识别时采用的声学模型(MAB、MC、MDE等)。即,在用户ID为AB的情况下可采用声学模型MAB进行声音识别,在用户ID为CC的情况下可采用声学模型MC进行声音识别,在用户ID为DE的情况下可采用声学模型MDE进行声音识别。模型选择部206参照这样的表来选择声学模型。即,模型选择部206在号码转换部216所选择的用户ID为AB的情况下选择声学模型MAB,在号码转换部216所选择的用户ID为CC的情况下选择声学模型MC,在号码转换部216所选择的用户ID为DE的情况下选择声学模型MDE。即,模型存储部208针对每个用户存储不同的声学模型,模式选释部206与当前呼出号码以及其它号码无关地,以用户为基准来选择声学模型。以上,说明了声学模型的选择处理,但关于语言模型,也可以与用户ID无关、如第1实施方式所说明的那样,以电话号码为基准进行选择。
返回图9,号码控制部218在号码转换数据存储部214所存储的电话号码与用户ID之间的对应关系(参照图10(A))中,进行追加、变更或删除的各种处理。图11是示出其处理步骤的流程图。如图11所示,号码控制部218首先接收控制信号、号码数据以及用户ID数据(步骤S201),接着判定该接收的控制信号的种类(步骤S202)。此外,步骤S201中的控制信号、号码数据以及用户ID数据可以从订户信息控制装置400接收,或者从电话机100或未图示的其它装置接收。
在步骤S202的判定结果是新追加的情况下(步骤S202:是)进行新追加处理(步骤S203)。图12(A)示出现有的表,图12(B)示出进行了新追加处理后的表。如图12所示,新追加了电话号码F、和与其对应的用户ID即FF。
另一方面,在步骤S202的判定结果不是新追加的情况下(步骤S202:否),首先,在掌握了处理对象之后、即掌握了从现有的表中对哪个号码数据进行删除或变更处理之后(步骤S204),再次判定在步骤S201中接收的控制信号的种类(步骤S205)。
在步骤S205的判定结果是删除的情况下(步骤S205:是),进行删除处理(步骤S206)。图13(A)示出现有的表,图13(B)示出进行了删除处理之后的表。如图13所示,删除了电话号码D和E、以及与它们相对应的用户ID即DE。
另一方面,在步骤S205的判定结果是不删除的情况下(步骤S202:否),判定步骤S201中接收到的控制信号是否表示变更(步骤S207)。
在步骤S207的判定结果是变更的情况下(步骤S207:是)进行变更处理(步骤S208)。图14(A)示出现有的表,图14(B)示出进行了变更处理之后的表。如图14所示,与电话号码C对应的用户ID在变更前是CC,但在变更后成为FF。
另一方面,在步骤S207的判定结果不是变更的情况下(步骤S207:否),直接结束处理。
根据以上所说明的第2实施方式,模型选择部206可以针对每个用户选择不同的声学模型。另外,还可以控制电话号码与用户之间的对应关系。
<第3实施方式>
接着,对本发明的第3实施方式进行说明。此外,省略与上述已说明的第1实施方式重复部分的说明,并重点说明与第1实施方式的不同点。
图15是第3实施方式的声音识别服务器260的结构概要图。与第1实施方式中的声音识别服务器200相比,声音识别服务器260还具有模式识别信息接收部220(相当于权利要求中的“声音接收单元”)。模式识别信息接收部220接收模式识别信息。模式识别信息是模型选择部206为了选择声学模型以及语言模型而参照的信息。模式识别信息所表示的模式例如有确定电话机100可利用的电话号码的情况。作为其一例,在电话机100可利用的电话号码是A以及B的情况下,第1模式表示电话号码A,第2模式表示电话号码B。另外,第3模式表示电话号码A以及B双方。并且模式识别信息表示任意的模式,模式识别信息接收部220从电话机100接收这样的模式识别信息,并向模型选择部206输出。此外,图15示出了模式识别信息接收部220从电话机100接收模式识别信息的例子,但不限于此,也可以是,还存在存储模式识别信息的其它装置(未图示),模式识别信息接收部220从该装置接收模式识别信息。
模型选择部206根据从模式识别信息接收部220输入的模式识别信息,选择模型存储部208所存储的声学模型以及语言模型。例如,在模式识别信息表示上述第3模式的情况下,模型选择部206从模型存储部208中选择对于电话号码A以及B通用的声学模型以及语言模型。此外,在模型存储部208中预先存储有对于电话号码A以及B通用的声学模型以及语言模型。另外,所谓对于电话号码A以及B通用的声学模型以及语言模型,是指在对电话号码A的发声进行声音识别、以及对电话号码B的发声进行声音识别中都能够使用的声学模型以及语言模型,或者将电话号码A中的发声、电话号码B中的发声、以及它们的声音识别结果用作学习对象进行更新的声学模型以及语言模型。另外,在例如模式识别信息表示上述第1模式的情况下,模型选择部206从模型存储部208中选择专门针对电话号码A的声学模型以及语言模型。
以上,对第3实施方式的模式识别信息接收部220以及模型选择部206的基本功能进行了说明,但本发明的第3实施方式不限于此。例如,还可以构成为,在模式识别信息接收部220接收到了多个模式识别信息的情况下,模型选择部206基于优先级高的模式识别信息来选择声学模型以及语言模型。在此情况下,模式识别信息接收部220还可以接收表示优先级的信息。另外,还可以构成为,模式识别信息接收部220除了接收模式识别信息之外,还接收电话机100的用户的属性信息,模型选择部206进一步参照该属性信息来选择声学模型以及语言模型。所谓用户的属性信息是指与用户有关的信息,例如表示年龄、性别,兴趣、职业等的信息。
根据以上所说明的第3实施方式,模型选择部206可以选择与模式相符的声学模型以及语言模型。另外,模型选择部206可以在进一步考虑了模式的优先级之后,选择与模式相符的声学模型以及语言模型。另外,模型选择部206可进一步参照用户属性信息来选择与用户属性信息相符的声学模型以及语言模型。
<第4实施方式>
接着,对本发明的第4实施方式进行说明。此外,省略与上述所说明的第1实施方式重复部分的说明,重点说明与第1实施方式的不同点。
图16是第4实施方式的声音识别***2以及电话机150的结构概要图。与第1实施方式中的声音识别***1相比,在声音识别***2中不存在声音识别服务器,取而代之由电话机150来进行声音识别处理。
如图16所示,在电话机150中,作为功能结构要素具备:声音输入部102(相当于权利要求中的“声音输入单元”)、号码检知部106(相当于权利要求中的“号码检知单元”)、模型选择部110(相当于权利要求中的“模型选择单元”)、模型存储部112(相当于权利要求中的“模型存储单元”)、声音识别部114(相当于权利要求中的“声音识别单元”)以及模型更新部116(相当于权利要求中的“声学模型更新单元”以及“语言模型更新单元”)。
用户所发出的声音被输入声音输入部102,并被输出至声音识别部114以及模型更新部116。虽未图示,但可以进一步设置从输入至声音输入部102的声音中提取声音特征量的单元,并将该声音特征量数据输出至声音识别部114以及模型更新部116。
号码检知部106检知当前呼出号码以及其它号码,并输出至模型选择部110。
模型选择部110根据号码检知部106所检知的当前呼出号码以及其它号码来选择存储在模型存储部112中的声学模型,且根据当前呼出号码来选择存储在模型存储部112中的语言模型。模型存储部112存储用于将声音输入部102所接收的声音转换为字符的声学模型以及语言模型。模型存储部112存储对于该电话机150可利用的全部电话号码通用的声学模型,模型选择部110也根据该电话机150中任意的当前呼出号码以及其它号码来选择上述通用的声学模型。模型选择部110将所选择的声学模型以及语言模型输出至声音识别部114。
声音识别部114根据模型选择部110所选择的声学模型以及语言模型,将来自声音输入部102的声音转换为字符。声音识别部114向用户显示进行过声音识别处理后的结果,并且输出至模型更新部116。
模型更新部116利用来自声音输入部102的声音、以及从声音识别部114输入的声音识别结果作为学习对象,更新模型存储部112所存储的声学模型以及语言模型。模型更新部116利用来自声音输入部102的全部声音、以及来自声音识别部114的全部声音识别结果作为学习对象,更新电话机150中的通用声学模型。即,例如在电话机150可利用的电话号码是A以及B的情况下,模型更新部116利用电话号码A以及B下发出的全部声音以及该声音的识别结果作为学习对象,更新对于电话机150中的电话号码A以及B通用的声学模型。
另一方面,模型更新部116利用来自声音识别部114的全部声音识别结果中的、依据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如在电话机150可利用的电话号码是A以及B的情况下,模型更新部116利用针对电话号码A下发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机150的电话号码A的语言模型。另外,在此情况下,模型更新部116利用针对电话号码B下发出的声音的识别结果作为学习对象,更新用于电话机150的电话号码B的语言模型。
根据以上所说明的第4实施方式,电话机150的模型选择部110根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机150中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然将低,但在本发明中,对来自新号码的声音使用与现有号码对应的声学模型,因此可以提高对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器200的模型存储部112内的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本发明的电话机150的模型选择部110仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。
另外,利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。
另外,利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。
以上,对本发明的优选实施方式进行了说明,但不言而喻,本发明不限于上述实施方式。
例如,可采用SIM卡(Subscriber Identity Module Card:用户识别模块卡)中的IMSI(International Mobile Subscriber Identity:国际移动用户识别)码,来取代上述实施方式中的电话号码。
Claims (16)
1.一种声音识别服务器,其与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,其特征在于,上述声音识别服务器具备:
声音接收单元,其接收来自上述电话机的声音;
模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;
号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;
模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和
声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
2.根据权利要求1所述的声音识别服务器,其特征在于,
上述模型存储单元存储对于一个电话机所能利用的全部电话号码通用的声学模型,
上述模型选择单元也根据上述一个电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
3.根据权利要求2所述的声音识别服务器,其特征在于,
该声音识别服务器还具有声学模型更新单元,该声学模型更新单元利用来自上述一个电话机的全部声音来更新上述通用的声学模型。
4.根据权利要求1所述的声音识别服务器,其特征在于,
该声音识别服务器还具有语言模型更新单元,该语言模型更新单元利用针对来自上述一个电话机的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模型。
5.根据权利要求1~4中任意一项所述的声音识别服务器,其特征在于,
该声音识别服务器还具有数据存储单元,该数据存储单元将上述一个电话机所能利用的上述多个电话号码、与该电话机的用户识别信息相关联地存储,
上述模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述数据存储单元中存储的用户识别信息,且根据该选择的用户识别信息来选择上述模型存储单元中存储的声学模型。
6.根据权利要求5所述的声音识别服务器,其特征在于,
该声音识别服务器还具有对应关系控制单元,该对应关系控制单元在上述数据存储单元所存储的上述多个电话号码与上述用户识别信息之间的对应关系中进行追加、变更或删除的处理。
7.根据权利要求1~6中任意一项所述的声音识别服务器,其特征在于,
上述声音接收单元还接收为了上述模型选择单元选择上述声学模型以及上述语言模型而参照的模式识别信息,
上述模型选择单元根据上述模式识别信息来选择上述声学模型以及上述语言模型。
8.根据权利要求7所述的声音识别服务器,其特征在于,
在上述声音接收单元接收到多个上述模式识别信息的情况下,上述模型选择单元根据优先级高的模式识别信息来选择上述声学模型以及上述语言模型。
9.根据权利要求1~6中任意一项所述的声音识别服务器,其特征在于,
上述声音接收单元还接收上述电话机的用户的属性信息,
上述模型选择单元还参照上述属性信息,来选择上述声学模型以及上述语言模型。
10.一种电话机,其与将声音转换为字符的声音识别服务器连接,且能在一台终端中利用多个电话号码,其特征在于,上述电话机具备:
声音发送单元,其将来自用户的声音发送至上述声音识别服务器;
号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和
号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器。
11.一种声音识别***,其具有:能在一台终端中利用多个电话号码的电话机、以及将来自上述电话机的声音转换为字符的声音识别服务器,其特征在于,
上述电话机具备:声音发送单元,其将来自用户的声音发送至上述声音识别服务器;
号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和
号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器,
上述声音识别服务器具备:
声音接收单元,其接收来自上述电话机的声音;
模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;
号码判定单元,其根据来自上述电话机的上述号码通知单元的通知,判定上述当前呼出号码以及上述其它号码;
模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和
声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
12.一种声音识别服务器中的声音识别方法,该声音识别服务器与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别方法的特征在于,具有以下步骤:
模型存储步骤,上述声音识别服务器的模型存储单元存储用于将来自上述电话机的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;
声音接收步骤,上述声音识别服务器的声音接收单元接收来自上述电话机的声音;
号码判定步骤,上述声音识别服务器的号码判定单元判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;
模型选择步骤,上述声音识别服务器的模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和
声音识别步骤,上述声音识别服务器的声音识别单元根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
13.一种电话机,其能在一台终端中利用多个电话号码,其特征在于,上述电话机具备:
声音输入单元,其输入来自用户的声音;
号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;
模型存储单元,其存储用于将上述声音输入单元所输入的声音转换为字符的声学模型以及语言模型;
模型选择单元,其根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和
声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音输入单元所输入的声音转换为字符。
14.根据权利要求13所述的电话机,其特征在于,
上述模型存储单元存储对于该电话机所能利用的全部电话号码通用的声学模型,
上述模型选择单元也根据该电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
15.根据权利要求14所述的电话机,其特征在于,
还具有声学模型更新单元,其利用来自上述用户的全部声音来更新上述通用的声学模型。
16.根据权利要求13所述的电话机,其特征在于,
还具有语言模型更新单元,其利用对来自上述用户的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-020178 | 2009-01-30 | ||
JP2009020178A JP5059036B2 (ja) | 2009-01-30 | 2009-01-30 | 音声認識サーバ、電話機、音声認識システム、および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101794577A true CN101794577A (zh) | 2010-08-04 |
CN101794577B CN101794577B (zh) | 2012-10-03 |
Family
ID=42124431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101085352A Expired - Fee Related CN101794577B (zh) | 2009-01-30 | 2010-01-29 | 声音识别服务器、电话机、声音识别***以及声音识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8238525B2 (zh) |
EP (1) | EP2219355A3 (zh) |
JP (1) | JP5059036B2 (zh) |
CN (1) | CN101794577B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700371A (zh) * | 2013-12-13 | 2014-04-02 | 江苏大学 | 一种基于声纹识别的来电身份识别***及其识别方法 |
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、***、介质及云端服务器 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2225870A4 (en) * | 2007-12-14 | 2011-08-17 | Promptu Systems Corp | AUTOMATIC VEHICLE RECALL AND PREPARATION SYSTEM AND METHOD |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
WO2015030796A1 (en) * | 2013-08-30 | 2015-03-05 | Intel Corporation | Extensible context-aware natural language interactions for virtual personal assistants |
KR20150031984A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법 |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US10008199B2 (en) | 2015-08-22 | 2018-06-26 | Toyota Motor Engineering & Manufacturing North America, Inc. | Speech recognition system with abbreviated training |
US10896681B2 (en) * | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
KR102549204B1 (ko) * | 2017-09-26 | 2023-06-30 | 주식회사 케이티 | 음성인식 서비스를 제공하는 단말, 서버 및 방법 |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
JP2019152816A (ja) * | 2018-03-06 | 2019-09-12 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
CN110570843B (zh) * | 2019-06-28 | 2021-03-05 | 北京蓦然认知科技有限公司 | 一种用户语音识别方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0228700A (ja) * | 1988-07-18 | 1990-01-30 | Ricoh Co Ltd | 音声ダイヤリング装置 |
JPH10190842A (ja) * | 1996-12-27 | 1998-07-21 | Hitachi Ltd | 音声対話システム |
JP2000010590A (ja) | 1998-06-25 | 2000-01-14 | Oki Electric Ind Co Ltd | 音声認識装置およびその制御方法 |
JP2000125031A (ja) * | 1998-10-13 | 2000-04-28 | Brother Ind Ltd | 通信装置 |
JP2000125006A (ja) * | 1998-10-19 | 2000-04-28 | Ntt Data Corp | 音声認識装置、音声認識方法、及び電話自動応答装置 |
JP2000347684A (ja) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | 音声認識システム |
CN1429040A (zh) * | 2001-12-25 | 2003-07-09 | 声硕科技股份有限公司 | 可群呼式语音发信息*** |
JP2005340962A (ja) * | 2004-05-24 | 2005-12-08 | Ntt Docomo Inc | 移動通信システム及び移動通信装置 |
JP4466665B2 (ja) * | 2007-03-13 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
-
2009
- 2009-01-30 JP JP2009020178A patent/JP5059036B2/ja not_active Expired - Fee Related
-
2010
- 2010-01-26 US US12/693,796 patent/US8238525B2/en not_active Expired - Fee Related
- 2010-01-29 EP EP10152046.8A patent/EP2219355A3/en not_active Withdrawn
- 2010-01-29 CN CN2010101085352A patent/CN101794577B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700371A (zh) * | 2013-12-13 | 2014-04-02 | 江苏大学 | 一种基于声纹识别的来电身份识别***及其识别方法 |
CN103700371B (zh) * | 2013-12-13 | 2017-10-20 | 江苏大学 | 一种基于声纹识别的来电身份识别***及其识别方法 |
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、***、介质及云端服务器 |
CN113450785B (zh) * | 2020-03-09 | 2023-12-19 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、***、介质及云端服务器 |
Also Published As
Publication number | Publication date |
---|---|
US8238525B2 (en) | 2012-08-07 |
US20100195806A1 (en) | 2010-08-05 |
EP2219355A3 (en) | 2014-06-11 |
JP5059036B2 (ja) | 2012-10-24 |
CN101794577B (zh) | 2012-10-03 |
EP2219355A2 (en) | 2010-08-18 |
JP2010175967A (ja) | 2010-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101794577B (zh) | 声音识别服务器、电话机、声音识别***以及声音识别方法 | |
CN107562835B (zh) | 文件查找方法、装置、移动终端及计算机可读存储介质 | |
CN101102565B (zh) | 一种通信终端中用户数据的处理方法、装置及设备 | |
CN101719954B (zh) | 一种实现短信置顶的方法及装置 | |
CN103346921B (zh) | 用户管理方法和相关设备及通信*** | |
CN104575494A (zh) | 一种语音处理的方法和终端 | |
CN102656570A (zh) | 用于缓存的方法、服务器、计算机程序和计算机程序产品 | |
CN107346397A (zh) | 信息处理方法及相关产品 | |
CN102142035A (zh) | 一种用于对多个文字信息记录进行排序的方法与设备 | |
CN101931685A (zh) | 一种垃圾短信过滤方法和*** | |
CN102104673A (zh) | 通讯录管理***及方法 | |
CN106502824A (zh) | 数据备份方法及云服务器 | |
CN106341315A (zh) | 短信清理方法、装置和移动终端 | |
CN101958954A (zh) | 一种在通讯录中查找联系人的输入方法、***及移动终端 | |
CN107197074A (zh) | 通讯录管理方法、装置、存储介质及电子设备 | |
CN103051792A (zh) | 变更联系人信息的方法及其通信终端 | |
CN105955507B (zh) | 一种软键盘的显示方法以及终端 | |
CN109446220B (zh) | 一种基于快递用户的客服语音菜单定制方法和定制*** | |
CN106888308A (zh) | 一种语音处理方法及移动终端 | |
CN101729929A (zh) | 一种智能网业务库存取海量数据的***、装置及方法 | |
CN104396341A (zh) | 支持联系提醒的***和方法 | |
CN103595845A (zh) | 在用户识别卡中存储通讯记录的方法、装置及终端 | |
CN103365874A (zh) | 一种基于联系信息提供应用记录信息的方法与设备 | |
CN104869210A (zh) | 一种通信信息提取方法及信息提取终端 | |
CN106970812A (zh) | 升级文件处理、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121003 Termination date: 20160129 |
|
EXPY | Termination of patent right or utility model |