CN107808667A - 声音识别装置以及声音识别方法 - Google Patents

声音识别装置以及声音识别方法 Download PDF

Info

Publication number
CN107808667A
CN107808667A CN201710783417.3A CN201710783417A CN107808667A CN 107808667 A CN107808667 A CN 107808667A CN 201710783417 A CN201710783417 A CN 201710783417A CN 107808667 A CN107808667 A CN 107808667A
Authority
CN
China
Prior art keywords
voice recognition
user
classification
information
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710783417.3A
Other languages
English (en)
Inventor
池野笃司
岛田宗明
畠中浩太
西岛敏文
片冈史宪
刀根川浩巳
梅山伦秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN107808667A publication Critical patent/CN107808667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种声音识别装置以及声音识别方法,提高了声音识别装置进行的声音识别的精度。具有:声音获取单元,获取用户发出的声音;声音识别单元,获取对获取到的所述声音进行识别的结果;类别分类单元,根据声音识别的结果对所述用户的发声内容的类别进行分类;信息获取单元,获取包括与所分类出的所述类别对应的单词的类别词典;以及校正单元,根据所述类别词典修正所述声音识别的结果。

Description

声音识别装置以及声音识别方法
技术领域
本发明涉及对输入的声音进行识别的声音识别装置。
背景技术
识别用户发出的声音、计算机使用其识别结果进行处理的声音识别技术得到普及。通过使用声音识别技术,能够以非接触的方式操作计算机,特别是搭载于汽车等移动体的计算机的便利性大幅提高。
进行声音识别时的识别精度根据识别时使用的词典的规模而不同。例如,特化为声音识别的工作站和未特化为声音识别的个人计算机在识别精度方面存在大的差异。
因此,当希望在规模小的计算机中利用声音识别的情况下,利用经由通信线路向规模大的计算机传送声音数据并获取识别结果的手法。
现有技术文献
专利文献1:日本特开2001-034292号公报
专利文献2:日本特开2013-154458号公报
发明内容
比较所输入的声音和识别词典,根据得到的结果进行声音识别,所以有时会将发音或特征类似的不同的单词输出为识别结果。
本发明是考虑上述问题而完成的,其目的在于提高声音识别装置执行的声音识别的精度。
本发明的第一方案提供一种声音识别装置,其特征在于,具有:声音获取单元,获取用户发出的声音;声音识别单元,获取对获取到的所述声音进行识别的结果;类别分类单元,根据声音识别的结果对所述用户的发声内容的类别进行分类;信息获取单元,获取包括与所分类出的所述类别对应的单词的类别词典;以及校正单元,根据所述类别词典修正所述声音识别的结果。
本发明的声音识别装置具有如下特征:为了防止识别错误的单词而并用发音上的特征以外的特征来进行声音识别。
类别分类单元是根据对声音进行识别的结果对用户的发声内容的类别进行分类的单元。由此,能够获取用户作为话题的对象的类别。类别例如也可以从“场所”“人物”“食物”等事先定义的多个类别中选择。
信息获取单元是获取类别词典的单元,该类别词典包括与所分类出的类别对应的单词。类别词典既可以针对每个类别预先制作,也可以根据类别而动态地收集。例如,也可以是使用WEB服务等外部的信息资源而收集到的信息。
另外,校正单元是根据类别词典来校正声音识别的结果的单元。例如,在判定为进行针对场所的话题的情况下,使用与场所对应(例如包括大量固有名词)的类别词典来进行结果的校正。
根据上述结构,能够根据类别来区分在发音上近似的单词,所以声音识别的精度提高。
另外,所述类别词典包括与所述类别对应并且与所述用户关联的单词,在所述类别词典所包含的单词和所述声音识别的结果所包含的单词类似的情况下,所述校正单元用所述类别词典中包含的类似的单词中的一个单词置换所述声音识别的结果所包含的单词。
与用户关联的单词是指,例如与用户的位置信息、用户的移动路径、用户的爱好、用户的交友关系等有关的单词,但不限于这些。
例如,作为与“场所”这个类别对应并且与用户关联的单词,可以例举出存在于用户当前位置周边的地标的名称等。
另外,类似意味着在发音上类似。根据上述结构,能够提供适合于利用装置的用户的修正候补。
另外,本发明的声音识别装置的特征还可以在于具有位置信息获取单元,该位置获取单元获取位置信息,所述信息获取单元获取和与所述位置信息关联的地标的名称有关的信息来作为所述类别词典,在所述用户的发声内容是与场所有关的内容的情况下,所述校正单元使用与所述地标的名称有关的信息来修正所述声音识别的结果。
在用户的发声内容是与场所有关的内容的情况下,信息获取单元根据位置信息而获取与地标的名称有关的信息。位置信息既可以是表示当前位置的信息,也可以是直至目的地的路径信息等。此外,信息的获取目标也可以是与进行声音识别的装置独立的装置。根据上述结构,能够提高与地标有关的固有名词的识别精度。
另外,所述信息获取单元获取与处于用所述位置信息表示的场所附近的地标的名称有关的信息。
其原因在于处于用位置信息表示的场所附近的地标被用户提及的可能性高。
另外,本发明的声音识别装置的特征也可以在于还具有路径获取单元,该路径获取单元获取与所述用户的移动路径有关的信息,所述信息获取单元获取与处于所述用户的移动路径附近的地标名称有关的信息。
在能够获取用户的移动路径的情况下,信息获取单元获取与处于该移动路径附近的地标的名称有关的信息。因为处于移动路径附近的地标被用户提及的可能性高,所以能够进一步提高与地标有关的固有名词的识别精度。此外,用户的移动路径也可以从导航装置或用户所持有的便携终端获取。另外,移动路径既可以是从出发地至当前位置的路径,也可以是从当前位置至目的地的路径。另外,还可以是从出发地至目的地的路径。
另外,所述信息获取单元获取与所述用户的爱好有关的信息来作为所述类别词典,在所述用户的发声内容是与所述用户的爱好有关的内容的情况下,所述校正单元使用与所述用户的爱好有关的信息来校正所述声音识别的结果。
用户的爱好是指,例如,表示用户所关心的信息的风格、食物、爱好、电视节目、体育、WEB站点、音乐等,但不限于这些。
与用户的爱好有关的信息既可以是存储于声音识别装置的信息,也可以是从外部的装置(例如用户所持有的便携终端)获取的信息。另外,与用户的爱好有关的信息既可以根据事先制作出的配置文件信息获取,也可以根据WEB的阅览历史、音乐电影的再生历史等动态地生成。
另外,特征还可以在于所述信息获取单元从用户所持有的便携终端获取与登记的联络目标有关的信息来作为所述类别词典,在所述用户的发声内容是与人物有关的内容的情况下,所述校正单元使用与所述联络目标有关的信息来校正所述声音识别的结果。
根据上述结构,能够进一步提高与用户的熟人有关的固有名词的识别精度。
另外,所述声音识别单元经由声音识别服务器进行声音的识别。
一般来说,在使服务器进行声音识别的情况下会产生无法反映用户固有的信息的问题,当在本地进行声音识别的情况下会产生无法确保识别精度的问题,但根据本发明,在服务器进行声音识别之后,使用与用户关联的信息来修正识别结果,所以能够同时实现双方。
此外,本发明能够特定为包括上述单元的至少一部分的声音识别装置。另外,还能够特定为所述声音识别装置执行的声音识别方法。只要不产生技术上的矛盾,则上述处理或单元能够自由地组合来实施。
根据本发明,能够提高声音识别装置执行的声音识别的精度。
附图说明
图1是第一实施方式的对话***的***结构图。
图2是第一实施方式的车载终端进行的处理的流程图。
图3是第一实施方式的车载终端进行的处理的流程图。
图4是第二实施方式的对话***的***结构图。
图5是第二实施方式的对话***进行的处理的流程图。
(符号说明)
10:车载终端;20:声音识别服务器;11:声音输入输出部;12:校正部;13:路径信息获取部;14:用户信息获取部;15、21:通信部;16:响应生成部;17:输入输出部;22:声音识别部。
具体实施方式
(第一实施方式)
以下,参照附图来说明本发明的优选的实施方式。
第一实施方式的对话***是从搭乘于车辆的用户(例如驾驶员)获取声音命令来进行声音识别,根据识别结果生成响应句并提供给用户的***。
<***结构>
图1是第一实施方式的对话***的***结构图。
本实施方式的对话***包括车载终端10和声音识别服务器20。
车载终端10是具有如下功能的装置:获取用户发出的声音并经由声音识别服务器20进行声音识别的功能;以及根据声音识别的结果生成响应句并提供给用户的功能。车载终端10例如既可以是车载的车辆导航装置,也可以是通用的计算机。另外,还可以是其它车载终端。
另外,声音识别服务器20是对从车载终端10发送的声音数据进行声音识别处理、变换为文本的装置。在后叙述声音识别服务器20的详细的结构。
车载终端10包括声音输入输出部11、校正部12、路径信息获取部13、用户信息获取部14、通信部15、响应生成部16、输入输出部17。
声音输入输出部11是输入输出声音的单元。具体而言,使用未图示的麦克风,将声音变换为电信号(以下称为“声音数据”)。获取到的声音数据被发送给后述声音识别服务器20。另外,声音输入输出部11使用未图示的扬声器,将从后述的响应生成部16发送的声音数据变换为声音。
校正部12是对声音识别服务器20执行声音识别的结果进行校正的单元。校正部12执行:(1)根据从声音识别服务器20获取到的文本对用户的发声内容的类别进行分类的处理;以及(2)根据分类出的类别、后述路径信息以及用户信息校正声音识别结果的处理。在后叙述具体的校正的方法。
路径信息获取部13是用于获取与用户的移动路径有关的信息(路径信息)的单元,是本发明中的路径获取单元。路径信息获取部13从搭载于车辆的导航装置或便携终端等具有路径引导功能的装置获取当前位置、目的地以及直至目的地的路径信息。
用户信息获取部14是获取与装置的用户有关的信息(用户信息)的单元。在本实施方式中,具体而言,从用户所持有的便携终端获取(1)被登记为该用户的联络目标的姓名信息、(2)该用户的配置文件信息、(3)音乐再生历史这三种信息。
通信部15是经由通信线路(例如便携电话网)访问网络、从而与声音识别服务器20进行通信的单元。
响应生成部16是根据声音识别服务器20发送的文本(即用户进行的发声的内容)生成作为向用户的回答的文章(发声句)的单元。响应生成部16例如也可以根据预先存储的对话脚本(对话词典)生成响应。向后述的输入输出部17以文本形式发送响应生成部16所生成的回答,之后,利用合成声音向用户输出。
声音识别服务器20是特化为声音识别的服务器装置,包括通信部21以及声音识别部22。
通信部21具有的功能与上述的通信部15相同,所以省略详细的说明。
声音识别部22是对获取到的声音数据进行声音识别并变换为文本的单元。声音识别能够通过既知的技术进行。例如,在声音识别部22中存储有音响模型和识别词典,通过比较所获取的声音数据和音响模型而抽出特征,使所抽出的特征与识别词典匹配而进行声音识别。声音识别的结果所得到的文本被发送给车载终端10。
车载终端10以及声音识别服务器20都能够构成为具有CPU、主存储装置、辅助存储装置的信息处理装置。存储于辅助存储装置的程序被加载到主存储装置,由CPU执行,从而图1图示的各单元发挥功能。此外,图示的功能的全部或者一部分也可以使用专门设计的电路来执行。
<处理流程图>
接下来,说明车载终端10进行的具体处理的内容。图2是示出车载终端10所执行的处理的流程图。
首先,在步骤S11中,声音输入输出部11经由未图示的麦克风从用户获取声音。获取到的声音被变换为声音数据,经由通信部15以及通信部21被发送给声音识别服务器20。
所发送的声音数据由声音识别部22变换为文本,变换完成之后马上经由通信部21以及通信部15发送给校正部12(步骤S12)。
接下来,在步骤S13中,校正部12判定发声内容的类别。
发声内容的类别例如能够根据单词的一致度来确定。例如,通过形态分析将文章分解为单词,对去掉助词以及副词等后的剩余的单词,验证是否与针对每个类别规定的预定的单词一致。然后,将针对每个单词规定的得分相加,计算每个类别的合计得分。最终,将得分最高的类别确定为该发声内容的类别。
此外,在本例子中根据单词的一致度确定了发声的类别,但也可以使用机械学习等手法来判定发声内容的类别。
接下来,在步骤S14中,校正部12根据所判定出的类别来校正识别结果的文本。
在此,参照图3,更具体地说明步骤S14中进行的处理。在本实施方式中,将发声内容的类别分类为“音乐”“场所”“爱好”“人物”这四种。
首先,说明类别为“音乐”的情况的例子。
在类别为“音乐”的情况下(步骤S141A),校正部12经由用户信息获取部14从用户所持有的便携终端获取音乐的再生历史,使用该再生历史所包含的曲名以及艺术家名来校正识别结果(步骤S142A)。
例如,声音识别服务器20输出的识别结果为“是否为ビーズ的新歌吗?”,根据“新歌”这个单词判定为该发声内容的类别为“音乐”。在该情况下,判定为再生历史所包含的“B’z”这个单词和识别结果所包含的“ビーズ”这个单词在发音上类似,将“ビーズ”校正为“B’z”。(注:B'z是日本的音乐团体)
之后,在步骤S15中,响应生成部16根据“是否为B’z的新歌?”这个文本而生成响应。响应生成部16例如检索WEB服务等来获取新专辑的发布预定,提供给用户。
接下来,说明类别为“场所”的情况的例子。
在类别为“场所”的情况下(步骤S141B),校正部12经由路径信息获取部13获取路径信息,获取沿着该路径存在的地标的名称,之后使用该地标的名称来校正识别结果(步骤S142B)。
在此,考虑对作为位于东京的复合设施的名称的“红坂Sacas(Akasaka Sacas)”发声的情况。
例如,声音识别服务器20输出的识别结果是“红坂Sa-cas在附近?”,根据“附近”这个单词判定为该发声内容的类别为“场所”。在该情况下,判定为沿着路径存在的“红坂Sacas”这个建筑物的名称和识别结果所包含的“Sa-cas”这个单词在发音上类似,将“Sa-cas”校正为“Sacas”。
之后,在步骤S15中,响应生成部16根据“红坂Sacas在附近?”这个文本生成响应。响应生成部16例如检索WEB服务等来检索红坂Sacas的场所,并提供给用户。
此外,在本例子中,使用路径信息进行了校正,但未必一定使用路径信息。例如,既可以仅使用当前位置,也可以仅使用目的地的场所。此外,关于地标的名称既可以声音识别装置预先存储,也可以从便携终端或车辆导航装置获取。
接下来,说明类别为“爱好”的情况的例子。
在类别为“爱好”的情况下(步骤S141C),校正部12经由用户信息获取部14从用户所持有的便携终端获取该用户的配置文件信息,使用该配置文件信息所包含的关于爱好的信息来校正识别结果(步骤S142C)。
例如,声音识别服务器20输出的识别结果是“让朋友吃青椒”,根据“青椒”这个单词,判定为该发声内容的类别为“爱好”。另外,配置文件信息包含“讨厌的食物是松花蛋”这个信息。在该情况下,判定配置文件信息包含的“松花蛋”和识别结果所包含的“青椒”这个单词在发音上类似,将“青椒”校正成“松花蛋”。
(此外,注:青椒在日语中表示Bell pepper(菜椒),松花蛋表示Century egg(皮蛋))
之后,在步骤S15中,响应生成部16根据“让朋友吃松花蛋”这个文本生成响应。响应生成部16例如生成“不喜欢那个”的响应,并提供给用户。
接下来,说明类别为“人物”的情况的例子。
在类别为“人物”的情况下(步骤S141D),校正部12经由用户信息获取部14从用户所持有的便携终端获取联络目标信息,获取该联络目标信息所包含的人名,之后使用该人名来校正识别结果(步骤S142D)。
例如,声音识别服务器20输出的识别结果是“最近未见到樱坂”,根据“未见到”这个单词判定为该发声内容的类别是“人物”。在该情况下,判定为联络簿所包含的“神乐坂”这个姓名和识别结果所包含的“樱坂”这个单词在发音上类似,将“樱坂”校正为“神乐坂”。(注:樱坂和神乐坂都能作为日本的姓。另外,樱坂还是日本的流行歌曲的歌名)
之后,在步骤S15中,响应生成部16根据“最近未见到神乐坂”这个文本生成响应。响应生成部16例如生成“好久不见,试着给神乐坂君打电话?”的响应,并提供给用户。
此外,声音识别服务器20输出的识别结果是“最近未听樱坂”,根据“未听”这个单词判定为该发声的类别是“音乐”。在这样的情况下,在识别结果所包含的“樱坂”和音乐的再生历史所包含的“樱坂”相同的情况下,不进行校正。
此外,在发声不对应于任何类别的情况下,省略步骤S14的处理。也就是说跳过图3的处理。
如以上说明的那样,本实施方式的声音识别装置对用户的发声内容的类别进行分类,根据该类别来校正识别结果。由此,能够提高声音识别的精度。进而,在校正识别结果时使用路径信息或联络簿这样的、本地保持的用户固有的信息,所以能够进行更适合于用户的校正。
(第二实施方式)
第二实施方式是使独立的服务器装置具有第一实施方式中的校正部12以及响应生成部16的实施方式。
图4是第二实施方式的对话***的***结构图。此外,对具有与第一实施方式相同的功能的功能块附加同一符号而省略说明。
在第二实施方式中,作为生成响应句的服务器装置的响应生成服务器30具有响应生成部32以及校正部33。响应生成部32与第一实施方式中的响应生成部16对应,校正部33与第一实施方式中的校正部12对应。基本的功能相同,所以说明省略。
图5是第二实施方式的对话***进行的处理流程图。步骤S11以及S12的处理与第一实施方式相同,所以说明省略。
在步骤S53中,车载终端10将从声音识别服务器20获取到的识别结果转送给响应生成服务器30,在步骤S54中,校正部33通过上述手法判定发声内容的类别。
接下来,在步骤S55中,校正部33对车载终端10请求与所判定出的类别对应的用户信息。由此,路径信息获取部13所获取的路径信息、或者用户信息获取部所获取的用户信息被发送给响应生成服务器30。
接下来,在步骤S56中,校正部12根据所判定出的类别来校正识别结果的文本。然后,响应生成部32根据校正后的文本生成响应句,发送给车载终端10(步骤S57)。
响应句最终在步骤S58中被变换为声音,经由声音输入输出部11提供给用户。
(变形例)
上述实施方式只是一个例子,本发明能够在不脱离其要旨的范围内适当地变更来实施。
例如,在实施方式的说明中,使用音乐的再生历史等用户固有的信息进行了校正,但只要是与所分类的类别对应的信息资源,则也可以使用其它的并非用户固有的信息资源。例如,在类别为音乐的情况下,也可以利用检索乐曲或艺术家名的WEB服务。另外,还可以获取特化为类别的词典并利用。
另外,在实施方式的说明中,例示出四种类别,但类别也可以是这四种类别以外的类别。另外,校正部12为了进行校正而使用的信息也不限于例示出的信息,只要是起到与所分类出的类别对应的词典的作用的信息,则可以使用任意的信息。例如,也可以从用户所持有的便携终端获取邮件或SNS的发送接收历史等,作为词典使用。
另外,在实施方式的说明中设为本发明的声音识别装置为车载终端,但也可以实施为便携终端。在该情况下,路径信息获取部13也可以从便携终端具备的GPS模块或启动中的应用获取位置信息或路径信息。另外,用户信息获取部14也可以从便携终端的存储设备获取用户信息。

Claims (9)

1.一种声音识别装置,其特征在于,具有:
声音获取单元,获取用户发出的声音;
声音识别单元,获取对获取到的所述声音进行识别的结果;
类别分类单元,根据声音识别的结果对所述用户的发声内容的类别进行分类;
信息获取单元,获取包括与所分类出的所述类别对应的单词的类别词典;以及
校正单元,根据所述类别词典修正所述声音识别的结果。
2.根据权利要求1所述的声音识别装置,其特征在于,
所述类别词典包括与所述类别对应并且与所述用户关联的单词,
在所述类别词典所包含的单词和所述声音识别的结果所包含的单词类似的情况下,所述校正单元用所述类别词典中包含的类似的单词中的一个单词置换所述声音识别的结果所包含的单词。
3.根据权利要求1或者2所述的声音识别装置,其特征在于,
所述声音识别装置还具有位置信息获取单元,该位置获取单元获取位置信息,
所述信息获取单元获取和与所述位置信息关联的地标的名称有关的信息来作为所述类别词典,
在所述用户的发声内容是与场所有关的内容的情况下,所述校正单元使用与所述地标的名称有关的信息来修正所述声音识别的结果。
4.根据权利要求3所述的声音识别装置,其特征在于,
所述信息获取单元获取与处于用所述位置信息表示的场所附近的地标的名称有关的信息。
5.根据权利要求3所述的声音识别装置,其特征在于,
所述声音识别装置还具有路径获取单元,该路径获取单元获取与所述用户的移动路径有关的信息,
所述信息获取单元获取与处于所述用户的移动路径附近的地标名称有关的信息。
6.根据权利要求1所述的声音识别装置,其特征在于,
所述信息获取单元获取与所述用户的爱好有关的信息来作为所述类别词典,
在所述用户的发声内容是与所述用户的爱好有关的内容的情况下,所述校正单元使用与所述用户的爱好有关的信息来校正所述声音识别的结果。
7.根据权利要求1所述的声音识别装置,其特征在于,
所述信息获取单元从用户所持有的便携终端获取与登记的联络目标有关的信息来作为所述类别词典,
在所述用户的发声内容是与人物有关的内容的情况下,所述校正单元使用与所述联络目标有关的信息来校正所述声音识别的结果。
8.根据权利要求1所述的声音识别装置,其特征在于,
所述声音识别单元经由声音识别服务器进行声音的识别。
9.一种声音识别方法,由声音识别装置执行,所述声音识别方法的特征在于,包括:
声音获取步骤,获取用户发出的声音;
声音识别步骤,获取对获取到的所述声音进行识别的结果;
类别的分类步骤,根据声音识别的结果对所述用户的发声内容的类别进行分类;
信息获取步骤,获取包括与所分类出的所述类别对应的单词的类别词典;以及
校正步骤,根据所述类别词典修正所述声音识别的结果。
CN201710783417.3A 2016-09-06 2017-09-04 声音识别装置以及声音识别方法 Pending CN107808667A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-173902 2016-09-06
JP2016173902A JP6597527B2 (ja) 2016-09-06 2016-09-06 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
CN107808667A true CN107808667A (zh) 2018-03-16

Family

ID=61281407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710783417.3A Pending CN107808667A (zh) 2016-09-06 2017-09-04 声音识别装置以及声音识别方法

Country Status (3)

Country Link
US (1) US20180068659A1 (zh)
JP (1) JP6597527B2 (zh)
CN (1) CN107808667A (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
JP7009338B2 (ja) * 2018-09-20 2022-01-25 Tvs Regza株式会社 情報処理装置、情報処理システム、および映像装置
CN111243593A (zh) * 2018-11-09 2020-06-05 奇酷互联网络科技(深圳)有限公司 语音识别纠错方法、移动终端和计算机可读存储介质
CN110210029B (zh) * 2019-05-30 2020-06-19 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、***、设备及介质
JP6879521B1 (ja) * 2019-12-02 2021-06-02 國立成功大學National Cheng Kung University 多言語音声認識およびテーマ−意義素解析方法および装置
JP6841535B1 (ja) 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
CN112581958B (zh) * 2020-12-07 2024-04-09 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080632A1 (en) * 2002-09-25 2005-04-14 Norikazu Endo Method and system for speech recognition using grammar weighted based upon location information
US20080275699A1 (en) * 2007-05-01 2008-11-06 Sensory, Incorporated Systems and methods of performing speech recognition using global positioning (GPS) information
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
US20140012575A1 (en) * 2012-07-09 2014-01-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20140330566A1 (en) * 2013-05-06 2014-11-06 Linkedin Corporation Providing social-graph content based on a voice print
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及***
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
JP2004264464A (ja) * 2003-02-28 2004-09-24 Techno Network Shikoku Co Ltd 特定分野辞書を利用した音声認識誤り訂正システム
US20050171685A1 (en) * 2004-02-02 2005-08-04 Terry Leung Navigation apparatus, navigation system, and navigation method
JP2006170769A (ja) * 2004-12-15 2006-06-29 Aisin Aw Co Ltd 案内情報提供方法、案内情報提供システム、ナビゲーション装置及び入出力装置
US8131118B1 (en) * 2008-01-31 2012-03-06 Google Inc. Inferring locations from an image
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US10319376B2 (en) * 2009-09-17 2019-06-11 Avaya Inc. Geo-spatial event processing
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9378741B2 (en) * 2013-03-12 2016-06-28 Microsoft Technology Licensing, Llc Search results using intonation nuances
US9484025B2 (en) * 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
JP2016102866A (ja) * 2014-11-27 2016-06-02 株式会社アイ・ビジネスセンター 誤認識修正装置およびプログラム
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080632A1 (en) * 2002-09-25 2005-04-14 Norikazu Endo Method and system for speech recognition using grammar weighted based upon location information
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US20080275699A1 (en) * 2007-05-01 2008-11-06 Sensory, Incorporated Systems and methods of performing speech recognition using global positioning (GPS) information
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
US20140012575A1 (en) * 2012-07-09 2014-01-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US20140330566A1 (en) * 2013-05-06 2014-11-06 Linkedin Corporation Providing social-graph content based on a voice print
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及***
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置

Also Published As

Publication number Publication date
US20180068659A1 (en) 2018-03-08
JP6597527B2 (ja) 2019-10-30
JP2018040904A (ja) 2018-03-15

Similar Documents

Publication Publication Date Title
CN107808667A (zh) 声音识别装置以及声音识别方法
US11727918B2 (en) Multi-user authentication on a device
JP4466665B2 (ja) 議事録作成方法、その装置及びそのプログラム
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和***
US20180090132A1 (en) Voice dialogue system and voice dialogue method
CN107039038A (zh) 学习个性化实体发音
CN105895103A (zh) 一种语音识别方法及装置
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
CN103635962A (zh) 声音识别***、识别字典登记***以及声学模型标识符序列生成装置
KR102076793B1 (ko) 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
CN107943914A (zh) 语音信息处理方法和装置
CN108806360A (zh) 伴读方法、装置、设备和存储介质
CN110347848A (zh) 一种演示文稿管理方法及装置
CN109686362B (zh) 语音播报方法、装置和计算机可读存储介质
US20120185417A1 (en) Apparatus and method for generating activity history
CN107112007A (zh) 语音识别装置及语音识别方法
CN106372231A (zh) 一种搜索方法及装置
US9438741B2 (en) Spoken tags for telecom web platforms in a social network
CN105869631B (zh) 语音预测的方法和装置
JP2012168349A (ja) 音声認識システムおよびこれを用いた検索システム
CN107885720A (zh) 关键词生成装置以及关键词生成方法
CN110517672A (zh) 用户意图识别方法、用户指令执行方法、***及设备
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
TW202418855A (zh) 程式、方法、資訊處理裝置、系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180316