CN107068147A - 语音端点确定 - Google Patents

语音端点确定 Download PDF

Info

Publication number
CN107068147A
CN107068147A CN201610825803.XA CN201610825803A CN107068147A CN 107068147 A CN107068147 A CN 107068147A CN 201610825803 A CN201610825803 A CN 201610825803A CN 107068147 A CN107068147 A CN 107068147A
Authority
CN
China
Prior art keywords
speech polling
speech
specific user
polling
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610825803.XA
Other languages
English (en)
Other versions
CN107068147B (zh
Inventor
西迪·塔德帕特里卡尔
迈克尔·布坎南
普拉维尔·库马尔·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/923,637 external-priority patent/US20170110118A1/en
Priority claimed from US15/196,663 external-priority patent/US10269341B2/en
Application filed by Google LLC filed Critical Google LLC
Publication of CN107068147A publication Critical patent/CN107068147A/zh
Application granted granted Critical
Publication of CN107068147B publication Critical patent/CN107068147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了用于确定语音的端点的方法、***和设备,包括被编码在计算机存储介质上的计算机程序。一方面,一种方法包括访问包括特定用户说出的语音查询的语音查询日志数据的动作。所述动作还包括基于包括特定用户说出的该语音查询的语音查询日志数据,从包括所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值。所述动作还包括从所述特定用户接收话语。所述动作还包括确定所述特定用户已经在至少等于停顿阈值的时间段内停止说话。所述动作还包括基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。

Description

语音端点确定
相关申请的交叉引用
本申请要求于2015年10月19日提交的美国临时申请号62/243,463的权益,其内容通过引用并入本文。
技术领域
本公开大体上涉及语音识别,并且一个特定实施方式涉及对话音进行端点确定。
背景技术
自然语言处理***通常使用端点器来确定用户何时已经开始和结束说话。在确定何时话语开始或者结束时,一些传统的端点器评价词之间的停顿的持续时间。例如,如果用户说“what is<long pause>for dinner(晚餐<长停顿>吃什么)”,则传统的端点器可以在长停顿处对语音输入分段,并且可以指令自然语言处理***尝试处理不完整的短语“whatis(吃什么)”而非完整短语“what is for dinner(晚餐吃什么)”。如果端点器指定语音输入的不正确的起始点或者结束点,则使用自然语言处理***处理语音输入的结果可能不精确或者不尽人意。
发明内容
不同用户对于在他们的移动设备上使用语音输入可能具有不同的舒适水平。一些用户可能频繁地使用语音输入特征并且能够在说话期间不犹豫地形成语音查询。其它用户可能不那么经常地使用语音输入特征,或者可能无法在不犹豫的情况下快速地构思出查询。较有经验的用户可能受益于在测量出用户语音中的短停顿之后就开始处理用户的语音查询的***。经验较少的用户可能受益于在测量出用户语音中的较长停顿之后开始处理用户的语音查询来确保经验较少的用户已经完成说话的***。
为了确定应用于特定用户的语音查询的停顿长度,***分析该特定用户的先前的语音查询。对于特定用户,***考虑语音查询频率、先前的语音查询的词之间的停顿长度、先前的语音查询的完整性、以及先前的语音查询的长度。与不那么频繁说出语音查询的用户相比,更频繁说出语音查询的用户可能受益于对用户的语音查询应用的较短停顿长度。与词之间具有较长平均停顿长度的用户相比,先前的语音查询的词之间具有短平均停顿长度的用户可能受益于较短的停顿长度。与较不频繁说出完整查询的用户相比,更经常说出完整语音查询的用户可能受益于较短的停顿长度。与说出较短语音查询的用户相比,说出较长语音查询的用户可能受益于较短的停顿长度。一旦***计算出应用于特定用户的语音查询的适当停顿长度,则***可以使用该特定用户的停顿长度来在该特定用户的将来话语期间生成端点。
大体上,本说明书中所述的主题的另一新颖方面可以被实现在方法中,所述方法包括:访问包括特定用户说出的语音查询的语音查询日志数据;基于包括特定用户说出的该语音查询的语音查询日志数据,从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值;从该特定用户接收话语;确定该特定用户已经在至少等于停顿阈值的时间段内停止说话;以及基于确定该特定用户已经在至少等于停顿阈值的时间段内停止说话,将该话语处理为语音查询。
这些和其它实施例均能够可选地包括一个或多个下列特征。从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值的动作包括将该特定用户分类为语音识别***的专家用户或者语音识别***的新手用户;以及基于将该特定用户分类为语音识别***的专家用户或者语音识别***的新手用户,确定停顿阈值。语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔。从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值的动作包括基于与每个语音查询相关联的该时间戳、指示每个语音查询是否完整的该数据、以及与每个语音查询相关联的该语音停顿间隔来确定停顿阈值。
所述动作进一步包括基于语音查询日志数据,确定特定用户每天说出的语音查询的平均数目。确定停顿阈值的动作进一步基于特定用户每天说出的语音查询的该平均数目。所述动作还包括基于该语音查询日志数据,确定特定用户说出的语音查询的该平均长度。确定该停顿阈值的动作进一步基于特定用户说出的语音查询的平均长度。所述动作进一步包括基于语音查询日志数据,确定特定用户说出的语音查询的平均停顿间隔。确定停顿阈值的动作进一步基于特定用户说出的语音查询的该平均停顿间隔。
本方面的其它实施例包括相对应的***、装置、以及记录在计算机存储设备上的计算机程序,其每个都被配置来执行所述方法的操作。
本说明书中所述的主题的特定实施例能够被实现为实现一个或多个下列优点。用户可以使用计算设备的语音输入能力,并且以对于该用户舒适的语速说话。可以在话语的所意图的端处对该话语确定端点,导致更为精确或期望的自然语言处理输出,并且导致自然语言处理***更快速地处理。
在附图和以下描述中阐述了本说明书中所述的主题的一个或多个实施例的细节。本主题的其它特征、方面、和优点从说明书、附图、和权利要求书将显而易见。
附图说明
图1是对于特定用户来确定用户是否已经完成说出语音查询所使用的示例话语和信号的视图。
图2是基于特定用户对语音输入的经验而对特定用户进行分类的示例***的视图。
图3是基于特定用户对语音输入的经验来对特定用户进行分类并且确定该特定用户是否已经完成说出语音查询的示例过程的视图。
图4是可以在其上实现本文所述的过程或者其部分的计算设备的框图。
各附图中,相似参考数字和名称指示相似的元件。
具体实施方式
图1是对于特定用户来确定用户是否已经完成说出语音查询所使用的示例话语和信号的视图100。大体上,视图100图示了当计算设备121正在处理传入的音频输入时由计算设备121生成或者检测出的信号103-118。计算设备121通过计算设备121的麦克风或者其它音频输入设备来接收与话语124相对应的音频数据,并且依赖于被指派给用户127的用户简档来生成话语124的转录。
话语定时130表示用户127说出话语124(在图1中为“Text Mom love you(发短信给妈妈说爱你)”)的各个词语的定时。用户127以每个词之间的渐增的停顿长度来说出每个词。每个词之间的点的数目与每个词之间的停顿长度成正比。每个点可以表示特定时间段,诸如100毫秒。第一词133“Text”之后是可以与300毫秒相对应的三个点的停顿136。第二个词139“Mom”之后是可以与800毫秒相对应的八个点的停顿142。第三个词145“love”之后是可以与1.2秒相对应的12个点的停顿128。第四个词151“you”之后是停顿154。在图1中,停顿154为可以与2秒相对应的20个停顿。由于词151位于话语124的终点,所以词语151之后的停顿可以比停顿154长很多,因为用户127已经停止说话。这些停顿和下文所述的其它停顿表示两个词之间的自然沉默时段,并且不是用户主动停止说话。
在一些实施方式中,计算设备121可以在不将用户127的任何特性作为因素的情况下生成普通端点信号103和完整查询信号106。完整查询信号106表示由计算设备121执行的对所生成的话语130的转录表示完整话语的估计。计算设备121将所生成的转录与用户127和其它用户先前已经说出的一个或更多完整话语进行比较。计算设备121可以在计算设备121的语音识别器已经识别出新词后将所生成的转录与该完整话语进行比较。例如,在用户127说出词133后,计算设备121的语音识别器生成转录“text”。计算设备121将“text”与其它完整话语进行比较,并且确定“text”不是完整话语。在用户127说出词139后,语音识别器生成转录“text mom”,计算设备121将其识别为完整的。在词语151之后做出类似的确定。在用户127说出词145之后,语音识别器生成转录“text mom love”,计算设备121将其识别为不完整的。
普通端点信号103表示由计算设备121执行的对用户127已经结束说话的估计。计算设备121可以基于语音音频之间的停顿长度来生成普通端点信号103。计算设备121可以在不生成话语124的转录的情况下生成普通端点信号103。例如,计算设备121可以接收与词133相对应的音频数据。在停顿136期间,计算设备121随着停顿136期间的时间的流逝来测量时间。停顿136可能仅持续300毫秒。如果普通端点阈值比300毫秒长,诸如600毫秒,则计算设备121将不触发普通端点器。在计算设备121接收到与词139相对应的音频数据之后,计算设备121测量停顿142的时间。在停顿142已经流逝了600毫秒之后,计算设备121触发普通端点器,并且普通端点信号103指示已经达到端点。利用指示话语124的端点的普通端点信号103以及指示话语124完整的完整查询信号106,计算设备生成话语124的转录157“textmom”。
在一些实施方式中,计算设备121可以在识别话语124的端点时将用户127的特性作为因素。一方面,有可能由于新手用户可能不熟悉向计算设备121说出什么词项最好,因此新手用户可能以在词语之间更长的停顿来说话。另一方面,由于专家用户可能对计算设备121的语音输入技术更舒适和熟悉,因此专家用户可以以词语之间较短的停顿来说话。因而,计算设备121可以依赖于计算设备121如何对用户分类来在其识别出停顿之前延长或者缩短时间量。
新手停顿检测器信号109图示了计算设备121对与话语124相对应的音频数据中的停顿进行检测,其中所检测的停顿长度比与普通端点器相对应的停顿长度更长。例如,计算设备121可以在用户127被分类为新手用户时检测出具有一秒长度的停顿。通过将这种停顿阈值应用于话语124,计算设备121在停顿136和124期间不会检测到新手长度停顿,因为那些停顿分别具有300毫秒和800毫秒的长度。计算设备121在停顿148和154期间确实检测出新手长度停顿。如新手停顿检测器信号109中所示,计算设备121在用户127说出词145之后的停顿148期间检测出一秒的停顿。计算设备121在用户说出词151之后的停顿154期间也检测出一秒的停顿。
当计算设备将用户分类为新手时,计算设备121基于新手停顿检测器信号109和完整查询信号106来确定话语124的语音端点。当计算设备121在停顿148期间检测出诸如新手停顿检测器信号109的停顿时,计算设备121确定话语124是否完整。在停顿148期间,完整查询信号106指示话语124不完整。即使计算设备121检测出新手长度的停顿,话语124也不完整,所以计算设备121继续处理话语124的音频数据。在停顿154期间,计算设备121检测新手长度停顿并且完整查询信号106指示话语完整,并且因此生成由新手端点信号112指示的话语124的端点。当用户127被分类为新手时,话语124的端点在词151之后,并且话语124的转录160为“Text Mom love you”。
专家停顿检测器信号115图示了计算设备121对与话语124相对应的音频数据中的停顿进行检测,其中所检测的停顿长度比与普通端点器相对应的停顿长度更短。例如,计算设备121可以在用户127被分类为专家用户时检测具有300毫秒长度的停顿。通过将这种停顿阈值应用于话语124,计算设备121在停顿136、142、148、和154期间检测到专家长度停顿。由于没有停顿小于300毫秒,所以话语124中的停顿的全部都包括专家长度停顿检测。
当计算设备将用户分类为专家时,计算设备121组合专家停顿检测器信号115和完整查询信号106来确定话语124的语音端点。当计算设备121在停顿136期间检测出诸如专家停顿检测器信号115的停顿时,计算设备121确定话语124是否完整。在停顿136期间,完整查询信号106指示话语124不完整。即使计算设备121检测出专家长度的停顿,话语124也不完整,所以计算设备121继续处理话语124的音频数据。在停顿142期间,计算设备121检测专家长度停顿并且完整查询信号106指示话语完整,并且因此生成由专家端点信号118指示的话语124的端点。当用户127被分类为专家时,话语124的端点在词语139之后,并且话语124的转录163为“Text Mom”。
图2是基于特定用户对语音输入的经验而对特定用户进行分类的示例***200的视图。在一些实施方式中,***200被包括在特定用户用来进行语音输入的计算设备中,诸如计算设备121中。在一些实施方式中,***可以被包括在处理语音输入的转录的服务器中。
***200包括语音查询205。语音查询日志205存储用户向***200提供的先前的语音查询。语音查询日志205可以包括搜索查询,例如“cat videos(猫视频)”,以及命令查询,例如“call mom(打电话给妈妈)”。语音查询日志205可以对于每个所存储的语音查询包括时间戳、指示词之间的每个停顿的持续时间的数据、以及基于与其它语音查询的比较来指示语音查询完整或者不完整的数据。
查询日志210图示了用户Bob所提供的语音查询。查询日志210中的语音查询包括三个语音查询,并且每个都包括完整指示符“[C]”或者不完整指示符“[I]”。每个语音查询都包括记录Bob说出语音查询的日期和时间的时间戳。每个语音查询都包括指示所说的词之间的停顿间隔的数据。例如,“cat videos”可以包括指示Bob在“cat”和“videos”之间停顿200毫秒的数据。“Call...mom”可以包括指示Bob在“call”和“mom”之间停顿一秒的数据。
查询日志215图示了用户Alice所提供的语音查询。查询日志215中的语音查询包括五个语音查询,并且每个都包括完整指示符“[C]”或者不完整指示符“[I]”。每个语音查询都包括记录数据以及Alice说出语音查询的日期和时间的时间戳。每个语音查询都包括指示所说的词之间的停顿间隔的数据。例如,“Text Sally that I’ll be ten minuteslate(发短信给Sally说我会晚十分钟)”可以包括指示Alice在“text”和“Sally”之间停顿了1毫秒,在“Sally”和“that”之间停顿了300毫秒,并且在“that”和“I’ll”之间停顿了1.5秒,以及其它词之间的停顿间隔的数据。“Call mom”可以包括指示Alice在“call”和“mom”之间停顿了3毫秒的数据。
语音查询处理器220处理从语音查询日志205接收的语音查询。语音查询处理器220为每个用户生成语音查询经验分值。语音查询经验分值指示特定用户对语音查询所具有的经验水平。语音查询经验分值越高指示特定用户可能对说出语音查询具有越多的经验。例如,为了生成Bob的语音查询经验分值,语音查询处理器220处理查询日志210。
语音查询处理器220包括查询完整性处理器225。查询完整性处理器225访问每个用户的每个语音查询的完整性数据,并且调整用户的语音查询经验分值。如果特定用户具有较多的完整语音查询和较少的不完整语音查询,则查询完整性处理器225提高语音查询经验分值。如果特殊用户具有较多的不完整语音查询和较少的完整语音查询,则查询完整性处理器225降低语音查询经验分值。查询完整性处理器225可以将完整查询和不完整查询的比例与完整性比例阈值进行比较来确定是否提高或者降低语音查询经验分值。例如,Bob具有一个不完整语音查询和两个完整查询。基于该信息,查询完整性处理器225可以降低Bob的语音查询经验分值。Alice不具有不完整语音查询和五个完整查询。基于该信息,查询完整性处理器225可以提高Alice的语音查询经验分值。
语音查询处理器220包括查询长度处理器230。查询长度处理器230计算每个用户的每个语音查询的长度,并且调整用户的语音查询经验分值。如果特定用户具有较多的长语音查询和较少的短语音查询,则语音查询处理器220提高语音查询经验分值。如果特定用户具有较多的短语音查询和较少的长语音查询,则语音查询处理器220降低语音查询经验分值。查询长度处理器230可以使用阈值来确定语音查询是长还是短。查询长度处理器230可以将长查询和短查询的比例与长度比例阈值进行比较,来确定是否提高或降低语音查询经验分值。例如,Bob具有一个不完整语音查询和两个完整查询。基于该信息,查询完整性处理器225可以降低Bob的语音查询经验分值。Alice不具有不完整语音查询和五个完整查询。基于该信息,查询完整性处理器225可以增大Alice的语音查询经验分值。
语音查询处理器220包括停顿间隔处理器235。停顿间隔处理器225计算每个用户的用户语音查询的词语之间平均停顿长度。停顿间隔处理器235可以将每个用户的平均停顿长度与停顿阈值进行比较,来确定提高还是降低该用户的语音查询经验分值。平均停顿长度高于停顿阈值则降低语音查询经验分值。平均停顿长度低于停顿阈值则提高语音查询经验分值。例如,Bob可能具有1.2秒的平均停顿长度。Alice可能具有200毫秒的平均停顿长度。如果停顿阈值为1秒,则停顿间隔处理器235提高Alice的语音查询经验分值,并且降低Bob的语音查询经验分值。
语音查询处理器220包括查询计数器240。查询计数器240计算每个用户的所提交的语音查询的数目,并且调整语音查询经验分值。如果特定用户提供了许多语音查询,则语音查询处理器220提高语音查询经验分值。如果特定用户提供了较少语音查询,则语音查询处理器220降低语音查询经验分值。查询长度处理器230可以使用每日语音查询阈值,并且将该阈值与语音查询的平均每日数目进行比较,来确定用户提交了许多的语音查询还是很少的语音查询。例如,每日语音查询阈值为每天一个查询。基于查询日志210,Bob每天提交了少于一个查询。因此,查询计数器240降低Bob的语音查询经验分值。基于查询日志215,Alice具有多于每天一个的查询。因此,查询计数器240提高Alice的语音查询经验分值。
语音查询处理器220中所包括的处理器中的每个一个都可以将用户的语音查询经验分值提高或者降低与阈值和相对应的用户的值之间的差成比例的量。例如,Alice平均有每天2.5个语音查询,并且Bob平均有每天0.125个语音查询。利用每天一个查询的每日语音查询阈值,Alice比阈值高1.5,并且Bob比阈值低0.875。查询计数器240用某个系数乘1.5来提高Alice的语音查询经验分值,并且用某个系数乘0.875来降低Bob的语音查询经验分值。
语音查询处理器220向用户简档器245提供每个用户的语音查询经验分值。用户简档器245基于用户的语音查询经验分值来将语音查询经验简档指派给每个用户。语音简档器245访问简档阈值250来将每个用户的语音查询经验分值与语音查询经验简档匹配。每个语音查询经验简档都可以相应于语音查询经验分值的范围。例如,专家简档可以相应于80至100的范围。新手简档可以相应于0至20的范围。其它简档可以存在于20至80的语音查询经验分值之间。在图2中的示例中,Bob可以具有语音查询经验分值18并且Alice可以具有语音查询经验分值88。因此,Bob被分类为新手,并且Alice被分类为专家。然后,用户简档器245在简档存储255中存储每个用户的语音查询经验简档。简档260图示了存储在简档存储255内的Alice和Bob的简档。
当生成将来话语的端点时,每个语音查询经验简档都相应于***200随后使用的不同停顿长度阈值。如图1中所示和上文所描述的,专家简档相应于被用于对话语确定端点的300毫秒停顿长度阈值。新手简档相应于1秒的停顿长度阈值。***200可以利用600毫秒的停顿长度阈值来限定其它简档,诸如中间简档。在一些实施方式中,***200可以将停顿长度阈值指派给用户,而无需将简档指派给用户。***可以生成语音查询经验分值,并且计算与语音查询经验分值成反比的停顿长度阈值。
图3是基于特定用户对语音输入的经验来对特定用户进行分类并且确定该特定用户是否已经完成说出语音查询的示例过程300的视图。过程300可以由计算设备来执行,诸如图1的计算设备121或者图2的计算设备200。过程300分析用户的先前的语音查询来确定停顿阈值以用于确定用户何时已经完成说出将来的查询。
计算设备访问语音查询日志数据(310)。计算设备确定特定用户的停顿阈值(320)。计算设备从特定用户接收话语(330)。计算设备确定特定用户已经在停顿阈值内停止说话(340)。计算设备将话语处理为语音查询(350)。
图4是可以被用于作为客户端或者作为服务器或多个服务器来实现本文档所描述的***和方法的计算设备400的框图。计算设备400意图表示各种形式的数字计算机,诸如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其它适当的计算机。
计算设备400包括处理器402、存储器404、存储设备406、连接至存储器404和高速扩展端口410的高速接口408,以及连接至低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每一个都使用各种总线被互连,并且可以被安装在公共主板上,或者视需要来以其它方式安装。处理器402能够处理用于在计算设备400内执行的指令——包括被存储在存储器404中或者存储设备406上的指令——以在诸如耦合至高速接口408的显示器416的外部输入/输出设备上显示GUI的图形信息。在其它实施方式中,可以视需要来使用多个处理器和/或多个总线,连同多个存储器和多种类型的存储器。此外,多个计算设备400可以与提供多个必要操作的部分的每个设备连接,例如作为服务器库、刀片服务器群组、或者多处理器***。
计算设备400可以以如图所示的多个不同形式来被实现。例如,计算设备400可以被实现为标准服务器420,或者在这样的服务器的群组中多次实现。计算设备400也可以被实现为机架服务器***424的一部分。此外,计算设备400可以在个人计算机——诸如膝上型计算机422中实现。替选地,来自计算设备400的组件可以与移动设备(未示出)中的其它组件组合。这些设备中的每个设备都可以包含一个或多个计算设备400,并且整个***可以由彼此通信的多个计算设备400组成。
此处所描述的***和方法的各个实施方式能够以数字电子电路、集成电路、专用ASIC(应用程序专用集成电路)、计算机硬件、固件、软件、和/或这样的实现的组合来实现。各种这些实施方式能够包括一个或多个计算机程序中的实施方式,这些计算机程序可在可编程***上执行和/或解释,所述可编程***包括:至少一个专用或者通用的可编程处理器,其被耦合以从存储***接收数据和指令以及向其传送数据和指令;至少一个输入设备;以及至少一个输出设备。
此处所述的***和技术能够在计算***中实现,该计算***包括后端组件——例如数据服务器,或者包括中间件组件——例如应用服务器,或者包括前端组件——例如具有用户能够通过其能够与此处所述的***和技术的实现交互的图形用户界面或者web浏览器的客户端计算机,或者这样的后端、中间件、或者前端组件的任何组合。***的组件能够通过例如通信网络的任何形式或者介质的数字数据通信互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、和互联网。
已经描述了多个实施例。然而,应理解,在不偏离本发明的精神和范围的情况下,可以做出各种修改。此外,图中所描绘的逻辑流程不需要按照所示的特殊顺序或者连续顺序来实现期望的结果。此外,可以提供其它步骤,或者可以从所述流程删去一些步骤,并且可以将其它组件添加至所述***,或者从其中去除其它组件。因而,其它实施例在下面的权利要求书的范围内。

Claims (12)

1.一种计算机实施的方法,包括:
访问包括由特定用户说出的语音查询的语音查询日志数据;
基于包括由特定用户说出的语音查询的所述语音查询日志数据,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值;
从所述特定用户接收话语;
确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话;以及
基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。
2.根据权利要求1所述的方法,其中,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定所述停顿阈值包括:
将所述特定用户分类为语音识别***的专家用户或者所述语音识别***的新手用户;以及
基于将所述特定用户分类为所述语音识别***的专家用户或者所述语音识别***的新手用户,确定所述停顿阈值。
3.根据权利要求1所述的方法,其中:
所述语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔,以及
从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值包括基于与每个语音查询相关联的所述时间戳、指示每个语音查询是否完整的所述数据、以及与每个语音查询相关联的所述语音停顿间隔来确定所述停顿阈值。
4.根据权利要求1所述的方法,包括:
基于所述语音查询日志数据,确定由所述特定用户每天说出的语音查询的平均数目,
其中,确定所述停顿阈值进一步基于由所述特定用户每天说出的语音查询的所述平均数目。
5.根据权利要求1所述的方法,包括:
基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均长度,
其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均长度。
6.根据权利要求1所述的方法,包括:
基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均停顿间隔,
其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均停顿间隔。
7.一种***,包括:
一个或多个计算机以及存储指令的一个或多个存储设备,所述指令能操作为在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
访问包括由特定用户说出的语音查询的语音查询日志数据;
基于包括由特定用户说出的语音查询的所述语音查询日志数据,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值;
从所述特定用户接收话语;
确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话;以及
基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。
8.根据权利要求7所述的***,其中,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定所述停顿阈值包括:
将所述特定用户分类为语音识别***的专家用户或者所述语音识别***的新手用户;以及
基于将所述特定用户分类为所述语音识别***的专家用户或者所述语音识别***的新手用户,确定所述停顿阈值。
9.根据权利要求7所述的***,其中:
所述语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔,以及
从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值包括基于与每个语音查询相关联的所述时间戳、指示每个语音查询是否完整的所述数据、以及与每个语音查询相关联的所述语音停顿间隔来确定所述停顿阈值。
10.根据权利要求7所述的***,其中,所述操作进一步包括:
基于所述语音查询日志数据,确定由所述特定用户每天说出的语音查询的平均数目,
其中,确定所述停顿阈值进一步基于由所述特定用户每天说出的语音查询的所述平均数目。
11.根据权利要求7所述的***,其中,所述操作进一步包括:
基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均长度,
其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均长度。
12.根据权利要求7所述的***,其中,所述操作进一步包括:
基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均停顿间隔,
其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均停顿间隔。
CN201610825803.XA 2015-10-19 2016-09-14 语音端点确定 Active CN107068147B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562243463P 2015-10-19 2015-10-19
US62/243,463 2015-10-19
US14/923,637 2015-10-27
US14/923,637 US20170110118A1 (en) 2015-10-19 2015-10-27 Speech endpointing
US15/196,663 2016-06-29
US15/196,663 US10269341B2 (en) 2015-10-19 2016-06-29 Speech endpointing

Publications (2)

Publication Number Publication Date
CN107068147A true CN107068147A (zh) 2017-08-18
CN107068147B CN107068147B (zh) 2020-10-20

Family

ID=58666238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610825803.XA Active CN107068147B (zh) 2015-10-19 2016-09-14 语音端点确定

Country Status (4)

Country Link
US (2) US11062696B2 (zh)
JP (2) JP6541630B2 (zh)
KR (1) KR101942521B1 (zh)
CN (1) CN107068147B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446370A (zh) * 2018-03-15 2018-08-24 苏州思必驰信息科技有限公司 语音数据统计方法和***
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN110033759A (zh) * 2017-12-27 2019-07-19 声音猎手公司 在人机接口中解析前缀检测
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
CN114365215A (zh) * 2019-09-12 2022-04-15 甲骨文国际公司 动态上下文对话会话扩展

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
US11609944B2 (en) 2019-05-06 2023-03-21 Rovi Guides, Inc. Systems and methods for leveraging acoustic information of voice queries
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及***
US20220270637A1 (en) * 2019-07-24 2022-08-25 Nippon Telegraph And Telephone Corporation Utterance section detection device, utterance section detection method, and program
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN112382279B (zh) * 2020-11-24 2021-09-14 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN114267339A (zh) * 2021-12-14 2022-04-01 上海流利说信息技术有限公司 语音识别处理方法及***、设备以及存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262570A (zh) * 1999-01-22 2000-08-09 摩托罗拉公司 用于对语音说话方式进行断点的通信装置和方法
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别***的语音端点检测方法
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
CN101031958A (zh) * 2005-06-15 2007-09-05 Qnx软件操作***(威美科)有限公司 语音端点指示器
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别***的端点检测方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
US20120072211A1 (en) * 2010-09-16 2012-03-22 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
KR20120130371A (ko) * 2011-05-23 2012-12-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
CN103165127A (zh) * 2011-12-15 2013-06-19 佳能株式会社 声音分段设备和方法以及声音检测***
US20130238335A1 (en) * 2012-03-06 2013-09-12 Samsung Electronics Co., Ltd. Endpoint detection apparatus for sound source and method thereof
CN104700830A (zh) * 2013-12-06 2015-06-10 ***通信集团公司 一种语音端点检测方法及装置

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH084676B2 (ja) 1987-12-09 1996-01-24 松下電器産業株式会社 コードレスアイロン
JPH07104676B2 (ja) * 1988-02-29 1995-11-13 日本電信電話株式会社 適応形発声終了検出方法
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
US6453292B2 (en) 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
WO2000046789A1 (fr) 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP4341111B2 (ja) 1999-08-18 2009-10-07 ソニー株式会社 記録再生装置および記録再生方法
IT1315917B1 (it) 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
US7277853B1 (en) 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7177810B2 (en) 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US20050108011A1 (en) 2001-10-04 2005-05-19 Keough Steven J. System and method of templating specific human voices
US7035807B1 (en) 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
US7665024B1 (en) 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
US7756709B2 (en) 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
US7809569B2 (en) 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
US7689423B2 (en) 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
US8756057B2 (en) 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US7603633B2 (en) 2006-01-13 2009-10-13 Microsoft Corporation Position-based multi-stroke marking menus
US20090149166A1 (en) 2006-04-24 2009-06-11 Hakem Mohamedali Habib Method, system and apparatus for conveying an event reminder
CN101197131B (zh) 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证***、随机式声纹密码锁及其产生方法
US7881933B2 (en) 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US8364485B2 (en) 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
JP5141695B2 (ja) 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
CA2680304C (en) 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
DE102008058883B4 (de) 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US9173582B2 (en) 2009-04-24 2015-11-03 Advanced Brain Monitoring, Inc. Adaptive performance trainer
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8768705B2 (en) * 2009-10-27 2014-07-01 Cisco Technology, Inc. Automated and enhanced note taking for online collaborative computing sessions
KR101377459B1 (ko) 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102884575A (zh) 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
US20120089392A1 (en) 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
US9763617B2 (en) 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US9043413B2 (en) 2011-11-15 2015-05-26 Yahoo! Inc. System and method for extracting, collecting, enriching and ranking of email objects
US9202086B1 (en) 2012-03-30 2015-12-01 Protegrity Corporation Tokenization in a centralized tokenization environment
US9445245B2 (en) * 2012-07-02 2016-09-13 At&T Intellectual Property I, L.P. Short message service spam data analysis and detection
US8600746B1 (en) 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
JP6122642B2 (ja) * 2013-01-10 2017-04-26 株式会社Nttドコモ 機能実行システム及び発話例出力方法
US20140214883A1 (en) * 2013-01-29 2014-07-31 Google Inc. Keyword trending data
EP2994908B1 (en) 2013-05-07 2019-08-28 Veveo, Inc. Incremental speech input interface with real time feedback
US9437186B1 (en) 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
GB2519117A (en) 2013-10-10 2015-04-15 Nokia Corp Speech processing
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9418660B2 (en) 2014-01-15 2016-08-16 Cisco Technology, Inc. Crowd sourcing audio transcription via re-speaking
US9311932B2 (en) 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9530412B2 (en) 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9666192B2 (en) 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP7104676B2 (ja) * 2019-10-02 2022-07-21 株式会社三共 遊技機

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262570A (zh) * 1999-01-22 2000-08-09 摩托罗拉公司 用于对语音说话方式进行断点的通信装置和方法
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别***的语音端点检测方法
CN101031958A (zh) * 2005-06-15 2007-09-05 Qnx软件操作***(威美科)有限公司 语音端点指示器
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别***的端点检测方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
US20120072211A1 (en) * 2010-09-16 2012-03-22 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
KR20120130371A (ko) * 2011-05-23 2012-12-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
CN103165127A (zh) * 2011-12-15 2013-06-19 佳能株式会社 声音分段设备和方法以及声音检测***
US20130238335A1 (en) * 2012-03-06 2013-09-12 Samsung Electronics Co., Ltd. Endpoint detection apparatus for sound source and method thereof
CN104700830A (zh) * 2013-12-06 2015-06-10 ***通信集团公司 一种语音端点检测方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
CN110033759B (zh) * 2017-12-27 2023-09-29 声音猎手公司 在人机接口中解析前缀检测
CN110033759A (zh) * 2017-12-27 2019-07-19 声音猎手公司 在人机接口中解析前缀检测
US11862162B2 (en) 2017-12-27 2024-01-02 Soundhound, Inc. Adapting an utterance cut-off period based on parse prefix detection
CN108446370A (zh) * 2018-03-15 2018-08-24 苏州思必驰信息科技有限公司 语音数据统计方法和***
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
CN114365215A (zh) * 2019-09-12 2022-04-15 甲骨文国际公司 动态上下文对话会话扩展
CN114365215B (zh) * 2019-09-12 2024-02-23 甲骨文国际公司 动态上下文对话会话扩展
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质

Also Published As

Publication number Publication date
US11710477B2 (en) 2023-07-25
JP2017078848A (ja) 2017-04-27
US20190318721A1 (en) 2019-10-17
JP6420306B2 (ja) 2018-11-07
KR20170045709A (ko) 2017-04-27
CN107068147B (zh) 2020-10-20
KR101942521B1 (ko) 2019-01-28
JP2017078869A (ja) 2017-04-27
US20210312903A1 (en) 2021-10-07
US11062696B2 (en) 2021-07-13
JP6541630B2 (ja) 2019-07-10

Similar Documents

Publication Publication Date Title
CN107068147A (zh) 语音端点确定
EP3159893B1 (en) Speech endpointing
US11636846B2 (en) Speech endpointing based on word comparisons
US9589560B1 (en) Estimating false rejection rate in a detection system
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
CN109584865B (zh) 一种应用程序控制方法、装置、可读存储介质及终端设备
CN111243590A (zh) 一种会议记录的生成方法及设备
US11120802B2 (en) Diarization driven by the ASR based segmentation
WO2015034633A1 (en) Method for non-intrusive acoustic parameter estimation
CN108877779B (zh) 用于检测语音尾点的方法和装置
US20170110118A1 (en) Speech endpointing
US10431236B2 (en) Dynamic pitch adjustment of inbound audio to improve speech recognition
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
CN113408664B (zh) 训练方法、分类方法、装置、电子设备以及存储介质
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
KR102389776B1 (ko) 요청시 오디오 레코딩으로의 보충적 오디오 콘텐츠의 동적 삽입
CN112802458A (zh) 唤醒方法和装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant