CN105378829A - 记笔记辅助***、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质 - Google Patents
记笔记辅助***、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质 Download PDFInfo
- Publication number
- CN105378829A CN105378829A CN201480017147.XA CN201480017147A CN105378829A CN 105378829 A CN105378829 A CN 105378829A CN 201480017147 A CN201480017147 A CN 201480017147A CN 105378829 A CN105378829 A CN 105378829A
- Authority
- CN
- China
- Prior art keywords
- data
- keeper
- note
- terminal
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 136
- 238000004590 computer program Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 description 35
- 208000016354 hearing loss disease Diseases 0.000 description 22
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
使用记录者终端(200)和信息递送设备(100)。信息递送设备(100)包括:呼吸检测单元(104),其从表达的语音的静音部分中指定呼吸部分;数据处理单元(105),其确定在记录者的每个分配时间段内基于分配时间段的结束点的范围中是否存在呼吸部分,如果存在呼吸部分,则从分配时间段的开始点生成表达的语音数据直到呼吸部分,并且如果不存在呼吸部分,则从开始点生成表达的语音数据直到分配时间段的结束点;以及数据发射单元(106),其发射语音数据到记录者终端(200)。记录者终端(200)接收语音数据并且将输入文本数据发射到记笔记用户的用户终端(300)。
Description
技术领域
本发明涉及用于帮助针对讲话者记笔记的记笔记辅助***、信息递送设备、终端和记笔记辅助方法,以及存储用于实现其的计算机程序的计算机可读记录介质。
背景技术
双耳听力损失在100dB或更多的听力损伤人员(下文简称为“听力损伤人员”)即使有助听器等,将实际上不能理解演讲中的讲话语言信息。因此,传统上已经有这样的情况:当听力损伤人员参加演讲、课堂等时,将提供符号语言解释者或记笔记解释者。
当然,当提供记笔记解释者时,在课堂情况下,例如,通常提供两个或更多记笔记解释者用于每个听力损伤人员。这些记笔记的人使用PC(个人计算机)、纸质笔记本等来转录教师所说的等等,并呈现这个转录给听力损伤人员。需要两个或更多记笔记解释者是因为记笔记是要求高的工作且总结的准确性倾向于一人的话会比较困难。
日本厚生劳动省在2008年所做的调查发现,在日本有大约20,000名年龄在18岁及以下的听力损伤学生,而正式注册的记笔记解释者的人数大约为10,000。基于此,假设两个或更多记笔记解释者提供用于每个听力损伤学生,简单计算表明,所有听力损伤学生中只有四分之一能够接收到辅助。而且,在记录者的数量和听力损伤学生的数量上存在区域差异。出于这些原因,当前现实是只有非常小数量的听力损伤学生能够在学校接收辅助。
考虑到此,各种组织都在从事训练等以便增加记笔记解释者的数量,而新的记笔记解释者在经过一年的强制课程和训练等对其技能的发展之后被注册。但是,存在的问题在于,记录者的人数只是少量增加,因此仍然存在许多听力损伤学生不能接收到辅助。
专利文献1和2公开了当书写字幕时辅助转录员的***。专利文献1和2中所公开的***被提供有调整语音的再生速度和自动将由字幕人员输入的文本数据与视频数据相组合的功能。想到的是,这样的***也能为解决记笔记解释者人数不足的问题做出贡献。
文献3公开了针在展示期间对语音执行语音识别的***,识别结果实时校正且校正的识别结果显示作为字幕。想到的是,改进专利文献3中所公开的***能够肯定为解决记笔记解释者的人数不足
现有技术文献列表
专利文献
专利文献1:JP2003-223199A
专利文献2:JP2003-223200A
专利文献3:JP2007-256714A
发明内容
发明要解决的问题
但是,专利文献1和2中所公开的***针对当转录员创建所听到的语音的字幕时辅助转录员,同时在视频被广播或电视播放之前观看视频,但不针对当实时转录发声时的辅助。因此,将难以通过使用专利文献1或2中所公开的***来克服记笔记解释者的不足。
另一方面,尽管专利文献3中所公开的***令人信服地避免了专利文献1和2的问题,因为字幕是在发声的实时显示的,但执行语音识别的情况使得出现了与之相关的问题。
也就是,通过专利文献3中所公开的***,基于一个或多个字符串候选和各个字符串候选的确定性因素,根据当前处理状态来执行自动候选展示或手动候选展示,以便改进语音识别准确性。此外,当候选在手动候选展示的情况下不能被展示时,候选基于匹配分数而展示。
但是,语音识别的识别速率取决于做出发声的环境而可能极大降低。例如,可能有这样的情况:周围区域的环境噪声相对于发声的语音更加大声,多个讲话者同时讲话,或者方言或缩写语音被使用。在这样的情况下,存在的问题在于,专利文献3中所公开的***不能提供准确信息。
本发明的示例目标在于解决上面的问题并且提供一种记笔记辅助***、信息递送设备、记笔记辅助方法和计算机可读记录介质,即使在执行记笔记的人员具有很少记笔记经验的情况下,能够向听力损伤人员提供准确信息。
解决问题的手段
为了获得上面的目标,根据本发明的一个方面的记笔记辅助***是一种用于辅助对讲话者的发声记笔记的***,包括由执行记笔记的记录者所使用的记录者的终端以及发射发声的语音数据到所述终端的信息递送设备,所述信息递送设备包括:呼吸检测单元,其从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;数据处理单元,其确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由所述数据处理单元生成的语音数据到分配时间段所分配到的记录者的终端,以及所述的记录者的终端包括:数据接收单元,其接收从所述信息递送设备发射的语音数据;输入单元,其接受对应于所述语音数据而输入的文本数据的输入;以及数据发射单元,其将输入被接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
而且,为了获得上面的目标,根据本发明一个方面的信息递送设备是一种用于发射讲话者的发声的语音数据到由执行对发声记笔记的记录者所使用的记录者的终端的设备,包括:呼吸检测单元,其从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;数据处理单元,其确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由所述数据处理单元生成的语音数据到分配时间段所分配到的记录者的终端。
为了获得上面的目标,根据本发明一个方面的终端是一种由执行对讲话者的发声记笔记的记录者所使用的终端,包括:数据接收单元,其在分配给记录者的每个分配时间段内,从发射语音数据的信息递送设备接收发声的语音数据;输入单元,其接受对应于所述语音数据而输入的文本数据的输入;以及数据发射单元,其将输入被接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
而且,为了获得上面的目标,根据本发明一个方面的记笔记辅助方法是一种一种用于使用由执行对讲话者的发声记笔记的记录者所使用的记录者的终端和发射发声的语音数据到所述终端的信息递送设备来辅助记笔记的方法,包括以下步骤:(a)使用所述信息递送设备来从表达的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;(b)使用所述信息递送设备来确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;(c)使用所述信息递送设备来发射在步骤(b)中生成的语音数据到分配时间段所分配到的记录者的终端;(d)使用所述的记录者的终端来接收从所述信息递送设备发射的所述语音数据;(e)使用所述的记录者的终端来接受对应于所述语音数据而输入的所述文本数据的输入;以及(f)使用所述的记录者的终端来将在步骤(e)中接受输入的所述文本数据发射到由记笔记的用户所使用的用户终端。
为了获得上面的目标,根据本发明一个方面的第一计算机可读记录介质是一种计算机可读记录介质,存储用于由计算机发射讲话者的发声的语音数据到由执行对发声记笔记的记录者所使用的记录者的终端的计算机程序,所述计算机程序包括用于使得计算机执行以下步骤的命令:(a)从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;(b)确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及(c)发射在步骤(b)中生成的语音数据到分配时间段所分配到的记录者的终端。
而且,为了获得上面的目标,根据本发明一个方面的第二计算机可读记录介质是一种计算机可读记录介质,存储包括用于使得由执行对讲话者的发声记笔记的记录者所使用的计算机执行以下步骤的命令的计算机程序:(a)在分配给记录者的每个分配时间段内,从发射语音数据的信息递送设备接收发声的语音数据;(b)接受对应于所述语音数据而输入的文本数据的输入;以及(c)将在步骤(b)中接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
发明的有益效果
根据本发明,如上所述,听力损伤人员可以被提供准确信息,即使在执行记笔记的人员具有很少记笔记经验的情况下。
附图说明
图1是示出本发明的实施例中的记笔记辅助***的整体配置的配置图。
图2是具体示出本发明的实施例中的记笔记辅助***的配置的框图。
图3是示出在图2中示出的语音识别单元、呼吸检测单元和数据处理单元的处理的示意图。
图4是示出本发明的实施例中的信息递送设备的操作的流程图。
图5是示出本发明的实施例中的记录者终端的操作的流程图。
图6是示出本发明的实施例中的用户终端的操作的流程图。
图7是示出在本发明的实施例中实现信息递送设备、记录者终端和用户终端的计算机的示例的框图。
图8是示出本发明的工作示例中语音识别单元、呼吸检测单元和数据处理单元的处理的图。
具体实施方式
发明概况
本发明帮助执行对讲话者的发声记笔记的记录者。在本发明中,信息递送设备基于分配给记录者的分配时间段来分割讲话者的语音数据,并且将获得的语音数据经由网络发射到记录者的终端。
此时,分配给记录者的分配时间段的长度被根据例如记录者的记笔记能力而设置的。具体地,在记录者具有很少记笔记经验的情况下,分配诸如少于30秒的短时间段。根据讲话者的呼吸的定时来分割语音数据。因此,即使在记录者具有很少经验且发现难以在短时间内创建总结的情况下,将创建易于被作为用户的听力损伤人员理解的总结。
而且,在本发明的优选模式中,信息递送设备能够不仅递送语音数据而且递送视频到记录者的终端。在该模式下,记录者能够选择最合适的场景来从递送的视频中总结,由记录者所选的场景的静止图像与总结的文本数据一起被发射到用户的终端。用户对总结的理解将因此得到进一步提高。此时,记录者还能够针对记笔记的内容添加他或她自己的评论以便帮助用户的理解。
而且,在上面的优选模式中,信息递送设备能够从捕捉讲话者周围区域的多个相机获取视频并且能够将获取的视频从多个相机递送到记录者的终端。在此情况下,记录者可以选择更合适的场景。
实施例
下面,将结合图1到7来描述本发明的实施例中的记笔记辅助***、信息递送设备、终端、记笔记辅助方法和计算机程序。
***配置
最初,将使用图1来描述记笔记***的***配置。图1是示出本发明的实施例中的记笔记辅助***的整体配置的配置图。
图1中所示的本实施例的记笔记辅助***400是一种用于辅助对讲话者40的发声记笔记的***。如图1中所示,记笔记***400被提供有由执行记笔记的记录者50所使用的记录者的终端200(下文称为“记录者终端”)以及发射发声的语音数据到记录者终端200的信息递送设备100。
而且,在图1中,终端300是由作为记笔记用户60的听力损伤人员所使用的用户的终端(下文称为“用户终端”)。用户60能够接收由记录者50经由用户终端300所提供的记笔记服务。
而且,在本实施例中,信息递送设备100、记录者终端200和用户终端300经由诸如互联网的网络410连接并且彼此交换信息。注意:尽管在图1中的示例中,存在两个记录者终端200和一个用户设备300,这些终端的数目并无特殊限制。
如图1中所示,信息递送设备100被提供有呼吸检测单元104、数据处理单元105和数据发射单元106。当然,呼吸检测单元104从发声的语音中提取静音部分,指定所提取的静音部分中的满足设置条件的静音部分作为讲话者40的呼吸部分。
数据处理单元105首先确定在分配给每个记录者50的每个时间段(下文称为“分配时间段”)中,在基于分配时间段之一的开始点的范围中是否存在呼吸部分。在图1的示例中,存在两个记录者50,因此各个记录者50执行记笔记的分配时间段被可替换地分配给每个记录者50。
然后,在确定在范围中存在呼吸部分的情况下,数据处理单元105从对应分配时间段的开始点生成发声的语音数据直到呼吸部分。另一方面,在确定在范围内不存在呼吸部分时,数据处理单元105从开始点生成发声的语音数据直到分配时间段的结束点。
数据发射单元106发射由数据处理单元105生成的语音数据(下文称为“用于记笔记的语音数据”)到分配时间段所分配到的记录者50的记录者终端200。
而且,如图1中所示,记录者终端200被提供有数据接收单元201、输入单元203和数据发射单元207。当然,数据接收单元201接收用于从信息递送设备100发射的记笔记的语音数据。
输入单元203接受对应于接收到的用于记笔记的语音数据而输入的文本数据的输入。数据发射单元207发射输入被接受的文本数据到用户终端300。
在本实施例中,如上所述,与分配时间段相匹配的语音数据发射到每个记录者50,临时使得短语音数据在记录者具有很少经验的情况中被发射。而且,该数据被根据讲话者的呼吸的定时而分割。因此,即使在记录者具有很少经验且因此发现难以短时间内创建总结的情况下,将创建作为用户的听力损伤人员所易于理解的总结。
尤其在分配时间段被设置为小于30秒的段时间段的情况下,记录者50只需要直接按原文记录他或她听到的讲话,由此使得能够提供对听力损伤人员的支持,即使记录者50没有接收到完全专家训练。而且,假设记录者终端200只需要经由网络410连接到信息递送设备100和用户终端300,记录者50可以甚至从远程位置执行记笔记。出于以上原因,本实施例使得能够通过记笔记而接收支持的听力损伤人员在数量上增加,因为能够降低参与记笔记的壁垒。
接下来,将更具体使用图2和3来描述记笔记辅助***400、信息递送设备100、记录者终端200和用户终端300的配置。图2是具体示出本发明的实施例中记笔记辅助***的配置的框图。而且,在下面的示例中,假设记笔记辅助***400用于例如在学校进行的演讲、演讲等。
***配置:信息递送设备
如图2中所示,视频输入设备10和语音输入设备20连接到信息递送设备100。视频输入设备10是捕捉演讲等的视图的相机,用来输出视频数据到信息递送设备100。语音输入设备20是麦克风,用来将包括演讲在内的讲话者的发声语音转换成语音数据且输出得到的语音数据到信息递送设备100。
而且,如图2中所示,除了呼吸检测单元104、数据处理单元105和数据发射单元106之外,信息递送设备100被提供有视频输入单元101、语音输入单元102和语音识别单元103。
视频输入单元101接收从视频数据设备10输出的视频数据,并将该视频数据输入到数据处理单元105。在此情况下,数据处理单元105根据分配时间段划分输入视频数据,并且输出划分后的视频数据到数据发射单元106。此后,数据发射单元106发射划分的的视频数据到分配时间段与用于记笔记的语音数据一起被分配到的记录者50的记录者终端200。
语音输入单元102接收从语音输入设备20输出的语音数据,并且将该语音数据输出到语音识别单元103。语音识别单元103将该语音数据分开为其中当前状态是被认为静音的状态且声音水平为设置值或更低的部分(静音部分)和其中当前状态并非如上状态的部分(语音部分)。在本实施例中,呼吸检测单元104指定来自语音识别单元103的处理结果的静音部分,且在指定静音部分的长度小于或等于阈值的情况下,指定所提取的静音部分为讲话者40的呼吸部分。
这里,将使用图3来描述由语音识别单元103、呼吸检测单元104和数据处理单元105执行的处理。图3是示出图2中所示的语音识别单元、呼吸检测单元和数据处理单元的处理的示意图。
如图3中所示,语音识别单元103在发声语音21的语音数据从语音输入单元102输入之后将该语音数据分开为语音部分22-1到22-3和静音部分23-1到23-4。在本实施例中,语音部分和静音部分的分开可以通过使用现有语音识别引擎来执行。语音识别单元103随后输出指定分开的静音部分23-1到23-4的位置的信息到呼吸检测单元104。
呼吸检测单元104给予来自语音识别单元103的信息而指定静音部分23-1到23-4,并且对于每个静音部分确定静音部分的长度是否小于或等于阈值。呼吸检测单元104确定长度小于或等于阈值的静音部分为呼吸,且确定并非上述情况的静音部分为静音。在图3中的示例中,静音部分23-2到23-4分别被确定为呼吸部分24-1到24-3。注意:该情况下的阈值只需要由信息递送设备的管理员根据情况等按需要设置。
接下来,数据处理单元105比较由呼吸检测单元104确定为呼吸的呼吸部分24-1到24-3与分配给记录者50的分配时间段25。数据处理单元105随后对于每个呼吸部分确定在基于分配时间段25的结束点25b的范围中是否存在呼吸部分。具体地,数据处理单元105对于每个呼吸部分确定在合并在结束点25b之前设置的指定前部分26和在结束点25b之后设置的指定后部分27的部分中是否存在呼吸部分。
在图3中的示例中,在合并指定前部分26和指定后部分27的部分中存在呼吸部分24-2,因此数据处理单元105从分配时间段25的开始点25a生成发声的语音数据(用于记笔记的语音数据)28直到呼吸部分。也就是,在此情况下,数据处理单元105改变分配时间段25的结束点25b到呼吸部分24-2的开始点,并且生成用于记笔记的语音数据28。注意:分配时间段25的结束点25b只需要存在于呼吸部分24-3中,且例如可能被改变到开始点以外的点,诸如中间点或结束点。
另一方面,与图3中示例不同,在合并指定前部分26和制定后部分27的部分中不存在呼吸部分的情况下,数据处理单元105从开始点25a生成发声的语音数据(通过虚线来显示)直到分配时间段25的结束点25b。
而且,在基于分配时间段的结束点的范围中存在呼吸部分的情况下,数据处理单元105改变分配时间段的结束点为该呼吸部分的结束点,并且根据这个改变来改变下一分配时间段的开始点。而且,在改变分配时间段的结束点的情况下,数据处理单元105基于改变之后的分配时间段来划分上述视频数据。
而且,在本实施例中,分配给每个记录者50的分配时间段的长度是根据记录者50的记笔记能力来设置的。例如,在记录者50具有很少经验的情况下,设置30秒或更短,由此在听取语音数据的同时进行文本输入就不是个问题了。而且,因为用户60在分配时间段太短时有困难,分配时间段的长度优选例如设置为15秒或更长。
***配置:记录者终端
如图2中所示,语音输出设备30、显示设备31和输入设备32连接到记录者终端200。语音输出设备30是音频扬声器等,例如在记录者终端200中提供。显示设备31是液晶显示器等,例如在记录者终端200中提供。输入设备32是诸如鼠标、键盘和触摸面板的输入设备,连接到输入单元203。
而且,如图2中所示,除了数据接收单元201、输入单元203和数据发射单元207以外,记录者终端200被提供有数据再生单元202、图像处理单元204、显示单元205和数据处理单元206。
数据再生单元202在用于记笔记的语音数据和视频数据被护具接收单元201接收之后获取该数据。数据再生单元202随后输出用于记笔记的语音数据到语音输出设备30以被再生。而且,数据再生单元202输出视频数据到显示单元205。显示单元205在显示设备31的屏幕上显示视频数据。
图像处理单元204根据从输入设备32经由输入单元203输入的来自记录者的指令从视频数据中提取静止图像,并且输出所提取的静止图像的图像数据到数据处理单元206。数据处理单元206取得由记录者50输入的文本数据,也就是,总结的内容,以及从图像处理单元204输出的静止图像的图像数据,作为一个数据集,并且输出该数据集到数据发射单元207。
数据发射单元207在从数据处理单元206接收到数据集之后发射该数据集到用户终端300。
***配置:用户终端
如图2中所示,用户终端300被提供有数据接收单元301、数据再生单元302和显示单元303。当然,数据接收单元301接收从记录者终端200发射的数据集,并且输入该数据集到数据再生单元302。
数据再生单元302将数据集分解为在其中包括的文本数据和静止图像的图像数据,并且将各个数据输入到显示单元303。显示单元303在接收到文本数据和图像数据之后在显示设备33的屏幕上的预定区域中显示各个数据。显示设备33是液晶显示器等,例如提供在用户终端300中,类似于记录者终端200的显示设备31。
而且,上面所述的信息递送设备100、记录者终端200和用户终端300可以通过使得计算机执行计算机程序而被构建,所述计算机程序执行稍后将讨论的处理。在此情况下,示例计算机包括个人计算机和服务器计算机一级智能电话和平板。
***操作
接下来,将使用图4到6来描述本发明的实施例中的记笔记辅助***400的操作。在下面的描述中,将适当参考图1到3。而且,在本实施例中,记录者辅助方法是通过操作记笔记辅助***400来实现的。因此,下面的对记笔记辅助***400的操作的描述将替代对本实施例的记笔记辅助方法的描述而给出。
***操作:信息递送设备
首先,将使用图4来描述信息递送设备100中的操作。图4是示出本发明的实施例中的信息递送设备的操作的流程图。
最初,如图4中所示,信息递送设备100执行对记录者终端200和用户终端300之间的网络通信的连接确认(步骤A1)。具体地,在信息递送设备100上的计算机程序、记录者终端200上的计算机程序和用户终端300上的计算机程序之间执行用于建立连接的数据通信。
随后开始课程,包括演讲者的讲话者开始讲话。视频数据随后从视频输入设备10输入到信息递送设备100,且视频输入单元101开始视频数据的获取(步骤A2)。而且,视频输入单元101输入获取的视频数据到数据处理单元105。
同时,语音数据从语音输入设备20输入到信息递送设备100,且语音输入单元102开始语音数据的获取(步骤A3)。而且,语音输入单元102输入获取的语音数据到语音识别单元103。
在本实施例中,示例视频数据包括以注入MPEG-4格式生成的运动图像数据。而且,示例语音数据包括以诸如PCM格式生成的声音数据。
接下来,语音识别单元103在语音数据从语音输入单元102输入之后将该语音数据分开为语音部分和静音部分(参看图3)(步骤A4)。语音识别单元103随后输出指定分开的静音部分的位置的信息到呼吸检测单元104。
接下来,呼吸检测单元104基于来自语音识别单元103的信息指定静音部分,并且通过对于每个静音部分确定静音部分的长度是否小于或等于阈值来指定呼吸部分(步骤A5)。而且,呼吸检测单元104输出指定呼吸部分的信息到数据处理单元105。
接下来,数据处理单元105生成用于递送的数据(步骤A6)。具体地,数据处理单元105对于每个呼吸部分基于从呼吸检测单元104接收的信息来确定在基于分配时间段的结束点的范围中是否存在呼吸部分,并且基于确定结果来生成用于记笔记的语音数据(参看图3)。
而且,数据处理单元105根据分配时间段(或者,在改变的情况下,根据改变之后的分配时间段)将从视频输入单元101输入的视频数据进行划分,并且生成用于递送的视频数据。数据处理单元105随后输出用于记笔记的语音数据和用于递送的视频数据到数据发射单元106。
接下来,数据发射单元106发射输出的用于记笔记的语音数据和视频数据到该数据的分配时间段所分配到的记录者50的记录者终端200(步骤A7)。而且,上述步骤A1到A7在信息递送设备100中重复执行。
***操作:记录者终端
接下来,将使用图5来描述记录者终端200的操作。图5是示出本发明的实施例中的记录者终端的操作的流程图。
最初,如图5中所示,在记录者终端200中,数据接收单元201接收从信息递送设备100发射的用于记笔记的语音数据和视频数据(步骤B1)。
接下来,数据再生单元202输出用于记笔记的语音数据到语音输出设备30,并且输出视频数据到显示单元205(步骤B2)。显示单元205随后在显示设备31的屏幕上显示视频数据(步骤B3),且语音输出设备30再生语音数据(步骤B5)
接下来,图像处理单元204在记录者50指示通过输入设备32对图像选择的情况下,经由输入单元203接收选择指令。图像处理单元204随后根据选择指令从视频数据中提取静止图像,并且输出所提取的静止图像的图像数据到数据处理单元206(步骤B4)。
而且,输入单元203在记录者50对应于在步骤B5再生的用于记笔记的语音数据通过输入设备32输入文本之后,接受该文本,且输出输入文本的文本数据到数据处理单元206(步骤B6)。
接下来,数据处理单元206取得由记录者50输入的文本数据,即总结的内容,和从图像处理单元204输出的静止图像的图像数据作为一个数据集,并且输出该数据集到数据发射单元207(步骤B7)。
接下来,数据发射单元207在从数据处理单元206接收到数据集之后发射该数据集到用户终端300(步骤B8)。此后,当下一分配时间段开始时再次执行步骤B1到B8。
***操作:用户终端
接下来,将使用图6来描述在用户终端300中的操作。图6是示出本发明的实施例中的用户终端的操作的流程图。
最初,如图6中所示,在用户终端300中,数据接收单元301接收从记录者终端200发射的数据集,并且将该数据集输入到数据再生单元302(步骤C1)。
接下来,数据再生单元302将数据集分解为包括在其中的文本数据和静止图像的图像数据,并且将各个数据输入到显示单元303(步骤C2)。
接下来,显示单元303在接收到文本数据和图像数据之后在显示设备33的屏幕上的预定区域中显示各个数据(步骤C3)。当数据集从记录者终端200发射时执行步骤C1到C3,以时间次序显示从每个记录者终端200发射的文本数据和视频数据。而且,为了提高用户60此时对记笔记的理解,各个文本数据和各个视频数据优选显示在相同时间轴上。
实施例的效果
根据如上所述的本实施例,将短时间段分配给每个记录者50,而且,语音数据被根据讲话者40的呼吸的定时而被分割,因此记录者50只需要直接文本化他或她听到的讲话。因此,在记录者50具有很少经验的情况下,及时记录者50还没有接受完全专业训练,也可以提供向听力损伤人员提供记笔记。而且,记录者终端200只需要经由网络410被连接到信息递送设备100和用户终端300,记录者50可以位于远程位置。出于上述原因,本实施例使得能够通过记笔记而接收到支持的听力损伤人员的数量增加。
计算机程序
本实施例的第一程序可以是使得计算机执行图4中所示的步骤A1到A7的任何程序。本实施例的信息递送设备100可以由该程序安装在计算机中并被执行来实现。在此情况下,计算机的CPU(中央处理单元)执行处理,同时用作为视频输入单元101、语音输入单元102、语音识别单元103、呼吸检测单元104、数据处理单元105和数据发射单元106。
而且,本实施例的第二程序可以是使得计算机执行图5中所示的步骤B1到B6的任何程序。本实施例的记录者终端200可以通过该程序安装在计算机上并被执行来实现。在此情况下,计算机的CPU(中央处理单元)执行处理,同时用作为数据接收单元201、数据再生单元202、输入单元203、图像处理单元204、显示单元205、数据处理单元206和数据发射单元207。
这里,将使用图7来描述通过执行实施例中的程序而实现信息递送设备100、记录者终端200和用户终端300的计算机。图7是示出实现在本发明的实施例中的信息递送设备、记录者终端和用户终端的计算机的示例的框图。
如图7中所示,计算机110被提供有CPU111、主存储器112、存储设备113、输入接口114、显示控制器115、数据读取器/写入器116和通信接口117。这些单元经由总线121以使得能够数据通信的方式彼此连接。
CPU111通过在主存储器112中扩展存储在存储设备113中的本实施例的程序(代码)并且以预定次序执行这些程序来实现各种类型的操作。主存储器112通常是易失性存储设备,诸如DRAM(动态随机存取存储器)。而且,本实施例的程序提供于存储在计算机可读记录介质120中的状态。注意:本实施例的程序可以在经由通信接口117连接的互联网上传播。
而且,存储设备113的具体示例,除了硬盘以外,包括半导体存储设备,诸如闪存存储器。输入接口114调解CPU111与诸如键盘和鼠标的输入设备118之间的数据传输。显示控制器115连接到显示设备119,并且控制在显示设备119上的显示。
数据读取器/写入器116调解CPU111与记录介质120之间的数据传输,并且用作为从记录介质120中读出程序并且将计算机110的处理结果写入到记录介质120。通信接口117调解CPU111与其他计算机之间的数据传输。
而且,记录介质120的具体示例包括通用半导体存储设备,诸如CF(简易闪存(注册商标))或SD(安全数字)、诸如软盘的磁存储介质、以及诸如CD-ROM(简易盘只读存储器)的光存储介质。
工作示例1
接下来,将使用图8来描述本发明的工作示例。注意:下面的对工作示例的描述是根据图4到6中所示的步骤而给出的。图8是示出本发明的工作示例中的语音识别单元、呼吸检测单元和数据处理单元的处理的图。
步骤A1
首先,信息递送设备100执行记录者终端200和用户终端300之间的网络通信的连接确认(步骤A1)。假设讲话者在课程中说出“1+2=3”(一加二等于三)。
步骤A2和A3
视频输入单元101由此获取MPEG-4格式等的视频数据(步骤A2),并且将获取的视频数据输入到数据处理单元105。语音输入单元102获取PCM格式等的语音数据(步骤A3),并且将获取的语音数据输入到语音识别单元103。
步骤A4
接下来,语音识别单元103在发声语音21的语音数据从语音输入单元102实时输入之后将该语音数据分开为语音部分22-1到22-3和静音部分23-1到23-4,如图8中所示。语音识别单元103随后输出指定分开的静音部分23-1到23-4的位置(开始点和结束点)的信息到呼吸检测单元104。
步骤A5
接下来,呼吸检测单元104给予来自语音识别单元103的信息而指定静音部分23-1到23-4,并且对于每个静音部分确定静音部分的长度是否小于或等于作为阈值的1秒。在图8中的示例中,静音部分23-2到23-4每个具有1秒的长度,并且因此分别被确定为呼吸部分24-1到24-3。
步骤A6
接下来,数据处理单元105比较由呼吸检测单元104确定为呼吸的呼吸部分24-1到24-3与分配给记录者50的分配时间段25。数据处理单元105随后对于每个呼吸部分确定呼吸部分是否存在于合并在分配时间段25的结束点25b之前设置的指定前部分26和在结束点25b之后设置的指定后部分27的部分中。注意,在该工作示例中,分配时间段25的长度设置在20秒。而且,指定前部分26和指定后部分27分别被设置为5秒。
具体地,数据处理单元105首先检测8秒语音部分22-1之后的1秒的静音部分23-2,确定关于该静止部分的条件不满足。另一方面,数据处理单元105检查8秒语音部分22-2之后的1秒静音部分23-3,确定条件满足,因为静音部分23-3的开始点位于分配部分25的开始点25a之后17秒且具有1秒的长度。
数据处理单元105随后查看分配部分,并且在改变分配时间段25的结束点25b为呼吸部分24-2的开始点(开始点25a之后17秒)之后生成用于记笔记的语音数据28。而且,数据处理单元105根据改变之后的分配时间段(17秒)将从视频输入单元101输入的视频数据进行划分,生成用于递送的视频数据。
步骤A6
数据处理单元105随后输出用于记笔记的语音数据和用于递送的视频数据到数据发射单元106。而且,在该工作示例中,语音数据根据语音/IP协议而被发射,视频数据根据TCP/IP协议而被发射。
步骤B1
在记录者终端200中,数据接收单元201接收用于记笔记的语音数据和视频数据。
步骤B2、B3和B5
接下来,数据再生单元202输出用于记笔记的语音数据到语音输出设备30,输出视频数据到显示单元205。视频数据由此在显示设备31的屏幕上显示。而且,语音被从作为音频扬声器的语音输出设备30再生。在该工作示例中,讲话者被听出正在说“一加二等于三”。
步骤B4
当记录者随后在观看视频时通过输入设备32选择关于讲话者正在说的字符所写在黑板上的位置时,图像处理单元204提取所选位置的静止图像,并且输出所提取的静止图像的图像数据到数据处理单元206。
步骤B6
而且,当记录者在听到所说的时通过输入设备32输入“1+2=3”(一加二等于三),输入单元203输出输入文本的文本数据到数据处理单元206。
步骤B7和B8
接下来,数据处理大约206输出由记录者50所输入的文本数据和静止图像的图像数据到数据发射单元207作为一个数据集。数据发射单元207在从数据处理单元206接收到数据集后根据TCP/IP发射该数据集到用户终端300。
步骤C1和C2
在用户终端300中,数据接收单元301接收从记录者终端200发射的数据集,并且将该数据集输入到数据再生单元302。数据再生单元302将数据集分解成在其中包括的文本数据和静止图像的图像数据,并且输入各个数据到显示单元303。
步骤C3
接下来,显示单元303在接收到文本数据和图像数据后,在显示设备33的屏幕上,在预定区域中显示各个数据。具体地,显示单元303在屏幕的字符显示区域中显示文本数据“1+2=3”,并且在屏幕的图像显示区域中显示静止图像。
因为记笔记的关于讲话者的发声的内容和相关图像显示在用户的终端300上作为上述处理的结果,作为用户的听力损伤人员能够理解课程的内容。
尽管上述实施例可以部分或全部由下面所述的补充注释1到20来表示,本发明不限于下面的描述。
补充注释1
一种用于辅助对讲话者的发声记笔记的***,包括:由执行记笔记的记录者所使用的记录者的终端;以及发射发声的语音数据到所述终端的信息递送设备,所述信息递送设备包括:呼吸检测单元,其从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;数据处理单元,其确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由所述数据处理单元生成的语音数据到分配时间段所分配到的记录者的终端,以及所述的记录者的终端包括:数据接收单元,其接收从所述信息递送设备发射的语音数据;输入单元,其接受对应于所述语音数据而输入的文本数据的输入;以及数据发射单元,其将输入被接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
补充注释2
在根据补充注释1所述的记笔记辅助***中,所述信息递送设备的所述数据发射单元进一步发射对应于分配给记录者的分配时间段的视频数据到所述终端,所述的记录者的终端进一步包括根据来自外部的指令而从发射的视频数据中提取静止图像的图像处理单元,以及所述记录者的终端的所述数据发射单元发射输入被接受的所述文本数据和所提取的静止图像的图像数据到所述用户终端。
补充注释3
在根据补充注释1或2所述的记笔记辅助***中,所述呼吸检测部分在所述静音部分的长度小于或等于阈值的情况下指定所提取的静音部分为所述讲话者的呼吸部分。
补充注释4
在根据补充注释1到3中任意一项所述的记笔记辅助***中,分配给所述记录者的所述分配时间段的长度是根据所述记录者的记笔记能力来设置的。
补充注释5
一种信息递送设备,用于发射讲话者的发声的语音数据到由执行对发声记笔记的记录者所使用的记录者的终端,包括:呼吸检测单元,其从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;数据处理单元,其确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由所述数据处理单元生成的语音数据到分配时间段所分配到的记录者的终端。
补充注释6
在根据补充注释5所述信息递送设备中,所述数据发射单元进一步发射对应于分配给记录者的分配时间段的视频数据到终端。
补充注释7
在根据补充注释5或6所述的信息递送设备中,所述呼吸检测部分在所述静音部分的长度小于或等于阈值的情况下指定所提取的静音部分为所述讲话者的呼吸部分。
补充注释8
在根据补充注释5到7中任意一项所述的信息递送设备中,分配给每个记录者的所述分配时间段的长度是根据所述记录者的记笔记能力来设置的。
补充注释9
一种由执行对讲话者的发声记笔记的记录者所使用的终端,包括:数据接收单元,其在分配给记录者的每个分配时间段内,从发射语音数据的信息递送设备接收发声的语音数据;输入单元,其接受对应于所述语音数据而输入的文本数据的输入;以及数据发射单元,其将输入被接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
补充注释10
根据补充注释9所述的终端,进一步包括图像处理单元,其在所述信息递送设备发射对应于分配给记录者的所述分配时间段的视频数据到终端,根据来自外部的指令,从发射的视频数据中提取静止图形,以及数据发射单元发射输入被接受的文本数据和所提取的静止图像的图像数据到用户终端。
补充注释11
一种用于使用由执行对讲话者的发声记笔记的记录者所使用的记录者的终端和发射发声的语音数据到所述终端的信息递送设备来辅助记笔记的记笔记辅助方法,包括以下步骤:(a)使用所述信息递送设备来从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;(b)使用所述信息递送设备来确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;(c)使用所述信息递送设备来发射在步骤(b)中生成的语音数据到分配时间段所分配到的记录者的终端;(d)使用所述的记录者的终端来接收从所述信息递送设备发射的所述语音数据;(e)使用所述的记录者的终端来接受对应于所述语音数据而输入的所述文本数据的输入;以及(f)使用所述的记录者的终端来将在步骤(e)中接受输入的所述文本数据发射到由记笔记的用户所使用的用户终端。
补充注释12
根据补充注释11所述的记笔记辅助方法,进一步包括步骤:(g)使用所述信息递送设备进一步发射对应于分配给记录者的分配时间段的视频数据到所述终端,以及(h)根据来自外部的指令,使用记录者的终端来从在步骤(g)发射的视频数据中提取静止图像,并且步骤(f)包括发射在步骤(e)输入被接受的文本数据和在步骤(h)提取的静止图像的图像数据到用户的终端。
补充注释13
在根据补充注释11或12所述的记笔记辅助方法中,步骤(a)包括,在静音部分的长度小于或等于阈值的情况下,指定所提取的静音部分为讲话者的呼吸部分。
补充注释14
在根据补充注释11到13中任意一项所述的记笔记辅助方法中,分配到记录者的分配时间段的长度是根据记录者的记笔记能力来设置的。
补充注释15
一种计算机可读记录介质,存储用于由计算机发射讲话者的发声的语音数据到由执行对发声记笔记的记录者所使用的记录者的终端的计算机程序,所述计算机程序包括用于使得计算机执行以下步骤的命令:(a)从发声的语音中指定静音部分,以及在指定的静音部分中指定满足设置条件的静音部分,作为讲话者的呼吸部分;(b)确定在分配给记录者的每个分配时间段内,基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,并且在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及(c)发射在步骤(b)中生成的语音数据到分配时间段所分配到的记录者的终端。
补充注释16
在根据补充注释15所述的计算机可读记录介质中,步骤(c)进一步包括发射对应于分配到记录者的分配时间段的视频数据到终端。
补充注释17
在根据补充注释15或16所述的计算机可读记录介质中,步骤(a)包括,在所提取的静音部分的长度小于或等于阈值的情况下,指定所提取的静音部分为讲话者的呼吸部分。
补充注释18
在根据补充注释15到17中任意一项所述的计算机可读记录介质中,分配到每个记录者的分配时间段的长度是根据记录者的记笔记能力来设置的。
补充注释19
一种计算机可读记录介质,存储包括用于使得由执行对讲话者的发声记笔记的记录者所使用的计算机执行以下步骤的命令的计算机程序:(a)在分配给记录者的每个分配时间段内,从发射语音数据的信息递送设备接收发声的语音数据;(b)接受对应于所述语音数据而输入的文本数据的输入;以及(c)将在步骤(b)中接受的所述文本数据发射到由记笔记的用户所使用的用户终端。
补充注释20
在根据补充注释19所述的计算机可读记录介质中,所述计算机程序包括用于使得计算机执行下述步骤的命令:(d)在信息递送设备进一步发射对应于分配给记录者的分配时间段的视频数据到记录者的情况下,根据来自外部的指令,从发射的视频数据中提取静止图像,并且,步骤(c)包括发射输入被接受的文本数据和所提取的静止图像的图像数据到用户的终端。
而且,本发明不限于上述的实施例和工作示例,并且还可以用来辅助解释讲话者的发声。也就是,本发明可以涉及***、信息递送设备、终端和解释辅助方法,用来辅助解释,还涉及计算机可读记录介质,存储计算机程序,用于实现上述目的。在此情况下,其特征如下。
本发明中的一种用于辅助讲话者的发声的解释的***包括:由执行解释的解释者所使用的解释者的终端,和发射发声的语音数据到终端的信息递送设备,所述信息递送设备包括:呼吸检测单元,其从发声的语音中指定静音部分并且在指定的静音部分中指定满足设置条件的静音部分为讲话者的呼吸部分;数据处理单元,其确定在分配给解释者的每个分配时间段内,在基于分配时间段的结束点的范围中是否存在呼吸部分,并且在范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,而在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由数据处理单元生成的语音数据到分配时间段所分配到的解释者的终端,所述的解释者的终端包括:数据接收单元,其接收从信息递送设备发射的语音数据;输入单元,其接受对应于语音数据而输入的文本数据的输入;以及数据发射单元,其发射输入被接受的文本数据到由解释的用户所使用的用户的终端。
根据本发明的一种用于发射讲话者的发声的语音数据到由解释发声的解释者所使用的解释者的终端的信息递送设备包括:呼吸检测单元,其从发声的语音中指定静音部分,并且从指定的静音部分中指定满足设置条件的静音部分为讲话者的呼吸部分;数据处理单元,其确定在分配给解释者的分配时间段内,在基于分配时间段的结束点的范围中是否存在呼吸部分,并且在范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,而在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点;以及数据发射单元,其发射由数据处理单元生成的语音数据到分配时间段所分配到的解释者的终端。
根据本发明的一种由解释讲话者的发声的解释者所使用的终端包括:数据接收单元,其在分配给解释者的每个分配时间段内从发射语音数据的信息递送设备接收发声的语音数据;输入单元,其接受根据语音数据输入的文本数据的输入;以及数据发射单元,其发射输入被接受的文本数据到由解释的用户所使用的用户终端。
根据本发明的一种用于使用由解释讲话者的发声的解释者所施工的解释者的终端和发射发声的语音数据到终端的信息递送设备来辅助解释的解释辅助方法包括如下步骤:(a)使用信息递送设备来从发声的语音中指定静音部分,并且在指定的静音部分中指定满足设置条件的静音部分为讲话者的呼吸部分,(b)使用信息递送设备来确定在分配给解释者的每个分配时间段内,在基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,而在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点,(c)使用信息递送设备来发射在步骤(b)中生成的语音数据到分配时间段所分配到的解释者的终端,(d)使用解释者的终端来接收从信息递送设备发射的语音数据,(e)使用解释者的终端来接受对应于语音数据而输入的文本数据的输入,以及(f)使用解释者的终端来发射在步骤(e)中输入被接受的文本数据到由解释的用户所使用的用户的终端。
根据本发明的一种计算机可读记录介质,存储用于由计算机发射讲话者的发声的语音数据到由执行对发声的解释的解释者所使用的解释者终端的计算机程序,所述计算机程序包括用于使得计算机执行以下步骤的命令:(a)从发声的语音中指定静音部分,并且指定所指定的静音部分中满足设置条件的静音部分为讲话者的呼吸部分,(b)确定在分配给解释者的每个分配时间段中,在基于分配时间段的结束点的范围中是否存在呼吸部分,并且在该范围中存在呼吸部分的情况下,从分配时间段的开始点生成发声的语音数据直到呼吸部分,而在范围中不存在呼吸部分的情况下,从开始点生成发声的语音数据直到分配时间段的结束点,以及(c)发射在步骤(b)中生成的语音数据到分配时间段所分配到的解释者的终端。
根据本发明的另一计算机可读记录介质存储计算机程序,包括用于使得由执行对讲话者的发声进行解释的解释者所使用的计算机执行以下步骤的命令:(a)在分配给解释者的每个分配时间段中从发射语音数据的信息递送设备接收发声的语音数据,(b)接受对应于语音数据而输入的文本数据的输入,和(c)发射在步骤(b)中接受的文本数据到由解释的用户所使用的用户终端。
尽管上面已经结合实施例和工作示例描述了本发明,但发明不想要被限制于上面的实施例和工作示例。本领域技术人员将认识到,本发明的配置和细节可以在发明的范围之内被各种修改。
本申请要求来自2013年3月19日提交的日本专利申请No.2013-056292的优先权,其完整公开内容在此通过援引加入进来。
工业实用性
根据本发明,如上所述,即使在执行记笔记的人具有很少记笔记经验的情况下,可以向听力损伤人员提供准确信息。本发明不限于课堂等,还在需要记笔记的任何场合下的各种类型的演讲等时有用。
附图标记的描述
10视频输入设备
20语音输入设备
21发声语音
22-1到22-3语音部分
23-1到23-4静音部分
24-1到24-4呼吸部分
25分配的时间
25a开始点
25b结束点
26预指定部分
27后指定部分
28用于记笔记的语音数据
30语音输出设备
31显示设备
32输入设备
33显示设备
40扬声器
50笔记记录器
60用户
100信息递送设备
101视频输入单元
102语音输入单元
103语音识别单元
104呼吸检测单元
105数据处理单元
106数据发射单元
110计算机
111CPU
112主存储器
113存储设备
114输入接口
115显示控制器
116数据读取器/写入器
117通信接口
118输入设备
119显示设备
120记录介质
121总线
200笔记记录终端
201数据接收单元
202数据再生单元
203输入单元
204图像处理单元
205显示单元
206数据处理单元
207数据发射单元
300用户终端
301数据接收单元
302数据再生单元
303显示单元
400笔记辅助***
410网络
Claims (9)
1.一种用于辅助对讲话者的发声记笔记的***,包括:
用于记录者的终端,所述用于记录者的终端由执行所述记笔记的记录者使用;以及
信息递送设备,所述信息递送设备将所述发声的语音数据发射到所述终端,
其中,所述信息递送设备包括:
呼吸检测单元,所述呼吸检测单元从所述发声的语音中指定静音部分,并且指定所指定的静音部分中满足设置条件的静音部分,作为所述讲话者的呼吸部分;
数据处理单元,所述数据处理单元针对分配给所述记录者的每个分配时间段,来确定所述呼吸部分是否存在于基于所述分配时间段的结束点的范围中,并且在所述呼吸部分存在于所述范围中的情况下,生成从所述分配时间段的开始点直至所述呼吸部分的所述发声的语音数据,并且在所述呼吸部分没有存在于所述范围中的情况下,生成从所述开始点直至所述分配时间段的结束点的所述发声的语音数据;以及
数据发射单元,所述数据发射单元将由所述数据处理单元生成的所述语音数据发射到所述分配时间段被分配到的所述记录者的所述终端,并且
用于所述记录者的所述终端包括:
数据接收单元,所述数据接收单元接收从所述信息递送设备发射的所述语音数据;
输入单元,所述输入单元接受与所述语音数据相对应地被输入的文本数据的输入;以及
数据发射单元,所述数据发射单元将输入被接受的所述文本数据发射到由记笔记的用户所使用的所述用于用户的终端。
2.在根据权利要求1所述的记笔记辅助***中,
其中,所述信息递送设备的所述数据发射单元进一步将与分配给所述记录者的所述分配时间段相对应的视频数据到所述终端,
用于记录者的所述终端进一步包括根据来自外部的指令而从所发射的视频数据中提取静止图像的图像处理单元,并且
用于记录者的所述终端的所述数据发射单元将输入被接受的所述文本数据和所提取的静止图像的图像数据发射到所述用于用户的终端。
3.在根据权利要求1或2所述的记笔记辅助***中,
其中,所述呼吸检测单元在所述静音部分的长度小于或等于阈值的情况下,指定所提取的静音部分作为所述讲话者的所述呼吸部分。
4.在根据权利要求1到3中任意一项所述的记笔记辅助***中,
其中,分配给所述记录者的所述分配时间段的长度是根据所述记录者的记笔记能力来设置的。
5.一种信息递送设备,所述信息递送设备用于将讲话者的发声的语音数据发射到由执行对所述发声记笔记的记录者所使用的记录者的终端,所述信息递送设备包括:
呼吸检测单元,所述呼吸检测单元从所述发声的语音中指定静音部分,并且指定所指定的静音部分中满足设置条件的静音部分,作为所述讲话者的呼吸部分;
数据处理单元,所述数据处理单元针对分配给所述记录者的每个分配时间段,来确定所述呼吸部分是否存在于基于所述分配时间段的结束点的范围中,并且在所述呼吸部分存在于所述范围中的情况下,生成从所述分配时间段的开始点直至所述呼吸部分的所述发声的语音数据,并且在所述呼吸部分没有存在于所述范围中的情况下,生成从所述开始点直至所述分配时间段的结束点的所述发声的语音数据;以及
数据发射单元,所述数据发射单元将由所述数据处理单元生成的所述语音数据发射到所述分配时间段被分配到的所述记录者的所述终端。
6.一种由执行对讲话者的发声记笔记的记录者所使用的终端,包括:
数据接收单元,所述数据接收单元针对分配给所述记录者的每个分配时间段,从发射所述语音数据的信息递送设备接收所述发声的语音数据;
输入单元,所述输入单元接受与所述语音数据相对应地被输入的文本数据的输入;以及
数据发射单元,所述数据发射单元将输入被接受的所述文本数据发射到由记笔记的用户所使用的用于用户的终端。
7.一种用于使用用于记录者的终端和信息递送设备来辅助记笔记的记笔记辅助方法,所述用于记录者的终端由执行所述记笔记的记录者使用,所述信息递送设备将所述发声的语音数据发射到所述终端,所述方法包括下述步骤:
(a)使用所述信息递送设备来从所述发声的语音中指定静音部分,并且指定在所指定的静音部分中满足设置条件的静音部分,作为讲话者的呼吸部分;
(b)使用所述信息递送设备来针对分配给所述记录者的每个分配时间段,确定所述呼吸部分是否存在于基于所述分配时间段的结束点的范围中,并且在所述呼吸部分存在于所述范围中的情况下,生成从所述分配时间段的开始点直至所述呼吸部分的所述发声的语音数据,并且在所述呼吸部分没有存在于所述范围中的情况下,生成从所述开始点直至所述分配时间段的结束点的所述发声的语音数据;
(c)使用所述信息递送设备来将在所述步骤(b)中生成的语音数据发射到所述分配时间段被分配到的所述记录者的所述终端;
(d)使用所述用于记录者的终端来接收从所述信息递送设备发射的所述语音数据;
(e)使用所述用于记录者的终端来接受与所述语音数据相对应地被输入的文本数据的输入;以及
(f)使用所述用于记录者的终端来将在所述步骤(e)中接受其输入的所述文本数据发射到由记笔记的用户所使用的用于用户的终端。
8.一种存储计算机程序的计算机可读记录介质,所述计算机程序用于由计算机将讲话者的发声的语音数据发射到由执行对所述发声记笔记的记录者所使用的用于记录者的终端,所述计算机程序包括用于使得计算机执行下述步骤的命令:
(a)从所述发声的语音中指定静音部分,并且指定在所指定的静音部分中满足设置条件的静音部分,作为讲话者的呼吸部分;
(b)针对分配给所述记录者的每个分配时间段,确定所述呼吸部分是否存在于基于所述分配时间段的结束点的范围中,并且在所述呼吸部分存在于所述范围中的情况下,生成从所述分配时间段的开始点直至所述呼吸部分的所述发声的语音数据,并且在所述呼吸部分没有存在于所述范围中的情况下,生成从所述开始点直至所述分配时间段的结束点的所述发声的语音数据;
(c)将在所述步骤(b)中生成的语音数据发射到所述分配时间段被分配到的所述记录者的所述终端。
9.一种存储计算机程序的计算机可读记录介质,所述计算机程序包括用于使得由执行对讲话者的发声记笔记的记录者使用的计算机执行下述步骤的命令:
(a)针对分配给所述记录者的每个分配时间段,从发射所述语音数据的信息递送设备接收所述发声的语音数据;
(b)接受与所述语音数据相对应地被输入的文本数据的输入;以及
(c)将在所述步骤(b)中接受的所述文本数据发射到由记笔记的用户所使用的用于用户的终端。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013056292 | 2013-03-19 | ||
JP2013-056292 | 2013-03-19 | ||
PCT/JP2014/054010 WO2014148190A1 (ja) | 2013-03-19 | 2014-02-20 | 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105378829A true CN105378829A (zh) | 2016-03-02 |
CN105378829B CN105378829B (zh) | 2019-04-02 |
Family
ID=51579882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480017147.XA Active CN105378829B (zh) | 2013-03-19 | 2014-02-20 | 记笔记辅助***、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9697851B2 (zh) |
EP (1) | EP2977983A1 (zh) |
JP (1) | JP6172770B2 (zh) |
KR (1) | KR20150131287A (zh) |
CN (1) | CN105378829B (zh) |
WO (1) | WO2014148190A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2544257A (en) * | 2015-09-19 | 2017-05-17 | Philip Pisani Justin | Greeting gesture device |
GB2583117B (en) * | 2019-04-17 | 2021-06-30 | Sonocent Ltd | Processing and visualising audio signals |
FI20225762A1 (en) * | 2022-08-31 | 2024-03-01 | Elisa Oyj | A COMPUTER-IMPLEMENTED METHOD FOR DETECTING ACTIVITY IN A VOICE STREAM |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050010407A1 (en) * | 2002-10-23 | 2005-01-13 | Jon Jaroker | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
CN101178790A (zh) * | 2006-11-10 | 2008-05-14 | 胡鹏 | 智能虚拟断句实现协同听打录入的方法 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
JP2013015939A (ja) * | 2011-07-01 | 2013-01-24 | Nec System Technologies Ltd | 理解支援システム、支援端末、理解支援方法およびプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
GB2291571A (en) * | 1994-07-19 | 1996-01-24 | Ibm | Text to speech system; acoustic processor requests linguistic processor output |
JP4030162B2 (ja) * | 1997-11-04 | 2008-01-09 | 富士通株式会社 | 息検出機能付情報処理装置及び息検出による画像表示制御方法 |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
JP2003223199A (ja) | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
JP2003223200A (ja) * | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム |
GB2411551B (en) * | 2003-04-22 | 2006-05-03 | Spinvox Ltd | A method of providing voicemails to a wireless information device |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
JP4158937B2 (ja) | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
JP5505989B2 (ja) * | 2011-03-31 | 2014-05-28 | Necシステムテクノロジー株式会社 | 筆記支援装置、筆記支援方法、およびプログラム |
JP5892598B2 (ja) * | 2012-02-29 | 2016-03-23 | Necソリューションイノベータ株式会社 | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム |
US9208798B2 (en) * | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
-
2014
- 2014-02-20 CN CN201480017147.XA patent/CN105378829B/zh active Active
- 2014-02-20 JP JP2015506661A patent/JP6172770B2/ja active Active
- 2014-02-20 KR KR1020157029366A patent/KR20150131287A/ko not_active Application Discontinuation
- 2014-02-20 EP EP14769854.2A patent/EP2977983A1/en not_active Withdrawn
- 2014-02-20 US US14/777,784 patent/US9697851B2/en active Active
- 2014-02-20 WO PCT/JP2014/054010 patent/WO2014148190A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050010407A1 (en) * | 2002-10-23 | 2005-01-13 | Jon Jaroker | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
CN101178790A (zh) * | 2006-11-10 | 2008-05-14 | 胡鹏 | 智能虚拟断句实现协同听打录入的方法 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
JP2013015939A (ja) * | 2011-07-01 | 2013-01-24 | Nec System Technologies Ltd | 理解支援システム、支援端末、理解支援方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6172770B2 (ja) | 2017-08-02 |
JPWO2014148190A1 (ja) | 2017-02-16 |
KR20150131287A (ko) | 2015-11-24 |
US9697851B2 (en) | 2017-07-04 |
US20160300587A1 (en) | 2016-10-13 |
CN105378829B (zh) | 2019-04-02 |
EP2977983A1 (en) | 2016-01-27 |
WO2014148190A1 (ja) | 2014-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11170782B2 (en) | Real-time audio transcription, video conferencing, and online collaboration system and methods | |
WO2018227761A1 (zh) | 一种教学录播数据修正装置 | |
US11431517B1 (en) | Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches | |
CN109324811B (zh) | 一种用于更新教学录播数据的装置 | |
TW201624467A (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
TWI590240B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
EP1486949A1 (en) | Audio video conversion apparatus and method, and audio video conversion program | |
JP2005341015A (ja) | 議事録作成支援機能を有するテレビ会議システム | |
WO2016119370A1 (zh) | 一种实现录音的方法、装置和移动终端 | |
US20160189103A1 (en) | Apparatus and method for automatically creating and recording minutes of meeting | |
CN109361527B (zh) | 语音会议记录方法及*** | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
CN114514577A (zh) | 生成和传输口头通信的文字记录的方法和*** | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理*** | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
CN105378829A (zh) | 记笔记辅助***、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质 | |
US20230141096A1 (en) | Transcription presentation | |
EP3864650A1 (en) | Transcription of communications | |
CN109147791A (zh) | 一种速记***和方法 | |
US20030097253A1 (en) | Device to edit a text in predefined windows | |
CN115359796A (zh) | 数字人手语播报方法、装置、设备及存储介质 | |
US20200184973A1 (en) | Transcription of communications | |
CN102263929A (zh) | 会议视像信息实时发布***和相应装置 | |
CN110362675A (zh) | 一种外语教学内容展示方法及*** | |
KR101778548B1 (ko) | 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |