CN114509157B - 信息处理***、信息处理方法以及程序 - Google Patents

信息处理***、信息处理方法以及程序 Download PDF

Info

Publication number
CN114509157B
CN114509157B CN202111351387.1A CN202111351387A CN114509157B CN 114509157 B CN114509157 B CN 114509157B CN 202111351387 A CN202111351387 A CN 202111351387A CN 114509157 B CN114509157 B CN 114509157B
Authority
CN
China
Prior art keywords
analysis section
boundary
time
section
actual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111351387.1A
Other languages
English (en)
Other versions
CN114509157A (zh
Inventor
菅田光留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN114509157A publication Critical patent/CN114509157A/zh
Application granted granted Critical
Publication of CN114509157B publication Critical patent/CN114509157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明***息处理***、信息处理方法以及程序。提供能够更适合地分析多个参加者参加的交流的状况的信息处理***。信息处理装置具有发声判定部以及分析区间决定部。发声判定部判定作为交流中的多个参加者各自的发声的时间序列上的区间的发声区间。分析区间决定部使用基准分析区间,以使多个实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定多个实际分析区间的边界。

Description

信息处理***、信息处理方法以及程序
技术领域
本发明涉及信息处理***、信息处理方法以及程序,特别涉及进行与交流(communication)有关的处理的信息处理***、信息处理方法以及程序。
背景技术
已知计算小组活动、研讨会或者会议等多个参加者参加的交流的场所的热烈度的技术。关于该技术,日本特开2006-302047号公报公开一种支援在多个会议场所之间进行的远程会议的会议支援装置。日本特开2006-302047号公报所涉及的会议支援装置根据表示某个会议场所中的参加者的动作的动作信息,识别会议中的发言动作,根据其识别结果,计算表示某个会议场所的热烈程度的会议场所活跃度。作为上述会议场所活跃度,例如有会议场所中的每单位时间的发言动作的量。
发明内容
在某个交流中,场所的热烈程度或者场所的气氛这样的交流的状态存在随着时间变化的可能性。为了掌握这样的交流的状态的变迁,按照某个时间宽度将交流划分为多个,沿着时间的推移针对该时间宽度的每个区间分析交流的指标。在这样的分析中,例如分析各区间中的各参加者的发声长度。在此,在交流的参加者的某一个发声的途中划分时间宽度时,存在无法适合地取得参加者的发声长度的可能性。因此,存在无法适合地分析交流的状况的可能性。
本发明提供能够更适合地分析多个参加者参加的交流的状况的、信息处理***、信息处理方法以及程序。
本发明提供一种信息处理***,具有:发声判定部,判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间;以及分析区间决定部,使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界。
另外,本发明提供一种信息处理方法,判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间,使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界。
另外,本发明提供一种程序,该程序使计算机执行:判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间的步骤;以及使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界的步骤。
本发明这样构成,所以抑制在参加者的发声的途中划分实际分析区间。因此,能够在实际分析区间中适合地取得参加者的发声长度,所以能够更适合地分析交流的状况。
另外,优选为,所述分析区间决定部关于所述交流,设定所述基准分析区间的边界,在所述设定的所述基准分析区间的边界包含于所述多个参加者的所述发声区间的至少1个的情况下,将与最接近该基准分析区间的边界的所述无发声时间对应的时间点设定为所述实际分析区间的边界的时间点。
通过这样的结构,实际分析区间的长度更接近基准分析区间的长度。因此,能够抑制多个实际分析区间的长度的偏差。
另外,优选为,所述分析区间决定部预先从所述交流的开始时间点至结束时间点为止,以与所述基准分析区间对应的间隔设定多个所述基准分析区间的边界,使用设定的多个所述基准分析区间的各个边界,以使多个所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定多个所述实际分析区间的边界。
通过这样的结构,能够一下子设定多个实际分析区间的边界的时间点,所以能够简化处理。
另外,优选为,所述分析区间决定部从所述交流的开始时间点,依次进行:设定所述基准分析区间的边界,使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界。
通过这样的结构,能够抑制实际分析区间的长度和基准分析区间的长度的差距。
另外,优选为,所述分析区间决定部执行在从所述交流的开始时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第1工序,执行使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界的第2工序,执行在从设定的所述实际分析区间的边界的时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第3工序,通过反复所述第2工序和所述第3工序,分别设定多个所述实际分析区间的边界的时间点。
通过这样的结构,能够更可靠地执行依次设定多个实际分析区间的边界。
根据本发明,能够提供能够更适合地分析多个参加者参加的交流的状况的、信息处理***、信息处理方法以及程序。
本公开的上述和其他目的、特征和优点将通过以下给出的详细描述和仅以说明的方式给出的附图变得更充分地理解,因此不应被认为是对本公开的限制。
附图说明
图1是示出实施方式1的信息处理***的图。
图2是示出实施方式1的信息处理装置的结构的图。
图3是示出由实施方式1的信息处理***执行的信息处理方法的流程图。
图4是用于说明实施方式1的发声判定部的判定处理的图。
图5是例示由实施方式1的发声判定部生成的发声推移图的图。
图6是例示通过实施方式1的基准分析区间设定部在发声推移图中配置了基准分析区间边界的状态的图。
图7是用于说明实施方式1的实际分析区间设定部设定实际分析区间边界的方法的图。
图8是示出由实施方式2的信息处理***执行的信息处理方法的流程图。
图9是用于说明实施方式2的信息处理方法的图。
图10是用于说明实施方式2的信息处理方法的图。
图11是用于说明实施方式2的信息处理方法的图。
图12是用于说明实施方式2的信息处理方法的图。
图13是用于说明实施方式2的信息处理方法的图。
图14是用于说明实施方式2的信息处理方法的图。
具体实施方式
(实施方式1)
以下,参照附图,说明本发明的实施方式。此外,在各附图中,对同一要素附加同一符号,根据需要省略重复说明。
图1是示出实施方式1的信息处理***1的图。本实施方式的信息处理***1分析多个参加者参加的交流的状况。因此,信息处理***1作为交流分析***(或者简称为分析***)发挥功能。或者,信息处理***1作为支***流的分析的分析支援***(或者简称为支援***)发挥功能。
此外,“交流”例如是小组活动、研讨会或者会议等,但不限定于这些。另外,本实施方式的信息处理***1在进行交流的分析时,将交流分割为多个时间序列上的区间,针对分割的每个区间,分析交流的指标。由此,能够分析交流的状态的时间上的推移。
实施方式1的信息处理***1具有多个集音装置10和信息处理装置100。集音装置10和信息处理装置100可经由有线或者无线的网络2连接。
集音装置10内置有麦克风。集音装置10作为检测声音的传感器发挥功能。集音装置10构成为对参加者各自的发声进行集音。集音装置10可以被佩戴于交流的各个参加者。例如,集音装置10也可以通过如徽章那样构成而被佩戴于参加者。或者,集音装置10也可以通过构成为挂到参加者的脖子而被佩戴于参加者。或者,集音装置10也可以被佩戴到参加者的头部。佩戴集音装置10的参加者在交流中进行发声。集音装置10对佩戴集音装置10的参加者的发声进行集音。由此,集音装置10取得表示各参加者的发声的发声数据(声音数据)。此外,以下,用语“发声”还能够表示表示发声的发声数据。
另外,集音装置10也可以检测参加者的发声(发音)的声压的变化。在该情况下,集音装置10检测由对应的参加者的发声引起的声压的时间序列数据作为发声数据。即,集音装置10取得每个参加者的发声数据(声压数据)。
在此,本实施方式的信息处理***1在分析交流的状况时,无需掌握参加者的发声的内容。因此,集音装置10无需按照可掌握发声的内容的程度精度良好地对发声进行集音。例如,通过充分(例如20Hz程度)降低集音装置10对发声进行集音时的采样率,从而无需掌握发声的内容,能够简单地仅掌握参加者在哪个定时进行了发声。由此,能够抑制参加者的心理的抗拒感。
信息处理装置100从多个集音装置10的各个取得各参加者的发声(发声数据)。信息处理装置100根据各参加者进行发声的定时,设定用于对交流实际进行分析的、时间序列上的(时间轴上的)多个分析区间(实际分析区间)。此时,信息处理装置100以使实际分析区间的边界不成为参加者的发声的途中的方式,设定实际分析区间。在此,实际分析区间是成为实际进行交流的分析时的交流的单位的时间区间。
然后,信息处理装置100使用各参加者的发声,关于设定的多个实际分析区间的各个,分析多个参加者的发声。由此,抑制在参加者的发声的途中划分实际分析区间。因此,能够在实际分析区间中适合地取得参加者的发声长度,所以能够更适合地分析交流的状况。详细内容后述。此外,信息处理装置100能够作为分析交流的推移以及交流中的发声的、分析装置发挥功能。或者,信息处理装置100作为支***流的分析的分析支援装置(或者简称为支援装置)发挥功能。
图2是示出实施方式1的信息处理装置100的结构的图。在信息处理装置100中,作为主要的硬件结构,具有控制部102、存储部104、通信部106以及接口部108(IF;Interface)。控制部102、存储部104、通信部106以及接口部108经由数据总线等相互连接。
控制部102是例如CPU(Central Processing Unit,中央处理单元)等处理器。控制部102具有作为进行控制处理以及运算处理等的运算装置的功能。存储部104是例如存储器或者硬盘等存储装置。存储部104是例如ROM(Read Only Memory,只读存储器)或者RAM(Random Access Memory,随机存取存储器)等。存储部104具有用于存储由控制部102执行的控制程序以及运算程序等的功能。另外,存储部104具有用于临时地存储处理数据等的功能。存储部104可以包括数据库。
通信部106进行为了与集音装置10等其他装置经由网络2进行通信而所需的处理。通信部106可以包括通信端口、路由器、防火墙等。接口部108(IF;Interface)是例如用户接口(UI)。接口部108具有键盘、触摸面板或者鼠标等输入装置和显示器或者扬声器等输出装置。接口部108受理由用户(操作人员)执行的数据输入操作,针对用户输出信息。
另外,在信息处理装置100中,作为构成要素,具有发声取得部112、发声判定部114、分析区间决定部120、分析部132以及分析结果输出部134。分析区间决定部120具有基准分析区间设定部122和实际分析区间设定部124。发声取得部112、发声判定部114、分析区间决定部120、分析部132以及分析结果输出部134分别具有作为发声取得单元、发声判定单元、分析区间决定单元、分析单元以及分析结果输出单元的功能。基准分析区间设定部122以及实际分析区间设定部124分别具有作为基准分析区间设定单元以及实际分析区间设定单元的功能。
此外,各构成要素例如能够通过由控制部102的控制使程序执行来实现。更具体而言,各构成要素能够通过由控制部102执行保存于存储部104的程序来实现。另外,也可以通过将必要的程序记录到任意的非易失性记录介质,并根据需要安装,从而实现各构成要素。另外,各构成要素不限于用基于程序的软件实现,而也可以通过硬件、固件以及软件中的任意的组合等实现。另外,各构成要素也可以使用例如FPGA(Field-Programmable GateArray,现场可编程门阵列)或者微型机等用户可编程的集成电路实现。在该情况下,也可以使用该集成电路,实现由上述各构成要素构成的程序。以上在后述其他实施方式中也是同样的。
发声取得部112取得多个参加者参加的交流中的多个参加者各自的发声(发声数据)。发声判定部114判定交流中的多个参加者各自的发声的时间序列上的区间即发声区间。具体而言,发声判定部114根据由发声取得部112取得的发声,判定多个参加者各自的时间序列上的发声区间(发声时间)。即,发声判定部114判定多个参加者分别在分析对象的交流中何时进行发声、何时未进行发声。然后,发声判定部114生成表示从交流的开始至结束为止的多个参加者各自的发声区间的时间上的推移的、发声推移图。关于发声推移图,使用图5后述。此外,关于发声判定部114判定各参加者的发声区间的方法,后述。
分析区间决定部120根据多个基准分析区间的边界和无发声时间,设定多个实际分析区间的边界的时间点。换言之,分析区间决定部120使用基准分析区间,以使多个实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定多个实际分析区间的边界。在此,优选为,分析区间决定部120关于分析对象的交流,设定基准分析区间的边界。然后,分析区间决定部120在设定的基准分析区间的边界包含于多个参加者的发声区间的至少1个的情况下,将与该基准分析区间的边界最接近的无发声时间中包含的时间点设定为实际分析区间的边界的时间点。详细内容后述。
在此,基准分析区间是预先决定的时间长度的时间区间。另外,设为多个基准分析区间的长度相互相同。例如,基准分析区间的长度是10分钟,但不限定于此。另外,基准分析区间的长度也可以根据分析的方法适当地决定。例如,即使是分析某1个交流的状态的变迁的情况,也可以在用某个分析方法进行分析时将基准分析区间设为10分钟,在用其他分析方法进行分析时将基准分析区间设为5分钟。
另外,无发声时间是多个参加者谁也未进行发声的时间(期间)。即,无发声时间是不属于多个参加者的任何发声区间的时间。无发声时间也可以称为无发声期间或者无发声区间。另外,如上所述,实际分析区间是用于实际进行交流的分析的分析区间。在实际进行交流的分析时,针对每个该实际分析区间,分析多个参加者的发声。在此,在本实施方式中,在某个分析中,基准分析区间恒定,但实际分析区间未必恒定。
在此,基准分析区间成为在分析交流的状态的变迁时用于分析各参加者的发声的基准的时间区间。如上所述,在交流的状态的变迁的分析中,针对每个时间区间分析各参加者的发声。在该情况下,在时间区间的长度的偏差大时,有可能无法适合地进行分析。例如,在针对某个交流用某个分析方法进行分析的情况下,如果在某个时间段以10分钟的时间区间进行分析,但在其他时间段以5分钟的时间区间进行分析,则有可能无法适合地进行交流的状态的变迁的分析。因此,在本实施方式中,为了抑制用于进行该分析的时间区间的偏差,设置基准分析区间。而且,分析区间决定部120以成为尽可能与基准分析区间的长度接近的长度的方式,设定实际分析区间。
基准分析区间设定部122预先设定基准分析区间的长度。基准分析区间设定部122在与分析对象的交流对应的发声推移图中,设定基准分析区间(基准分析区间的边界)。实际分析区间设定部124在与分析对象的交流对应的发声推移图中,设定多个实际分析区间(实际分析区间的边界)。详细内容后述。
分析部132关于多个实际分析区间的各个,分析多个参加者的发声。关于分析方法,考虑能够分析交流的变迁的任意的方法。关于分析方法的具体例,后述。分析结果输出部134输出由分析部132分析的分析结果。
图3是示出由实施方式1的信息处理***1执行的信息处理方法的流程图。图3所示的流程图示出由信息处理装置100执行的分析方法(分析支援方法或者支援方法)。在此,在以下所示的说明中,适当地使用后述图5~图7,说明关于参加者A、参加者B以及参加者C参加的交流进行分析的例子。
发声取得部112取得多个参加者各自的发声(步骤S102)。具体而言,发声取得部112从集音装置10取得表示多个参加者各自的发声的发声数据。更具体而言,在发声取得部112中,作为发声数据,取得与每个参加者的发声相伴的、表示声压的每个时间的推移的声压数据。关于声压数据,在后述的图4中例示。
接下来,发声判定部114判定各参加者的发声区间(步骤S104)。由此,发声判定部114生成发声推移图。具体而言,发声判定部114在各参加者的声压数据中,将声压值大于预先决定的阈值的时间区间判定为该参加者的发声区间。
图4是用于说明实施方式1的发声判定部114的判定处理的图。图4是用于说明使用某个参加者(例如参加者A)的声压数据判定发声区间的方法的图。声压数据示出声压的时间上的推移。在图4例示的声压数据中,将横轴作为时间,将纵轴作为声压值。而且,如图4所示,发声判定部114将声压值大于阈值的区间判定为发声区间。在图4的例子中,关于参加者A,判定有3个发声区间。发声判定部114关于所有参加者进行上述处理,从而判定各参加者的发声区间。
此外,发声判定部114也可以判定声音数据中的噪声,将该噪声的区间不判定为发声区间,由此判定发声区间。此时,发声判定部114也可以在判定某个参加者(例如参加者A)的发声区间时,使用与该参加者的距离近的其他参加者(例如参加者B以及参加者C)的声压数据,判定噪声。在该情况下,集音装置10也可以具有检测用于掌握参加者彼此的距离的位置信息的传感器。而且,声压数据也可以与位置信息对应起来。
具体而言,发声判定部114也可以在判定参加者A的发声区间时,比较参加者A的声压数据的形状和参加者B以及参加者C的声压数据的形状,将形状类似的区间判定为噪声。此处所称的噪声是指,例如与哪个参加者的发声都不同的干扰(噪音)。另外,还有在参加者A的就近有参加者B,参加者B的发声被参加者A的集音装置10集音的情况。在该情况下,发声判定部114也可以比较参加者A的声压数据的形状和参加者B的声压数据的形状,将形状类似但比参加者B的声压数据中的声压低的区间判定为是参加者B的发声区间,不判定为参加者A的发声区间。因此,此处所称的噪声可能对应于处于判定对象的参加者的附近的其他参加者的发声。
另外,发声判定部114关于参加交流的所有参加者判定发声区间。然后,发声判定部114通过在相同的时间序列上排列多个参加者的发声区间,生成如图5例示的发声推移图。
图5是例示由实施方式1的发声判定部114生成的发声推移图的图。图5的横轴表示时间。“00:00”表示交流的开始时间点。“00:10”表示从交流的开始时间点经过10分钟后的时间点。图5所示的发声推移图包括参加者A~C的发声区间。参加者A的发声区间是发声区间SpA#1、SpA#2、SpA#3、SpA#4。参加者B的发声区间是发声区间SpB#1、SpB#2、SpB#3。参加者C的发声区间是发声区间SpC#1、SpC#2、SpC#3、SpC#4。该发声推移图示出各参加者何时进行发声、何时未进行发声。
另外,在图5中,无发声时间是参加者A的发声区间SpA#1~SpA#4、参加者B的发声区间SpB#1~SpB#3以及参加者C的发声区间SpC#1~SpC#4未相互重叠的时间。例如,参加者B的发声区间SpB#1的结束时间点SpB#1e与参加者A的发声区间SpA#2的开始时间点SpA#2s之间的时间是无发声时间Si_B1A2。另外,参加者C的发声区间SpC#2的结束时间点SpC#2e与参加者A的发声区间SpA#3的开始时间点SpA#3s之间的时间是无发声时间Si_C2A3。另外,参加者A的发声区间SpA#4的结束时间点SpA#4e与参加者C的发声区间SpC#4的开始时间点SpC#4s之间的时间是无发声时间Si_A4C4。
返回到图3的流程图的说明。分析区间决定部120预先从交流的开始时间点至结束时间点为止,以与基准分析区间对应的间隔,设定多个基准分析区间的边界(基准分析区间边界)(步骤S106)。具体而言,基准分析区间设定部122针对发声推移图,从交流的开始时间点至结束时间点为止,一下子以与基准分析区间对应的间隔,配置多个基准分析区间边界。由此,在发声推移图中,等间隔地配置多个基准分析区间边界。即,在发声推移图中,在时间轴上,相互连结地配置相同的长度的多个基准分析区间。此外,基准分析区间边界与基准分析区间的结束时间点对应。在实施方式1中,基准分析区间边界是与某个基准分析区间和其接下来的基准分析区间的边界对应的时间点。
图6是例示通过实施方式1的基准分析区间设定部122在发声推移图中配置有基准分析区间边界的状态的图。在此,将基准分析区间60的时间长度设为Ts(分钟)。例如,Ts=10(分钟),但不限定于此。在实施方式1中,从交流的开始时间点ts0至交流的结束时间点为止,每隔Ts分钟,配置有基准分析区间边界。在图6中,例如,在从交流的开始时间点ts0经过Ts分钟后,配置有第1个基准分析区间边界ts1。另外,在从基准分析区间边界ts1经过Ts分钟后,配置有第2个基准分析区间边界ts2。另外,在从基准分析区间边界ts2经过Ts分钟后,配置有第3个基准分析区间边界ts3。此外,在交流的结束时间点的附近,从某个基准分析区间边界tsX(未图示)至交流的结束时间点为止的期间的时间小于Ts的情况下,在从基准分析区间边界tsX至交流的结束时间点为止的期间,未配置基准分析区间边界。
返回到图3的流程图的说明。分析区间决定部120根据设定的多个基准分析区间边界各个和无发声时间,设定多个实际分析区间的边界(实际分析区间边界)(步骤S108)。具体而言,实际分析区间设定部124使用设定的多个基准分析区间边界各个,以使多个实际分析区间边界的时间点成为与无发声时间对应的时间的方式,设定多个实际分析区间边界(实际分析区间)。更具体而言,实际分析区间设定部124关于多个基准分析区间边界的各个,在基准分析区间边界的时间点包含于发声区间的至少1个的情况下,将与最接近该基准分析区间边界的无发声时间对应的时间设定为实际分析区间边界的时间点。此外,实际分析区间设定部124在基准分析区间边界的时间点包含于无发声时间的情况下,将该基准分析区间边界的时间点设定为实际分析区间边界的时间点。此外,实际分析区间边界与对应的实际分析区间的结束时间点对应。即,实际分析区间边界是与对应的实际分析区间和其接下来的实际分析区间的边界对应的时间点。
图7是用于说明实施方式1的实际分析区间设定部124设定实际分析区间边界的方法的图。图7与如图6例示在发声推移图中配置基准分析区间边界的情况对应。在配置有基准分析区间边界的发声推移图中,基准分析区间边界包含于某一个参加者的发声区间的情况下,实际分析区间设定部124将与最接近该基准分析区间边界的无发声时间对应的时间点设定为实际分析区间边界的时间点。
在图7中,第1个基准分析区间边界ts1包含于发声区间SpB#1。在该情况下,实际分析区间设定部124将与基准分析区间边界ts1最接近的无发声时间即无发声时间Si_B1A2中包含的时间点设定为与第1个实际分析区间70-1对应的第1个实际分析区间边界ta1的时间点。在图7的例子中,实际分析区间设定部124将在无发声时间Si_B1A2中与基准分析区间边界ts1最接近的、与发声区间SpB#1的结束时间点SpB#1e对应的时间点设定为实际分析区间边界ta1的时间点。这样,实际分析区间设定部124设定从交流的开始时间点ts0至实际分析区间边界ta1为止的、时间长度Ta1(分钟)的实际分析区间70-1。
另外,第2个基准分析区间边界ts2包含于发声区间SpC#2。在该情况下,实际分析区间设定部124将与基准分析区间边界ts2最接近的无发声时间即无发声时间Si_C2A3中包含的时间点设定为与第2个实际分析区间70-2对应的第2个实际分析区间边界ta2的时间点。在图7的例子中,实际分析区间设定部124将在无发声时间Si_C2 A3中与基准分析区间边界ts2最接近的、与发声区间SpC#2的结束时间点SpC#2e对应的时间点设定为实际分析区间边界ta2的时间点。这样,实际分析区间设定部124设定从实际分析区间边界ta1至实际分析区间边界ta2为止的、时间长度Ta2(分钟)的实际分析区间70-2。
另外,第3个基准分析区间边界ts3包含于发声区间SpA#4。在该情况下,实际分析区间设定部124将与基准分析区间边界ts3最接近的无发声时间即无发声时间Si_A4C4中包含的时间点设定为与第3个实际分析区间70-3对应的第3个实际分析区间边界ta3的时间点。在图7的例子中,实际分析区间设定部124将在无发声时间Si_A4C4中与基准分析区间边界ts3最接近的、发声区间SpA#4的结束时间点SpA#4e设定为实际分析区间边界ta3的时间点。这样,实际分析区间设定部124设定从实际分析区间边界ta2至实际分析区间边界ta3为止的、时间长度Ta3(分钟)的实际分析区间70-3。
由此,在实际分析区间70-1中,发声区间SpA#1、发声区间SpC#1以及发声区间SpB#1以在途中不中断的方式被包括。另外,在实际分析区间70-2中,发声区间SpA#2、发声区间SpB#2以及发声区间SpC#2以在途中不中断的方式被包括。另外,在实际分析区间70-3中,发声区间SpA#3、发声区间SpB#3、发声区间SpC#3以及发声区间SpA#4以在途中不中断的方式被包括。
返回到图3的流程图的说明。分析部132关于通过S108的处理而设定的多个实际分析区间的各个,分析多个参加者的发声(步骤S120)。分析结果输出部134输出通过S120的处理而分析的分析结果(步骤S122)。例如,分析结果输出部134也可以使作为显示器的接口部108显示分析结果。
说明利用分析部132进行的分析方法的具体例。例如,分析部132在实际分析区间中取得包含于该区间的各发声区间的长度。然后,分析部132关于多个实际分析区间的各个,计算发声区间的长度(发声时间)的平均值。在图7的例子中,分析部132例如关于实际分析区间70-1,计算发声区间SpA#1的长度、发声区间SpC#1的长度以及发声区间SpB#1的长度的平均值。
分析部132使用该发声区间的长度的平均值,评价交流的状态。例如,分析部132评价为发声区间的长度的平均值越大,则在该实际分析区间中越认真地进行讨论。另一方面,分析部132评价为发声区间的长度的平均值越小,则在该实际分析区间中越速度快地交换意见。分析部132能够根据这样的多个实际分析区间中的分析结果,判定交流的状态的变迁。
另外,关于发声区间的长度(发声时间)的变化量的权重,即便是相同的变化量,也可能根据发声区间的长度而不同。例如,在将短的发声时间(例如5秒)的发声区间中的1秒的变化和长的发声时间(例如50秒)的发声区间中的1秒的变化进行比较时,短的发声时间的发声区间中的1秒的变化的一方的权重大。因此,通过用对数变换发声时间,能够减轻长的发声时间的变化量的权重。具体而言,在将发声区间i的发声时间设为Ti时,分析部132计算Xi=log10(Ti+1)。然后,分析部132关于多个实际分析区间的各个,计算Xi的平均值。然后,分析部132使用计算出的Xi的平均值,如上所述评价交流的状态。此外,Xi的对数的底也可以不是10,可以是任意的。
另外,分析部132也可以关于多个实际分析区间的各个,计算发声率。发声率是相对于对应的实际分析区间k的时间长度Ta_k的、在该实际分析区间中参加者的任一个进行发声的时间的合计时间Tb_k的比值。此外,在将实际分析区间k中的无发声时间的合计时间设为Tc_k时,Tb_k=Ta_k-Tc_k。而且,分析部132也可以使用该发声率,评价交流的状态。例如,分析部132也可以评价为发声率越大,则在该实际分析区间中讨论越热烈。
另外,分析部132也可以关于多个实际分析区间的各个,计算发声数。在图7的例子中,分析部132关于实际分析区间70-1,将发声数计算为3个,关于实际分析区间70-2,将发声数计算为3个,关于实际分析区间70-3,将发声数计算为4个。而且,分析部132也可以使用该发声数,评价交流的状态。例如,分析部132也可以评价为发声数越大,则在该实际分析区间中速度越快地进行讨论。
实施方式1的信息处理装置100构成为如上所述使用预先决定的时间长度的基准分析区间,以使多个实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定多个实际分析区间的边界。由此,抑制在参加者的发声的途中划分实际分析区间。因此,能够在实际分析区间中适合地取得参加者的发声长度,所以能够更适合地分析交流的状况。
另外,实施方式1的信息处理装置100如上所述关于分析对象的交流设定基准分析区间的边界。而且,信息处理装置100在设定的基准分析区间的边界包含于多个参加者的发声区间的至少1个的情况下,将与该基准分析区间的边界最接近的无发声时间中包含的时间点设定为实际分析区间的边界的时间点。由此,实际分析区间的长度更接近基准分析区间的长度。例如,在基准分析区间的长度是10分钟的情况下,能够使各实际分析区间的长度接近10分钟。因此,能够抑制多个实际分析区间的长度的偏差。
另外,实施方式1的信息处理装置100预先从交流的开始时间点至结束时间点为止,以与基准分析区间对应的间隔设定多个基准分析区间的边界。然后,信息处理装置100分别使用设定的多个基准分析区间的边界,以使多个实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定多个实际分析区间的边界。通过这样的结构,能够一下子设定多个实际分析区间的边界的时间点,所以能够简化处理。
此外,在图7的例子中,实际分析区间边界被设定为无发声时间的开始时间点或者结束时间点(即某个发声区间的结束时间点或者开始时间点),但不限定于此。实际分析区间边界也可以是包含于无发声时间的任意的时间点。另外,例如,实际分析区间边界也可以被设定为无发声时间中包含的时间点中的、使对应的实际分析区间的长度与基准分析区间的长度最接近的时间点。由此,设定的实际分析区间的长度更接近基准分析区间的长度。因此,能够进一步降低实际分析区间的长度的偏差。这在后述实施方式2中也是同样的。
(实施方式2)
接下来,说明实施方式2。在实施方式2中,设定实际分析区间的边界的方法与实施方式1不同。此外,关于实施方式2的信息处理***1的硬件结构,与图1所示的实施方式1的信息处理***1的硬件结构实质上相同,所以省略说明。另外,关于实施方式2的信息处理装置100的结构,与图2所示的结构实质上相同,所以省略说明。
此外,实施方式2的信息处理装置100(分析区间决定部120)从交流的开始时间点,依次进行:设定基准分析区间的边界,并根据设定的基准分析区间的各个边界和无发声时间设定实际分析区间的边界的时间点。即,实施方式2的分析区间决定部120从交流的开始时间点,依次进行:设定基准分析区间的边界,并使用设定的基准分析区间的边界,以使实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定实际分析区间的边界。
图8是示出由实施方式2的信息处理***1执行的信息处理方法的流程图。图8所示的流程图示出由信息处理装置100执行的分析方法(分析支援方法或者支援方法)。此外,在说明图8所示的流程图之后,使用图9~图14,说明使用发声推移图的具体例。
发声取得部112与S102的处理同样地取得多个参加者各自的发声(步骤S202)。发声判定部114与S104的处理同样地判定各参加者的发声区间(步骤S204)。由此,发声判定部114生成如图5例示的发声推移图。
接下来,分析区间决定部120在从交流的开始时间点经过与基准分析区间对应的时间之后,设定基准分析区间边界(步骤S206)。将该S206的处理称为第1工序。具体而言,基准分析区间设定部122在从交流的开始时间点经过基准分析区间的时间长度Ts之后,设定第1个基准分析区间边界的时间点。这样,基准分析区间设定部122执行第1工序。关于S206的处理,使用图9后述。
接下来,分析区间决定部120根据设定的基准分析区间边界和无发声时间,设定实际分析区间边界(步骤S208)。将该S208的处理称为第2工序。具体而言,实际分析区间设定部124使用设定的基准分析区间的边界,以使实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定实际分析区间的边界。更具体而言,实际分析区间设定部124在基准分析区间边界的时间点包含于发声区间的至少1个的情况下,将与最接近该基准分析区间边界的无发声时间对应的时间设定为实际分析区间边界的时间点。进一步换言之,实际分析区间设定部124在配置有基准分析区间边界的发声推移图中,基准分析区间边界包含于任一个参加者的发声区间的情况下,将与最接近该基准分析区间边界的无发声时间对应的时间点设定为实际分析区间边界的时间点。这样,实际分析区间设定部124执行第2工序。
在此,分析区间决定部120根据设定的第n个基准分析区间边界和无发声时间,设定第n个实际分析区间边界。此外,“n”是1以上的整数,表示从交流的开始时间点起的顺序。另外,实际分析区间设定部124在基准分析区间边界的时间点包含于无发声时间的情况下,将该基准分析区间边界的时间点设定为实际分析区间边界的时间点。关于S208的处理,使用图10、图12以及图14后述。
接下来,分析区间决定部120在从在S208的处理中设定的实际分析区间边界的时间点经过与基准分析区间对应的时间之后,设定基准分析区间边界(步骤S210)。将该S210的处理称为第3工序。具体而言,基准分析区间设定部122在从与第n个实际分析区间对应的第n个实际分析区间边界的时间点经过基准分析区间的时间长度Ts之后,设定第(n+1)个基准分析区间边界的时间点。这样,基准分析区间设定部122执行第3工序。关于S210的处理,使用图11以及图13后述。
接下来,分析区间决定部120判定与在S210的处理中设定的基准分析区间边界对应的时间点是否超过交流的结束时间点(步骤S212)。在与设定的基准分析区间边界对应的时间点未超过交流的结束时间点的情况下(S212的“否”),所有实际分析区间的边界的设定未结束,所以处理返回到S208。然后,分析区间决定部120反复执行S208的处理(第2工序)和S210的处理(第3工序)直至交流的结束时间点,从而分别设定多个实际分析区间的边界的时间点。
另一方面,在与设定的基准分析区间边界对应的时间点超过交流的结束时间点的情况下(S212的“是”),分析区间决定部120(实际分析区间设定部124)将交流的结束时间点设定为实际分析区间边界(步骤S214)。由此,所有实际分析区间的边界的设定结束。分析部132与S120的处理同样地,关于通过执行多次的S210的处理而设定的多个实际分析区间的各个,分析多个参加者的发声(步骤S220)。分析结果输出部134输出通过S220的处理得到的分析结果(步骤S222)。
图9~图14是用于说明实施方式2的信息处理方法的图。以下,使用图9~图14,与实施方式1同样地,说明关于参加者A、参加者B以及参加者C参加的交流进行分析的例子。
图9是用于说明实施方式2的S206的处理(第1工序)的图。基准分析区间设定部122在从交流的开始时间点ts0经过Ts分钟后,配置第1个基准分析区间边界ts1b(S206)。此外,如上所述,Ts是基准分析区间60的时间长度。另外,Ts1b能够与实施方式1的Ts1相同。
图10是用于说明实施方式2的S208的处理(第2工序)的图。图10例示设定第1个实际分析区间的方法。图10与如图9例示在发声推移图中配置有第1个基准分析区间边界ts1b的情况对应。在图10中,第1个基准分析区间边界ts1b包含于发声区间SpB#1。在该情况下,实际分析区间设定部124将与基准分析区间边界ts1b最接近的无发声时间即无发声时间Si_B1A2中包含的时间点设定为第1个实际分析区间边界ta1b的时间点。这样,实际分析区间设定部124设定从交流的开始时间点ts0至第1个实际分析区间边界ta1b为止的、时间长度Ta1b(分钟)的、第1个实际分析区间72-1。此外,Ta1b可能与实施方式1的Ta1相同。
图11是用于说明实施方式2的S210的处理(第3工序)的图。图11与如图10例示在发声推移图中配置有第1个实际分析区间边界ta1b的情况对应。基准分析区间设定部122在从第1个实际分析区间边界ta1b经过作为基准分析区间60的时间长度的Ts分钟后,配置第2个基准分析区间边界ts2b。此外,在图11的例子中,与基准分析区间边界ts2b对应的时间点未超过交流的结束时间点,所以处理进入到S208。
图12是用于说明实施方式2的S208的处理(第2工序)的图。图12例示设定第2个实际分析区间的方法。图12与如图11例示在发声推移图中配置有第2个基准分析区间边界ts2b的情况对应。在图12中,第2个基准分析区间边界ts2b包含于发声区间SpA#3。在该情况下,实际分析区间设定部124将与基准分析区间边界ts2b最接近的无发声时间即无发声时间Si_C2A3中包含的时间点设定为第2个实际分析区间边界ta2b的时间点。这样,实际分析区间设定部124设定从第1个实际分析区间边界ta1b至第2个实际分析区间边界ta2b为止的、时间长度Ta2b(分钟)的、第2个实际分析区间72-2。此外,在图12中,实际分析区间边界ta2b与发声区间SpA#3的开始时间点SpA#3s对应,所以Ta2b可能与实施方式1的Ta2不同。
图13是用于说明实施方式2的S210的处理(第3工序)的图。图13与如图12例示在发声推移图中配置有第2个实际分析区间边界ta2b的情况对应。基准分析区间设定部122在从第2个实际分析区间边界ta2b经过作为基准分析区间60的时间长度的Ts分钟后,配置第3个基准分析区间边界ts3b。此外,在图13的例子中,与基准分析区间边界ts3b对应的时间点未超过交流的结束时间点,所以处理进入到S208。
图14是用于说明实施方式2的S208的处理(第2工序)的图。图14例示设定第3个实际分析区间的方法。图14与如图13例示在发声推移图中配置有第3个基准分析区间边界ts3b的情况对应。在图14中,第3个基准分析区间边界ts3b未包含于任意一个发声区间,而包含于无发声时间Si_A4C4。在该情况下,实际分析区间设定部124将基准分析区间边界ts3b的时间点原样地设定为第3个实际分析区间边界ta3b的时间点。这样,实际分析区间设定部124设定从第2个实际分析区间边界ta2b至第3个实际分析区间边界ta3b为止的、时间长度Ta3b(分钟)的、第3个实际分析区间72-3。此外,Ta3b可能与实施方式1的Ta3不同。
实施方式2的信息处理装置100构成为从交流的开始时间点,依次进行:设定基准分析区间的边界,并使用设定的基准分析区间的边界,以使实际分析区间的边界的时间点成为与无发声时间对应的时间的方式,设定实际分析区间的边界。通过这样的结构,相比于实施方式1的方法,能够使实际分析区间的长度更接近基准分析区间的长度。
即,上述实施方式1的信息处理装置100构成为一下子设定多个基准分析区间边界。在使用通过这样的方法设定的基准分析区间边界来设定实际分析区间边界时,存在各实际分析区间的长度和基准分析区间的长度的差距变大的可能性。例如,在着眼于第n个实际分析区间边界时,在实施方式1中,第n个实际分析区间的长度不仅受到第n个基准分析区间边界和无发声时间的关系的影响,而且还受到第(n-1)个基准分析区间边界和无发声时间的关系的影响。因此,在实施方式1的情况下,存在各实际分析区间的长度和基准分析区间的长度的差距变大的可能性。
相对于此,实施方式2的信息处理装置100在从第n个实际分析区间边界起的基准分析区间的长度后,设定第(n+1)个基准分析区间边界的时间点。而且,实施方式2的信息处理装置100在与该设定的基准分析区间边界接近的无发声时间的时间点,设定第(n+1)个实际分析区间边界。由此,每当设定1个实际分析区间边界时,能够根据基准分析区间的长度进行该设定,所以能够减小各实际分析区间的长度和基准分析区间的长度的差距。例如,在着眼于第n个实际分析区间边界时,在实施方式2中,第n个实际分析区间的长度受到第n个基准分析区间边界和无发声时间的关系的影响。因此,在实施方式2的情况下,相比于实施方式1,能够抑制(减小)各实际分析区间的长度和基准分析区间的长度的差距。
另外,实施方式2的信息处理装置100构成为通过执行第1工序,执行第2工序,执行第3工序,并反复第2工序和第3工序,从而分别设定多个所述实际分析区间的边界的时间点。通过这样的结构,能够更可靠地执行依次设定多个实际分析区间的边界。
(变形例)
此外,本发明不限于上述实施方式,能够在不脱离要旨的范围内适当地变更。例如,在上述流程图中,多个处理的顺序可适当地变更。另外,在上述流程图中,也可以省略多个处理中的1个。例如,也可以省略图3的S120以及S122的处理。图8也是同样的。
另外,图2记载的各构成要素不限定于在物理上用1个装置实现。例如,分析部132以及分析结果输出部134也可以用其他装置实现。另外,图2记载的各构成要素也可以通过云计算实现。
另外,在上述实施方式中,用集音装置10收集发声并生成声压数据,根据该声压数据判定各参加者的发声区间,但不限于这样的结构。即,也可以不通过麦克风(传感器)检测发声。例如,也可以参加者自身或者其他作业者使用计数器等输入进行发声的时间。例如,也可以通过某个参加者在进行发声的定时按下计数器的发声开始按钮,并在发声结束的定时按下计数器的发声结束按钮,由此判定发声区间。即,在发声判定部114判定发声区间时,不限定于使用由集音装置10取得的发声数据。
另外,在上述例子中,程序能够使用各种类型的非临时性的计算机可读介质(non-transitory computer readable medium)保存并供给给计算机。非临时性的计算机可读介质包括各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读介质的例子包括磁记录介质(例如软盘、磁带、硬盘驱动器)、光磁记录介质(例如光磁盘)、CD-ROM、CD-R、CD-R/W、半导体存储器(例如掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM)。另外,程序也可以通过各种类型的临时性的计算机可读介质(transitory computer readable medium)提供给计算机。临时性的计算机可读介质的例子包括电信号、光信号以及电磁波。临时性的计算机可读介质能够经由电线以及光纤等有线通信路、或者无线通信路,将程序提供给计算机。
根据如此描述的公开内容,显而易见的是,本公开内容的实施例可以以多种方式变化。这样的变化不应被视为背离本公开内容的精神和范围,并且所有这样的修改对本领域技术人员而言都是显而易见的,意图包括在所附的权利要求的范围内。

Claims (3)

1.一种信息处理***,具有:
发声判定部,判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间;以及
分析区间决定部,使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界,
所述分析区间决定部从所述交流的开始时间点,依次进行:设定所述基准分析区间的边界,使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界,
所述分析区间决定部:
执行在从所述交流的开始时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第1工序,
执行使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界的第2工序,
执行在从设定的所述实际分析区间的边界的时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第3工序,
通过反复进行所述第2工序和所述第3工序,分别设定多个所述实际分析区间的边界的时间点。
2.一种信息处理方法,
判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间,
使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界,
其中,从所述交流的开始时间点,依次进行:设定所述基准分析区间的边界,使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界,
其中,
执行在从所述交流的开始时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第1工序,
执行使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界的第2工序,
执行在从设定的所述实际分析区间的边界的时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第3工序,
通过反复进行所述第2工序和所述第3工序,分别设定多个所述实际分析区间的边界的时间点。
3.一种保存有程序的计算机可读介质,该程序使计算机执行:
判定作为多个参加者参加的交流中的所述多个参加者各自的发声的时间序列上的区间的发声区间的步骤;以及
使用预先决定的时间长度的基准分析区间,以使作为用于实际进行所述交流的分析的时间区间的多个实际分析区间的边界的时间点成为与作为不属于所述多个参加者的任何所述发声区间的时间的无发声时间对应的时间的方式,设定多个所述实际分析区间的边界的步骤,
其中,从所述交流的开始时间点,依次进行:设定所述基准分析区间的边界,使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界,
其中,
执行在从所述交流的开始时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第1工序,
执行使用设定的所述基准分析区间的边界,以使所述实际分析区间的边界的时间点成为与所述无发声时间对应的时间的方式,设定所述实际分析区间的边界的第2工序,
执行在从设定的所述实际分析区间的边界的时间点经过与所述基准分析区间对应的时间之后,设定所述基准分析区间的边界的第3工序,
通过反复进行所述第2工序和所述第3工序,分别设定多个所述实际分析区间的边界的时间点。
CN202111351387.1A 2020-11-17 2021-11-16 信息处理***、信息处理方法以及程序 Active CN114509157B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020191039A JP7509008B2 (ja) 2020-11-17 2020-11-17 情報処理システム、情報処理方法及びプログラム
JP2020-191039 2020-11-17

Publications (2)

Publication Number Publication Date
CN114509157A CN114509157A (zh) 2022-05-17
CN114509157B true CN114509157B (zh) 2024-04-05

Family

ID=81547660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351387.1A Active CN114509157B (zh) 2020-11-17 2021-11-16 信息处理***、信息处理方法以及程序

Country Status (3)

Country Link
US (1) US20220157296A1 (zh)
JP (1) JP7509008B2 (zh)
CN (1) CN114509157B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1167308A (zh) * 1996-04-23 1997-12-10 菲利浦电子有限公司 从语言信号导出特征值的方法
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP2007215053A (ja) * 2006-02-10 2007-08-23 Fuji Xerox Co Ltd 議事録作成装置及び議事録作成方法。
JP2007256498A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
WO2010024426A1 (ja) * 2008-08-29 2010-03-04 ヤマハ株式会社 録音装置
JP2012113442A (ja) * 2010-11-22 2012-06-14 Ntt Comware Corp 会議分析システム及び会議分析方法並びにそのプログラム
JP2016012216A (ja) * 2014-06-27 2016-01-21 Kddi株式会社 会議分析装置、方法及びプログラム
JP2016046705A (ja) * 2014-08-25 2016-04-04 コニカミノルタ株式会社 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム
CN109274922A (zh) * 2018-11-19 2019-01-25 国网山东省电力公司信息通信公司 一种基于语音识别的视频会议控制***
CN109783642A (zh) * 2019-01-09 2019-05-21 上海极链网络科技有限公司 多人会议场景的结构化内容处理方法、装置、设备及介质
JP2020064300A (ja) * 2018-10-11 2020-04-23 株式会社エーアイ 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム
WO2020085323A1 (ja) * 2018-10-22 2020-04-30 ヤマハ株式会社 音声処理方法、音声処理装置及び音声処理プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2827932B2 (ja) * 1994-11-25 1998-11-25 日本電気株式会社 多地点テレビ会議における合成画面表示制御方式
JP4297602B2 (ja) * 2000-09-18 2009-07-15 パイオニア株式会社 音声認識システム
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2007318438A (ja) 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP5321687B2 (ja) * 2009-10-01 2013-10-23 富士通株式会社 音声通話装置
JP5791124B2 (ja) 2013-03-15 2015-10-07 Necソリューションイノベータ株式会社 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
JP2017010309A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 意思決定支援装置および意思決定支援方法
JP2019090917A (ja) 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP7047626B2 (ja) 2018-06-22 2022-04-05 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
CN110767236A (zh) 2018-07-10 2020-02-07 上海智臻智能网络科技股份有限公司 一种语音识别方法和装置
JP2020046399A (ja) * 2018-09-21 2020-03-26 トヨタ自動車株式会社 待ち合わせ支援装置および待ち合わせ支援方法
JP7279928B2 (ja) 2019-03-14 2023-05-23 ハイラブル株式会社 議論分析装置及び議論分析方法
JP7487457B2 (ja) * 2019-09-13 2024-05-21 コニカミノルタ株式会社 会議支援システム、会議支援装置、および会議支援プログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1167308A (zh) * 1996-04-23 1997-12-10 菲利浦电子有限公司 从语言信号导出特征值的方法
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP2007215053A (ja) * 2006-02-10 2007-08-23 Fuji Xerox Co Ltd 議事録作成装置及び議事録作成方法。
JP2007256498A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
WO2010024426A1 (ja) * 2008-08-29 2010-03-04 ヤマハ株式会社 録音装置
JP2012113442A (ja) * 2010-11-22 2012-06-14 Ntt Comware Corp 会議分析システム及び会議分析方法並びにそのプログラム
JP2016012216A (ja) * 2014-06-27 2016-01-21 Kddi株式会社 会議分析装置、方法及びプログラム
JP2016046705A (ja) * 2014-08-25 2016-04-04 コニカミノルタ株式会社 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム
JP2020064300A (ja) * 2018-10-11 2020-04-23 株式会社エーアイ 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム
WO2020085323A1 (ja) * 2018-10-22 2020-04-30 ヤマハ株式会社 音声処理方法、音声処理装置及び音声処理プログラム
CN109274922A (zh) * 2018-11-19 2019-01-25 国网山东省电力公司信息通信公司 一种基于语音识别的视频会议控制***
CN109783642A (zh) * 2019-01-09 2019-05-21 上海极链网络科技有限公司 多人会议场景的结构化内容处理方法、装置、设备及介质

Also Published As

Publication number Publication date
JP2022080074A (ja) 2022-05-27
US20220157296A1 (en) 2022-05-19
CN114509157A (zh) 2022-05-17
JP7509008B2 (ja) 2024-07-02

Similar Documents

Publication Publication Date Title
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US10388279B2 (en) Voice interaction apparatus and voice interaction method
JP6755304B2 (ja) 情報処理装置
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP5299436B2 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US10573307B2 (en) Voice interaction apparatus and voice interaction method
CN108320733A (zh) 语音数据处理方法及装置、存储介质、电子设备
CN105118522B (zh) 噪声检测方法及装置
JP2007004001A (ja) オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
KR102217917B1 (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN109994126A (zh) 音频消息分段方法、装置、存储介质和电子设备
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
CN114509157B (zh) 信息处理***、信息处理方法以及程序
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
CN112802498A (zh) 语音检测方法、装置、计算机设备和存储介质
JP2005189518A (ja) 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
Tuasikal et al. Voice activation using speaker recognition for controlling humanoid robot
CN104318931B (zh) 一种音频文件的情绪活跃度获取方法及分类方法、装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
CN108573712B (zh) 语音活性检测模型生成方法、***及语音活性检测方法、***
CN103390404A (zh) 信息处理装置、信息处理方法和信息处理程序
CN111354358B (zh) 控制方法、语音交互装置、语音识别服务器、存储介质和控制***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant