JP2021139953A - Audio conference support device, program, audio conference support method, and audio conference support system - Google Patents
Audio conference support device, program, audio conference support method, and audio conference support system Download PDFInfo
- Publication number
- JP2021139953A JP2021139953A JP2020035136A JP2020035136A JP2021139953A JP 2021139953 A JP2021139953 A JP 2021139953A JP 2020035136 A JP2020035136 A JP 2020035136A JP 2020035136 A JP2020035136 A JP 2020035136A JP 2021139953 A JP2021139953 A JP 2021139953A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- voice conference
- terminals
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000007726 management method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、音声会議支援装置、プログラム、音声会議支援方法、および音声会議支援システムに関する。 The present invention relates to a voice conference support device, a program, a voice conference support method, and a voice conference support system.
近年、PC(Personal Computer)およびネットワークの性能が向上していることに伴い、ビジネスでの連絡手段の1つであったEメールおよび内線電話などが、個々のPC上で利用されるコミニケションツールおよびグループウェアのようなソフトウェア、またはWebサービスなどに置き換えられつつある。また、音声会議を行うための手段も、専用の装置からソフトウェアまたはWebサービスなどに変わりつつある。 In recent years, as the performance of PCs (Personal Computers) and networks has improved, e-mail and extension telephones, which were one of the means of communication in business, are used as communication tools on individual PCs. And it is being replaced by software such as groupware, or Web services. Further, the means for conducting a voice conference is also changing from a dedicated device to software or a Web service.
一方で、AI技術の急速な発達により音声認識の技術向上が飛躍したことから、音声会議の議事録を会議音声に基づいて自動生成する技術も現れている。例えば、特許文献1には、複数の出席者の各々が利用する音声会議端末と議事録作成装置をネットワークで結んだ音声会議システムを構築し、リアルタイムな議事録を生成する技術が開示されている。 On the other hand, with the rapid development of AI technology, the improvement of voice recognition technology has made great strides, and therefore, a technology for automatically generating the minutes of a voice conference based on the conference voice has also appeared. For example, Patent Document 1 discloses a technique for constructing a voice conference system in which a voice conference terminal used by each of a plurality of attendees and a minutes creation device are connected by a network to generate minutes in real time. ..
議事録作成装置が同一会議に参加する出席者の発言を1の議事録にまとめる場合、議事録作成装置は、同一会議に参加する出席者の音声会議端末の組み合わせを把握し、グルーピングする必要がある。特に、議事録作成装置と音声会議のためのシステムとが別々に構成される場合、議事録作成装置および音声会議のためのシステムの各々において、同一会議に参加する出席者の音声会議端末をグルーピングすることになる。 When the minutes preparation device summarizes the remarks of the attendees who participate in the same meeting into one minutes, the minutes preparation device needs to grasp and group the combinations of the voice conference terminals of the attendees who participate in the same meeting. be. In particular, when the minutes preparation device and the system for the voice conference are separately configured, the voice conference terminals of the attendees who participate in the same conference are grouped in each of the minutes preparation device and the system for the voice conference. Will be done.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、議事録作成のためのグルーピングの手間を軽減することが可能な、新規かつ改良された音声会議支援装置、プログラム、音声会議支援方法、および音声会議支援システムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is a new and improved voice conference capable of reducing the time and effort of grouping for creating minutes. The purpose is to provide assistive devices, programs, audio conferencing support methods, and audio conferencing support systems.
上記課題を解決するために、本発明のある観点によれば、複数の音声会議端末から信号を受信する受信部と、前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、音声会議端末から受信された音声信号を認識する音声認識部と、同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、を備える、音声会議支援装置が提供される。 In order to solve the above problems, according to a certain viewpoint of the present invention, a receiving unit that receives signals from a plurality of audio conferencing terminals and a signal received from each of the plurality of audio conferencing terminals by the receiving unit are predetermined. A group consisting of an identification unit that identifies whether or not the signal is a signal, and a voice conference terminal that is the source of each of the plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit. The group management unit to be formed, the voice recognition unit that recognizes the voice signal received from the voice conference terminal, and the character string indicating the recognition result of the voice signal received from two or more voice conference terminals belonging to the same group. A voice conference support device including a transmission unit for transmitting to the two or more voice conference terminals is provided.
前記受信部は、前記音声会議端末から第1の信号および第2の信号を受信し、前記第1の信号は、前記音声会議端末から他の音声会議端末に送信される信号であり、前記第2の信号は、前記音声会議端末が前記他の音声会議端末から受信した信号であってもよい。 The receiving unit receives the first signal and the second signal from the voice conference terminal, and the first signal is a signal transmitted from the voice conference terminal to another voice conference terminal, and the first signal. The signal of 2 may be a signal received by the voice conference terminal from the other voice conference terminal.
前記第1の信号は、前記音声会議端末の利用者が発した音声を示す音声信号であり、前記第2の信号は、前記他の音声会議端末の利用者が発した音声を示す音声信号であってもよい。 The first signal is a voice signal indicating a voice emitted by a user of the voice conference terminal, and the second signal is a voice signal indicating a voice emitted by a user of the other voice conference terminal. There may be.
前記所定の信号は、第1のキーワードを含む音声を示す音声信号であってもよい。 The predetermined signal may be an audio signal indicating an audio including the first keyword.
前記識別部は、前記複数の音声会議端末の各々から受信された信号が示す音声を発した利用者をさらに識別し、前記グループ管理部は、前記識別部により所定の時間差内で前記所定の信号であると識別され、かつ、音声を発した利用者が同一であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成してもよい。 The identification unit further identifies the user who has emitted the sound indicated by the signal received from each of the plurality of voice conference terminals, and the group management unit further identifies the user who has emitted the sound indicated by the signal received from each of the plurality of voice conference terminals, and the group management unit has the predetermined signal within a predetermined time difference by the identification unit. A group consisting of voice conferencing terminals that are the sources of each of the plurality of signals identified as being the same and that the user who emitted the voice is the same may be formed.
前記送信部は、前記グループが形成された後に、当該グループに属する前記2以上の音声会議端末に、前記第2の信号の送信の停止を指示する制御信号を送信してもよい。 After the group is formed, the transmission unit may transmit a control signal instructing to stop the transmission of the second signal to the two or more voice conferencing terminals belonging to the group.
前記識別部は、前記受信部により前記複数の音声会議端末の各々から受信された音声信号が第2のキーワードを含む音声を示すか否かを識別し、前記グループ管理部は、前記グループに属するいずれかの音声会議端末から受信された音声信号が前記第2のキーワードを含む音声を示すことが前記識別部により識別された場合、前記グループを解除してもよい。 The identification unit identifies whether or not the audio signal received from each of the plurality of audio conferencing terminals by the receiving unit indicates audio including the second keyword, and the group management unit belongs to the group. When the identification unit identifies that the audio signal received from any of the audio conferencing terminals indicates the audio including the second keyword, the group may be released.
前記送信部は、前記グループが解除された場合、前記グループに属していた前記2以上の音声会議端末に、前記第2の信号の送信の開始を指示する制御信号を送信してもよい。 When the group is released, the transmission unit may transmit a control signal instructing the start of transmission of the second signal to the two or more voice conferencing terminals belonging to the group.
前記所定の信号は、前記音声会議端末に事前に記録されており、前記音声会議端末への利用者による操作により読み出された信号であってもよい。 The predetermined signal may be a signal that has been recorded in advance in the voice conference terminal and read out by a user's operation on the voice conference terminal.
前記所定の信号は、音声信号または非可聴領域の成分からなる信号であってもよい。 The predetermined signal may be an audio signal or a signal composed of components in the inaudible region.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、複数の音声会議端末から信号を受信する受信部と、前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、音声会議端末から受信された音声信号を認識する音声認識部と、同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、として機能させるための、プログラムが提供される。 Further, in order to solve the above problems, according to another viewpoint of the present invention, the computer is connected to a receiving unit that receives signals from a plurality of voice conferencing terminals and from each of the plurality of voice conferencing terminals by the receiving unit. An identification unit that identifies whether or not the received signal is a predetermined signal, and a voice that is a source of each of a plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit. A group management unit that forms a group consisting of conference terminals, a voice recognition unit that recognizes voice signals received from voice conference terminals, and a recognition result of voice signals received from two or more voice conference terminals belonging to the same group. A program is provided for functioning as a transmission unit that transmits the character string indicating the above to the two or more voice conference terminals.
また、上記課題を解決するために、本発明の別の観点によれば、複数の音声会議端末から信号を受信することと、前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別することと、所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成することと、音声会議端末から受信された音声信号を認識することと、同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信することと、を含む、音声会議支援方法が提供される。 Further, in order to solve the above problems, according to another viewpoint of the present invention, it is possible to receive a signal from a plurality of voice conference terminals, and a signal received from each of the plurality of voice conference terminals is a predetermined signal. To form a group consisting of voice conference terminals that are the sources of each of the plurality of signals identified as the predetermined signals within a predetermined time difference, and to form a voice conference. Recognizing the voice signal received from the terminal and transmitting a character string indicating the recognition result of the voice signal received from two or more voice conference terminals belonging to the same group to the two or more voice conference terminals. And, including, voice conference support methods are provided.
また、上記課題を解決するために、本発明の別の観点によれば、複数の音声会議端末および音声会議支援装置を有する音声会議支援システムであって、前記複数の音声会議端末の各々は、前記音声会議支援装置に信号を送信し、前記音声会議支援装置は、複数の音声会議端末から信号を受信する受信部と、前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、音声会議端末から受信された音声信号を認識する音声認識部と、同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、を備える、音声会議支援システムが提供される。 Further, in order to solve the above problems, according to another viewpoint of the present invention, a voice conference support system having a plurality of voice conference terminals and a voice conference support device, and each of the plurality of voice conference terminals is The voice conference support device transmits a signal to the voice conference support device, and the voice conference support device has a receiving unit that receives signals from a plurality of voice conference terminals and signals received from each of the plurality of voice conference terminals by the receiving unit. A group consisting of an identification unit that identifies whether or not the signal is a predetermined signal, and a voice conference terminal that is the source of each of the plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit. A character string indicating the recognition result of the voice signal received from the group management unit, the voice recognition unit that recognizes the voice signal received from the voice conference terminal, and two or more voice conference terminals belonging to the same group. , A voice conference support system including a transmission unit for transmitting to the two or more voice conference terminals is provided.
以上説明した本発明によれば、議事録作成のためのグルーピングの手間を軽減することが可能である。 According to the present invention described above, it is possible to reduce the time and effort of grouping for creating minutes.
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Embodiments of the present invention will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じて音声会議端末20A、20Bおよび20Cのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、音声会議端末20A、20Bおよび20Cを特に区別する必要が無い場合には、各音声会議端末を単に音声会議端末20と称する。
Further, in the present specification and the drawings, a plurality of components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numerals. For example, a plurality of configurations having substantially the same functional configuration or logical meaning are distinguished as necessary, such as
<1.音声会議支援システムの概要>
本発明の一実施形態は、遠隔する拠点から複数の利用者が参加する音声会議を支援する音声会議支援システムに関する。まず、図1を参照し、本発明の一実施形態による音声会議支援システムの概要を説明する。
<1. Overview of voice conference support system>
One embodiment of the present invention relates to a voice conference support system that supports a voice conference in which a plurality of users participate from a remote base. First, with reference to FIG. 1, an outline of a voice conference support system according to an embodiment of the present invention will be described.
図1は、本発明の一実施形態による音声会議支援システムの構成を示す説明図である。図1に示したように、本発明の一実施形態による音声会議支援システムは、音声会議端末20A〜20Cおよび議事録作成サーバ30を有する。
FIG. 1 is an explanatory diagram showing a configuration of a voice conference support system according to an embodiment of the present invention. As shown in FIG. 1, the voice conference support system according to the embodiment of the present invention includes
これら音声会議端末20A〜20Cおよび議事録作成サーバ30はネットワーク12を介して接続されている。ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
These
(音声会議端末)
音声会議端末20は、音声会議端末20の利用者が発した音声を示す音声信号を他の音声会議端末20に送信する。また、音声会議端末20は、他の音声会議端末20の利用者が発した音声を示す音声信号を他の音声会議端末20から受信し、当該音声信号に基づいて他の音声会議端末20の利用者が発した音声を出力する。
(Voice conference terminal)
The
例えば、図1に示した例では、利用者UAが発した音声を示す音声信号を音声会議端末20Aが音声会議端末20Bに送信し、音声会議端末20Bが当該音声信号に基づいて利用者UAが発した音声を出力する。また、利用者UBが発した音声を示す音声信号を音声会議端末20Bが音声会議端末20Aに送信し、音声会議端末20Aが当該音声信号に基づいて利用者UBが発した音声を出力する。かかる構成により、利用者UAおよび利用者UBが音声会議を行うことが可能である。
For example, in the example shown in FIG. 1, the
また、本発明の一実施形態による音声会議端末20は、音声会議の議事録を表示する機能も有する。具体的には、音声会議端末20は、音声会議端末20の利用者が発した音声を示す音声信号を議事録作成サーバ30にも送信する。そして、音声会議端末20は、議事録作成サーバ30に送信された音声信号の認識結果として文字列を議事録作成サーバ30から受信し、当該文字列を議事録に追加していく。
Further, the
なお、音声会議端末20は、音声信号に加えて、映像信号を他の音声会議端末20と送受信してもよい。また、図1においては音声会議端末20の一例としてノート型のPC(Personal Computer)を示しているが、音声会議端末20は、デスクトップ型のPC、スマートフォン、携帯電話またはPHS(Personal Handyphone System)などの他の情報処理装置であってもよい。
The
(議事録作成サーバ)
議事録作成サーバ30は、音声会議支援装置の一例であり、音声会議の内容を示す議事録を作成することにより音声会議を支援する。例えば、音声会議端末20Aおよび音声会議端末20Bを介して利用者UAおよび利用者UBが音声会議を行う場合、議事録作成サーバ30は、音声会議端末20Aおよび音声会議端末20Bから音声信号を受信し、これら音声信号を認識する。そして、議事録作成サーバ30は、利用者UAの発言を示す文字列および利用者UBの発言を示す文字列が時系列に沿って並べられた議事録をリアルタイムで作成し、議事録を構成する文字列を音声会議端末20Aおよび音声会議端末20Bに送信する。
(Minutes creation server)
The
(背景)
ここで、図2に示す比較例による音声会議システムを参照しながら、本発明の一実施形態が創作されるに至った背景を説明する。
(background)
Here, with reference to the audio conferencing system according to the comparative example shown in FIG. 2, the background leading to the creation of the embodiment of the present invention will be described.
図2は、比較例による音声会議システムを示す説明図である。図2に示したように、比較例による音声会議システムは、ネットワーク12を介して互いに接続された端末C1〜C6およびサーバDを有する。サーバDは、音声会議に参加している複数の端末から受信した音声信号を認識して1つの議事録を作成するので、サーバDは、どの端末が同システムの音声会議に参加しているかを識別する必要がある。
FIG. 2 is an explanatory diagram showing a voice conferencing system according to a comparative example. As shown in FIG. 2, the voice conferencing system according to the comparative example has terminals C1 to C6 and a server D connected to each other via the
例えば、図2に示した例では、端末C1、C2およびC5が同じ音声会議に参加するグループG1であり、端末C4およびC6が他の音声会議に参加するグループG2であり、端末C3はいずれの音声会議にも参加していない。このように、同一時刻に複数の音声会議が開催される場合においては、音声会議の数と同じ数の会議システムが必要となるという課題がある。また、企業等で既に音声会議システムを導入していた場合、議事録の自動生成の実現のために、議事録の作成機能を有する専用の音声会議システムを新たに導入するコストが発生する。また、場合によってはシステムの更改を行うためのコストも生じる。 For example, in the example shown in FIG. 2, terminals C1, C2 and C5 are group G1 participating in the same audio conference, terminals C4 and C6 are group G2 participating in another audio conference, and terminal C3 is any of them. I haven't even participated in a voice conference. As described above, when a plurality of voice conferences are held at the same time, there is a problem that the same number of conference systems as the number of voice conferences is required. In addition, if a company or the like has already introduced a voice conference system, there will be a cost of newly introducing a dedicated voice conference system having a minutes creation function in order to realize automatic generation of minutes. In some cases, there is a cost for updating the system.
一方、既存の音声会議システムと併用可能な議事録作成システムであれば、導入コストを削減できる。本発明の一実施形態による音声会議支援システムは、このように既存の音声会議システムと併用可能なシステムである。図3を参照して、本発明の一実施形態による音声会議支援システムの基本構成を説明する。 On the other hand, if the minutes creation system can be used together with the existing voice conference system, the introduction cost can be reduced. The voice conference support system according to the embodiment of the present invention is a system that can be used in combination with the existing voice conference system in this way. A basic configuration of a voice conference support system according to an embodiment of the present invention will be described with reference to FIG.
図3は、本発明の一実施形態による音声会議支援システムの基本構成を示す説明図である。各音声会議端末20は、ユーザIF部220、通話アプリケーション230および議事録アプリケーション240を有する。
FIG. 3 is an explanatory diagram showing a basic configuration of a voice conference support system according to an embodiment of the present invention. Each
ユーザIF部220は、マイクのような音声入力部、スピーカのような音声出力部、および表示部などを含む。通話アプリケーション230は音声会議のためのアプリケーションであり、議事録アプリケーション240は議事録作成のために通話アプリケーション230と共存するアプリケーションである。
The user IF
議事録アプリケーション240は、ユーザIF部220に含まれるマイクを通話アプリケーション230と共有しており、通話アプリケーション230で音声会議を行っている間の音声信号をマイクから取得することが可能である。また、議事録アプリケーション240は、当該音声信号を議事録作成サーバ30に送信し、議事録作成サーバ30における当該音声信号の認識結果を議事録作成サーバ30から受信し、認識結果をユーザIF部220に表示させることが可能である。
The
図3に示した例では、音声会議端末20Aと音声会議端末20Cの間で音声会議が行われており、音声会議端末20Bと音声会議端末20Dとの間で他の音声会議が行われている。実際、このように複数の音声会議が並行して行われる場合があり、この場合、議事録作成サーバ30は同グループに属する音声会議端末20の組み合わせを識別する必要がある。
In the example shown in FIG. 3, a voice conference is held between the
例えば、各利用者が通話アプリケーション230で音声会議のグルーピングのための操作を行う際に、各利用者が議事録アプリケーション240でも同様に議事録作成サーバ30におけるグルーピングのための操作を行うことにより、議事録作成サーバ30が音声会議端末20を適切にグルーピングし得る。しかし、各利用者が音声会議のグルーピングのための操作とは別に議事録作成サーバ30におけるグルーピングのための操作を行うことは煩雑である。
For example, when each user performs an operation for grouping voice conferences in the
本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態によれば、議事録作成のためのグルーピングの手間を軽減することが可能である。以下、本発明の一実施形態による音声会議端末20および議事録作成サーバ30の構成、および本発明の一実施形態の動作を順次詳細に説明する。
The present inventor has come to create an embodiment of the present invention with the above circumstances as the first point of view. According to one embodiment of the present invention, it is possible to reduce the time and effort of grouping for creating minutes. Hereinafter, the configuration of the
<2.音声会議端末の構成>
図4は、本発明の一実施形態による音声会議端末20の構成を示す説明図である。図4に示したように、本発明の一実施形態による音声会議端末20は、ユーザIF部220、通話アプリケーション230および議事録アプリケーション240を有する。ユーザIF部220は、第1音声入力部222、表示部224、操作部226および音声出力部228を有する。議事録アプリケーション240は、第2音声入力部242、端末送信部244、端末受信部246および制御部248を有する。
<2. Configuration of voice conference terminal>
FIG. 4 is an explanatory diagram showing a configuration of a
(第1音声入力部)
第1音声入力部222は、音声会議端末20の利用者が発した音声が入力される構成である。第1音声入力部222は、音声会議端末20の利用者が発した音声を電気的な音声信号に変換し、当該音声信号を通話アプリケーション230および端末送信部244に出力する。第1音声入力部222が出力する音声信号は第1の信号の一例であり、本明細書においては第1音声入力部222が出力する音声信号を第1音声信号と称する場合がある。
(1st voice input section)
The first
(表示部)
表示部224は、多様な表示画面を表示する。特に、本発明の一実施形態による表示部224は、議事録作成サーバ30により生成されて端末受信部246により受信された議事録を表示する。
(Display part)
The
(操作部)
操作部226は、音声会議端末20の利用者が音声会議端末20に情報または指示などを入力するために操作する構成である。音声会議端末20の利用者は、操作部226を操作することにより、例えば、表示部224に表示された議事録を訂正すること、または音声会議の終了指示を入力することなどが可能である。
(Operation unit)
The
(音声出力部)
音声出力部228は、通話アプリケーション230により他の音声会議端末20から受信された音声信号を空気的な振動である音声に変換して出力する。通話アプリケーション230により受信される音声信号は第2の信号の一例であり、本明細書においては通話アプリケーション230により受信されてユーザIF部220に入力される音声信号を第2音声信号と称する場合がある。
(Audio output section)
The
(通話アプリケーション)
通話アプリケーション230は、第1音声入力部222から入力される第1音声信号を同じ音声会議に参加する他の音声会議端末20に送信する。また、通話アプリケーション230は、同じ音声会議に参加する他の音声会議端末20から第2音声信号を受信し、当該第2音声信号を音声出力部228に出力する。
(Call application)
The
(第2音声入力部)
第2音声入力部242には、音声出力部228から第2音声信号がループバックにより入力される。例えば、第2音声信号は、音声出力部228が有する外部出力端子からのケーブル接続を介して第2音声入力部242に入力されてもよいし、音声会議端末20のOSのドライバレベルでのループバックデバイスの機能により第2音声入力部242に入力されてもよい。第2音声入力部242は、入力された第2音声信号を端末送信部244に出力する。
(2nd voice input section)
A second audio signal is input from the
(端末送信部)
端末送信部244は、第1音声入力部222から入力される第1音声信号、および第2音声入力部242から入力される第2音声信号を議事録作成サーバ30にネットワーク12を介して送信する。このため、通話アプリケーション230から他の音声会議端末20に送信された第1音声信号は議事録作成サーバ30にも送信される。さらに、当該第1音声信号は他の音声会議端末20において出力された第2音声信号として他の音声会議端末20から議事録作成サーバ30に送信される。従って、議事録作成サーバ30は、同一の音声を示す第1音声信号と第2音声信号を、異なる音声会議端末20から略同時刻に受信する。なお、端末送信部244は、後述する第2音声信号の送信停止指示に基づいて第2音声信号の送信を停止し、第2音声信号の送信開始指示に基づいて第2音声信号の送信を再開する。
(Terminal transmitter)
The
(端末受信部)
端末受信部246は、議事録作成サーバ30における音声信号の認識結果を受信し、当該認識結果を制御部248に出力する。音声信号の認識結果は、音声の内容を示す文字列を含む。また、音声信号の認識結果は、音声信号が取得された時刻を示す情報、および、音声信号が示す音声を発した利用者を示す識別情報を含んでもよい。その他、端末受信部246は、議事録作成サーバ30から議事録アプリケーション240の動作に関する制御信号を受信する。
(Terminal receiver)
The
(制御部)
制御部248は、音声会議端末20の動作全般を制御する。例えば、制御部248は、端末受信部246により受信された音声信号の認識結果に基づき、音声の内容を示す文字列を時系列に整列して議事録を生成し、当該議事録を表示部224に表示させる。
(Control unit)
The
<3.議事録作成サーバの構成>
以上、本発明の一実施形態による音声会議端末20の構成を説明した。続いて、図5を参照し、本発明の一実施形態による議事録作成サーバ30の構成を説明する。
<3. Minutes creation server configuration>
The configuration of the
図5は、本発明の一実施形態による議事録作成サーバ30の構成を示す説明図である。図5に示したように、本発明の一実施形態による議事録作成サーバ30は、サーバ受信部310、音声認識部320、識別部330、グループ管理部340、サーバ送信部350および制御部360を有する。
FIG. 5 is an explanatory diagram showing the configuration of the
(サーバ受信部)
サーバ受信部310は、複数の音声会議端末20から信号を受信する受信部である。例えば、サーバ受信部310は、複数の音声会議端末20から第1音声信号および第2音声信号を受信する。
(Server receiver)
The
(音声認識部)
音声認識部320は、サーバ受信部310により受信された第1音声信号および第2音声信号を認識し、第1音声信号の認識結果および第2音声信号の認識結果を識別部330およびサーバ送信部350に出力する。
(Voice recognition unit)
The
(識別部)
識別部330は、サーバ受信部310により複数の音声会議端末20の各々から受信された信号が所定の信号であるか否かを識別する。具体的には、識別部330は、特定のキーワードを保持しており、複数の音声会議端末20の各々から受信された音声信号がキーワードを示す音声を含む信号であるか否かを識別する。すなわち、識別部330は、音声認識部320で得られた文字列がキーワードを含むか否かを識別する。キーワードは、議事録の開始を意味する「会議を始めます」のような開始キーワード(第1のキーワード)、および議事録の終了を意味する「会議を終わります」のような終了キーワード(第2のキーワード)を含んでもよい。
(Identification section)
The
(グループ管理部)
グループ管理部340は、議事録作成サーバ30に接続されている複数の音声会議端末20のうちで、同一の音声会議に参加している2以上の音声会議端末20の組み合わせを推定し、当該2以上の音声会議端末20の組み合わせからなるグループを形成する。具体的には、グループ管理部340は、識別部330により所定の時間差内で所定の信号であると識別された複数の音声信号の送信元である2以上の音声会議端末20からなるグループを形成する。
(Group management department)
The
この点について補足すると、ある音声会議端末20の利用者が開始キーワードを含む音声を発すると、当該音声会議端末20が第1音声信号として当該音声を示す音声信号を議事録作成サーバ30に送信し、当該音声会議端末20と同じ音声会議に参加する他の音声会議端末20が第2音声信号として同音声を示す音声信号を議事録作成サーバ30に送信する。すなわち、同じ音声会議に参加する2以上の音声会議端末20からは、略同時刻に開始キーワードを含む音声信号が受信されると考えられる。
To supplement this point, when a user of a certain
従って、グループ管理部340は、識別部330により所定の時間差内に開始キーワードを含む音声であると識別された複数の音声信号の送信元である2以上の音声会議端末20からなるグループを形成することにより、同じ音声会議に参加する2以上の音声会議端末20をグルーピングすることが可能である。所定の時間差は、ネットワーク遅延および音声会議端末20内での処理遅延を考慮した時間差であることが望ましく、例えば1秒〜5秒の間の時間差であってもよい。
Therefore, the
なお、グループ管理部340は、いずれかの音声会議端末20から受信された音声信号について識別部330により終了キーワードを含む音声であると識別された場合、当該音声会議端末20が属する2以上の音声会議端末20からなるグループを解除する。
When the
(サーバ送信部)
サーバ送信部350は、同一のグループに属する2以上の音声会議端末20から受信された音声信号の認識結果を、当該グループに属する2以上の音声会議端末20に送信する送信部である。また、サーバ送信部350は、グループ管理部340によりグループが形成されると、当該グループに属する2以上の音声会議端末20に第2音声信号の送信の停止を指示する制御信号である送信停止指示を送信する。第2音声信号はグループ形成のために用いられるところ、グループの形成後には第2音声信号が議事録作成サーバ30に送信されなくてよくなるためである。一方、第1音声信号の議事録作成サーバ30への送信は議事録の作成のために継続される。
(Server transmitter)
The
また、サーバ送信部350は、グループ管理部340によりグループが解除されると、次のグループの形成に備えるために、当該グループに属していた2以上の音声会議端末20に第2音声信号の送信の開始を指示する制御信号である送信開始指示を送信する。
Further, when the group is released by the
(制御部)
制御部360は、議事録作成サーバ30の動作全般を制御する。例えば、制御部360は、サーバ送信部350からの認識結果の送信、送信停止指示の送信、および送信開始指示の送信などを制御する。
(Control unit)
The
<4.音声会議支援システムの動作>
以上、本発明の一実施形態による音声会議端末20および議事録作成サーバ30の構成を説明した。続いて、図6〜図9を参照し、本発明の一実施形態による音声会議支援システムの動作を整理する。
<4. Operation of voice conference support system>
The configuration of the
(起動)
図6は、音声会議端末20の起動時の動作を示す説明図である。まず、音声会議端末20Aが通話アプリケーション230および議事録アプリケーション240を起動すると(S10)、音声会議端末20Aの議事録アプリケーション240が通話アプリケーション230と音声入力を共有し(S11)、音声会議端末20Aの端末送信部244が第1音声信号および第2音声信号の送信を開始する(S12、S13)。
(Start-up)
FIG. 6 is an explanatory diagram showing an operation at the time of starting the
同様に、音声会議端末20Bが通話アプリケーション230および議事録アプリケーション240を起動すると(S14)、音声会議端末20Bの議事録アプリケーション240が通話アプリケーション230と音声入力を共有し(S15)、音声会議端末20Bの端末送信部244が第1音声信号および第2音声信号の送信を開始する(S16、S17)。
Similarly, when the
さらに、音声会議端末20Cが通話アプリケーション230および議事録アプリケーション240を起動すると(S18)、音声会議端末20Cの議事録アプリケーション240が通話アプリケーション230と音声入力を共有し(S19)、音声会議端末20Cの端末送信部244が第1音声信号および第2音声信号の送信を開始する(S20、S21)。なお、アプリケーション間の起動順序、および複数の音声会議端末20間でのアプリケーションの起動順序は、上述した順序である必要は無く、特に限定されない。
Further, when the
その後、音声会議端末20Aの通話アプリケーション230が音声会議端末20Bに音声会議の実施を要求し(S22)、音声会議端末20Bの通話アプリケーション230が当該要求を承認し(S23)、音声会議のセッションが成立する。以降、音声会議端末20Aおよび音声会議端末20Bの間で音声会議が行われ、当該音声会議に音声会議端末20Cは参加しない。
After that, the
(議事録作成サーバ側でのグルーピング)
図7は、音声会議のセッションが成立した後に議事録作成サーバ30が複数の音声会議端末20をグルーピングする動作を示す説明図である。音声会議端末20Aの利用者が音声を発すると、図7に示したように、音声会議端末20Aの通話アプリケーション230が当該音声を示す音声信号を音声会議端末20Bに送信し(S31)、音声会議端末20Bの音声出力部228が当該音声信号を出力する(S32)。
(Grouping on the minutes creation server side)
FIG. 7 is an explanatory diagram showing an operation in which the
ここで、音声会議端末20Aの端末送信部244は、音声会議端末20Bに送信された音声信号を第1音声信号として議事録作成サーバ30に送信し(S33)、議事録作成サーバ30において当該第1音声信号の音声認識が行われる(S34)。また、音声会議端末20Bの端末送信部244は、音声出力部228により出力された音声信号を第2音声信号として議事録作成サーバ30に送信し(S35)、議事録作成サーバ30において当該第2音声信号の音声認識が行われる(S36)。
Here, the
議事録作成サーバ30により音声認識された第1音声信号および第2音声信号が「会議を始めます」のような特定の開始キーワードを含む音声を示し、議事録作成サーバ30のサーバ受信部310が所定の時間差内で当該第1音声信号および第2音声信号を受信した場合、フレームF1に示す処理が行われる。
The first voice signal and the second voice signal voice-recognized by the
具体的には、議事録作成サーバ30のグループ管理部340が、第1音声信号の送信元である音声会議端末20A、および第2音声信号の送信元である音声会議端末20Bをグルーピングする(S37)。そして、議事録作成サーバ30のサーバ送信部350が、グルーピングされた音声会議端末20Aおよび音声会議端末20Bに第2音声信号の送信停止指示を送信する(S38、S39)。
Specifically, the
また、議事録作成サーバ30のサーバ送信部350は、第1音声信号の認識結果を同一グループに属する音声会議端末20Aおよび音声会議端末20Bに送信し(S40、S42)、音声会議端末20Aおよび音声会議端末20Bは第1音声信号の認識結果を議事録に反映させる(S41、S43)。議事録作成サーバ30は、同様に、図示しない他の音声会議端末20の組み合わせをグルーピングし、結果、複数のグループが混在してもよい。
Further, the
(音声会議の進行)
図8は、グルーピング後の動作を示す説明図である。音声会議端末20Aの利用者が音声を発すると、図8に示したように、音声会議端末20Aの通話アプリケーション230が当該音声を示す音声信号を音声会議端末20Bに送信し(S44)、音声会議端末20Bの音声出力部228が当該音声信号を出力する(S45)。また、音声会議端末20Aの端末送信部244は、音声会議端末20Bに送信された音声信号を第1音声信号として議事録作成サーバ30に送信し(S46)、議事録作成サーバ30において当該第1音声信号の音声認識が行われる(S47)。
(Progress of audio conference)
FIG. 8 is an explanatory diagram showing an operation after grouping. When the user of the
そして、議事録作成サーバ30のサーバ送信部350は、第1音声信号の認識結果を同一グループに属する音声会議端末20Aおよび音声会議端末20Bに送信し(S48、S50)、音声会議端末20Aおよび音声会議端末20Bは第1音声信号の認識結果を議事録に反映させる(S49、S51)。
Then, the
同様に、音声会議端末20Bの利用者が音声を発すると、図8に示したように、音声会議端末20Bの通話アプリケーション230が当該音声を示す音声信号を音声会議端末20Aに送信し(S52)、音声会議端末20Aの音声出力部228が当該音声信号を出力する(S53)。また、音声会議端末20Bの端末送信部244は、音声会議端末20Aに送信された音声信号を第1音声信号として議事録作成サーバ30に送信し(S54)、議事録作成サーバ30において当該第1音声信号の音声認識が行われる(S55)。
Similarly, when the user of the
そして、議事録作成サーバ30のサーバ送信部350は、第1音声信号の認識結果を同一グループに属する音声会議端末20Aおよび音声会議端末20Bに送信し(S56、S58)、音声会議端末20Aおよび音声会議端末20Bは第1音声信号の認識結果を議事録に反映させる(S57、S59)。なお、議事録作成サーバ30による第1音声信号の認識結果は、グループに属していない音声会議端末20Cには送信されない。
Then, the
(音声会議の終了)
図9は、音声会議の終了時の動作を示す説明図である。音声会議端末20Aの利用者が音声を発すると、図9に示したように、音声会議端末20Aの通話アプリケーション230が当該音声を示す音声信号を音声会議端末20Bに送信し(S61)、音声会議端末20Bの音声出力部228が当該音声信号を出力する(S62)。また、音声会議端末20Aの端末送信部244は、音声会議端末20Bに送信された音声信号を第1音声信号として議事録作成サーバ30に送信し(S63)、議事録作成サーバ30において当該第1音声信号の音声認識が行われる(S64)。
(End of voice conference)
FIG. 9 is an explanatory diagram showing an operation at the end of the voice conference. When the user of the
そして、議事録作成サーバ30のサーバ送信部350は、第1音声信号の認識結果を同一グループに属する音声会議端末20Aおよび音声会議端末20Bに送信し(S65、S67)、音声会議端末20Aおよび音声会議端末20Bは第1音声信号の認識結果を議事録に反映させる(S66、S68)。
Then, the
ここで、議事録作成サーバ30により音声認識された第1音声信号が「会議を終わります」のような特定の終了キーワードを含む音声を示す場合、フレームF2に示す処理が行われる。
Here, when the first voice signal voice-recognized by the
具体的には、議事録作成サーバ30のグループ管理部340が第1音声信号の送信元である音声会議端末20Aが属するグループを解除し(S69)、議事録作成サーバ30のサーバ送信部350が、当該グループに属していた音声会議端末20Aおよび音声会議端末20Bに第2音声信号の送信開始指示を送信する(S70、S71)。そして、議事録作成サーバ30の制御部360は議事録を記憶媒体に格納する(S72)。
Specifically, the
その後、音声会議端末20Aおよび音声会議端末20Bの通話アプリケーション230の間で音声会議終了のための切断要求と承認がやり取りされることにより(S73、S74)、音声会議のセッションが終了する。なお、上記では音声会議端末20Aが特定のキーワードを含む音声を示す音声信号を送信する例を説明したが、このような音声信号の送信元は、同一の音声会議に参加しているいずれの音声会議端末20であってもよい。
After that, the voice conference session ends by exchanging a disconnection request and approval for ending the voice conference between the
<5.作用効果>
以上説明したように、本発明の一実施形態は、既存の音声会議システムと併用可能な音声会議支援システムに関し、音声会議端末20において通話アプリケーション230および議事録アプリケーション240が音声入力を共有する。そして、音声会議のセッションが複数の音声会議端末20の間で成立している状態である音声会議端末20の利用者が特定のキーワードを含む音声を発することで、議事録作成サーバ30が同一の音声会議に参加している複数の音声会議端末20を簡易に議事録作成のためにグルーピングすることが可能である。これにより、音声会議ごとの音声会議システムが不要となり、導入コストを削減できる。
<5. Action effect>
As described above, in one embodiment of the present invention, regarding the voice conference support system that can be used in combination with the existing voice conference system, the
また、音声会議の開始時に自然に発せられる「会議を始めます」のようなフレーズを開始キーワードとして保持しておくことで、議事録作成のためのグルーピングをユーザが実質的に手間を感じることなく実現することが可能である。同様に、音声会議の終了時に自然に発せられる「会議を終わります」のようなフレーズを終了キーワードとして保持しておくことで、グループの解除についてもユーザが実質的に手間を感じることなく実現することが可能である。 In addition, by holding a phrase such as "start a meeting" that is naturally issued at the start of a voice conference as a start keyword, the user does not have to feel the trouble of grouping for minutes. It is possible to achieve it. Similarly, by retaining a phrase such as "end the meeting" that is naturally emitted at the end of the audio conference as the end keyword, the user can virtually eliminate the trouble of canceling the group. It is possible.
また、グルーピングが行われた後には議事録作成サーバ30が同一グループに属する各音声会議端末20に第2音声信号の送信停止指示を送信することで、音声会議端末20における処理負荷、および音声会議端末20と議事録作成サーバ30の間のトラフィックを抑制することが可能である。また、グループの解除後には議事録作成サーバ30が同一グループに属していた各音声会議端末20に第2音声信号の送信開始指示を送信することで、新たなグルーピングに備えることが可能である。
Further, after the grouping is performed, the
<6.変形例>
以上、本発明の一実施形態を説明した。以下では、上述した実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で上述した実施形態に適用されてもよいし、組み合わせで上述した実施形態に適用されてもよい。また、各変形例は、上述した実施形態で説明した構成に代えて適用されてもよいし、上述した実施形態で説明した構成に対して追加的に適用されてもよい。
<6. Modification example>
The embodiment of the present invention has been described above. Hereinafter, some modifications of the above-described embodiment will be described. In addition, each modification described below may be applied alone to the above-described embodiment, or may be applied in combination to the above-described embodiment. Further, each modification may be applied in place of the configuration described in the above-described embodiment, or may be additionally applied to the configuration described in the above-described embodiment.
例えば、上記では、グループ管理部340が、識別部330により所定の時間差内に開始キーワードを含む音声であると識別された複数の音声信号の送信元である2以上の音声会議端末20からなるグループを形成する例を説明した。この点に関し、識別部330は、音声信号が開始キーワードを含む音声を示すか否かに加え、各音声信号を発した利用者を識別してもよい。そして、グループ管理部340は、開始キーワードを含む音声を示す音声信号であることに加えて、同一の利用者が発した音声を示す音声信号であることに基づいて、音声信号の送信元である2以上の音声会議端末20からなるグループを形成してもよい。
For example, in the above, the
かかる構成によれば、複数の音声会議が偶然同時に開始され、異なる音声会議に属する異なる利用者が同時に開始キーワードを発した場合でも、各音声会議に属する音声会議端末20を別々にグルーピングすることが可能である。
According to such a configuration, even if a plurality of voice conferences are accidentally started at the same time and different users belonging to different voice conferences issue start keywords at the same time, the
また、上記では利用者が発した開始キーワードを含む音声を示す音声信号がグルーピングのための所定の信号として用いられる例を説明したが、所定の信号はかかる例に限定されない。例えば、音声会議端末20は録音済みの音声信号を記憶しており、操作部226への操作に基づいて当該録音済みの音声信号を読み出し、所定の信号として送信してもよい。この場合、同一の音声会議に参加する各利用者が音声会議端末20を操作し、各音声会議端末20が録音済みの音声信号を議事録作成サーバ30に送信してもよい。または、ある音声会議端末20が他の音声会議端末20に録音済みの音声信号を送信すると、他の音声会議端末20が第2音声信号として当該録音済みの音声信号を議事録作成サーバ30に送信してもよい。
Further, although the example in which the voice signal indicating the voice including the start keyword emitted by the user is used as a predetermined signal for grouping has been described above, the predetermined signal is not limited to such an example. For example, the
さらに、所定の信号は、音声会議端末20に事前に記録された非可聴領域の成分からなる信号であってもよい。この場合、議事録作成サーバ30は、非可聴領域の成分を検出するための構成を有することが望ましい。
Further, the predetermined signal may be a signal composed of components in the inaudible region pre-recorded in the
また、上記では1つの音声会議端末20を1人の利用者が利用する例を説明したが、1つの音声会議端末20を利用する利用者の人数は限定されず、1つの音声会議端末20は複数の利用者により利用されてもよい。
Further, although the example in which one user uses one
<7.ハードウェア構成>
以上、本発明の実施形態を説明した。上述した音声認識、およびグルーピングなどの情報処理は、ソフトウェアと、以下に説明する議事録作成サーバ30のハードウェアとの協働により実現される。
<7. Hardware configuration>
The embodiments of the present invention have been described above. The above-mentioned information processing such as voice recognition and grouping is realized by the cooperation between the software and the hardware of the
図10は、議事録作成サーバ30のハードウェア構成を示したブロック図である。議事録作成サーバ30は、CPU(Central Processing Unit)301と、ROM(Read Only Memory)302と、RAM(Random Access Memory)303と、ホストバス304と、を備える。また、議事録作成サーバ30は、ブリッジ305と、外部バス306と、インターフェース307と、入力装置308と、表示装置309と、音声出力装置316と、ストレージ装置(HDD)311と、ドライブ312と、ネットワークインターフェース315とを備える。
FIG. 10 is a block diagram showing the hardware configuration of the
CPU301は、演算処理装置および制御装置として機能し、各種プログラムに従って議事録作成サーバ30内の動作全般を制御する。また、CPU301は、マイクロプロセッサであってもよい。ROM302は、CPU301が使用するプログラムや演算パラメータ等を記憶する。RAM303は、CPU301の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス304により相互に接続されている。これらCPU301、ROM302およびRAM303とソフトウェアとの協働により、上述した音声認識部320、識別部330、グループ管理部340および制御部360などの機能が実現され得る。
The
ホストバス304は、ブリッジ305を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス306に接続されている。なお、必ずしもホストバス304、ブリッジ305および外部バス306を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
The
入力装置308は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、カメラ、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU301に出力する入力制御回路などから構成されている。議事録作成サーバ30のユーザは、該入力装置308を操作することにより、議事録作成サーバ30に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
表示装置309は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置316は、スピーカおよびヘッドホンなどの音声出力装置を含む。
The
ストレージ装置311は、本実施形態にかかる議事録作成サーバ30の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置311は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置311は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置311は、ストレージを駆動し、CPU301が実行するプログラムや各種データを格納する。
The
ドライブ312は、記憶媒体用リーダライタであり、議事録作成サーバ30に内蔵、あるいは外付けされる。ドライブ312は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体34に記録されている情報を読み出して、RAM303またはストレージ装置311に出力する。また、ドライブ312は、リムーバブル記憶媒体34に情報を書き込むこともできる。
The
ネットワークインターフェース315は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース315は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
The
なお、上述した議事録作成サーバ30のハードウェア構成は音声会議端末20にも適用可能である。いずれの構成においてもドライブ312およびリムーバブル記憶媒体34は必須ではなく、入力装置308と、表示装置309と、音声出力装置316の構成は用途に応じて変えられたり、省略されたりしてもよい。
The hardware configuration of the
<8.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<8. Supplement>
Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is clear that a person having ordinary knowledge in the field of technology to which the present invention belongs can come up with various modifications or modifications within the scope of the technical ideas described in the claims. , These are also naturally understood to belong to the technical scope of the present invention.
例えば、本明細書の音声会議支援システムの処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声会議支援システムの処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。 For example, each step in the processing of the voice conference support system of the present specification does not necessarily have to be processed in chronological order in the order described as a flowchart. For example, each step in the processing of the voice conference support system may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
また、音声会議端末20および議事録作成サーバ30に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声会議端末20および議事録作成サーバ30の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
Further, in order for the hardware such as the CPU, ROM, and RAM built in the
20 音声会議端末
220 ユーザIF部
222 第1音声入力部
224 表示部
226 操作部
228 音声出力部
230 通話アプリケーション
240 議事録アプリケーション
242 第2音声入力部
244 端末送信部
246 端末受信部
248 制御部
30 議事録作成サーバ
310 サーバ受信部
320 音声認識部
330 識別部
340 グループ管理部
350 サーバ送信部
360 制御部
20
Claims (13)
前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、
前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、
音声会議端末から受信された音声信号を認識する音声認識部と、
同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、
を備える、音声会議支援装置。 A receiver that receives signals from multiple audio conferencing terminals,
An identification unit that identifies whether or not the signal received from each of the plurality of audio conferencing terminals by the receiving unit is a predetermined signal, and
A group management unit that forms a group consisting of voice conference terminals that are sources of each of the plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit.
A voice recognition unit that recognizes the voice signal received from the voice conference terminal,
A transmission unit that transmits a character string indicating a recognition result of a voice signal received from two or more voice conference terminals belonging to the same group to the two or more voice conference terminals.
A voice conference support device equipped with.
前記第1の信号は、前記音声会議端末から他の音声会議端末に送信される信号であり、
前記第2の信号は、前記音声会議端末が前記他の音声会議端末から受信した信号である、請求項1に記載の音声会議支援装置。 The receiving unit receives the first signal and the second signal from the voice conference terminal, and receives the first signal and the second signal.
The first signal is a signal transmitted from the voice conference terminal to another voice conference terminal.
The voice conference support device according to claim 1, wherein the second signal is a signal received by the voice conference terminal from the other voice conference terminal.
前記第2の信号は、前記他の音声会議端末の利用者が発した音声を示す音声信号である、請求項2に記載の音声会議支援装置。 The first signal is a voice signal indicating a voice emitted by a user of the voice conference terminal.
The voice conference support device according to claim 2, wherein the second signal is a voice signal indicating a voice emitted by a user of the other voice conference terminal.
前記グループ管理部は、前記識別部により所定の時間差内で前記所定の信号であると識別され、かつ、音声を発した利用者が同一であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成する、請求項4に記載の音声会議支援装置。 The identification unit further identifies the user who has emitted the sound indicated by the signal received from each of the plurality of voice conference terminals.
The group management unit is a source of each of a plurality of signals identified by the identification unit as the predetermined signal within a predetermined time difference and identified as the same user who emitted the voice. The voice conference support device according to claim 4, which forms a group consisting of a voice conference terminal.
前記グループ管理部は、前記グループに属するいずれかの音声会議端末から受信された音声信号が前記第2のキーワードを含む音声を示すことが前記識別部により識別された場合、前記グループを解除する、請求項3〜6までのいずれか一項に記載の音声会議支援装置。 The identification unit identifies whether or not the audio signal received from each of the plurality of audio conferencing terminals by the receiving unit indicates audio including the second keyword.
When the identification unit identifies that the audio signal received from any of the audio conferencing terminals belonging to the group indicates the audio including the second keyword, the group management unit releases the group. The audio conference support device according to any one of claims 3 to 6.
複数の音声会議端末から信号を受信する受信部と、
前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、
前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、
音声会議端末から受信された音声信号を認識する音声認識部と、
同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、
として機能させるための、プログラム。 Computer,
A receiver that receives signals from multiple audio conferencing terminals,
An identification unit that identifies whether or not the signal received from each of the plurality of audio conferencing terminals by the receiving unit is a predetermined signal, and
A group management unit that forms a group consisting of voice conference terminals that are sources of each of the plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit.
A voice recognition unit that recognizes the voice signal received from the voice conference terminal,
A transmission unit that transmits a character string indicating a recognition result of a voice signal received from two or more voice conference terminals belonging to the same group to the two or more voice conference terminals.
A program to function as.
前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別することと、
所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成することと、
音声会議端末から受信された音声信号を認識することと、
同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信することと、
を含む、音声会議支援方法。 Receiving signals from multiple audio conferencing terminals
Identifying whether or not the signal received from each of the plurality of audio conferencing terminals is a predetermined signal, and
Forming a group consisting of voice conferencing terminals that are the sources of each of the plurality of signals identified as the predetermined signals within a predetermined time difference.
Recognizing the audio signal received from the audio conference terminal
Sending a character string indicating the recognition result of the audio signal received from two or more audio conferencing terminals belonging to the same group to the two or more audio conferencing terminals, and
Voice conference support methods, including.
前記複数の音声会議端末の各々は、前記音声会議支援装置に信号を送信し、
前記音声会議支援装置は、
複数の音声会議端末から信号を受信する受信部と、
前記受信部により前記複数の音声会議端末の各々から受信された信号が所定の信号であるか否かを識別する識別部と、
前記識別部により所定の時間差内で前記所定の信号であると識別された複数の信号の各々の送信元である音声会議端末からなるグループを形成するグループ管理部と、
音声会議端末から受信された音声信号を認識する音声認識部と、
同一のグループに属する2以上の音声会議端末から受信された音声信号の認識結果を示す文字列を、前記2以上の音声会議端末に送信する送信部と、
を備える、音声会議支援システム。
A voice conference support system having a plurality of voice conference terminals and voice conference support devices.
Each of the plurality of voice conference terminals transmits a signal to the voice conference support device,
The voice conference support device is
A receiver that receives signals from multiple audio conferencing terminals,
An identification unit that identifies whether or not the signal received from each of the plurality of audio conferencing terminals by the receiving unit is a predetermined signal, and
A group management unit that forms a group consisting of voice conference terminals that are sources of each of the plurality of signals identified as the predetermined signal within a predetermined time difference by the identification unit.
A voice recognition unit that recognizes the voice signal received from the voice conference terminal,
A transmission unit that transmits a character string indicating a recognition result of a voice signal received from two or more voice conference terminals belonging to the same group to the two or more voice conference terminals.
A voice conference support system equipped with.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035136A JP2021139953A (en) | 2020-03-02 | 2020-03-02 | Audio conference support device, program, audio conference support method, and audio conference support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035136A JP2021139953A (en) | 2020-03-02 | 2020-03-02 | Audio conference support device, program, audio conference support method, and audio conference support system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021139953A true JP2021139953A (en) | 2021-09-16 |
Family
ID=77669516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020035136A Pending JP2021139953A (en) | 2020-03-02 | 2020-03-02 | Audio conference support device, program, audio conference support method, and audio conference support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021139953A (en) |
-
2020
- 2020-03-02 JP JP2020035136A patent/JP2021139953A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10135965B2 (en) | Use of a digital assistant in communications | |
US8842152B2 (en) | Collaboration appliance and methods thereof | |
US12033629B2 (en) | Systems and methods for automating voice commands | |
CN111770131B (en) | Load balancing persistent connection device, system and computer readable medium | |
JP2005278146A (en) | Command base group sms by mobile message receiver and server | |
KR20080045672A (en) | Immersive audio communication | |
JP2018156646A (en) | Method and system for chatting on mobile device using external device | |
WO2023160385A1 (en) | Method and apparatus for configuring audio and video conference, and server and storage medium | |
CN112650879A (en) | Song playing method, device, equipment, storage medium and computer program product | |
KR20220109373A (en) | Method for providing speech video | |
WO2023237102A1 (en) | Voice chat display method and apparatus, electronic device, and computer readable medium | |
US10862841B1 (en) | Systems and methods for automating voice commands | |
JP2002057693A (en) | Message exchange system and recording medium | |
JP2021139953A (en) | Audio conference support device, program, audio conference support method, and audio conference support system | |
CN102611697B (en) | For noticing the method and apparatus that meeting is attended to change with multilingual | |
JP2002101205A (en) | Conference support equipment and method, and storage medium used therein | |
Lee | Impromptu: Audio applications for mobile IP | |
CA3143953A1 (en) | Systems and methods for automating voice commands | |
US20240046540A1 (en) | Speech image providing method and computing device for performing the same | |
US11830120B2 (en) | Speech image providing method and computing device for performing the same | |
US11632404B2 (en) | Data stream prioritization for communication session | |
WO2020170946A1 (en) | Voice output control device, voice output control system, voice output control method and program | |
JP2018067876A (en) | Voice data transfer program, voice data output control program, voice data transfer device, voice data output controller, voice data transfer method, and voice data output control method | |
JP2002215618A (en) | Natural language dialogue device, natural language dialogue system, natural language dialogue method and storage medium | |
JP2022179354A (en) | Information processing apparatus and program |