WO2010146869A1 - 編集支援システム、編集支援方法および編集支援プログラム - Google Patents

編集支援システム、編集支援方法および編集支援プログラム Download PDF

Info

Publication number
WO2010146869A1
WO2010146869A1 PCT/JP2010/004060 JP2010004060W WO2010146869A1 WO 2010146869 A1 WO2010146869 A1 WO 2010146869A1 JP 2010004060 W JP2010004060 W JP 2010004060W WO 2010146869 A1 WO2010146869 A1 WO 2010146869A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
text data
divided data
text
recognition result
Prior art date
Application number
PCT/JP2010/004060
Other languages
English (en)
French (fr)
Inventor
三木清一
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011519574A priority Critical patent/JP5533865B2/ja
Publication of WO2010146869A1 publication Critical patent/WO2010146869A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • the present invention relates to an editing support system, an editing support method, and an editing support program.
  • Patent Document 1 Japanese Patent Laid-Open No. 2006-119534 describes a mouse subtitle editing apparatus that is operated by a person responsible for generated subtitles and specifies a portion to be edited with respect to a voice recognition result by a voice recognition apparatus, and a mouse A system is described that includes a keyboard subtitle editing apparatus that is operated by an operator who performs an operation of inputting a correct character string corresponding to sound with a keyboard with respect to subtitles passed from the subtitle editing apparatus.
  • the operator of the keyboard subtitle editing apparatus can be a person with a relatively low skill level and low responsibility and can save labor costs.
  • Patent Document 1 it is necessary for the person in charge of operating the mouse caption editing device to perform an operation for specifying a portion to be edited with respect to all of the speech recognition results, and thus it is impossible to perform quick processing. There's a problem.
  • the person in charge identifies the same part, and the operator of the keyboard subtitle editing apparatus performs a work of inputting a character string, which is checked by a plurality of people, resulting in poor efficiency.
  • An object of the present invention is to provide an editing support system and an editing support method that solve the above-described problem that a partial editing operation of a speech recognition result cannot be performed quickly.
  • Voice data storage means for storing voice data in association with time information
  • Speech recognition result storage means for storing text data of a speech recognition result of the speech data in a predetermined format in association with time information in units of words
  • First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area
  • Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data
  • a divided data generating unit that extracts the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generates divided data
  • a speech recognition result editing support system including
  • the text data is read from the voice recognition result storage means for storing the text data of the voice recognition result of the voice data in a predetermined format in association with time information in units of words, and the text data is displayed in a predetermined display area.
  • a speech recognition result editing support method is provided.
  • Computer Audio data storage means for storing audio data in association with time information
  • Voice recognition result storage means for storing text data of a voice recognition result of the voice data in a predetermined format in association with time information in units of words
  • First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area
  • Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data
  • a divided data generation unit configured to extract the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generate divided data
  • a speech recognition result editing support program is provided.
  • FIG. 1 it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus.
  • FIG. 1 it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus.
  • FIG. 1 it is a figure which shows an example of the management table of the display process part of the edit management apparatus in embodiment of this invention.
  • FIG. 1 It is a figure which shows an example of the management table of the display process part of the edit processing apparatus in embodiment of this invention.
  • it is a figure which shows an example of the screen displayed on a display by the display process part of an edit processing apparatus.
  • it is a figure which shows an example of the screen displayed on a display by the display process part of an edit processing apparatus.
  • it is a figure which shows an example of the screen displayed on a display by the display process part of an edit processing apparatus.
  • It is a figure which shows an example of the structure of the edited data in embodiment of this invention.
  • FIG. 1 it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus. In embodiment of this invention, it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus. In embodiment of this invention, it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus. In embodiment of this invention, it is a figure which shows an example of the screen displayed on a display by the display process part of an edit management apparatus. It is a figure which shows the other example of a structure of the text data of the speech recognition result memorize
  • FIG. 1 is a block diagram schematically showing the configuration of the editing support system in the present embodiment.
  • the editing support system 300 includes an editing management device 100 and one or more editing processing devices 200.
  • an example is shown in which the editing support system 300 includes two editing processing devices 200 (an editing processing device 200 (A) and an editing processing device 200 (B)).
  • the editing management apparatus 100 stores the text data of the speech recognition result in a predetermined format, and displays the text data in a predetermined display area so that it can be edited.
  • the edit management apparatus 100 extracts the text data corresponding to the range while maintaining the original format, and generates divided data.
  • the divided data can be a part of the original text data.
  • the editing management apparatus 100 can extract the corresponding voice data together with the text data and include the voice data in the divided data.
  • the edit management device 100 generates divided data including text data and audio data. In this way, the edit management apparatus 100 can generate a plurality of divided data.
  • Each divided data is edited by each editing processing device 200.
  • the divided data edited by the editing processing device 200 is integrated by the editing management device 100.
  • FIG. 2 is a block diagram showing the configuration of the edit management apparatus 100 in the present embodiment.
  • the edit management apparatus 100 includes a voice acquisition unit 102, a voice recognition unit 104, a display processing unit 110 (first display processing unit), an instruction reception unit 112 (instruction reception unit), a voice reproduction unit 114 (voice reproduction unit), and a division.
  • a data generation unit 116 (divided data generation unit), an editing processing unit 118 (editing processing unit), a data integration unit 120 (data integration unit), an access control unit 122, and a storage unit 130 are included.
  • the storage unit 130 includes a voice data storage unit 132 (voice data storage unit), a voice recognition result storage unit 134 (voice recognition result storage unit), a divided data storage unit 136, an edited data storage unit 138, and an integrated data storage unit 140. including.
  • the voice acquisition unit 102 acquires the voice data of a speaker input from a voice input unit (not shown) such as a microphone.
  • the voice acquisition unit 102 acquires voice data in association with time information.
  • the audio data storage unit 132 stores the audio data acquired by the audio acquisition unit 102 in association with the time information.
  • the voice recognition unit 104 recognizes the voice data acquired by the voice acquisition unit 102 and converts the voice recognition result into text data.
  • the voice recognition result storage unit 134 stores the text data of the voice recognition result processed by the voice recognition unit 104 in a predetermined format in association with time information in units of words.
  • the speech recognition result storage unit 134 grasps text data of the speech recognition result for each sentence (sentence) and each word (word), and associates time information with each sentence and each word. Memorize in the format.
  • the time information may include both the start time and the end time, or may include only the start time.
  • the display processing unit 110 displays the text data of the speech recognition result in a predetermined area so as to be editable, and displays a cursor (caret) for selecting the text data in the display area.
  • the function of the display processing unit 110 can be realized by a text editor.
  • the display processing unit 110 can display text data in association with relative position information with respect to the cursor at least in units of words.
  • the instruction accepting unit 112 accepts an arbitrary selection range of the text data displayed by the display processing unit 110 with a cursor and accepts an instruction to generate divided data.
  • the audio reproduction unit 114 reads audio data from the audio data storage unit 132 and reproduces the audio.
  • the sound reproduction unit 114 outputs sound data corresponding to the time.
  • the voice reproduction unit 114 can reproduce the voice data at the corresponding time based on the time information associated with the word selected by the cursor in the text data displayed by the display processing unit 110.
  • the audio output device can be, for example, a speaker.
  • the divided data generation unit 116 extracts the text data included in the selection range received by the instruction reception unit 112 from the speech recognition result storage unit 134 while maintaining a predetermined format.
  • “maintaining the format” is grasped for each sentence (sentence) and each word (word), and time information is associated with each sentence and each word. It can be in the form.
  • the divided data generation unit 116 extracts the audio data corresponding to the text data included in the selection range from the audio data storage unit 132 in a state associated with the time information.
  • the divided data generation unit 116 generates divided data including the extracted text data and audio data.
  • the divided data generation unit 116 stores the generated divided data in a predetermined folder in the divided data storage unit 136.
  • a predetermined folder that is prepared in advance for each apparatus that is supposed to perform editing processing on the divided data can be prepared.
  • a folder corresponding to the edit processing device 200 (A), the edit processing device 200 (B), etc. shown in FIG. 1 can be prepared.
  • the divided data generation unit 116 can save the divided data in the folder prepared in this way.
  • the editing processing unit 118 is also used for editing the text data of the speech recognition result in the edit management apparatus 100, and can have the same configuration as that included in the edit processing apparatus 200. The function of the editing processing unit 118 will be described later with reference to the editing processing device 200.
  • the edited data storage unit 138 stores edited divided data (hereinafter referred to as edited data).
  • the data integration unit 120 arranges and integrates text data of a plurality of divided data in order of time based on time information.
  • the data integration unit 120 stores the integrated data in the integrated data storage unit 140.
  • the edited data storage unit 138 is prepared separately from the divided data storage unit 136 is shown.
  • the edited data storage unit 138 is not prepared, A configuration may be adopted in which the divided data before editing stored in the divided data storage unit 136 is overwritten with the edited divided data.
  • the integrated data storage unit 140 is prepared separately from the speech recognition result storage unit 134 is shown, but in another example, the integrated data storage unit 140 is not prepared.
  • the text data of the speech recognition result before editing stored in the speech recognition result storage unit 134 may be overwritten with the edited integrated data.
  • the access control unit 122 controls access from an external device such as the editing processing device 200.
  • the divided data generated by the divided data generation unit 116 is stored in a predetermined folder of the divided data storage unit 136 of the editing management apparatus 100.
  • a user who edits each piece of divided data in the editing processing apparatus 200 accesses the edit management apparatus 100 and acquires divided data.
  • the access control unit 122 controls access from such other terminals.
  • FIG. 3 is a flowchart showing a procedure for generating divided data in the edit management apparatus 100 according to the present embodiment.
  • the display processing unit 110 displays the text data of the speech recognition result stored in the speech recognition result storage unit 134 on the display (step S102).
  • FIG. 4 is a diagram illustrating an example of the configuration of text data of a speech recognition result stored in the speech recognition result storage unit 134 according to the present embodiment.
  • the speech recognition result storage unit 134 includes a sentence number field, a word number field, a speaker field, a start time field, an end time field, a speech recognition result field, and a character number field.
  • text data of the speech recognition result is stored in units of words.
  • words included in the sentences identified by “s11” and “s12” are displayed.
  • Each word is also attached with identification information for identifying the word in each sentence. That is, for example, based on the identification information of “s11” and “w1”, the word “Last year” is identified.
  • This word is a statement by the speaker “2”, the start time is “13:44:09”, and the end time is “13:44:10”.
  • the number of characters is three.
  • 5 to 8 are diagrams showing a text editor screen 400 displayed on the display by the display processing unit 110.
  • the screen 400 displays a text display area 402, a time display area 404, a time change button 406, an audio playback button 408, a speed change button 410, and the like.
  • text display area 402 text data of a speech recognition result and a cursor 420 are displayed.
  • the display processing unit 110 displays the text data stored in the speech recognition result storage unit 134 in the text display area 402 with a line feed every 25 characters.
  • the display processing unit 110 includes a management table for grasping the position of each word included in the text data displayed on the screen 400.
  • FIG. 9 is a diagram illustrating a management table of the display processing unit 110.
  • the management table of the display processing unit 110 holds, for each row, identification information of character strings (text), sentences (sentences), and words (words) included in the row.
  • the management table holds information indicating a start position (start) and a character length (len) for each sentence and each word.
  • the character string in the second line of the text display area 402 of the screen 400 shown in FIG. 5 will be described as an example.
  • “Speaker 2 received a report from the A Review Committee last year” is displayed.
  • “L2” in FIG. 9 is associated with display information relating to the character string displayed in this line.
  • label identification information is used as character string (text) information.
  • “I11” is entered.
  • “Received a report from the A Review Committee last year” means “Last year,” “A Review Committee,” “From”, “Report”, “O”, “Receive”, Corresponds to “I did.” Therefore, “s11_w1”, “s11_w2”, “s11_w3”, “s11_w4”, “s11_w5”, “s11_w6”, and “s11_w7” indicating the identification information of each word are entered as character string (text) information. .
  • the start position and the character length in the sentence and the word are described.
  • the display processing unit 110 can grasp the position (line, character position) of each word displayed in the text display area 402.
  • the display processing unit 110 also grasps the position (line, character position) of the cursor 420.
  • the display processing unit 110 can grasp which word of which sentence is pointed based on the position of the cursor 420.
  • the user can specify an arbitrary selection range of the text data displayed in the text display area 402 by moving the cursor 420 using an operation unit (not shown) such as a mouse.
  • the display processing unit 110 refers to the management table based on the cursor position information and grasps words included in the selection range.
  • the instruction receiving unit 112 acquires information on words included in the selection range from the display processing unit 110.
  • the instruction receiving unit 112 receives the instruction.
  • the instruction receiving unit 112 receives the instruction and notifies the audio reproducing unit 114 of the instruction.
  • the audio reproduction unit 114 performs reproduction, stop, fast forward, rewind, and the like of audio data based on a user instruction.
  • the instruction receiving unit 112 receives the instruction and notifies the sound reproducing unit 114.
  • the audio playback unit 114 changes the playback speed of the audio data based on a user instruction.
  • the time display area 404 the time corresponding to the audio data is displayed.
  • the time displayed in the time display area 404 can be changed.
  • the cursor 420 and the time displayed in the time display area 404 can be linked to each other, and the cursor 420 can be displayed at a position corresponding to the word corresponding to the time displayed in the time display area 404. .
  • the divided data generating unit 116 when the instruction receiving unit 112 receives a range selection and divided data generation instruction from the user (YES in step S104), the divided data generating unit 116 generates divided data.
  • the instruction receiving unit 112 receives a range selection and divided data generation instruction from the user (YES in step S104)
  • the divided data generating unit 116 generates divided data.
  • the text data in the selection range 422 in the middle is selected by being inverted (FIG. 6).
  • a box 430 is displayed (FIG. 7).
  • various work items such as a divided data generation button 432 are displayed.
  • a save screen 440 is displayed (FIG. 8).
  • the save screen 440 displays fields for inputting a plurality of predetermined folders and file names, a save button 442, a cancel button 444, and the like.
  • a save button 442 When the user selects any folder, inputs a file name, and presses the save button 442, the selection of the range and the generation of divided data in step S104 shown in FIG. 3 are performed.
  • the file name can be automatically assigned.
  • the user can also create a new folder.
  • the divided data generation unit 116 determines words included in the selected range (step S106). Further, the divided data generation unit 116 determines a start time and an end time based on the determined word (step S108). Next, the divided data generation unit 116 extracts text data corresponding to the selected range from the speech recognition result storage unit 134 (step S110). Thereafter, the divided data generation unit 116 extracts audio data at the corresponding time based on the start time and the end time (step S112). The divided data generation unit 116 generates divided data including text data and audio data of the selected portion (step S114) and stores it in a predetermined folder (step S116).
  • FIG. 10 is a diagram illustrating an example of the text data of the divided data stored in the divided data storage unit 136.
  • the text data of the divided data is generated in the same format as the text data of the speech recognition result stored in the speech recognition result storage unit 134. That is, the text data of the divided data includes a sentence number field, a word number field, a speaker field, a start time field, an end time field, a voice recognition result field, and a character number field.
  • FIG. 11 is a diagram showing a configuration of the editing processing apparatus 200 in the present embodiment.
  • the editing processing apparatus 200 includes a display processing unit 210 (second display processing unit), an instruction receiving unit 212, an audio reproduction unit 214, an editing processing unit 218 (editing processing unit), a data acquisition / transmission unit 220, and a storage unit 230.
  • Storage unit 230 includes divided data storage unit 236 and edited data storage unit 238.
  • the data acquisition / transmission unit 220 accesses the divided data storage unit 136 and the edited data storage unit 138 of the storage unit 130 of the editing management apparatus 100 to acquire the divided data and save the edited data.
  • the divided data storage unit 236 stores the divided data acquired from the divided data storage unit 136 by the data acquisition / transmission unit 220.
  • the divided data acquired by the data acquisition / transmission unit 220 has the same configuration as that shown in FIG.
  • the display processing unit 210, the instruction receiving unit 212, and the sound reproducing unit 214 are configured to have the same functions as the display processing unit 110, the instruction receiving unit 112, and the sound reproducing unit 114 of the editing management apparatus 100, respectively. it can.
  • the display processing unit 210 displays the text data included in the divided data so as to be editable in a predetermined area, and displays a cursor (caret) for selecting the text data in the display area.
  • the function of the display processing unit 210 can be realized by a text editor similar to the display processing unit 110.
  • FIG. 12 is a diagram showing a text editor screen 500 displayed on the display by the display processing unit 210.
  • a text display area 502 On the screen 500, a text display area 502, a time display area 404, a time change button 406, an audio playback button 408, a speed change button 410, and the like are displayed.
  • text display area 502 text data of divided data and a cursor 520 are displayed.
  • the time display area 404, the time change button 406, the sound reproduction button 408, and the speed change button 410 have the same functions as described with reference to FIGS. The description is omitted here.
  • FIG. 13 is a diagram showing a management table of the display processing unit 210 in the state shown in FIG.
  • the display processing unit 210 holds, for each line, identification information of character strings (text), sentences (sentences), and words (words) included in the line. In addition, information indicating a start position (start) and a character length (len) is held for each sentence and each word.
  • the character string in the third line of the text display area 502 of the screen 500 shown in FIG. 12 will be described.
  • “and the school chief of C city and the cotton swab of the municipality school board of B prefecture” are displayed.
  • “L3” in FIG. 13 is associated with display information related to the character string displayed in this line.
  • the instruction receiving unit 212 receives an arbitrary selection range of the text data displayed by the display processing unit 210 with the cursor, and receives an edit to the text data displayed on the display processing unit 210.
  • the audio reproducing unit 214 reads out audio data included in the divided data from the divided data storage unit 236, and reproduces the audio.
  • the sound reproduction unit 214 outputs sound data corresponding to the time.
  • the user of the editing processing apparatus 200 reproduces the corresponding voice data while viewing the text data displayed by the display processing unit 210, and determines whether or not the voice recognition result is correct. If there is an error in the speech recognition result, the corresponding part is corrected and edited.
  • the editing processing unit 218 rewrites a corresponding word in the text data of the divided data.
  • the portion corresponding to the word in the text data of the divided data is rewritten to a null character string.
  • the character string is inserted into a corresponding position in the text data of the divided data.
  • FIG. 17 is a diagram showing a management table of the display processing unit 210 in the state shown in FIG.
  • the display information of the third line (L3) is the same as that shown in FIG. 13, but is displayed after the fourth line by changing the “cotton swab” of the third line to “member”.
  • the word has been changed.
  • a box 530 is displayed.
  • a save button 532 is displayed.
  • the edited data is saved in the edited data storage unit 238 as edited data.
  • the file name can be automatically assigned or can be input by the user.
  • FIG. 18 is a diagram illustrating an example of text data of edited data stored in the edited data storage unit 238.
  • the edited data is generated in the same format as the text data of the divided data. That is, the text data of the edited data includes a sentence number field, a word number field, a speaker field, a start time field, an end time field, a voice recognition result field, and a character number field.
  • the data acquisition / transmission unit 220 stores the edited data in the edited data storage unit 138 of the editing management apparatus 100 according to a user instruction.
  • the editing management apparatus 100 can be configured to have a function of registering a connected character for a predetermined character string included in text data.
  • the connecting character can be a common character string that should be included in a plurality of divided data. By registering such connecting characters, the divided data can be integrated using the connecting characters as keys, and integrated data can be generated easily and accurately.
  • a procedure for registering characters connected to text data displayed in the text display area 402 of the screen 400 will be described.
  • a box 430 is displayed.
  • This procedure is the same as described with reference to FIG.
  • a connection character registration button 434 is further displayed.
  • this character string is registered as a connection character.
  • the display processing unit 110 can display a highlight character so that it can be highlighted by surrounding a connecting character with a frame 424.
  • the connecting characters By registering the connecting characters before the user of the editing management apparatus 100 performs the process of generating the divided data, the user views the screen 400 and selects the range of the divided data using the connecting characters as a boundary. be able to.
  • the connecting character can be included in a plurality of divided data in common.
  • FIG. 21 shows an example of this.
  • “Last Year” is registered as a connecting character.
  • the integrated data can be generated using the connecting character “Last Year” as a key.
  • the editing management apparatus 100 may have a function of giving an index for marking an arbitrary reproduction start position at a predetermined position of text data. By giving an index to a predetermined position of the displayed text data, the user can reproduce from the position.
  • a procedure for assigning an index to the text data displayed in the text display area 402 of the screen 400 will be described.
  • a box 430 is displayed.
  • an index assignment button 436 is further displayed in the box 430.
  • an index is assigned to this position.
  • a desired range of the speech recognition result can be selected with a simple operation, and the original format of the text data included in the range can be maintained. Can be extracted. Thereby, the partial edit operation
  • multiple pieces of divided data are prepared so that multiple workers can edit each of them, improving the work efficiency when correcting the speech recognition results by multiple workers. Can be improved.
  • each component of the edit management device 100 shown in FIG. 2 and the edit processing device 200 shown in FIG. 11 is not a hardware unit configuration but a functional unit block.
  • Each component of the edit management device 100 and the edit processing device 200 includes a CPU, a memory, a program that realizes the components shown in the figure loaded in the memory, a storage unit such as a hard disk that stores the program, and a network. It is realized by an arbitrary combination of hardware and software, centering on the connection interface. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
  • the voice data acquired by the voice acquisition unit 102 described with reference to FIG. 2 and the text data of the voice recognition result processed by the voice recognition unit 104 can be included in one file. That is, the text data of the speech recognition result shown in FIG. 4 can be associated with the speech data and configured as one file. Further, the voice data storage unit 132 and the voice recognition result storage unit 134 illustrated in FIG. 2 are functionally separated and may not be physically separated clearly.
  • the edit management device 100 and the edit processing device 200 are each configured by a device 10 such as a personal computer.
  • FIG. 24 is a block diagram illustrating a hardware configuration of the apparatus 10 that constitutes the edit management apparatus 100 and the edit processing apparatus 200.
  • the apparatus 10 includes a CPU 12, a memory 14, an HDD (hard disk) 16, a communication IF (interface) 18, a display 30, an operation unit 32, an audio output device 34, and a bus 40 for connecting them.
  • the editing processing apparatus 200 accesses the editing management apparatus 100 and acquires the divided data. However, when the editing management apparatus 100 generates the divided data, the editing processing apparatus 200 divides the editing processing apparatus 200 as appropriate. Data can be distributed to request editing.
  • the configuration in which the divided data includes the audio data corresponding to the text data is shown.
  • the data amount of the divided data acquired by each editing processing apparatus 200 can be reduced.
  • the voice data included in the divided data may correspond to the entire text data of the voice recognition result. Even in this case, the user of the editing processing apparatus 200 can reproduce the corresponding portion of the audio data based on the time information.
  • the divided data may be configured not to include audio data. In this case, the user of the editing processing apparatus 200 can access the audio data storage unit 132 of the editing management apparatus 100 and reproduce the corresponding portion of audio data based on the time information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 編集管理装置は、音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶部と、テキストデータを所定の表示領域内に表示するとともに、表示領域内に、テキストデータを選択するカーソルを表示する表示処理部と、表示処理部により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付部と、指示受付部により受け付けられた選択範囲に含まれるテキストデータを音声認識結果記憶部から所定の形式を保ったままで抽出し、分割データを生成する分割データ生成部と、を含む。

Description

編集支援システム、編集支援方法および編集支援プログラム
 本発明は、編集支援システム、編集支援方法および編集支援プログラムに関する。
 近年、たとえば会議等、複数の発言者が存在する場において、議事録作成を容易にする等の目的のために、音声認識技術を用いることが検討されている。音声認識技術を用いて議事録等を作成する場合、ユーザが音声を聞きながら音声認識結果のテキストを表示させて、誤認識部分の修正作業を行うことがある。
 特許文献1(特開2006-119534号公報)には、生成される字幕に対する責任者によって操作され、音声認識装置による音声認識結果に対して編集すべき部分を特定するマウス字幕編集装置と、マウス字幕編集装置から渡された字幕に対し、キーボードにより、音声に対応する正しい文字列を入力する作業を行う操作者によって操作されるキーボード字幕編集装置とを含むシステムが記載されている。これにより、キーボード字幕編集装置の操作者を比較的スキルレベルが低く、責任も低い人とすることができ、人件費を節約できるという効果が期待できるとされている。
特開2006-119534号公報
 しかし、特許文献1に記載された技術では、マウス字幕編集装置を操作する責任者が音声認識結果の全部に対して編集すべき部分を特定する作業を行う必要があり、迅速な処理ができないという問題がある。また、同じ箇所について、責任者が特定するとともに、キーボード字幕編集装置の操作者が文字列を入力するという作業を行い、複数の人でチェックすることになり、効率が悪いという問題もあった。
 一方、従来、ある程度のレベルの作業者を複数確保できていて、複数の作業者で分担して音声認識結果の編集作業を行いたい場合や、音声認識結果の特定の箇所を緊急で編集したいような場合に、編集するためのデータを効率よく準備する手順がなかった。そのため、音声認識結果の部分的な編集作業を迅速に行うことができないという問題があった。
 本発明の目的は、上述した課題である、音声認識結果の部分的な編集作業を迅速に行うことができないという問題を解決する編集支援システムおよび編集支援方法を提供することにある。
 本発明によれば、
 音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
 前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
 前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段と、
 前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
 前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システムが提供される。
 本発明によれば、
 音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示ステップと、
 前記第1の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
 前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法が提供される。
 本発明によれば、
 コンピュータを、
 音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
 前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
 前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段、
 前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
 前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラムが提供される。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、音声認識結果の部分的な編集作業を迅速に行うことができる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明の実施の形態における編集支援システムの構成の一例を示すブロック図である。 本発明の実施の形態における編集管理装置の構成の一例を示すブロック図である。 本発明の実施の形態における編集管理装置の処理手順を示すフローチャートである。 本発明の実施の形態における音声認識結果記憶部に記憶された音声認識結果のテキストデータの構成の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態における編集管理装置の表示処理部の管理テーブルの一例を示す図である。 本発明の実施の形態における編集管理装置により生成された分割データの構成の一例を示す図である。 本発明の実施の形態における編集処理装置の構成の一例を示すブロック図である。 本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態における編集処理装置の表示処理部の管理テーブルの一例を示す図である。 本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態における編集処理装置の表示処理部の管理テーブルの一例を示す図である。 本発明の実施の形態における編集済データの構成の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。 本発明の実施の形態における音声認識結果記憶部に記憶された音声認識結果のテキストデータの構成の他の例を示す図である。 本発明の実施の形態における編集管理装置や編集処理装置を構成する装置のハードウェア構成の一例を示す図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。
 図1は、本実施の形態における編集支援システムの構成を模式的に示すブロック図である。
 本実施の形態において、編集支援システム300は、編集管理装置100と、一以上の編集処理装置200を含む。ここでは、編集支援システム300が2つの編集処理装置200(編集処理装置200(A)および編集処理装置200(B))を含む例を示す。
 編集管理装置100は、音声認識結果のテキストデータを所定の形式で記憶し、テキストデータを所定の表示領域内に編集可能に表示する。ユーザが、テキストデータの所望の範囲を選択すると、編集管理装置100は、その範囲に該当するテキストデータをもとの形式を保ったままで抽出して分割データを生成する。ここで、分割データは、もとのテキストデータの一部分とすることができる。なお、このとき、編集管理装置100は、テキストデータとともに、対応する音声データを抽出して、分割データに音声データを含めることもできる。本実施の形態において、編集管理装置100がテキストデータおよび音声データを含む分割データを生成する。このようにして、編集管理装置100は、複数の分割データを生成することができる。各分割データは、それぞれ、各編集処理装置200で編集される。編集処理装置200で編集された分割データは、編集管理装置100で統合される。
 これにより、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。
 図2は、本実施の形態における編集管理装置100の構成を示すブロック図である。
 編集管理装置100は、音声取得部102、音声認識部104、表示処理部110(第1の表示処理手段)、指示受付部112(指示受付手段)、音声再生部114(音声再生手段)、分割データ生成部116(分割データ生成手段)、編集処理部118(編集処理手段)、データ統合部120(データ統合手段)、アクセス制御部122、および記憶部130を含む。
 記憶部130は、音声データ記憶部132(音声データ記憶手段)、音声認識結果記憶部134(音声認識結果記憶手段)、分割データ記憶部136、編集済データ記憶部138、および統合データ記憶部140を含む。
 音声取得部102は、マイクロフォン等の音声入力部(不図示)から入力された発言者の音声データを取得する。ここで、音声取得部102は、音声データを時刻情報に対応づけて取得する。音声データ記憶部132は、音声取得部102が取得した音声データを、時刻情報に対応づけて記憶する。
 音声認識部104は、音声取得部102が取得した音声データを音声認識し、音声認識結果をテキストデータに変換する。音声認識結果記憶部134は、音声認識部104が処理した音声認識結果のテキストデータを、単語単位で時刻情報に対応づけて所定の形式で記憶する。本実施の形態において、音声認識結果記憶部134は、音声認識結果のテキストデータを文(センテンス)毎、および単語(ワード)毎に把握するとともに、各文、各単語毎に時刻情報を対応づけた形式で記憶する。時刻情報は、開始時刻および終了時刻の両方を含んでもよく、開始時刻のみを含むものでもよい。
 表示処理部110は、音声認識結果のテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル(キャレット)を表示する。表示処理部110の機能は、テキストエディタにより実現することができる。本実施の形態において、表示処理部110は、テキストデータを少なくとも単語単位でカーソルに対する相対位置情報に対応づけて表示することができる。
 指示受付部112は、表示処理部110により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、分割データの生成指示を受け付ける。
 音声再生部114は、音声データ記憶部132から音声データを読み出し、音声を再生する。ここで、音声再生部114は、時刻が指定されると、当該時刻に対応する音声データを出力する。また、音声再生部114は、表示処理部110により表示されたテキストデータにおいて、カーソルで選択された単語に対応づけられた時刻情報に基づき、対応する時刻の音声データを再生することができる。音声出力装置は、たとえばスピーカとすることができる。
 分割データ生成部116は、指示受付部112が受け付けた選択範囲に含まれるテキストデータを音声認識結果記憶部134から所定の形式を保ったままで抽出する。ここで、形式を保ったままとは、音声認識結果のテキストデータと同様、文(センテンス)毎、および単語(ワード)毎に把握され、各文、各単語毎に時刻情報が対応づけられた形態とすることができる。また、分割データ生成部116は、選択範囲に含まれるテキストデータに対応する音声データを時刻情報に対応づけられた状態で音声データ記憶部132から抽出する。分割データ生成部116は、抽出したテキストデータと音声データとを含む分割データを生成する。
 分割データ生成部116は、生成した分割データを分割データ記憶部136内の所定のフォルダに保存する。ここで、分割データ記憶部136には、分割データに対して編集処理を行うことが想定されている装置毎に準備された予め設定された所定のフォルダを準備しておくことができる。本実施の形態において、たとえば、図1に示した編集処理装置200(A)や編集処理装置200(B)等に対応するフォルダを準備しておくことができる。分割データ生成部116は、分割データを、このように準備されたフォルダに保存することができる。
 本実施の形態において、音声認識結果のテキストデータに対する編集は、編集処理装置200において行うことを想定しているが、編集管理装置100においても、編集処理装置200と同様に編集作業を行うことができる。編集処理部118は、編集管理装置100においても、音声認識結果のテキストデータの編集を行うために用いるものであり、編集処理装置200に含まれるものと同様の構成とすることができる。編集処理部118の機能については、後に編集処理装置200を参照して説明する。編集済データ記憶部138には、編集済の分割データ(以下、編集済データという)が記憶される。
 データ統合部120は、複数の分割データのテキストデータを、時刻情報に基づき、時刻順に並べて統合する。データ統合部120は、統合したデータを統合データ記憶部140に記憶する。なお、本実施の形態においては、分割データ記憶部136とは別に編集済データ記憶部138を準備した例を示しているが、他の例においては、編集済データ記憶部138を準備せず、分割データ記憶部136に記憶された編集前の分割データを編集済の分割データで上書きする構成とすることもできる。また、同様に、本実施の形態において、音声認識結果記憶部134とは別に統合データ記憶部140を準備した例を示しているが、他の例においては、統合データ記憶部140を準備せず、音声認識結果記憶部134に記憶された編集前の音声認識結果のテキストデータを編集済の統合データで上書きする構成とすることもできる。
 アクセス制御部122は、編集処理装置200等の外部の装置からのアクセスを制御する。本実施の形態においては、分割データ生成部116が生成した分割データは、編集管理装置100の分割データ記憶部136の所定のフォルダに記憶される。編集処理装置200で各分割データに対する編集作業を行うユーザは、編集管理装置100にアクセスして、分割データを取得する。アクセス制御部122は、このような他の端末からのアクセスを制御する。
 次に、本実施の形態において、分割データが生成される手順を説明する。図3は、本実施の形態の編集管理装置100において、分割データが生成される手順を示すフローチャートである。
 まず、表示処理部110は、音声認識結果記憶部134に記憶された音声認識結果のテキストデータをディスプレイに表示する(ステップS102)。
 図4は、本実施の形態における音声認識結果記憶部134に記憶された音声認識結果のテキストデータの構成の一例を示す図である。
 音声認識結果記憶部134は、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
 音声認識結果欄には、音声認識結果のテキストデータが単語単位で記憶されている。ここでは、「s11」および「s12」で識別される文に含まれる単語が表示されている。各単語にも、各文中でその単語を識別する識別情報が付されている。つまり、たとえば「s11」と「w1」との識別情報に基づき、「昨年、」という単語が識別される。この単語は、話者「2」による発言であり、開始時刻が「13:44:09」、終了時刻が「13:44:10」となっている。また、文字数は3文字である。
 図5から図8は、表示処理部110によりディスプレイに表示されるテキストエディタの画面400を示す図である。
 図5に示すように、画面400には、テキスト表示領域402、時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、速度変更ボタン410等が表示されている。テキスト表示領域402には、音声認識結果のテキストデータと、カーソル420とが表示される。
 ここで、テキスト表示領域402に、一行に25文字、9行のテキストデータが表示される例を示す。表示処理部110は、音声認識結果記憶部134に記憶されたテキストデータを、25文字毎に改行してテキスト表示領域402に表示する。
 表示処理部110は、画面400に表示されたテキストデータに含まれる各単語の位置を把握するための管理テーブルを含む。図9は、表示処理部110の管理テーブルを示す図である。
 表示処理部110の管理テーブルは、行毎に、当該行に含まれる文字列(text)、文(sentences)および単語(words)の識別情報を保持する。また、管理テーブルは、各文および各単語毎に、それぞれ開始位置(start)と文字長(len)を示す情報を保持する。
 以下、図5に示した画面400のテキスト表示領域402の2行目の文字列を例として説明する。2行目には、「○話者2 昨年、A検討委員会から報告書を受領しまし」と表示されている。図9の「L2」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最初の5文字「○話者2 」は、音声認識結果ではなく、話者を表示するためのラベルであるので、文字列(text)の情報として、ラベルの識別情報を示す「i11」が記入されている。また、「昨年、A検討委員会から報告書を受領しまし」は、それぞれ、「昨年、」、「A検討委員会」、「から」、「報告書」、「を」、「受領」、「しました。」に対応する。そのため、文字列(text)の情報として、各単語の識別情報を示す「s11_w1」、「s11_w2」、「s11_w3」、「s11_w4」、「s11_w5」、「s11_w6」、「s11_w7」が記入されている。
 また、各文、各単語についても、その文および単語における開始位置、および文字長が記載されている。たとえば、「s11_w7」で識別される単語は、図4を参照すると「しました。」である。このうち、最初の3文字「しまし」のみが2行目に含まれる。そのため、開始位置はゼロ、文字長は3であり、「s11_w7,start=0,len=3」と記入される。
 以上のように、表示処理部110は、テキスト表示領域402に表示される各単語の位置(行、文字位置)を把握することができる。また、表示処理部110は、カーソル420の位置(行、文字位置)も把握する。これにより、表示処理部110は、カーソル420の位置に基づき、どの文のどの単語が指されているかを把握することができる。
 図5に戻り、ユーザは、マウス等の操作部(不図示)を用いてカーソル420を移動させることにより、テキスト表示領域402に表示されたテキストデータの任意の選択範囲を指定することができる。表示処理部110は、カーソルの位置情報にもとづき、管理テーブルを参照して、選択範囲に含まれる単語を把握する。指示受付部112は、表示処理部110から選択範囲に含まれる単語の情報を取得する。また、ユーザがマウス等の操作部(不図示)を用いて画面400に表示された各種ボタン(404~410)を操作すると、その指示を指示受付部112が受け付ける。
 たとえば、ユーザが音声再生ボタン408を操作すると、指示受付部112がその指示を受け付け、音声再生部114に通知する。音声再生部114は、ユーザの指示に基づき、音声データの再生、停止、早送り、巻き戻し等を行う。同様に、ユーザが速度変更ボタン410を操作すると、指示受付部112がその指示を受け付け、音声再生部114に通知する。音声再生部114は、ユーザの指示に基づき、音声データの再生速度を変更する。
 時刻表示領域404には、音声データに対応する時刻が表示される。ユーザが時刻変更ボタン406を操作することにより、時刻表示領域404に表示された時刻を変更することができる。カーソル420と時刻表示領域404に表示される時刻とは連動させることができ、時刻表示領域404に表示された時刻に対応する単語に対応する箇所にカーソル420が表示されるようにすることもできる。
 図3に戻り、指示受付部112が、ユーザから範囲の選択および分割データの生成指示を受け付けると(ステップS104のYES)、分割データ生成部116は、分割データを生成する。まず、ユーザが範囲を選択して分割データの生成を指示する手順を、図5から図8を参照して説明する。
 ユーザがマウス等によりカーソル420を選択範囲の開始点に合わせ(図5)、たとえばマウスの左ボタンをクリックした状態でカーソル420を選択範囲の終了点まで移動させると、開始点と終了点との間の選択範囲422のテキストデータが反転等して選択される(図6)。ここで、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される(図7)。ボックス430には、分割データ生成ボタン432等、各種作業項目が表示される。ここで、ユーザが分割データ生成ボタン432を選択すると、保存画面440が表示される(図8)。保存画面440には、予め設定された所定の複数のフォルダとファイル名を入力する欄と、保存ボタン442およびキャンセルボタン444等が表示される。ユーザがいずれかのフォルダを選択して、ファイル名を入力し、保存ボタン442を押すと、図3に示したステップS104の範囲の選択および分割データの生成指示が行われる。なお、ファイル名は、自動的に付されるようにすることもできる。また、ユーザが新たなフォルダを作成することもできる。
 図3に戻り、次いで、分割データ生成部116は、選択された範囲に含まれる単語を決定する(ステップS106)。また、分割データ生成部116は、決定された単語に基づいて、開始時刻および終了時刻を決定する(ステップS108)。次いで、分割データ生成部116は、音声認識結果記憶部134から、選択された範囲に対応するテキストデータを抽出する(ステップS110)。その後、分割データ生成部116は、開始時刻および終了時刻に基づき、対応する時刻の音声データを抽出する(ステップS112)。分割データ生成部116は、選択された部分のテキストデータと音声データとを含む分割データを生成して(ステップS114)、所定のフォルダに保存する(ステップS116)。
 図10は、分割データ記憶部136に保存された分割データのテキストデータの一例を示す図である。分割データのテキストデータは、音声認識結果記憶部134に記憶された音声認識結果のテキストデータと同じ形式で生成される。つまり、分割データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
 図11は、本実施の形態における編集処理装置200の構成を示す図である。
 編集処理装置200は、表示処理部210(第2の表示処理手段)、指示受付部212、音声再生部214、編集処理部218(編集処理手段)、データ取得・送出部220、および記憶部230を含む。記憶部230は、分割データ記憶部236および編集済データ記憶部238を含む。
 データ取得・送出部220は、編集管理装置100の記憶部130の分割データ記憶部136や編集済データ記憶部138にアクセスし、分割データを取得したり、編集済データを保存したりする。分割データ記憶部236は、データ取得・送出部220が分割データ記憶部136から取得した分割データを記憶する。データ取得・送出部220が取得した分割データは、図10に示したのと同様の構成を有する。
 表示処理部210、指示受付部212、および音声再生部214は、それぞれ、編集管理装置100の表示処理部110、指示受付部112、および音声再生部114と同様の機能を有する構成とすることができる。
 表示処理部210は、分割データに含まれるテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル(キャレット)を表示する。表示処理部210の機能は、表示処理部110と同様のテキストエディタにより実現することができる。
 図12は、表示処理部210によりディスプレイに表示されるテキストエディタの画面500を示す図である。画面500には、テキスト表示領域502、時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、速度変更ボタン410等が表示されている。テキスト表示領域502には、分割データのテキストデータと、カーソル520とが表示される。時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、および速度変更ボタン410は、図5から図8を参照して説明したのと同様の機能を有する。ここでは説明を省略する。
 図13は、図12に示した状態の表示処理部210の管理テーブルを示す図である。
 表示処理部210は、行毎に、当該行に含まれる文字列(text)、文(sentences)および単語(words)の識別情報を保持する。また、各文および各単語毎に、それぞれ開始位置(start)と文字長(len)を示す情報を保持する。
 以下、図12に示した画面500のテキスト表示領域502の3行目の文字列について説明する。3行目には、「ならびにC市の学校長やB県の市町村教育委員会の綿棒」と表示されている。図13の「L3」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最後の2文字「綿棒」は、図10を参照すると「s12_w16」で識別される。そのため、開始位置はゼロ、文字長は2であり、「s12_w16,start=0,len=2」と記入される。
 図11に戻り、指示受付部212は、表示処理部210により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、表示処理部210に表示されたテキストデータへの編集を受け付ける。音声再生部214は、分割データ記憶部236から分割データに含まれる音声データを読み出し、音声を再生する。音声再生部214は、時刻が指定されると、当該時刻に対応する音声データを出力する。本実施の形態において、編集処理装置200のユーザは、表示処理部210により表示されたテキストデータを見ながら、対応する音声データを再生させて、音声認識結果が正しいか否かを判断する。音声認識結果に間違い等があった場合、対応する部分を修正して編集する。
 編集処理部218は、指示受付部212が表示処理部210に表示されたテキストデータへの編集を受け付けると、分割データのテキストデータの対応する単語を書き換える。また、いずれかの単語が削除されると、分割データのテキストデータのその単語に対応する部分をnull文字列に書き換える。また、ある単語に新たな文字列が入力されると、分割データのテキストデータの対応する箇所にその文字列を挿入する。
 次に、図14から図16を参照して、画面500のテキスト表示領域502に表示されたテキストデータを編集する手順を説明する。
 ユーザがマウス等によりカーソル520で3行目の「綿棒」を選択して(図14)、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される。また、同様に、ユーザがマウス等によりカーソル520で5行目の「綿棒」を選択して(図15)、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される(図16)。テキスト表示領域502に表示されたテキストデータが編集されると、表示処理部210の管理テーブルも変化する。
 図17は、図16に示した状態の表示処理部210の管理テーブルを示す図である。
 ここでは、3行目(L3)の表示情報は、図13に示したのと同様であるが、3行目の「綿棒」を「メンバー」に変更したことにより、4行目以降に表示される単語が変更されている。たとえば、4行目(L4)の最初の単語は、図13に示した例では「を」を示す「s12_w17,start=0,len=1」であるが、図17では、「メンバー」の「バー」を示す「s12_w16,start=2,len=2」となる。
 また、図16に示した画面500において、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス530が表示される。ボックス530には、保存ボタン532が表示される。ここで、ユーザが保存ボタン532を選択すると、編集されたデータが編集済データとして編集済データ記憶部238に保存される。ここで、ファイル名は、自動的に付されるようにすることもでき、またユーザが入力できるようにすることもできる。
 図18は、編集済データ記憶部238に保存された編集済データのテキストデータの一例を示す図である。編集済データは、分割データのテキストデータと同じ形式で生成される。つまり、編集済データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
 ここで、「綿棒」を「メンバー」と変更すると、文字数は2から4に増加する。しかし、この単語に対応づけられた時刻情報は変化しない。そのため、図16に示した画面500において、メンバーに該当する位置にカーソル520をおくと、もともと「綿棒」に対応づけられていたのと同様の音声データが再生される。ある単語を除去してしまうと、その単語は画面500のテキスト表示領域502には表示されなくなる。そのため、削除した単語に対応する時刻情報の音声データは、テキスト表示領域502上でカーソル520を移動させることによっては再生できなくなる。しかし、音声データは、消去されるのではないため、その単語の前後の単語から連続音声再生等を行うことにより再生することができる。
 編集作業が終了すると、ユーザの指示により、データ取得・送出部220は、編集済データを編集管理装置100の編集済データ記憶部138に保存する。
 また、本実施の形態において、編集管理装置100は、テキストデータに含まれる所定の文字列に対して、つなぎ文字登録をする機能を有する構成とすることができる。ここで、つなぎ文字とは、複数の分割データに重複して含まれるべき共通文字列とすることができる。このようなつなぎ文字を登録しておくことにより、つなぎ文字をキーとして分割データを統合することができ、簡易かつ精度よく統合データを生成することができる。
 図19および図20を参照して、画面400のテキスト表示領域402に表示されたテキストデータにつなぎ文字登録をする手順を説明する。
 ユーザがマウス等によりカーソル420で2行目の「昨年」を選択して(422は選択範囲)、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される。この手順は、図7を参照して説明したのと同様である。ここで、ボックス430には、分割データ生成ボタン432に加えてさらにつなぎ文字登録ボタン434が表示される。ここで、ユーザがつなぎ文字登録ボタン434を選択すると、この文字列がつなぎ文字として登録される。
 図20に示すように、表示処理部110は、つなぎ文字を枠424で囲む等して強調表示把握可能に表示することができる。編集管理装置100のユーザが分割データを生成する処理を行う前につなぎ文字を登録しておくことにより、ユーザが画面400を見て、つなぎ文字を境界として分割データの範囲を選択するようにすることができる。なお、つなぎ文字が登録されている場合、つなぎ文字が複数の分割データに共通に含まれるようにすることができる。図21にこの例を示す。ここでは、「昨年」がつなぎ文字として登録されている。この場合、それぞれこのつなぎ文字を含む第1の分割データ450および第2の分割データ452を生成することができる。これにより、第1の分割データ450および第2の分割データ452それぞれへの編集処理が終了した後に、「昨年」というつなぎ文字をキーとして統合データを生成することができる。
 また、本実施の形態において、編集管理装置100は、テキストデータの所定の位置に、任意の再生開始位置をマーキングするためのインデックスを付与する機能を有する構成とすることができる。ユーザが表示されたテキストデータの所定の位置にインデックスを付与することにより、その位置から再生可能とすることができる。
 図22を参照して、画面400のテキスト表示領域402に表示されたテキストデータにインデックスを付与する手順を説明する。
 ユーザがマウス等により2行目の「昨年」の前にカーソル420を移動して、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される。この手順は、図19を参照して説明したのと同様である。ここで、ボックス430には、分割データ生成ボタン432およびつなぎ文字登録ボタン434に加えてさらにインデックス付与ボタン436が表示される。ここで、ユーザがインデックス付与ボタン436を選択すると、この位置にインデックスが付与される。
 ユーザがつなぎ文字やインデックスを登録した場合、図23に示すように、音声認識結果記憶部134の対応する単語にフラグが付される。
 以上のように、本実施の形態における編集支援システム300によれば、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。
 なお、図2に示した編集管理装置100および図11に示した編集処理装置200の各構成要素は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。編集管理装置100および編集処理装置200の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェイスを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 たとえば、図2を参照して説明した音声取得部102が取得した音声データと、音声認識部104が処理した音声認識結果のテキストデータとは、一つのファイルに含めた構成とすることができる。つまり、図4に示した音声認識結果のテキストデータが、音声データに対応づけられ、一つのファイルとして構成することができる。また、図2に示した、音声データ記憶部132および音声認識結果記憶部134は、機能的に分離して示したものであり、これらは物理的には明確に分離されていなくてもよい。
 また、編集管理装置100および編集処理装置200は、それぞれ、たとえばパーソナルコンピュータ等の装置10により構成される。図24は、編集管理装置100や編集処理装置200を構成する装置10のハードウェア構成を示すブロック図である。
 装置10は、CPU12、メモリ14、HDD(ハードディスク)16、通信IF(インターフェイス)18、ディスプレイ30、操作部32、音声出力装置34、およびこれらを接続するバス40を含む。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 以上の実施の形態では、編集処理装置200が編集管理装置100にアクセスして分割データを取得する構成を示したが、編集管理装置100は、分割データを生成すると、適宜編集処理装置200に分割データを配信して編集依頼をするようにすることもできる。
 また、以上の実施の形態においては、分割データが、テキストデータに対応する部分の音声データを含む構成を示した。これにより、各編集処理装置200で取得する分割データのデータ量を減らすことができる。しかし、分割データに含まれる音声データは、音声認識結果のテキストデータ全体に対応するものとすることもできる。この場合でも、編集処理装置200のユーザは、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。さらに、分割データは、音声データを含まない構成とすることもできる。この場合、編集処理装置200のユーザは、編集管理装置100の音声データ記憶部132にアクセスして、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。
 この出願は、2009年6月18日に出願された日本出願特願2009-145529号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (10)

  1.  音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
     前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
     前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段と、
     前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
     前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
    を含む音声認識結果の編集支援システム。
  2.  請求項1に記載の編集支援システムにおいて、
     前記分割データ生成手段は、前記テキストデータを抽出するとともに、前記音声データ記憶手段から、当該テキストデータに対応する音声データを抽出し、
     前記分割データは、抽出された前記テキストデータと前記音声データとを含む編集支援システム。
  3.  請求項1または2に記載の編集支援システムにおいて、
     前記第1の表示処理手段は、前記テキストデータを少なくとも単語単位で前記カーソルに対する相対位置情報に対応づけて表示する編集支援システム。
  4.  請求項1から3いずれかに記載の編集支援システムにおいて、
     前記分割データ生成手段は、前記分割データを、前記分割データに対して編集処理を行う装置毎に準備された予め設定された所定のフォルダに保存する編集支援システム。
  5.  請求項1から4いずれかに記載の編集支援システムにおいて、
     前記第1の表示処理手段により表示された前記テキストデータにおいて、前記カーソルで選択された単語に対応づけられた前記時刻情報に基づき、対応する音声データを再生する音声再生手段をさらに含む編集支援システム。
  6.  請求項1から5いずれかに記載の編集支援システムにおいて、
     前記分割データ生成手段は、複数の前記分割データを生成し、
     前記複数の分割データの前記テキストデータを、前記時刻情報に基づき、時刻順に並べて統合するデータ統合手段をさらに含む編集支援システム。
  7.  請求項1から6いずれかに記載の編集支援システムにおいて、
     前記分割データ生成手段は、複数の前記分割データを生成し、
     前記第1の表示処理手段は、複数の分割データに重複して含まれるべき共通文字列であるつなぎ文字を把握可能に表示する編集支援システム。
  8.  請求項1から7いずれかに記載の編集支援システムにおいて、
     前記分割データを取得するデータ取得手段と、
     前記データ取得手段が取得した前記分割データに含まれる前記テキストデータを、所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第2の表示処理手段と、
     前記第2の表示処理手段により表示された前記テキストデータへの編集を受け付け、編集済データを生成する編集処理手段と、
    をさらに含む編集支援システム。
  9.  音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示ステップと、
     前記第1の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
     前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
    を含む音声認識結果の編集支援方法。
  10.  コンピュータを、
     音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
     前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
     前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段、
     前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
     前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
    として機能させる音声認識結果の編集支援プログラム。
PCT/JP2010/004060 2009-06-18 2010-06-17 編集支援システム、編集支援方法および編集支援プログラム WO2010146869A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011519574A JP5533865B2 (ja) 2009-06-18 2010-06-17 編集支援システム、編集支援方法および編集支援プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-145529 2009-06-18
JP2009145529 2009-06-18

Publications (1)

Publication Number Publication Date
WO2010146869A1 true WO2010146869A1 (ja) 2010-12-23

Family

ID=43356199

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/004060 WO2010146869A1 (ja) 2009-06-18 2010-06-17 編集支援システム、編集支援方法および編集支援プログラム

Country Status (2)

Country Link
JP (1) JP5533865B2 (ja)
WO (1) WO2010146869A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017026822A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2017026821A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2018059989A (ja) * 2016-10-03 2018-04-12 株式会社アドバンスト・メディア 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム
JP2019197210A (ja) * 2018-05-08 2019-11-14 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP2021128744A (ja) * 2020-09-16 2021-09-02 株式会社時空テクノロジーズ 情報処理装置、情報処理システム、および、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272990A (ja) * 2000-03-28 2001-10-05 Fuji Xerox Co Ltd 対話記録編集装置
JP2003131694A (ja) * 2001-08-04 2003-05-09 Koninkl Philips Electronics Nv 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3668892B2 (ja) * 2002-08-21 2005-07-06 株式会社大和速記情報センター デジタル速記システム
JP2008009693A (ja) * 2006-06-29 2008-01-17 Advanced Media Inc 聞き起こしシステム、そのサーバ及びサーバ用プログラム
JP2009009410A (ja) * 2007-06-28 2009-01-15 Hiroshi Ueno 文章編集支援システムおよびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272990A (ja) * 2000-03-28 2001-10-05 Fuji Xerox Co Ltd 対話記録編集装置
JP2003131694A (ja) * 2001-08-04 2003-05-09 Koninkl Philips Electronics Nv 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017026822A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2017026821A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2018059989A (ja) * 2016-10-03 2018-04-12 株式会社アドバンスト・メディア 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム
JP2019197210A (ja) * 2018-05-08 2019-11-14 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP2021128744A (ja) * 2020-09-16 2021-09-02 株式会社時空テクノロジーズ 情報処理装置、情報処理システム、および、プログラム
JP7048113B2 (ja) 2020-09-16 2022-04-05 株式会社時空テクノロジーズ 情報処理装置、情報処理システム、および、プログラム

Also Published As

Publication number Publication date
JPWO2010146869A1 (ja) 2012-11-29
JP5533865B2 (ja) 2014-06-25

Similar Documents

Publication Publication Date Title
JP4347223B2 (ja) マルチメディア文書における多モード特性に注釈を付けるためのシステムおよび方法
US20140169767A1 (en) Method and system for rapid transcription
CN106716466B (zh) 会议信息储存装置以及方法
CN100418085C (zh) 信息处理装置和方法
US6915258B2 (en) Method and apparatus for displaying and manipulating account information using the human voice
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
JP5533865B2 (ja) 編集支援システム、編集支援方法および編集支援プログラム
JP2010140506A (ja) 文書に注釈を付ける装置
WO2005040966A2 (en) Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
CN106126157A (zh) 基于医院信息***的语音输入方法及装置
JP2021067830A (ja) 議事録作成システム
JP2010238050A (ja) 閲覧システム、方法、およびプログラム
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
EP1079313A2 (en) An audio processing system
CN110335583B (zh) 一种带隔断标识的复合文件生成及解析方法
US20210383813A1 (en) Storage medium, editing support method, and editing support device
JP2008216965A (ja) 音楽と一体化した形式でメールを画面に表示する方法
JP4260641B2 (ja) 検索結果処理装置、検索結果処理プログラム、検索結果処理プログラム記録媒体及び検索結果処理システム
JPH08153104A (ja) ハイパーメディアシステムおよびハイパーメディア文書作成・編集方法
JP2011150169A (ja) 音声認識装置
JP4452122B2 (ja) メタデータ生成装置及びメタデータ生成プログラム
JP6650636B1 (ja) 翻訳装置、その制御方法およびプログラム
KR101468411B1 (ko) 사용자 지향적 미디 음악 재생편집 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10789248

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011519574

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10789248

Country of ref document: EP

Kind code of ref document: A1