WO2021059968A1 - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
WO2021059968A1
WO2021059968A1 PCT/JP2020/033974 JP2020033974W WO2021059968A1 WO 2021059968 A1 WO2021059968 A1 WO 2021059968A1 JP 2020033974 W JP2020033974 W JP 2020033974W WO 2021059968 A1 WO2021059968 A1 WO 2021059968A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
language
target
recognition
Prior art date
Application number
PCT/JP2020/033974
Other languages
English (en)
French (fr)
Inventor
秀治 古明地
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/760,847 priority Critical patent/US20220335951A1/en
Priority to JP2021548767A priority patent/JP7416078B2/ja
Publication of WO2021059968A1 publication Critical patent/WO2021059968A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to a voice recognition device, a voice recognition method, and a program.
  • Patent Document 1 describes an example of a device for producing subtitles from voice.
  • the voice recognition unit recognizes the target voice or the voice obtained by reciting the target voice and converts it into text
  • the text division / combination unit divides the text after voice recognition to generate subtitle text. To do.
  • voice information input from a microphone is converted into text information by using a voice / text conversion unit and transmitted to a mobile phone by using a text transmission unit, and further, a text reception unit It is described that the received text information is converted into voice information by using the text / voice conversion unit and output from the speaker.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for improving speech recognition accuracy in transcribing speech.
  • the first aspect relates to voice recognition recognition.
  • the voice recognition device is A voice reproduction means for reproducing the target voice for voice recognition divided into predetermined sections for each predetermined section, and A voice recognition means for recognizing a spoken voice in which the user repeats the target voice for each target voice.
  • a text information generating means that generates text information of the spoken voice based on the recognition result of the voice recognition means, and It has a storage means for storing the utterance voice and the recognition result corresponding to the utterance voice as learning data in association with the identification information for each user.
  • the voice recognition means recognizes using a recognition engine learned from the learning data for each user.
  • the second aspect relates to a speech recognition method performed by at least one computer.
  • the voice recognition method according to the second aspect is The voice recognition device
  • the target voice for voice recognition which is divided into predetermined sections, is reproduced for each predetermined section.
  • the user recognizes the spoken voice that repeats the target voice.
  • the text information of the utterance voice is generated.
  • the identification information for each user is associated with the uttered voice and the recognition result corresponding to the uttered voice, and stored as learning data.
  • recognizing the uttered voice it includes recognizing using a recognition engine learned from the learning data for each user.
  • this invention may be a program that causes at least one computer to execute the method of the second aspect, or a recording medium that can be read by a computer that records such a program. You may.
  • This recording medium includes non-temporary tangible media.
  • This computer program includes computer program code that causes the computer to perform its speech recognition method on a speech recognition device when executed by the computer.
  • the various components of the present invention do not necessarily have to be independent of each other, and a plurality of components are formed as one member, and one component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, and the like.
  • the order of description does not limit the order in which the plurality of procedures are executed. Therefore, when implementing the method and computer program of the present invention, the order of the plurality of procedures can be changed within a range that does not hinder the contents.
  • the method of the present invention and the plurality of procedures of the computer program are not limited to being executed at different timings. Therefore, another procedure may occur during the execution of a certain procedure, a part or all of the execution timing of the certain procedure and the execution timing of the other procedure may overlap, and the like.
  • acquisition means that the own device retrieves data or information stored in another device or storage medium (active acquisition), and is output to the own device from the other device. Includes at least one of entering data or information (passive acquisition).
  • active acquisition include making a request or inquiry to another device and receiving the reply, and accessing and reading another device or storage medium.
  • passive acquisition may be receiving information to be delivered (or transmitted, push notification, etc.).
  • acquisition may be to select and acquire the received data or information, or to select and receive the delivered data or information.
  • FIG. 1 is a block diagram conceptually showing a configuration example of the voice recognition system 1 according to the embodiment of the present invention.
  • the voice recognition system 1 of the present embodiment is a system for transcribing voice into text.
  • the voice recognition system 1 includes a voice recognition device 100, a voice input unit such as a microphone 4, and a voice output unit such as a speaker 6.
  • the speaker 6 is preferably, but is not limited to, headphones worn by the user U so that the output voice is not input to the microphone 4.
  • the user U listens to the original voice of the voice recognition target (hereinafter, also referred to as the recognition target voice data 10) output from the speaker 6, and the spoken voice 20 repeated by the user U is input from the microphone 4.
  • the voice recognition device 100 performs voice recognition processing to generate text information (hereinafter, also referred to as text data 30).
  • the voice recognition device 100 has a voice recognition engine 200.
  • the speech recognition engine 200 has various models, for example, a language model 210, an acoustic model 220, and a word dictionary 230.
  • the voice recognition device 100 recognizes the utterance voice 20 in which the user U repeats the recognition target voice data 10 using the voice recognition engine 200, and outputs the text data 30 as the recognition result.
  • each model used in the voice recognition engine 200 is provided for each speaker.
  • the original voice data 10 to be recognized has variations in pronunciation, speed, volume, etc. depending on the person who spoke, has habits for each person, and has a recording environment (environment, recording equipment, type of recorded data, etc.). Due to various reasons, the sound quality may not meet the level applicable to speech recognition. Therefore, the recognition accuracy is lowered and erroneous recognition occurs. Therefore, the user U called an annotator recites the utterance content included in the heard recognition target voice data 10 by listening to the original recognition target voice data 10 output from the speaker 6.
  • the voice recognition device 100 recognizes the utterance voice 20 repeated by the user U under certain conditions. It is preferable that the user U repeats (utters) the utterance speed, utterance, etc. so as to be a standard suitable for voice recognition.
  • the voice recognition device 100 of the present embodiment learns the characteristics and habits of the spoken voice of the annotator. As a result, the recognition accuracy of the voice recognition device 100 is increased.
  • FIG. 2 is a functional block diagram showing a logical configuration example of the voice recognition device 100 according to the embodiment of the present invention.
  • the voice recognition device 100 includes a voice reproduction unit 102, a voice recognition unit 104, a text information generation unit 106, and a storage processing unit 108.
  • the voice reproduction unit 102 reproduces the original target voice for voice recognition (hereinafter, also referred to as section voice 12 (see FIG. 5)) divided into predetermined sections toward the user U for each predetermined section.
  • the voice recognition unit 104 recognizes the utterance voice 20 in which the user U repeats the section voice 12 for each section voice 12.
  • the voice recognition unit 104 uses a model for each user U, for example, a language model 210 for each user U, an acoustic model 220, and a word dictionary 230.
  • Each model for each user U is stored in, for example, a storage device 110.
  • the text information generation unit 106 generates text information (text data 30) of the spoken voice 20 recognized by the voice recognition unit 104.
  • the storage processing unit 108 stores the identification information for each user U (indicated as the user ID in the figure), the uttered voice 20 and the recognition result corresponding to the uttered voice 20 as learning data 240 (FIG. 6) in association with each other. Store in device 110.
  • FIG. 3 is a block diagram illustrating a hardware configuration of a computer 1000 that realizes the voice recognition device 100 shown in FIG.
  • the computer 1000 has a bus 1010, a processor 1020, a memory 1030, a storage device 1040, an input / output interface 1050, and a network interface 1060.
  • the bus 1010 is a data transmission path for the processor 1020, the memory 1030, the storage device 1040, the input / output interface 1050, and the network interface 1060 to transmit and receive data to and from each other.
  • the method of connecting the processors 1020 and the like to each other is not limited to the bus connection.
  • the processor 1020 is a processor realized by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the memory 1030 is a main storage device realized by a RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the storage device 1040 stores a program module that realizes each function of the computer 1000. When the processor 1020 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
  • the storage device 1040 also stores each model of the voice recognition engine 200.
  • the program module may be recorded on a recording medium.
  • the recording medium on which the program module is recorded includes a medium that can be used by the non-temporary tangible computer 1000, and the program code that can be read by the computer 1000 (processor 1020) may be embedded in the medium.
  • the input / output interface 1050 is an interface for connecting the computer 1000 and various input / output devices.
  • the network interface 1060 is an interface for connecting the computer 1000 to the communication network.
  • This communication network is, for example, LAN (Local Area Network) or WAN (Wide Area Network).
  • the method of connecting the network interface 1060 to the communication network may be a wireless connection or a wired connection.
  • the computer 1000 is connected to necessary devices (for example, the microphone 4 and the speaker 6) via the input / output interface 1050 or the network interface 1060.
  • the computer 1000 that realizes the voice recognition device 100 is, for example, a personal computer, a smartphone, a tablet terminal, or the like.
  • the computer 1000 that realizes the voice recognition device 100 may be a dedicated terminal device.
  • the voice recognition device 100 is realized by installing and starting an application program for realizing the voice recognition device 100 on the computer 1000.
  • the computer 1000 is a web server, and the user activates a browser on a user terminal such as a personal computer, a smartphone, or a tablet terminal to provide the service of the voice recognition device 100 via a network such as the Internet. By accessing the page, the function of the voice recognition device 100 may be used.
  • the computer 1000 may be a server device of a system such as SaaS (Software as a Service) that provides the service of the voice recognition device 100.
  • SaaS Software as a Service
  • the user may access the server device from a user terminal such as a personal computer, a smartphone, or a tablet terminal via a network such as the Internet, and the voice recognition device 100 may be realized by a program running on the server device.
  • FIG. 4 is a flowchart showing an example of the operation of the voice recognition device 100 of the present embodiment.
  • FIG. 5 is a diagram for explaining the relationship of information in the voice recognition device 100 of the present embodiment.
  • the voice reproduction unit 102 reproduces the original target voice for voice recognition divided into predetermined sections (step S101). Specifically, the voice reproduction unit 102 divides the recognition target voice data 10 into predetermined sections and outputs the recognition target voice data 10 via the speaker 6. Sa1, Sa2, and Sa3 in FIG. 5 are each section voice 12.
  • the predetermined section is, for example, a section including at least one of a sentence, a phrase, and a word included in the voice to be recognized.
  • Each section may contain multiple sentences, clauses, and words. The number of sentences, clauses and words contained in each section does not have to be constant.
  • the voice reproduction unit 102 reproduces the section voice 12 by dividing the recognition target voice data 10 for each section including any one of a sentence, a phrase, and a word. During each section voice 12, there may be no sound, or a predetermined notification sound may be output.
  • the voice recognition unit 104 recognizes the section voice 12 by using the voice recognition engine 200 including the language model 210, the acoustic model 220, and the word dictionary 230.
  • the voice recognition device 100 stores each model (for example, language model 210, acoustic model 220, and word dictionary 230) used in the voice recognition engine 200 for each user U.
  • Each model is generated by learning the voice of the corresponding user U and its recognition result. Therefore, each model reflects the voice characteristics and habits of the corresponding user U. The learning of the model will be described in the embodiment described later.
  • Each model is associated with a user ID that identifies the user U.
  • the voice recognition unit 104 acquires the user ID of the user U, and reads out and prepares the voice recognition engine 200 corresponding to the acquired user ID.
  • the method of acquiring the user ID is exemplified below.
  • biometric information such as a voiceprint may be used instead of the user ID.
  • the identification information for example, individual identification information (UID: User Identifier), IMEI (International Mobile Equipment Identity), etc.
  • UID User Identifier
  • IMEI International Mobile Equipment Identity
  • the identification information of the mobile terminal that has activated the voice recognition device 100 is acquired as the user ID.
  • a list of pre-registered users is displayed and the user U is made to select. Acquire the user ID associated with the user in advance.
  • the voice recognition unit 104 recognizes the utterance voice 20 repeated by the user U (step S103).
  • the utterance voice 20 of the user U is input to the voice recognition unit 104 via the microphone 4.
  • the user U listens to the section voice 12 reproduced by the voice reproduction unit 102 and repeats the voice. User U repeats every time he hears the section voice 12.
  • Sb1, Sb2, and Sb3 in FIG. 5 are the utterance voices 20.
  • the voice recognition unit 104 detects the division of each utterance voice 20 to be input by detecting the silent section ss between each utterance voice 20 repeated by the user U.
  • the voice recognition unit 104 recognizes each of the detected utterance voices 20, and passes the recognition result 22 to the text information generation unit 106.
  • T1, T2, and T3 in FIG. 5 are the recognition results 22.
  • the text information generation unit 106 generates the text information (text data 30) of the utterance voice 20 (step S105).
  • the text information generation unit 106 sequentially acquires the recognition result 22 of the utterance voice 20 corresponding to each section voice 12 from the voice recognition unit 104, and connects these to generate the text data 30 corresponding to the series of utterance voice 20.
  • the recognition result 22 acquired from the voice recognition unit 104 may include information such as likelihood.
  • the text information generation unit 106 creates a sentence by connecting the recognition results 22 corresponding to the utterance voice 20 of each section voice 12 by using the language model 210 and the word dictionary 230, and generates the text data 30.
  • the text data 30 is a text format file in which the generated text is described.
  • the storage processing unit 108 associates the utterance voice 20 and the recognition result 22 for each user U and stores them in the storage device 110 as learning data 240 (step S107).
  • FIG. 6 is a diagram showing an example of the data structure of the learning data 240.
  • the learning data 240 stores the identification information (user ID) of the user U, the utterance voice 20, and the recognition result 22 in association with each other.
  • the voice recognition unit 104 can perform voice recognition using the voice recognition engine 200 that has learned the utterance characteristics of each user U, so that the recognition accuracy can be improved.
  • the voice recognition device 100 of the present embodiment has a configuration in which the repeat of the user U performs processing according to the repeat state of the user U, such as when the repeat of the user U cannot catch up with the voice reproduction by the voice reproduction unit 102. Except for the points, it is the same as the above embodiment. Since the voice recognition device 100 of the present embodiment has the same configuration as the voice recognition device 100 of FIG. 2, it will be described with reference to FIG.
  • ⁇ Function configuration example> When the voice recognition unit 104 does not recognize the spoken voice 20 repeated by the user within a certain period of time, the voice reproduction unit 102 interrupts the reproduction of the section voice 12, and then the section before the time when the reproduction is interrupted. The reproduction of the section voice 12 is restarted from.
  • the voice reproduction unit 102 does not interrupt the reproduction of the section voice 12 when the utterance voice 20 repeated by the user U is not recognized in the section different from the section in which the section voice 12 divided in advance is reproduced.
  • the section different from the section in which the pre-divided section voice 12 is reproduced is, for example, a non-reproduced section between each of the plurality of section voices 12 that are reproduced by dividing the recognition target voice data 10. ..
  • the interval of the non-regeneration section is the time interval ts.
  • the voice reproduction unit 102 sets the reproduction speed of the target voice (section voice 12) of a certain section according to the voice input speed when the spoken voice 20 repeated by the user U is input to the section before the section. And change.
  • the playback speed control method is exemplified below, but is not limited to these.
  • the voice reproduction unit 102 makes the reproduction speed slower than the predetermined speed if the input speed of the utterance voice 20 is slower than the predetermined speed, and determines the reproduction speed if the input speed of the utterance voice 20 is faster than the predetermined speed. Faster than the speed of.
  • the voice reproduction unit 102 may reproduce the original voice (section voice 12) to be recognized at the same speed as the input speed of the utterance voice 20.
  • FIG. 7 is a flowchart showing an example of the operation of the voice recognition device 100 of the present embodiment.
  • FIG. 8 is a diagram for explaining the relationship of information in the voice recognition device 100 of the present embodiment.
  • the flowchart of FIG. 7 operates, for example, every time the voice reproduction unit 102 outputs each section voice 12 of the recognition target voice data 10 in step S101 of FIG.
  • the voice reproduction unit 102 determines whether or not the voice recognition unit 104 has recognized the spoken voice 20 repeated by the user within a certain time (step S111). This determination method is exemplified below. (1) Every time the voice recognition unit 104 recognizes the utterance voice 20 of the user U (when the utterance voice 20 is detected or when the recognition result 22 is generated), the voice recognition unit 104 notifies the voice reproduction unit 102 of the recognition. To do. The voice reproduction unit 102 measures the time interval of the notification from the voice recognition unit 104, and determines whether or not it is within a certain time Tx. (2) Each time the voice recognition unit 104 recognizes the utterance voice 20 of the user U, the voice recognition unit 104 notifies the voice reproduction unit 102 of the recognition.
  • the voice reproduction unit 102 When the voice reproduction unit 102 acquires the notification within a certain time Tx from the time when the section voice 12 is reproduced (reproduction start or reproduction end), the voice reproduction unit 102 determines that it has been recognized and acquires the notification within a certain time Tx. If not, it is determined that it is not recognized. (3) When the voice recognition unit 104 cannot recognize the next utterance voice 20 within Tx for a certain period of time from the time when the utterance voice 20 repeated by the user U last time is recognized, the voice recognition unit 104 informs the voice reproduction unit 102 to that effect. Notice.
  • the recognized time point is, for example, either a time point when the input of the utterance voice 20 is detected or a time point when the recognition result 22 of the utterance voice 20 is generated.
  • the voice reproduction unit 102 inquires the voice recognition unit 104 whether or not the spoken voice 20 can be recognized after a certain period of time has elapsed from the time when the section voice 12 is reproduced (reproduction start or reproduction end). (5) Whether or not the voice recognition unit 102 has input the utterance voice 20 of the user U from the microphone 4 within a certain period of time Tx from the time when the section voice 12 is played back on the voice recognition unit 104 (playback start or playback end). Is detected. The voice reproduction unit 102 determines that the spoken voice 20 is recognized when it is input, and determines that it is not recognized when there is no input.
  • the voice reproduction unit 102 interrupts the reproduction of the section voice 12 (step S113).
  • the voice recognition unit 104 generates the recognition result 22 of T1 at a time t1 within a certain time Tx from the time when the voice reproduction unit 102 starts reproducing the section voice 12 of Sa1. Therefore, the voice reproduction unit 102 reproduces the section voice 12 of Sa2 in the next section.
  • the audio reproduction unit 102 interrupts the reproduction of the section audio 12 of Sa3.
  • the voice reproduction unit 102 resumes the reproduction of the section audio 12 from the time before the time when the reproduction is interrupted (step S115).
  • the audio reproduction unit 102 interrupts the reproduction of the section audio 12 of Sa3, and then reproduces the previous section audio 12 of Sa2 again.
  • the user U repeats the section voice 12 of the Sa2.
  • the voice recognition unit 104 can recognize the spoken voice 20 of Sb2.
  • FIG. 9 is a flowchart showing another operation example of the voice recognition device 100 of the present embodiment.
  • the flowchart of FIG. 9 includes step S121 between steps S111 and S113 of the flowchart of FIG. 7.
  • step S111 When the voice reproduction unit 102 does not recognize the spoken voice 20 repeated by the user U (YES in step S111), the voice reproduction unit 102 in a section (non-reproduction section) different from the section in which the pre-divided section voice 12 is reproduced (step). YES in S121), step S113 and step S115 are bypassed, and the reproduction of the section voice 12 is not interrupted.
  • the voice reproduction unit 102 When the voice reproduction unit 102 does not recognize the spoken voice 20 repeated by the user U (YES in step S111), the voice reproduction unit 102 is not a section (non-reproduction section) different from the section in which the pre-divided section voice 12 is reproduced (YES in step S111). The process proceeds to step S121 (NO) and step S113, and the reproduction of the section voice 12 is interrupted.
  • step S111 the voice reproduction unit 102 measures the time of the non-reproduction section between the reproduced section sounds 12, and adds the time interval ts of the non-reproduction section to the fixed time Tx. You may judge.
  • FIG. 10 is a flowchart showing still another operation example of the voice recognition device 100 of the present embodiment.
  • the flowchart of FIG. 10 operates at all times, on a regular basis, or when requested.
  • the voice reproduction unit 102 measures the input speed of the utterance voice 20 input to the microphone 4.
  • the input speed is, for example, at least one of the number of words, the number of characters, and the number of phonemes in a unit time.
  • the voice reproduction unit 102 adjusts the reproduction speed according to the input speed of the utterance voice 20.
  • the playback speed like the input speed, is at least one of the number of words, the number of characters, and the number of phonemes in a unit time. Then, the voice reproduction unit 102 adjusts the reproduction speed to be equal to or less than the input speed of the utterance voice 20, and reproduces the section voice 12.
  • the voice reproduction unit 102 can control the reproduction of the section voice 12 according to the voice recognition state and the input speed of the utterance voice 20, so that the user can control the reproduction. Even if U's recitation cannot keep up, the work can be returned smoothly without stagnation. Further, according to the present embodiment, since the reproduction speed can be adjusted to the repeat speed of the user U, the reproduction of the section voice 12 is appropriately adjusted even when the utterance speed of the user U is fast or slow. it can. As a result, the user U can continue to work comfortably without catching up with the repeats or having time to spare.
  • the voice recognition device 100 of the present embodiment is the same as any of the above-described embodiments except that it has a configuration for machine learning the recognition result of the utterance voice 20 of the user U.
  • the voice recognition device 100 of the present embodiment will be described with reference to FIG.
  • the storage processing unit 108 associates the utterance voice 20 repeated by the user U with the section voice 12 of the predetermined section and stores it as learning data 240. ..
  • FIG. 11 is a diagram showing an example of the data structure of the learning data 240 of the present embodiment.
  • the learning data 240 of FIG. 11 stores the section voice 12 in association with the learning data 240 of FIG.
  • the learning data 240 generated in this way is used for machine learning of the voice recognition engine 200 for each user U.
  • each model of the voice recognition engine 200 for each user U is used by using the learning data 240 for each user U generated in this way.
  • a voice recognition engine 200 specialized for the user U can be constructed.
  • the voice recognition device 100 of the present embodiment is the same as any of the above embodiments except that it has a configuration of translating the first language and the first language into a second language, reciting them, and transcribing the voice information into a text. ..
  • the voice recognition unit 104 uses the spoken voice of the repeated first language and the first language as the second language (for example). , Japanese), and each of the spoken voices 20 uttered is recognized.
  • the text information generation unit 106 generates text data 30 of the spoken voices 20 of the first language and the second language, respectively, based on the recognition result by the voice recognition unit 104.
  • the storage processing unit 108 stores the spoken voice 20 of the first language and the second language repeated by the user U and the section voice 12 of the first language reproduced by the voice reproduction unit 102 in association with each other.
  • the first language is English and the second language is Japanese.
  • the first language may be a dialect (eg, Osaka Ben)
  • the second language may be a standard language, or vice versa
  • the first language may be a standard language
  • the second language may be a dialect.
  • the first language may be honorific
  • the second language may be non-honorific, and vice versa.
  • FIG. 12 is a flowchart showing an operation example of the voice recognition device 100 of the present embodiment.
  • the voice reproduction unit 102 divides the target voice for voice recognition in the first language into a predetermined section (section voice 12) and reproduces the target voice (step S141).
  • the voice recognition unit 104 recognizes the spoken voice 20 that the user U repeats in the first language (step S143).
  • the voice recognition unit 104 recognizes the spoken voice 20 that the user U repeats in the second language (step S145).
  • the text information generation unit 106 generates text data 30 based on the recognition result 22 of the utterance voice 20 recognized in steps S143 and S145 (step S147).
  • the storage processing unit 108 associates the user ID, the uttered voice 20 of the first language, the uttered voice 20 of the second language, and the target voice of the first language reproduced by the voice reproduction unit 102 with the translation engine. It is stored in the storage device 110 as learning data 340 (step S149).
  • FIG. 13 is a diagram showing an example of the data structure of the training data 340.
  • the learning data 340 is stored by associating the section voice 12 reproduced by the voice reproduction unit 102 with the utterance voice 20 of the first language and the utterance voice 20 of the second language in the same section. To do. Further, as in the example of FIG. 13B, the learning data 340 may be stored in association with the recognition result of each language.
  • the storage processing unit 108 stores the text data 30 of the first language generated in step S147 and the text data 30 of the second language in association with each other in the storage device 110 (step S151).
  • the user U who has heard the first language recognizes the voice information repeated in the first language and the voice information spoken by translating the first language into the second language, and outputs the text information.
  • the spoken voice 20 in which the first language is repeated, the spoken voice 20 in the second language, and the section voice 12 reproduced by the voice reproducing unit 102 can be stored in association with each other.
  • this information can be used as the learning data 340 of the translation engine.
  • the voice recognition device 100 of the present embodiment is the same as any of the above-described embodiments except that it has a configuration for registering an unknown word.
  • FIG. 14 is a functional block diagram showing a functional configuration example of the voice recognition device 100 of the present embodiment.
  • the voice recognition device 100 further includes a registration unit 120 in addition to the configuration of the voice recognition device 100 of the above embodiment.
  • the registration unit 120 registers in the dictionary a word that cannot be recognized by the voice recognition unit 104 among the words spoken by the user U as an unknown word.
  • FIG. 15 is a flowchart showing an operation example of the voice recognition device 100 of the present embodiment. This flowchart starts, for example, when the voice recognition unit 104 cannot recognize the utterance voice 20 of the user U in step S103 of FIG. 4 (YES in step S151). Then, the registration unit 120 registers the words that cannot be recognized by the voice recognition unit 104 among the words spoken by the user U in the dictionary as unknown words (step S153).
  • the dictionary includes both models such as the language model 210, the acoustic model 220, and the word dictionary 230 for each user U of the present embodiment, and general-purpose models that are not specialized for the user.
  • voice information can be registered in at least one of different units such as a word, n sets of word strings, and phoneme strings. Therefore, the voice information of the words that cannot be recognized by the voice recognition unit 104 may be decomposed into each unit and registered in the dictionary as unknown words.
  • the word registered as an unknown word may be registered by the user U by the same editing function as in the embodiment described later. Alternatively, it may be learned by machine learning or the like.
  • words that cannot be recognized by the voice recognition unit 104 can be registered in the dictionary as unknown words, so that the same effect as that of the above embodiment can be obtained, and the voice recognition engine 200 can be further developed. It is possible to go and improve the recognition accuracy.
  • the voice recognition device 100 of the present embodiment is the same as any of the above-described embodiments except that it has a configuration for editing the recognition target voice data 10.
  • FIG. 16 is a functional block diagram showing a functional configuration example of the voice recognition device 100 of the present embodiment.
  • the voice recognition device 100 of the present embodiment further includes a display processing unit 130 in addition to the configuration of the voice recognition device 100 of the above embodiment.
  • the display processing unit 130 causes the display device 132 to display the text data 30 generated by the text information generation unit 106.
  • the text data 30 may be updated and displayed every time the recognition result 22 is added to the text data 30 by the text information generation unit 106, all the recognition target voice data 10 may be reproduced, or a predetermined range.
  • the text data 30 in the range corresponding to the reproduced voice up to the time when the reproduction up to the end of the reproduction may be displayed after the end of the reproduction.
  • the operation instruction of the user U may be received and displayed.
  • the text information generation unit 106 accepts an editing operation of the text data 30 displayed on the display device 132, and updates the text data 30 according to the editing operation.
  • the user U can perform an editing operation by using an input device 134 such as a keyboard, a mouse, a touch panel, and an operation switch.
  • the storage processing unit 108 may update the recognition result of the learning data 240 corresponding to the updated text data 30.
  • the display device 132 may be included in the voice recognition device 100 or may be an external device.
  • the display device 132 is, for example, a liquid crystal display, a plasma display, a CRT (Cathode Ray Tube) display, an organic EL (ElectroLuminescence) display, or the like.
  • FIG. 17 is a flowchart showing an operation example of the voice recognition device 100 of the present embodiment.
  • the display processing unit 130 causes the display device 132 to display the text data 30 generated by the text information generation unit 106 (step S161). Then, the editing operation of the user U is accepted by the operation menu for accepting the editing operation (step S163).
  • a word whose likelihood of the recognition result 22 by the voice recognition unit 104 is equal to or less than the reference value is highlighted so as to be distinguishable from other parts, and the user U is made to highlight it. You may ask for confirmation. User U can check if the highlighted word is correct and edit it if necessary.
  • the text information generation unit 106 updates the text data 30 according to the editing operation received in step S163 (step S165).
  • the user U can check the transcribed text data 30 and correct it as necessary, so that the accuracy of the transcribed text data 30 is improved.
  • the voice reproduction unit 102 receives the section voice associated with the text of the received portion. 12 may be reproduced.
  • the correctness of the text data 30 can be confirmed by reproducing the section voice 12 that is the source of the text data 30, and further, correction can be made by an editing operation.
  • the voice recognition device 100 may further include a specific unit (not shown) that identifies one of the voice recognition engines 200 existing for each user, which corresponds to the user indicated by the user ID of the learning data.
  • the voice recognition engine 200 corresponding to the user ID of the learning data is specified by the specific unit, and the learning data can be trained by the specified recognition engine 200.
  • a voice reproduction means for reproducing the target voice for voice recognition divided into predetermined sections for each predetermined section, and A voice recognition means for recognizing a spoken voice in which the user repeats the target voice for each target voice.
  • a text information generating means that generates text information of the spoken voice based on the recognition result of the voice recognition means, and A storage means for storing the identification information for each user, the uttered voice, and the recognition result corresponding to the uttered voice as learning data in association with each other.
  • the voice recognition means is a voice recognition device that recognizes using a recognition engine learned from the learning data for each user.
  • the voice reproduction means interrupts the reproduction of the target voice, and then a time point before the time when the reproduction is interrupted. Resume playback of the target audio from the section of 1.
  • the voice recognition device described in. 3. 3.
  • the voice reproduction means does not interrupt the reproduction of the target voice when the spoken voice repeated by the user is not recognized in a section different from the section in which the target voice is reproduced, which is divided in advance. 2.
  • the voice recognition device described in. 4. The voice reproduction means changes the reproduction speed of the target voice in a certain section according to the voice input speed when the spoken voice repeated by the user is input to the section before the section. 1. 1. From 3.
  • the voice recognition device according to any one of the above. 5.
  • the storage means stores the target voice of the predetermined section in association with the spoken voice repeated by the user after the voice reproducing means reproduces the target voice of the predetermined section. 1. 1. From 4. The voice recognition device according to any one of the above. 6.
  • the voice reproduction means after reproducing the voice recognition target voice of the first language, The voice recognition means voice-recognizes the uttered voice of the first language and the uttered voice uttered by translating the first language into a second language, respectively.
  • the text information generating means generates the text information of the spoken voice of the first language and the second language, respectively, based on the recognition result by the voice recognition means.
  • the storage means stores the spoken voice of the first language repeated by the user, the spoken voice of the second language, and the target voice of the first language reproduced by the voice reproducing means in association with each other. Let, 1. 1. From 5. The voice recognition device according to any one of the above. 7. Among the words spoken by the user, a registration means for registering a word that could not be recognized by the voice recognition means as an unknown word in the dictionary is further provided. 1. 1. From 6. The voice recognition device according to any one of the above. 8. A display means for displaying the text information is further provided. 1. 1. From 7. The voice recognition device according to any one of the above. 9. The text information generating means accepts an editing operation of the text information displayed on the display means, and updates the text information according to the editing operation. 8. The voice recognition device described in.
  • the voice recognition device The target voice for voice recognition, which is divided into predetermined sections, is reproduced for each predetermined section. For each target voice, the user recognizes the spoken voice that repeats the target voice. Based on the recognition result of the utterance voice, the text information of the utterance voice is generated. The identification information for each user is associated with the uttered voice and the recognition result corresponding to the uttered voice, and stored as learning data. A voice recognition method for recognizing an uttered voice by using a recognition engine learned from the learning data for each user. 11.
  • the voice recognition device If the user does not recognize the spoken voice repeated by the user within a certain period of time, the reproduction of the target voice is interrupted, and then the reproduction of the target voice is restarted from the section before the time when the reproduction is interrupted. , 10.
  • the voice recognition device In a section different from the section in which the target voice is reproduced, which is divided in advance, the reproduction of the target voice is not interrupted when the spoken voice repeated by the user is not recognized. 11.
  • the voice recognition method described in. 13 The voice recognition device The reproduction speed of the target voice in a certain section is changed according to the voice input speed when the spoken voice repeated by the user is input to the section before the section. 10. From 12.
  • the voice recognition device After playing the target voice in the predetermined section, the spoken voice repeated by the user is associated with the target voice in the predetermined section and stored. 10. To 13. The voice recognition method described in any one of the above. 15. The voice recognition device After playing the voice recognition target voice of the first language The uttered voice of the first language that was repeated and the uttered voice that was uttered by translating the first language into a second language were voice-recognized. Based on the recognition result, the text information of the utterance voice of the first language and the second language is generated, respectively. The uttered voice of the first language recited by the user, the uttered voice of the second language, and the reproduced target voice of the first language are stored in association with each other. 10. From 14.
  • the voice recognition method described in any one of the above. 16 The voice recognition device further Among the words spoken by the user, the unrecognized words are registered in the dictionary as unknown words. 10. To 15. The voice recognition method described in any one of the above. 17. The voice recognition device further Displaying the text information on the display unit, 10. From 16. The voice recognition method described in any one of the above. 18. The voice recognition device The editing operation of the text information displayed on the display unit is accepted, and the text information is updated according to the editing operation. 17. The voice recognition method described in.
  • a procedure for reproducing the target voice for voice recognition divided into predetermined sections for each predetermined section A procedure for recognizing a spoken voice in which a user repeats the target voice for each target voice using a recognition engine learned from the learning data for each user.
  • a procedure for generating text information of the utterance voice based on the recognition result of the utterance voice A program for executing a procedure of associating the utterance voice and the recognition result corresponding to the utterance voice with the identification information for each user and storing them as learning data.
  • In order to make the computer further execute the procedure of registering the unrecognized words in the dictionary as unknown words among the words spoken by the user. 19. From 24.
  • To make the computer further execute the procedure for displaying the text information on the display unit. 19. To 25.
  • the program described in any one of. 27. A procedure for accepting an editing operation of the text information displayed on the display unit and updating the text information according to the editing operation, for causing the computer to execute the procedure. 26.

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

音声認識装置(100)は、所定の区間毎に区切られた音声認識の対象音声を、所定の区間毎に再生する音声再生部(102)と、対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識部(104)と、音声再生部(102)の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成部(106)と、ユーザ別の識別情報と、発話音声および当該発話音声に対応する認識結果と、を関連付けて学習データとして記憶させる記憶処理部(108)と、を有し、音声認識部(104)は、ユーザ別の学習データにより学習された認識エンジンを用いて認識する。

Description

音声認識装置、音声認識方法、およびプログラム
 本発明は、音声認識装置、音声認識方法、およびプログラムに関する。
 音声から字幕を制作する装置の一例が特許文献1に記載されている。特許文献1の装置は、音声認識部が対象音声または対象音声を復唱した音声を音声認識してテキストに変換し、テキスト分割・結合部が音声認識後のテキストを分割処理して字幕テキストを生成する。
 また、特許文献2には、携帯電話機に、マイクから入力された音声情報を、音声/テキスト変換部を用いてテキスト情報に変換してテキスト送信部を用いて送信し、さらに、テキスト受信部が受信したテキスト情報を、テキスト/音声変換部を用いて音声情報に変換してスピーカから出力することが記載されている。
特開2017-40806号公報 特開2007-114582号公報
 音声を復唱する場合、復唱される音声の特徴には個人差が生じ得る。このため、アノテータにより復唱された音声を認識する場合、認識精度にバラツキが生じる可能性がある。このため、音声の書き起こしにおいて音声認識精度が十分に向上しない可能性がある。
 本発明は上記事情に鑑みてなされたものであり、その目的とするところは、音声の書き起こしにおいて音声認識精度を向上する技術を提供することにある。
 本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。
 第一の側面は、音声認認識置に関する。
 第一の側面に係る音声認識装置は、
 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
 前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
 前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
 前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、を有し、
 前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する。
 第二の側面は、少なくとも1つのコンピュータにより実行される音声認識方法に関する。
 第二の側面に係る音声認識方法は、
 音声認識装置が、
 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
 前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
 前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
 前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
 前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、ことを含む。
 なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも1つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
 このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、音声認識装置上で、その音声認識方法を実施させるコンピュータプログラムコードを含む。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。
 さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 上記各側面によれば、音声の書き起こしにおいて音声認識精度を向上する技術を提供することができる。
本発明の実施の形態に係る音声認識システムの構成例を概念的に示すブロック図である。 本発明の実施の形態に係る音声認識装置の論理的な構成例を示す機能ブロック図である。 図2に示す音声認識装置を実現するコンピュータのハードウェア構成を例示するブロック図である。 本実施形態の音声認識装置の動作の一例を示すフローチャートである。 本実施形態の音声認識装置における情報の関係を説明するための図である。 本実施形態の学習データのデータ構造の一例を示す図である。 本実施形態の音声認識装置の動作の一例を示すフローチャートである。 本実施形態の音声認識装置における情報の関係を説明するための図である。 本実施形態の音声認識装置の他の動作例を示すフローチャートである。 本実施形態の音声認識装置のさらなる他の動作例を示すフローチャートである。 本実施形態の学習データのデータ構造の一例を示す図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。 本実施形態の学習データのデータ構造の例を示す図である。 本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。 本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
 実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと(能動的な取得)、および、自装置に他の装置から出力されるデータまたは情報を入力すること(受動的な取得)の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエストまたは問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信(または、送信、プッシュ通知等)される情報を受信すること等がある。さらに、「取得」とは、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することであってもよい。
(第1の実施の形態)
<システム概要>
 図1は、本発明の実施の形態に係る音声認識システム1の構成例を概念的に示すブロック図である。本実施形態の音声認識システム1は、音声をテキストに書き起こすためのシステムである。音声認識システム1は、音声認識装置100と、マイクロフォン4などの音声入力部と、スピーカ6などの音声出力部と、を備えている。スピーカ6は、出力音声がマイクロフォン4に入力されないように、ユーザUが装着するヘッドホンなどであることが好ましいが、これに限定されない。音声認識システム1では、スピーカ6から出力された音声認識対象のオリジナルの音声(以下、認識対象音声データ10とも呼ぶ)をユーザUが聴き取り、ユーザUが復唱した発話音声20をマイクロフォン4から入力して音声認識装置100が音声認識処理してテキスト情報(以下、テキストデータ30とも呼ぶ)を生成する。
 音声認識装置100は、音声認識エンジン200を有している。音声認識エンジン200は、各種のモデル、例えば言語モデル210と、音響モデル220と、単語辞書230と、を有している。音声認識装置100は、音声認識エンジン200を用いて認識対象音声データ10をユーザUが復唱した発話音声20を認識し、認識結果としてテキストデータ30を出力する。本実施形態において、音声認識エンジン200で用いられる各モデルは話者毎に設けられている。
 オリジナルの認識対象音声データ10は、発話した人物によって発音、速度、音量などにバラツキがあったり、人毎に癖があったり、録音環境(周囲の環境、録音機材、録音データの種類など)も様々なため音質が音声認識に適用できる水準を満たさない可能性があったりする。そのため、認識精度が低下したり、誤認識が発生したりする。そこで、アノテータと呼ばれるユーザUはスピーカ6から出力されたオリジナルの認識対象音声データ10を聞くことで、聞いた認識対象音声データ10に含まれる発話内容を復唱する。音声認識装置100は、当該ユーザUが復唱した発話音声20を一定の条件で認識する。ユーザUは、発話速度や発声などを音声認識に適した基準になるように復唱(発話)するのが好ましい。しかし、復唱時の音声には個人差が生じやすく認識精度にもばらつきが生じる。そこで、本実施形態の音声認識装置100は、アノテータの発話音声の特徴や癖を学習する。これにより、音声認識装置100による認識精度は高くなる。
<機能構成例>
 図2は、本発明の実施の形態に係る音声認識装置100の論理的な構成例を示す機能ブロック図である。
 音声認識装置100は、音声再生部102と、音声認識部104と、テキスト情報生成部106と、記憶処理部108と、を備えている。
 音声再生部102は、所定の区間毎に区切られた音声認識のオリジナルの対象音声(以下、区間音声12(図5参照)とも呼ぶ)を、所定の区間毎にユーザUに向けて再生する。
 音声認識部104は、区間音声12毎に、ユーザUが当該区間音声12を復唱した発話音声20を認識する。この認識において、音声認識部104は、ユーザU別のモデル、例えばユーザU別の言語モデル210、音響モデル220、及び単語辞書230を用いる。これらユーザU別の各モデルは、例えば記憶装置110に記憶されている。
 テキスト情報生成部106は、音声認識部104が認識した当該発話音声20のテキスト情報(テキストデータ30)を生成する。
 記憶処理部108は、ユーザU別の識別情報(図中、ユーザIDと示す)と、発話音声20および当該発話音声20に対応する認識結果と、を関連付けて学習データ240(図6)として記憶装置110に記憶させる。
<ハードウェア構成例>
 図3は、図2に示す音声認識装置100を実現するコンピュータ1000のハードウェア構成を例示するブロック図である。コンピュータ1000は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040はコンピュータ1000の各機能を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス1040は音声認識エンジン200の各モデルも記憶している。
 プログラムモジュールは、記録媒体に記録されてもよい。プログラムモジュールを記録する記録媒体は、非一時的な有形のコンピュータ1000が使用可能な媒体を含み、その媒体に、コンピュータ1000(プロセッサ1020)が読み取り可能なプログラムコードが埋め込まれてよい。
 入出力インタフェース1050は、コンピュータ1000と各種入出力機器とを接続するためのインタフェースである。
 ネットワークインタフェース1060は、コンピュータ1000を通信ネットワークに接続するためのインタフェースである。この通信ネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060が通信ネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 そして、コンピュータ1000は、入出力インタフェース1050またはネットワークインタフェース1060を介して、必要な機器(例えば、マイクロフォン4、およびスピーカ6)に接続する。
 音声認識装置100を実現するコンピュータ1000は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末などである。あるいは、音声認識装置100を実現するコンピュータ1000は、専用の端末装置であってもよい。例えば、音声認識装置100は、コンピュータ1000に、当該音声認識装置100を実現するためのアプリケーションプログラムをインストールして起動することで実現される。
 他の例では、コンピュータ1000は、ウェブサーバであり、ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末でブラウザを起動し、インターネットなどのネットワークを介して音声認識装置100のサービスを提供するウェブページにアクセスすることで、音声認識装置100の機能を利用できてもよい。
 さらなる他の例では、コンピュータ1000は、音声認識装置100のサービスを提供するSaaS(Software as a Service)などシステムのサーバ装置であってもよい。ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末からインターネットなどのネットワークを介してサーバ装置にアクセスし、サーバ装置上で動作するプログラムにより音声認識装置100が実現されてもよい。
<動作例>
 図4は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図5は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
 まず、音声再生部102は、所定の区間毎に区切られた音声認識のオリジナルの対象音声を再生する(ステップS101)。具体的には、音声再生部102は、認識対象音声データ10を所定の区間で区切ってスピーカ6を介して出力する。図5のSa1、Sa2、Sa3が各区間音声12である。
 所定の区間とは、例えば、認識対象の音声に含まれる文、文節、および単語の少なくともいずれか一つを含む区間である。各区間には複数の文、文節、および単語が含まれてもよい。各区間に含まれる文、文節および単語の数は一定でなくてもよい。各音声区間の間は、所定の時間間隔tsが空いている。所定の時間間隔tsは一定であってもよいし、一定でなくてもよい。音声再生部102は、文、文節、および単語のいずれか一つを含む区間毎に認識対象音声データ10を区切って区間音声12を再生する。各区間音声12の間は、無音としてもよいし、所定の報知音を出力してもよい。
 音声認識部104は、言語モデル210、音響モデル220、および単語辞書230を含む音声認識エンジン200を用いて区間音声12を認識する。上記したように、音声認識装置100は、音声認識エンジン200で用いられる各モデル(例えば言語モデル210、音響モデル220、および単語辞書230)をユーザU別に記憶している。各モデルは、対応するユーザUの音声とその認識結果を学習させることにより生成されている。このため、各モデルには対応するユーザUの音声の特徴や癖が反映されている。モデルの学習については後述する実施形態で説明する。
 各モデルは、ユーザUを識別するユーザIDに関連付けておく。音声認識部104は、音声認識処理に先立ち、ユーザUのユーザIDを取得し、取得したユーザIDに対応する音声認識エンジン200を読み出して準備しておく。ユーザIDの取得方法は以下に例示される。なお、ユーザIDの代わりに声紋などの生体情報が用いられてもよい。
(1)音声認識装置100のアプリケーションを起動したとき、操作画面によりユーザUにユーザIDを入力させる。
(2)音声認識装置100のサービスを提供するウェブページまたはSaaSのサーバにアクセスするときに、システムにログインするための画面によりユーザUにユーザ認証のためにユーザIDとパスワードを入力させる。
(3)音声認識装置100を起動した携帯端末の識別情報(例えば、個体識別情報(UID:User Identifier)、IMEI(International Mobile Equipment Identity)等)をユーザIDとして取得する。
(4)音声認識装置100のアプリケーション起動後、または、ウェブページまたはサーバにアクセス後に、予め登録されている利用者をリスト表示してユーザUに選択させる。利用者に予め関連付けられているユーザIDを取得する。
 そして、音声認識部104は、ユーザUが復唱した発話音声20を認識する(ステップS103)。音声認識部104には、マイクロフォン4を介してユーザUの発話音声20が入力される。ユーザUは音声再生部102により再生された区間音声12を聞いて、当該音声を復唱する。ユーザUは、区間音声12を聞く毎に復唱する。図5のSb1、Sb2、Sb3が各発話音声20である。
 音声認識部104は、ユーザUが復唱した各発話音声20の間の無音区間ssを検出することにより、入力される各発話音声20の区切りを検出する。音声認識部104は、検出した各発話音声20をそれぞれ認識し、認識結果22をテキスト情報生成部106に受け渡す。図5のT1、T2、T3が各認識結果22である。
 そして、テキスト情報生成部106は、発話音声20のテキスト情報(テキストデータ30)を生成する(ステップS105)。テキスト情報生成部106は、各区間音声12に対応する発話音声20の認識結果22を音声認識部104から順次取得し、これらを繋げて一連の発話音声20に対応するテキストデータ30を生成する。
 音声認識部104から取得する認識結果22は、尤度などの情報を含んでもよい。テキスト情報生成部106は、言語モデル210および単語辞書230を用いて、各区間音声12の発話音声20に対応する認識結果22を繋げて文章を作成し、テキストデータ30を生成する。例えば、テキストデータ30は、生成された文章が記載されたテキスト形式のファイルである。
 そして、記憶処理部108は、ユーザU別に発話音声20と認識結果22とを関連付けて学習データ240として記憶装置110に記憶させる(ステップS107)。
 図6は、学習データ240のデータ構造の一例を示す図である。学習データ240は、ユーザUの識別情報(ユーザID)と、発話音声20と、認識結果22と、を関連付けて記憶する。
 ユーザU毎の学習データ240を用いてユーザU毎の音声認識エンジン200を機械学習させることで、ユーザUの発話特徴にあわせることができる。
 本実施形態によれば、音声認識部104は、ユーザU毎の発話特徴を学習した音声認識エンジン200を用いて音声認識を行うことができるので、認識精度を向上できる。
(第2の実施の形態)
 本実施形態の音声認識装置100は、上記実施形態とは、ユーザUの復唱が音声再生部102による音声再生に追いつかなくなった場合など、ユーザUの復唱の状態に応じた処理を行う構成を有する点以外は上記実施形態と同じである。本実施形態の音声認識装置100は、図2の音声認識装置100と同じ構成を有するので、図2を用いて説明する。
<機能構成例>
 音声再生部102は、音声認識部104が一定の時間内にユーザが復唱した発話音声20を認識しない場合、区間音声12の再生を中断し、その後、再生を中断した時点より前の時点の区間から区間音声12の再生を再開する。
 さらに、音声再生部102は、予め区切られた区間音声12が再生される区間とは異なる区間において、ユーザUが復唱した発話音声20を認識しない場合に、区間音声12の再生を中断しない。
 ここで、予め区切られた区間音声12が再生される区間とは異なる区間とは、例えば、認識対象音声データ10を区切って再生される複数の区間音声12の各々の間の無再生区間である。上記したように、無再生区間の間隔は、時間間隔tsである。
 さらに、音声再生部102は、ある区間の対象音声(区間音声12)の再生速度を、当該区間より前の区間に対してユーザUが復唱した発話音声20を入力したときの音声入力速度に応じて、変化させる。
 再生速度の制御方法は以下に例示されるが、これらに限定されない。例えば、音声再生部102は、発話音声20の入力速度が所定の速度より遅ければ、再生速度を所定の速度より遅くし、発話音声20の入力速度が所定の速度より早ければ、再生速度を所定の速度より早くする。あるいは、音声再生部102は、発話音声20の入力速度と同じ速度で認識対象のオリジナルの音声(区間音声12)を再生してもよい。
<動作例>
 図7は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図8は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
 図7のフローチャートは、例えば、図5のステップS101において音声再生部102が認識対象音声データ10の各区間音声12を出力する度に動作する。
 まず、音声再生部102は、音声認識部104が一定の時間内にユーザが復唱した発話音声20を認識したか否かを判定する(ステップS111)。この判定方法は以下に例示される。
(1)音声認識部104は、ユーザUの発話音声20を認識する度(発話音声20を検出したとき、または、認識結果22を生成したとき)に、音声再生部102に認識したことを通知する。音声再生部102は、音声認識部104からの通知の時間間隔を計測し、一定の時間Tx以内か否かを判定する。
(2)音声認識部104は、ユーザUの発話音声20を認識する度に、音声再生部102に認識したことを通知する。音声再生部102は、区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に当該通知を取得した場合、認識したと判定し、一定の時間Tx内に当該通知を取得しない場合、認識しないと判定する。
(3)音声認識部104は、前回ユーザUが復唱した発話音声20を認識した時点から一定の時間Tx内に次の発話音声20を認識できなかった場合に、音声再生部102にその旨を通知する。ここで、認識した時点とは、例えば、発話音声20の入力を検出した時点、または、発話音声20の認識結果22が生成された時点のいずれかである。
(4)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定時間経過後に、発話音声20を認識できたか否かを問い合わせる。
(5)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に、マイクロフォン4からユーザUの発話音声20の入力があったか否かを検出する。音声再生部102は、発話音声20の入力があった場合は認識したと判定し、入力がなかった場合は認識しないと判定する。
 そして、音声再生部102は、音声認識部104が一定の時間Tx内にユーザが復唱した発話音声20を認識しない場合(ステップS111のYES)、区間音声12の再生を中断する(ステップS113)。例えば、図8の例では、音声再生部102がSa1の区間音声12を再生開始した時点から一定の時間Tx内の時間t1に音声認識部104がT1の認識結果22を生成している。このため、音声再生部102は、次の区間のSa2の区間音声12を再生する。
 しかし、図8の例では、Sa2の区間音声12を再生開始した時点から一定の時間Txが経過しても、ユーザUが復唱できず、よって、音声認識部104から認識結果22が得られていない。よって、音声再生部102は、Sa3の区間音声12の再生を中断する。
 そして、音声再生部102は、再生を中断した時点より前の時点から区間音声12の再生を再開する(ステップS115)。図8の例では、音声再生部102は、Sa3の区間音声12の再生を中断後に、一つ前のSa2の区間音声12を再度再生する。すると、ユーザUは当該Sa2の区間音声12を復唱する。そして、音声認識部104は、Sb2の発話音声20を認識することができる。
 図9は、本実施形態の音声認識装置100の他の動作例を示すフローチャートである。
 図9のフローチャートは、図7のフローチャートのステップS111とステップS113の間にステップS121を含む。
 音声再生部102は、ユーザUが復唱した発話音声20を認識しない場合に(ステップS111のYES)、予め区切られた区間音声12が再生される区間とは異なる区間(無再生区間)において(ステップS121のYES)、ステップS113とステップS115をバイパスして、区間音声12の再生を中断しない。
 音声再生部102は、ユーザUが復唱した発話音声20を認識しない場合に(ステップS111のYES)、予め区切られた区間音声12が再生される区間とは異なる区間(無再生区間)でない場合(ステップS121のNO)、ステップS113に進み、区間音声12の再生を中断する。
 また、他の例として、音声再生部102は、ステップS111において、再生した区間音声12の間の無再生区間の時間を計測して、一定の時間Txに無再生区間の時間間隔tsを加えて判定してもよい。
 図10は、本実施形態の音声認識装置100のさらなる他の動作例を示すフローチャートである。図10のフローチャートは、常時、定期的、または要求されたときなどに動作する。
 まず、音声再生部102は、マイクロフォン4に入力される発話音声20の入力速度を計測する。入力速度は、例えば、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。
 そして、音声再生部102は、発話音声20の入力速度に合わせて再生速度を調整する。再生速度も、入力速度と同様に、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。そして、音声再生部102は、再生速度を発話音声20の入力速度以下に調整して区間音声12を再生する。
 本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、音声再生部102は、音声認識状態や発話音声20の入力速度に応じて区間音声12の再生を制御できるので、ユーザUの復唱が追いつかなくなった場合にも、作業を停滞させずにスムーズに復帰させることができる。さらに、本実施形態によれば、ユーザUの復唱の速度に再生速度を合わせることができるので、ユーザUの発話の速度が速かったり遅かったりした場合にも、適切に区間音声12の再生を調整できる。これにより、ユーザUの復唱が追いつかなくなったり、時間を持てあましたりすることなく、快適に作業を続けることができる。
(第3の実施の形態)
 本実施形態の音声認識装置100は、ユーザUの発話音声20の認識結果を機械学習する構成を有する点以外は、上記実施形態のいずれかと同じである。本実施形態の音声認識装置100については、図2を用いて説明する。
<機能構成例>
 記憶処理部108は、音声再生部102が所定の区間の区間音声12を再生した後に、ユーザUが復唱した発話音声20に、当該所定の区間の区間音声12を関連付けて学習データ240として記憶させる。
 図11は、本実施形態の学習データ240のデータ構造の一例を示す図である。図11の学習データ240は、図6の学習データ240に加え、さらに、区間音声12を関連付けて記憶している。
 このようにして生成された学習データ240は、ユーザU別の音声認識エンジン200の機械学習に使用される。
 本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、このようにして生成されるユーザU別の学習データ240を用いて、ユーザU別の音声認識エンジン200の各モデルを機械学習させることで、ユーザUに特化した音声認識エンジン200を構築することができる。
(第4の実施の形態)
 本実施形態の音声認識装置100は、第1言語と第1言語を第2言語に翻訳して復唱して音声情報をテキストに書き起こす構成を有する点以外は上記実施形態のいずれかと同じである。
<機能構成例>
 音声再生部102は、第1言語(例えば、英語)の音声認識対象音声を再生した後、音声認識部104は、復唱した第1言語の前記発話音声と当該第1言語を第2言語(例えば、日本語)に翻訳して発した発話音声20をそれぞれ音声認識する。
 テキスト情報生成部106は、音声認識部104による認識結果に基づいて、第1言語と第2言語の発話音声20のテキストデータ30をそれぞれ生成する。
 記憶処理部108は、ユーザUが復唱した第1言語および第2言語の発話音声20と、音声再生部102により再生された第1言語の区間音声12とを関連付けて記憶させる。
 本実施形態では、第1言語は英語、第2言語は日本語として説明する。他の例では、第1言語は方言(例えば、大阪弁)、第2言語は標準語、またはその逆で、第1言語が標準語、第2言語は方言であってもよい。さらなる他の例では、第1言語は敬語、第2言語は敬語以外、またはその逆であってもよい。
<動作例>
 図12は、本実施形態の音声認識装置100の動作例を示すフローチャートである。まず、音声再生部102は、第1言語の音声認識の対象音声を所定の区間で区切って(区間音声12を)再生する(ステップS141)。そして、ユーザUはまず第1言語で復唱すると、音声認識部104は、ユーザUが第1言語で復唱した発話音声20を認識する(ステップS143)。さらに、ユーザUは第2言語で復唱すると、音声認識部104は、ユーザUが第2言語で復唱した発話音声20を認識する(ステップS145)。
 テキスト情報生成部106は、ステップS143とステップS145で認識された発話音声20の認識結果22に基づいて、テキストデータ30をそれぞれ生成する(ステップS147)。
 記憶処理部108は、ユーザIDと、第1言語の発話音声20と、第2言語の発話音声20と、音声再生部102により再生された第1言語の対象音声とを関連付けて、翻訳エンジンの学習データ340として記憶装置110に記憶する(ステップS149)。
 図13は、学習データ340のデータ構造の例を示す図である。図13(a)の例では、学習データ340は、音声再生部102により再生された区間音声12と、同じ区間の第1言語の発話音声20と第2言語の発話音声20とを関連付けて記憶する。また、図13(b)の例のように、学習データ340は、各言語の認識結果も関連付けて記憶してもよい。
 さらに、記憶処理部108は、ステップS147において生成された第1言語のテキストデータ30と第2言語のテキストデータ30とを関連付けて記憶装置110に記憶させる(ステップS151)。
 本実施形態によれば、第1言語を聞いたユーザUが、第1言語で復唱した音声情報と、第1言語を第2言語で翻訳して発話した音声情報とを認識し、テキスト情報を生成するとともに、さらに、第1言語を復唱した発話音声20と、第2言語の発話音声20と、音声再生部102により再生された区間音声12をそれぞれ関連付けて記憶させることができる。これにより、上記実施形態と同様な効果を奏するとともに、さらに、例えば、翻訳エンジンの学習データ340として、これらの情報を用いることができる。
(第5の実施の形態)
 本実施形態の音声認識装置100は、未知語を登録する構成を有する点以外は、上記実施形態のいずれかと同じである。
<機能構成例>
 図14は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
 音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、登録部120を有する。
 登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する。
<動作例>
 図15は、本実施形態の音声認識装置100の動作例を示すフローチャートである。このフローチャートは、例えば、図4のステップS103で音声認識部104がユーザUの発話音声20を認識できなかったとき(ステップS151のYES)に開始する。そして、登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する(ステップS153)。
 ここで、辞書とは、本実施形態のユーザU毎の言語モデル210、音響モデル220および単語辞書230等の各モデルと、ユーザに特化されない汎用の各モデルの両方を含む。各辞書のデータ構造は、音声情報を、単語、n組の単語列、音素列など異なる単位の少なくともいずれか一つで登録することができる。よって、音声認識部104により認識できなかった言葉の音声情報は、各単位にそれぞれ分解されてそれぞれ未知語として辞書登録されてよい。
 そして、未知語として登録された言葉は、後述する実施形態と同様な編集機能によりユーザUにより単語登録できてよい。あるいは、機械学習などにより学習されてもよい。
 本実施形態によれば、音声認識部104により認識できなかった言葉を未知語として辞書に登録することができるので、上記実施形態と同様な効果を奏するとともに、さらに、音声認識エンジン200を育てていくことができ、認識精度を向上させることができる。
(第6の実施の形態)
 本実施形態の音声認識装置100は、認識対象音声データ10を編集する構成を有する点以外は、上記実施形態のいずれかと同じである。
<機能構成例>
 図16は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
 本実施形態の音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、表示処理部130を有する。表示処理部130は、テキスト情報生成部106に生成されたテキストデータ30を表示装置132に表示させる。
 テキストデータ30は、テキスト情報生成部106によりテキストデータ30に認識結果22が追加されている度に更新されて表示されてもよいし、認識対象音声データ10の全ての再生、あるいは、所定の範囲までの再生が終了した時点までの再生音声に対応する範囲のテキストデータ30を、再生終了時以降に表示させてもよい。ユーザUの操作指示を受け付けて表示させてもよい。
 さらに、テキスト情報生成部106は、表示装置132に表示されたテキストデータ30の編集操作を受け付け、編集操作に従い、テキストデータ30を更新する。キーボード、マウス、タッチパネル、操作スイッチ等の入力装置134を用いてユーザUは編集操作を行うことができる。
 さらに、記憶処理部108は、更新されたテキストデータ30に対応する学習データ240の認識結果を更新してもよい。
 表示装置132は、音声認識装置100に含まれてもよいし、外部の装置であってもよい。表示装置132は、例えば、液晶ディスプレイ、プラズマディスプレイ、CRT(Cathode Ray Tube)ディスプレイ、有機EL(ElectroLuminescence)ディスプレイ等である。
<動作例>
 図17は、本実施形態の音声認識装置100の動作例を示すフローチャートである。
 表示処理部130は、テキスト情報生成部106により生成されたテキストデータ30を表示装置132に表示させる(ステップS161)。そして、編集操作を受け付ける操作メニューによりユーザUの編集操作を受け付ける(ステップS163)。
 テキストデータ30を表示する画面では、例えば、音声認識部104による認識結果22の尤度が基準値以下の言葉について、他の部分と識別可能なように、例えば、強調表示させて、ユーザUに確認を促してもよい。ユーザUは強調表示された言葉が正しいかを確認し、必要に応じて編集することができる。
 そして、テキスト情報生成部106は、ステップS163で受け付けた編集操作に従い、テキストデータ30を更新する(ステップS165)。
 この構成によれば、ユーザUは音声を書き起こしされたテキストデータ30を確認して必要に応じて訂正することができるので、書き起こしされたテキストデータ30の正確さが向上する。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 例えば、表示処理部130により表示されるテキストデータ30の表示画面において、テキストの範囲の指定をユーザUの操作により受け付けると、音声再生部102は、受け付けた部分のテキストに関連付けられている区間音声12を再生してもよい。
 この構成によれば、テキストデータ30の元となる区間音声12を再生させることで、テキストデータ30の正否を確認することができ、さらに、編集操作により訂正を行うこともできる。
 さらに、音声認識装置100は、学習データのユーザIDが示すユーザに対応する、ユーザ別に存在する音声認識エンジン200のうちの一つを特定する特定部(不図示)をさらに備えてもよい。特定部により、学習データのユーザIDに対応する音声認識エンジン200が特定され、当該学習データを特定された認識エンジン200に学習させることができる。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
 前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
 前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
 前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
 前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識装置。
2. 前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
 1.に記載の音声認識装置。
3. 前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
 2.に記載の音声認識装置。
4. 前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
 1.から3.のいずれか一つに記載の音声認識装置。
5. 前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
 1.から4.のいずれか一つに記載の音声認識装置。
6. 前記音声再生手段は、第1言語の音声認識対象音声を再生した後、
 前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
 前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
 前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて記憶させる、
 1.から5.のいずれか一つに記載の音声認識装置。
7. 前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備える、
 1.から6.のいずれか一つに記載の音声認識装置。
8. 前記テキスト情報を表示する表示手段をさらに備える、
 1.から7.のいずれか一つに記載の音声認識装置。
9. 前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
 8.に記載の音声認識装置。
10. 音声認識装置が、
 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
 前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
 前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
 前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
 前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識方法。
11. 前記音声認識装置が、
 一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
 10.に記載の音声認識方法。
12. 前記音声認識装置が、
 予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
 11.に記載の音声認識方法。
13. 前記音声認識装置が、
 ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
 10.から12.のいずれか一つに記載の音声認識方法。
14. 前記音声認識装置が、
 前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
 10.から13.のいずれか一つに記載の音声認識方法。
15. 前記音声認識装置が、
 第1言語の音声認識対象音声を再生した後、
  復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
  認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
  前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる、
 10.から14.のいずれか一つに記載の音声認識方法。
16. 前記音声認識装置が、さらに、
 前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する、
 10.から15.のいずれか一つに記載の音声認識方法。
17. 前記音声認識装置が、さらに、
 前記テキスト情報を表示部に表示する、
 10.から16.のいずれか一つに記載の音声認識方法。
18. 前記音声認識装置が、
 前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
 17.に記載の音声認識方法。
19. コンピュータに、
 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
 前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
 前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
 前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、を実行させるためのプログラム。
20. 一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断する手順、
 その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する手順、をコンピュータに実行させるための、
 19.に記載のプログラム。
21. 予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断する手順を実行しない手順、をコンピュータに実行させるための、
 20.に記載のプログラム。
22. ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる手順、をコンピュータに実行させるための、
 19.から21.のいずれか一つに記載のプログラム。
23. 前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる手順、をコンピュータに実行させるための、
 19.から22.のいずれか一つに記載のプログラム。
24. 第1言語の音声認識対象音声を再生した後、
  復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識する手順、
  認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成する手順、
  前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる手順、をコンピュータに実行させるための、
 19.から23.のいずれか一つに記載のプログラム。
25. 前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する手順、をさらにコンピュータに実行させるための、
 19.から24.のいずれか一つに記載のプログラム。
26. 前記テキスト情報を表示部に表示する手順、をさらにコンピュータに実行させるための、
 19.から25.のいずれか一つに記載のプログラム。
27. 前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する手順、をコンピュータに実行させるための、
 26.に記載のプログラム。
 この出願は、2019年9月27日に出願された日本出願特願2019-176484号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 音声認識システム
3 通信ネットワーク
4 マイクロフォン
6 スピーカ
10 認識対象音声データ
12 区間音声
20 発話音声
22 認識結果
30 テキストデータ
100 音声認識装置
102 音声再生部
104 音声認識部
106 テキスト情報生成部
108 記憶処理部
110 記憶装置
120 登録部
130 表示処理部
132 表示装置
134 入力装置
200 音声認識エンジン
210 言語モデル
220 音響モデル
230 単語辞書
240 学習データ
340 学習データ
1000 コンピュータ
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース 

Claims (27)

  1.  所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
     前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
     前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
     前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
    を備え、
     前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識装置。
  2.  前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
     請求項1に記載の音声認識装置。
  3.  前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
     請求項2に記載の音声認識装置。
  4.  前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
     請求項1から3のいずれか一項に記載の音声認識装置。
  5.  前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
     請求項1から4のいずれか一項に記載の音声認識装置。
  6.  前記音声再生手段は、第1言語の音声認識対象音声を再生した後、
     前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
     前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
     前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて記憶させる、
     請求項1から5のいずれか一項に記載の音声認識装置。
  7.  前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備える、
     請求項1から6のいずれか一項に記載の音声認識装置。
  8.  前記テキスト情報を表示する表示手段をさらに備える、
     請求項1から7のいずれか一項に記載の音声認識装置。
  9.  前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
     請求項8に記載の音声認識装置。
  10.  音声認識装置が、
     所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
     前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
     前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
     前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
     前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識方法。
  11.  前記音声認識装置が、
     一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
     請求項10に記載の音声認識方法。
  12.  前記音声認識装置が、
     予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
     請求項11に記載の音声認識方法。
  13.  前記音声認識装置が、
     ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
     請求項10から12のいずれか一項に記載の音声認識方法。
  14.  前記音声認識装置が、
     前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
     請求項10から13のいずれか一項に記載の音声認識方法。
  15.  前記音声認識装置が、
     第1言語の音声認識対象音声を再生した後、
      復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
      認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
      前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる、
     請求項10から14のいずれか一項に記載の音声認識方法。
  16.  前記音声認識装置が、さらに、
     前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する、
     請求項10から15のいずれか一項に記載の音声認識方法。
  17.  前記音声認識装置が、さらに、
     前記テキスト情報を表示部に表示する、
     請求項10から16のいずれか一項に記載の音声認識方法。
  18.  前記音声認識装置が、
     前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
     請求項17に記載の音声認識方法。
  19.  コンピュータに、
     所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
     前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
     前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
     前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、を実行させるためのプログラム。
  20.  一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断する手順、
     その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する手順、をコンピュータに実行させるための、
     請求項19に記載のプログラム。
  21.  予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断する手順を実行しない手順、をコンピュータに実行させるための、
     請求項20に記載のプログラム。
  22.  ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる手順、をコンピュータに実行させるための、
     請求項19から21のいずれか一項に記載のプログラム。
  23.  前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる手順、をコンピュータに実行させるための、
     請求項19から22のいずれか一項に記載のプログラム。
  24.  第1言語の音声認識対象音声を再生した後、
      復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識する手順、
      認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成する手順、
      前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる手順、をコンピュータに実行させるための、
     請求項19から23のいずれか一項に記載のプログラム。
  25.  前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する手順、をさらにコンピュータに実行させるための、
     請求項19から24のいずれか一項に記載のプログラム。
  26.  前記テキスト情報を表示部に表示する手順、をさらにコンピュータに実行させるための、
     請求項19から25のいずれか一項に記載のプログラム。
  27.  前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する手順、をコンピュータに実行させるための、
     請求項26に記載のプログラム。
PCT/JP2020/033974 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム WO2021059968A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/760,847 US20220335951A1 (en) 2019-09-27 2020-09-08 Speech recognition device, speech recognition method, and program
JP2021548767A JP7416078B2 (ja) 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019176484 2019-09-27
JP2019-176484 2019-09-27

Publications (1)

Publication Number Publication Date
WO2021059968A1 true WO2021059968A1 (ja) 2021-04-01

Family

ID=75166092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033974 WO2021059968A1 (ja) 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220335951A1 (ja)
JP (1) JP7416078B2 (ja)
WO (1) WO2021059968A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7288530B1 (ja) 2022-03-09 2023-06-07 陸 荒川 システムおよびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2013182261A (ja) * 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP2017161726A (ja) * 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置
JP6430137B2 (ja) * 2014-03-25 2018-11-28 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2013182261A (ja) * 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP2017161726A (ja) * 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7288530B1 (ja) 2022-03-09 2023-06-07 陸 荒川 システムおよびプログラム
JP2023131648A (ja) * 2022-03-09 2023-09-22 陸 荒川 システムおよびプログラム

Also Published As

Publication number Publication date
US20220335951A1 (en) 2022-10-20
JPWO2021059968A1 (ja) 2021-04-01
JP7416078B2 (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
JP6740504B1 (ja) 発話分類器
US11978432B2 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
US6138099A (en) Automatically updating language models
US11545133B2 (en) On-device personalization of speech synthesis for training of speech model(s)
KR20050076697A (ko) 컴퓨터 구현 음성 인식 시스템 및 이 시스템으로 학습하는방법
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
WO2021059968A1 (ja) 音声認識装置、音声認識方法、およびプログラム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP2003162293A (ja) 音声認識装置及び方法
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
EP4261822A1 (en) Setting up of speech processing engines
KR102362815B1 (ko) 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치
KR20230101452A (ko) 대화 시스템 및 대화 처리 방법
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
JP2019191377A (ja) 音声操作の精度向上を目的としたトレーニングシステム
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20869210

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021548767

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20869210

Country of ref document: EP

Kind code of ref document: A1