WO2022249362A1 - Speech synthesis to convert text into synthesized speech - Google Patents

Speech synthesis to convert text into synthesized speech Download PDF

Info

Publication number
WO2022249362A1
WO2022249362A1 PCT/JP2021/020082 JP2021020082W WO2022249362A1 WO 2022249362 A1 WO2022249362 A1 WO 2022249362A1 JP 2021020082 W JP2021020082 W JP 2021020082W WO 2022249362 A1 WO2022249362 A1 WO 2022249362A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
text data
text
noise
data
Prior art date
Application number
PCT/JP2021/020082
Other languages
French (fr)
Japanese (ja)
Inventor
公之 茶谷
直樹 千葉
Original Assignee
株式会社KPMG Ignition Tokyo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社KPMG Ignition Tokyo filed Critical 株式会社KPMG Ignition Tokyo
Priority to PCT/JP2021/020082 priority Critical patent/WO2022249362A1/en
Publication of WO2022249362A1 publication Critical patent/WO2022249362A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the disclosure of this specification relates to text-to-speech synthesis that converts text into synthesized speech.
  • a speech synthesis system that generates synthesized speech based on input text.
  • Methods for text-based speech synthesis include, for example, a recording editing method that generates synthesized speech by connecting human utterances stored in a database for each word or phrase, and a statistical analysis method that uses a large-scale speech corpus.
  • Statistical speech synthesis methods are known that generate synthetic speech using a statistical approach.
  • Statistical speech synthesis analyzes the input text to generate a sequence of linguistic features such as phonemes, parts of speech, and words from the text.
  • a feature quantity sequence is estimated, and a speech waveform is generated from the estimated speech feature quantity sequence.
  • a Hidden Markov Model is widely used as an acoustic model.
  • Conventional statistical speech synthesis is described, for example, in International Publication No. 2017/046887 (Patent Document 1) and Japanese Patent Application Laid-Open No. 2017-32839 (Patent Document 2).
  • Speech synthesis is expected to be used in a variety of situations, such as news reading, voice information guidance at public facilities, and generation of dialogue voices with users in voice dialogue systems. Depending on the application, it is desirable to generate natural synthetic speech that is closer to human spontaneous speech.
  • the Corpus of Spoken Japanese is a database that associates and stores various contextual information with waveforms of spontaneous human speech. By constructing a statistical model using a speech corpus in which such spontaneous speech is accumulated, it is expected that natural synthesized speech close to spontaneous speech can be generated.
  • Speech Synthesis Markup Language is known as a markup language for speech synthesis.
  • Appropriately tagging text with a text-to-speech markup language and generating synthetic speech based on this tagged text may result in a more natural synthetic speech.
  • a ⁇ break> tag is known as a tag used in SSML to indicate a pause position and a length of pause time in synthesized speech. Pauses of length can be inserted. In this way, it is expected that synthetic speech closer to spontaneous speech can be generated by using text containing tags in SSML format.
  • Spontaneous speech may contain "fillers” that have no linguistic meaning by themselves but can convey non-verbal meaning.
  • fillers include "er” in Japanese and "Um” in English.
  • the types of fillers vary from language to language.
  • Japanese Patent Application Laid-Open No. 2006-017819 describes a speech synthesizer that generates synthetic speech based on text in which fillers are inserted. Synthetic speech generated based on text with filler inserted is closer to spontaneous human speech than synthetic speech that does not contain filler at all, and thus sounds natural to the listener.
  • An object of the invention disclosed in this specification is to solve or alleviate at least some of the above problems in speech synthesis.
  • One of the more specific objectives of the invention disclosed herein is to generate more natural synthetic speech.
  • One of the more specific objectives of the invention disclosed herein is to generate more natural synthesized speech based on plain text.
  • a text-to-speech system comprises one or more processors, wherein the one or more processors add noise to original text data to generate reading text data. and a function of generating synthesized speech based on the read-out text data.
  • the noise includes first noise associated with a first text portion included in the original text data.
  • the first noise includes a first annotation indicating to insert a pause interval of a predetermined length of time after the first text portion.
  • the synthesized speech may be generated such that speech of the first text portion is interrupted for said predetermined length of time specified by said first annotation.
  • the first noise includes a second annotation specifying the pitch of said first text portion.
  • Synthesized speech may be generated such that the first text portion is spoken at a pitch responsive to the second annotation.
  • the first noise includes a third annotation specifying the speech rate of the first text portion. Synthesized speech may be generated such that the first text portion is spoken at a speech rate responsive to the third annotation.
  • the first noise includes a fourth annotation specifying a misspelling of the first text portion.
  • Synthesized speech may be generated to include utterances of the first text portion and a second text portion associated with the first text portion based on the fourth annotation.
  • the synthesized speech is generated to include, in that order, utterances of the second text portion, conjunctions, and utterances of the first text portion based on the fourth annotation.
  • the synthesized speech includes utterances of the second text portion associated with the first text portion but utterances of the first text portion based on the fourth annotation. It may be generated so as not to contain it.
  • the first noise includes a fifth annotation specifying filler associated with said first text portion.
  • Synthetic speech may be generated to include filler.
  • the first noise includes a sixth annotation specifying addition of additional information about the first text portion.
  • Synthesized speech may be generated to include utterance of at least the first text portion and the additional information.
  • read-aloud text data is generated to include the second text portion instead of the first text portion of the text.
  • readout text data is generated such that the semantic similarity between the original text data and the readout text data is higher than a reference evaluation.
  • the text-to-speech data includes a second noise different from the first noise.
  • one or more processors may further perform the function of obtaining real-time information.
  • the secondary noise may contain additional text regarding real-time information.
  • the second noise includes virtual speaker environment information regarding the virtual environment in which the virtual speaker of the synthesized speech is present.
  • noise is added to the original text data based on noise generation rules.
  • the noise generation rule is selected from among a group of noise generation rules including a first noise generation rule and a second noise generation rule.
  • machine learning is performed using a data set including sample text data and sample reading text data generated by adding sample noise to the sample text data as teacher data.
  • Noise may be added to the original text data using a noise generation model constructed in .
  • the noise generation model includes first sample text data and first sample reading text data generated by adding first sample noise to the first sample text data.
  • a first noise generation model constructed by performing machine learning with a first data set containing as teacher data, and a second sample text data and a second sample noise generated by adding the second sample text data may be selected from a model group including a second noise generation model constructed by performing machine learning using a second data set including second sample reading text data as teacher data.
  • one or more processors have a function of accepting interactive input that continues for a predetermined time; a function of generating the original text data based on the interactive input; and a function of outputting the synthesized speech before completion of the input.
  • the noise includes interrupt words added to the beginning of the original text data if the speech turn is captured before completion of the dialogue input.
  • an utterance corresponding to an interrupting word included in the synthesized speech is generated based on interrupting prosodic parameters for the interrupting word.
  • one or more processors perform the function of calculating an utterance latency from completion of interaction input to output of synthesized speech based on interaction input. good too.
  • the synthesized speech may be output at the timing when the speech waiting time has passed after the dialogue input is completed.
  • the one or more processors are capable of obtaining environment information about the environment of the dialogue partner and of re-outputting at least part of the synthesized speech according to the environment information. and may be executed.
  • This program causes one or more processors to implement a function of generating text data to be read out by adding noise to original text data, and a function of generating synthesized speech based on the text data to be read out. good.
  • Some embodiments disclosed herein relate to a method performed by one or more computer processors executing computer readable instructions, the method adding noise to original text data. and generating synthesized speech based on the read text data.
  • Some embodiments disclosed herein relate to a method performed by one or more computer processors executing computer readable instructions, comprising obtaining original text data; causing the speech output means to output synthesized speech based on the original text data to which noise associated with at least a portion of the text data has been added.
  • more natural synthetic speech can be generated.
  • FIG. 2 is an explanatory diagram showing an outline of speech synthesis processing in some embodiments disclosed in this specification
  • 1 is a block diagram that schematically illustrates one embodiment of a speech synthesis system to which some embodiments disclosed herein may be applied
  • FIG. 3 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 2
  • FIG. 3 is a diagram showing an example of a mistake table included in the speech synthesis system of FIG. 2
  • FIG. 3 is a diagram showing an example of an additional information table included in the speech synthesis system of FIG. 2
  • FIG. 3 is a diagram showing a modification of the speech synthesis system of FIG. 2
  • FIG. 3 is a diagram showing a modification of the speech synthesis system of FIG. 2; FIG. In the variant shown in FIG. 7, multiple error tables are stored in the storage.
  • FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied; 9 is a diagram showing an example of a conversion table included in the speech synthesis system of FIG. 8; FIG. 9 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 8; FIG. FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied; FIG.
  • FIG. 12 is a flow diagram showing a flow of processing for generating teacher data for training a noise generation model that can be used in the speech synthesis system of FIG. 11;
  • FIG. 12 is a diagram showing an example of teacher data for training a noise generation model that can be used in the speech synthesis system of FIG. 11;
  • FIG. 12 is a diagram showing a modification of the speech synthesis system of FIG. 11;
  • FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied;
  • 16 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 15;
  • FIG. 1 is a schematic block diagram of an embodiment of an automatic dialog system to which the present invention is applicable;
  • the invention disclosed in this specification relates to a speech synthesis system that generates synthesized speech close to spontaneous speech based on plain text.
  • Spontaneous speech contains a lot of noise information from the viewpoint of linguistic information transmission, compared to reading speech.
  • statistical models and rules are constructed so that fluent synthetic speech can be generated from text. This excessive fluency may give listeners an unnatural impression. For example, if synthetic speech generated based on a long text contains no hesitation or mispronunciation, it is highly likely that the listener will have an unnatural impression of the synthesized speech.
  • Japanese Patent Application Laid-Open No. 2006-017819 described above describes a speech synthesizer that generates synthetic speech based on text in which fillers are inserted.
  • the speech synthesizer described in the publication cannot generate synthesized speech containing utterances corresponding to fillers when the input text does not contain fillers.
  • reading text data T2 is generated by adding noise N1 to original text data T1, and including this noise N1.
  • Synthetic speech S1 is generated based on read-out text data T2.
  • Synthesized speech S1 is generated based on reading text T2 including noise N1.
  • information that is not included in the original text data T1 and is added to generate the reading text is called "noise”. Therefore, according to some embodiments disclosed herein, it is possible to obtain synthesized speech S1 that is closer to spontaneous speech.
  • plain text in which fillers and tags conforming to the SSML format are not inserted can be used.
  • synthesized speech S1 close to spontaneous speech is obtained based on ordinary text that was not intended to be the target of speech synthesis. be able to.
  • a voice SNS an avatar can be made to speak continuously for a long period of time (for example, 24 hours) by synthesizing a voice generated from a read-aloud text T1 containing noise.
  • the avatar speaks without hesitation for a long time. Therefore, it seems that the avatar is really interacting with AI, and it is not interesting as an SNS. If the synthesized speech S1 shown in FIG.
  • the utterance of the avatar includes noise such as hesitation (natural poses, etc.), mispronunciation, and rephrasing of difficult words.
  • the user of the voice SNS can obtain an experience close to that of interacting with a real human being.
  • the speech synthesis system 1 comprises a speech synthesizer 10 that generates synthesized speech based on original text.
  • the speech synthesis system 1 may include devices other than the speech synthesis device 10 .
  • the speech synthesizer 10 may have a cloud environment for distributed processing to be executed by the processor 11 .
  • the speech synthesizer 10 includes a processor 11 , memory 12 , user interface 13 , communication interface 14 and storage 15 .
  • the processor 11 is an arithmetic device that loads an operating system and various other programs from the storage 15 or other storage into the memory 12 and executes instructions contained in the loaded programs.
  • the processor 11 is, for example, a CPU, MPU, DSP, GPU, various arithmetic units other than these, or a combination thereof.
  • the processor 11 may be realized by integrated circuits such as ASIC, PLD, FPGA, and MCU.
  • the memory 12 is used to store instructions executed by the processor 11 and various other data.
  • the memory 12 is a main storage device (main memory) that the processor 11 can access at high speed.
  • the memory 12 is, for example, a RAM such as a DRAM or an SRAM.
  • the user interface 13 includes an input interface that receives user input and an output interface that outputs various information under the control of the processor 11 .
  • the input interface includes, for example, a microphone that converts sound into electrical signals.
  • the input interface is a keyboard, a pointing device such as a mouse, a touch panel, or any other information input device capable of inputting a user's input.
  • the output interface is, for example, a liquid crystal display, a display panel, or any other information output device capable of outputting the calculation results of the processor 11 .
  • the communication interface 14 is implemented as hardware, firmware, communication software such as a TCP/IP driver or PPP driver, or a combination thereof.
  • the user terminal 10 can transmit and receive data to and from other information equipment via the communication interface 14 .
  • the storage 15 is an external storage device accessed by the processor 11 .
  • the storage 15 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or various other storage devices capable of storing data.
  • the user terminal 10 executes commands included in the program stored in the storage 15 and other commands as necessary, thereby obtaining a text acquisition unit 11a, a text correction unit 11b, a voice synthesis unit 11c, and a voice output unit. It functions as part 11d.
  • the storage 15 can store original text data 15a, reading text data 15b, rule table 15c, error table 15d, additional information table 15e, speech synthesis data 15f, and other data.
  • the text acquisition unit 11a acquires text data to be synthesized into speech, and stores the acquired text data in the storage 15 as original text data 15a.
  • the text data acquired by the text acquisition unit 11 a can include texts of various contents according to the purpose of the speech synthesis system 1 .
  • the text data acquired by the text acquisition unit 11a may be, for example, texts prepared in advance such as news manuscripts and information guidance at public facilities.
  • text may be automatically generated in real time using a known automatic response system based on dialogue input from the user.
  • the text acquired by the text acquisition unit 11a may be plain text in which fillers and tags conforming to the SSML format are not inserted.
  • the original text data 15a is an example of the original text data T1 shown in FIG.
  • the text correction unit 11b generates reading text data 15b by adding noise to the original text data 15a.
  • the reading text data 15b generated by the text correction unit 11b may be stored in the storage 15.
  • FIG. the text correction unit 11b corrects the original text data by referring to the error table 15d, the additional information table 15e, and other databases as necessary according to the rules described in the rule table 15c. Noise is added to 15a to generate reading text data 15b.
  • the read-out text data 15b is an example of the read-out text data T2 shown in FIG.
  • FIG. 3 shows original text data T11 and reading text data T12 generated by adding noises N11 to N16 to the original text data T11.
  • the text correction unit 11b can analyze the original text data T11 according to the noise generation rules stored in the rule table 15c, and add noise such as noises N11 to N16 to the text included in the original text data T11.
  • the rule table 15c defines one or more rules for adding noise to original text data. Examples of rules defined by the rule table 15c are illustrated below. ⁇ Rule 1: Insert ⁇ pitch> ⁇ /pitch>, which designates a high pitch with a probability of 80%, into the first word. Rule 2: Insert ⁇ breath>, which designates that a pause section of a predetermined length is to be inserted, between the period that first appears after the 30th character from the beginning and the next character. - Rule 3: Enclose the word included in the error table with a start tag ⁇ error> and an end tag ⁇ /error> that specify a misspelled word.
  • ⁇ Rule 4 Insert a ⁇ choke> tag specifying filler insertion with a probability of 5% after the comma.
  • ⁇ Rule 5 When the same word appears for the third time, insert the ⁇ speed> ⁇ /speed> tag designating a fast speech speed into the clause containing the word that appears for the third time and thereafter.
  • - Rule 6 Words included in the additional information table are surrounded by a start tag ⁇ add> and an end tag ⁇ /add> that specify addition of additional information.
  • the rule table 15c can include various rules other than the above for making the synthesized speech more natural (for example, to bring it closer to spontaneous speech). Also, it is not necessary to apply all the rules described above.
  • the rules described in the rule table 15c are not fixed and can be adaptively changed according to the length of the original text data T11. As the number of characters in the original text data T11 increases, the utterance time of synthesized speech increases. If such a long synthetic speech utterance is generated based on a fixed rule, the listener will notice the regularity of the synthesized speech, and that regularity may make the synthesized speech unnatural. have a nature.
  • part of the rules included in the rule table 15c can be stochastically changed.
  • a rule application unit a unit consisting of a predetermined number of characters (for example, 200 characters) from the beginning of the original text data T11
  • "insert ⁇ pitch> ⁇ /pitch>, which specifies a high pitch at the beginning word, with a probability of 70%.” can be changed to Not only the tag insertion probability but also the attribute specified by the tag may be changed for each rule application unit.
  • the height of the pitch specified by the ⁇ pitch> ⁇ /pitch> tags may vary between the first rule application unit and the second rule application unit.
  • a part of the rules can be stochastically changed for each rule application unit.
  • a part of the rules included in the rule table 15c may be stochastically changed each time the synthetic speech utterance time exceeds a predetermined unit time (for example, 3 minutes).
  • various noises are added to the original text data T11 to generate read text data T12.
  • ⁇ pitch> ⁇ /pitch> tags can be added as noise N11 to the first word "AI" of the original text data T11.
  • "AI" is surrounded by a start tag ⁇ pitch> and an end tag ⁇ /pitch> to designate the pitch at which "AI" is uttered.
  • the pitch can be set as an attribute of the ⁇ pitch> ⁇ /pitch> tag.
  • spontaneous speech the pitch of words contained in specific positions in a sentence tends to be higher or lower.
  • spontaneous speech tends to have a higher pitch at the beginning of the utterance.
  • the ⁇ pitch> ⁇ /pitch> tag allows you to specify the pitch of the text enclosed by the start tag ⁇ pitch> and end tag ⁇ /pitch>, so the pitch is close to the pitch that appears in spontaneous speech. can be specified.
  • ⁇ error> ⁇ /error> tags can be added to the text included in the original text data T11.
  • ⁇ error> ⁇ /error> tags are added as noise N12 to "human" that first appears in the original text data T11.
  • the text correction unit 11b can add ⁇ error> ⁇ /error> tags to the text included in the original text data T11 by analyzing the original text data T11 with reference to the error table 15d.
  • the error table 15d includes, for example, correct text and erroneously uttered words, phrases, or other unit texts that may be misread (that is, uttered erroneously) in actual spontaneous speech. can be stored in association with the text.
  • the correct text is stored in the "target text” item
  • erroneously spoken text is stored in the "converted text 1" and "converted text 2" items.
  • the post-conversion text 1 item "translation, uh, ah, interpretation”
  • the post-conversion text 2 item "translation” are associated.
  • this correct unit text for example, "interpretation” and unit texts (for example, "translation") that may be uttered erroneously when the correct unit text should be uttered are targeted.
  • the text item data and the post-conversion text 2 item data are stored in association with each other.
  • the correct unit text for example, “interpretation”
  • the text corrected to the correct unit text after erroneously uttering the correct unit text are the data of the target text item and the converted text 1. It is associated and stored as item data.
  • the error table 15d also stores the error probability for each target text.
  • the text correction unit 11b detects that the unit text (word) "human” included in the original text data T11 is registered in the error table 15d by referring to the error table 15d, the text correction unit 11b corrects the error table 15d.
  • the original text data T11 can be modified so that the unit text contained in 15d is surrounded by a start tag ⁇ error> and an end tag ⁇ /error> tag.
  • ⁇ error> ⁇ /error> tags are added only when the word appears for the first time, and the word appears after the second time. If you do, you don't need to add ⁇ error> ⁇ /error> tags.
  • the probability of misreading of the word for the second and subsequent times may be lower than that for the first time. . This is because, in the actual utterance of spontaneous speech, mispronunciation is less likely to occur when the same word is uttered for the second and subsequent times.
  • the ⁇ breath> tag can be added to the original text data T11.
  • a pause section of a predetermined length should be inserted between the period that first appears after exceeding a predetermined number of characters (for example, 30 characters) from the beginning of the original text data T11 and the next character.
  • a ⁇ breath> tag is added as noise N13.
  • This ⁇ breath> tag designates that a pause section of the length specified by the ⁇ breath> tag should be inserted before uttering the text after the ⁇ breath> tag.
  • the length of the pause section can be set as an attribute of the ⁇ breath> tag.
  • the length of the pause interval is set to less than 1 second, for example.
  • a ⁇ breath> tag can also be attached to a period that appears for the first time after exceeding a predetermined length (for example, 30 characters) after the ⁇ breath> tag.
  • ⁇ breath> tags may be added only if a conjunction appears after a period. After the first period of the original text data T11, the conjunction "dakota" appears, so a ⁇ breath> tag is added between the "dakota" and the period.
  • pauses speech pauses
  • speech synthesis is performed based on the original text data, no pause section is inserted in the synthesized speech even at the timing when a breather is required in human speech. As a result, it may give an unnatural impression to the listener.
  • read-out text data T12 is generated so as to reproduce the pause section that appears in such actual spontaneous speech.
  • ⁇ choke> tags can be appropriately added after the commas included in the original text data T11.
  • a ⁇ choke> tag for inserting filler is added as noise N15 after the reading point of "replacement" included in the original text data T11.
  • This ⁇ choke> tag specifies that a filler should be added to the position of the ⁇ choke> tag.
  • a ⁇ choke> tag may be used to specify that a pause section of a predetermined length should be provided before or after the filler.
  • Utterances in spontaneous speech sometimes contain fillers that have no linguistic meaning by themselves but can convey non-verbal meaning.
  • fillers include "er” in Japanese and "Um” in English.
  • the types of fillers vary from language to language. Fillers have no linguistic meaning per se, but may convey nonverbal information such as the speaker's hesitation. If the synthesized speech does not contain any fillers, the listener may get an unnatural impression from the synthesized speech.
  • the ⁇ choke> tag included in the reading text data T12 can specify the addition of filler, so the filler included in the spontaneous voice is included in the synthetic voice. be able to.
  • ⁇ speed> ⁇ /speed> tags that specify the speaking speed to the text included in the original text data T11.
  • ⁇ speed> ⁇ /speed> tags are set as noise N14 in the text of the original text data T11 that reads, "If humans are to be replaced by AI.”
  • the words "human” and "AI” appear multiple times. In actual spontaneous speech, when the same word or expression is used repeatedly, the text containing the same word or expression tends to be spoken quickly.
  • ⁇ speed> ⁇ /speed> tags are attached to the text "If humans will be replaced by AI" including "human” that appears for the third time.
  • the ⁇ speed> ⁇ /speed> tagged text can be, for example, text contained in clauses, sentences, and other cohesive units.
  • the speech speed can be set as an attribute of the ⁇ speed> ⁇ /speed> tag.
  • ⁇ add> ⁇ /add> tags can be added to the text included in the original text data T11.
  • ⁇ add> ⁇ /add> tags are added as noise N16 to "Mori" (last name) of "Professor Mori” included in the original text data T11.
  • the text correction unit 11b can add ⁇ add> ⁇ /add> tags to the text included in the original text data T11 by analyzing the original text data T11 with reference to the additional information table 15e.
  • the additional information table 15e can store, for example, the text included in the original text data T11 and additional explanation of the text in association with each other.
  • a text to which additional information is added is stored in the item "object text”
  • the additional information of the text is stored in the item "additional information”.
  • the speaker may explain additional information about specific words or phrases. For example, in Japanese, there are a plurality of kanji that have the same reading, so the listener may not be able to identify the kanji that corresponds to the speech only by speaking. In particular, when explaining a proper noun such as a name, it may be difficult to guess the correct kanji corresponding to the reading only by reading the name aloud. For example, there are various kanji characters for a family name pronounced "mori”, such as "mori", “mori”, and "mori”. For example, if the original text data includes the text "Mr.
  • text (words, etc.) to be supplemented with additional information is stored in the item "target text” of the additional information table 15e, and the text is stored in the item "additional information”.
  • additional information There is stored text indicating supplemental information about the .
  • the text "'mori' is the mori of 'Morioka'.” remembered.
  • the text indicating the additional information "'Kamo' is 'Kamo' of 'Kamo'.” is stored. .
  • the listener of the synthesized speech can easily identify the kanji contained in the original text data.
  • the text stored in the "target text" of the additional information table 15e may be not only Chinese characters but also English acronyms. Acronyms can be difficult to understand depending on the utterance. Therefore, in the additional information table 15e, it is possible to store the text spelled out of the acronym in association with the target text as additional information in association with the acronym.
  • the text correction unit 11b detects that the unit text (word) "mori" included in the original text data T11 is registered in the additional information table 15e.
  • the original text data T11 can be modified so that the unit text contained in the additional information table 15e is surrounded by a start tag ⁇ add> and an end tag ⁇ /add>.
  • the ⁇ add> ⁇ /add> tag is added only when it appears for the first time, and You don't have to add ⁇ add> ⁇ /add> tags if they appear. This is because, even in human utterances, the reading of kanji characters is often explained the first time they appear, and not explained after the second time.
  • the position to add additional information specified by referring to the additional information table 15e does not have to be the position of the ⁇ add> ⁇ /add> tag.
  • "Mori” is connected with “Professor” and is used as a group of words "Mori Professor”. Therefore, the position to add the additional information specified by the ⁇ add> ⁇ /add> tag is not the position of the ⁇ add> ⁇ /add> tag, but the period that first appears after the ⁇ add> ⁇ /add> tag. You can do it later.
  • the text correction unit 11b may acquire information about the listener of the synthesized speech and adaptively change the additional information according to the listener. For example, when "SDGs" is included in the original text, the text correction unit 11b acquires listener attribute information indicating the listener's attribute. determines that addition of additional information about "SDGs" is unnecessary, otherwise determines that it is necessary, and adds additional information corresponding to "SDGs" using the above ⁇ add> ⁇ /add> tags. can do. The text correction unit 11b determines whether or not to add additional information according to attributes such as the listener's affiliation, an index indicating comprehension of a certain field (for example, the presence or absence of professional qualifications), age, and occupation. good too.
  • attributes such as the listener's affiliation, an index indicating comprehension of a certain field (for example, the presence or absence of professional qualifications), age, and occupation. good too.
  • the text correction unit 11b may present candidate readings of the word to the user and ask which reading is correct. For example, when the speech synthesizer 10 is used in an automatic dialogue system, the text correction unit 11b can present candidate readings of words to a user (for example, a dialogue partner) and inquire which reading is correct. can. When receiving an answer from the user, the text correction unit 11b can associate the reading of the word returned from the user with the word and store it in the additional information table 15e or any other table. During the interactive session with the user, the text correction unit 11b can refer to the storage unit to fix the reading of the word to the reading given by the user.
  • a user for example, a dialogue partner
  • the text correction unit 11b can associate the reading of the word returned from the user with the word and store it in the additional information table 15e or any other table.
  • the text correction unit 11b can refer to the storage unit to fix the reading of the word to the reading given by the user.
  • the text correction unit 11b will make a voice inquiry to the user, "Are you Mr. Shibuya or Mr. Shibutani?" After combining and outputting, if the user's answer to the inquiry is "Shibutani", the user's last name can be fixed to "Shibutani" in subsequent conversations.
  • the text correction unit 11b adds noises N11 to N16 to the original text data T11 to generate read-aloud text data T12.
  • the read-out text data T12 contains noises N11 to N16.
  • noises other than the noises N11 to N16 may be added to the original text data T11 to make the synthesized speech more natural, or addition of some of the noises N11 to N16 may be omitted.
  • the noises N11 to N16 are generated based on the text included in the original text data T11, but are not included in the original text data T11 itself. In the example of FIG.
  • the noises N11 to N16 are expressed in a tag format, but no tags are set in the original text data T11, and the tags corresponding to the noises N11 to N16 are included in the original text data T11. It was added based on the available text.
  • the noise added to the original text data T11 to generate the reading text data T12 may be collectively referred to as noise N1.
  • the speech synthesis unit 11c uses the speech synthesis data 15f to generate synthesized speech based on the reading text data T12.
  • the speech synthesis data 15f can include a text analysis dictionary, prosodic rules, and a speech waveform database storing speech waveform data.
  • the text analysis dictionary stores dictionary information necessary for text analysis such as text phonology and number of moras
  • the prosody rule stores prosody generation rules for the text.
  • the speech synthesis unit 11c refers to the text analysis dictionary to generate a phoneme sequence for the read-out text data T12, and also refers to the prosody rules to generate prosodic parameters.
  • Prosody parameters can include, for example, phoneme duration, pitch, power, speech rate, and other parameters that define prosody.
  • the speech synthesis unit 11c selects speech waveform data to be used for speech synthesis from the speech waveform database based on the phoneme sequence and prosodic parameters obtained by analyzing the read-out text data T12.
  • the read-out text data T12 contains noises N11 to N16.
  • the phoneme series or prosodic parameters are modified according to the designation of the noises N11 to N16.
  • the noise N11 designates the pitch of "AI's” included in the read-out text data T12. Therefore, instead of the pitch set based on the prosody rule for the phoneme sequence corresponding to "AI no", the speech synthesis unit 11c changes the pitch specified by the noise N11 to the pitch of the phoneme sequence corresponding to "AI no".
  • the parameters specified by the noises N13 and N14 are used instead of the prosodic parameters determined based on the prosodic rules in the text analysis of the reading text data T12.
  • the length of the pause section specified by the noise N13 is the length of the pause section before "so” instead of the length of the pause section before "so" set based on the prosodic rule.
  • the speech rate when uttering the text "If humans will be replaced by AI" specified by noise N14 is set based on the prosody rules instead of the speech rate Used as velocity.
  • the noise N12 specifies a misspelled word (or a possibility of a misspelled word) by surrounding the word "human" with a start tag ⁇ error> and an end tag ⁇ /error>.
  • the speech synthesizing unit 11c refers to the error table 15d and specifies the error rule for the target text enclosed by the start tag ⁇ error> and the end tag ⁇ /error>. Then, the target text is probabilistically transformed into another text according to this error rule. Since the noise N12 includes "human” as the target text, the speech synthesizer 11c, according to the rules described in the error table 15d, converts "human” into the converted text 1 or the converted text with a probability of 15%.
  • the speech synthesis unit 11c uses the replaced "mono, ah, no, human” as the input text.
  • a text analysis dictionary and prosodic rules are used to determine the phonological sequence and prosodic parameters of the part.
  • two texts, converted text 1 and converted text 2 are associated with the target text.
  • the speech synthesizing unit 11c may randomly select either the converted text 1 or the converted text 2 when it is determined to generate replacement according to the probability set for the target text. It may be set that either one of the converted text 1 and the converted text 2 can be used before speech synthesis is started.
  • the noise N15 designates filler insertion.
  • the filler to be inserted may be determined in advance, or may be specified by an attribute of the ⁇ choke> tag.
  • the speech synthesizing unit 11c adds a filler (for example, the text "uh") to the position where the ⁇ choke> tag is set, and generates a phoneme sequence and prosodic parameters for the added text. Generate.
  • the noise N16 specifies that additional information is added by surrounding the word "mori” with the start tag ⁇ add> and the end tag ⁇ /add>.
  • the speech synthesizing unit 11c refers to the additional information table 15e and adds additional information about the target text enclosed by the start tag ⁇ add> and the end tag ⁇ /add>. This additional information is added to the target text, and a phoneme sequence and prosodic parameters are generated for the text with additional information added to the target text.
  • the target text is "Mori”
  • "'Mori' is 'Mori' in 'Morioka'" associated with "Mori" in the additional information table 15e is added to the target text "Mori". do. Therefore, the target of analysis by the speech synthesizing unit 11c is not only “mori” but also "'mori' is 'mori' of 'morioka'.” and prosodic parameters are determined.
  • the speech synthesis unit 11c generates a phoneme sequence and prosody parameters for the reading text data T12 according to the designation of the noises N11 to N16.
  • the speech synthesizing unit 11c selects speech waveform data to be used for speech synthesis from the speech waveform database based on the phoneme series and prosodic parameters thus generated, and synthesizes by connecting the selected speech waveform data. generate sound.
  • an utterance is made according to the designation of the noises N11 to N16.
  • "AI's" at the beginning of the reading text data T12 is uttered at a high pitch in accordance with the designation of the noise N11, so the pitch at the beginning of the synthesized speech reflects the tendency of human speech.
  • the portion of the read-aloud text data T12, ⁇ Human ability...'' is given a certain probability according to the specification of the noise N12. ⁇ ” is erroneously uttered, so in the synthesized speech generated by the speech synthesizer 11c, in addition to the utterance of the text (“human”) included in the original text data T11, it is registered as an erroneous utterance. Since the text ("mono") and the utterance that connects the two utterances ("ah, no,") are also included, this synthesized speech naturally expresses the mistakes that appear in human speech. can do. In addition, the second appearance of "human” does not contain mispronunciations, or the possibility of mispronunciations is reduced, so that tendencies in human speech are reproduced more faithfully.
  • a pause section of the length of time specified by the noise N13 is inserted in the read-out text data T12 before "so", so it is possible to reproduce the breathing of a human when speaking.
  • the part "If humans will be replaced by AI" is spoken at a fast speaking speed specified by the noise N14, so the part containing "human” and “AI” that appear repeatedly is uttered quickly. Therefore, it is possible to more faithfully reproduce the utterance tendency of an actual human being.
  • the filler ("Um") specified by the noise N15 is inserted before "It feels a little different.”
  • the synthesized speech generated by the speech synthesizing unit 11c includes utterances corresponding to fillers, it is possible to reproduce non-fluency due to fillers appearing in actual human utterances.
  • the original text "'Mori' is the Mori of 'Morioka'.” Since the synthesized speech is generated so as to include the utterance of the additional information in addition to the utterance of the text portion (that is, "mori") included in the text data T11, additional information that may be added in actual human utterances. can be reproduced with synthesized speech.
  • the synthesized speech generated according to the designation of the noises N11 to N16 includes utterances generated based on noise not included in the original text data T11, and the speech generated based on this noise By speaking, the synthesized speech generated by the speech synthesizing unit 11c can be brought closer to actual human speech.
  • the synthesized speech generated by the speech synthesis unit 11c is output by the speech output unit 11d.
  • the speech output unit 11d can output the synthesized speech in a manner that conforms to the manner in which the synthesized speech is used. For example, when the synthesized speech generated by the speech synthesizing unit 11c is used as the news distribution speech, the speech output unit 11d streams the generated synthesized speech.
  • the speech outputting unit 11d outputs the speech signal to the speaker installed in the public facility.
  • the output mode of synthesized speech is not limited to the modes explicitly described in this specification.
  • FIG. 6 shows an example in which three types of rule tables 15c1 to 15c3 are stored. Each rule table assumes a virtual speaker of synthesized speech, and can set rules according to the attributes of the virtual speaker.
  • the rule table 15c1 is a rule table for generating synthetic speech spoken by a virtual speaker with attribute A1
  • the rule table 15c2 is for generating synthetic speech spoken by a virtual speaker with attribute A2.
  • a rule table 15c3 is a rule table for generating synthesized speech spoken by a virtual speaker with attribute A3.
  • Each of the attributes A1-A3 may be, for example, a fast talker, a nervous person, and an announcer.
  • the rule table 15c1 corresponding to the attribute A1 of a person who speaks fast the already explained rules 1 to 6 can be changed by increasing the number of characters before ⁇ breath> (rule 1). can.
  • the rule table 15c2 corresponding to the attribute A2 of the person who is nervous a change can be made to increase the occurrence probability of the ⁇ choke> tag (Rule 4).
  • the rule table 15c3 corresponding to the announcer attribute A3 a change can be made so that the ⁇ error> ⁇ /error> tag is not inserted (rule 3).
  • the speech synthesizer 10 receives a specification of a virtual speaker or its attribute from a user, and selects a rule table corresponding to the specified speaker or attribute from among a plurality of rule tables held in a storage 15. be able to.
  • the speech synthesizer 10 can use the selected rule table to generate the reading text data 15b based on the original text data 15a.
  • the attribute "non-native speaker of Japanese" may be included.
  • the attribute of a non-native speaker may include sub-attributes corresponding to the proficiency level of Japanese such as elementary/intermediate/advanced.
  • the plurality of rule tables may include a rule table that holds a rule that does not insert noise, that is, that the original text data is used as read-out text data as it is.
  • the storage 15 may store multiple error tables.
  • FIG. 7 shows an example in which three types of error tables 15d1 to 15d3 are stored. Each error table assumes a virtual speaker of synthesized speech, and can set error generation rules according to the attributes of the virtual speaker.
  • the error table 15d1 is a table referred to for generating synthesized speech spoken by a virtual speaker with attribute A1
  • the error table 15d2 is a synthesized speech spoken by a virtual speaker with attribute A2.
  • the error table 15d3 is a table referred to for generating synthesized speech spoken by a virtual speaker of attribute A3. Attributes A1 to A3 are as already explained.
  • the error occurrence probability can be increased in the error tables 15d1 and 15d2 corresponding to the attributes A1 and A2, and the error occurrence probability can be decreased in the error table 15d3 corresponding to the attribute A3.
  • the probability of occurrence of target text representing honorifics (“look at it" in the example of FIG. 4) may be set high. In this way, the probability of occurrence of errors contained in the error table can be changed so as to more faithfully reflect the tendencies of utterances with various attributes.
  • the text stored as the converted text 1 or the converted text 2 may be changed to reflect the misspelling.
  • the speech synthesizer 10 accepts designation of a virtual speaker or its attribute from the user, and selects a mistake table corresponding to the designated speaker or attribute from among a plurality of error tables held in the storage 15. may The speech synthesizer 10 can use the selected error table to generate read text data 15b based on the original text data 15a.
  • the rule table 15c1 and the error table 15d1 can be set for one attribute (for example, "attribute A1").
  • the reading text data 15b based on the original text data 15a is generated using the rule table 15c1 and the error table 15d1.
  • FIG. 8 is a diagram showing a speech synthesis system 101 according to another embodiment of the present invention
  • FIG. 9 shows a conversion table 15g provided in the speech synthesis system 101
  • FIG. FIG. 10 is a diagram showing an example of read-aloud text
  • the speech synthesis system 101 differs from the speech synthesis system 1 in that the processor 11 also functions as a similarity evaluation unit 11e and the storage 15 has a conversion table 15g.
  • the conversion table 15g is used to reproduce, in synthesized speech, the speech of a speaker who uses unique words and expressions in spontaneous speech.
  • the conversion table 15g associates unit texts such as words, clauses, and phrases stored in the "target text" field with the speaker reproduced in synthesized speech instead of the unit texts stored in the target text.
  • Frequently used texts are stored in the "converted text" item.
  • so-called horizontal terms are stored in the converted text item in association with each of the common terms stored in the target text. For example, "solution” is stored in association with "proposed countermeasure" of the target text.
  • the text correction unit 11b When the text correction unit 11b detects that the unit text included in the original text data T21 is registered in the conversion table 15g by referring to the conversion table 15g, the text correction unit 11b stores the unit text in the conversion table 15g. It can be replaced with text that is stored as converted text in association with the unit text. In the example shown in FIG. 10, "Proposal", "Understood.” , and the text of the replacement word is used as read-aloud text data T22. In other words, the text correction unit 11b can generate read-aloud text data T22 by replacing part of the text included in the original text data T21 according to the conversion table 15g.
  • Each of the replacement word texts (“Solution,” “Agree,” and “Agenda”) included in the read-aloud text data T22 is not included in the original text data T21, so they are added to the original text data T21. Included in noise.
  • “solution” is noise N21
  • “ugly desu” is noise N22
  • “agenda” is noise N23.
  • the speech synthesis system 101 is a system for generating more natural synthetic speech based on original text data, and is not intended to change the meaning of the original text data. Therefore, the similarity evaluation unit 11e evaluates the semantic similarity between the reading text data T22 created using the conversion table 15g and the original text data T21.
  • Techniques for evaluating semantic similarity between sentences are known in the field of natural language processing. For example, Japanese Unexamined Patent Application Publication No. 2005-25257 describes a method of evaluating semantic similarity between sentences.
  • the similarity evaluation unit 11e evaluates the semantic similarity between the reading text data T22 and the original text data T21 using the algorithm described in the publication or other known techniques known in the field of natural language processing. and determine whether the semantic similarity is higher than a predetermined reference rating. If the semantic similarity between the read-out text data T22 and the original text data T21 is higher than the reference evaluation, the read-out text data T22 can be used for speech synthesis. If the semantic similarity between the read-out text data T22 and the original text data T21 is lower than the reference evaluation, a part of the unit text included in the original text data T21 is not replaced based on the conversion table 15g. The semantic similarity between the text data T22 and the original text data T21 can be improved.
  • the text correction unit 11b may reduce the number of unit texts to be replaced and repeatedly generate the read-out text data T22 until the semantic similarity between the read-out text data T22 and the original text data T21 becomes higher than the reference evaluation. good.
  • the speech synthesis unit 11c can perform speech synthesis based on the read-out text data T22 when the semantic similarity between the read-out text data T22 and the original text data T21 is higher than the reference evaluation. Specifically, the speech synthesizing unit 11c generates a phoneme sequence and prosody parameters by text-analyzing the reading text data T22, and selects speech waveform data from the speech waveform database based on the phoneme sequence and prosody parameters. . The speech synthesizing unit 11c can generate synthetic speech by connecting the selected speech waveform data.
  • the speech synthesis unit 11c may set an upper limit on the number of words to be converted per number of characters in the original text data T21.
  • the upper limit of the number of words to be converted per 100 characters of the original text data may be set to 2 words.
  • the speech synthesis system 101 performs speech synthesis based on the reading text data T22 in which a part of the text included in the original text data T21 is replaced according to the conversion table 15g, when spontaneous speech is uttered, it is possible to express individuality. Synthetic speech can be generated that closely resembles the utterances of a speaker using certain words and expressions. For example, in Japanese, people engaged in consulting tend to frequently use so-called horizontal expressions (eg, "solution"). In addition, it is possible to reproduce the peculiar way of speaking used by entertainers. For example, there are entertainers who use a technique of replacing utterances in Japanese word by word with English, and such a technique can be reproduced. In English, the legal profession tends to use Latin extensively.
  • the Latin "inter alia” is often used instead of the English “among”.
  • the general-purpose original text data that does not reflect the speaker's individuality can be converted to the speaker's individuality.
  • synthesized speech By generating synthesized speech based on read-out text data expressing the individuality of the speaker in this way, it is possible to generate synthesized speech that reflects the individuality of the speaker.
  • the speech synthesis system 101 may include a plurality of conversion tables 15g set for each virtual speaker or speaker attribute. As a result, by specifying the attribute of the speaker, it is possible to generate synthesized speech that is close to the utterance of the speaker having the specified attribute.
  • a conversion table may be provided for each speaker or speaker attribute.
  • the speech synthesizer 10 accepts the designation of the speaker or its attribute from the user, and selects a conversion table corresponding to the designated speaker or attribute from among a plurality of conversion tables held in the storage 15. .
  • the speech synthesizer 10 can use the selected conversion table to generate the reading text data 15b based on the original text data 15a.
  • conversion table 15g is used (that is, based on specific rules) to generate read-aloud text data 15b based on original text data 15a.
  • a part of the text included in the original text data is replaced by using a conversion model generated/updated by machine learning without using the conversion rule or in addition to the conversion table 15g or other conversion rules.
  • a draft model may be associated with a particular speaker.
  • the speech synthesizer 10 collects learning data representing the characteristics of the actual utterances and writings of the speaker associated with the conversion model and the utterances of other speakers, and uses the learning data Transformation models can be trained.
  • the speech synthesizer 10 can hold conversion models for each speaker or attribute thereof.
  • the speech synthesizer 10 can accept the designation of the speaker or its attribute from the user, and select the conversion model corresponding to the designated speaker or attribute from among a plurality of conversion models held in the storage 15. . By applying the selected conversion model to the original text data 15a, the speech synthesizer 10 can generate read-out text data 15b in which features of the speaker's utterance corresponding to the selected conversion model appear. can.
  • FIG. 11 is a diagram showing a speech synthesis system 201 in another embodiment of the present invention
  • FIG. 12 is an example of a method of creating teacher data used for training a noise generation model used in the speech synthesis system 201
  • FIG. 13 is a diagram showing an example of teacher data for training a noise generation model that can be used in a speech synthesis system.
  • the speech synthesis system 201 generates read-out text data on a rule basis in that the text correction unit 11b uses the noise generation model 15h stored in the storage 15 to generate the read-out text data 15b from the original text data 15a. It is different from the speech synthesis system 1.
  • the text correction unit 11b generates reading text data 15b by adding noise to the original text data 15a using the noise generation model 15h.
  • the noise generation model 15h performs machine learning using a data set containing sample text data without noise and sample read-aloud text data generated by adding sample noise to the sample text data as teacher data. be built.
  • teacher data for training the noise generation model 15h can be efficiently prepared, read-aloud text data 15b in which noise N1 is added to the original text data 15a by the noise generation model 15h without defining rules by the rule table 15c. can be generated efficiently.
  • a method of efficiently generating teacher data that can be used for training the noise generation model 15h will be described with reference to FIG.
  • step S11 the speaker reads sample text data that does not contain noise.
  • sample text data may be generic sentences, as shown in FIG.
  • speech waveform data corresponding to the sample text data can be obtained.
  • step S12 from the speech waveform data of the sample text data obtained in step S11, speech features such as phoneme type, phoneme duration, pitch pitch, and utterance speed are extracted. to extract the noise. If the prosodic parameters extracted from the speech waveform data representing the utterance of the sample text data deviate greatly from the prosodic rules generally used in speech synthesis, the prosodic parameters can be identified as noise. . For example, as shown in FIG.
  • step S13 the teacher data is generated by combining the sample text data and the sample reading data generated from the waveform data obtained by reading the sample text data.
  • An example of teacher data is as shown in FIG.
  • the noise generation model 15h can be trained with the training data generated as described above.
  • the storage 15 can store a plurality of noise generation models.
  • three types of noise generation models 15h1 to 15h3 are stored.
  • Each noise-generating model is trained by learning the noise specific to each different speaker.
  • the noise generation model 15h1 is a model constructed by learning noise specific to speaker B1.
  • the noise to be added to the sample text is specified based on the speech waveform data of the sample text obtained by the speaker B1 reading the sample text as described above, and the noise-added sample A set of reading data and sample text data is used as teacher data for generating noise for speaker B1.
  • the noise generation model 15h1 is trained using the training data of speaker B1
  • the noise generation model 15h2 is trained using the training data of speaker B2
  • the noise generation model 15h3 is trained using the training data of speaker B3. and trained.
  • the speech synthesis system accepts the designation of the speaker from the user, and selects the noise generation model corresponding to the designated speaker from among the plurality of noise generation models held in the storage 15. be able to.
  • the speech synthesis system can generate read text data 15b based on the original text data 15a using the selected noise generation model.
  • the noise generation model 15h1 By applying the noise generation model 15h1 to the original text data 15a to generate the read-out text data 15b, the features of the speech of the speaker B1 are reflected in the read-out text data 15b.
  • Similar to the noise generation model 15h1, other noise generation models 15h2 and 15h3 also reflect the features of the utterances of the speakers B2 and B3.
  • FIG. FIG. 15 is a diagram showing a speech synthesis system 301 according to another embodiment of the invention, and FIG.
  • the speech synthesis system 301 is similar to the speech synthesis system 1 in that the processor 11 also functions as a real-time information acquisition unit 11f, and the text correction unit 11b generates read-out text data based on the real-time information acquired by the real-time information acquisition unit 11f. is different from
  • the real-time information acquisition unit 11f intermittently acquires real-time information at predetermined time intervals.
  • Examples of real-time information are news information that can be obtained from news sites, temperature and weather that can be obtained from weather news, and various other information.
  • the text correction unit 11b can generate the reading text data 15b based on the original text data 15a and the real-time information acquired by the real-time information acquisition unit 11f.
  • the original text data T31 is plain text, like the original text data T11 and T21.
  • the current temperature is used among the real-time information acquired by the real-time information acquiring section 11f. Assume that the current temperature acquired by the real-time information acquisition unit 11f is 32°C. Based on the real-time information that the current temperature is 32°C, the text correction unit 11b can generate an additional text saying "It's over 30°C today, isn't it hot?". This additional text is noise because it is not included in the original text data T31.
  • the text correction section 11b can generate additional text based on the real-time information acquired by the real-time information acquisition section 11f, and add this additional text as noise N31 to the original text data T31. Further, the read-out text data T32 includes the additional text added as the noise N31 and the text included in the original text data T31 naturally connecting "Well then" as the noise N32.
  • the voice synthesis unit 11c can perform voice synthesis based on the read-out text data T32. Specifically, the speech synthesizing unit 11c generates a phoneme sequence and prosody parameters by text-analyzing the reading text data T32, and selects speech waveform data from the speech waveform database based on the phoneme sequence and prosody parameters. . The speech synthesizing unit 11c can generate synthetic speech by connecting the selected speech waveform data.
  • the reading text data T32 is generated by adding the noise N31 generated based on the real-time information obtained by the real-time information obtaining section 11f to the original text data T31. Therefore, it is possible to give a more natural impression to the listener of the synthesized speech generated based on the reading text data T32.
  • the noise N31 added to the original text data T31 is generated independently of the text included in the original text data T31, and is generated based on the text included in the original text data. are different from the noises (noises N11 to N16, N21 to N23, etc.) of the speech synthesis systems 1, 101, 201. According to the speech synthesis system 301, by using information other than the text contained in the original text data T31, it is possible to generate a more natural synthetic speech.
  • real-time information is used as information other than the text contained in the original text data T31, but noise is generated using other information not contained in the original text data T31.
  • Virtual speaker environment information may be added to the original text data T31. For example, it is possible to imagine a virtual environment in which a virtual speaker speaks in his/her own virtual room and a virtual domestic cat exists in his/her room. Assuming that the original text data T31 contains a tag designating the meowing of a cat, reading text data T32 may be generated.
  • a cat's meow can be specified with a ⁇ cat> tag, for example.
  • the ⁇ cat> tag can be inserted at the beginning, end, or middle of the text included in the original text data T31.
  • the speech synthesizing unit 11c selects the waveform data representing the meowing of the cat from the waveform database, and extracts the waveform data representing the meowing of the cat from the reading text data T32 other than the ⁇ cat> tag.
  • synthesized speech including the cat's bark can be generated. This makes it possible to give the listener of the synthesized speech the impression that the synthesized speech is being uttered by a real speaker.
  • the automatic dialogue system 401 includes a speech synthesizer 410 that generates synthesized speech based on read-aloud text data 15b containing noise, and a user communicatively connected to this speech synthesizer 410 via a network 40. a device 420;
  • the speech synthesizer 410 like the speech synthesizer 10, is configured to be able to generate synthetic speech based on the read-out text data 15b containing noise.
  • the user device 420 is an information processing device used by the user of the automatic dialogue system 401 .
  • User device 420 is a desktop PC, laptop PC, smart phone, or other information processing device.
  • User device 420 may include a processor, memory, user interface, communication interface, and storage (none shown) not shown.
  • the user device 420 can execute an automatic dialogue application such as a chatbot, and the dialogue function of the speech synthesizer 410 can be used by this automatic dialogue application.
  • the user device 420 can generate questions and inquiries about products and services and other interactive inputs, and can transmit the generated interactive inputs to the speech synthesizer 410 via the network 40 .
  • the interactive input is data in text format, for example.
  • the speech synthesizer 410 can respond to dialogue input from the user device 420 using synthesized speech.
  • synthesized speech generated based on read-aloud text data containing noise as a response to dialogue input, it is possible to interact with a dialogue partner using more natural synthesized speech.
  • the processor 11 of the speech synthesizer 410 can function as a dialogue unit 11g, an utterance turn determination unit 11h, an utterance waiting time calculation unit 11i, and a dialogue environment detection unit 11j.
  • the dialogue unit 11g generates a response according to the dialogue input received from the user device 420.
  • an automatic response system that generates a response to a voice or text interactive input based on a predetermined response rule.
  • Automatic response systems have been put into practical use, for example, as chatbots, and techniques for automatically generating responses to input rather than manually are well known to those skilled in the art.
  • the generation of original text data based on dialogue input uses a known automatic response system, automatic question answering system, automatic dialogue system, or other natural language technology for automatically generating responses to dialogue inputs. can be performed.
  • the dialogue unit 11g uses a known technique to generate a text-format response to the dialogue input received from the user device 420, and stores the text-format response in the storage 15 as the original text data 15a.
  • the text correction unit 11b adds noise to the response sentence generated by the dialog unit 11g, thereby generating read-aloud text data 15b corresponding to the response sentence.
  • the speech synthesizing unit 11c can perform speech synthesis by the above-described method based on the reading text data 15b corresponding to the response sentence.
  • the utterance turn determination unit 11h determines whether or not the dialogue input from the user device 420 is completed and the own device (user device 420) has a utterance turn.
  • the voice output unit 11 outputs synthetic voice generated based on the read-out text data 15b corresponding to the response sentence generated by the voice synthesis unit 11c. Send to user device 420 .
  • the text The correction unit 11b can generate read-aloud text data 15b by adding an interrupt word to the beginning of original text data 15a representing a response sentence.
  • the reading text data 15b can include the interrupt words added by the text correction unit 11b at the beginning as noise.
  • An interrupting word is a word that has the function of interrupting the other party's utterance, such as "Uh,” or "Is this okay?"
  • Interrupting words are words with a special role that are uttered to interrupt the conversation partner's utterances and acquire utterance turns. This may give an unnatural impression to the conversation partner. Therefore, the text correction unit 11b uses ⁇ pitch> ⁇ /pitch> tags and ⁇ speed> ⁇ /speed> tags for the interrupting word to set the interrupting word prosodic parameter (for example, pitch speech rate) can be added.
  • the interrupting word prosodic parameter for example, pitch speech rate
  • the speech synthesizing unit 11c can generate synthesized speech based on the reading text data 15b including the interrupt word.
  • the synthesized speech generated in this manner includes an utterance corresponding to the interrupting word at the beginning.
  • the voice output unit 11d can transmit the synthesized voice including the utterance corresponding to the interrupt word generated as described above to the user device 420 even before the dialogue input is completed.
  • the speech synthesizer 410 can output synthesized speech before the dialogue input is completed, so that dialogue with the user can be made more efficient. Also, if a synthetic voice response is sent before the dialogue input is completed, the synthetic voice will have an utterance corresponding to the interrupt word at its beginning.
  • the speech waiting time calculation unit 11i calculates the speech waiting time from the completion of the dialogue input based on the dialogue input from the user device 420 to the output of the synthesized speech generated based on the dialogue input by the speech output unit 11d. can be done.
  • the utterance waiting time is set to zero because a prompt dialogue response is usually required.
  • the utterance waiting time calculation unit 11i waits for utterance when the dialog input includes a big laugh, when the user is clapping, when it is determined from the dialog input that the user is angry, or when other than these. If the condition is satisfied, calculate a non-zero speech waiting time.
  • the fact that the user is angry can be detected, for example, using sentimental analysis, which is well known in the field of natural language processing.
  • the speech waiting time may be set, for example, within a range of 3 seconds to 10 seconds.
  • the dialogue environment detection unit 11j detects information that may prevent the user of the user device 420 from listening to the synthesized speech response. For example, when the dialog input is performed by voice, the dialog environment detection unit 11j analyzes the voice of the dialog input and checks whether there is a large noise in the background. When there is loud noise, the synthesized voice can be retransmitted to the voice output unit 11d at the timing when the noise disappears. In this way, the speech output unit 11d can retransmit the synthesized speech to the user device 420 based on the detection information of the dialogue environment detection unit 11j.
  • the voice output unit 11d may resend all of the synthesized voice that has already been transmitted, or if the loud noise is temporary, the voice output unit 11d may synthesize a segment that may have been difficult to hear due to the loud noise among all segments of the synthesized voice. Only the audio may be transmitted again.
  • the dialogue environment detection unit 11j When the dialogue environment detection unit 11j detects that the user does not understand the words of the synthesized speech, it may add synonyms of the said words to the next reading text data. For example, if “beverage” is not understood, processing may be performed to change it to "drink". Even in the same English, there are words that are pronounced differently in the United Kingdom and the United States, so if “subway” does not work, it may be changed to "tube”, and if "lift” does not work, it may be changed to "elevator".
  • functions such as adding an interrupting word, setting prosody parameters of the interrupting word, setting the utterance waiting time, and retransmitting the synthesized voice according to the user's environment allow the user to interact more effectively with the synthesized voice. Natural dialogue can be realized.
  • a program or instructions included in the program described as being executed by the processor 11 may be executed by a single computer processor, or may be executed by a plurality of computer processors in a distributed manner. good. Also, the programs described as being executed by the processor 11 or instructions included in the programs may be executed by a processor provided in a device separate from the speech synthesizer 10 . Also, the program executed by the processor 11 or instructions included in the program may be distributed and executed by a plurality of virtual computer processors.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (e.g., floppy disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical discs), Compact Disc Read Only Memory (CD-ROM), CD -R, CD-R/W, semiconductor memory (e.g. Mask ROM, Programmable ROM (PROM), Erasable PROM (EPROM), Flash ROM, Random Access Memory (RAM)).
  • various data that can be stored in the storage 15 may be stored in a storage or database server that is physically separate from the storage 15 inside or outside the on-premises environment 5 . That is, in this specification, the data described as being stored in the storage 15 may be stored in a single storage, or distributed and stored in a plurality of storages.
  • the term "storage" may refer to either a single storage or a collection of multiple storages, as long as the context permits.
  • the combined aspect can be a further embodiment of the present invention.
  • functions performed by any of the speech synthesis systems 1, 101, 201, 301 may be performed by other systems.
  • Functions performed in any of speech synthesis systems 1 , 101 , 201 , 301 may be performed in automatic dialog system 401 .
  • FIGS. 8 to 10 a part of the text included in the original text data 15a is replaced with the post-conversion text, and then, according to the embodiment shown in FIGS. may be inserted to generate the reading text data 15b.
  • a tag representing noise may be attached to the post-conversion text obtained by converting the text contained in the original text data 15a. That is, noise may be superimposed on noise.
  • Notations such as “first”, “second”, “third” in this specification etc. are attached to identify the constituent elements, and do not necessarily limit the number, order, or content thereof is not. Also, numbers for identifying components are used for each context, and numbers used in one context do not necessarily indicate the same configuration in other contexts. Also, it does not preclude a component identified by a certain number from having the function of a component identified by another number.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

A speech synthesis system according to some embodiments disclosed in the description causes one or more processors to perform: a function of generating reading text data by adding noise to original text data; and a function of generating synthesized speech on the basis of the reading text data.

Description

テキストを合成音声に変換する音声合成Speech synthesis that converts text into synthetic speech
 本明細書の開示は、テキストを合成音声に変換する音声合成(text-to-speech synthesis)に関する。 The disclosure of this specification relates to text-to-speech synthesis that converts text into synthesized speech.
 入力されたテキストに基づいて合成音声を生成する音声合成システムが知られている。テキストに基づいて音声合成する方式として、例えば、単語やフレーズ単位でデータベースに蓄積された人間による発声を繋ぎ合わせることで合成音声を生成する録音編集方式や、大規模な音声コーパスを利用して統計的なアプローチで合成音声を生成する統計的音声合成方式が知られている。統計的音声合成においては、入力されたテキストを解析することで当該テキストから音素、品詞、単語などの言語特徴量系列を生成し、この言語特徴量系列から音響モデルと呼ばれる統計モデルを用いて音声特徴量系列を推定し、この推定された音声特徴量系列から音声波形を生成する。音響モデルとしては、隠れマルコフモデル(Hidden Markov Model)が広く利用されている。従来の統計的音声合成は、例えば、国際公開第2017/046887号(特許文献1)及び特開2017-32839号公報(特許文献2)に記載されている。 A speech synthesis system that generates synthesized speech based on input text is known. Methods for text-based speech synthesis include, for example, a recording editing method that generates synthesized speech by connecting human utterances stored in a database for each word or phrase, and a statistical analysis method that uses a large-scale speech corpus. Statistical speech synthesis methods are known that generate synthetic speech using a statistical approach. Statistical speech synthesis analyzes the input text to generate a sequence of linguistic features such as phonemes, parts of speech, and words from the text. A feature quantity sequence is estimated, and a speech waveform is generated from the estimated speech feature quantity sequence. A Hidden Markov Model is widely used as an acoustic model. Conventional statistical speech synthesis is described, for example, in International Publication No. 2017/046887 (Patent Document 1) and Japanese Patent Application Laid-Open No. 2017-32839 (Patent Document 2).
 音声合成は、ニュースの読み上げ、公共施設での音声による情報案内、音声対話システムにおけるユーザとの対話音声の生成等の様々な場面での利用が期待されている。用途によっては、人間の自発音声(spontaneous speech)により近い自然な合成音声の生成が望まれる。 Speech synthesis is expected to be used in a variety of situations, such as news reading, voice information guidance at public facilities, and generation of dialogue voices with users in voice dialogue systems. Depending on the application, it is desirable to generate natural synthetic speech that is closer to human spontaneous speech.
 日本語話し言葉コーパス(CSJ)は、人間の自発音声の波形に様々なコンテキスト情報を関連付けて記憶するデータベースである。このような自発音声を蓄積した音声コーパスを利用して統計モデルを構築することにより、自発音声に近い自然な合成音声を生成することが期待される。 The Corpus of Spoken Japanese (CSJ) is a database that associates and stores various contextual information with waveforms of spontaneous human speech. By constructing a statistical model using a speech corpus in which such spontaneous speech is accumulated, it is expected that natural synthesized speech close to spontaneous speech can be generated.
 音声合成用のマークアップ言語として、音声合成マークアップ言語(SSML:Speech Synthesis Markup Language)が知られている。音声合成マークアップ言語によってテキストに適切なタグを付し、このタグ付きのテキストに基づいて合成音声を生成することによって、より自然な合成音声が得られる可能性がある。例えば、SSMLで使用されるタグとして、合成音声における休止位置や休止時間の長さを表す<break>タグが知られており、<break>タグを用いることにより合成音声の所望の位置に所望の長さの休止を挿入することができる。このように、SSML形式のタグを含むテキストを利用することによって、自発音声により近い合成音声を生成することが期待される。 Speech Synthesis Markup Language (SSML) is known as a markup language for speech synthesis. Appropriately tagging text with a text-to-speech markup language and generating synthetic speech based on this tagged text may result in a more natural synthetic speech. For example, a <break> tag is known as a tag used in SSML to indicate a pause position and a length of pause time in synthesized speech. Pauses of length can be inserted. In this way, it is expected that synthetic speech closer to spontaneous speech can be generated by using text containing tags in SSML format.
 自発音声は、それ自体では言語的な意味を持たないが非言語的な意味を伝えることができる「フィラー」を含むことがある。フィラーの例としては、日本では「えーと」、英語では「Um」が挙げられる。フィラーの種類は、言語によって多様である。特開2006-017819号公報には、フィラーが挿入されたテキストに基づいて合成音声を生成する音声合成装置が記載されている。フィラーが挿入されたテキストに基づいて生成された合成音声は、フィラーを全く含まない合成音声と比べて人間の自発音声により近いため、聞き手にとって自然な発話と感じられる。 Spontaneous speech may contain "fillers" that have no linguistic meaning by themselves but can convey non-verbal meaning. Examples of fillers include "er" in Japanese and "Um" in English. The types of fillers vary from language to language. Japanese Patent Application Laid-Open No. 2006-017819 describes a speech synthesizer that generates synthetic speech based on text in which fillers are inserted. Synthetic speech generated based on text with filler inserted is closer to spontaneous human speech than synthetic speech that does not contain filler at all, and thus sounds natural to the listener.
国際公開第2017/046887号WO2017/046887 特開2017-32839号公報JP 2017-32839 A 特開2006-017819号公報JP 2006-017819 A
 従来の音声合成において、実際の人間の発話に近い自然な合成音声を生成するためには、テキストにSSMLのタグやフィラーを記述しておく必要がある。SSMLのタグやフィラーを含まないプレーンなテキストに基づいて自然な合成音声を生成する音声合成システムはこれまで知られていない。 In conventional speech synthesis, in order to generate natural synthesized speech that is close to actual human speech, it is necessary to describe SSML tags and fillers in the text. No speech synthesis system is known so far that generates natural synthesized speech based on plain text without SSML tags or fillers.
 本明細書に開示される発明の目的は、音声合成における上記の問題の少なくとも一部を解決又な緩和することである。本明細書に開示される発明のより具体的な目的の一つは、より自然な合成音声を生成することである。本明細書に開示される発明のより具体的な目的の一つは、プレーンなテキストに基づいてより自然な合成音声を生成することである。 An object of the invention disclosed in this specification is to solve or alleviate at least some of the above problems in speech synthesis. One of the more specific objectives of the invention disclosed herein is to generate more natural synthetic speech. One of the more specific objectives of the invention disclosed herein is to generate more natural synthesized speech based on plain text.
 本明細書に開示される発明の前記以外の目的は、本明細書全体を参照することにより明らかになる。本明細書に開示される発明は、前記の課題に代えて又は前記の課題に加えて、本明細書の記載から把握される課題を解決するものであってもよい。 Objects of the invention disclosed in the present specification other than the above will become apparent by referring to the entire specification. The invention disclosed in this specification may solve the problems understood from the description of this specification instead of or in addition to the above problems.
 本明細書に開示されるいくつかの実施形態による音声合成システムは、一又は複数のプロセッサを備え、前記一又は複数のプロセッサに、オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する機能と、前記読み上げテキストデータに基づいて合成音声を生成する機能と、を実行させる。 A text-to-speech system according to some embodiments disclosed herein comprises one or more processors, wherein the one or more processors add noise to original text data to generate reading text data. and a function of generating synthesized speech based on the read-out text data.
 本明細書に開示されるいくつかの実施形態において、ノイズは、オリジナルテキストデータに含まれる第1テキスト部分に関連付けられている第1ノイズを含む。 In some embodiments disclosed herein, the noise includes first noise associated with a first text portion included in the original text data.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、第1テキスト部分の後に所定時間長さのポーズ区間を挿入することを示す第1アノテーションを含む。合成音声は、第1テキスト部分の発話の後が前記第1アノテーションにより指定された前記所定時間長さだけ発話が中断されるように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a first annotation indicating to insert a pause interval of a predetermined length of time after the first text portion. The synthesized speech may be generated such that speech of the first text portion is interrupted for said predetermined length of time specified by said first annotation.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、前記第1テキスト部分のピッチを指定する第2アノテーションを含む。合成音声は、第1テキスト部分が第2アノテーションに応じたピッチで発話されるように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a second annotation specifying the pitch of said first text portion. Synthesized speech may be generated such that the first text portion is spoken at a pitch responsive to the second annotation.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、第1テキスト部分の発話速度を指定する第3アノテーションを含む。合成音声は、前記第1テキスト部分が前記第3アノテーションに応じた発話速度で発話されるように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a third annotation specifying the speech rate of the first text portion. Synthesized speech may be generated such that the first text portion is spoken at a speech rate responsive to the third annotation.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、第1テキスト部分の言い間違えを指定する第4アノテーションを含む。合成音声は、第4アノテーションに基づいて、第1テキスト部分、及び、当該第1テキスト部分に関連付けられた第2テキスト部分の発話を含むように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a fourth annotation specifying a misspelling of the first text portion. Synthesized speech may be generated to include utterances of the first text portion and a second text portion associated with the first text portion based on the fourth annotation.
 本明細書に開示されるいくつかの実施形態において、合成音声は、第4アノテーションに基づいて、前記第2テキスト部分、接続語、前記第1テキスト部分の発話をこの順番で含むように生成されてもよい。 In some embodiments disclosed herein, the synthesized speech is generated to include, in that order, utterances of the second text portion, conjunctions, and utterances of the first text portion based on the fourth annotation. may
 本明細書に開示されるいくつかの実施形態において、合成音声は、第4アノテーションに基づいて、記第1テキスト部分に関連付けられた第2テキスト部分の発話を含むが第1テキスト部分の発話を含まないように生成されてもよい。 In some embodiments disclosed herein, the synthesized speech includes utterances of the second text portion associated with the first text portion but utterances of the first text portion based on the fourth annotation. It may be generated so as not to contain it.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、前記第1テキスト部分に関連するフィラーを指定する第5アノテーションを含む。合成音声は、フィラーを含むように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a fifth annotation specifying filler associated with said first text portion. Synthetic speech may be generated to include filler.
 本明細書に開示されるいくつかの実施形態において、第1ノイズは、第1テキスト部分に関する付加情報の追加を指定する第6アノテーションを含む。合成音声は、少なくとも前記第1テキスト部分及び前記付加情報の発話を含むように生成されてもよい。 In some embodiments disclosed herein, the first noise includes a sixth annotation specifying addition of additional information about the first text portion. Synthesized speech may be generated to include utterance of at least the first text portion and the additional information.
 本明細書に開示されるいくつかの実施形態において、読み上げテキストデータは、前記テキストの前記第1テキスト部分に代えて前記第2テキスト部分を含むように生成される。 In some embodiments disclosed herein, read-aloud text data is generated to include the second text portion instead of the first text portion of the text.
 本明細書に開示されるいくつかの実施形態において、オリジナルテキストデータと前記読み上げテキストデータとの意味的類似が基準評価よりも高くなるように読み上げテキストデータが生成される。 In some embodiments disclosed herein, readout text data is generated such that the semantic similarity between the original text data and the readout text data is higher than a reference evaluation.
 本明細書に開示されるいくつかの実施形態において、読み上げテキストデータは、前記第1ノイズと異なる第2ノイズを含む。 In some embodiments disclosed herein, the text-to-speech data includes a second noise different from the first noise.
 本明細書に開示されるいくつかの実施形態において、一又は複数のプロセッサは、リアルタイム情報を取得する機能をさらに実行することができる。第2ノイズは、リアルタイム情報に関する追加テキストを含んでもよい。 In some embodiments disclosed herein, one or more processors may further perform the function of obtaining real-time information. The secondary noise may contain additional text regarding real-time information.
 本明細書に開示されるいくつかの実施形態において、第2ノイズは、合成音声の仮想的な話者が存在する仮想環境に関する仮想話者環境情報を含む。 In some embodiments disclosed herein, the second noise includes virtual speaker environment information regarding the virtual environment in which the virtual speaker of the synthesized speech is present.
 本明細書に開示されるいくつかの実施形態において、ノイズは、ノイズ生成規則に基づいてオリジナルテキストデータに追加される。 In some embodiments disclosed herein, noise is added to the original text data based on noise generation rules.
 本明細書に開示されるいくつかの実施形態において、ノイズ生成規則は、第1ノイズ生成規則及び第2ノイズ生成規則を含むノイズ生成規則群のうちから選択される。 In some embodiments disclosed herein, the noise generation rule is selected from among a group of noise generation rules including a first noise generation rule and a second noise generation rule.
 本明細書に開示されるいくつかの実施形態において、サンプルテキストデータと当該サンプルテキストデータにサンプルノイズを追加して生成されたサンプル読み上げテキストデータとを含むデータセットを教師データとして機械学習を行うことで構築されたノイズ生成モデルを用いて、オリジナルテキストデータにノイズを追加してもよい。 In some embodiments disclosed herein, machine learning is performed using a data set including sample text data and sample reading text data generated by adding sample noise to the sample text data as teacher data. Noise may be added to the original text data using a noise generation model constructed in .
 本明細書に開示されるいくつかの実施形態において、ノイズ生成モデルは、第1サンプルテキストデータと当該第1サンプルテキストデータに第1サンプルノイズを追加して生成された第1サンプル読み上げテキストデータとを含む第1データセットを教師データとして機械学習を行うことで構築された第1ノイズ生成モデル、及び、第2サンプルテキストデータと当該第2サンプルテキストデータに第2サンプルノイズを追加して生成された第2サンプル読み上げテキストデータとを含む第2データセットを教師データとして機械学習を行うことで構築された第2ノイズ生成モデルを含むモデル群の中から選択されてもよい。 In some embodiments disclosed herein, the noise generation model includes first sample text data and first sample reading text data generated by adding first sample noise to the first sample text data. A first noise generation model constructed by performing machine learning with a first data set containing as teacher data, and a second sample text data and a second sample noise generated by adding the second sample text data may be selected from a model group including a second noise generation model constructed by performing machine learning using a second data set including second sample reading text data as teacher data.
 本明細書に開示されるいくつかの実施形態において、一又は複数のプロセッサは、所定時間継続する対話入力を受け付ける機能と、前記対話入力に基づいて前記オリジナルテキストデータを生成する機能と、前記対話入力の完了前に前記合成音声を出力する機能と、を実行してもよい。 In some embodiments disclosed herein, one or more processors have a function of accepting interactive input that continues for a predetermined time; a function of generating the original text data based on the interactive input; and a function of outputting the synthesized speech before completion of the input.
 本明細書に開示されるいくつかの実施形態において、対話入力の完了前に発話ターンを獲得する場合には、ノイズは、オリジナルテキストデータの冒頭に追加される割り込み語を含む。 In some embodiments disclosed herein, the noise includes interrupt words added to the beginning of the original text data if the speech turn is captured before completion of the dialogue input.
 本明細書に開示されるいくつかの実施形態において、合成音声に含まれる割り込み語に対応する発話は、割り込み語用の割り込み韻律パラメータに基づいて生成される。 In some embodiments disclosed herein, an utterance corresponding to an interrupting word included in the synthesized speech is generated based on interrupting prosodic parameters for the interrupting word.
 本明細書に開示されるいくつかの実施形態において、一又は複数のプロセッサは、対話入力に基づいて、対話入力の完了から合成音声を出力するまでの発話待ち時間を算出する機能を実行してもよい。合成音声は、対話入力の完了後に前記発話待ち時間が経過したタイミングで出力されてもよい。 In some embodiments disclosed herein, one or more processors perform the function of calculating an utterance latency from completion of interaction input to output of synthesized speech based on interaction input. good too. The synthesized speech may be output at the timing when the speech waiting time has passed after the dialogue input is completed.
 本明細書に開示されるいくつかの実施形態において、一又は複数のプロセッサは、対話相手の環境に関する環境情報を取得する機能と、環境情報に応じて合成音声の少なくとも一部を再度出力する機能と、を実行してもよい。 In some embodiments disclosed herein, the one or more processors are capable of obtaining environment information about the environment of the dialogue partner and of re-outputting at least part of the synthesized speech according to the environment information. and may be executed.
 本明細書に開示されるいくつかの実施形態は、プログラムに関する。このプログラムは、一又は複数のプロセッサに、オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する機能と、前記読み上げテキストデータに基づいて合成音声を生成する機能と、を実現させてもよい。 Some embodiments disclosed herein relate to programs. This program causes one or more processors to implement a function of generating text data to be read out by adding noise to original text data, and a function of generating synthesized speech based on the text data to be read out. good.
 本明細書に開示されるいくつかの実施形態は、一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される方法に関し、この方法は、オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する工程と、読み上げテキストデータに基づいて合成音声を生成する工程と、を備える。 Some embodiments disclosed herein relate to a method performed by one or more computer processors executing computer readable instructions, the method adding noise to original text data. and generating synthesized speech based on the read text data.

 本明細書に開示されるいくつかの実施形態は、一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される方法に関し、オリジナルテキストデータを取得する工程と、取得されたオリジナルテキストデータの少なくとも一部に関連付けられたノイズが追加されたオリジナルテキストデータに基づく合成音声を、音声出力手段に出力させる工程と、を備える。

Some embodiments disclosed herein relate to a method performed by one or more computer processors executing computer readable instructions, comprising obtaining original text data; causing the speech output means to output synthesized speech based on the original text data to which noise associated with at least a portion of the text data has been added.
 本明細書に開示されるいくつかの実施形態によれば、より自然な合成音声を生成することができる。 According to some embodiments disclosed herein, more natural synthetic speech can be generated.
本明細書に開示される幾つかの実施形態における音声合成処理の概略を示す説明図である。FIG. 2 is an explanatory diagram showing an outline of speech synthesis processing in some embodiments disclosed in this specification; 本明細書に開示される幾つかの実施形態を適用可能な音声合成システムの一実施形態を概略的に示すブロック図である。1 is a block diagram that schematically illustrates one embodiment of a speech synthesis system to which some embodiments disclosed herein may be applied; FIG. 図2の音声合成システムにおいて生成される読み上げテキストの例を示す図である。3 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 2; FIG. 図2の音声合成システムに含まれる間違いテーブルの一例を示す図である。3 is a diagram showing an example of a mistake table included in the speech synthesis system of FIG. 2; FIG. 図2の音声合成システムに含まれる付加情報テーブルの一例を示す図である。3 is a diagram showing an example of an additional information table included in the speech synthesis system of FIG. 2; FIG. 図2の音声合成システムの変形例を示す図である。図6に示されている変形例では、ストレージに複数のルールテーブルが記憶されている。3 is a diagram showing a modification of the speech synthesis system of FIG. 2; FIG. In the modification shown in FIG. 6, multiple rule tables are stored in the storage. 図2の音声合成システムの変形例を示す図である。図7に示されている変形例では、ストレージに複数の間違いテーブルが記憶されている。3 is a diagram showing a modification of the speech synthesis system of FIG. 2; FIG. In the variant shown in FIG. 7, multiple error tables are stored in the storage. 本明細書に開示される幾つかの実施形態を適用可能な音声合成システムの別の実施形態を概略的に示すブロック図である。FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied; 図8の音声合成システムに含まれる変換テーブルの一例を示す図である。9 is a diagram showing an example of a conversion table included in the speech synthesis system of FIG. 8; FIG. 図8の音声合成システムにおいて生成される読み上げテキストの例を示す図である。9 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 8; FIG. 本明細書に開示される幾つかの実施形態を適用可能な音声合成システムの別の実施形態を概略的に示すブロック図である。FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied; 図11の音声合成システムで利用可能なノイズ生成モデルをトレーニングするための教師データを生成する処理の流れを示すフロー図である。FIG. 12 is a flow diagram showing a flow of processing for generating teacher data for training a noise generation model that can be used in the speech synthesis system of FIG. 11; 図11の音声合成システムで利用可能なノイズ生成モデルをトレーニングするための教師データの例を示す図である。FIG. 12 is a diagram showing an example of teacher data for training a noise generation model that can be used in the speech synthesis system of FIG. 11; 図11の音声合成システムの変形例を示す図である。図14に示されている変形例では、ストレージに複数のノイズ生成モデルが記憶されている。FIG. 12 is a diagram showing a modification of the speech synthesis system of FIG. 11; In the variant shown in FIG. 14, multiple noise generation models are stored in the storage. 本明細書に開示される幾つかの実施形態を適用可能な音声合成システムの別の実施形態を概略的に示すブロック図である。FIG. 4 is a block diagram that schematically illustrates another embodiment of a speech synthesis system to which certain embodiments disclosed herein may be applied; 図15の音声合成システムにおいて生成される読み上げテキストの例を示す図である。16 is a diagram showing an example of read-aloud text generated in the speech synthesis system of FIG. 15; FIG. 本発明を適用可能な自動対話システムの実施形態を概略的に示すブロック図である。1 is a schematic block diagram of an embodiment of an automatic dialog system to which the present invention is applicable; FIG.
 以下、適宜図面を参照し、本明細書に開示される発明が適用される音声合成システムの実施形態について説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、重複した説明は適宜省略する。以下で説明される本発明の実施形態は特許請求の範囲にかかる発明を限定するものではない。以下の実施形態で説明されている諸要素が発明の解決手段に必須であるとは限らない。 Hereinafter, embodiments of a speech synthesis system to which the invention disclosed in this specification is applied will be described with reference to the drawings as appropriate. The same or equivalent constituent elements, members, and processes shown in each drawing are denoted by the same reference numerals, and overlapping descriptions are omitted as appropriate. The embodiments of the invention described below do not limit the claimed invention. The elements described in the following embodiments are not necessarily essential to the solution of the invention.
 まず、図1を参照して、本明細書に開示される発明の概略を説明する。本明細書に開示される発明は、プレーンなテキストに基づいて自発音声に近い合成音声を生成する音声合成システムに関する。自発音声は、テキストを読み上げる朗読音声と比べて、言語的な情報伝達の観点からはノイズとなる情報を多く含む。従来の音声合成システムでは、テキストから流暢な合成音声を生成できるように統計モデルやルールが構築されているため、従来の音声合成システムにより生成される合成音声は、現実の人間による自発発声と比べて過度な流暢さを有することがあり、この過度な流暢さのためにかえって聞き手に不自然な印象を与えることがある。例えば、長文のテキストに基づいて生成された合成音声に言い淀みや言い間違えが全くないと、聞き手は、その合成音声に対して不自然な印象を持つ可能性が高い。 First, the outline of the invention disclosed in this specification will be described with reference to FIG. The invention disclosed in this specification relates to a speech synthesis system that generates synthesized speech close to spontaneous speech based on plain text. Spontaneous speech contains a lot of noise information from the viewpoint of linguistic information transmission, compared to reading speech. In conventional speech synthesis systems, statistical models and rules are constructed so that fluent synthetic speech can be generated from text. This excessive fluency may give listeners an unnatural impression. For example, if synthetic speech generated based on a long text contains no hesitation or mispronunciation, it is highly likely that the listener will have an unnatural impression of the synthesized speech.
 オリジナルのテキストに言い間違え等のノイズが記述されていれば、そのノイズを合成音声において再現することは可能である。しかしながら、ほとんどのテキストは、音声合成に供されることを想定せずに作成されるため、音声合成の対象となるテキストにノイズが記述されていることはほとんどない。上記の特開2006-017819号公報には、フィラーが挿入されたテキストに基づいて合成音声を生成する音声合成装置が記載されている。しかしながら、同公報に記載された音声合成装置では、入力テキストにフィラーが含まれていない場合にはフィラーに対応する発話を含む合成音声を生成することができない。 If the original text contains noise such as mispronunciation, it is possible to reproduce that noise in synthesized speech. However, since most texts are created without assuming that they will be used for speech synthesis, noise is rarely described in the texts that are the target of speech synthesis. Japanese Patent Application Laid-Open No. 2006-017819 described above describes a speech synthesizer that generates synthetic speech based on text in which fillers are inserted. However, the speech synthesizer described in the publication cannot generate synthesized speech containing utterances corresponding to fillers when the input text does not contain fillers.
 図1に示されているように、本明細書において開示される幾つかの実施形態によれば、オリジナルテキストデータT1にノイズN1が追加された読み上げテキストデータT2が生成され、このノイズN1を含む読み上げテキストデータT2に基づいて合成音声S1が生成される。合成音声S1は、ノイズN1を含む読み上げテキストT2に基づいて生成される。本明細書においては、オリジナルテキストデータT1に含まれておらず、読み上げテキスト生成のために追加された情報を「ノイズ」と呼ぶ。このため、本明細書において開示される幾つかの実施形態によれば、自発音声により近い合成音声S1を得ることができる。オリジナルテキストデータT1として、フィラーやSSML形式に従ったタグが挿入されていないプレーンなテキストが用いられ得る。このため、本明細書において開示される幾つかの実施形態によれば、音声合成の対象となることを意図せずに作成された通常のテキストに基づいて、自発音声に近い合成音声S1を得ることができる。例えば、音声SNSにおいて、ノイズを含む読み上げテキストT1から生成された音声合成をアバタに長時間(例えば、24時間)連続で喋らせることができる。この場合、従来の音声合成では、アバタが長時間にわたって淀みなく発話してしまうため、いかにもAIと交流しているように感じられ、SNSとしての面白さが感じられないであろう。図1に記載されている合成音声S1を用いれば、アバタの発話に、言い淀み(自然なポーズなど)、言い間違い、難しい単語の言い直しなどのノイズが含まれるため、このようなノイズを含む発話を行うアバタとのコミュニケーションによって、音声SNSのユーザは実際の人間と対話しているのと近い体験を得ることができる。 As shown in FIG. 1, according to some embodiments disclosed herein, reading text data T2 is generated by adding noise N1 to original text data T1, and including this noise N1. Synthetic speech S1 is generated based on read-out text data T2. Synthesized speech S1 is generated based on reading text T2 including noise N1. In this specification, information that is not included in the original text data T1 and is added to generate the reading text is called "noise". Therefore, according to some embodiments disclosed herein, it is possible to obtain synthesized speech S1 that is closer to spontaneous speech. As the original text data T1, plain text in which fillers and tags conforming to the SSML format are not inserted can be used. For this reason, according to some embodiments disclosed in this specification, synthesized speech S1 close to spontaneous speech is obtained based on ordinary text that was not intended to be the target of speech synthesis. be able to. For example, in a voice SNS, an avatar can be made to speak continuously for a long period of time (for example, 24 hours) by synthesizing a voice generated from a read-aloud text T1 containing noise. In this case, in the conventional speech synthesis, the avatar speaks without hesitation for a long time. Therefore, it seems that the avatar is really interacting with AI, and it is not interesting as an SNS. If the synthesized speech S1 shown in FIG. 1 is used, the utterance of the avatar includes noise such as hesitation (natural poses, etc.), mispronunciation, and rephrasing of difficult words. By communicating with the speaking avatar, the user of the voice SNS can obtain an experience close to that of interacting with a real human being.
 次に、図2を参照して、本明細書において開示される幾つかの実施形態による音声合成システム1について説明する。図2に示されているように、音声合成システム1は、オリジナルテキストに基づいて合成音声を生成する音声合成装置10を備える。音声合成システム1は、音声合成装置10以外の装置を備えてもよい。例えば、音声合成装置10は、プロセッサ11によって実行されるべき処理を分散して処理するためのクラウド環境を備えていてもよい。音声合成装置10は、プロセッサ11、メモリ12、ユーザインタフェース13、通信インタフェース14、及びストレージ15を備えている。 Next, with reference to FIG. 2, the speech synthesis system 1 according to some embodiments disclosed herein will be described. As shown in FIG. 2, the speech synthesis system 1 comprises a speech synthesizer 10 that generates synthesized speech based on original text. The speech synthesis system 1 may include devices other than the speech synthesis device 10 . For example, the speech synthesizer 10 may have a cloud environment for distributed processing to be executed by the processor 11 . The speech synthesizer 10 includes a processor 11 , memory 12 , user interface 13 , communication interface 14 and storage 15 .
 プロセッサ11は、ストレージ15又はそれ以外のストレージからオペレーティングシステムやそれ以外の様々なプログラムをメモリ12にロードし、ロードしたプログラムに含まれる命令を実行する演算装置である。プロセッサ11は、例えば、CPU、MPU、DSP、GPU、これら以外の各種演算装置、又はこれらの組み合わせである。プロセッサ11は、ASIC、PLD、FPGA、MCU等の集積回路により実現されてもよい。 The processor 11 is an arithmetic device that loads an operating system and various other programs from the storage 15 or other storage into the memory 12 and executes instructions contained in the loaded programs. The processor 11 is, for example, a CPU, MPU, DSP, GPU, various arithmetic units other than these, or a combination thereof. The processor 11 may be realized by integrated circuits such as ASIC, PLD, FPGA, and MCU.
 メモリ12は、プロセッサ11が実行する命令及びそれ以外の各種データを格納するために用いられる。メモリ12は、プロセッサ11が高速にアクセス可能な主記憶装置(メインメモリ)である。メモリ12は、例えば、DRAMやSRAM等のRAMによって構成される。 The memory 12 is used to store instructions executed by the processor 11 and various other data. The memory 12 is a main storage device (main memory) that the processor 11 can access at high speed. The memory 12 is, for example, a RAM such as a DRAM or an SRAM.
 ユーザインタフェース13は、ユーザの入力を受け付ける入力インタフェースと、プロセッサ11の制御により様々な情報を出力する出力インタフェースと、を備える。入力インタフェースは、例えば、音を電気信号に変換するマイクロフォンを含む。入力インタフェースは、キーボード、マウス等のポインティングデバイス、タッチパネル、又は前記以外のユーザの入力を入力可能な任意の情報入力装置である。出力インタフェースは、例えば、液晶ディスプレイ、表示パネル、又は前記以外のプロセッサ11の演算結果を出力可能な任意の情報出力装置である。 The user interface 13 includes an input interface that receives user input and an output interface that outputs various information under the control of the processor 11 . The input interface includes, for example, a microphone that converts sound into electrical signals. The input interface is a keyboard, a pointing device such as a mouse, a touch panel, or any other information input device capable of inputting a user's input. The output interface is, for example, a liquid crystal display, a display panel, or any other information output device capable of outputting the calculation results of the processor 11 .
 通信インタフェース14は、ハードウェア、ファームウェア、又はTCP/IPドライバやPPPドライバ等の通信用ソフトウェア又はこれらの組み合わせとして実装される。ユーザ端末10は、通信インタフェース14を介して、他の情報機器とデータを送受信することができる。 The communication interface 14 is implemented as hardware, firmware, communication software such as a TCP/IP driver or PPP driver, or a combination thereof. The user terminal 10 can transmit and receive data to and from other information equipment via the communication interface 14 .
 ストレージ15は、プロセッサ11によりアクセスされる外部記憶装置である。ストレージ15は、例えば、磁気ディスク、光ディスク、半導体メモリ、又はデータを記憶可能な前記以外の各種記憶装置である。 The storage 15 is an external storage device accessed by the processor 11 . The storage 15 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or various other storage devices capable of storing data.
 続いて、音声合成装置10の機能及び音声合成装置10に記憶されるデータについて説明する。ユーザ端末10は、ストレージ15に格納されているプログラムに含まれる命令及び必要に応じてそれ以外の命令を実行することにより、テキスト取得部11a、テキスト修正部11b、音声合成部11c、及び音声出力部11dとして機能する。ストレージ15には、オリジナルテキストデータ15a、読み上げテキストデータ15b、ルールテーブル15c、間違いテーブル15d、付加情報テーブル15e、音声合成用データ15f、及びこれら以外のデータが記憶され得る。 Next, functions of the speech synthesizer 10 and data stored in the speech synthesizer 10 will be described. The user terminal 10 executes commands included in the program stored in the storage 15 and other commands as necessary, thereby obtaining a text acquisition unit 11a, a text correction unit 11b, a voice synthesis unit 11c, and a voice output unit. It functions as part 11d. The storage 15 can store original text data 15a, reading text data 15b, rule table 15c, error table 15d, additional information table 15e, speech synthesis data 15f, and other data.
 テキスト取得部11aは、音声合成の対象となるテキストデータを取得し、取得したテキストデータをオリジナルテキストデータ15aとしてストレージ15に記憶する。テキスト取得部11aにより取得されるテキストデータは、音声合成システム1の用途に応じた様々な内容のテキストを含みえる。テキスト取得部11aにより取得されるテキストデータは、例えば、ニュース原稿や公共施設での情報案内のように事前に準備されたテキストであってもよい。音声合成システムが、ユーザとリアルタイムに対話する音声対話システムに用いられる場合には、ユーザからの対話入力に基づいて、公知の自動応答システムを用いてリアルタイムで自動生成されるテキストであってもよい。テキスト取得部11aにより取得されるテキストは、フィラーやSSML形式に従ったタグが挿入されていないプレーンテキストであってもよい。オリジナルテキストデータ15aは、図1に示されているオリジナルテキストデータT1の一例である。 The text acquisition unit 11a acquires text data to be synthesized into speech, and stores the acquired text data in the storage 15 as original text data 15a. The text data acquired by the text acquisition unit 11 a can include texts of various contents according to the purpose of the speech synthesis system 1 . The text data acquired by the text acquisition unit 11a may be, for example, texts prepared in advance such as news manuscripts and information guidance at public facilities. When the speech synthesis system is used in a speech dialogue system that interacts with a user in real time, text may be automatically generated in real time using a known automatic response system based on dialogue input from the user. . The text acquired by the text acquisition unit 11a may be plain text in which fillers and tags conforming to the SSML format are not inserted. The original text data 15a is an example of the original text data T1 shown in FIG.
 テキスト修正部11bは、オリジナルテキストデータ15aにノイズを追加することで読み上げテキストデータ15bを生成する。テキスト修正部11bにより生成された読み上げテキストデータ15bは、ストレージ15に記憶されてもよい。幾つかの実施形態において、テキスト修正部11bは、ルールテーブル15cに記述されたルールに従って、間違いテーブル15d、付加情報テーブル15e、及びこれら以外のデータベースを必要に応じて参照することにより、オリジナルテキストデータ15aにノイズを追加して読み上げテキストデータ15bを生成する。読み上げテキストデータ15bは、図1に示されている読み上げテキストデータT2の一例である。 The text correction unit 11b generates reading text data 15b by adding noise to the original text data 15a. The reading text data 15b generated by the text correction unit 11b may be stored in the storage 15. FIG. In some embodiments, the text correction unit 11b corrects the original text data by referring to the error table 15d, the additional information table 15e, and other databases as necessary according to the rules described in the rule table 15c. Noise is added to 15a to generate reading text data 15b. The read-out text data 15b is an example of the read-out text data T2 shown in FIG.
 図3を参照して、テキスト修正部11bによるオリジナルテキストデータに基づく読み上げテキストデータの生成について説明する。図3には、オリジナルテキストデータT11と、このオリジナルテキストデータT11にノイズN11~N16を追加することで生成された読み上げテキストデータT12と、が示されている。 The generation of reading text data based on the original text data by the text correction unit 11b will be described with reference to FIG. FIG. 3 shows original text data T11 and reading text data T12 generated by adding noises N11 to N16 to the original text data T11.
 テキスト修正部11bは、ルールテーブル15cに格納されているノイズ生成規則に従ってオリジナルテキストデータT11を解析し、オリジナルテキストデータT11に含まれるテキストにノイズN11~N16等のノイズを追加することができる。 The text correction unit 11b can analyze the original text data T11 according to the noise generation rules stored in the rule table 15c, and add noise such as noises N11 to N16 to the text included in the original text data T11.
 ルールテーブル15cは、オリジナルテキストデータにノイズを追加する一又は複数のルールを定義する。ルールテーブル15cにより定義されるルールの例を次のとおり例示する。
・ルール1:先頭の単語に80%の確率で高いピッチを指定する<pitch></pitch>を挿入する。
・ルール2:先頭から30文字目を超えた後に初めて現れる句点と次の文字との間に、所定時間長さのポーズ区間を挿入することを指定する<breath>を挿入する。
・ルール3:間違いテーブルに含まれる語を、言い間違えを指定する開始タグ<error>と終了タグ</error>で囲む。
・ルール4:読点の後に、5%の確率でフィラーの挿入を指定する<choke>タグを挿入する。
・ルール5:同じ単語が3回目に登場する場合に、3回目及びそれ以後に登場するその単語を含む節に速い発話速度を指定する<speed></speed>タグを挿入する。
・ルール6:付加情報テーブルに含まれる語を、付加情報の追加を指定する開始タグ<add>と終了タグ</add>で囲む。
The rule table 15c defines one or more rules for adding noise to original text data. Examples of rules defined by the rule table 15c are illustrated below.
・Rule 1: Insert <pitch></pitch>, which designates a high pitch with a probability of 80%, into the first word.
Rule 2: Insert <breath>, which designates that a pause section of a predetermined length is to be inserted, between the period that first appears after the 30th character from the beginning and the next character.
- Rule 3: Enclose the word included in the error table with a start tag <error> and an end tag </error> that specify a misspelled word.
・Rule 4: Insert a <choke> tag specifying filler insertion with a probability of 5% after the comma.
·Rule 5: When the same word appears for the third time, insert the <speed></speed> tag designating a fast speech speed into the clause containing the word that appears for the third time and thereafter.
- Rule 6: Words included in the additional information table are surrounded by a start tag <add> and an end tag </add> that specify addition of additional information.
 以上の説明は例示であり、ルールテーブル15cは、合成音声をより自然にするため(例えば、自発音声に近づけるため)の上記以外の様々なルールを含むことができる。また、上述したルールを全て適用する必要はない。ルールテーブル15cに記述されるルールは固定的なものではなく、オリジナルテキストデータT11の長さに応じて適応的に変更され得る。オリジナルテキストデータT11の文字数が多くなると、合成音声の発話時間が長くなる。このような長時間の合成音声の発話が、固定的なルールに基づいて生成されていると、聞き手は合成音声の規則性に気づき、その規則性のために合成音声に不自然さを感じる可能性がある。そこで、オリジナルテキストデータT11の文字数が所定の文字数(例えば、200文字)を含むルール適用単位を超えるたびに、ルールテーブル15cに含まれるルールの一部を確率的に変動させることができる。例えば、最初のルール適用単位(オリジナルテキストデータT11の先頭から所定の文字数(例えば、200文字)までをまとまりとする単位)では、「先頭の単語に80%の確率で高いピッチを指定する<pitch></pitch>を挿入する。」というルール1を、2番目のルール適用単位においては「先頭の単語に70%の確率で高いピッチを指定する<pitch></pitch>を挿入する。」へ変更することができる。タグの挿入確率だけでなく、タグで指定される属性をルール適用単位ごとに変動させてもよい。例えば、最初のルール適用単位と2番目のルール適用単位とで<pitch></pitch>タグにより指定されるピッチの高さを変動させてもよい。ルール2からルール6についても、ルール適用単位ごとにそのルールの一部を確率的に変動させることができる。合成音声の発話時間が所定の単位時間(例えば、3分)を超えるたびにルールテーブル15cに含まれるルールの一部を確率的に変動させてもよい。 The above description is an example, and the rule table 15c can include various rules other than the above for making the synthesized speech more natural (for example, to bring it closer to spontaneous speech). Also, it is not necessary to apply all the rules described above. The rules described in the rule table 15c are not fixed and can be adaptively changed according to the length of the original text data T11. As the number of characters in the original text data T11 increases, the utterance time of synthesized speech increases. If such a long synthetic speech utterance is generated based on a fixed rule, the listener will notice the regularity of the synthesized speech, and that regularity may make the synthesized speech unnatural. have a nature. Therefore, every time the number of characters in the original text data T11 exceeds a rule application unit including a predetermined number of characters (for example, 200 characters), part of the rules included in the rule table 15c can be stochastically changed. For example, in the first rule application unit (a unit consisting of a predetermined number of characters (for example, 200 characters) from the beginning of the original text data T11), "specify a high pitch for the first word with a probability of 80% <pitch ></pitch>.", and in the second rule application unit, "insert <pitch></pitch>, which specifies a high pitch at the beginning word, with a probability of 70%." can be changed to Not only the tag insertion probability but also the attribute specified by the tag may be changed for each rule application unit. For example, the height of the pitch specified by the <pitch></pitch> tags may vary between the first rule application unit and the second rule application unit. Also for rules 2 to 6, a part of the rules can be stochastically changed for each rule application unit. A part of the rules included in the rule table 15c may be stochastically changed each time the synthetic speech utterance time exceeds a predetermined unit time (for example, 3 minutes).
 ルールテーブル15cにおいて定義されている上記のルールを適用することで、オリジナルテキストデータT11に様々なノイズを追加して読み上げテキストデータT12が生成される。例えば、図示されているとおり、オリジナルテキストデータT11にルール1を適用することで、オリジナルテキストデータT11の先頭の単語である「AI」に<pitch></pitch>タグがノイズN11として追加され得る。図示の例では、「AI」を開始タグ<pitch>と終了タグ</pitch>とで囲むことにより、「AI」を発話する際のピッチを指定している。ピッチは、<pitch></pitch>タグの属性として設定することが可能である。 By applying the above rules defined in the rule table 15c, various noises are added to the original text data T11 to generate read text data T12. For example, as shown in the figure, by applying rule 1 to the original text data T11, <pitch></pitch> tags can be added as noise N11 to the first word "AI" of the original text data T11. . In the illustrated example, "AI" is surrounded by a start tag <pitch> and an end tag </pitch> to designate the pitch at which "AI" is uttered. The pitch can be set as an attribute of the <pitch></pitch> tag.
 自発音声においては、文章の特定の位置に含まれる単語のピッチが高くなったり低くなったりする傾向がある。例えば、自発音声においては、発話の開始時にピッチが高くなる傾向がある。上記の例では、<pitch></pitch>タグによりその開始タグ<pitch>と終了タグ</pitch>で囲まれたテキストのピッチを指定することができるので、自発音声で現れるピッチに近いピッチを指定することができる。 In spontaneous speech, the pitch of words contained in specific positions in a sentence tends to be higher or lower. For example, spontaneous speech tends to have a higher pitch at the beginning of the utterance. In the above example, the <pitch></pitch> tag allows you to specify the pitch of the text enclosed by the start tag <pitch> and end tag </pitch>, so the pitch is close to the pitch that appears in spontaneous speech. can be specified.
 オリジナルテキストデータT11にルール3を適用することで、オリジナルテキストデータT11に含まれるテキストに<error></error>タグを追加することができる。図示の例では、オリジナルテキストデータT11に最初に登場する「人間」に<error></error>タグがノイズN12として追加されている。テキスト修正部11bは、間違いテーブル15dを参照してオリジナルテキストデータT11を解析することにより、オリジナルテキストデータT11に含まれるテキストに<error></error>タグを追加することができる。 By applying rule 3 to the original text data T11, <error></error> tags can be added to the text included in the original text data T11. In the illustrated example, <error></error> tags are added as noise N12 to "human" that first appears in the original text data T11. The text correction unit 11b can add <error></error> tags to the text included in the original text data T11 by analyzing the original text data T11 with reference to the error table 15d.
 間違いテーブル15dの例について図4を参照して説明する。間違いテーブル15dは、例えば、実際の自発音声において読み間違えが生じる(つまり、誤って発声される)可能性がある単語、句、又はこれら以外の単位テキストについて、正しいテキストと、誤って発声されるテキストと、を対応させて記憶することができる。図4に示した例では、「対象テキスト」の項目に、正しいテキストが格納されており、「変換後テキスト1」及び「変換後テキスト2」の項目に誤って発声されるテキストが記憶されている。例えば、対象テキストの項目の「通訳」と対応付けて、変換後テキスト1の項目の「翻訳、え、あ、通訳」及び変換後テキスト2の項目の「翻訳」が対応付けられている。「通訳」と「翻訳」とは似た意味を有するため、自発音声においては「通訳」と発話すべきところを誤って「翻訳」と発話してしまうことがある。間違いテーブル15dにおいては、この正しい単位テキスト(例えば、「通訳」)とその正しい単位テキストを発話すべき場合に誤って発話される可能性がある単位テキスト(例えば、「翻訳」)とが、対象テキストの項目のデータ及び変換後テキスト2の項目のデータとして関連付けて記憶されている。また、正しい単位テキスト(例えば、「通訳」)とその正しい単位テキストを誤って発話した後に正しい単位テキストに訂正して言い直しているテキストとが、対象テキストの項目のデータ及び変換後テキスト1の項目のデータとして関連付けて記憶されている。間違いテーブル15dには、対象テキストごとに間違いが発生する確率も記憶されている。 An example of the error table 15d will be described with reference to FIG. The error table 15d includes, for example, correct text and erroneously uttered words, phrases, or other unit texts that may be misread (that is, uttered erroneously) in actual spontaneous speech. can be stored in association with the text. In the example shown in FIG. 4, the correct text is stored in the "target text" item, and erroneously spoken text is stored in the "converted text 1" and "converted text 2" items. there is For example, in association with the target text item "interpretation", the post-conversion text 1 item "translation, uh, ah, interpretation" and the post-conversion text 2 item "translation" are associated. Since ``interpretation'' and ``translation'' have similar meanings, in spontaneous speech, ``interpretation'' may be mistakenly uttered as ``translation''. In the error table 15d, this correct unit text (for example, "interpretation") and unit texts (for example, "translation") that may be uttered erroneously when the correct unit text should be uttered are targeted. The text item data and the post-conversion text 2 item data are stored in association with each other. In addition, the correct unit text (for example, “interpretation”) and the text corrected to the correct unit text after erroneously uttering the correct unit text are the data of the target text item and the converted text 1. It is associated and stored as item data. The error table 15d also stores the error probability for each target text.
 テキスト修正部11bは、間違いテーブル15dを参照することにより、オリジナルテキストデータT11に含まれている「人間」という単位テキスト(単語)が間違いテーブル15dに登録されていることを検出すると、この間違いテーブル15dに含まれている単位テキストを開始タグ<error>と終了タグ</error>タグで取り囲むように、オリジナルテキストデータT11を修正することができる。解析対象のオリジナルテキストデータT11に間違いテーブル15dに登録されている単語が複数回登場する場合には、初回に登場した場合にのみ<error></error>タグを追加し、2回目以降に登場した場合には<error></error>タグを追加しなくともよい。解析対象のオリジナルテキストデータT11に間違いテーブル15dに登録されている単語が複数回登場する場合には、当該単語に読み間違いが発生する確率を2回目以降については1回目よりも低くしてもよい。実際の自発音声の発話においては、同じ単語を2回目以降に発話する場合には言い間違いが起こりにくくなると考えられるためである。 When the text correction unit 11b detects that the unit text (word) "human" included in the original text data T11 is registered in the error table 15d by referring to the error table 15d, the text correction unit 11b corrects the error table 15d. The original text data T11 can be modified so that the unit text contained in 15d is surrounded by a start tag <error> and an end tag </error> tag. When a word registered in the error table 15d appears multiple times in the original text data T11 to be analyzed, <error></error> tags are added only when the word appears for the first time, and the word appears after the second time. If you do, you don't need to add <error></error> tags. When a word registered in the error table 15d appears multiple times in the original text data T11 to be analyzed, the probability of misreading of the word for the second and subsequent times may be lower than that for the first time. . This is because, in the actual utterance of spontaneous speech, mispronunciation is less likely to occur when the same word is uttered for the second and subsequent times.
 図3に示されている例では、読み上げテキストデータT12に<error></error>タグが1つのみ追加されているが、2つの以上の<error></error>タグが追加されてもよいし、<error></error>タグは追加されなくともよい。 In the example shown in FIG. 3, only one <error></error> tag is added to the reading text data T12, but even if two or more <error></error> tags are added, Good, no <error></error> tags should be added.
 オリジナルテキストデータT11にルール2を適用することで、オリジナルテキストデータT11に<breath>タグを追加することができる。図示の例では、オリジナルテキストデータT11の先頭から所定長の文字数(例えば、30文字)を超えて初めて現れる句点と次の文字との間に所定時間長さのポーズ区間を挿入することを指定する<breath>タグがノイズN13として追加されている。この<breath>タグにより、<breath>タグの後のテキストを発話する前に、<breath>タグで指定された長さのポーズ区間を挿入することが指定される。ポーズ区間の長さは、<breath>タグの属性として設定することが可能である。ポーズ区間の長さは、例えば1秒未満に設定される。<breath>タグの後に所定長(例えば30文字)の文字数を超えて初めて現れる句点にも<breath>タグを付すことができる。<breath>タグは、句点の後に接続詞が現れる場合にのみ追加されてもよい。オリジナルテキストデータT11の最初の句点の後には、「だから」という接続詞が現れているため、この「だから」と句点との間に<breath>タグが追加されている。「だから、人間を超えない、ということはないのでしょう。」は26文字しかないため、この文章に含まれる句点の後には<breath>タグは挿入されない。オリジナルテキストデータT11に含まれる「ただ、人間からAIに置き換わるかというと、それもちょっと違うように感じます。この点について、盛教授の論文を紹介します。」という2つの文章の句点の後には接続詞が存在しないため、これらの句点の後には<breath>タグが追加されなくてもよい。 By applying rule 2 to the original text data T11, the <breath> tag can be added to the original text data T11. In the illustrated example, it is specified that a pause section of a predetermined length should be inserted between the period that first appears after exceeding a predetermined number of characters (for example, 30 characters) from the beginning of the original text data T11 and the next character. A <breath> tag is added as noise N13. This <breath> tag designates that a pause section of the length specified by the <breath> tag should be inserted before uttering the text after the <breath> tag. The length of the pause section can be set as an attribute of the <breath> tag. The length of the pause interval is set to less than 1 second, for example. A <breath> tag can also be attached to a period that appears for the first time after exceeding a predetermined length (for example, 30 characters) after the <breath> tag. <breath> tags may be added only if a conjunction appears after a period. After the first period of the original text data T11, the conjunction "dakota" appears, so a <breath> tag is added between the "dakota" and the period. There are only 26 characters in "Therefore, there is no such thing as not surpassing human beings." After the period of two sentences included in the original text data T11, "However, when it comes to replacing humans with AI, I feel that it is a little different. I would like to introduce Professor Mori's paper on this point." does not have a conjunction, so no <breath> tag need be added after these punctuations.
 人間の発話においては、息継ぎのために発話が途切れるポーズ(発話休止)区間が存在する。オリジナルテキストデータに基づいて音声合成を行うと、その合成音声には人間の発話において息継ぎが必要なタイミングにおいてもポーズ区間が挿入されないため、ポーズが入るべきタイミングの前後でも淀みなく発話が行われ、その結果、聞き手に不自然な印象を与える可能性がある。特に、実際の自発音声の発話においては、文章が接続詞で始められる場合に、その前に長めのポーズ区間が現れる傾向がある。ルール2によって、このような実際の自発音声の発話において現れるポーズ区間を再現するするように読み上げテキストデータT12が生成される。 In human speech, there are pauses (speech pauses) where speech is interrupted for breathing. When speech synthesis is performed based on the original text data, no pause section is inserted in the synthesized speech even at the timing when a breather is required in human speech. As a result, it may give an unnatural impression to the listener. In particular, in actual spontaneous speech utterances, when a sentence begins with a conjunction, there tends to be a long pause section before it. According to Rule 2, read-out text data T12 is generated so as to reproduce the pause section that appears in such actual spontaneous speech.
 オリジナルテキストデータT11にルール4を適用することで、オリジナルテキストデータT11に含まれる読点の後に適宜<choke>タグを追加することができる。図示の例では、オリジナルテキストデータT11に含まれる「置き換わるかというと、」の読点の後にフィラーを挿入するための<choke>タグがノイズN15として追加されている。この<choke>タグにより、<choke>タグの位置にフィラーを追加することを指定することが指定される。<choke>タグによってフィラーの前又は後に所定長さのポーズ区間を設けることを指定しても良い。 By applying rule 4 to the original text data T11, <choke> tags can be appropriately added after the commas included in the original text data T11. In the illustrated example, a <choke> tag for inserting filler is added as noise N15 after the reading point of "replacement" included in the original text data T11. This <choke> tag specifies that a filler should be added to the position of the <choke> tag. A <choke> tag may be used to specify that a pause section of a predetermined length should be provided before or after the filler.
 自発音声における発話には、それ自体では言語的な意味を持たないが非言語的な意味を伝えることができるフィラーが含まれることがある。フィラーの例としては、日本では「えーと」、英語では「Um」が挙げられる。フィラーの種類は、言語によって多様である。フィラーは、それ自体では言語的な意味を持たないが、話者のためらいなどの非言語的な情報を伝達することがある。合成音声にフィラーが全く含まれていないと、聞き手は、合成音声から不自然な印象を受ける可能性がある。本明細書に開示される幾つかの実施形態によれば、読み上げテキストデータT12に含まれる<choke>タグによりフィラーの追加を指定することができるので、自発音声に含まれるフィラーを合成音声に含めることができる。 Utterances in spontaneous speech sometimes contain fillers that have no linguistic meaning by themselves but can convey non-verbal meaning. Examples of fillers include "er" in Japanese and "Um" in English. The types of fillers vary from language to language. Fillers have no linguistic meaning per se, but may convey nonverbal information such as the speaker's hesitation. If the synthesized speech does not contain any fillers, the listener may get an unnatural impression from the synthesized speech. According to some embodiments disclosed in the present specification, the <choke> tag included in the reading text data T12 can specify the addition of filler, so the filler included in the spontaneous voice is included in the synthetic voice. be able to.
 オリジナルテキストデータT11にルール5を適用することで、オリジナルテキストデータT11に含まれるテキストに発話速度を指定する<speed></speed>タグを追加することができる。図示の例では、オリジナルテキストデータT11のうち「人間からAIに置き換わるかというと」というテキストに<speed></speed>タグがノイズN14として設定されている。オリジナルテキストデータT11においては、「人間」や「AI」という単語が複数回登場する。実際の自発音声の発話においては、同じ単語や表現が繰り返し用いられると、その同じ単語や表現を含むテキストは速く発話される傾向がある。このような繰り返し登場する単語を含むテキストに<speed></speed>タグを追加することにより、当該テキストを速い発話速度で発話することを指定することができ、合成音声を実際の自発音声の発話にさらに近づけることができる。図3に示されている例では、3回目に登場する「人間」を含む「人間からAIに置き換わるかというと」というテキストに<speed></speed>タグを付している。<speed></speed>タグを付するテキストは、例えば、節、文、及びこれら以外のまとまりのある単位に含まれるテキストとすることができる。発話速度は、<speed></speed>タグの属性として設定することが可能である。 By applying rule 5 to the original text data T11, it is possible to add <speed></speed> tags that specify the speaking speed to the text included in the original text data T11. In the illustrated example, <speed></speed> tags are set as noise N14 in the text of the original text data T11 that reads, "If humans are to be replaced by AI." In the original text data T11, the words "human" and "AI" appear multiple times. In actual spontaneous speech, when the same word or expression is used repeatedly, the text containing the same word or expression tends to be spoken quickly. By adding the <speed></speed> tag to a text containing such repeated words, it is possible to specify that the text should be spoken at a fast speaking speed, thus making the synthesized speech match that of the actual spontaneous speech. You can get closer to speaking. In the example shown in FIG. 3, <speed></speed> tags are attached to the text "If humans will be replaced by AI" including "human" that appears for the third time. The <speed></speed> tagged text can be, for example, text contained in clauses, sentences, and other cohesive units. The speech speed can be set as an attribute of the <speed></speed> tag.
 実際の人間による発話では、文章の特定の位置に含まれる単語が他の部分よりも意図的に速く又は遅く発話される傾向がある。例えば、伝達すべき重要な情報(金額、時刻、電話番号など)はゆっくりと発話される傾向がある。音響モデルの汎用的な韻律パラメータに基づいて合成音声を生成すると、発話速度の分布が自然発話としては不自然なほど平坦となることがある。上記の例では、<speed></speed>タグを用いることにより、開始タグ<speed>と終了タグ</speed>とで囲まれたテキストの発話速度を指定することができるので、合成音声の発話速度が聞き手にとって自然に感じられるように調整され得る。 In actual human speech, words contained in specific positions in a sentence tend to be intentionally spoken faster or slower than other parts. For example, important information to be communicated (price, time, phone number, etc.) tends to be spoken slowly. When synthetic speech is generated based on general-purpose prosodic parameters of an acoustic model, the distribution of speech rates may become unnaturally flat for natural speech. In the above example, by using the <speed></speed> tag, it is possible to specify the speaking speed of the text enclosed by the start tag <speed> and the end tag </speed>. The speech rate can be adjusted so that it feels natural to the listener.
 オリジナルテキストデータT11にルール6を適用することで、オリジナルテキストデータT11に含まれるテキストに<add></add>タグを追加することができる。図示の例では、オリジナルテキストデータT11に含まれる「盛教授」の「盛」(名字)に<add></add>タグがノイズN16として追加されている。テキスト修正部11bは、付加情報テーブル15eを参照してオリジナルテキストデータT11を解析することにより、オリジナルテキストデータT11に含まれるテキストに<add></add>タグを追加することができる。 By applying rule 6 to the original text data T11, <add></add> tags can be added to the text included in the original text data T11. In the illustrated example, <add></add> tags are added as noise N16 to "Mori" (last name) of "Professor Mori" included in the original text data T11. The text correction unit 11b can add <add></add> tags to the text included in the original text data T11 by analyzing the original text data T11 with reference to the additional information table 15e.
 付加情報テーブル15eの例について図5を参照して説明する。付加情報テーブル15eは、例えば、オリジナルテキストデータT11に含まれるテキストと、そのテキストの付加的な説明と、を対応させて記憶することができる。図5に示した例では、「対象テキスト」の項目に、付加情報が追加されるテキストが格納されており、「付加情報」の項目にそのテキストの付加情報が記憶されている。 An example of the additional information table 15e will be described with reference to FIG. The additional information table 15e can store, for example, the text included in the original text data T11 and additional explanation of the text in association with each other. In the example shown in FIG. 5, a text to which additional information is added is stored in the item "object text", and the additional information of the text is stored in the item "additional information".
 自発音声の発話においては、話者が特定の単語や語句について付加的な情報を説明することがある。例えば、日本語においては、同じ読みの漢字が複数存在するため、音声だけでは聞き手がその音声に当てはまる漢字を特定できないことがある。特に、氏名などの固有名詞を説明する場合には、氏名を読み上げた音声だけではその読みに当てはまる正しい漢字を推測することが困難なことがある。例えば、「モリ」と発音される名字に当てはまる漢字は、「森」、「盛」、「守」など多様である。例えば、オリジナルテキストデータに「盛さんが、昨日、・・・」というテキストを含む場合、従来の合成音声では「モリサンガ、キノウ・・・」と発声する合成音声が生成される。この従来の音声合成で生成される合成音声からは、オリジナルテキストデータの「盛」の漢字を特定するための情報が脱落しており、聞き手は「モリサンガ、キノウ・・・」という発話から「盛」という漢字を特定することは困難である。そこで、オリジナルテキストデータに複数の読みが存在する漢字が含まれる場合、その漢字を特定するための説明を追加情報として追加することで、聞き手にオリジナルテキストデータに含まれる情報をより詳細に伝達することができる。 In spontaneous speech utterances, the speaker may explain additional information about specific words or phrases. For example, in Japanese, there are a plurality of kanji that have the same reading, so the listener may not be able to identify the kanji that corresponds to the speech only by speaking. In particular, when explaining a proper noun such as a name, it may be difficult to guess the correct kanji corresponding to the reading only by reading the name aloud. For example, there are various kanji characters for a family name pronounced "mori", such as "mori", "mori", and "mori". For example, if the original text data includes the text "Mr. From the synthesized speech generated by this conventional speech synthesis, the information for specifying the kanji of "mori" in the original text data is omitted, and the listener can hear "morisanga, kino..." from the utterance "morisanga, kinou" It is difficult to specify the kanji character "". Therefore, when the original text data contains a kanji character with multiple readings, additional information is added to identify the kanji character, thereby conveying the information contained in the original text data to the listener in more detail. be able to.
図4に示した例では、付加情報テーブル15eの「対象テキスト」の項目に、付加的な情報で補足されるべきテキスト(単語等)が格納されており、「付加情報」の項目に当該テキストについての補足情報を示すテキストが記憶されている。例えば、対象テキストの項目の「盛」と関連付けて、「モリ」という読みから「盛」という漢字を推定させるための付加情報である「『盛』は『盛岡』の盛です。」というテキストが記憶されている。また、これと同じ「モリ」という読みを生じさせる「守」という対象テキストと関連付けて、「『守』は、『守る』の『守』です。」という付加情報を示すテキストが記憶されている。このように、付加情報として漢字の読みから元の漢字を特定するために役立つ説明を付加情報として加えることにより、合成音声の聞き手は、オリジナルテキストデータに含まれる漢字を特定しやすくなる。付加情報テーブル15eの「対象テキスト」に格納されるテキストは、漢字だけではなく、英語のアクロニムであってもよい。アクロニムは、発話によってはその意味の理解が難しいことがある。このため、付加情報テーブル15eにおいては、アクロニムと対応付けて、そのアクロニムをスペルアウトしたテキストを付加情報として対象テキストと対応付けて記憶することができる。 In the example shown in FIG. 4, text (words, etc.) to be supplemented with additional information is stored in the item "target text" of the additional information table 15e, and the text is stored in the item "additional information". There is stored text indicating supplemental information about the . For example, the text "'mori' is the mori of 'Morioka'." remembered. In addition, in association with the target text "Kamo" that causes the same reading "Mori", the text indicating the additional information "'Kamo' is 'Kamo' of 'Kamo'." is stored. . In this way, by adding a description useful for identifying the original kanji from the reading of the kanji as additional information, the listener of the synthesized speech can easily identify the kanji contained in the original text data. The text stored in the "target text" of the additional information table 15e may be not only Chinese characters but also English acronyms. Acronyms can be difficult to understand depending on the utterance. Therefore, in the additional information table 15e, it is possible to store the text spelled out of the acronym in association with the target text as additional information in association with the acronym.
 テキスト修正部11bは、付加情報テーブル15eを参照することにより、オリジナルテキストデータT11に含まれている「盛」という単位テキスト(単語)が付加情報テーブル15eに登録されていることを検出すると、この付加情報テーブル15eに含まれている単位テキストを開始タグ<add>と終了タグ</add>で取り囲むように、オリジナルテキストデータT11を修正することができる。解析対象のオリジナルテキストデータT11に付加情報テーブル15eに登録されている単語が複数回登場する場合には、初回に登場した場合にのみ<add></add>タグを追加し、2回目以降に登場した場合には<add></add>タグを追加しなくともよい。人間の発話においても、初出時に漢字の読みを説明し、2回目以降は説明を行わないことが多いためである。 By referring to the additional information table 15e, the text correction unit 11b detects that the unit text (word) "mori" included in the original text data T11 is registered in the additional information table 15e. The original text data T11 can be modified so that the unit text contained in the additional information table 15e is surrounded by a start tag <add> and an end tag </add>. When a word registered in the additional information table 15e appears multiple times in the original text data T11 to be analyzed, the <add></add> tag is added only when it appears for the first time, and You don't have to add <add></add> tags if they appear. This is because, even in human utterances, the reading of kanji characters is often explained the first time they appear, and not explained after the second time.
 付加情報テーブル15eを参照して特定される付加情報の追加位置は、<add></add>タグの位置でなくともよい。上記の例では、「盛」は、「教授」と連結して、「盛教授」という一まとまりの語として用いられている。そこで、<add></add>タグにより指定される付加情報の追加位置は、<add></add>タグの位置ではなく、<add></add>タグの後に最初に登場する句点の後としてもよい。 The position to add additional information specified by referring to the additional information table 15e does not have to be the position of the <add></add> tag. In the above example, "Mori" is connected with "Professor" and is used as a group of words "Mori Professor". Therefore, the position to add the additional information specified by the <add></add> tag is not the position of the <add></add> tag, but the period that first appears after the <add></add> tag. You can do it later.
 テキスト修正部11bは、合成音声の聞き手に関する情報を取得し、当該聞き手に応じて付加情報を適応的に変更してもよい。例えば、オリジナルテキストに「SDGs」が含まれている場合、テキスト修正部11bは、聞き手の属性を示す聞き手属性情報を取得し、この聞き手属性情報により聞き手が専門家であることが示される場合には、「SDGs」についての付加情報の追加は不要と判定し、そうでなければ必要と判定し、上記の<add></add>タグを利用して「SDGs」に対応する付加情報を追加することができる。テキスト修正部11bは、聞き手の所属、ある分野に関する理解力を示す指標(例えば、専門的な資格の有無)、年齢、職業などの属性に応じて付加情報を追加するか否かを判定してもよい。 The text correction unit 11b may acquire information about the listener of the synthesized speech and adaptively change the additional information according to the listener. For example, when "SDGs" is included in the original text, the text correction unit 11b acquires listener attribute information indicating the listener's attribute. determines that addition of additional information about "SDGs" is unnecessary, otherwise determines that it is necessary, and adds additional information corresponding to "SDGs" using the above <add></add> tags. can do. The text correction unit 11b determines whether or not to add additional information according to attributes such as the listener's affiliation, an index indicating comprehension of a certain field (for example, the presence or absence of professional qualifications), age, and occupation. good too.
 テキスト修正部11bは、オリジナルテキストデータのなかに読みが一意に定まらない単語が存在する場合、ユーザに当該単語の読みの候補を提示してどの読みが正しいか問い合わせてもよい。例えば、音声合成装置10が自動対話システムにおいて利用される場合に、テキスト修正部11bは、ユーザ(例えば、対話相手)に対して単語の読みの候補を提示してどの読みが正しいか問い合わせることができる。テキスト修正部11bは、ユーザから回答があった場合、そのユーザから返された単語の読みを当該単語と対応付けて、付加情報テーブル15e又はそれ以外のテーブルに格納することができる。テキスト修正部11bは、当該ユーザとの対話セッションの間は、上記の記憶部を参照することで、上記の単語の読みを回答のあった読みに固定することができる。例えば、オリジナルテキストデータ15aが「渋谷」という苗字を含む場合、「渋谷」は、「シブヤ」とも「シブタニ」とも読むことができる。この場合、テキスト修正部11bは、オリジナルテキストデータ15aにおいて最初に「渋谷」が名字として登場した場合に、ユーザに対して「『シブヤ』さんですかそれとも『シブタニ』さんですか」と問い合わせる音声を合成して出力し、その問い合わせに対するユーザからのの回答が「シブタニです」であれば、以降の会話でユーザの名字を「シブタニ」に固定して発話することができる。名字としての「渋谷」の読みが「シブタニ」に固定された場合でも、オリジナルテキストデータ15aにおいて、「渋谷」が地名として登場する場合には、その地名として登場する「渋谷」の読みは「シブヤ」とすることができる。 If there is a word whose reading is not uniquely determined in the original text data, the text correction unit 11b may present candidate readings of the word to the user and ask which reading is correct. For example, when the speech synthesizer 10 is used in an automatic dialogue system, the text correction unit 11b can present candidate readings of words to a user (for example, a dialogue partner) and inquire which reading is correct. can. When receiving an answer from the user, the text correction unit 11b can associate the reading of the word returned from the user with the word and store it in the additional information table 15e or any other table. During the interactive session with the user, the text correction unit 11b can refer to the storage unit to fix the reading of the word to the reading given by the user. For example, when the original text data 15a includes the surname "Shibuya", "Shibuya" can be read as either "Shibuya" or "Shibutani." In this case, when "Shibuya" first appears as a surname in the original text data 15a, the text correction unit 11b will make a voice inquiry to the user, "Are you Mr. Shibuya or Mr. Shibutani?" After combining and outputting, if the user's answer to the inquiry is "Shibutani", the user's last name can be fixed to "Shibutani" in subsequent conversations. Even if the reading of "Shibuya" as a family name is fixed to "Shibuya", if "Shibuya" appears as a place name in the original text data 15a, the reading of "Shibuya" that appears as the place name will be "Shibuya". ” can be used.
 テキスト修正部11bは、以上のようにして、オリジナルテキストデータT11にノイズN11~N16を追加して読み上げテキストデータT12を生成する。読み上げテキストデータT12は、ノイズN11~N16を含んでいる。読み上げテキストデータT12は、ノイズN11~N16以外の合成音声をより自然にするためのノイズをオリジナルテキストデータT11に追加してもよいし、ノイズN11~N16の一部の追加を省略してもよい。ノイズN11~N16は、オリジナルテキストデータT11に含まれるテキストに基づいて生成されるが、オリジナルテキストデータT11自身には含まれていない。図3の例では、ノイズN11~N16はタグ形式で表現されているが、オリジナルテキストデータT11にはタグは設定されておらず、ノイズN11~N16に相当するタグは、オリジナルテキストデータT11に含まれるテキストに基づいて追加されたものである。以下の説明では、読み上げテキストデータT12を生成するためにオリジナルテキストデータT11に付加されたノイズを、ノイズN1と総称することがある。 As described above, the text correction unit 11b adds noises N11 to N16 to the original text data T11 to generate read-aloud text data T12. The read-out text data T12 contains noises N11 to N16. For the text data T12 to be read, noises other than the noises N11 to N16 may be added to the original text data T11 to make the synthesized speech more natural, or addition of some of the noises N11 to N16 may be omitted. . The noises N11 to N16 are generated based on the text included in the original text data T11, but are not included in the original text data T11 itself. In the example of FIG. 3, the noises N11 to N16 are expressed in a tag format, but no tags are set in the original text data T11, and the tags corresponding to the noises N11 to N16 are included in the original text data T11. It was added based on the available text. In the following description, the noise added to the original text data T11 to generate the reading text data T12 may be collectively referred to as noise N1.
 音声合成部11cは、音声合成用データ15fを用いて、読み上げテキストデータT12に基づいて合成音声を生成する。音声合成用データ15fには、テキスト解析辞書、韻律規則、及び、音声波形データを格納した音声波形データベースが含まれ得る。テキスト解析辞書は、一般に知られているように、テキストの音韻、モーラ数等のテキスト解析のために必要な辞書情報を格納しており、韻律規則は、テキストの韻律生成規則を格納している。音声合成部11cは、読み上げテキストデータT12について、テキスト解析辞書を参照して読み上げテキストデータT12に対する音韻系列を生成し、また、韻律規則を参照して韻律パラメータを生成する。韻律パラメータは、例えば、音韻継続時間長、ピッチ、パワー、発話速度、及びこれら以外の韻律を規定するパラメータを含むことができる。 The speech synthesis unit 11c uses the speech synthesis data 15f to generate synthesized speech based on the reading text data T12. The speech synthesis data 15f can include a text analysis dictionary, prosodic rules, and a speech waveform database storing speech waveform data. As is generally known, the text analysis dictionary stores dictionary information necessary for text analysis such as text phonology and number of moras, and the prosody rule stores prosody generation rules for the text. . For the read-out text data T12, the speech synthesis unit 11c refers to the text analysis dictionary to generate a phoneme sequence for the read-out text data T12, and also refers to the prosody rules to generate prosodic parameters. Prosody parameters can include, for example, phoneme duration, pitch, power, speech rate, and other parameters that define prosody.
 音声合成部11cは、読み上げテキストデータT12を解析することにより得られた音韻系列及び韻律パラメータに基づいて、音声波形データベースから音声合成に使用する音声波形データを選択する。 The speech synthesis unit 11c selects speech waveform data to be used for speech synthesis from the speech waveform database based on the phoneme sequence and prosodic parameters obtained by analyzing the read-out text data T12.
 読み上げテキストデータT12には、ノイズN11~N16が含まれている。読み上げテキストデータT12に含まれるテキストのうちノイズN11~N16が追加されているテキストについては、ノイズN11~N16の指定に応じて音韻系列または韻律パラメータが修正される。例えば、ノイズN11は、読み上げテキストデータT12に含まれる「AIの」のピッチを指定している。したがって、音声合成部11cは、「AIの」に対応する音韻系列について韻律規則に基づいて設定されるピッチに代えて、ノイズN11で指定されているピッチを「AIの」に対応する音韻系列の韻律パラメータに設定する。ノイズN13、N14についても同様に、ノイズN13、N14で指定されるパラメータが、読み上げテキストデータT12のテキスト解析において韻律規則に基づいて定められる韻律パラメータに代えて用いられる。例えば、ノイズN13で指定されているポーズ区間の長さは、韻律規則に基づいて設定される「だから」の前のポーズ区間の長さに代えて、「だから」の前のポーズ区間の長さとして設定される。また、ノイズN14で指定されている「人間からAIに置き換わるかというと」のテキストを発話する際の発話速度は、韻律規則に基づいて設定される当該部分の発話速度に代えて当該部分の発話速度として用いられる。 The read-out text data T12 contains noises N11 to N16. For the text to which noises N11 to N16 are added among the texts included in the reading text data T12, the phoneme series or prosodic parameters are modified according to the designation of the noises N11 to N16. For example, the noise N11 designates the pitch of "AI's" included in the read-out text data T12. Therefore, instead of the pitch set based on the prosody rule for the phoneme sequence corresponding to "AI no", the speech synthesis unit 11c changes the pitch specified by the noise N11 to the pitch of the phoneme sequence corresponding to "AI no". Set to prosodic parameters. Similarly, for the noises N13 and N14, the parameters specified by the noises N13 and N14 are used instead of the prosodic parameters determined based on the prosodic rules in the text analysis of the reading text data T12. For example, the length of the pause section specified by the noise N13 is the length of the pause section before "so" instead of the length of the pause section before "so" set based on the prosodic rule. is set as In addition, the speech rate when uttering the text "If humans will be replaced by AI" specified by noise N14 is set based on the prosody rules instead of the speech rate Used as velocity.
 ノイズN12は、「人間」という単語を開始タグ<error>と終了タグ</error>で取り囲むことにより、言い間違い(又は言い間違いの可能性)を指定している。音声合成部11cは、<error></error>タグを検出すると、間違いテーブル15dを参照し、開始タグ<error>と終了タグ</error>とで囲まれている対象テキストに関する間違い規則を特定し、この間違い規則に従って対象テキストを確率的に他のテキストに変換する。ノイズN12は、対象テキストとして「人間」を含んでいるため、音声合成部11cは、間違いテーブル15dに記述されている規則に従って、15%の確率で「人間」を変換後テキスト1又は変換後テキスト2のいずれかに設定されているテキストで置換し、置換が行われる場合には、置換後のテキストについて音韻系列及び韻律パラメータを生成する。例えば、対象テキストである「人間」が「モノ、あ、いや、人間」に置換される場合には、音声合成部11cは、この置換された「モノ、あ、いや、人間」を入力テキストとしてテキスト解析辞書及び韻律規則を用いて当該部分の音韻系列及び韻律パラメータを決定する。間違いテーブル15dにおいては、対象テキストに対して、変換後テキスト1及び変換後テキスト2の2つのテキストが関連付けられている。音声合成部11cは、対象テキストに設定されている確率に従って置換を発生させることが決定された場合には、変換後テキスト1又は変換後テキスト2のいずれかをランダムに選択してもよい。音声合成の開始前に、変換後テキスト1と変換後テキスト2のいずれか一方が利用可能であることを設定しておいてもよい。 The noise N12 specifies a misspelled word (or a possibility of a misspelled word) by surrounding the word "human" with a start tag <error> and an end tag </error>. When the <error></error> tag is detected, the speech synthesizing unit 11c refers to the error table 15d and specifies the error rule for the target text enclosed by the start tag <error> and the end tag </error>. Then, the target text is probabilistically transformed into another text according to this error rule. Since the noise N12 includes "human" as the target text, the speech synthesizer 11c, according to the rules described in the error table 15d, converts "human" into the converted text 1 or the converted text with a probability of 15%. 2, and when the replacement is performed, generate a phoneme sequence and prosodic parameters for the text after replacement. For example, when the target text "human" is replaced with "mono, ah, no, human", the speech synthesis unit 11c uses the replaced "mono, ah, no, human" as the input text. A text analysis dictionary and prosodic rules are used to determine the phonological sequence and prosodic parameters of the part. In the error table 15d, two texts, converted text 1 and converted text 2, are associated with the target text. The speech synthesizing unit 11c may randomly select either the converted text 1 or the converted text 2 when it is determined to generate replacement according to the probability set for the target text. It may be set that either one of the converted text 1 and the converted text 2 can be used before speech synthesis is started.
 ノイズN15は、フィラーの挿入を指定している。挿入されるフィラーは予め定められていても良いし、<choke>タグの属性で指定されてもよい。音声合成部11cは、<choke>タグを検出すると、<choke>タグが設定された位置にフィラー(例えば、「えーと」というテキスト)を追加し、この追加されたテキストについて音韻系列及び韻律パラメータを生成する。 The noise N15 designates filler insertion. The filler to be inserted may be determined in advance, or may be specified by an attribute of the <choke> tag. When detecting the <choke> tag, the speech synthesizing unit 11c adds a filler (for example, the text "uh") to the position where the <choke> tag is set, and generates a phoneme sequence and prosodic parameters for the added text. Generate.
 ノイズN16は、「盛」という単語を開始タグ<add>と終了タグ</add>で取り囲むことにより、付加情報を追加することを指定している。音声合成部11cは、<add></add>タグを検出すると、付加情報テーブル15eを参照し、開始タグ<add>と終了タグ</add>とで囲まれている対象テキストに関する付加情報を特定し、この付加情報を対象テキストに追加し、この対象テキストに付加情報が追加された付加情報付きテキストについて音韻系列及び韻律パラメータを生成する。対象テキストが「盛」の場合には、付加情報テーブル15eにおいて「盛」と関連付けられている「『盛』は、『盛岡』の『盛』です。」を対象テキストである「盛」に付加する。よって、音声合成部11cによる解析対象は、「盛」だけではなく、「『盛』は、『盛岡』の『盛』です。」も解析対象となり、この付加情報に対応するテキストについても音韻系列及び韻律パラメータが決定される。 The noise N16 specifies that additional information is added by surrounding the word "mori" with the start tag <add> and the end tag </add>. When the <add></add> tag is detected, the speech synthesizing unit 11c refers to the additional information table 15e and adds additional information about the target text enclosed by the start tag <add> and the end tag </add>. This additional information is added to the target text, and a phoneme sequence and prosodic parameters are generated for the text with additional information added to the target text. When the target text is "Mori", "'Mori' is 'Mori' in 'Morioka'" associated with "Mori" in the additional information table 15e is added to the target text "Mori". do. Therefore, the target of analysis by the speech synthesizing unit 11c is not only "mori" but also "'mori' is 'mori' of 'morioka'." and prosodic parameters are determined.
 音声合成部11cは、以上のようにして、読み上げテキストデータT12について、ノイズN11~N16の指定に従って音韻系列及び韻律パラメータを生成する。音声合成部11cは、このようにして生成された音韻系列及び韻律パラメータに基づいて、音声波形データベースから音声合成に使用する音声波形データを選択し、この選択した音声波形データを接続することにより合成音声を生成する。 As described above, the speech synthesis unit 11c generates a phoneme sequence and prosody parameters for the reading text data T12 according to the designation of the noises N11 to N16. The speech synthesizing unit 11c selects speech waveform data to be used for speech synthesis from the speech waveform database based on the phoneme series and prosodic parameters thus generated, and synthesizes by connecting the selected speech waveform data. generate sound.
 以上のようにして生成された合成音声では、ノイズN11~N16の指定に従った発話がなされる。例えば、読み上げテキストデータT12の冒頭の「AIの」は、ノイズN11の指定に従って高いピッチで発話されるので、合成音声の冒頭のピッチに人間の発話の傾向が反映されている。  In the synthesized speech generated as described above, an utterance is made according to the designation of the noises N11 to N16. For example, "AI's" at the beginning of the reading text data T12 is uttered at a high pitch in accordance with the designation of the noise N11, so the pitch at the beginning of the synthesized speech reflects the tendency of human speech.
 読み上げテキストデータT12のうち「人間の能力を・・・」の部分は、ノイズN12の指定に従って一定確率で「モノ、あ、いや、人間の能力を・・・」又は「モノの能力を・・・」と言い間違えて発話されるので、音声合成部11cによって生成される合成音声には、オリジナルテキストデータT11に含まれるテキスト(「人間」)の発話に加えて、言い間違いとして登録されているテキスト(「モノ」)、及び、この2つの発話を接続する接続後(「あ、いや、」)の発話も含まれているので、この合成音声により人間の発話に現れる言い間違いを自然に表現することができる。また、2度目に登場する「人間」には言い間違いが含まれないか、または、言い間違いが起きる可能性が減少するので、人間の発話における傾向がより忠実に再現されている。 The portion of the read-aloud text data T12, ``Human ability...'' is given a certain probability according to the specification of the noise N12.・” is erroneously uttered, so in the synthesized speech generated by the speech synthesizer 11c, in addition to the utterance of the text (“human”) included in the original text data T11, it is registered as an erroneous utterance. Since the text ("mono") and the utterance that connects the two utterances ("ah, no,") are also included, this synthesized speech naturally expresses the mistakes that appear in human speech. can do. In addition, the second appearance of "human" does not contain mispronunciations, or the possibility of mispronunciations is reduced, so that tendencies in human speech are reproduced more faithfully.
 読み上げテキストデータT12のうち「だから」の前には、ノイズN13で指定された時間長さのポーズ区間が挿入されるので、人間の発話時の息継ぎを再現することができる。 A pause section of the length of time specified by the noise N13 is inserted in the read-out text data T12 before "so", so it is possible to reproduce the breathing of a human when speaking.
 読み上げテキストデータT12のうち「人間からAIに置き換わるかというと」の部分は、ノイズN14で指定された速い発話速度で発話されるので、繰り返し登場している「人間」や「AI」を含む部分が速く発話されることとなる。このため、現実の人間の発話傾向をより忠実に再現することができる。 Of the read-out text data T12, the part "If humans will be replaced by AI" is spoken at a fast speaking speed specified by the noise N14, so the part containing "human" and "AI" that appear repeatedly is uttered quickly. Therefore, it is possible to more faithfully reproduce the utterance tendency of an actual human being.
 読み上げテキストデータT12のうち「それもちょっと違うように感じます。」の前には、ノイズN15で指定されたフィラー(「えーと」)を挿入して発話される。このように、音声合成部11cにより生成される合成音声には、フィラーに対応する発話が含まれるので、実際の人間の発話に現れるフィラーによる非流暢さを再現することができる。 In the read-out text data T12, the filler ("Um") specified by the noise N15 is inserted before "It feels a little different." In this way, since the synthesized speech generated by the speech synthesizing unit 11c includes utterances corresponding to fillers, it is possible to reproduce non-fluency due to fillers appearing in actual human utterances.
 読み上げテキストデータT12のうち、「盛教授の論文を紹介します。」の発話の後には、ノイズN16で指定された付加情報に基づいて「『盛』は『盛岡』の盛です。」とオリジナルテキストデータT11に含まれるテキスト部分(つまり、「盛」)の発話に加えて付加情報の発話も含むように合成音声が生成されるので、実際の人間の発話において追加されることがある付加情報を合成音声でも再現することができる。 In the read-out text data T12, after the utterance "I will introduce Professor Mori's paper", based on the additional information specified by the noise N16, the original text "'Mori' is the Mori of 'Morioka'." Since the synthesized speech is generated so as to include the utterance of the additional information in addition to the utterance of the text portion (that is, "mori") included in the text data T11, additional information that may be added in actual human utterances. can be reproduced with synthesized speech.
 以上のとおり、ノイズN11~N16の指定に従って生成された合成音声には、オリジナルテキストデータT11に含まれていないノイズに基づいて生成された発話が含まれており、このノイズに基づいて生成された発話により、音声合成部11cにより生成される合成音声を実際の人間の発話により近づけることができる。 As described above, the synthesized speech generated according to the designation of the noises N11 to N16 includes utterances generated based on noise not included in the original text data T11, and the speech generated based on this noise By speaking, the synthesized speech generated by the speech synthesizing unit 11c can be brought closer to actual human speech.
 音声合成部11cにより生成された合成音声は、音声出力部11dにより出力される。音声出力部11dは、合成音声の利用態様に沿った態様で合成音声を出力することができる。例えば、ニュース配信の音声として音声合成部11cにより生成された合成音声を用いる場合には、音声出力部11dは、生成された合成音声をストリーミング配信する。音声合成部11cにより生成された合成音声が公共施設での館内放送に利用される場合には、音声出力部11dは、当該公共施設に設置されたスピーカーに音声信号を出力する。合成音声の出力態様は、本願明細書で明示的に説明される態様には限定されない。 The synthesized speech generated by the speech synthesis unit 11c is output by the speech output unit 11d. The speech output unit 11d can output the synthesized speech in a manner that conforms to the manner in which the synthesized speech is used. For example, when the synthesized speech generated by the speech synthesizing unit 11c is used as the news distribution speech, the speech output unit 11d streams the generated synthesized speech. When the synthesized speech generated by the speech synthesizing unit 11c is used for indoor broadcasting in a public facility, the speech outputting unit 11d outputs the speech signal to the speaker installed in the public facility. The output mode of synthesized speech is not limited to the modes explicitly described in this specification.
 続いて、図6及び図7を参照して、図1の実施形態の変形例を説明する。図6に示されているように、ストレージ15には、複数のルールテーブルが記憶されていてもよい。図6は、ルールテーブル15c1~15c3の3種類のルールテーブルが格納される例を示している。各ルールテーブルは、合成音声の仮想的な話者を想定し、その仮想的な話者の属性に応じたルールを設定することができる。図6の例では、ルールテーブル15c1が属性A1の仮想的な話者が話す合成音声を生成するためのルールテーブルであり、ルールテーブル15c2が属性A2の仮想的な話者が話す合成音声を生成するためのルールテーブルであり、ルールテーブル15c3が属性A3の仮想的な話者が話す合成音声を生成するためのルールテーブルである。属性A1~A3はそれぞれ、例えば、早口で話す人、緊張している人、アナウンサーという属性であってもよい。例えば、早口で話す人の属性A1に対応するルールテーブル15c1においては、既に説明したルール1~ルール6において、<breath>の前に置かれる文字数を多くする(ルール1)という変更を行うことができる。緊張している人の属性A2に対応するルールテーブル15c2においては、<choke>タグの生起確率を高くする(ルール4)という変更を行うことができる。アナウンサーの属性A3に対応するルールテーブル15c3においては、<error></error>タグを挿入しない(ルール3)という変更を行うことができる。上記以外にも、各種属性の発話の傾向をより忠実に反映できるようにルールテーブルに記述されるルール内のパラメータを変更することができる。また、属性の発話の傾向を反映させるために、ルール1~ルール6に加えて追加的なルールを新設することもできる。 Next, a modification of the embodiment of FIG. 1 will be described with reference to FIGS. 6 and 7. FIG. As shown in FIG. 6, the storage 15 may store multiple rule tables. FIG. 6 shows an example in which three types of rule tables 15c1 to 15c3 are stored. Each rule table assumes a virtual speaker of synthesized speech, and can set rules according to the attributes of the virtual speaker. In the example of FIG. 6, the rule table 15c1 is a rule table for generating synthetic speech spoken by a virtual speaker with attribute A1, and the rule table 15c2 is for generating synthetic speech spoken by a virtual speaker with attribute A2. A rule table 15c3 is a rule table for generating synthesized speech spoken by a virtual speaker with attribute A3. Each of the attributes A1-A3 may be, for example, a fast talker, a nervous person, and an announcer. For example, in the rule table 15c1 corresponding to the attribute A1 of a person who speaks fast, the already explained rules 1 to 6 can be changed by increasing the number of characters before <breath> (rule 1). can. In the rule table 15c2 corresponding to the attribute A2 of the person who is nervous, a change can be made to increase the occurrence probability of the <choke> tag (Rule 4). In the rule table 15c3 corresponding to the announcer attribute A3, a change can be made so that the <error></error> tag is not inserted (rule 3). In addition to the above, it is possible to change the parameters in the rules described in the rule table so that the tendencies of utterances with various attributes can be more faithfully reflected. Further, in addition to rules 1 to 6, additional rules can be newly established in order to reflect the tendency of attribute utterances.
 音声合成装置10は、ユーザから仮想的な話者またはその属性の指定を受け付け、ストレージ15に保持されている複数のルールテーブルのなかから指定された話者または属性に対応するルールテーブルを選択することができる。音声合成装置10は、選択されたルールテーブルを用いて、オリジナルテキストデータ15aに基づいて読み上げテキストデータ15bを生成することができる。 The speech synthesizer 10 receives a specification of a virtual speaker or its attribute from a user, and selects a rule table corresponding to the specified speaker or attribute from among a plurality of rule tables held in a storage 15. be able to. The speech synthesizer 10 can use the selected rule table to generate the reading text data 15b based on the original text data 15a.
 上記以外の属性の他の例として、オリジナルテキストデータ15aが日本語の場合に日本語のノンネイティブスピーカーという属性が含まれていてもよい。また、ノンネイティブスピーカーの属性に、初級/中級/上級という日本語の習熟度に応じたサブ属性が含まれてもよい。複数のルールテーブルには、ノイズの挿入をしない、すなわちオリジナルテキストデータをそのまま読み上げテキストデータとするルールを保持するルールテーブルが含まれてもよい。 As another example of the attribute other than the above, when the original text data 15a is Japanese, the attribute "non-native speaker of Japanese" may be included. Also, the attribute of a non-native speaker may include sub-attributes corresponding to the proficiency level of Japanese such as elementary/intermediate/advanced. The plurality of rule tables may include a rule table that holds a rule that does not insert noise, that is, that the original text data is used as read-out text data as it is.
 図7に示されているように、ストレージ15には、複数の間違いテーブルが記憶されていてもよい。図7は、間違いテーブル15d1~15d3の3種類の間違いテーブルが格納される例を示している。各間違いテーブルは、合成音声の仮想的な話者を想定し、その仮想的な話者の属性に応じた間違いの生成規則を設定することができる。図7の例では、間違いテーブル15d1が属性A1の仮想的な話者が話す合成音声を生成するために参照されるテーブルであり、間違いテーブル15d2が属性A2の仮想的な話者が話す合成音声を生成するために参照されるテーブルであり、間違いテーブル15d3が属性A3の仮想的な話者が話す合成音声を生成するために参照されるテーブルである。属性A1~A3は、既に説明したとおりである。例えば、属性A1や属性A2に対応する間違いテーブル15d1、15d2においては、間違いの生起確率を高くし、属性A3に対応する間違いテーブル15d3では間違いの生起確率を低くすることができる。仮に学生という属性に対応する間違いテーブルが設定される場合には、敬語を表す対象テキスト(図4の例では、「ご覧になる」)の生起確率が高く設定されてもよい。このように、様々な属性の発話の傾向をより忠実に反映できるように間違いテーブルに含まれる間違いの生起確率を変更することができる。また、特定の属性で頻発する言い間違えがある場合には、その言い間違えを反映するために変換後テキスト1又は変換後テキスト2として記憶されるテキストを変更しても良い。 As shown in FIG. 7, the storage 15 may store multiple error tables. FIG. 7 shows an example in which three types of error tables 15d1 to 15d3 are stored. Each error table assumes a virtual speaker of synthesized speech, and can set error generation rules according to the attributes of the virtual speaker. In the example of FIG. 7, the error table 15d1 is a table referred to for generating synthesized speech spoken by a virtual speaker with attribute A1, and the error table 15d2 is a synthesized speech spoken by a virtual speaker with attribute A2. and the error table 15d3 is a table referred to for generating synthesized speech spoken by a virtual speaker of attribute A3. Attributes A1 to A3 are as already explained. For example, the error occurrence probability can be increased in the error tables 15d1 and 15d2 corresponding to the attributes A1 and A2, and the error occurrence probability can be decreased in the error table 15d3 corresponding to the attribute A3. If an error table corresponding to the attribute "student" is set, the probability of occurrence of target text representing honorifics ("look at it" in the example of FIG. 4) may be set high. In this way, the probability of occurrence of errors contained in the error table can be changed so as to more faithfully reflect the tendencies of utterances with various attributes. Also, if there is a frequent misspelling with a specific attribute, the text stored as the converted text 1 or the converted text 2 may be changed to reflect the misspelling.
 音声合成装置10は、ユーザから仮想的な話者またはその属性の指定を受け付け、ストレージ15に保持されている複数の間違いテーブルのなかから指定された話者または属性に対応する間違いテーブルを選択してもよい。音声合成装置10は、選択された間違いテーブルを用いて、オリジナルテキストデータ15aに基づいて読み上げテキストデータ15bを生成することができる。 The speech synthesizer 10 accepts designation of a virtual speaker or its attribute from the user, and selects a mistake table corresponding to the designated speaker or attribute from among a plurality of error tables held in the storage 15. may The speech synthesizer 10 can use the selected error table to generate read text data 15b based on the original text data 15a.
 図6の変形例と図7の変形例とはそれぞれ独立に成立し得る一方、両者を組み合わせることも可能である。つまり、一つの属性(例えば、「属性A1」)に対して、ルールテーブル15c1及び間違いテーブル15d1を設定することができる。この場合、オリジナルテキストデータ15aに基づく読み上げテキストデータ15bの生成は、ルールテーブル15c1及び間違いテーブル15d1を用いて行われる。  While the modification of FIG. 6 and the modification of FIG. 7 can be established independently, they can also be combined. That is, the rule table 15c1 and the error table 15d1 can be set for one attribute (for example, "attribute A1"). In this case, the reading text data 15b based on the original text data 15a is generated using the rule table 15c1 and the error table 15d1.
 次に、図8から図10を参照して別の実施形態による音声合成システム1を説明する。図8は、本発明の別の実施形態における音声合成システム101を示す図であり、図9は、音声合成システム101に備えられる変換テーブル15gを示し、図10は、音声合成システム101において生成される読み上げテキストの例を示す図である。音声合成システム101は、プロセッサ11が類似評価部11eとしても機能し、ストレージ15が変換テーブル15gを備える点で、音声合成システム1と異なっている。 Next, a speech synthesis system 1 according to another embodiment will be described with reference to FIGS. 8 to 10. FIG. FIG. 8 is a diagram showing a speech synthesis system 101 according to another embodiment of the present invention, FIG. 9 shows a conversion table 15g provided in the speech synthesis system 101, and FIG. FIG. 10 is a diagram showing an example of read-aloud text; The speech synthesis system 101 differs from the speech synthesis system 1 in that the processor 11 also functions as a similarity evaluation unit 11e and the storage 15 has a conversion table 15g.
 変換テーブル15gの例について図9を参照して説明する。変換テーブル15gは、自発音声での発話の際に個性のある単語や表現を使用する話者の発話を合成音声で再現するために用いられる。変換テーブル15gは、「対象テキスト」の項目に格納されている単語、節、句などの単位テキストと関連付けて、合成音声で再現される話者が対象テキストに格納されている単位テキストに代えて頻繁に用いるテキストが「変換後テキスト」の項目に格納されている。図9に示されている例では、対象テキストに格納されている一般的な用語の各々と関連付けて、いわゆる横文字の用語が変換後テキストの項目に格納されている。例えば、対象テキストの「対応案」と関連付けて「ソリューション」が格納されている。 An example of the conversion table 15g will be described with reference to FIG. The conversion table 15g is used to reproduce, in synthesized speech, the speech of a speaker who uses unique words and expressions in spontaneous speech. The conversion table 15g associates unit texts such as words, clauses, and phrases stored in the "target text" field with the speaker reproduced in synthesized speech instead of the unit texts stored in the target text. Frequently used texts are stored in the "converted text" item. In the example shown in FIG. 9, so-called horizontal terms are stored in the converted text item in association with each of the common terms stored in the target text. For example, "solution" is stored in association with "proposed countermeasure" of the target text.
 テキスト修正部11bは、変換テーブル15gを参照することにより、オリジナルテキストデータT21に含まれている単位テキストが変換テーブル15gに登録されていることを検出すると、当該単位テキストを、変換テーブル15gに当該単位テキストと関連付けて変換後テキストとして格納されているテキストで置換することができる。図10に示す例では、オリジナルテキストデータT21に含まれている「対応案」、「承知しました。」、「議題」が、変換テーブル15gに従って「ソリューション」、「アグリーです。」、及び「アジェンダ」にそれぞれ置換され、その置換語のテキストが読み上げテキストデータT22とされる。つまり、テキスト修正部11bは、変換テーブル15gに従ってオリジナルテキストデータT21に含まれる一部のテキストを置換することで、読み上げテキストデータT22を生成することができる。読み上げテキストデータT22に含まれる置換語のテキスト(「ソリューション」、「アグリーです。」、及び「アジェンダ」)の各々は、オリジナルテキストデータT21に含まれていないため、オリジナルテキストデータT21に追加されたノイズに含まれる。図10の例では、ソリューション」をノイズN21とし、「アグリーです。」をノイズN22とし、「アジェンダ」をノイズN23としている。 When the text correction unit 11b detects that the unit text included in the original text data T21 is registered in the conversion table 15g by referring to the conversion table 15g, the text correction unit 11b stores the unit text in the conversion table 15g. It can be replaced with text that is stored as converted text in association with the unit text. In the example shown in FIG. 10, "Proposal", "Understood." , and the text of the replacement word is used as read-aloud text data T22. In other words, the text correction unit 11b can generate read-aloud text data T22 by replacing part of the text included in the original text data T21 according to the conversion table 15g. Each of the replacement word texts (“Solution,” “Agree,” and “Agenda”) included in the read-aloud text data T22 is not included in the original text data T21, so they are added to the original text data T21. Included in noise. In the example of FIG. 10, "solution" is noise N21, "ugly desu" is noise N22, and "agenda" is noise N23.
 変換テーブル15gに基づいてオリジナルテキストデータT21の単位テキストを別のテキストに変換すると、オリジナルテキストデータT21と読み上げテキストデータT22との間で意味的類似が低くなる可能性がある。音声合成システム101は、オリジナルテキストデータに基づいてより自然な合成音声を生成するシステムであり、元のテキストデータの意味を変更することは意図していない。そこで、類似評価部11eは、変換テーブル15gを用いて作成された読み上げテキストデータT22と、オリジナルテキストデータT21との意味的類似を評価する。文章同士の意味的類似を評価する手法は、自然言語処理の分野で公知である。例えば、特開2005-25257号公報に文章同士の意味的類似を評価する方法が記載されている。類似評価部11eは、同公報に記載されているアルゴリズム又はそれ以外の自然言語処理の分野で知られている公知の手法を用いて、読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似を評価し、その意味的類似が所定の基準評価よりも高いか否かを判定することができる。読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似が基準評価よりも高い場合には、その読み上げテキストデータT22を用いて音声合成を行うこといができる。読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似が基準評価よりも低い場合には、オリジナルテキストデータT21に含まれる単位テキストの一部について変換テーブル15gに基づく置換を行わないことで、読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似を向上させることができる。テキスト修正部11bは、読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似が基準評価よりも高くなるまで、置換される単位テキストの数を減少させて読み上げテキストデータT22を繰り返し生成してもよい。 If the unit text of the original text data T21 is converted into another text based on the conversion table 15g, there is a possibility that the original text data T21 and the reading text data T22 will have less semantic similarity. The speech synthesis system 101 is a system for generating more natural synthetic speech based on original text data, and is not intended to change the meaning of the original text data. Therefore, the similarity evaluation unit 11e evaluates the semantic similarity between the reading text data T22 created using the conversion table 15g and the original text data T21. Techniques for evaluating semantic similarity between sentences are known in the field of natural language processing. For example, Japanese Unexamined Patent Application Publication No. 2005-25257 describes a method of evaluating semantic similarity between sentences. The similarity evaluation unit 11e evaluates the semantic similarity between the reading text data T22 and the original text data T21 using the algorithm described in the publication or other known techniques known in the field of natural language processing. and determine whether the semantic similarity is higher than a predetermined reference rating. If the semantic similarity between the read-out text data T22 and the original text data T21 is higher than the reference evaluation, the read-out text data T22 can be used for speech synthesis. If the semantic similarity between the read-out text data T22 and the original text data T21 is lower than the reference evaluation, a part of the unit text included in the original text data T21 is not replaced based on the conversion table 15g. The semantic similarity between the text data T22 and the original text data T21 can be improved. The text correction unit 11b may reduce the number of unit texts to be replaced and repeatedly generate the read-out text data T22 until the semantic similarity between the read-out text data T22 and the original text data T21 becomes higher than the reference evaluation. good.
 音声合成システム101において、音声合成部11cは、読み上げテキストデータT22とオリジナルテキストデータT21との意味的類似が基準評価よりも高い場合に、読み上げテキストデータT22に基づいて音声合成を行うことができる。具体的には、音声合成部11cは、読み上げテキストデータT22をテキスト解析することで、音韻系列及び韻律パラメータを生成し、この音韻系列及び韻律パラメータに基づいて音声波形データベースから音声波形データを選択する。音声合成部11cは、この選択された音声波形データを接続することにより、合成音声を生成することができる。 In the speech synthesis system 101, the speech synthesis unit 11c can perform speech synthesis based on the read-out text data T22 when the semantic similarity between the read-out text data T22 and the original text data T21 is higher than the reference evaluation. Specifically, the speech synthesizing unit 11c generates a phoneme sequence and prosody parameters by text-analyzing the reading text data T22, and selects speech waveform data from the speech waveform database based on the phoneme sequence and prosody parameters. . The speech synthesizing unit 11c can generate synthetic speech by connecting the selected speech waveform data.
 音声合成部11cは、オリジナルテキストデータT21の文字数あたりの変換対象単語数に上限を設けてもよい。例えば、オリジナルテキストデータ100文字あたりの変換対象単語数の上限を2単語に設定してもよい。 The speech synthesis unit 11c may set an upper limit on the number of words to be converted per number of characters in the original text data T21. For example, the upper limit of the number of words to be converted per 100 characters of the original text data may be set to 2 words.
 音声合成システム101は、変換テーブル15gに従ってオリジナルテキストデータT21に含まれるテキストの一部が置換された読み上げテキストデータT22に基づいて音声合成を行っているため、自発音声での発話の際に個性のある単語や表現を使用する話者の発話に近い合成音声を生成することができる。例えば、日本語では、コンサルティング業に従事する者がいわゆる横文字表現(例えば、「ソリューション」)を頻繁に使用する傾向が見られる。また、芸能人が用いる独特の話法を再現することも可能となる。例えば、日本語での発話を単語ごとに英語に置き換える話法を芸として用いる芸能人が存在するが、そのような話法を再現することができる。英語では、法曹がラテン語を多用する傾向が見られる。例えば、英語の「among」の代わりにラテン語の「inter alia」がよく用いられる。上記の実施形態によれば、話者に応じた特徴的な用語の選択を変換テーブル15gで再現することにより、話者の個性が反映されていない汎用的なオリジナルテキストデータから、話者の個性が表出した読み上げテキストデータを生成することができる。そして、このように話者の個性が表出した読み上げテキストデータに基づいて合成音声を生成することにより、話者の個性が反映された合成音声の生成が可能となる。 Since the speech synthesis system 101 performs speech synthesis based on the reading text data T22 in which a part of the text included in the original text data T21 is replaced according to the conversion table 15g, when spontaneous speech is uttered, it is possible to express individuality. Synthetic speech can be generated that closely resembles the utterances of a speaker using certain words and expressions. For example, in Japanese, people engaged in consulting tend to frequently use so-called horizontal expressions (eg, "solution"). In addition, it is possible to reproduce the peculiar way of speaking used by entertainers. For example, there are entertainers who use a technique of replacing utterances in Japanese word by word with English, and such a technique can be reproduced. In English, the legal profession tends to use Latin extensively. For example, the Latin "inter alia" is often used instead of the English "among". According to the above embodiment, by reproducing the selection of characteristic terms according to the speaker in the conversion table 15g, the general-purpose original text data that does not reflect the speaker's individuality can be converted to the speaker's individuality. can generate read-aloud text data expressed by . By generating synthesized speech based on read-out text data expressing the individuality of the speaker in this way, it is possible to generate synthesized speech that reflects the individuality of the speaker.
 図6や図7に基づいて説明したのと同様に、音声合成システム101は、仮想的な話者又は話者の属性ごとに設定された複数の変換テーブル15gを備えてもよい。これにより、話者の属性を指定することにより、その指定された属性を有する話者の発話に近い合成音声を生成することができる。 As described with reference to FIGS. 6 and 7, the speech synthesis system 101 may include a plurality of conversion tables 15g set for each virtual speaker or speaker attribute. As a result, by specifying the attribute of the speaker, it is possible to generate synthesized speech that is close to the utterance of the speaker having the specified attribute.
 図8から図10に示される実施形態において、話者または話者の属性ごとに変換テーブルを設けてもよい。この場合、音声合成装置10は、ユーザから話者またはその属性の指定を受け付け、ストレージ15に保持されている複数の変換テーブルのなかから指定された話者または属性に対応する変換テーブルを選択する。音声合成装置10は、選択された変換テーブルを用いて、選択された変換テーブルを用いて、オリジナルテキストデータ15aに基づいて読み上げテキストデータ15bを生成することができる。 In the embodiments shown in FIGS. 8 to 10, a conversion table may be provided for each speaker or speaker attribute. In this case, the speech synthesizer 10 accepts the designation of the speaker or its attribute from the user, and selects a conversion table corresponding to the designated speaker or attribute from among a plurality of conversion tables held in the storage 15. . The speech synthesizer 10 can use the selected conversion table to generate the reading text data 15b based on the original text data 15a.
 図8から図10の実施形態では、変換テーブル15gを用いて(つまり、特定の規則に基づいて)、オリジナルテキストデータ15aに基づいて読み上げテキストデータ15bを生成したが、変換テーブル15g又はそれ以外の変換ルールを用いずに、又は、変換テーブル15g又はそれ以外の変換ルールに加えて、機械学習により生成・更新される変換モデルを用いることで、オリジナルテキストデータに含まれるテキストの一部を置換して読み上げテキストデータを生成してもよい。編案モデルは、特定の話者に対応付けられてもよい。この場合、音声合成装置10は、変換モデルに対応付けられている話者の実際の発話や執筆物及びこれら以外の話者の発話の特徴を表す学習データを収集し、当該学習データを用いて変換モデルを訓練することができる。音声合成装置10は、話者またはその属性ごとに変換モデルを保持することができる。音声合成装置10は、ユーザから話者またはその属性の指定を受け付け、ストレージ15に保持されている複数の変換モデルのなかから指定された話者または属性に対応する変換モデルを選択することができる。音声合成装置10は、オリジナルテキストデータ15aに、選択された変換モデルを適用することにより、その選択された変換モデルに対応する話者の発話の特徴が現れた読み上げテキストデータ15bを生成することができる。 In the embodiment of FIGS. 8-10, conversion table 15g is used (that is, based on specific rules) to generate read-aloud text data 15b based on original text data 15a. A part of the text included in the original text data is replaced by using a conversion model generated/updated by machine learning without using the conversion rule or in addition to the conversion table 15g or other conversion rules. You may generate read-aloud text data. A draft model may be associated with a particular speaker. In this case, the speech synthesizer 10 collects learning data representing the characteristics of the actual utterances and writings of the speaker associated with the conversion model and the utterances of other speakers, and uses the learning data Transformation models can be trained. The speech synthesizer 10 can hold conversion models for each speaker or attribute thereof. The speech synthesizer 10 can accept the designation of the speaker or its attribute from the user, and select the conversion model corresponding to the designated speaker or attribute from among a plurality of conversion models held in the storage 15. . By applying the selected conversion model to the original text data 15a, the speech synthesizer 10 can generate read-out text data 15b in which features of the speaker's utterance corresponding to the selected conversion model appear. can.
 次に、図11から図14を参照して別の実施形態による音声合成システム201を説明する。図11は、本発明の別の実施形態における音声合成システム201を示す図であり、図12は、音声合成システム201で使用されるノイズ生成モデルのトレーニングに使用される教師データの作成方法の一例を示すフロー図であり、図13は、音声合成システムで利用可能なノイズ生成モデルをトレーニングするための教師データの例を示す図である。音声合成システム201は、テキスト修正部11bが、ストレージ15に記憶されているノイズ生成モデル15hを用いてオリジナルテキストデータ15aから読み上げテキストデータ15bを生成する点で、ルールベースで読み上げテキストデータを生成する音声合成システム1と異なっている。 Next, a speech synthesis system 201 according to another embodiment will be described with reference to FIGS. 11 to 14. FIG. FIG. 11 is a diagram showing a speech synthesis system 201 in another embodiment of the present invention, and FIG. 12 is an example of a method of creating teacher data used for training a noise generation model used in the speech synthesis system 201. and FIG. 13 is a diagram showing an example of teacher data for training a noise generation model that can be used in a speech synthesis system. The speech synthesis system 201 generates read-out text data on a rule basis in that the text correction unit 11b uses the noise generation model 15h stored in the storage 15 to generate the read-out text data 15b from the original text data 15a. It is different from the speech synthesis system 1.
 音声合成システム201において、テキスト修正部11bは、ノイズ生成モデル15hを用いてオリジナルテキストデータ15aにノイズを追加することにより読み上げテキストデータ15bを生成する。ノイズ生成モデル15hは、ノイズを含まないサンプルテキストデータと、当該サンプルテキストデータにサンプルノイズを追加することで生成されたサンプル読み上げテキストデータと、を含むデータセットを教師データとして機械学習を行うことで構築される。 In the speech synthesis system 201, the text correction unit 11b generates reading text data 15b by adding noise to the original text data 15a using the noise generation model 15h. The noise generation model 15h performs machine learning using a data set containing sample text data without noise and sample read-aloud text data generated by adding sample noise to the sample text data as teacher data. be built.
 ノイズ生成モデル15hをトレーニングするための教師データを効率良く準備することができれば、ルールテーブル15cによりルールを定めなくとも、ノイズ生成モデル15hによりオリジナルテキストデータ15aにノイズN1が追加された読み上げテキストデータ15bを効率的に生成することができる。図12を参照して、ノイズ生成モデル15hのトレーニングに使用可能な教師データの効率的な生成方法を説明する。 If teacher data for training the noise generation model 15h can be efficiently prepared, read-aloud text data 15b in which noise N1 is added to the original text data 15a by the noise generation model 15h without defining rules by the rule table 15c. can be generated efficiently. A method of efficiently generating teacher data that can be used for training the noise generation model 15h will be described with reference to FIG.
 図12に示されているように、まず、ステップS11において、ノイズを含まないサンプルテキストデータを話者が読み上げる。サンプルテキストデータの例は、図13に示されているように、汎用的な文章であってもよい。サンプルテキストデータを読み上げることで、当該サンプルテキストデータに対応する音声波形データが得られる。 As shown in FIG. 12, first, in step S11, the speaker reads sample text data that does not contain noise. An example of sample text data may be generic sentences, as shown in FIG. By reading the sample text data, speech waveform data corresponding to the sample text data can be obtained.
 次に、ステップS12において、ステップS11で得られたサンプルテキストデータの音声波形データから、音素種別、音素継続長、ピッチの高低、発話速度などの音声特徴量を抽出し、この音声特徴量に基づいてノイズを抽出する。サンプルテキストデータの発話を表す音声波形データから抽出される韻律パラメータが、音声合成で一般に利用されている韻律規則と比べて大きく乖離している場合に、その韻律パラメータをノイズとして特定することができる。例えば、図13に示されているように、サンプルテキストデータとして「今日はいい天気ですね。」をある話者が読み上げて得られた音声波形データにおいて、「今日は」に対応する音素列のピッチが、このサンプルテキストデータに基づいて音声合成を行う場合に使用される一般的な韻律規則において「今日は」のテキストに適用されるピッチよりも有意に高い(例えば、10%以上、20%以上、30%以上、40%以上、又は50%以上高い)場合に、当該音声波形データから抽出された「今日は」に対応する音素列のピッチをノイズとして抽出し、サンプルテキストデータの「今日は」に高いピッチを指定する<pitch></pitch>タグを追加することができる。同様に、サンプルテキストデータのうち読み上げ時に言い淀みや言い間違いが発生した部位に<error></error>タグ、<choke>タグなどを追加することができる。このようにして、サンプルテキストデータを読み上げることで取得した音声波形データを解析することによりノイズを抽出し、そのノイズをサンプルテキストデータに追加することで、サンプルテキストにノイズが追加されたサンプル読み上げデータを生成することができる。 Next, in step S12, from the speech waveform data of the sample text data obtained in step S11, speech features such as phoneme type, phoneme duration, pitch pitch, and utterance speed are extracted. to extract the noise. If the prosodic parameters extracted from the speech waveform data representing the utterance of the sample text data deviate greatly from the prosodic rules generally used in speech synthesis, the prosodic parameters can be identified as noise. . For example, as shown in FIG. 13, in speech waveform data obtained by reading aloud "It's nice weather today." The pitch is significantly higher (e.g., 10% or more, 20% above, 30% or more, 40% or more, or 50% or more higher), the pitch of the phoneme string corresponding to "today" extracted from the speech waveform data is extracted as noise, and the sample text data "today can add <pitch></pitch> tags to specify a higher pitch. Similarly, <error></error> tags, <choke> tags, etc. can be added to portions of the sample text data where hesitation or mispronunciation occurs. In this way, noise is extracted by analyzing the voice waveform data obtained by reading the sample text data, and the noise is added to the sample text data, resulting in sample reading data with noise added to the sample text. can be generated.
 次に、ステップS13において、サンプルテキストデータと、このサンプルテキストデータを読み上げた波形データから生成されたサンプル読み上げデータとをセットにして教師データを生成する。教師データの例は、図13に示す通りである。上記のようにして生成された教師データでノイズ生成モデル15hをトレーニングすることができる。 Next, in step S13, the teacher data is generated by combining the sample text data and the sample reading data generated from the waveform data obtained by reading the sample text data. An example of teacher data is as shown in FIG. The noise generation model 15h can be trained with the training data generated as described above.
 図14に示されているように、ストレージ15には、複数のノイズ生成モデルを記憶することができる。図14の例では、ノイズ生成モデル15h1~15h3の3種類のノイズ生成モデルが格納されている。各ノイズ生成モデルは、それぞれ異なる話者に固有のノイズを学習することによりトレーニングされている。例えば、ノイズ生成モデル15h1は、話者B1に固有のノイズを学習して構築されたモデルである。具体的には、上記のように話者B1がサンプルテキストを読み上げることで取得されたサンプルテキストの音声波形データに基づいて当該サンプルテキストに追加すべきノイズを特定し、このノイズが追加されたサンプル読み上げデータとサンプルテキストデータとのセットを話者B1のノイズを生成するための教師データとする。他の話者B2、B3についても同様に、各話者が読み上げたサンプルテキストの音声波形データに基づいて、話者B2、B3の各々について個別の教師データが生成される。ノイズ生成モデル15h1は、話者B1の教師データを用いてトレーニングされ、ノイズ生成モデル15h2は、話者B2の教師データを用いてトレーニングされ、ノイズ生成モデル15h3は、話者B3の教師データを用いてトレーニングされる。 As shown in FIG. 14, the storage 15 can store a plurality of noise generation models. In the example of FIG. 14, three types of noise generation models 15h1 to 15h3 are stored. Each noise-generating model is trained by learning the noise specific to each different speaker. For example, the noise generation model 15h1 is a model constructed by learning noise specific to speaker B1. Specifically, the noise to be added to the sample text is specified based on the speech waveform data of the sample text obtained by the speaker B1 reading the sample text as described above, and the noise-added sample A set of reading data and sample text data is used as teacher data for generating noise for speaker B1. Similarly, for the other speakers B2 and B3, individual teacher data is generated for each of the speakers B2 and B3 based on the speech waveform data of the sample text read by each speaker. The noise generation model 15h1 is trained using the training data of speaker B1, the noise generation model 15h2 is trained using the training data of speaker B2, and the noise generation model 15h3 is trained using the training data of speaker B3. and trained.
 図14の変形例に係る音声合成システムは、ユーザから話者の指定を受け付け、ストレージ15に保持されている複数のノイズ生成モデルのなかから指定された話者に対応するノイズ生成モデルを選択することができる。音声合成システムは、選択されたノイズ生成モデルを用いてオリジナルテキストデータ15aに基づいて読み上げテキストデータ15bを生成することができる。オリジナルテキストデータ15aにノイズ生成モデル15h1を適用して読み上げテキストデータ15bを生成することにより、読み上げテキストデータ15bには話者B1の発話の特徴が反映される。他のノイズ生成モデル15h2、15h3についても、ノイズ生成モデル15h1と同様に、話者B2、話者B3の発話の特徴が反映される。 The speech synthesis system according to the modification of FIG. 14 accepts the designation of the speaker from the user, and selects the noise generation model corresponding to the designated speaker from among the plurality of noise generation models held in the storage 15. be able to. The speech synthesis system can generate read text data 15b based on the original text data 15a using the selected noise generation model. By applying the noise generation model 15h1 to the original text data 15a to generate the read-out text data 15b, the features of the speech of the speaker B1 are reflected in the read-out text data 15b. Similar to the noise generation model 15h1, other noise generation models 15h2 and 15h3 also reflect the features of the utterances of the speakers B2 and B3.
 次に、図15及び図16を参照して別の実施形態による音声合成システム301を説明する。図15は、本発明の別の実施形態における音声合成システム301を示す図であり、図16は、音声合成システム301において生成される読み上げテキストの例を示す図である。音声合成システム301は、プロセッサ11がリアルタイム情報取得部11fとしても機能し、テキスト修正部11bがリアルタイム情報取得部11fにより取得されたリアルタイム情報に基づいて読み上げテキストデータを生成する点で音声合成システム1と異なっている。 Next, a speech synthesis system 301 according to another embodiment will be described with reference to FIGS. 15 and 16. FIG. FIG. 15 is a diagram showing a speech synthesis system 301 according to another embodiment of the invention, and FIG. The speech synthesis system 301 is similar to the speech synthesis system 1 in that the processor 11 also functions as a real-time information acquisition unit 11f, and the text correction unit 11b generates read-out text data based on the real-time information acquired by the real-time information acquisition unit 11f. is different from
 リアルタイム情報取得部11fは、所定の時間間隔で断続的にリアルタイム情報を取得する。リアルタイム情報の例は、ニュースサイトから取得できるニュース情報、ウェザーニュースから取得できる気温、天気、及びこれら以外の様々な情報である。 The real-time information acquisition unit 11f intermittently acquires real-time information at predetermined time intervals. Examples of real-time information are news information that can be obtained from news sites, temperature and weather that can be obtained from weather news, and various other information.
 テキスト修正部11bは、オリジナルテキストデータ15a及びリアルタイム情報取得部11fにより取得されたリアルタイム情報に基づいて読み上げテキストデータ15bを生成することができる。 The text correction unit 11b can generate the reading text data 15b based on the original text data 15a and the real-time information acquired by the real-time information acquisition unit 11f.
 図16を参照して、オリジナルテキストデータT31とリアルタイム情報とに基づく読み上げテキストデータT32の生成について説明する。オリジナルテキストデータT31は、オリジナルテキストデータT11、T21と同様に、プレーンなテキストである。図16に示されている例では、リアルタイム情報取得部11fによって取得されるリアルタイム情報のうち、現在の気温が用いられる。リアルタイム情報取得部11fによって取得された現在の気温が32℃であると想定する。テキスト修正部11bは、この現在の気温が32℃であるというリアルタイム情報に基づいて、「今日は30℃を超えていて暑いですね。」という追加テキストを生成することができる。この追加テキストは、オリジナルテキストデータT31に含まれていないため、ノイズである。つまり、テキスト修正部11bは、リアルタイム情報取得部11fが取得したリアルタイム情報に基づいて追加テキストを生成し、この追加テキストをノイズN31としてオリジナルテキストデータT31に付加することができる。また、読み上げテキストデータT32は、ノイズN31として追加された追加テキストと、オリジナルテキストデータT31に含まれているテキストとを自然に接続するための接続語として、「それでは、」をノイズN32として含んでいる。 Generation of read-aloud text data T32 based on original text data T31 and real-time information will be described with reference to FIG. The original text data T31 is plain text, like the original text data T11 and T21. In the example shown in FIG. 16, the current temperature is used among the real-time information acquired by the real-time information acquiring section 11f. Assume that the current temperature acquired by the real-time information acquisition unit 11f is 32°C. Based on the real-time information that the current temperature is 32°C, the text correction unit 11b can generate an additional text saying "It's over 30°C today, isn't it hot?". This additional text is noise because it is not included in the original text data T31. That is, the text correction section 11b can generate additional text based on the real-time information acquired by the real-time information acquisition section 11f, and add this additional text as noise N31 to the original text data T31. Further, the read-out text data T32 includes the additional text added as the noise N31 and the text included in the original text data T31 naturally connecting "Well then" as the noise N32. there is
 音声合成部11cは、読み上げテキストデータT32に基づいて音声合成を行うことができる。具体的には、音声合成部11cは、読み上げテキストデータT32をテキスト解析することで、音韻系列及び韻律パラメータを生成し、この音韻系列及び韻律パラメータに基づいて音声波形データベースから音声波形データを選択する。音声合成部11cは、この選択された音声波形データを接続することにより、合成音声を生成することができる。 The voice synthesis unit 11c can perform voice synthesis based on the read-out text data T32. Specifically, the speech synthesizing unit 11c generates a phoneme sequence and prosody parameters by text-analyzing the reading text data T32, and selects speech waveform data from the speech waveform database based on the phoneme sequence and prosody parameters. . The speech synthesizing unit 11c can generate synthetic speech by connecting the selected speech waveform data.
 このように、音声合成システム301によれば、リアルタイム情報取得部11fにより取得されるリアルタイム情報に基づいて生成されるノイズN31をオリジナルテキストデータT31に追加することで読み上げテキストデータT32が生成されているため、読み上げテキストデータT32に基づいて生成される合成音声の聞き手により自然な印象を与えることができる。 As described above, according to the speech synthesis system 301, the reading text data T32 is generated by adding the noise N31 generated based on the real-time information obtained by the real-time information obtaining section 11f to the original text data T31. Therefore, it is possible to give a more natural impression to the listener of the synthesized speech generated based on the reading text data T32.
 音声合成システム301において、オリジナルテキストデータT31に追加されているノイズN31は、オリジナルテキストデータT31に含まれるテキストとは無関係に生成されている点で、オリジナルテキストデータに含まれるテキストに基づいて生成される音声合成システム1、101、201のノイズ(ノイズN11~N16、N21~N23等)とは異なっている。音声合成システム301によれば、オリジナルテキストデータT31に含まれるテキスト以外の情報を用いることにより、より自然な合成音声を生成することができる。 In the speech synthesis system 301, the noise N31 added to the original text data T31 is generated independently of the text included in the original text data T31, and is generated based on the text included in the original text data. are different from the noises (noises N11 to N16, N21 to N23, etc.) of the speech synthesis systems 1, 101, 201. According to the speech synthesis system 301, by using information other than the text contained in the original text data T31, it is possible to generate a more natural synthetic speech.
 音声合成システム301では、ノイズを生成するために、オリジナルテキストデータT31に含まれるテキスト以外の情報としてリアルタイム情報を用いたが、これ以外のオリジナルテキストデータT31に含まれない情報を用いてノイズを生成してもよい。例えば、合成音声の仮想的な話者、及び、この仮想的な話者が発話を行っている仮想的な環境を想定し、この仮想的な環境において発生する仮想的な音をテキストで表現した仮想話者環境情報をオリジナルテキストデータT31に加えてもよい。例えば、仮想的な話者は、仮想的な自室で発話を行っており、自室には仮想的な飼い猫が存在しているという仮想環境を想定することができ、この仮想環境において猫が鳴いたという想定で、オリジナルテキストデータT31に猫の鳴き声を指定するタグを追加することで、読み上げテキストデータT32を生成してもよい。猫の鳴き声は、例えば<cat>というタグで指定することができる。<cat>タグは、オリジナルテキストデータT31に含まれるテキストの先頭、末尾、又は途中に挿入することができる。音声合成部11cは、<cat>タグを検出した場合に、猫の鳴き声を表す波形データを波形データベースから選択し、その猫の鳴き声を表す波形データを、読み上げテキストデータT32の<cat>タグ以外の部分から選択された音声波形データと重畳することで猫の鳴き声を含む合成音声を生成することができる。これにより、合成音声の聞き手に対して、合成音声があたかも実在の話者により発話されているかのような印象を与えることができる。 In the speech synthesis system 301, in order to generate noise, real-time information is used as information other than the text contained in the original text data T31, but noise is generated using other information not contained in the original text data T31. You may For example, assuming a virtual speaker of synthesized speech and a virtual environment in which this virtual speaker is speaking, the virtual sounds generated in this virtual environment are expressed in text. Virtual speaker environment information may be added to the original text data T31. For example, it is possible to imagine a virtual environment in which a virtual speaker speaks in his/her own virtual room and a virtual domestic cat exists in his/her room. Assuming that the original text data T31 contains a tag designating the meowing of a cat, reading text data T32 may be generated. A cat's meow can be specified with a <cat> tag, for example. The <cat> tag can be inserted at the beginning, end, or middle of the text included in the original text data T31. When the <cat> tag is detected, the speech synthesizing unit 11c selects the waveform data representing the meowing of the cat from the waveform database, and extracts the waveform data representing the meowing of the cat from the reading text data T32 other than the <cat> tag. By superimposing the speech waveform data selected from the part of (2), synthesized speech including the cat's bark can be generated. This makes it possible to give the listener of the synthesized speech the impression that the synthesized speech is being uttered by a real speaker.
 次に、図17を参照して、本明細書に開示される発明を適用可能な自動対話システム401について説明する。図示のとおり、自動対話システム401は、ノイズを含む読み上げテキストデータ15bに基づいて合成音声を生成する音声合成装置410と、この音声合成装置410とネットワーク40を介して通信可能に接続されているユーザ装置420と、を備える。 Next, with reference to FIG. 17, an automatic dialogue system 401 to which the invention disclosed in this specification can be applied will be described. As shown in the figure, the automatic dialogue system 401 includes a speech synthesizer 410 that generates synthesized speech based on read-aloud text data 15b containing noise, and a user communicatively connected to this speech synthesizer 410 via a network 40. a device 420;
 音声合成装置410は、音声合成装置10と同様に、ノイズを含む読み上げテキストデータ15bに基づいて合成音声を生成することができるように構成されている。 The speech synthesizer 410, like the speech synthesizer 10, is configured to be able to generate synthetic speech based on the read-out text data 15b containing noise.
 ユーザ装置420は、自動対話システム401のユーザによって使用される情報処理装置である。ユーザ装置420は、デスクトップPC、ラップトップPC、スマートフォン、又はこれら以外の情報処理装置である。ユーザ装置420は、不図示のプロセッサ、メモリ、ユーザインタフェース、通信インタフェース、及びストレージ(いずれも不図示)を備えることができる。ユーザ装置420は、チャットボット等の自動対話アプリケーションを実行可能であり、この自動対話アプリケーションにより音声合成装置410の対話機能を利用することができる。ユーザ装置420は、商品やサービスに関する質問や問い合わせ及びこれら以外の対話入力を生成し、生成した対話入力をネットワーク40経由で音声合成装置410に送信することができる。対話入力は、例えばテキスト形式のデータである。 The user device 420 is an information processing device used by the user of the automatic dialogue system 401 . User device 420 is a desktop PC, laptop PC, smart phone, or other information processing device. User device 420 may include a processor, memory, user interface, communication interface, and storage (none shown) not shown. The user device 420 can execute an automatic dialogue application such as a chatbot, and the dialogue function of the speech synthesizer 410 can be used by this automatic dialogue application. The user device 420 can generate questions and inquiries about products and services and other interactive inputs, and can transmit the generated interactive inputs to the speech synthesizer 410 via the network 40 . The interactive input is data in text format, for example.
 音声合成装置410は、ユーザ装置420からの対話入力に対して合成音声を用いて応答することができる。対話入力に対する応答としてノイズを含む読み上げテキストデータに基づいて生成された合成音声を使用することにより、対話相手とより自然な合成音声を用いて対話することができる。 The speech synthesizer 410 can respond to dialogue input from the user device 420 using synthesized speech. By using synthesized speech generated based on read-aloud text data containing noise as a response to dialogue input, it is possible to interact with a dialogue partner using more natural synthesized speech.
 音声合成装置410のプロセッサ11は、対話部11g、発話ターン判定部11h、発話待ち時間算出部11i、及び対話環境検出部11jとして機能することができる。 The processor 11 of the speech synthesizer 410 can function as a dialogue unit 11g, an utterance turn determination unit 11h, an utterance waiting time calculation unit 11i, and a dialogue environment detection unit 11j.
 対話部11gは、ユーザ装置420から受信した対話入力に応じた応答を生成する。音声やテキストの対話入力に対する応答を、所定の応答規則に基づいて生成する自動応答システムが知られている。自動応答システムは、例えば、チャットボットとして実用化されており、入力に対する応答をマニュアルではなく自動的に生成する技術は当業者にとって周知である。対話入力に基づくオリジナルテキストデータの生成は、公知の自動応答システム、自動質問応答システム、自動対話システム、又はこれら以外の対話入力に対して自動的に応答を生成するための自然言語技術を用いて実行され得る。対話部11gは、公知の技術を用いて、ユーザ装置420から受信した対話入力に対する応答文をテキスト形式で生成し、このテキスト形式で生成した応答文をオリジナルテキストデータ15aとしてストレージ15に記憶する。 The dialogue unit 11g generates a response according to the dialogue input received from the user device 420. 2. Description of the Related Art There is known an automatic response system that generates a response to a voice or text interactive input based on a predetermined response rule. Automatic response systems have been put into practical use, for example, as chatbots, and techniques for automatically generating responses to input rather than manually are well known to those skilled in the art. The generation of original text data based on dialogue input uses a known automatic response system, automatic question answering system, automatic dialogue system, or other natural language technology for automatically generating responses to dialogue inputs. can be performed. The dialogue unit 11g uses a known technique to generate a text-format response to the dialogue input received from the user device 420, and stores the text-format response in the storage 15 as the original text data 15a.
 音声合成装置410においては、対話部11gにより生成された応答文にテキスト修正部11bによりノイズを付すことで、応答文に対応する読み上げテキストデータ15bが生成される。音声合成部11cは、応答文に対応する読み上げテキストデータ15bに基づいて上述した方法で音声合成を行うことができる。 In the speech synthesizer 410, the text correction unit 11b adds noise to the response sentence generated by the dialog unit 11g, thereby generating read-aloud text data 15b corresponding to the response sentence. The speech synthesizing unit 11c can perform speech synthesis by the above-described method based on the reading text data 15b corresponding to the response sentence.
 発話ターン判定部11hは、ユーザ装置420からの対話入力が完了し、自装置(ユーザ装置420)に発話ターンがあるかを判断する。発話ターン判定部11hによって発話ターンがあると判定された場合には、音声出力部11は、音声合成部11cにより生成された応答文に対応する読み上げテキストデータ15bに基づいて生成された合成音声をユーザ装置420に送信する。 The utterance turn determination unit 11h determines whether or not the dialogue input from the user device 420 is completed and the own device (user device 420) has a utterance turn. When the utterance turn determination unit 11h determines that there is an utterance turn, the voice output unit 11 outputs synthetic voice generated based on the read-out text data 15b corresponding to the response sentence generated by the voice synthesis unit 11c. Send to user device 420 .
 発話ターン判定部11hによって発話ターンがないと判定された場合であっても、判定時点までに入力された対話入力に基づいて応答文を表すオリジナルテキストデータ15aが生成されている場合には、テキスト修正部11bは、応答文を表すオリジナルテキストデータ15aの冒頭に割り込み語を追加することで読み上げテキストデータ15bを生成することができる。つまり、読み上げテキストデータ15bは、冒頭にテキスト修正部11bにより追加された割り込み語をノイズとして含むことができる。割り込み語は、「えっと」、「ちょっとよろしいですか?」等の相手の発話を遮る機能を持つ語である。 Even if it is determined that there is no utterance turn by the utterance turn determination unit 11h, if the original text data 15a representing a response sentence has been generated based on the dialogue input that has been input up to the time of determination, the text The correction unit 11b can generate read-aloud text data 15b by adding an interrupt word to the beginning of original text data 15a representing a response sentence. In other words, the reading text data 15b can include the interrupt words added by the text correction unit 11b at the beginning as noise. An interrupting word is a word that has the function of interrupting the other party's utterance, such as "Uh," or "Is this okay?"
 割り込み語は、対話相手の発話を遮って発話ターンを獲得するために発話される特殊な役割を持つ語であるため、割り込み語に通常の韻律規則に基づく韻律パラメータを適用して合成音声を生成すると、対話相手に不自然な印象を与える可能性がある。そこで、テキスト修正部11bは、割り込み語に対して、<pitch></pitch>タグや<speed></speed>タグを用いて、通常の韻律規則とは異なる割り込み語用韻律パラメータ(例えば、ピッチ発話速度)を追加することができる。 Interrupting words are words with a special role that are uttered to interrupt the conversation partner's utterances and acquire utterance turns. This may give an unnatural impression to the conversation partner. Therefore, the text correction unit 11b uses <pitch></pitch> tags and <speed></speed> tags for the interrupting word to set the interrupting word prosodic parameter (for example, pitch speech rate) can be added.
 音声合成部11cは、割り込み語を含む読み上げテキストデータ15bに基づいて合成音声を生成することができる。このようにして生成された合成音声は、冒頭に割り込み語に対応する発話を含んでいる。音声出力部11dは、対話入力が完了する前であっても、上記のようにして生成された割り込み語に対応する発話を冒頭に含む合成音声をユーザ装置420に送信することができる。これにより、音声合成装置410は、対話入力の完了前に合成音声を出力することができるので、ユーザとの対話を効率化することができる。また、対話入力の完了前に合成音声による応答が送信される場合、当該合成音声は、その冒頭に割り込み語に対応する発話を有している。よって、対話入力の途中で割り込んで合成音声による応答を送信する場合であっても、人間同士の会話のように、まず割り込み語で発言ターンの獲得を行うため、ユーザに対して自然な対話を行っている印象を与えることができる。 The speech synthesizing unit 11c can generate synthesized speech based on the reading text data 15b including the interrupt word. The synthesized speech generated in this manner includes an utterance corresponding to the interrupting word at the beginning. The voice output unit 11d can transmit the synthesized voice including the utterance corresponding to the interrupt word generated as described above to the user device 420 even before the dialogue input is completed. As a result, the speech synthesizer 410 can output synthesized speech before the dialogue input is completed, so that dialogue with the user can be made more efficient. Also, if a synthetic voice response is sent before the dialogue input is completed, the synthetic voice will have an utterance corresponding to the interrupt word at its beginning. Therefore, even if a response is to be sent as a synthetic voice by interrupting the dialogue input in the middle of the dialogue input, as in a conversation between humans, the utterance turn is first acquired by the interrupting word, so that the user can have a natural dialogue. You can give the impression that you are doing it.
 発話待ち時間算出部11iは、ユーザ装置420からの対話入力に基づいて対話入力の完了から、対話入力に基づいて生成された合成音声の音声出力部11dによる出力までの発話待ち時間を算出することができる。自動対話システム401においては、通常は迅速な対話レスポンスが要求されることから、発話待ち時間はゼロに設定される。他方、発話待ち時間算出部11iは、対話入力に大きな笑いが含まれている場合、ユーザが拍手している場合、対話入力からユーザが怒っていると判定される場合、又はこれら以外の発話待機条件を充足する場合に、ゼロではない発話待ち時間を算出する。ユーザが怒っていることは、例えば、自然言語処理の分野で公知のセンチメンタル分析を用いて検出することができる。発話待ち時間は、例えば、3秒から10秒の範囲で設定されてもよい。対話入力に基づいてユーザが笑っていると判断される場合や、拍手していると判断される場合には、ユーザがその余韻を楽しむ時間を確保するために、合成音声の出力準備ができた場合であっても、対話入力の完了後に発話待ち時間だけ待機し、対話入力の完了後に発話待ち時間が経過してから合成音声を出力する。また、ユーザが怒っている場合には、対話入力の完了後に一定時間経過してから応答を送信することにより、怒りを静める効果が期待される。 The speech waiting time calculation unit 11i calculates the speech waiting time from the completion of the dialogue input based on the dialogue input from the user device 420 to the output of the synthesized speech generated based on the dialogue input by the speech output unit 11d. can be done. In the automatic dialogue system 401, the utterance waiting time is set to zero because a prompt dialogue response is usually required. On the other hand, the utterance waiting time calculation unit 11i waits for utterance when the dialog input includes a big laugh, when the user is clapping, when it is determined from the dialog input that the user is angry, or when other than these. If the condition is satisfied, calculate a non-zero speech waiting time. The fact that the user is angry can be detected, for example, using sentimental analysis, which is well known in the field of natural language processing. The speech waiting time may be set, for example, within a range of 3 seconds to 10 seconds. When it is determined that the user is laughing or clapping based on the dialogue input, preparation for outputting synthesized speech is made so that the user has time to enjoy the afterglow. Even in this case, after the dialogue input is completed, it waits for the speech waiting time, and after the speech waiting time has passed after the dialogue input is completed, the synthesized speech is output. Also, when the user is angry, it is expected that the user will be less angry by sending a response after a certain period of time has elapsed after completing the interactive input.
 対話環境検出部11jは、ユーザ装置420のユーザが合成音声による応答を聞くことを妨げる可能性がある情報を検出する。例えば、対話入力が音声で行われる場合には、対話環境検出部11jは、対話入力の音声を解析してバックグラウンドに大きな騒音がないかを確認する。大きな騒音がある場合には、その騒音がなくなったタイミングで音声出力部11dに合成音声を再送させることができる。このように、音声出力部11dは、対話環境検出部11jの検出情報に基づいて、合成音声をユーザ装置420に再度送信することができる。音声出力部11dは、送信済みの合成音声を全て再送しても良いし、大きな騒音が一時的な場合には、合成音声の全区間のうち大きな騒音によって聞き取りづらかった可能性がある区間の合成音声のみを再度送信してもよい。 The dialogue environment detection unit 11j detects information that may prevent the user of the user device 420 from listening to the synthesized speech response. For example, when the dialog input is performed by voice, the dialog environment detection unit 11j analyzes the voice of the dialog input and checks whether there is a large noise in the background. When there is loud noise, the synthesized voice can be retransmitted to the voice output unit 11d at the timing when the noise disappears. In this way, the speech output unit 11d can retransmit the synthesized speech to the user device 420 based on the detection information of the dialogue environment detection unit 11j. The voice output unit 11d may resend all of the synthesized voice that has already been transmitted, or if the loud noise is temporary, the voice output unit 11d may synthesize a segment that may have been difficult to hear due to the loud noise among all segments of the synthesized voice. Only the audio may be transmitted again.
 対話環境検出部11jは、ユーザが合成音声の単語を理解していないことを検出した場合、当該単語の類義語を次の読み上げテキストデータに追加してもよい。例えば「beverage」で通じない場合に「drink」に言い換えるための処理を行ってもよい。同じ英語でも英国と米国では言い方が異なる単語があるのであって、「subway」で通じなければ「tube」に言い換え、「lift」で通じなければ「elevator」に言い換える処理を行ってもよい。 When the dialogue environment detection unit 11j detects that the user does not understand the words of the synthesized speech, it may add synonyms of the said words to the next reading text data. For example, if "beverage" is not understood, processing may be performed to change it to "drink". Even in the same English, there are words that are pronounced differently in the United Kingdom and the United States, so if "subway" does not work, it may be changed to "tube", and if "lift" does not work, it may be changed to "elevator".
 自動対話システム401によれば、割り込み語の追加、割り込み語の韻律パラメータの設定、発話待ち時間の設定、ユーザの環境に応じた合成音声の再送などの機能により、合成音声を用いてユーザとより自然な対話を実現することができる。 According to the automatic dialogue system 401, functions such as adding an interrupting word, setting prosody parameters of the interrupting word, setting the utterance waiting time, and retransmitting the synthesized voice according to the user's environment allow the user to interact more effectively with the synthesized voice. Natural dialogue can be realized.
 本明細書において、プロセッサ11によって実行されるとして説明されるプログラム又は当該プログラムに含まれる命令は、単一のコンピュータプロセッサで実行されてもよいし、複数のコンピュータプロセッサにより分散して実行されてもよい。また、プロセッサ11によって実行されるとして説明されるプログラム又は当該プログラムに含まれる命令は、音声合成装置10とは別体の装置に備えられているプロセッサによって実行されてもよい。また、プロセッサ11によって実行されるプログラム又は当該プログラムに含まれる命令は、複数の仮想コンピュータプロセッサにより分散して実行されてもよい。 In this specification, a program or instructions included in the program described as being executed by the processor 11 may be executed by a single computer processor, or may be executed by a plurality of computer processors in a distributed manner. good. Also, the programs described as being executed by the processor 11 or instructions included in the programs may be executed by a processor provided in a device separate from the speech synthesizer 10 . Also, the program executed by the processor 11 or instructions included in the program may be distributed and executed by a plurality of virtual computer processors.
 本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理または手順は複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は複数のモジュールによって実行され得る。また、本明細書中で説明されるデータ、テーブル、又はデータベースが単一の記憶装置(ストレージやメモリ)に格納される旨説明されたとしても、そのようなデータ、テーブル、又はデータベースは、単一の装置に備えられた複数の記憶装置または複数の装置に分散して配置された複数の記憶装置に分散して格納され得る。さらに、本明細書において説明されるソフトウェアおよびハードウェアの要素は、それらをより少ない構成要素に統合して、またはより多い構成要素に分解することによって実現することも可能である。 Although the processes and procedures described herein are described as being performed by a single device, software, component or module, such processes or procedures may be performed by multiple devices, software, components or modules. and/or by multiple modules. In addition, even if the data, tables, or databases described herein are described as being stored in a single storage device (storage or memory), such data, tables, or databases are It can be distributed and stored in a plurality of storage devices provided in one device or in a plurality of storage devices distributed in a plurality of devices. Furthermore, the software and hardware elements described herein can be implemented by consolidating them into fewer components or decomposing them into more components.
 プロセッサ11で実行されるプログラムは、図示されているストレージ以外にも様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)に格納され得る。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例には、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。 Programs executed by the processor 11 can be stored in various types of non-transitory computer readable media in addition to the illustrated storage. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (e.g., floppy disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical discs), Compact Disc Read Only Memory (CD-ROM), CD -R, CD-R/W, semiconductor memory (e.g. Mask ROM, Programmable ROM (PROM), Erasable PROM (EPROM), Flash ROM, Random Access Memory (RAM)).
 音声合成システム1、101、201、301及び自動対話システム401において、データの格納場所には特段の制限はない。例えば、ストレージ15に記憶され得る各種データは、オンプレミス環境5内又はオンプレミス環境5外のストレージ15とは物理的に別体のストレージやデータベースサーバに格納されてもよい。つまり、本明細書において、ストレージ15に記憶されると説明されているデータは、単一のストレージに記憶されてもよいし、複数のストレージに分散して記憶されてもよい。また、本明細書及び特許請求の範囲において、単に「ストレージ」という場合には、文脈上許される限り、単一のストレージと複数のストレージの集合のいずれを指し示すこともある。 In the speech synthesis systems 1, 101, 201, 301 and the automatic dialogue system 401, there are no particular restrictions on where data is stored. For example, various data that can be stored in the storage 15 may be stored in a storage or database server that is physically separate from the storage 15 inside or outside the on-premises environment 5 . That is, in this specification, the data described as being stored in the storage 15 may be stored in a single storage, or distributed and stored in a plurality of storages. In addition, in the present specification and claims, the term "storage" may refer to either a single storage or a collection of multiple storages, as long as the context permits.
 本明細書に開示されている複数の実施形態を組み合わせることにより、その組み合わされた態様を、本発明のさらに別の実施形態とすることができる。例えば、音声合成システム1、101、201、301のいずれかで実行される機能は、他のシステムで実行されてもよい。音声合成システム1、101、201、301のいずれかで実行される機能は、自動対話システム401において実行されてもよい。例えば、図8から図10に示される実施形態に従いオリジナルテキストデータ15aに含まれる一部のテキストを変換後テキストに置換し、その上で図1から図5に示される実施形態に従ってノイズとなるタグを挿入することで読み上げテキストデータ15bを生成してもよい。その結果、オリジナルテキストデータ15aに含まれているテキストが変換された変換後テキストに対してノイズを表すタグが付されてもよい。つまり、ノイズに対して重畳的にノイズが付加されてもよい。 By combining a plurality of embodiments disclosed in this specification, the combined aspect can be a further embodiment of the present invention. For example, functions performed by any of the speech synthesis systems 1, 101, 201, 301 may be performed by other systems. Functions performed in any of speech synthesis systems 1 , 101 , 201 , 301 may be performed in automatic dialog system 401 . For example, according to the embodiment shown in FIGS. 8 to 10, a part of the text included in the original text data 15a is replaced with the post-conversion text, and then, according to the embodiment shown in FIGS. may be inserted to generate the reading text data 15b. As a result, a tag representing noise may be attached to the post-conversion text obtained by converting the text contained in the original text data 15a. That is, noise may be superimposed on noise.
 本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。 Notations such as “first”, “second”, “third” in this specification etc. are attached to identify the constituent elements, and do not necessarily limit the number, order, or content thereof is not. Also, numbers for identifying components are used for each context, and numbers used in one context do not necessarily indicate the same configuration in other contexts. Also, it does not preclude a component identified by a certain number from having the function of a component identified by another number.
 本明細書において単数形で表される構成要素は、矛盾を生じさせない限り、複数形を含むものとする。 In this specification, constituents expressed in the singular shall include the plural unless there is a contradiction.
 1、101、201、301 音声合成システム
 10 音声合成装置
 401 自動対話システム
1, 101, 201, 301 speech synthesis system 10 speech synthesizer 401 automatic dialogue system

Claims (27)

  1.  一又は複数のプロセッサを備え、前記一又は複数のプロセッサに、
     オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する機能と、
     前記読み上げテキストデータに基づいて合成音声を生成する機能と、
     を実行させる、音声合成システム。
    comprising one or more processors, the one or more processors comprising:
    A function to generate reading text data by adding noise to the original text data,
    a function of generating synthesized speech based on the read-out text data;
    A speech synthesis system that runs
  2.  前記ノイズは、前記オリジナルテキストデータに含まれる第1テキスト部分に関連付けられている第1ノイズを含む、
     請求項1に記載の音声合成システム。
    the noise includes a first noise associated with a first text portion included in the original text data;
    The speech synthesis system according to claim 1.
  3.  前記第1ノイズは、前記第1テキスト部分の後に所定時間長さのポーズ区間を挿入することを示す第1アノテーションを含み、
     前記合成音声は、前記第1テキスト部分の発話の後が前記第1アノテーションにより指定された前記所定時間長さだけ発話が中断されるように生成される、
     請求項2に記載の音声合成システム。
    the first noise includes a first annotation indicating that a pause interval of a predetermined length of time is to be inserted after the first text portion;
    the synthesized speech is generated such that speech of the first text portion is interrupted for the predetermined length of time specified by the first annotation;
    3. The speech synthesis system according to claim 2.
  4.  前記第1ノイズは、前記第1テキスト部分のピッチを指定する第2アノテーションを含み、
     前記合成音声は、前記第1テキスト部分が前記第2アノテーションに応じたピッチで発話されるように生成される、
     請求項2又は3に記載の音声合成システム。
    the first noise includes a second annotation specifying the pitch of the first text portion;
    the synthesized speech is generated such that the first text portion is spoken at a pitch corresponding to the second annotation;
    4. The speech synthesis system according to claim 2 or 3.
  5.  前記第1ノイズは、前記第1テキスト部分の発話速度を指定する第3アノテーションを含み、
     前記合成音声は、前記第1テキスト部分が前記第3アノテーションに応じた発話速度で発話されるように生成される、
     請求項2から4のいずれか1項に記載の音声合成システム。
    the first noise includes a third annotation specifying a speech rate of the first text portion;
    the synthesized speech is generated such that the first text portion is spoken at a speech rate corresponding to the third annotation;
    A speech synthesis system according to any one of claims 2 to 4.
  6.  前記第1ノイズは、前記第1テキスト部分の言い間違えを指定する第4アノテーションを含み、
     前記合成音声は、前記第4アノテーションに基づいて、前記第1テキスト部分、及び、前記第1テキスト部分に関連付けられた第2テキスト部分の発話を含むように生成される、
     請求項2から5のいずれか1項に記載の音声合成システム。
    the first noise includes a fourth annotation specifying a misspelling of the first text portion;
    the synthesized speech is generated to include utterances of the first text portion and a second text portion associated with the first text portion based on the fourth annotation;
    A speech synthesis system according to any one of claims 2 to 5.
  7.  前記合成音声は、前記第4アノテーションに基づいて、前記第2テキスト部分、接続語、前記第1テキスト部分の発話をこの順番で含むように生成される、
     請求項6に記載の音声合成システム。
    The synthesized speech is generated based on the fourth annotation to include, in this order, the second text portion, the connecting word, and the utterance of the first text portion.
    7. The speech synthesis system according to claim 6.
  8.  前記第1ノイズは、前記第1テキスト部分の言い間違えを指定する第4アノテーションを含み、
     前記合成音声は、前記第4アノテーションに基づいて、前記第1テキスト部分に関連付けられた第2テキスト部分の発話を含むが前記第1テキスト部分の発話を含まないように生成される、
     請求項2から5のいずれか1項に記載の音声合成システム。
    the first noise includes a fourth annotation specifying a misspelling of the first text portion;
    the synthesized speech is generated based on the fourth annotation to include utterances of a second text portion associated with the first text portion but not utterances of the first text portion;
    A speech synthesis system according to any one of claims 2 to 5.
  9.  前記第1ノイズは、前記第1テキスト部分に関連するフィラーを指定する第5アノテーションを含み、
     前記合成音声は、前記フィラーを含むように生成される、
     請求項2から8のいずれか1項に記載の音声合成システム。
    the first noise includes a fifth annotation specifying filler associated with the first text portion;
    the synthesized speech is generated to include the filler;
    A speech synthesis system according to any one of claims 2 to 8.
  10.  前記第1ノイズは、前記第1テキスト部分に関する付加情報の追加を指定する第6アノテーションを含み、
     前記合成音声は、少なくとも前記第1テキスト部分及び前記付加情報の発話を含むように生成される、
     請求項2から9のいずれか1項に記載の音声合成システム。
    the first noise includes a sixth annotation specifying addition of additional information about the first text portion;
    the synthesized speech is generated to include utterance of at least the first text portion and the additional information;
    A speech synthesis system according to any one of claims 2 to 9.
  11.  前記読み上げテキストデータは、前記テキストの前記第1テキスト部分に代えて前記第2テキスト部分を含むように生成される、
     請求項2から10のいずれか1項に記載の音声合成システム。
    the read text data is generated to include the second text portion instead of the first text portion of the text;
    A speech synthesis system according to any one of claims 2 to 10.
  12.  前記オリジナルテキストデータと前記読み上げテキストデータとの意味的類似が基準評価よりも高くなるように前記読み上げテキストデータを生成する、
     請求項11に記載の音声合成システム。
    generating the read-out text data such that the semantic similarity between the original text data and the read-out text data is higher than a reference evaluation;
    The speech synthesis system according to claim 11.
  13.  前記読み上げテキストデータは、前記第1ノイズと異なる第2ノイズを含む、
     請求項2から12のいずれか1項に記載の音声合成システム。
    The read-out text data includes a second noise different from the first noise,
    A speech synthesis system according to any one of claims 2 to 12.
  14.  前記一又は複数のプロセッサに、リアルタイム情報を取得する機能をさらに実行させ、
     前記第2ノイズは、前記リアルタイム情報に関する追加テキストを含む、
     請求項13に記載の音声合成システム。
    causing the one or more processors to further perform the function of obtaining real-time information;
    the second noise includes additional text about the real-time information;
    14. The speech synthesis system according to claim 13.
  15.  前記第2ノイズは、前記合成音声の仮想的な話者が存在する仮想環境に関する仮想話者環境情報を含む、
     請求項13又は14に記載の音声合成システム。
    the second noise includes virtual speaker environment information about a virtual environment in which the virtual speaker of the synthesized speech is present;
    15. The speech synthesis system according to claim 13 or 14.
  16.  前記ノイズは、ノイズ生成規則に基づいて前記オリジナルテキストデータに追加される、
     請求項1から15のいずれか1項に記載の音声合成システム。
    the noise is added to the original text data based on noise generation rules;
    16. A speech synthesis system according to any one of claims 1-15.
  17.  前記ノイズ生成規則は、第1ノイズ生成規則及び第2ノイズ生成規則を含むノイズ生成規則群のうちから選択される、
     請求項16に記載の音声合成システム。
    wherein the noise generation rule is selected from a group of noise generation rules including a first noise generation rule and a second noise generation rule;
    17. The speech synthesis system according to claim 16.
  18.  サンプルテキストデータと当該サンプルテキストデータにサンプルノイズを追加して生成されたサンプル読み上げテキストデータとを含むデータセットを教師データとして機械学習を行うことで構築されたノイズ生成モデルを用いて、前記オリジナルテキストデータに前記ノイズを追加する、
     請求項1から15に記載の音声合成システム。
    Using a noise generation model constructed by performing machine learning using a data set containing sample text data and sample reading text data generated by adding sample noise to the sample text data as training data, the original text adding said noise to the data;
    A speech synthesis system according to any one of claims 1 to 15.
  19.  前記ノイズ生成モデルは、第1サンプルテキストデータと当該第1サンプルテキストデータに第1サンプルノイズを追加して生成された第1サンプル読み上げテキストデータとを含む第1データセットを教師データとして機械学習を行うことで構築された第1ノイズ生成モデル、及び、第2サンプルテキストデータと当該第2サンプルテキストデータに第2サンプルノイズを追加して生成された第2サンプル読み上げテキストデータとを含む第2データセットを教師データとして機械学習を行うことで構築された第2ノイズ生成モデルを含むモデル群の中から選択される、
     請求項18に記載の音声合成システム。
    The noise generation model performs machine learning using a first data set including first sample text data and first sample reading text data generated by adding first sample noise to the first sample text data as teacher data. and second data including second sample text data and second sample reading text data generated by adding a second sample noise to the second sample text data. Selected from a model group including a second noise generation model constructed by performing machine learning using the set as teacher data,
    19. A speech synthesis system according to claim 18.
  20.  前記一又は複数のプロセッサに、
     所定時間継続する対話入力を受け付ける機能と、
     前記対話入力に基づいて前記オリジナルテキストデータを生成する機能と、
     前記対話入力の完了前に前記合成音声を出力する機能と、
     を実行させる、請求項1から19のいずれか1項に記載の音声合成システム。
    to the one or more processors;
    a function of accepting interactive input that continues for a predetermined time;
    a function of generating the original text data based on the interactive input;
    the ability to output said synthesized speech prior to completion of said interactive input;
    20. The speech synthesis system according to any one of claims 1 to 19, causing the execution of
  21.  前記対話入力の完了前に発話ターンを獲得する場合には、前記ノイズは、前記オリジナルテキストデータの冒頭に追加される割り込み語を含む、
     請求項20に記載の音声合成システム。
    if a speech turn is obtained before completion of the dialogue input, the noise includes an interrupt word added to the beginning of the original text data;
    21. A speech synthesis system according to claim 20.
  22.  前記合成音声に含まれる前記割り込み語に対応する発話は、前記割り込み語用の割り込み韻律パラメータに基づいて生成される、
     請求項20又は21に記載の音声合成システム。
    an utterance corresponding to the interrupt word included in the synthesized speech is generated based on an interrupt prosodic parameter for the interrupt word;
    22. A speech synthesis system according to claim 20 or 21.
  23.  前記一又は複数のプロセッサに、前記対話入力に基づいて、前記対話入力の完了から前記合成音声を出力するまでの発話待ち時間を算出する機能を実行させ、
     前記合成音声は、前記対話入力の完了後に前記発話待ち時間が経過したタイミングで出力される、
     請求項20から22のいずれか1項に記載の音声合成システム。
    causing the one or more processors to calculate an utterance waiting time from completion of the dialogue input to output of the synthesized speech based on the dialogue input;
    The synthesized speech is output at the timing when the speech waiting time has passed after the completion of the dialogue input.
    23. A speech synthesis system according to any one of claims 20-22.
  24.  前記一又は複数のプロセッサに、前記対話相手の環境に関する環境情報を取得する機能と、
     前記環境情報に応じて、前記合成音声の少なくとも一部を再度出力する機能と、
     を実行させる、請求項20から23のいずれか1項に記載の音声合成システム。
    a function of obtaining environmental information about the environment of the dialogue partner in the one or more processors;
    a function of re-outputting at least part of the synthesized speech according to the environmental information;
    24. The speech synthesis system according to any one of claims 20 to 23, causing the execution of
  25.  一又は複数のプロセッサに、
     オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する機能と、
     前記読み上げテキストデータに基づいて合成音声を生成する機能と、
     を実現させるプログラム。
    to one or more processors;
    A function to generate reading text data by adding noise to the original text data,
    a function of generating synthesized speech based on the read-out text data;
    program to realize
  26.  一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される方法であって、
     オリジナルテキストデータにノイズを追加することで読み上げテキストデータを生成する工程と、
     前記読み上げテキストデータに基づいて合成音声を生成する工程と、
     を備える方法。
    A method performed by one or more computer processors executing computer readable instructions comprising:
    generating speech text data by adding noise to original text data;
    generating synthesized speech based on the read-out text data;
    How to prepare.
  27.  一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される方法であって、
     オリジナルテキストデータを取得する工程と、
     取得されたオリジナルテキストデータの少なくとも一部に関連付けられたノイズが追加されたオリジナルテキストデータに基づく合成音声を、音声出力手段に出力させる工程と、
     を備える方法。
    A method performed by one or more computer processors executing computer readable instructions comprising:
    obtaining original text data;
    causing a speech output means to output synthesized speech based on the original text data to which noise associated with at least a portion of the acquired original text data is added;
    How to prepare.
PCT/JP2021/020082 2021-05-26 2021-05-26 Speech synthesis to convert text into synthesized speech WO2022249362A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/020082 WO2022249362A1 (en) 2021-05-26 2021-05-26 Speech synthesis to convert text into synthesized speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/020082 WO2022249362A1 (en) 2021-05-26 2021-05-26 Speech synthesis to convert text into synthesized speech

Publications (1)

Publication Number Publication Date
WO2022249362A1 true WO2022249362A1 (en) 2022-12-01

Family

ID=84229775

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/020082 WO2022249362A1 (en) 2021-05-26 2021-05-26 Speech synthesis to convert text into synthesized speech

Country Status (1)

Country Link
WO (1) WO2022249362A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578995A (en) * 2022-12-07 2023-01-06 北京邮电大学 Speech synthesis method, system and storage medium for speech dialogue scene

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6151236A (en) * 1984-08-20 1986-03-13 Fujitsu Ltd Synthesized voice output device
JPH05165812A (en) * 1991-12-12 1993-07-02 Matsushita Electric Ind Co Ltd Document information processor and method therefor
JPH07191687A (en) * 1993-12-27 1995-07-28 Toshiba Corp Natural language processor and its method
WO2001033549A1 (en) * 1999-11-01 2001-05-10 Matsushita Electric Industrial Co., Ltd. Electronic mail reading device and method, and recorded medium for text conversion
JP2002132282A (en) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd Electronic text reading aloud system
JP2005202552A (en) * 2004-01-14 2005-07-28 Pioneer Electronic Corp Sentence generation device and method
JP2010190955A (en) * 2009-02-16 2010-09-02 Toshiba Corp Voice synthesizer, method, and program
JP2014048443A (en) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Voice synthesis system, voice synthesis method, and voice synthesis program
JP2017211596A (en) * 2016-05-27 2017-11-30 トヨタ自動車株式会社 Speech dialog system and utterance timing determination method
JP2020135567A (en) * 2019-02-21 2020-08-31 日本電信電話株式会社 Synonym extraction device, synonym extraction method, and synonym extraction program
WO2021106069A1 (en) * 2019-11-26 2021-06-03 日本電信電話株式会社 Pause estimation model learning device, pause estimation device, methods therefor, and program

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6151236A (en) * 1984-08-20 1986-03-13 Fujitsu Ltd Synthesized voice output device
JPH05165812A (en) * 1991-12-12 1993-07-02 Matsushita Electric Ind Co Ltd Document information processor and method therefor
JPH07191687A (en) * 1993-12-27 1995-07-28 Toshiba Corp Natural language processor and its method
WO2001033549A1 (en) * 1999-11-01 2001-05-10 Matsushita Electric Industrial Co., Ltd. Electronic mail reading device and method, and recorded medium for text conversion
JP2002132282A (en) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd Electronic text reading aloud system
JP2005202552A (en) * 2004-01-14 2005-07-28 Pioneer Electronic Corp Sentence generation device and method
JP2010190955A (en) * 2009-02-16 2010-09-02 Toshiba Corp Voice synthesizer, method, and program
JP2014048443A (en) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Voice synthesis system, voice synthesis method, and voice synthesis program
JP2017211596A (en) * 2016-05-27 2017-11-30 トヨタ自動車株式会社 Speech dialog system and utterance timing determination method
JP2020135567A (en) * 2019-02-21 2020-08-31 日本電信電話株式会社 Synonym extraction device, synonym extraction method, and synonym extraction program
WO2021106069A1 (en) * 2019-11-26 2021-06-03 日本電信電話株式会社 Pause estimation model learning device, pause estimation device, methods therefor, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578995A (en) * 2022-12-07 2023-01-06 北京邮电大学 Speech synthesis method, system and storage medium for speech dialogue scene
CN115578995B (en) * 2022-12-07 2023-03-24 北京邮电大学 Speech synthesis method, system and storage medium for speech dialogue scene

Similar Documents

Publication Publication Date Title
US8903723B2 (en) Audio synchronization for document narration with user-selected playback
US8364488B2 (en) Voice models for document narration
US8793133B2 (en) Systems and methods document narration
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
RU2692051C1 (en) Method and system for speech synthesis from text
JP2012181358A (en) Text display time determination device, text display system, method, and program
WO2022249362A1 (en) Speech synthesis to convert text into synthesized speech
US20210264812A1 (en) Language learning system and method
Dinkar et al. Fillers in spoken language understanding: Computational and psycholinguistic perspectives
Tsiakoulis et al. Dialogue context sensitive HMM-based speech synthesis
Galibert et al. Ritel: an open-domain, human-computer dialog system.
CN116933806A (en) Concurrent translation system and concurrent translation terminal
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
Dinkar Computational models of disfluencies: fillers and discourse markers in spoken language understanding
González et al. An illustrated methodology for evaluating ASR systems
Zhang Language generation and speech synthesis in dialogues for language learning
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
US20220327294A1 (en) Real-time speech-to-speech generation (rssg) and sign language conversion apparatus, method and a system therefore
Sherstinova et al. Bridging Gaps in Russian Language Processing: AI and Everyday Conversations
Vuppala et al. Outcomes of Speech to Speech Translation for Broadcast Speeches and Crowd Source Based Speech Data Collection Pilot Projects
Marklynn et al. A Framework for Abstractive Summarization of Conversational Meetings
Bahng et al. CAC: Content-Aware Captioning for Professional Online Lectures in Korean Language
Mori et al. A proposal for a voice conversion method using MelGAN-VC and TTS voices for listening practice of second-language learners
Nikulásdóttir et al. LANGUAGE TECHNOLOGY FOR ICELANDIC 2018-2022

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21943013

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21943013

Country of ref document: EP

Kind code of ref document: A1