WO2004066271A1 - 音声合成装置,音声合成方法および音声合成システム - Google Patents

音声合成装置,音声合成方法および音声合成システム Download PDF

Info

Publication number
WO2004066271A1
WO2004066271A1 PCT/JP2003/000402 JP0300402W WO2004066271A1 WO 2004066271 A1 WO2004066271 A1 WO 2004066271A1 JP 0300402 W JP0300402 W JP 0300402W WO 2004066271 A1 WO2004066271 A1 WO 2004066271A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
emphasis
collocation
speech
degree
Prior art date
Application number
PCT/JP2003/000402
Other languages
English (en)
French (fr)
Inventor
Hitoshi Sasaki
Yasushi Yamazaki
Yasuji Ota
Kaori Endo
Nobuyuki Katae
Kazuhiro Watanabe
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2003/000402 priority Critical patent/WO2004066271A1/ja
Priority to JP2004567110A priority patent/JP4038211B2/ja
Publication of WO2004066271A1 publication Critical patent/WO2004066271A1/ja
Priority to US11/063,758 priority patent/US7454345B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • Speech synthesizer speech synthesis method and speech synthesis system
  • the present invention relates to, for example, a speech synthesis technique for reading out an input sentence and outputting a speech, and more particularly to a speech synthesis apparatus suitable for use in a speech synthesis technique for synthesizing a speech that is easy to hear by emphasizing a specific part of the sentence.
  • a speech synthesis method and a speech synthesis system are known in the art.
  • a speech synthesizer reads a text-format file consisting of input character strings, sentences, symbols, numbers, and the like, and reads the file by referring to a dictionary in which a plurality of speech waveform data is converted into a library. It converts character strings into speech, and is used, for example, in software applications for personal computers. Also, a voice emphasis method that emphasizes a specific word (specific word) in a sentence to obtain an auditory natural sound is known.
  • FIG. 13 is a block diagram of a speech synthesizer that does not use prominence (emphasis on a specific part, also called prominence).
  • the speech synthesizer 100 shown in FIG. 13 includes a morphological analysis unit 11, a word dictionary 12, a parameter generation unit 13, a waveform dictionary 14, a pitch cutout / overlapping unit (pitch cutout and (Overlapping section) 15
  • the morphological analyzer 11 analyzes the morpheme (the smallest linguistic unit constituting the sentence or the smallest unit having a meaning in the sentence) of the input sentence mixed with Kanji or Kana by referring to the word dictionary 12, and It determines the type (part of speech), word reading, accent or intonation, and outputs phonetic symbols with prosodic symbols (intermediate language).
  • the text file to which the morphological analysis unit 11 is input is a character string mixed with kanji or kana in the case of Japanese and an alphabet string in the case of English.
  • the generation model of voiced sounds consists of sound sources (vocal cords), articulatory systems (vocal tracts), and radiators (lips), and air from the lungs vibrates the vocal cords.
  • a sound source signal is generated.
  • the vocal tract consists of a part from the vocal cords, and the shape of the vocal tract changes by increasing or decreasing the diameter of the throat, and the sound source signal resonates with a specific shape of the vocal tract. Vowels are generated. Then, based on this generation model, characteristics such as the pitch period described below are defined.
  • the pitch period represents the vibration period of the vocal cords
  • the pitch frequency (also referred to as the fundamental frequency or simply pitch) is the vibration frequency of the vocal cords and is a characteristic relating to the pitch of the voice.
  • An accent is a temporal change in the pitch frequency of a word
  • an accent is a temporal change in the pitch frequency of the entire sentence.
  • a voice synthesized at a fixed pitch frequency without using such information such as accents often becomes a so-called stick reading, in other words, an unnatural sound that is read by a robot. Therefore, the speech synthesizer 100 outputs phonetic symbols with prosody symbols so that a natural pitch change can be generated at a later stage of the processing.
  • An example of the original character string and the intermediate language (pronunciation symbols with prosodic symbols) are as follows.
  • “'” indicates an accent position
  • “%” indicates a voiceless consonant
  • “&” indicates a muddy consonant
  • “” indicates a sentence boundary of a declarative sentence
  • “(full-width space)” indicates a segment break.
  • the intermediate language is output as a character string provided with an accent, intonation, phoneme duration, or pause duration.
  • the word dictionary 12 stores (holds, accumulates, or memorizes) the types of words, word readings, accent positions, and the like in association with each other.
  • the waveform dictionary 14 is composed of the speech waveform data (phoneme waveform or speech segment) of the speech itself and the sound It stores a phoneme label indicating which phoneme is a specific part of the voice, and a pitch mark indicating a pitch period for a voiced sound.
  • the parameter generation unit 13 generates, assigns or sets parameters such as a pitch frequency pattern, a phoneme position, a phoneme duration, a pause duration, and a voice intensity (sound pressure) for the character string. This determines which part of the audio waveform data stored in the waveform dictionary 14 is to be used. These parameters determine the pitch period, the position of phonemes, etc., and provide a natural voice as if a human reads a sentence.
  • the pitch extraction and superposition unit 15 extracts the audio waveform data stored in the waveform dictionary 14 and processes the processed audio waveform data by multiplying the extracted audio waveform data by a window function and the like, and the processed audio waveform data.
  • This section synthesizes the voice by superimposing (overlapping) the section (waveform section) to which it belongs and a part of the audio waveform data belonging to the adjacent section before and after.
  • a PSOLA Pitch-Synchronous Overlap-add
  • Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation "ICASSP '86, pp. 2015-2018, 1986).
  • FIGS. 15 (a) to 15 (d) are diagrams for explaining a method of adding and superimposing waveforms.
  • the PSOLA method as shown in Fig. 15 (a), two cycles of speech waveform data are cut out from the waveform dictionary 14 based on the generated parameters, and then, as shown in Fig. 15 (b). Then, the extracted audio waveform data is multiplied by a window function (for example, a Hanning window) to generate processed audio waveform data. Then, as shown in FIG. 15 (c), the pitch cutout / superimposition unit 15 superimposes and adds the second half of the section before the current section and the first half of the section after the current section. A waveform for one cycle is synthesized by superimposing and adding the second half of the current section and the first half of the subsequent section (see Fig. 15 (d)).
  • a window function for example, a Hanning window
  • Figure 14 is a block diagram of a speech synthesizer using prominence, in which prominence is manually input.
  • the difference between the speech synthesizer 101 shown in FIG. 14 and the speech synthesizer 100 shown in FIG. 13 is that the input / output side of the morphological analyzer 11
  • an emphasis word manual input section 26 is provided which specifies setting data on how much emphasis is made by manual input. It should be noted that components other than the emphasized word manual input unit 26 having the same reference numerals as those described above have the same functions.
  • the parameter generation unit 23 shown in FIG. 14 sets a higher pitch or a longer phoneme length for the part specified in the emphasized word manual input unit 26 than the unemphasized voice part, and Generate parameters for emphasizing words.
  • the parameter generation unit 23 generates a parameter such as increasing the amplitude in the voice part to be emphasized or putting a pause before and after the voice part.
  • Japanese Patent Application Laid-Open No. Hei 5-27792 (hereinafter referred to as “publicly known document 2”), a keyword dictionary (importance dictionary) different from the reading of text sentences is provided to emphasize specific keywords.
  • a voice emphasizing device is disclosed.
  • the speech enhancement device described in the known document 2 uses keyword detection in which speech is input and a feature amount of speech such as a spectrum is extracted based on digital speech waveform data.
  • the speech enhancement device described in the known document 2 does not change the enhancement level in multiple steps but extracts keywords based on speech waveform data. Therefore, operability may still be insufficient. Disclosure of the invention
  • the present invention has been made in view of such a problem, and it is possible to automatically obtain an emphasized portion of a word or a collocation based on an extraction criterion such as an appearance frequency or importance of the emphasized portion of a word or a collocation.
  • An object of the present invention is to provide a speech synthesizer that improves operability by eliminating the time and labor required for manual input of prominence by a user and is easy to hear. For this reason, the speech synthesizer of the present invention extracts each word or compound word to be emphasized among the above words or compound words based on the extraction criterion for each word or compound word contained in the sentence, and extracts each extracted word or compound word.
  • An emphasis level determination unit that determines the emphasis level of the collocation, and an acoustic processing unit that synthesizes a speech in which the emphasis level determined by the emphasis level determination unit is added to each of the words or collocations to be emphasized. It is characterized by having been constituted. Therefore, this makes it possible to eliminate the trouble of manually inputting the settings for the part to be emphasized by the user, and to automatically obtain a synthesized speech that is easy to hear.
  • the emphasis degree determination unit accumulates a reference value for extracting each word or collocation included in the sentence, and stores the reference value aggregated by the aggregation unit and each word or collocation in association with each other.
  • It may be configured to include a holding unit, and a word determination unit that extracts each word or collocation having a high reference value and determines the degree of emphasis for each extracted word or collocation. Then, with a relatively simple configuration, the prominence is automatically determined, and a lot of labor imposed on the user can be saved.
  • the emphasis degree determination unit can determine the emphasis degree based on the following (Q1) to (Q5) as an extraction criterion.
  • the emphasis degree determination unit determines the emphasis degree for each of the above words or collocations at the first occurrence of each of the above words or collocations, and each of the above words or collocations appears after the second time. It can be configured to determine the degree of weak emphasis or non-emphasis at the occurrence. Therefore, in this way, the word is emphasized more strongly at the first occurrence of the word, and the word is emphasized more weakly at the second and subsequent occurrences. High quality audio can be obtained.
  • the present invention differs from the voice emphasis device described in the known document 2 in that it reads text sentences and does not extract keywords from voice waveform data, and does not use keyword extraction and does not use multi-stage emphasis. .
  • the sound processing unit may include a morphological analysis unit that morphologically analyzes a sentence and outputs an intermediate language with a prosodic symbol to a character string of the sentence; and an emphasis level determination unit of the prosodic symbol-attached intermediate language from the morphological analysis unit.
  • Parameter generation unit that generates speech synthesis parameters for each word or collocation determined by the above, and a processed speech waveform obtained by processing speech waveform data at intervals indicated by the speech synthesis parameters generated by the parameter generation unit Pitch cutout that synthesizes the voice with the emphasis added to each word or collocation to be emphasized by superimposing and adding the data and part of the audio waveform data belonging to the waveform section before and after this processed audio waveform data ⁇ It may be configured with a superimposition unit.
  • the speech synthesis apparatus includes a morphological analysis unit that morphologically analyzes a sentence and outputs an intermediate language with a prosodic symbol to a character string of the sentence, and an extraction criterion based on each word or collocation included in the sentence.
  • An emphasis degree determination unit that extracts each word or collocation to be emphasized among the above words or collocations and determines the degree of emphasis for each extracted word or collocation; and which phonemes are the speech waveform data and the speech part.
  • a parameter generation unit that generates a voice synthesis parameter including at least phoneme position data and pitch cycle data; and a processed voice waveform obtained by processing voice waveform data at intervals indicated by the voice synthesis parameters generated by the parameter generation unit.
  • the data and a part of the audio waveform data belonging to the waveform section before and after the processed audio waveform data are superimposed and added to synthesize a speech in which the word or collocation to be emphasized is given an emphasis degree. It is characterized by having a cutout and an overlapping part. Therefore, in this way, the degree of emphasis can be automatically determined.
  • the pitch cutout / superposition unit cuts out the speech waveform data stored in the waveform dictionary based on the pitch period data generated by the parameter generation unit, and multiplies the cutout speech waveform data by a window function.
  • the audio waveform data and a part of the audio waveform data belonging to the waveform section before and after the waveform section to which the processed audio waveform data belongs may be superimposed and added to synthesize the audio. The sense of hearing is corrected, and a natural synthesized voice is obtained.
  • each word or collocation to be emphasized among the above words or collocations is extracted based on the extraction criterion for each word or collocation included in the sentence, and the extracted words or collocations are extracted.
  • An emphasis degree determination unit that determines the emphasis degree of each of the words or collocations of the above-mentioned words or collocations;
  • a holding step to attach and hold, an extraction step to extract each word or collocation having a high reference value held in the holding step, and a degree of emphasis on each word or collocation extracted in the extraction step.
  • this also eliminates the trouble of manually inputting the settings for the part to be emphasized by the user, and provides a synthesized speech that is easy to hear.
  • a speech synthesis system is a speech synthesis system that synthesizes and outputs speech of an input sentence, and includes a morphological analysis unit that morphologically analyzes the sentence and outputs an intermediate language with a prosodic symbol to a character string of the sentence. And each of the above words or collocations to be emphasized based on the extraction criterion for each word or collocation contained in the sentence.
  • a word-level extraction unit that determines the degree of emphasis for each extracted word or collocation, speech waveform data, phoneme position data indicating which phoneme the speech part is, and pitch period data indicating the vocal cord vibration period.
  • a speech synthesis parameter including at least phoneme position data and pitch period data for each word or concatenated word determined by the emphasis degree determination unit in the intermediate language from the morphological analysis unit.
  • Pitch cut-out to superimpose and add a part of the voice waveform data to which it belongs to synthesize a voice in which each word or collocation to be emphasized is given a degree of emphasis It is characterized in that it is configured to include a mating portion.
  • FIG. 1 is a block diagram of a speech synthesizer according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of data in the first shared memory according to one embodiment of the present invention.
  • FIG. 3 is a block diagram of the first emphasis degree determination unit according to the embodiment of the present invention.
  • FIG. 4 is a diagram showing an example of data in the second shared memory according to one embodiment of the present invention.
  • FIG. 5 is a block diagram of the second speech synthesizer according to one embodiment of the present invention.
  • FIG. 6 is a block diagram of the second emphasis degree determining unit according to the embodiment of the present invention.
  • FIG. 7 is a diagram showing an example of data in the third shared memory according to one embodiment of the present invention.
  • FIG. 8 is a block diagram of a third emphasis degree determining unit according to one embodiment of the present invention.
  • FIG. 9 is a diagram showing a data example of the fourth shared memory according to one embodiment of the present invention.
  • FIG. 10 is a block diagram of the fourth emphasis degree determining unit according to the embodiment of the present invention.
  • FIG. 11 is a diagram showing a data example of the fifth shared memory according to one embodiment of the present invention.
  • FIG. 12 is a block diagram of the fifth emphasis degree determining unit according to the embodiment of the present invention.
  • FIG. 13 is a block diagram of a speech synthesizer in which prominence is not used.
  • FIG. 14 is a block diagram of a speech synthesizer using prominence.
  • FIGS. 15 (a) to 15 (d) are diagrams for explaining a method of adding and superimposing waveforms.
  • FIG. 1 is a block diagram of a speech synthesizer according to one embodiment of the present invention.
  • the speech synthesizer 1 shown in FIG. 1 reads an input sentence and synthesizes speech.
  • the input unit 19 is for inputting a sentence mixed with kanji or kana to the sound processing unit 60.
  • the emphasis degree automatic determination unit 36 extracts each of the above words or concatenated words or concatenated words or extracted concatenated words based on the extraction criterion for each word or concatenated word included in the sentence. Alternatively, the degree of emphasis on collocations is determined.
  • the extraction criterion for each word or collocation is a criterion for determining which word or collocation is to be extracted from many input character strings and emphasized.
  • the automatic emphasis level determination unit 36 of the speech synthesis device 1 determines the emphasis level based on the appearance frequency of each of the above words or collocations as an extraction criterion.
  • This extraction criterion can use the importance of a word, a specific proper noun, a specific character type such as katakana, etc., or a criterion based on the occurrence of each word or collocation and the number of occurrences
  • Various extraction criteria can be used, and a speech synthesis method using each extraction criteria will be described later.
  • the speech synthesizers 1a and 1c to le shown in FIG. 1 will be described in other embodiments described later.
  • the sound processing unit 60 synthesizes a voice in which the emphasis level determined by the emphasis level automatic determination unit 36 is added to each word or collocation to be emphasized, and includes a morphological analysis unit 11; Word dictionary 1, Parameter generator 3 3, Waveform dictionary 1, Pitch cutting It is composed of the following.
  • the morphological analysis unit 11 performs morphological analysis of an input sentence containing kanji and kana, and outputs an intermediate language with a prosodic symbol to a character string of the sentence.
  • the morphological analysis unit 11 determines the type of word, word reading, accent or intonation. Each is determined and an intermediate language is output.
  • a character string “Accent is related to the temporal change of pitch.”
  • voice parameters such as accent, intonation, phoneme duration, or pause duration are added.
  • an intermediate language is generated: “a, ku% centepi, chinnojikanteki, nakatokanrenga & a, ru.”.
  • the word dictionary 12 stores word types, word readings, accent positions, and the like in association with each other. Then, the morphological analysis unit 11 searches the word dictionary 12 for the morpheme obtained by the morphological analysis unit 11 itself, and obtains the type of the word, the reading of the word or the accent, and the like. Further, the data stored in the word dictionary 12 can be updated successively, so that speech synthesis can be performed for a wide range of languages.
  • the character string of a sentence containing a mixture of vague characters is divided into words (or collocations) by the analysis of the morphological analysis unit 11, and each of the divided words is provided with the reading of the word and accent, etc. And converted to an accented kana sequence.
  • the parameter generation unit 33 is for generating speech synthesis parameters for each word or collocation determined by the automatic emphasis degree determination unit 36 of the prosodic symbol-added intermediate language from the morphological analysis unit 11. .
  • the parameter generation unit 33 generates speech synthesis parameters from the intermediate language from the morphological analysis unit 11, and at this time, each word or collocation determined by the automatic emphasis degree determination unit 36 is emphasized. This is the voice synthesis parameter.
  • These speech synthesis parameters include pitch frequency pattern, phoneme position, phoneme duration, pause duration before and after the emphasis part, and voice strength. These speech synthesis parameters determine the strength, pitch, intonation or pause of the speech. The insertion time, insertion location, etc. are determined, and a natural sound can be obtained. For example, when reading a paragraph of a sentence, the reader pauses before starting to read, and emphasizes the start, or reads slowly. As a result, the lump included in one sentence is identified and emphasized, and the break point of the sentence becomes clear.
  • the waveform dictionary 14 stores voice waveform data (phoneme waveform or voice segment) of the voice itself, a phoneme label indicating which phoneme is a specific part of the voice, and a pitch mark indicating a pitch period of the voiced sound. To do.
  • the waveform dictionary 14 selects an appropriate part of the audio waveform data in response to an access from the pitch cutout / superposition unit 15 described below, and outputs a speech unit. This determines which part of the audio waveform data in the waveform dictionary 14 is used.
  • the waveform dictionary 1 often holds audio waveform data in the form of PCM (Pulse Coded Modulation) data.
  • the waveform dictionary 12 Since the phoneme waveforms stored in the waveform dictionary 12 differ depending on phonemes (phoneme contexts) located on both sides of the phoneme, those in which the same phoneme is connected to different phoneme contexts are treated as different phoneme waveforms. Therefore, the waveform dictionary 12 holds a large number of phoneme contexts that have been subdivided in advance, and improves the audibility and smoothness of the synthesized speech. In the following description, easiness of hearing means clarity, specifically, the degree of human perception of sound, unless otherwise specified.
  • the pitch cutout / overlapping unit 15 uses, for example, the PSOLA method, cuts out the voice waveform data stored in the waveform dictionary 14 in accordance with the voice synthesis parameters from the parameter generation unit 33, and outputs the cutout voice.
  • the synthesized voice is output by superimposing and adding the processed voice waveform data obtained by multiplying the waveform data by the window function and a part of the processed voice data in the previous and subsequent cycles.
  • the pitch extraction / superposition unit 15 processes the processed speech waveform data obtained by processing the speech waveform data at the intervals indicated by the speech synthesis parameters generated by the parameter generation unit 33, and the processed speech waveform data. Speech in which each word or collocation to be emphasized is given a degree of emphasis by superimposing and adding the-part of the speech waveform data belonging to the preceding and following waveform sections. Are synthesized.
  • the pitch extraction unit 15 cuts out the audio waveform data stored in the waveform dictionary 14, and processes the processed audio waveform data by multiplying the extracted audio waveform data by a window function or the like and the processed audio waveform data. It superimposes and adds a part of the audio waveform data belonging to the previous period before and after the current period to which it belongs, and outputs a synthesized voice. Therefore, the audibility is corrected by this processing, and a natural synthesized voice is obtained. More specifically, the pitch cutout / superposition unit 15 cuts out two cycles of speech waveform data from the waveform dictionary 14 based on the generated parameters, and obtains the waveforms shown in FIGS. 15 (a) to 15 (d).
  • the processed audio waveform data is obtained by multiplying the extracted audio waveform data by a window function (for example, a Hayung window). Then, the pitch cutout / superposition unit 15 generates a composite waveform for one cycle by adding the second half of the previous cycle and the first half of the current cycle, and similarly generates the synthesized waveform for the second half of the current cycle and the second half of the current cycle. The combined waveform is generated by adding the first half of the cycle.
  • a window function for example, a Hayung window
  • the PCM data stored in the waveform dictionary is converted into analog data in a digital / analog conversion unit (not shown), and output as a synthesized voice signal from the pitch cutout / superposition unit 15.
  • the processed audio waveform data multiplied by the window function can be multiplied by a gain for adjusting the amplitude as necessary.
  • the pitch frequency pattern in the PSOLA method uses a pitch mark indicating a cut-out position of a voice waveform, whereby the pitch period is indicated by the pitch mark interval. Further, when the pitch frequency in the waveform dictionary 14 is different from the desired pitch frequency, the pitch cutout / superposition unit 15 converts the pitch.
  • the automatic emphasis level determination section 36 shown in FIG. 1 includes a word appearance frequency totaling section 37, a shared memory (holding section) 39, and a word emphasis level determination section 38.
  • the shared memory 39 holds the appearance frequency counted by the word appearance frequency counting unit 37 and each word or collocation in association with each other.
  • the word emphasis degree determining unit 38, the parameter generating unit 33, and the like implement the function by a referenceable or writable memory.
  • FIG. 2 is a diagram showing an example of data in the first shared memory 39 according to one embodiment of the present invention.
  • the shared memory 39 shown in FIG. 2 stores a word, the frequency of occurrence (the number of times) of the word, and the presence or absence of emphasis in association with each other, and the recordable area (for example, the number of lines) can be reduced. is there.
  • the frequency of the word “temporal” is twice, and even if the word “temporal” appears in the input sentence, it is not necessary to emphasize the word “temporal”. Has been written.
  • the word “accent” appears four times, and if the word “accent” appears in a sentence, it is processed so as to be emphasized.
  • FIG. 3 is a block diagram of the first automatic emphasis degree determination unit 36 according to the embodiment of the present invention.
  • the word appearance frequency counting section 37 of the automatic emphasis degree determination section 36 shown in FIG. 3 includes an emphasis exclusion dictionary 44 and a word appearance frequency counting section of an exclusion word consideration type (hereinafter, a second word appearance frequency counting section). It is configured with 3 7a.
  • the emphasis exclusion dictionary 4 4 excludes emphasis from words or collocations of the input sentence that does not require speech emphasis, and records information on character strings to be excluded. It holds dictionary data.
  • the dictionary data stored in the emphasis exclusion dictionary 44 may be updated as appropriate, and in this case, a process that matches the customer's request can be performed.
  • the second word appearance frequency counting unit 37 a When a character string is input from the input unit 19 (see FIG. 1), the second word appearance frequency counting unit 37 a, regardless of the occurrence frequency, of a specific word included in the input character string , Words that are excluded from those to be emphasized, words that are not excluded are normally tabulated, and the words are associated with frequency information and recorded in the shared memory 39a. Sorting (sorting) And an emphasis word extraction unit 43.
  • the second word appearance frequency counting section 37 a performs linguistic processing on the input character string.
  • the data of the emphasis exclusion dictionary 44 is once searched in advance, and information on the word to be excluded is obtained by the search.
  • the appearance frequency of each word or collocation included in the sentence is used as an extraction criterion, and the word appearance frequency totaling unit 37 totals the appearance frequency.
  • the word emphasis degree determination unit 38 shown in FIG. 3 outputs information about the word to be emphasized in the character string included in the input sentence. It is composed of parts 43. Note that the components shown in FIG. 3 having the same reference numerals as those described above have the same or similar functions, and further description will be omitted.
  • the sorting unit 42 sorts the data in the shared memory 39a based on the frequency of appearance, and outputs the sorted data as a word, and word frequency information in which the appearance order is paired. To do.
  • the sorting unit 42 obtains a plurality of data elements from the shared memory 39a and rearranges the data elements according to the order of words having a higher order by using the appearance order as an axis of the order.
  • words with a high rank are included in the sentence a lot, and are often important words or keywords.
  • the emphasized word extraction unit 43 receives the word-one occurrence order information from the sorting unit 42, and uses the occurrence order information of the pair data as a rearrangement axis, thereby achieving more accurate extraction. It is possible. Further, the emphasized word extraction unit 43 extracts important words or collocations from the character strings included in the input text based on the pair data extracted by the emphasized word extraction unit 43 itself. The extracted word or collocation is output as word information to be emphasized.
  • the shared memory 39a shown in FIG. 3 holds the appearance frequency collected by the second word appearance frequency counting section 37a in association with each word or collocation.
  • FIG. 4 is a diagram showing an example of data in the second shared memory 39a according to one embodiment of the present invention.
  • the shared memory 39a shown in Fig. 4 contains words and their appearance frequencies (number of times). ,
  • the appearance frequency (rank) and the presence or absence of emphasis are stored in association with each other, and a data string of the appearance frequency (rank) is added to the shared memory 39 shown in FIG.
  • the number of rows of table data shown in Fig. 4 can be increased or decreased.
  • the sorting unit 42 sorts the data in the shared memory 39a based on the appearance frequency.
  • the excluded word-considered word appearance frequency counting section 37a counts the appearance frequency (number of times) of each word in the input sentence, and stores the data in the first and second columns of the shared memory 39a.
  • the words described in the emphasis exclusion dictionary 44 are excluded.
  • the sorting unit 42 ranks the words having the highest number of appearances and stores the words in the third column of the shared memory 39a.
  • the emphasized word extraction unit 43 determines, for example, whether or not to emphasize the words up to the third highest number of appearances, and stores the words in the fourth column of the shared memory 39a.
  • the appearance frequency of each word or collocation of the sentence is counted by the word appearance frequency counting section 37, and the counting result is written in the shared memory 39.
  • the word emphasis degree determination unit 38 determines the emphasis degree of each word or collocation based on the result of the aggregation, and writes the determined emphasis degree in the shared memory 39.
  • the parameter generating unit 33 refers to the shared memory 39 and sets the emphasized parameter for the word to be emphasized. For this reason, existing technology can be used without any design change, and the quality of synthesized speech is further improved.
  • the present speech synthesizer 1 can automatically obtain the emphasized portion (word / syllable) based on the appearance frequency of the emphasized portion (word / syllable), and the user can manually set the emphasis portion (word / syllable). The complexity of inputting is eliminated, and synthesized speech that is easy to hear is automatically obtained.
  • the automatic emphasis degree determination unit 36 extracts each word or collocation to be emphasized based on the appearance frequency of each word or collocation in the sentence, and emphasizes each word or collocation. The degree is determined, and in the acoustic processing unit 60, each word or collocation to be emphasized is added with the degree of emphasis determined by the automatic emphasis degree determining unit 36, and a speech is synthesized.
  • the functions of the automatic enhancement degree determination unit 36 and the sound processing unit 60 are separate, but the present invention can be implemented without dividing into these two functions.
  • the speech synthesizer 1 of the present invention includes a morphological analysis unit 11 that morphologically analyzes a sentence and outputs an intermediate language with prosodic symbols to a character string of the sentence, and an appearance frequency of each word or collocation included in the sentence.
  • Automatic emphasis level determination unit 36 which extracts each word or collocation to be emphasized among the above words or collocations based on the above and determines the emphasis level for each extracted word or collocation; speech waveform data and speech
  • the waveform dictionary 14 stores phoneme position data indicating which phoneme is which part and the pitch cycle data indicating the vibration cycle of the vocal cords, and an automatic emphasis degree determination unit of the intermediate language from the morphological analysis unit 11 36
  • a parameter generation unit 33 that generates speech synthesis parameters including phoneme position data and pitch period data for each word or collocation determined in 6 and a speech synthesis parameter generated by the parameter generation unit 33
  • the processing voice waveform data obtained by processing the voice waveform data at the interval indicated by the meter and a part of the voice waveform data belonging to the waveform section before and after the processed voice waveform data are superimposed and added to emphasize the above. It is composed of a pitch cutout / superposition unit 15 for synthesizing a speech in which emphasis is given to each power word or collocation. This makes it possible to automatically
  • a speech synthesis system 1 that disperses and arranges each function and synthesizes and outputs speech of an input sentence.
  • the speech synthesis system 1 of the present invention includes a morphological analysis unit 11 that morphologically analyzes a sentence and outputs an intermediate language with a prosodic symbol to a character string of the sentence.
  • a morphological analysis unit 11 that morphologically analyzes a sentence and outputs an intermediate language with a prosodic symbol to a character string of the sentence.
  • the emphasis level automatic determination unit 36 which determines the degree of emphasis for each of the extracted words or collocations
  • Waveform dictionary 1 that stores phoneme position data indicating which phoneme the part is and pitch cycle data indicating the vibration cycle of the vocal cords 1 4 and voice synthesis parameters including phoneme position data and pitch period data are generated for each word or collocation determined by the automatic emphasis degree determination unit 36 of the intermediate language from the morphological analysis unit 11 1.
  • a parameter generator 33 processed voice waveform data obtained by processing voice waveform data at intervals indicated by the voice synthesis parameters generated by the parameter generator 33, and waveforms before and after the processed voice waveform data It is composed of a pitch cutout / superposition unit 15 that superimposes and adds a part of the speech waveform data belonging to the section to synthesize a speech in which the above words or collocations to be emphasized are added with a degree of emphasis. is there.
  • the voice synthesis system 1 can transmit and receive data or signals via a communication line by remotely arranging each function and adding a data transmitting / receiving circuit (not shown) to each function. Thereby, each function can be exhibited.
  • a communication line by remotely arranging each function and adding a data transmitting / receiving circuit (not shown) to each function.
  • each function can be exhibited.
  • the words to be emphasized among the above words or collocations are extracted and extracted based on the extraction criterion such as the frequency of appearance of each word or collocation included in the sentence.
  • the automatic degree-of-emphasis determining unit 36 that determines the degree of emphasis for each word or collocation tallies the reference values for the extraction of each word or collocation (aggregation step).
  • the shared memory 39 stores the reference value totalized in the totalizing step and each of the above words or collocations in association with each other (holding step). Then, the word consideration determining unit 38 extracts each word or collocation having a high reference value retained in the retaining step (extraction step), and determines the degree of emphasis for each word or collocation extracted in the extraction step. Decide (word decision step). Then, a voice in which the emphasis degree determined in the word determination step is added to each word or collocation to be emphasized is synthesized (voice synthesis step). Therefore, it is possible to make settings for the part that the user emphasizes.
  • the word frequency counting section 37 (see FIG. 1) stores a specific word or collocation for counting the frequency of occurrence in the shared memory 39 in advance.
  • the threshold value of the appearance frequency is written in advance.
  • the word frequency counting section 37 receives a text sentence containing a sentence mixed with kanji or kana. Then, the frequency of occurrence of a specific word or collocation is extracted from a large number of character strings included in the text sentence, and the frequency of occurrence of the extracted words is paired to form the first column of the shared memory 39. (Word) and the second column (frequency of appearance). As a result, the appearance frequencies of specific words included in many character strings are tabulated.
  • the word emphasis degree determination unit 38 reads out the appearance frequency of each word from the shared memory 39, determines whether or not each word is emphasized, and determines whether or not each word is emphasized in the third word corresponding to the determined word. Stored in a column (with or without emphasis).
  • the word emphasis degree determination unit 38 sets a threshold value for determining the presence / absence of this emphasis to, for example, three times. Thus, when the frequency of the word “temporal” occurs twice, the word emphasis determining unit 38 records “no emphasis” in the shared memory 39 as “none”, and When the frequency of appearance is four, the word emphasis degree determination unit 38 records “presence or absence of emphasis” in the shared memory 39.
  • the parameter generation unit 33 shown in FIG. 1 reads the third column of the shared memory 39 for each word or collocation, generates a parameter in the case of "emphasized”, and cuts out and superimposes the parameter in pitch. Output to matching unit 15.
  • the pitch extraction / superposition unit 15 extracts the audio waveform data stored in the waveform dictionary 14, and processes the processed audio waveform data by multiplying the extracted audio waveform data by a window function and the like, and the processed audio waveform data.
  • the speech is synthesized by superimposing and adding the section to which it belongs (waveform section) and a part of the speech waveform data belonging to the adjacent preceding and following sections.
  • the output synthesized voice is amplified in an amplifier circuit (not shown) or the like, and a sound is output from a speaker (not shown) and arrives at the user.
  • the speech synthesizer 1 can automatically obtain the emphasized portion of the word or the collocation based on the appearance frequency of the emphasized portion of each word or the collocation.
  • the operability can be improved by eliminating the time and effort required for the user to manually input the prominence, and a composition that is easy to hear can be obtained.
  • FIG. 5 is a block diagram of the second speech synthesizer according to one embodiment of the present invention.
  • the speech synthesizer 1a shown in FIG. 5 reads out an input sentence and synthesizes speech, and includes an automatic emphasis degree determination section 50, an input section 19, and an acoustic processing section 60. It is configured with the following.
  • the emphasis degree automatic determination unit 50 extracts and extracts each word or collocation to be emphasized among the above words or collocations based on the appearance frequency of each word or collocation included in the sentence. Alternatively, the degree of emphasis on collocations is determined.
  • the sound processing section 60 synthesizes a speech in which the emphasis level determined by the emphasis level automatic determination section 50 is added to each word or collocation to be emphasized.
  • FIG. 6 is a block diagram of the second emphasis degree automatic determination section 50 according to an embodiment of the present invention.
  • the automatic emphasis degree determining section 50 shown in FIG. 6 includes an appearance number totaling section 56, an emphasis position determining section 57, and a shared memory 55.
  • the appearance frequency totaling unit 56 extracts the extracted words and / or collocations of each of the above-mentioned words or collocations based on the extraction criterion for each of the words or collocations contained in the sentence.
  • it is for determining the degree of emphasis on collocations, and includes an emphasis exclusion dictionary 54 and an exclusion word-considered word appearance frequency counting section 51.
  • the emphasis exclusion dictionary 54 excludes emphasis from words or collocations of the input sentence that do not require speech emphasis, and is dictionary data in which information on character strings to be excluded is recorded. Is held.
  • the excluded word-considered word appearance frequency counting section 51 counts the number of words or collocations included in a sentence.
  • the excluded word-considered word appearance frequency counting section 51 searches the emphasized exclusion dictionary 54 for the input character string, and determines whether the input word is a word or a collocation to be counted, or an excluded word that does not need to be counted ( Or an excluded collocation), and detailed information such as the number of appearances and the appearance position of each word or collocation is sequentially recorded in the shared memory 55.
  • FIG. 7 is a diagram showing an example of data in the third shared memory 55 according to one embodiment of the present invention.
  • a column indicating the number of occurrences of the word “temporal” a column indicating the occurrence position by the number of words, and the word “temporal” are emphasized.
  • Data on the column indicating whether or not to Alternatively, information on the weak emphasis position is stored in association with each other. For example, the word
  • Temporal means that the number of appearances is 2, and the appearance position is 2 1 or 4 2 means that the word “temporal” appears twice, and the first appearance position is the position where the first word appears. Represents the first or fourth position from
  • the automatic emphasis level determination unit 50 strongly emphasizes the word “accent” at the first appearance point 15 where the word “accent” first appears, and also extracts the words “accent” 2nd and 3rd.
  • the emphasis degree automatic determination unit 50 determines the emphasis degree based on the appearance location of each word or collocation and the number of appearance locations. Or, at the first occurrence of a collocation, determine the emphasis for each of the above words or collocations, and at the location where each of the above words or collocations appears the second time or later, determine the degree of weak emphasis or decide not to emphasize I do.
  • the number-of-occurrence counting section 56 (see FIG. 6) thereby obtains information on the number of occurrences, the frequency of occurrence, and the information on the presence or absence of emphasis in the data on each word or collocation stored in the shared memory 55. Based on each of them, pair data of the appearance frequency-position information is extracted and input to the emphasis position determination unit 57 (see FIG. 6).
  • the emphasis position determination unit 57 shown in FIG. 6 includes an emphasis word extraction unit 43 that writes the words or collocations that appear a predetermined number of times in the shared memory 55, and, for example, the first appearance of the emphasis word is stronger.
  • Emphasis point extraction unit 5 that stores information related to fine emphasis that emphasizes and emphasizes weaker in the second and subsequent times in the fifth and sixth columns of shared memory 5 5 It is composed with three.
  • the automatic emphasis degree determination unit 50 shown in FIG. 6 calculates the appearance frequency (total number) of each word of the input sentence in the word appearance frequency collection unit 51, and The number of the word is stored in the first to third columns of the shared memory 55 as the number of words.
  • the automatic emphasis degree determination section 50 excludes words registered in the emphasis exclusion dictionary 54.
  • the reason why the emphasis exclusion dictionary 54 is used is to prevent emphasis on words that appear to be insignificant even if they appear frequently.
  • adjuncts such as particles and auxiliary verbs
  • demonstrative pronouns such as “that” and “that”
  • formal nouns such as “koto”, “tokoro” and “toki”, “aru”, “do”, “become”
  • the emphasized word extraction unit 43 writes, for example, a word that appears three or more times in the fourth column of the shared memory 55 as an emphasized word.
  • the emphasized portion extraction unit 53 stores the words to be emphasized in the fifth and sixth columns of the shared memory 55 so that, for example, the first appearance is emphasized more strongly, and the second and subsequent words are emphasized more weakly. I do.
  • the parameter generation unit 33 (see FIG. 1) generates parameters that emphasize the words at the searched position stronger or weaker with reference to the fifth and sixth columns of the shared memory 55. I do.
  • the automatic emphasis degree determination unit 50 emphasizes the first occurrence of the word more strongly, and sets a weaker emphasis or no emphasis after the second time, so that the same emphasis is repeated and voiced with the same emphasis. It is possible to prevent the occurrence of a sense of redundancy that is heard when the sound is performed.
  • the voice synthesizing device is provided with a word storage unit that records the importance of each word or collocation, and emphasizes the word or collocation in multiple stages according to the degree of importance.
  • the schematic configuration of the speech synthesizer 1c in the third embodiment is the same as the configuration of the speech synthesizer 1 shown in FIG.
  • FIG. 8 is a block diagram of the third degree-of-emphasis automatic determination unit according to the embodiment of the present invention.
  • the automatic emphasis level determination section 69 shown in FIG. 8 includes an importance level output section 65, an emphasis word extraction section 43, and a shared memory 64.
  • This importance output section 65 assigns multi-level importance to each word or collocation and outputs word-single importance pair data.
  • a word importance collating unit for obtaining multi-level importance information by referring to the importance dictionary 63 for each word or collocation included in the input sentence. 6 and 1 are configured.
  • the emphasized word extraction unit 43 is the same as that described above. Note that the importance dictionary 63 may be configured so that it can be customized by the user.
  • FIG. 9 is a diagram showing a data example of the fourth shared memory 64 according to one embodiment of the present invention.
  • the shared memory 64 shown in FIG. 9 stores each word and the importance (emphasis level) of each word in association with each other.
  • the number of rows of the shared memory 64 can be increased or decreased. For example, the word “temporal” has an emphasis level of “none”, and the word “axent” has an emphasis level of “strong”.
  • the automatic emphasis level determination unit 60 determines the emphasis level in multiple steps based on the importance assigned to a specific word or collocation of each of the above words or collocations as an extraction criterion. ing.
  • the speech synthesizer 1c of the present invention reads out a text sentence, does not extract a keyword from the input speech waveform data, and can determine the degree of emphasis using multiple levels.
  • the word importance collation unit 61 acquires the multi-level importance of each word included in the input text by referring to the importance dictionary 63, and according to the acquired importance, The emphasis degree is stored in the shared memory 64.
  • the emphasized word extraction unit 43 outputs the stored emphasis degree to the parameter generation unit 33 (see FIG. 1).
  • the speech synthesis device is provided with a part-of-speech analysis function capable of analyzing the part of speech of a word, thereby emphasizing proper nouns.
  • the schematic configuration of the voice synthesizer 1d according to the fourth embodiment is the same as the configuration of the voice synthesizer 1 shown in FIG.
  • FIG. 10 is a block diagram of the fourth automatic emphasis degree determination unit according to the embodiment of the present invention.
  • the automatic emphasis degree determination section 70 shown in FIG. 10 includes a shared memory 74, a proper noun selection section 72, and an emphasis word extraction section 43.
  • the shared memory 74 holds a correspondence relationship between each word or collocation and “with emphasis” with respect to proper nouns among these words or collocations.
  • FIG. 11 is a diagram showing an example of data in the fifth shared memory 74 according to an embodiment of the present invention.
  • the shared memory 74 shown in FIG. 11 includes the words “temporal” and “accent”. For example, the correspondence that the emphasis is required for the proper noun “Alps” is stored.
  • the number of rows of the shared memory 74 can be increased or decreased.
  • the proper noun selection unit 72 includes a proper noun dictionary 73 and a proper noun determination unit 71.
  • the proper noun dictionary 73 holds the part of speech of each word or collocation, and the proper noun determination unit 71 determines whether each word or collocation included in the input character string is a proper noun. This is determined by comparing each word or collocation with the proper noun dictionary 73.
  • the proper noun judging unit 71 writes “emphasized” to the shared memory 74 when each word is a proper noun, and writes “no emphasis” to each shared memory 74 when each word is not a fixed name. Then, the emphasized word extraction unit 43 outputs the presence / absence of emphasis stored in the shared memory 74 to the parameter generation unit 33.
  • the automatic emphasis degree determination unit 70 determines the emphasis degree based on a specific fixed name included in the sentence as the extraction criterion.
  • the proper noun determination unit 71 reads out each word or word included in the sentence. Each collocation is referred to the proper noun dictionary 73 to determine whether or not the collocation is a fixed name. If the determination result is a proper noun, the proper noun determination unit 71 outputs proper noun information (information indicating that the word is a proper noun) and outputs The key word extraction unit 43 emphasizes the word. If the determination result is not a proper noun, the proper noun determination unit 71 does not output proper noun information.
  • the proper noun determination unit 71 keeps recording each determination result in the shared memory 74 until the input of the character string stops. Therefore, the shared memory 74 records data regarding the presence or absence of emphasis for a large number of words or collocations.
  • the speech synthesizer can synthesize speech that is easy to hear as a whole sentence.
  • the voice synthesizing device emphasizes each word or collocation in katakana, for example, among the character types.
  • the schematic configuration of the speech synthesis device 1e according to the fifth embodiment is the same as the configuration of the speech synthesis device 1 shown in FIG.
  • FIG. 12 is a block diagram of a fifth automatic degree-of-emphasis determining unit according to an embodiment of the present invention.
  • the automatic emphasis degree determination section 80 shown in FIG. 12 includes a katakana word selection section 84 and an emphasis word extraction section 43.
  • the katakana selection unit 84 refers to the katakana dictionary 83 holding katakana characters and the katakana dictionary 83 to determine whether each input word or collocation is katakana. It is to judge.
  • the katakana dictionary 83 can be provided in the proper noun dictionary 73 (see FIG. 10).
  • the automatic emphasis degree determination unit 80 can determine the emphasis degree based on various character types such as katakana, alphabets, or Greek characters included in a sentence as an extraction criterion.
  • each word or collocation included in the input sentence is judged by the Katakana word judging unit 81 whether or not it is written in katakana, and in the case of katakana, katakana information (input character string Is output to indicate that is represented in katakana. Then, if the character is katakana information, the emphasized word extraction unit 43 emphasizes the word, and otherwise outputs the word as it is.
  • the prosody symbol in the middle lightning word is an example, and it goes without saying that the present invention can be implemented in various modified forms. Further, even if the type of the parameter, the format of storing the data stored in the shared memory, the storage location of the data, or the processing method of each data itself is modified, it does not impair the superiority of the present invention at all. Not even.
  • the speech synthesizing apparatus of the present invention it is possible to solve the problem that it is necessary to manually input parameters such as the magnitude of emphasis each time a part where the user designates emphasis appears, and to emphasize words or collocations. It is possible to automatically obtain emphasized parts of words or collocations based on extraction criteria such as the appearance frequency and importance of parts. Furthermore, the operability is improved by a simple configuration, the degree of emphasis can be automatically determined, and an easy-to-hear speech synthesizer can be obtained. Each device in the field of using can use the date of the present invention. Thus, operability can be improved in various fields such as expression, safety, security, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

音声合成技術に関し、文章の特定部又は特定部分を強調することにより聞き取りやすい音声を得る技術を提供する。かかる音声合成装置1が、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部36と、上記の強調すべき各単語又は連語に強調度自動決定部36にて決定された強調度を付与した音声を合成する音響処理部60とをそなえて構成することにより、各単語又は連語の強調部分の出現頻度,重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができ、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上し、聞き取りやすい音声合成装置,音声合成方法および音声合成システムを提供する。

Description

音声合成装置, 音声合成方法および音声合成システム 技術分野
本発明は、 例えば入力された文章を読み上げて音声を出力する音声合成技術に 関し、 特に、 文章の特定部分の強調により聞き取りやすい音声を合成する音声合 成技術に用いて好適な、 音声合成装置, 音声合成方法および音声合成システムに 関する。
明 田
背景技術
一般に、 音声合成装置は、 入力された文字, 文章, 記号および数字等の文字列 からなるテキスト形式のファイルを読み出して、 複数の音声波形データをライブ ラリ化した辞書を参照することにより、 読み出した文字列を音声に変換するもの であり、 例えば、 パーソナルコンピュータのソフトウェアアプリケーションに用 いられている。また、聴覚的に自然な音声を得るために、文章中の特定の語句(特 定語) を強調する音声強調方法が知られている。
図 1 3はプロミネンス (特定部分を強調すること。卓立とも称する。) が使用さ れていない音声合成装置のプロック図である。 この図 1 3に示す音声合成装置 1 0 0は、 形態素解析部 1 1と、 単語辞書 1 2と、 パラメータ生成部 1 3と、 波形 辞書 1 4と、 ピッチ切り出し ·重ね合わせ部 (ピッチ切り出しおよび重ね合わせ 部) 1 5とをそなえて構成されている。
形態素解析部 1 1は、 入力された漢字かな混じり文章について、 単語辞書 1 2 を参照して形態素 (文章を構成する最小の言語単位又は文章中において意味をも つ最小単位) を解析し、 単語の種類 (品詞の区分), 単語の読み, アクセント又は イントネーションをそれぞれ決定し、 韻律記号付き発音記号 (中間言語) を出力 するものである。この形態素解析部 1 1が入力されるテキスト形式のファイルは、 日本語の場合は漢字かな混じりの文字列であり、 英語の場合はアルファべット列 である。 よく知られているように、 有声音 (特に母音) の生成モデルは、 音源 (声帯), 調音系 (声道) および放射口 (唇) からなり、 肺からの空気が声帯を振動させる ことにより音源信号が発生する。また、声道とは、声帯からのどの部分からなり、 のどの径を太く又は細くすることにより声道の形状が変化し、 音源信号が声道の 特定の形状に共鳴することにより、 複数の母音が生成される。 そして、 この生成 モデルに基づいて、 以下に述べるピッチ周期等の特性が定義される。
ここで、 ピッチ周期とは声帯の振動周期を表し、 ピッチ周波数 (基本周波数又 は単にピッチとも称する。)とは声帯の振動周波数であって声の高さに関する特性 である。 また、 アクセントとは、 単語のピッチ周波数の時間的な変化であり、 ィ ントネ一シヨンとは、 文章全体のピッチ周波数の時間変化であり、 これらのァク セントおよびイントネーションは、 物理的には、 ピッチ周波数の時間的変化パタ ーンと密接に関係している。 具体的には、 アクセント位置でピッチ周波数は高く なり、 イントネーションが上がるとピッチ周波数が高くなる。
これらのアクセント等の情報が使用されずに、 例えば一定のピッチ周波数で合 成された音声は、 いわゆる棒読み、 換言すれば、 ロボットが読むような聴覚的に 不自然な音声になることが多い。 このため、 音声合成装置 1 0 0は、 処理の後段 において自然なピッチ変化を生成できるように、 韻律記号付き発音記号を出力す る。 元の文字列および中間言語 (韻律記号付き発音記号) の一例は、 次のように なる。
文字列: 「アクセントはピッチの時間的変化と関連がある。」
中間言語:「ァ ' ク0 /0セントヮ ピ, ッチノ ジカンテキ へ, ンカト カンレ ンガ &ァ' ル.」
ここで、 「'」 はアクセント位置、 「%」 は無声子音、 「&」 は鼻濁音、 」 は平 叙文の文境界および 「(全角スペース)」 は文節の区切りをそれぞれ表す。
すなわち、 中間言語は、 ァクセント, イントネーション, 音素継続時間又はポ ーズ継続時間等を付与された文字列として出力される。
単語辞書 1 2は、 単語の種類, 単語の読みおよびアクセントの位置等を対応付 けて格納 (保持, 蓄積又は記憶) するものである。
波形辞書 1 4は、 音声自体の音声波形データ (音素波形又は音声素片) と、 音 声の特定部分がどの音素かを示す音素ラベルと、 有声音についてピッチ周期を示 すピッチマークとを格納するものである。
パラメータ生成部 1 3は、 文字列について、 ピッチ周波数のパターン, 音素の 位置, 音素継続時間, ポーズ継続時間おょぴ音声の強さ (音圧) 等のパラメータ を生成, 付与又は設定し、 また、 波形辞書 1 4に格納された音声波形データのう ちのどの部分の音声波形データを使用するか否かを決定するものである。 このパ ラメータにより、 ピッチ周期, 音素の位置等が決定し、 人間が文章を読むような 自然な音声が得られる。
ピッチ切り出し ·重ね合わせ部 1 5は、 波形辞書 1 4に格納された音声波形デ ータを切り出し、 その切り出した音声波形データに窓関数等を乗じた処理音声波 形データとこの処理音声波形データが属する区間 (波形区間) と隣接する前後の 区間に属する音声波形データの一部とを重畳 (オーバーラップ) させて加算し音 声を合成するものである。このピツチ切り出し ·重ね合わせ部 1 5の処理方法は、 例えば P S O L A (Pitch-Synchronous Overlap-add :波形の加算重畳によるピ ツチ変換方法)法が用いられている("Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation" ICASSP '86, pp.2015-2018, 1986参照)。
図 1 5 ( a ) 〜図 1 5 ( d ) はそれぞれ波形の加算重畳方法を説明するための 図である。 P S O L A法は、 図 1 5 ( a ) に示すように、 生成されたパラメータ に基づいて波形辞書 1 4から 2周期分の音声波形データを切り出し、 次に、 図 1 5 ( b ) に示すように、 その切り出した音声波形データに、 窓関数 (例えばハニ ング窓) を乗じて処理音声波形データを生成する。 そして、 図 1 5 ( c ) に示す ように、 ピッチ切り出し ·重ね合わせ部 1 5は、 現区間の前の区間の後半部分と 現区間の後の区間の前半部分とを重畳加算し、 また、 現区間の後半部分と後区間 の前半部分とを重畳加算することにより 1周期分の波形を合成する(図 1 5 ( d ) 参照)。
以上の説明は、 プロミネンスが使用されていない場合の合成である。
次に、 図 1 4を参照してプロミネンスが使用される場合の合成を説明する。 プロミネンスを使用してユーザの指定した単語等の特定部分を強調する音声合 成装置も種々提案されている (例えば、 特開平 5— 2 2 4 6 8 9号公報 [以下、 公知文献 1と称する。] 参照)。
図 1 4はプロミネンスが使用される音声合成装置のプロック図であり、 プロミ ネンスが手動により入力されるものである。 この図 1 4に示す音声合成装置 1 0 1と図 1 3に示す音声合成装置 1 0 0との相違点は、 形態素解析部 1 1の入出力 側に、 入力された文章のうちのどの部分をどの程度強調するかについての設定デ ータを手動入力により指定する強調単語手動入力部 2 6が設けられている点であ る。 なお、 強調単語手動入力部 2 6以外のもので上述したものと同一符号を有す るものは同一機能を有する。
そして、 図 1 4に示すパラメータ生成部 2 3は、 強調単語手動入力部 2 6にお いて指定された部分について、 強調されていない音声部分よりも高いピッチ又は 長い音素長を設定し、特定の単語を強調するためのパラメータを生成する。また、 パラメータ生成部 2 3は、 強調する音声部分において振幅を大きくし、 又はその 音声部分の前後にポーズを入れる等のパラメータを生成する。
さらに、 従来から、 音声強調方法については、 多数、 提案されている。
例えば、 プロミネンスを使用する別の合成方法は、 特開平 5— 8 0 7 9 1号公 報等に開示されている。
さらに、 特開平 5— 2 7 7 9 2号公報 (以下、 公知文献 2と称する。) には、 テ キスト文章の読み上げとは異なるキーワード辞書 (重要度辞書) を設けて、 特定 のキーワードを強調する音声強調装置が開示されている。 この公知文献 2記載の 音声強調装置は、 音声を入力としディジタル音声波形データに基づいて、 スぺク トル等の音声の特徴量を抽出したキーヮード検出を用いたものである。
しかしながら、 公知文献 1記載の強調方法を用いる場合、 ユーザは、 強調する 部分が現れる都度、 プロミネンスを手動で入力しなければならず、 操作が煩雑と いう課題がある。
さらに、 公知文献 2記載の音声強調装置は、 多段階に強調レベルを変更するも のではなく、 音声波形データに基づくキーワード抽出を行なうものである。 従つ て、 やはり、 操作性が不足する可能性がある。 発明の開示
本発明は、 このような課題に鑑み創案されたもので、 単語又は連語の強調部分 の出現頻度, 重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を 得ることができ、 ユーザによるプロミネンスの手動入力に要する手間を省いて操 作性を向上し、 聞き取りやすい音声合成装置を提供することを目的とする。 このため、 本発明の音声合成装置は、 文章に含まれる各単語又は連語について の抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語 を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、 上記の強調すべき各単語又は連語に強調度決定部にて決定された強調度を付与し た音声を合成する音響処理部とをそなえて構成されたことを特徴としている。 従って、 このようにすれば、 ユーザが強調する部分についての設定を手動入力 する煩雑さが解消され、 かつ聞き取りやすい合成音声が自動的に得られる。 また、 強調度決定部は、 文章に含まれる各単語又は連語の抽出に関する基準値 を集計する集計部と、 集計部にて集計された基準値と各単語又は連語とを対応付 けて保持する保持部と、 保持部に保持された基準値が高い各単語又は連語を抽出 し抽出した各単語又は連語についての強調度を決定する単語決定部とをそなえて 構成されてもよく、 このようにすれば、 比較的簡素な構成により、 プロミネンス が自動的に決定され、 ユーザに課せられる多数の手間が省略できる。
この強調度決定部は、 抽出基準として、 以下の (Q 1 ) 〜 (Q 5 ) に基づいて 強調度を決定することができる。
(Q 1 ) 上記の各単語又は連語の出現頻度に基づく強調度の決定。 このように すれば、 やはり、 強調度を自動的に決定できる。
(Q 2 ) 文章に含まれる特定の固有名詞に基づく強調度の決定。 このようにす れば、 固有名詞を強調することにより全体として聞き取りやすい合成音声の生成 を期待できる。
(Q 3 ) 文章に含まれる文字種別に基づく強調度の決定。 このようにすれば、 例えば力タ力ナ語を強調することにより、 文章全体として聞き取りやすい合成音 声の生成を期待できる。
(Q 4 ) 上記の各単語又は連語の出現箇所と出現箇所の回数とに基づく強調度 の決定。 具体的には、 強調度決定部は、 上記の各単語又は連語の最初の出現箇所 においては上記の各単語又は連語についての強調度を決定し、 上記の各単語又は 連語が 2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を 決定するように構成することができる。 従って、 このようにすれば、 単語の 1回 目の出現箇所においてはその単語を強めに強調し、 また、 2回目以降の出現箇所 においてはその単語を弱めに強調するので、 冗長にならず、 高い品質の音声を得 られる。
(Q 5 ) 上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度 に基づく強調度の多段階の決定。従って、このようにすれば、強調すべき単語を、 その強調すべきレベルに応じて確実に強調できる。 さらに、 本発明は、 テキスト 文章を読むものであり音声波形データからキーワードを抽出するものではない点 で、 キーヮード抽出を用いずに多段階強調を用いていない公知文献 2記載の音声 強調装置と異なる。
また、 前記音響処理部は、 文章を形態素解析して文章の文字列に韻律記号付き 中間言語を出力する形態素解析部と、 形態素解析部からの韻律記号付き中間言語 のうちの強調度決定部にて決定された各単語又は連語についての音声合成パラメ ータを生成するパラメータ生成部と、 パラメータ生成部にて生成された音声合成 パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、 この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを 重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成す るピッチ切り出し ·重ね合わせ部とをそなえて構成されてもよく、 このようにす れば、設計変更せずに、既存の技術を利用でき、一層合成音声の品質が向上する。 そして、 本発明の音声合成装置は、 文章を形態素解析して文章の文字列に韻律 記号付き中間言語を出力する形態素解析部と、 文章に含まれる各単語又は連語に ついての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又 は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定 部と、 音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の 振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、 形態素解析 部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について 少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを 生成するパラメータ生成部と、 パラメータ生成部にて生成された音声合成パラメ ータが示す間隔の音声波形データを処理して得た処理音声波形データと、 この処 理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加 算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッ チ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴としている。 従つ て、 このようにすれば、 やはり、 自動的に強調度を決定できる。
前記ピッチ切り出し ·重ね合わせ部は、 波形辞書に格納された音声波形データ を、 パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してそ の切り出した音声波形データに窓関数を乗じた処理音声波形データと、 この処理 音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの 一部とを重畳加算し音声を合成するように構成されてもよく、このようにすれば、 聴感が補正され、 自然な合成音声が得られる。
本発明の音声合成方法は、 文章に含まれる各単語又は連語についての抽出基準 に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽 出した各単語又は連語についての強調度を決定する強調度決定部が、 上記の各単 語又は連語の抽出に関する基準値を集計する集計ステップと、 集計ステップにて 集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップ と、 保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステ ップと、 抽出ステップにて抽出された各単語又は連語についての強調度を決定す る単語決定ステップと、 上記の強調すべき各単語又は連語に単語決定ステツプに て決定された強調度を付与した音声を合成する音声合成ステップとをそなえて構 成されたことを特徴としている。
従って、 このようにすれば、 やはり、 ユーザが強調する部分についての設定を 手動入力する煩雑さが解消され、 かつ聞きやすい合成音声が得られる。
本発明の音声合成システムは、 入力された文章についての音声を合成して出力 する音声合成システムであって、 文章を形態素解析して文章の文字列に韻律記号 付き中間言語を出力する形態素解析部と、 文章に含まれる各単語又は連語につい ての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連 語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、 音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周 期を表すピッチ周期データとをそれぞれ格納する波形辞書と、 形態素解析部から の中間言語のうちの強調度決定部にて決定された各単語又は連語について少なく とも音素位置データおよぴピッチ周期データを含む音声合成パラメータを生成す るパラメータ生成部と、 パラメータ生成部にて生成された音声合成パラメータが 示す間隔の音声波形データを処理して得た処理音声波形データと、 この処理音声 波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して 上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り 出し ·重ね合わせ部とをそなえて構成されたことを特徴としている。
従って、 このようにすれば、 音声合成システムは、 各機能を遠隔配置し、 各機 能にデータ送受信回路を付与することにより、 通信回線を介して、 データ又は信 号を送受信でき、 これにより、 各機能を発揮させることができる。 図面の簡単な説明 図 1は本発明の一実施形態に係る音声合成装置のプロック図である。
図 2は本発明の一実施形態に係る第 1の共有メモリのデータ例を示す図である。 図 3は本発明の一実施形態に係る第 1の強調度決定部のプロック図である。 図 4は本発明の一実施形態に係る第 2の共有メモリのデータ例を示す図である。 図 5は本発明の一実施形態に係る第 2の音声合成装置のプロック図である。 図 6は本発明の一実施形態に係る第 2の強調度決定部のプロック図である。 図 7は本発明の一実施形態に係る第 3の共有メモリのデータ例を示す図である。 図 8は本発明の一実施形態に係る第 3の強調度決定部のブロック図である。 図 9は本発明の一実施形態に係る第 4の共有メモリのデータ例を示す図である。 図 1 0は本発明の一実施形態に係る第 4の強調度決定部のプロック図である。 図 1 1は本発明の一実施形態に係る第 5の共有メモリのデータ例を示す図であ る。
図 1 2は本発明の一実施形態に係る第 5の強調度決定部のプロック図である。 図 1 3はプロミネンスが使用されていない音声合成装置のプロック図である。 図 1 4はプロミネンスが使用される音声合成装置のプロック図である。
図 1 5 ( a ) 〜図 1 5 ( d ) はそれぞれ波形の加算重畳方法を説明するための 図である。 発明を実施するための最良の形態
(A) 本発明の一実施形態の説明
図 1は本発明の一実施形態に係る音声合成装置のブロック図である。 この図 1 に示す音声合成装置 1は、 入力された文章を読み出して音声を合成するものであ つて、 入力部 1 9と、 強調度自動決定部 (強調度決定部) 3 6と、 音響処理部 6 0とをそなえて構成されている。 ここで、 入力部 1 9は、 漢字かな混じりの文章 を音響処理部 6 0に入力するものである。
また、 強調度自動決定部 3 6は、 文章に含まれる各単語又は連語についての抽 出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽 出し抽出した各単語又は連語についての強調度を決定するものである。
ここで、 各単語又は連語についての抽出基準とは、 入力された多数の文字列か ら、 どの単語又は連語を抽出して強調するかを決定するための基準である。 以下 に述べる第 1の態様における音声合成装置 1の強調度自動決定部 3 6は、 抽出基 準として、 上記の各単語又は連語の出現頻度に基づいて強調度を決定するように なっている。 また、 この抽出基準は、 単語の重要度, 特定の固有名詞, カタカナ のような特定の文字種別等を用いることができ、 又は各単語又は連語の出現箇所 とその出現箇所の回数とに基づく基準等、 種々の抽出基準を用いることができ、 各抽出基準を用いた音声合成方法については後述する。
なお、 図 1に示す音声合成装置 1 a, 1 c〜l eは後述する他の実施態様にお いてそれぞれ説明する。
( 1 ) 音響処理部 6 0の構成
音響処理部 6 0は、 上記の強調すべき各単語又は連語に強調度自動決定部 3 6 にて決定された強調度を付与した音声を合成するものであって、 形態素解析部 1 1と、 単語辞書 1 2と、 パラメータ生成部 3 3と、 波形辞書 1 4と、 ピッチ切り 出し ·重ね合わせ部 (ピッチ切り出しおよび重ね合わせ部) 1 5とをそなえて構 成されている。
形態素解析部 1 1は、 入力された漢字かな混じりの文章を形態素解析して文章 の文字列に韻律記号付き中間言語を出力するものであって、 単語の種類, 単語の 読み, アクセント又はイントネーションをそれぞれ決定し、 中間言語を出力する ものである。
例えば、 文字列: 「アクセントはピッチの時間的変化と関連がある。」 力 形態 素解析部 1 1に入力されると、 アクセント, イントネーション, 音素継続時間又 はポーズ継続時間等の音声パラメータが付与され、例えば中間言語:「ァ, ク%セ ントヮ ピ, ッチノ ジカンテキ へ, ンカト カンレンガ&ァ, ル.」 が生成さ れる。
また、 単語辞書 1 2は、 単語の種類, 単語の読みおよびアクセントの位置等を 対応付けて格納するものである。 そして、 形態素解析部 1 1は、 形態素解析部 1 1自身が解析して得た形態素について単語辞書 1 2を検索し、 単語の種類, 単語 の読み又はアクセント等を得ている。 また、 この単語辞書 1 2に格納されるデー タは、 逐次更新することもでき、 このようにすれば、 広範な言語について音声合 成を行なえる。
これにより、 漠字かな混じりの文章の文字列は、 形態素解析部 1 1の解析によ り単語 (又は連語) に分割され、 分割された単語は、 それぞれ、 その単語の読み およびアクセント等を付与され、 アクセント付きの読みかな列に変換される。 パラメータ生成部 3 3は、 形態素解析部 1 1からの韻律記号付き中間言語のう ちの強調度自動決定部 3 6にて決定された各単語又は連語についての音声合成パ ラメータを生成するものである。 また、 パラメータ生成部 3 3は、 形態素解析部 1 1からの中間言語から音声合成パラメータを生成し、 その際、 強調度自動決定 部 3 6にて決定された各単語又は連語については強調された音声合成パラメータ とするのである。
この音声合成パラメータは、 ピッチ周波数のパターン, 音素の位置, 音素継続 時間, 強調部分の前後に加えるポーズ継続時間おょぴ音声の強さ等である。 この 音声合成パラメータにより、 音声の強さ, 高さ, イントネーション又はポーズの 挿入時間, 挿入場所等が決定し、 自然な音声が得られる。 例えば、 読み手は、 文 章の段落部分を読むときに、 読みの開始前にポーズを入れ、 開始部分を強調して 読み、 又はゆっくりと読む。 これにより、 一つの文章に含まれるかたまりが識別 および強調され、 文章の区切り位置が明確になる。
波形辞書 1 4は、 音声自体の音声波形データ (音素波形又は音声素片) と、 音 声の特定部分がどの音素かを示す音素ラベルと、 有声音についてピッチ周期を示 すピッチマークとを格納するものである。 この波形辞書 1 4は、 以下に述べるピ ツチ切り出し ·重ね合せ部 1 5からのアクセスに応じて、 音声波形データのうち の適切な部分の波形データを選択し音声素片を出力する。 これにより、 波形辞書 1 4のどの部分の音声波形データが使用されるかが決定する。 なお、 波形辞書 1 は、 音声波形データを P C M (Pulse Coded Modulation) データの形式で保持 することが多い。
この波形辞書 1 2が格納する音素波形は、 その音素の両側に位置する音素 (音 素コンテキスト) によって異なるので、 同一音素について異なる音素コンテキス トが接続されたものは異なる音素波形として扱われる。従って、波形辞書 1 2は、 予め細分ィヒされた音素コンテキストを多数保持し、 合成音声の聞きやすさおよぴ 滑らかさを向上させるようになつている。 なお、 以下の説明においては、 特に断 らない限り、 聞きやすさとは、 明瞭度を意味し、 具体的には人間による音の認識 度を表す。
ピッチ切り出し ·重ね合わせ部 1 5は、 例えば P S O L A法を用いており、 パ ラメータ生成部 3 3からの音声合成パラメータに従って、 波形辞書 1 4に格納さ れた音声波形データを切り出し、 その切り出した音声波形データに窓関数を乗じ た処理音声波形データとその前後の周期における処理音声データの一部とを重畳 加算し合成音声を出力するものである。
さらにこのピッチ切り出し ·重ね合わせ部 1 5について詳述する。
ピッチ切り出し ·重ね合わせ部 1 5は、 パラメータ生成部 3 3にて生成された 音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形デ ータと、 この処理音声波形データの前後側の波形区間に属する音声波形データの —部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声 を合成する。
また、 ピッチ切り出し '重ね合わせ部 1 5は、 波形辞書 1 4に格納された音声 波形データを切り出し、 その切り出した音声波形データに窓関数等を乗じた処理 音声波形データとこの処理音声波形データが属する現周期の前後の前周期おょぴ 後周期に属する音声波形データの一部とを重畳加算し合成音声を出力する。 従って、 この処理により、 聴感が補正され、 自然な合成音声が得られる。 具体的には、 ピッチ切り出し ·重ね合わせ部 1 5は、 生成されたパラメータに 基づいて波形辞書 1 4から 2周期分の音声波形データを切り出し、 図 1 5 ( a ) 〜図 1 5 ( d ) のそれぞれに示すように、 その切り出した音声波形データに、 窓 関数 (例えばハユング窓) を乗じて処理音声波形データを得る。 そして、 ピッチ 切り出し ·重ね合わせ部 1 5は、 前周期の後半部分と現周期の前半部分とを加算 することにより、 1周期分の合成波形を生成し、 同様に、 現周期の後半部分と後 周期の前半部分とを加算して合成波形を生成するのである。
そして、 波形辞書に格納された P C Mデータは、 ディジタル ·アナログ変換部 (図示省略) において、 アナログデータに変換され、 ピッチ切り出し ·重ね合わ せ部 1 5から合成音声信号として出力される。
なお、 窓関数を乗じられた処理音声波形データは、 必要に応じて、 振幅調整の ためのゲイン (利得) を乗じられる。 また、 P S O L A法におけるピッチ周波数 のパターンは、 音声波形の切り出し位置を示すピッチマークを用いており、 これ により、 ピッチ周期は、 ピッチマークの間隔により示されるようになつている。 さらに、 波形辞書 1 4におけるピッチ周波数と所望のピッチ周波数とが異なる場 合、 ピッチ切り出し ·重ね合わせ部 1 5は、 ピッチ変換する。
次に、 強調度自動決定部について詳述する。
( 2 ) 強調度自動決定部 (強調度決定部) 3 6の構成
(A 1 ) 第 1.の態様
図 1に示す強調度自動決定部 3 6は、 単語出現頻度集計部 3 7と、 共有メモリ (保持部) 3 9と、 単語強調度決定部 3 8とをそなえて構成されている。
共有メモリ 3 9は、 単語出現頻度集計部 3 7にて集計された出現頻度と各単語 又は連語とを対応付けて保持するものであり、 また、 単語出現頻度集計部 3 7, 単語強調度決定部 3 8およびパラメータ生成部 3 3等によって、 参照又は書き込 み可能なメモリによってその機能が実現される。
図 2は本発明の一実施形態に係る第 1の共有メモリ 3 9のデータ例を示す図で ある。 この図 2に示す共有メモリ 3 9は、 単語とその単語の出現頻度 (回数) と 強調の有無とを対応付けて格納し、 また、 記録可能な領域 (例えば行数等) は增 減可能である。 例えば、 単語 「時間的」 の出現頻度は 2回であり、 入力された文 章に、 この単語 「時間的」 が現れた場合においても、 単語 「時間的」 の強調が不 要である旨が書き込まれている。 一方、 単語 「アクセント」 については、 出現頻 度が 4回であり、 文章にこの単語 「アクセント」 が現れた場合は強調されるよう に処理される。
そして、 図 1に示す単語強調度決定部 3 8は、 共有メモリ 3 9に保持された出 現頻度が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度 を決定するものである。 この強調度自動決定部 3 6についてさらに詳述する。 図 3は本発明の一実施形態に係る第 1の強調度自動決定部 3 6のプロック図で ある。 この図 3に示す強調度自動決定部 3 6の単語出現頻度集計部 3 7は、 強調 除外辞書 4 4と、 除外単語考慮型の単語出現頻度集計部 (以下、 第 2単語出現頻 度集計部と称する。) 3 7 aとをそなえて構成されている。
ここで、 強調除外辞書 4 4は、 入力された文章のうちの音声強調不要な単語又 は連語については強調を除外するものであって、 除外の対象となる文字列に関す る情報を記録した辞書データを保持するものである。 また、 強調除外辞書 4 4が 格納する辞書データは、 適宜更新してもよく、 このようにすれば、 顧客要求によ り合致した処理が可能となる。
第 2単語出現頻度集計部 3 7 aは、 入力部 1 9 (図 1参照) から文字列を入力 されると、 その入力された文字列に含まれる特定単語については、 出現頻度にか かわらず、 強調すべきものから除外し、 除外されていない単語については、 通常 に集計し、 単語と頻度情報とを対応させて共有メモリ 3 9 aに記録するものであ つて、 ソート (並ぴ替え処理) 部 4 2と、 強調単語抽出部 4 3とをそなえて構成 されている。
そして、 第 2単語出現頻度集計部 3 7 aは、 入力された文字列を言語処理して 得た単語が、 強調の除外対象であるか否かを判定するために、 一旦、 強調除外辞 書 4 4のデータを予め検索し、 その検索により、 予め除外すべき単語に関する情 報を得て、入力された文字列に含まれる単語又は連語のうちの特定単語を除外し、 この除外されたもの以外の単語おょぴ出現頻度については、 単語および出現頻度 をペアにしたペアデータ単語一頻度情報を出力するようになっている。
これにより、 文章に含まれる各単語又は連語の出現頻度が抽出基準として用い られ、 単語出現頻度集計部 3 7が、 この出現頻度を集計する。
次に、 図 3に示す単語強調度決定部 3 8は、 入力された文章に含まれる文字列 のうちの強調する単語に関する情報を出力するものであって、 ソート部 4 2と強 調単語抽出部 4 3とをそなえて構成されている。 なお、 この図 3に示すもので、 上述したものと同一符号を有するものは同一のもの又は同様の機能を有するもの なので、 更なる説明を省略する。
ここで、 ソート部 4 2は、 共有メモリ 3 9 aのデータを出現頻度に基づいてソ —ド (並べ替え) し、 そのソートしたデータを単語, 出現順位をペアにした単語 一頻度情報を出力するものである。 このソート部 4 2は、 共有メモリ 3 9 aから 複数のデータ要素を取得し、 並ぴ替えの軸として出現順位を用いることにより、 順位の高い単語から順位に従ってデータ要素を並ぴ替えるのである。 ここで、 高 い順位を有する単語は、 文章に多く含まれており、 重要な言葉又はキーワードで あることが多い。
さらに、 強調単語抽出部 4 3は、 ソート部 4 2からの単語一出現順位情報を入 力され、 このペアデータのうちの出現順位情報を並び替えの軸として用いること により、 より正確な抽出が可能となっている。 さらに、 この強調単語抽出部 4 3 は、 強調単語抽出部 4 3自身にて抽出されたペアデータに基づいて、 入力される 文章に含まれる文字列のうちの重要な単語又は連語を抽出して抽出した単語又は 連語を強調すべき単語情報として出力するものである。
次に、 図 3に示す共有メモリ 3 9 aは、 第 2単語出現頻度集計部 3 7 aにて集 計された出現頻度と各単語又は連語とを対応付けて保持するものである。
図 4は本発明の一実施形態に係る第 2の共有メモリ 3 9 aのデータ例を示す図 である。 この図 4に示す共有メモリ 3 9 aは、 単語とその単語の出現頻度 (回数) と出現頻度 (順位) と強調の有無とをそれぞれ対応付けて格納しており、 図 2 示す共有メモリ 3 9に出現頻度 (順位) のデータ列が加えられている。 なお、 こ の図 4に示すテープルデータの行数は増減可能である。
例えば、 入力された文章に含まれる単語 「アクセント」 の出現頻度が 4回であ り、 単語 「時間的」 の出現頻度が 2回であったとし、 このうちの 「アクセント」 の出現頻度が最も大きい場合は、 共有メモリ 3 9 aの出現頻度のデータ列に順位 1が書き込まれ、 また、 単語 「時間的」 についても、 出現頻度のデータ列に順位 5が書き込まれる。 そして、 ソート部 4 2 (図 3参照) は、 この出現頻度に基づ いて、 共有メモリ 3 9 aのデータをソートする。
これにより、 除外単語考慮型単語出現頻度集計部 3 7 aにおいて、 入力文章の 各単語の出現頻度 (回数) が集計され、 共有メモリ 3 9 aの第 1列および第 2列 にデータが格納される。 ここで、 強調除外辞書 4 4に記載された単語は除外され る。 そして、 ソート部 4 2は、 出現回数の多い単語から順位を付けて共有メモリ 3 9 aの第 3列に格納する。 また、 強調単語抽出部 4 3は、 例えば出現回数の上 位 3位までの単語について、 強調の有無を決定し、 共有メモリ 3 9 aの第 4列に 格納する。
さらに、 これにより、 単語出現頻度集計部 3 7にて入力された文章の各単語又 は連語の出現頻度が集計され、 その集計結果は共有メモリ 3 9に書き込まれる。 単語強調度決定部 3 8は、 その集計結果に基づいて各単語又は連語の強調度を決 定し、 その決定した強調度を共有メモリ 3 9に書き込む。 また、 パラメータ生成 部 3 3は共有メモリ 3 9を参照し強調すべき単語について強調したパラメータを 設定する。 このため、 設計変更をともなわずに、 既存の技術を利用でき、 一層合 成音声の品質が向上する。
従って、 本音声合成装置 1は、 強調部分 (単語 ·連語) の出現頻度に基づいて 自動的に強調部分 (単語 ·連語) を得ることができ、 ユーザが強調する部分につ いての設定を手動入力する煩雑さが解消され、 かつ聞き取りやすい合成音声が自 動的に得られる。
このように、 出現頻度の高い単語又は連語が強調される。 従って、 比較的簡素 な構成により、 プロミネンスが自動的に決定され、 ユーザに課せられる多数の手 間が省略できる。
上記の音声合成装置 1は、 強調度自動決定部 3 6において、 文章に含まれる各 単語又は連語の出現頻度に基づいて強調すべき各単語又は連語が抽出されて、 各 単語又は連語についての強調度が決定され、 また、 音響処理部 6 0において、 強 調すべき各単語又は連語は、 強調度自動決定部 3 6にて決定された強調度が付与 されて音声が合成されている。 ここで、 強調度自動決定部 3 6と音響処理部 6 0 との機能は別個であるが、 両機能に分けなくても、 本発明は実施可能である。 換言すれば、 本発明の音声合成装置 1は、 文章を形態素解析して文章の文字列 に韻律記号付き中間言語を出力する形態素解析部 1 1と、 文章に含まれる各単語 又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語 又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自 動決定部 3 6と、 音声波形データと音声の部分がどの音素かを示す音素位置デー タと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書 1 4 と、 形態素解析部 1 1からの中間言語のうちの強調度自動決定部 3 6にて決定さ れた各単語又は連語について音素位置データおょぴピッチ周期データを含む音声 合成パラメータを生成するパラメータ生成部 3 3と、 パラメータ生成部 3 3にて 生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理 音声波形データと、 この処理音声波形データの前後側の波形区間に属する音声波 形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付 与した音声を合成するピッチ切り出し ·重ね合わせ部 1 5とをそなえて構成され ている。 これにより、 やはり、 自動的に強調度を決定できる。
さらに、 各機能を分散配置し、 入力された文章についての音声を合成して出力 する音声合成システム 1を構築することもできる。
すなわち、 本発明の音声合成システム 1は、 文章を形態素解析して文章の文字 列に韻律記号付き中間言語を出力する形態素解析部 1 1と、 文章に含まれる各単 語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単 語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度 自動決定部 3 6と、 音声波形データと音声の部分がどの音素かを示す音素位置デ ータと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書 1 4と、 形態素解析部 1 1からの中間言語のうちの強調度自動決定部 3 6にて決定 された各単語又は連語について音素位置データおょぴピッチ周期データを含む音 声合成パラメータを生成するパラメータ生成部 3 3と、 パラメータ生成部 3 3に て生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処 理音声波形データと、 この処理音声波形データの前後側の波形区間に属する音声 波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を 付与した音声を合成するピッチ切り出し ·重ね合わせ部 1 5とをそなえて構成す るのである。
従って、 このようにすれば、 音声合成システム 1は、 各機能を遠隔配置し、 各 機能にデータ送受信回路(図示省略)を付与することにより、通信回線を介して、 データ又は信号を送受信でき、 これにより、 各機能を発揮させることができる。 このような構成により、 本発明の音声合成方法と、 本音声強調装置 1が強調す る単語又は連語を自動決定する例について説明する。
本発明の音声合成方法は、 文章に含まれる各単語又は連語についての例えば出 現頻度等の抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語 は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動 決定部 3 6が、 上記の各単語又は連語の抽出に関する基準値を集計する (集計ス テツプ)。
また、 共有メモリ 3 9は、 集計ステップにて集計された基準値と上記の各単語 又は連語とを対応付けて保持する (保持ステップ)。そして、単語考慮度決定部 3 8は保持ステップに保持された基準値が高い各単語又は連語を抽出し (抽出ステ ップ)、抽出ステップにて抽出された各単語又は連語についての強調度を決定する (単語決定ステップ)。そして、上記の強調すべき各単語又は連語に単語決定ステ ップにて決定された強調度を付与した音声を合成する (音声合成ステツプ)。 従って、 ユーザが強調する部分についての設定が可能になる。
単語出現頻度集計部 3 7 (図 1参照) は、 出現頻度を集計する特定の単語又は 連語を、 予め共有メモリ 3 9に保持しておく。 ここで、 出現頻度の閾値は、 予め 書き込まれるようにしている。
単語出現頻度集計部 3 7は、 漢字かな混じり文を含むテキスト文章を入力され ると、 そのテキスト文章に含まれる多数の文字列の中から、 特定の単語又は連語 の出現頻度を抽出し、 抽出した単語おょぴ出現頻度をペアにして、 共有メモリ 3 9の第 1列 (単語) と第 2列 (出現頻度) とに格納する。 これにより、 多数の文 字列に含まれる特定語の出現頻度が集計される。
さらに、 単語強調度決定部 3 8は、 各単語について出現頻度を共有メモリ 3 9 から読み出し、 各単語についての強調の有無を決定し、 そして、 強調の有無を、 決定した単語に対応する第 3列 (強調の有無) に格納する。
ここで、 単語強調度決定部 3 8は、 この強調の有無を決定する閾値を例えば 3 回と設定する。 これにより、 単語 「時間的」 の出現頻度が 2回の場合は、 単語強 調度決定部 3 8はこの共有メモリ 3 9の 「強調の有無」 をなしと記録し、 また、 単語 「アクセント」 の出現頻度が 4回の場合は、 単語強調度決定部 3 8は共有メ モリ 3 9の 「強調の有無」 をありと記録する。
そして、 図 1に示すパラメータ生成部 3 3は、 単語又は連語ごとに共有メモリ 3 9の第 3列を読み込み、 「強調有り」の場合はパラメータを生成し、そのパラメ —タをピッチ切り出し ·重ね合せ部 1 5に出力する。
また、 ピッチ切り出し ·重ね合わせ部 1 5は、 波形辞書 1 4に格納された音声 波形データを切り出し、 その切り出した音声波形データに窓関数等を乗じた処理 音声波形データとこの処理音声波形データが属する区間 (波形区間) と隣接する 前後の区間に属する音声波形データの一部とを重畳加算して音声を合成する。 出力された合成音声は、 増幅回路 (図示省略) 等において増幅され、 スピーカ (図示省略) から音声が出力されてユーザに到着する。
このようにして、 本音声合成装置 1は、 各単語又は連語の強調部分の出現頻度 に基づいて自動的に単語又は連語の強調部分を得ることができる。 これにより、 ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上できる とともに、 聞き取りやすい合成を得られる。
(A 2 ) 第 2の態様
第 1の態様における抽出基準は、 出現頻度に基づいて強調度を決定するための パラメータを用いているが、 出現頻度以外の出現回数, 重要度等に基づいて強調 度を決定する方法について詳述する。 図 5は本発明の一実施形態に係る第 2の音声合成装置のプロック図である。 こ の図 5に示す音声合成装置 1 aは、 入力された文章を読み出して音声を合成する ものであって、 強調度自動決定部 5 0と、 入力部 1 9と、 音響処理部 6 0とをそ なえて構成されている。
ここで、 強調度自動決定部 5 0は、 文章に含まれる各単語又は連語についての 出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を 抽出し抽出した各単語又は連語についての強調度を決定するものである。
また、 音響処理部 6 0は、 上記の強調すべき各単語又は連語に強調度自動決定 部 5 0にて決定された強調度を付与した音声を合成するものである。
図 6は本発明の一実施形態に係る第 2の強調度自動決定部 5 0のブロック図で ある。 この図 6に示す強調度自動決定部 5 0は、 出現回数集計部 5 6と、 強調位 置決定部 5 7と、 共有メモリ 5 5とをそなえて構成されている。
ここで、 出現回数集計部 5 6は、 文章に含まれる各単語又は連語についての抽 出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽 出し抽出した各単語又は連語についての強調度を決定するものであって、 強調除 外辞書 5 4と、 除外単語考慮型単語出現回数集計部 5 1とをそなえて構成されて いる。 この強調除外辞書 5 4は、 入力された文章のうちの音声強調不要な単語又 は連語については強調を除外するものであって、 除外の対象となる文字列に関す る情報を記録した辞書データを保持するものである。 また、 除外単語考慮型単語 出現回数集計部 5 1は、 文章に含まれる各単語又は連語についてその数等を集計 するものである。 除外単語考慮型単語出現回数集計部 5 1は、 入力された文字列 について強調除外辞書 5 4を検索することにより、 集計する対象の単語又は連語 であるか、 又は集計を不要とする除外単語 (又は除外連語) であるかを判定し、 各単語又は連語についての出現回数および出現位置等の詳細な情報を、 共有メモ リ 5 5に逐次記録するのである。
図 7は本発明の一実施形態に係る第 3の共有メモリ 5 5のデータ例を示す図で ある。 この図 7に示す共有メモリ 5 5のデータ構造例は、 単語 「時間的」 につい て、 その出現回数を示す列と、 その出現位置を単語数で表した列と、 単語 「時間 的」 を強調するか否かを示す列に関するデータを格納するとともに、 強強調位置 又は弱強調位置に関する情報をそれぞれ対応付けて格納している。 例えば、 単語
「時間的」 は、 出現回数 2で、 出現位置が 2 1, 4 2とは、 それぞれ、 単語 「時 間的」 が 2回出現しており、 最初の出現位置が最初の単語が出現した位置から 2 1個目又は 4 2個目の位置であることを表す。
そして、 例えば単語 「時間的」 は、 出現回数が少ないので、 強調の有無はなし とし、 単語 「アクセント J は出現位置が 1 5, 5 5, 8 3, 9 9であって出現回 数が 4回なので 「強調の有無」 が必要と判定される。 また、 4回の出現位置のそ れぞれについて、 強く強調するもの (強強調位置) 又は弱く強調するもの (弱強 調位置) を記録している。
例えば、 強調度自動決定部 5 0は、 抽出基準として、 単語 「アクセント」 が最 初に現れる出現箇所 1 5においては単語 「アクセント」 について強く強調し、 ま た、 単語 「アクセント」 2 , 3番目に現れる出現位置 5 5, 8 3の 「ァクセン ト」 については弱く強調し、 さらに、 単語 「アクセント」 が 4番目に現れる出現 位置 9 9の単語 「アクセント」 については強調不要、 等種々決定できる。
従って、 強調度自動決定部 5 0は、 上記の各単語又は連語の出現箇所と出現箇 所の回数とに基づいて強調度を決定するようになっており、 具体的には、 上記の 各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強 調度を決定し、 上記の各単語又は連語が 2回目以降に現れる出現箇所においては 弱い強調度を決定し又は非強調を決定する。
これにより、 出現位置の異なる同一単語の強調の度合いは、 それぞれ、 異なる ようきめ細かな音声化ができる。
また、 これにより、 出現回数集計部 5 6 (図 6参照) は、 共有メモリ 5 5に格 納されている各単語又は連語に関するデータのうちの出現回数と出現頻度と強調 の有無に関する情報とのそれぞれに基づいて、 出現頻度一位置情報のペアデータ を抽出し強調位置決定部 5 7 (図 6参照) に入力する。
また、 図 6に示す強調位置決定部 5 7は、 所定回数出現した単語又は連語を共 有メモリ 5 5に書き込む強調単語抽出部 4 3と、 強調する単語について例えば 1 回目の登場箇所は強めに強調し 2回目以降は弱めに強調するとのきめ細かい強調 に関する情報を共有メモリ 5 5の第 5列と第 6列とに格納する強調箇所抽出部 5 3とをそなえて構成されている。
なお、 強調度自動決定部 5 0以外のもので、 上述したものと同一符号を有する ものは同一のもの又は同様の機能を有するものなので、 更なる説明を省略する。 このような構成により、 図 6に示す強調度自動決定部 5 0は、 単語出現頻度集 計部 5 1にて入力文章の各単語の出現頻度 (総回数) を集計し、 それぞれ、 文章 中の何単語目であるかを、 単語数として、 共有メモリ 5 5の第 1〜3列に格納す る。
なお、 強調度自動決定部 5 0は、 強調除外辞書 5 4に登録された単語を除外し ている。 強調除外辞書 5 4を用いる理由は、 出現頻度は高くても重要でないと考 えられる単語の強調を防止するためである。例えば助詞および助動詞等の付属語、 「あれ」, 「その」等の指示代名詞、 「こと」, 「ところ」, 「とき」等の形式名詞、 「あ る」, 「する」, 「なる」, 「やる」 等の補助用言等を強調除外辞書 5 4に格納するこ とが望ましい。
次に、 強調単語抽出部 4 3は、 例えば 3回以上出現した単語を強調するものと して共有メモリ 5 5の第 4列に書き込む。 強調箇所抽出部 5 3は、 強調する単語 について例えば 1回目の登場箇所は強めに強調し、 2回目以降は弱めに強調する ように、 共有メモリ 5 5の第 5列と第 6列とに格納する。
また、 パラメータ生成部 3 3 (図 1参照) は、 共有メモリ 5 5の第 5列と第 6 列とを参照して、 検索された位置の単語について強めに又は弱めに強調するパラ メータを生成する。
このように、 強調度自動決定部 5 0は、 その単語の 1回目の登場箇所は強めに 強調し、 2回目以降は弱めに強調又は強調不要を設定するので、 同一の強調同一 で繰り返し音声化されるときに聴覚される冗長感の発生を防止できる。
(A 3 ) 第 3の態様
第 3の態様における音声合成装置は、 各単語又は連語の重要度を記録した単語 記憶部を設け、 この重要度の高さに応じて、 多段階に単語又は連語を強調するよ うになつている。 第 3の態様における音声合成装置 1 cの概略的な構成は図 1に 示す音声合成装置 1の構成と同一である。
図 8は本発明の一実施形態に係る第 3の強調度自動決定部のプロック図である。 この図 8に示す強調度自動決定部 6 9は、 重要度出力部 6 5と、 強調単語抽出部 4 3と、共有メモリ 6 4とをそなえて構成されている。この重要度出力部 6 5は、 各単語又は連語に、 多段階の重要度を付与し、 単語一重要度のペアデータを出力 するものであって、 各単語又は連語と多段階の重要度とを対応付けて保持する重 要度辞書 6 3と、 入力された文章に含まれる各単語又は連語について重要度辞書 6 3を参照して多段階の重要度情報を得るための単語重要度照合部 6 1とをそな えて構成されている。また、強調単語抽出部 4 3は、上述したものと同一である。 なお、 重要度辞書 6 3はユーザによってカスタマイズできるように構成してもよ レ、。
さらに、 共有メモリ 6 4は、 重要度出力部 6 5にて集計された各単語又は連語 と、 これらの各単語又は連語との重要度とを対応付けて保持するものである。 図 9は本発明の一実施形態に係る第 4の共有メモリ 6 4のデータ例を示す図で ある。 この図 9に示す共有メモリ 6 4は、各単語と各単語の重要度(強調レベル) とを対応付けて格納している。 また、 この共有メモリ 6 4の行数は増減可能であ る。 例えば単語 「時間的」 は、 強調レベル 「なし」 とし、 また、 単語 「ァクセン ト」 は強調レベル 「強」 としている。
従って、 強調度自動決定部 6 0は、 抽出基準として、 '上記の各単語又は連語の うちの特定の単語又は連語に付与した重要度に基づいて強調度を多段階に決定す るようになっている。
なお、 本発明の音声合成装置 1 cは、 テキスト文を読み出すものであり、 入力 された音声波形データからキーワードを抽出するものではなく、 また、 強調度を 多段階のレベルを用いて決定できる。
このような構成により、 単語重要度照合部 6 1は入力された文章に含まれる各 単語の多段階の重要度を、 重要度辞書 6 3を参照することによって獲得し、 獲得 した重要度に応じた強調度を共有メモリ 6 4に格納する。強調単語抽出部 4 3は、 格納された強調度をパラメータ生成部 3 3 (図 1参照) に出力する。
このように、 重要度辞書 6 3を用いることにより、 強調すべき単語を強調すベ きレベルに応じて確実に強調できる。
(A 4 ) 第 4の態様 第 4の態様における音声合成装置は、 単語の品詞を解析できる品詞解析機能を 設け、 これにより、 固有名詞を強調するようにしている。 第 4の態様における音 声合成装置 1 dの概略的な構成は図 1に示す音声合成装置 1の構成と同一である。 図 1 0は本発明の一実施形態に係る第 4の強調度自動決定部のプロック図であ る。 この図 1 0に示す強調度自動決定部 7 0は、 共有メモリ 7 4と、 固有名詞選 択部 7 2と、 強調単語抽出部 4 3とをそなえて構成されている。 この共有メモリ 7 4は、 各単語又は連語と、 これらの各単語又は連語のうちの固有名詞について は 「強調あり」 との対応関係を保持するものである。
図 1 1は本発明の一実施形態に係る第 5の共有メモリ 7 4のデータ例を示す図 であるが、 この図 1 1に示す共有メモリ 7 4は、 単語 「時間的」, 「アクセント」 等については強調を不要とする一方、 例えば固有名詞 「アルプス」 については強 調が必要という対応関係を格納している。 なお、 共有メモリ 7 4の行数は増減可 能である。
また、 固有名詞選択部 7 2 (図 1 0参照) は、 固有名詞辞書 7 3と固有名詞判 定部 7 1とをそなえて構成されている。 この固有名詞辞書 7 3は各単語又は連語 の品詞を保持するものであり、 固有名詞判定部 7 1は入力された文字列に含まれ る各単語又は連語が固有名詞であるか否かについて、 各単語又は連語を固有名詞 辞書 7 3に照合することにより判定するものである。 固有名詞判定部 7 1は、 各 単語が固有名詞の場合は 「強調あり」 を共有メモリ 7 4に書き込み、 各単語が固 有名詞でない場合は 「強調なし」 を共有メモリ 7 4に書き込む。 そして、 強調単 語抽出部 4 3は、 共有メモリ 7 4に格納された強調の有無をパラメータ生成部 3 3に出力する。
従って、 強調度自動決定部 7 0は、 抽出基準として、 文章に含まれる特定の固 有名詞に基づいて強調度を決定していることになる。
このような構成により、 共有メモリ 7 4が初期化された状態において、 固有名 詞選択部 7 2に文章が入力されると、 固有名詞判定部 7 1は、 その文章に含まれ る各単語又は連語について、 各々、 固有名詞辞書 7 3を参照することにより、 固 有名詞であるか否かを判定する。 この判定結果が固有名詞の場合は、 固有名詞判 定部 7 1は、 固有名詞情報 (単語が固有名詞であることを示す情報) を出力し強 調単語抽出部 4 3は、 その単語を強調する。 また、 判定結果が固有名詞でない場 合は、 · 固有名詞判定部 7 1は、 固有名詞情報を出力しない。
この間、 固有名詞判定部 7 1は、 文字列の入力が停 itするまで、 各判定結果を 共有メモリ 7 4に記録し続ける。 従って、 共有メモリ 7 4は、 多数の各単語又は 連語について、 強調の有無に関するデータが記録される。
このように、 文字列のうちの固有名詞が強調されるので、 音声合成装置は、 文 章全体として聞き取りやすい音声を合成できる。
(A 5 ) 第 5の態様
第 5の態様における音声合成装置は、 文字種別のうちの例えばカタカナで表記 された各単語又は連語を強調するようにしている。 第 5の態様における音声合成 装置 1 eの概略的な構成は図 1に示す音声合成装置 1の構成と同一である。 図 1 2は本発明の一実施形態に係る第 5の強調度自動決定部のプロック図であ る。 この図 1 2に示す強調度自動決定部 8 0は、 カタカナ語選択部 8 4と、 強調 単語抽出部 4 3とをそなえて構成されている。 また、 カタカナ語選択部 8 4は、 カタカナ語文字を保持するカタカナ語辞書 8 3と、 このカタカナ語辞書 8 3を参 照することによって、 入力された各単語又は連語がカタカナ語であるか否かを判 定するものである。 なお、 このカタカナ語辞書 8 3は、 上記の固有名詞辞書 7 3 (図 1 0参照) の中に設けることもできる。
また、 カタカナに限らずに、 例えば、 アルファベット, ギリシャ文字, 特殊な 漢字等の文字種別を強調することもできる。 すなわち、 この強調度自動決定部 8 0は、 抽出基準として、 文章に含まれる例えばカタカナ, アルファベット又はギ リシャ文字等の種々の文字種別に基づいて強調度を決定することができる、 このような構成により、 入力された文章に含まれる各単語又は連語は、 カタ力 ナ語判定部 8 1において、 カタカナで表記されている否かを判定され、 カタカナ 語の場合はカタカナ情報 (入力された文字列がカタカナで表されたことを示す情 報) を出力する。 そして、 強調単語抽出部 4 3は、 文字がカタカナ情報である場 合にはその単語を強調し、 また、 そうでない場合にはその単語をそのまま出力す る。
このように、 カタカナ語を強調することにより、 全体として聞き取りやすい合 成音声とすることが期待できる。
(B ) その他
本発明は上述した実施態様及ぴその変形態様に限定されるものではなく、 本発 明の趣旨を逸脱しない範囲で、 種々変形して実施することができる。
中間雷語の韻律記号は、 一例であって、 本発明は、 種々変形した態様により、 実施できることは言うまでもない。 また、 パラメータの種類, 共有メモリに保持 されるデータの保持形式, データの保持場所又は各データについての処理の方法 そのものを変形したものであっても、 それは、 本発明の優位性をなんら損なうも のでもない。
そして、 本発明は上述した実施態様に限定されるものではなく、 本発明の趣旨 を逸脱しない範囲で、 種々変形して実施することができる。 産業上の利用可能性
以上のように、 本発明の音声合成装置によれば、 ユーザが強調を指定する部分 が現れるたびに、 強調の大きさ等のパラメータを手動入力が必要という課題を解 決し、 単語又は連語の強調部分の出現頻度, 重要度等の抽出基準に基づいて自動 的に単語又は連語の強調部分を得ることができる。 さらに、 簡素な構成により操 作性が向上し自動的に強調度を決定でき、 また、 聞き取りやすい音声合成装置を 得ることができるので、 例えば、 移動通信, インターネット通信およびこれら以 外で、 テキストデータを用いる分野の各装置は、 本発日月を用いることができる。 そして、 これにより、 表現性, 安全性および警備等の種々の分野において操作性 を向上できる。

Claims

請 求 の 範 囲
1 . 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単 ' 語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語 についての強調度を決定する強調度決定部と、
上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付 与した音声を合成する音響処理部とをそなえて構成されたことを特徴とする、 音 声合成装置。
2 . 該強調度決定部が、
該文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、 該集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持 部と、
該保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又 は連語についての該強調度を決定する単語決定部とをそなえて構成されたことを 特徴とする、 請求の範囲第 1項記載の音声合成装置。
3 . 該強調度決定部が、
該抽出基準として、 上記の各単語又は連語の出現頻度に基づいて該強調度を決 定するように構成されたことを特徴とする、 請求の範囲第 1項又は第 2項記載の 音声合成装置。
4 . 該強調度決定部が、
該抽出基準として、 該文章に含まれる特定の固有名詞に基づいて該強調度を決 定するように構成されたことを特徴とする、 請求の範囲第 1項又は第 2項記載の 音声合成装置。
5 . 該強調度決定部が、
該抽出基準として、 該文章に含まれる文字種別に基づいて該強調度を決定する ように構成されたことを特徴とする、 請求の範囲第 1項又は第 2項記載の音声合 成装置。
6 . 該強調度決定部が、
該抽出基準として、 上記の各単語又は連語の出現箇所と該出現箇所の回数とに 基づいて該強調度を決定するように構成されたことを特徴とする、 請求の範囲第 1項又は第 2項記載の音声合成装置。
7 . 該強調度決定部が、
上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語につ いての強調度を決定し、 上記の各単語又は連語が 2回目以降に現れる出現箇所に おいては弱い強調度を決定し又は非強調を決定するように構成されたことを特徴 とする、 請求の範囲第 6項記載の音声合成装置。
8 . 該強調度決定部が、
該抽出基準として、 上記の各単語又は連語のうちの特定の単語又は連語に付与 した重要度に基づいて該強調度を多段階に決定するように構成されたことを特徴 とする、 請求の範囲第 1項又は第 2項記載の音声合成装置。
9 . 該音響処理部が、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形 態素解析部と、
該形態素解析部からの韻律記号付き中間言語のうちの該強調度決定部にて決定 された各単語又は連語についての音声合成パラメータを生成するパラメータ生成 部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形 データを処理して得た処理音声波形データと、 この処理音声波形データの前後側 の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各 単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ 部とをそなえて構成されたことを特徴とする、 請求の範囲第 1項〜第 8項のいず れか一項記載の音声合成装置。
1 0 . 文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力す る形態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語 又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語に ついての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動 周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語 又は連語について少なくとも該音素位置データおょぴ該ピッチ周期データを含む 音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形 データを処理して得た処理音声波形データと、 この処理音声波形データの前後側 の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各 単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ 部とをそなえて構成されたことを特徴とする、 音声合成装置。
1 1 . 該ピッチ切り出し '重ね合わせ部が、
該波形辞書に格納された音声波形データを、 該パラメータ生成部にて生成され たピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関 数を乗じた処理音声波形データと、 この処理音声波形データが属する波形区間の 前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成する ように構成されたことを特徴とする、 請求の範囲索 1 0項記載の音声合成装置。
1 2 . 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各 単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連 語についての強調度を決定する強調度決定部が、 上記の各単語又は連語の抽出に 関する基準値を集計する集計ステップと、
該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて 保持する保持ステップと、
該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステ ップと、
該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する 単語決定ステップと、
上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調 度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特 徴とする、 音声合成方法。
1 3 . 入力された文章についての音声を合成して出力する音声合成システムで あって、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形 態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語 又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語に ついての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動 周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語 又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む 音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形 データを処理して得た処理音声波形データと、 この処理音声波形データの前後側 の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各 単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ 部とをそなえて構成されたことを特徴とする、 音声合成システム。
PCT/JP2003/000402 2003-01-20 2003-01-20 音声合成装置,音声合成方法および音声合成システム WO2004066271A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2003/000402 WO2004066271A1 (ja) 2003-01-20 2003-01-20 音声合成装置,音声合成方法および音声合成システム
JP2004567110A JP4038211B2 (ja) 2003-01-20 2003-01-20 音声合成装置,音声合成方法および音声合成システム
US11/063,758 US7454345B2 (en) 2003-01-20 2005-02-23 Word or collocation emphasizing voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/000402 WO2004066271A1 (ja) 2003-01-20 2003-01-20 音声合成装置,音声合成方法および音声合成システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/063,758 Continuation US7454345B2 (en) 2003-01-20 2005-02-23 Word or collocation emphasizing voice synthesizer

Publications (1)

Publication Number Publication Date
WO2004066271A1 true WO2004066271A1 (ja) 2004-08-05

Family

ID=32750559

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/000402 WO2004066271A1 (ja) 2003-01-20 2003-01-20 音声合成装置,音声合成方法および音声合成システム

Country Status (3)

Country Link
US (1) US7454345B2 (ja)
JP (1) JP4038211B2 (ja)
WO (1) WO2004066271A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2010175717A (ja) * 2009-01-28 2010-08-12 Mitsubishi Electric Corp 音声合成装置
JP2013148795A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 音声処理装置及びプログラム
JP2016029413A (ja) * 2014-07-25 2016-03-03 日本電信電話株式会社 強調位置予測装置、強調位置予測方法及びプログラム
JP2016109832A (ja) * 2014-12-05 2016-06-20 三菱電機株式会社 音声合成装置および音声合成方法
JP2016122033A (ja) * 2014-12-24 2016-07-07 日本電気株式会社 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP2020098367A (ja) * 2020-03-09 2020-06-25 株式会社東芝 音声処理装置、音声処理方法およびプログラム
EP3823306A1 (en) * 2019-11-15 2021-05-19 Sivantos Pte. Ltd. A hearing system comprising a hearing instrument and a method for operating the hearing instrument

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP4744338B2 (ja) * 2006-03-31 2011-08-10 富士通株式会社 合成音声生成装置
US20080243510A1 (en) * 2007-03-28 2008-10-02 Smith Lawrence C Overlapping screen reading of non-sequential text
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
TWI383376B (zh) * 2009-08-14 2013-01-21 Kuo Ping Yang 語音溝通方法及應用該方法之系統
US20130149688A1 (en) * 2011-09-07 2013-06-13 Douglas Bean System and method for deriving questions and answers and summarizing textual information
US10224021B2 (en) * 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
US11537781B1 (en) 2021-09-15 2022-12-27 Lumos Information Services, LLC System and method to support synchronization, closed captioning and highlight within a text document or a media file

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196199A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0580791A (ja) * 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JPH0944191A (ja) * 1995-05-25 1997-02-14 Sanyo Electric Co Ltd 音声合成装置
JPH11249678A (ja) * 1998-03-02 1999-09-17 Oki Electric Ind Co Ltd 音声合成装置およびそのテキスト解析方法
JP2000099072A (ja) * 1998-09-21 2000-04-07 Ricoh Co Ltd 文書読み上げ装置
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
JP3266157B2 (ja) 1991-07-22 2002-03-18 日本電信電話株式会社 音声強調装置
JPH05224689A (ja) 1992-02-13 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
US5529953A (en) 1994-10-14 1996-06-25 Toshiba America Electronic Components, Inc. Method of forming studs and interconnects in a multi-layered semiconductor device
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
JP3331297B2 (ja) 1997-01-23 2002-10-07 株式会社東芝 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
US6182028B1 (en) * 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196199A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0580791A (ja) * 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JPH0944191A (ja) * 1995-05-25 1997-02-14 Sanyo Electric Co Ltd 音声合成装置
JPH11249678A (ja) * 1998-03-02 1999-09-17 Oki Electric Ind Co Ltd 音声合成装置およびそのテキスト解析方法
JP2000099072A (ja) * 1998-09-21 2000-04-07 Ricoh Co Ltd 文書読み上げ装置
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454965B2 (en) 2004-08-20 2016-09-27 Mmodal Ip Llc Content-based audio playback emphasis
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
US8190432B2 (en) 2006-09-13 2012-05-29 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
US8280737B2 (en) 2007-09-06 2012-10-02 Fujitsu Limited Sound signal generating method, sound signal generating device, and recording medium
JP5141688B2 (ja) * 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2010175717A (ja) * 2009-01-28 2010-08-12 Mitsubishi Electric Corp 音声合成装置
JP2013148795A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 音声処理装置及びプログラム
JP2016029413A (ja) * 2014-07-25 2016-03-03 日本電信電話株式会社 強調位置予測装置、強調位置予測方法及びプログラム
JP2016109832A (ja) * 2014-12-05 2016-06-20 三菱電機株式会社 音声合成装置および音声合成方法
JP2016122033A (ja) * 2014-12-24 2016-07-07 日本電気株式会社 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
EP3823306A1 (en) * 2019-11-15 2021-05-19 Sivantos Pte. Ltd. A hearing system comprising a hearing instrument and a method for operating the hearing instrument
US11510018B2 (en) 2019-11-15 2022-11-22 Sivantos Pte. Ltd. Hearing system containing a hearing instrument and a method for operating the hearing instrument
JP2020098367A (ja) * 2020-03-09 2020-06-25 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6995907B2 (ja) 2020-03-09 2022-01-17 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Also Published As

Publication number Publication date
US20050171778A1 (en) 2005-08-04
JP4038211B2 (ja) 2008-01-23
JPWO2004066271A1 (ja) 2006-05-18
US7454345B2 (en) 2008-11-18

Similar Documents

Publication Publication Date Title
CN111566655B (zh) 多种语言文本语音合成方法
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7454345B2 (en) Word or collocation emphasizing voice synthesizer
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US6862568B2 (en) System and method for converting text-to-voice
US6990450B2 (en) System and method for converting text-to-voice
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US6871178B2 (en) System and method for converting text-to-voice
JP5198046B2 (ja) 音声処理装置及びそのプログラム
US6990449B2 (en) Method of training a digital voice library to associate syllable speech items with literal text syllables
JP4811557B2 (ja) 音声再生装置及び発話支援装置
US7451087B2 (en) System and method for converting text-to-voice
JPH08335096A (ja) テキスト音声合成装置
JP2000172289A (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP3060276B2 (ja) 音声合成装置
JP3589972B2 (ja) 音声合成装置
Gakuru et al. Development of a Kiswahili text to speech system.
JP3626398B2 (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
JP2005181998A (ja) 音声合成装置および音声合成方法
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JPH05134691A (ja) 音声合成方法および装置
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

WWE Wipo information: entry into national phase

Ref document number: 2004567110

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11063758

Country of ref document: US