HU176776B - Method and apparatus for synthetizing speech - Google Patents
Method and apparatus for synthetizing speech Download PDFInfo
- Publication number
- HU176776B HU176776B HU77EI760A HUEI000760A HU176776B HU 176776 B HU176776 B HU 176776B HU 77EI760 A HU77EI760 A HU 77EI760A HU EI000760 A HUEI000760 A HU EI000760A HU 176776 B HU176776 B HU 176776B
- Authority
- HU
- Hungary
- Prior art keywords
- phonemes
- computer
- output
- speech
- frequency
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 14
- 230000003407 synthetizing effect Effects 0.000 title 1
- 238000009826 distribution Methods 0.000 claims abstract description 13
- 230000007704 transition Effects 0.000 claims abstract description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 2
- 230000037431 insertion Effects 0.000 abstract 1
- 238000003780 insertion Methods 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Analogue/Digital Conversion (AREA)
Description
A találmány tárgya eljárás és berendezés beszéd szintetizálására, amely a számítógépes technika területén a számítógép és az ember között kapcsolatot teremtő egységként használható.
Ismertek már eljárások és berendezések beszéd szintetizálására, amelyek teljes szavak vagy szótagok reprodukcióján alapultak, és az ilyen berendezések nagy kapacitású mágneslemezes tárakat használtak. Az ilyen berendezések szókincse a tár kapacitására való tekintet nélkül mindenképpen korlátozott volt.
Ismertek ezenkívül olyan eljárások és berendezések is beszéd szintetizálására, ahol a különböző fonémákat megfelelő amplitúdójú és frekvenciájú szinuszos rezgések összekeveréséből állítják elő. Ezek a berendezések nagyon bonyolult felépítésűek és nehézkes behangolású analóg generátorok felhasználását igénylik.
A találmány célja ezért olyan eljárás és berendezés létrehozása beszéd szintetizálására, amely csak kis kapacitású tárat használ és nem igényel nagy bonyolultságú egységeket és nehézkes behangoiást.
A kitűzött célt a találmány szerinti eljárással összhangban úgy érjük el, hogy a beszéd szintetizálását olyan fonémákra alapítjuk, amelyeket digitális elektronikus áramkörök segítségével szintetizálunk és ezt követően digitál-analóg átalakítók segítségével analóg jellé alakítunk. Egy adott szöveg fonémáinak szintézisét annak alapján végezzük el, hogy a tárban rögzítjük a különböző formáns eloszlású fonémák hangperiódusait, zajfonéma elemeket, a hangsúlyozás helyére vonatkozó információt, melyek jellemzőek a vonatkozó fonémák amplitúdó sajátosságaira, az adott fonéma szintéziséhe szükséges hang és zaj elemek sorozatát, a fonémák kvázivéletlen változásának táblázatait, valamint a mondathangsúlyozás elemzéséből kapott adatokat, a szünetek időtartamát és a fonémák között a fő átmenetek megvalósításához tartozó hang elemek időtartamát. A szintetizálandó szöveg mondatait program szerint nyelvtanilag elemezzük, hogy a szóban forgó mondat alapvető jellemzőit megállapíthassuk. Ilyen jellemző például a hangmagasságának, mint frekvencia jellemzőnek a változási jellege, a hangerőnek, mint amplitúdó jellemzőnek a változása és a beszédszünetek hossza. A fonémák sorozatát olyan szempontból is elemezzük, hogy megvizsgáljuk a szomszédos fonémák kölcsönhatását és megállapítjuk a sorozaton belül a fonémák változásának módját és helyét. A mondat alapvető tulajdonságainak vizsgálata alapján minden fonéma esetében a fonémát kapcsolatba hozzuk hangrezgési periódusok egy meghatározott típusával és a periódusok számával, ahol a hangrezgéshez jellegzetes formáns eloszlás tartozik, és minden fonémát társítjuk ezenkívül megfelelő időtartamú és ehhez tartozó spektrális eloszlású zajfonéma elemek meghatározott típusával és számával. Egy adott nyelvre jellemző hivatkozott hangrezgési periódusokat és zajfonéma elemeket digitális alakban tárban tároljuk, mint a megfelelő rezgések amplitúdó értékeinek sorozatát. A fonémák megfelelő frekvencia jellemzőinek előállításához a rezgési amplitúdó kiolvasása a periódus befejeződése előtt megszakítható, vagy a periódus befejeződését követően nullértékekkel folytatható. A be széd természetességének elérése céljából a kiolvasás során a rezgési periódusok amplitúdóit és hosszát kvázivéletlen módon változtatjuk, és abból a célból, hogy zaj és vegyes fonémák szintetizálásakor egyenletes spektrális eloszlást kapjunk, a zaj elemek kiolvasási részeinek kvázivéletlen kezdeti elmeket adunk kvázivéletlen időtartammal és kvázivéletlen kiolvasási iránnyal. Abból acélból, hogy ugyanazon tárolt elemekből különböző fonémákat állítsunk elő, a tárban rögzített amplitúdó értékek kiolvasási frekvenciáját változtatjuk, és hogy ugyanazon tárolt elemekből különböző fonémákat kapjunk, változtatjuk a fonémák amplitúdó jellemzőit, továbbá vegyes fonémák előállításához hangperiódusok és zajrészek kombinációit használjuk. A fonéma átmenetek simaságának biztosítása céljából olyan periódusokat használunk, melyek formáns eloszlása a fonémák közötti átmenetnek felel meg, és a fonéma átmenetek simaságának elérése céljából ezenkívül a vonatkozó átmenet tartományában az amplitúdókat lecsökkentjük. Azokat a digitális adatokat, amelyeket az adott nyelv fonéma tartalma és alapvető jellemzői elemzése alapján kaptunk, felhasználjuk a tárban rögzített beszédelemek visszaadásának vezérlésére. A fonémák amplitúdó jellemzőit úgy alakítjuk ki, hogy a digitális értékekből átalakítással kapott szintetizált fonémák analóg jelének az erősítését olyan analóg jellel befolyásoljuk, amely a fonéma amplitúdó jellemzői digitális értékének felel meg.
A találmány szerinti eljárás foganatosítására alkalmas berendezés számítógépet tartalmaz, amelynek kimenete fixtár címregiszter számlálójához csatlakozik. A számítógép másik kimenete a számlálási irányt meghatározó regiszterhez csatlakozik, és ennek kimenete a címregiszter számlálóval van összekötve. A számítógép két másik kimenete a számlálási frekvenciát meghatározó regiszterhez és a kiolvasandó címek számát meghatározó regiszterhez csatlakozik és ezen regiszterek kimenete előírt számú és frekvenciájú impulzust keltő impulzusgenerátorral van összekötve. Az impulzusgenerátor kimenete a címregiszter számláló számlálási bemenetével van összekötve. A számítógép egy további kimenete digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete erősítő-modulátor erősítést változtató bemenetéhez csatlakozik. A fixtár kimenete második digitál-analóg átalakítóhoz csatlakozik, és ennek kimenete az erősítő-modulátor bemenetével van összekötve. Az erősítő-modulátor kimenete hangszóróhoz és távközlő vonalhoz csatlakozik. A vezérlőegység kimenete a számítógép bemenetéhez, ennek egy másik kimenete pedig a vezérlőegység bemenetéhez csatlakozik.
A találmány szerinti eljárás egy foganatosítási módjánál a periódusok hosszának változtatását ± 40%-os határokon belül végezzük el, és a periódusok hosszának, valamint kiolvasás során a rezgési amplitúdóknak a kvázivéletlen változtatásait ±3%-os határokon belül tartjuk. A beszéd természetességének elérése céljából ezenkívül a hangrezgések periódushosszát és amplitúdóját kvázivéletlen módon változtatjuk, és vegyes fonémák létrehozása céljából kvázivéletlen módon változtatjuk a modulált amplitúdójú zajrezgések periódushosszát és az „R” fonéma létrehozása céljából az amplitúdómodulált hangrezgések periódushosszát.
A találmány szerinti megoldás előnye, hogy mechanikai mozgó elemeket nem tartalmazó viszonylag kis kapacitású tárat igényel, a szintézishez nincs szüksége bo nyolult hangolást igénylő analóg jelleggörbéjű generátorok alkalmazására, a mondat sajátos követelményeitől függő fonémák szintézisénél nagymértékű flexibilitást tesz lehetővé, a fonémák alakjának változtatását a tár tartalmának egyszerű megváltoztatásával lehetővé teszi, lehetőséget biztosít a hangrezgések és amplitúdójuk periodicitásának kvázivéletlen változásai utánzására, amely a beszéd hűségéhez nagymértékben hozzájárul, biztosítja a szöveg szükséges hangsúlyának és hanglejtésének elérését, nem igényli a számítógépben gyors hozzáférésű memória alkalmazását, elősegíti a gyártást, mert a behangolási műveletekre nincs szükség, ugyanakkor helyt ad nagymértékben integrált úi elektronikus elemek, például tárak, mikroszámítógépek alkalmazására, amelyek kis méretek, súly és alacsony ár mellett a berendezést megbízhatóvá teszik.
A találmányt a továbbiakban egy kiviteli példa kapcsán, a rajz alapján ismertetjük részletesebben.
A rajzon az 1. ábra a találmány szerinti berendezés tömbvázlata, a 2. ábra emberi hangon kiejtett ,,ΠΉΗΑ” szó felvett amplitúdó görbéje, a 3. ábra a találmány szerint szintetizált „RUHA” szó felvett amplitúdó görbéje, a 4. ábra emberi hangon kiejtett „MIMMI” szó felvett amplitúdó görbéje, az 5, ábra a találmány szerinti szintetizált „MIMMI” szó amplitúdó görbéje, a 6. ábra az emberi hangon kiejtett „MIMMI” szó szonogrammja, és a 7. ábra a találmány szerint szintetizált „MIMMI” szó szonogrammja.
Az 1. ábrán a találmány szerinti berendezés tömbvázlatát tüntettük fel, amelyen látható, hogy a berendezés 1 számítógépet tartalmaz, amelynek 2 kimenete 4 fixtár 3 címregiszter számlálójához csatlakozik. Az 1 számítógép 5 kimenete a számlálási irányt meghatározó 6 regiszterhez csatlakozik, amelynek kimenete a 3 címregiszter számlálóval van összekötve. Az 1 számítógép 7 és 8 kimenetei a számlálás frekvenciáját meghatározó 9 regiszterhez, illetve a kiolvasási címek számát tartalmazó 10 regiszterhez csatlakoznak. A 9 és 10 regiszterek kimenetei 11 impulzusgenerátorral vannak összekötve. All impulzusgenerátor kimenete a 3 címregiszter számláló számláló bemenetével is össze van kötve. Az 1 számítógép 12 kimenete amplitúdó szabályozó 13 regiszteren keresztül 14 digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete 15 erősítő-modulátor erősítést változtató bemenetével van összekötve. A 4 fixtár kimenete olyan 16 digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete a 15 erősítő-modulátor bemenetével van összekötve. A 15 erősítő-modulátor kimenete 17 hangszóróhoz és 18 távközlő vonalhoz csatlakozik. A 19 vezérlőegység kimenete az 1 számítógép 21 bemenetével, az 1 számítógép 20 kimenete pedig a 19 vezérlőegység bemenetével van összekötve.
A leírás egységes értelmezése céljából az alábbiakban néhány fontosabb kifejezés kiegészítő magyarázatát adjuk meg:
„beszédszintézis” — valamilyen berendezés által kiadott akusztikus kimeneti jel észlelését jelenti, amelyben valamilyen nyelvű, nem feltétlenül bulgár nyelvű emberi beszéd felismerhető;
„formáns eloszlás” — egy meghatározott beszédhanghoz (fonémához) tartozó frekvenciaeloszlás;
„beszédelemek” — a beszédet, mint akusztikus függvényt jellemző görbék részei;
„beszédet kísérő hangok” — egy kifejezés kezdetén vagy végén, vagy például írásjeleknél a be- vagy kilégzés által keltett hangok;
„hangperiódusok” — ezek képezik a beszédhangot (fonémát) alkotó periódusokat.
A továbbiakban a fonémák alábbi csoportjait vizsgáljuk meg, ahol a csoportosítás a szintézis módszerével is összefüggő néhány jellemző tulajdonságtól függ. Ilyen fonéma csoportok a hangfonémák, zajfonémák és vegyes fonémák. Mindezen csoportokban léteznek rövid és hosszú ideig tartó fonémák. A hangfonémákat úgy kapjuk meg, hogy egy memóriában tárolt hangperiódusok sorozatát szekvenciálisán reprodukáljuk. A hangperiódusokat egy adott formáns eloszlásra jellemző valós beszédről készült felvétel vagy szintézis segítségével előre beírjuk a memóriába. Az adott hangfonéma szintéziséhez tartozó periódusok számát és típusát a választott nyelv fonémájának a jellege, a szomszédos fonémák jellege és típusa, a hangsúly helye, a mondat hangsúlyozása stb. határozzák meg. Ilyen módon a nyelvtani fonéma egység a szintézis szempontjából különböző periódusú sorozatok sokaságának felel meg.
A konkrétan szükséges hangperiódus kombinációkat, ezek számát, időtartamát és amplitúdóját meghatározott algoritmus szerint valós idejű (reál time) program segítségével számítjuk ki, majd ezeket olyan lejátszó egységhez továbbítjuk, amely alkalmas ezek reprodukálására. A szintetizált beszéd természetes jellegét a különböző periódusok időtartamának és amplitúdójának a kvázi véletlen módosításával érjük el.
A zajfonémákat úgy szintetizáljuk, hogy egy megfelelő zajfonéma tárolt szektorának kiválasztott részeiből kvázivéletlen szekvenciális reprodukciót képezünk, vagy a tárból az erre vonatkozó fonémaszektorokat amplitúdó modulációval olvassuk ki, és az amplitúdó modulációt és az időtartamokat a szintézis algoritmusával összhangban határozzuk meg.
A vegyes fonémákat részben a hangfonémákhoz, részben pedig a zajfonémákhoz hasonlóan szintetizáljuk ahol a zajrészeken a hangrészek periódusával járulékos amplitúdó modulációt végzünk.
Példák:
A cirill „P” (azaz a latin „R”) fonéma esetében a szintetizált hangot a nyelv rezgésének frekvenciájával amplitúdó moduláljuk.
A bulgár nyelv esetét választva (cirill ábc mellett) az „A”, „E”, „H”, „O”, „B”, „Y”, „W”, „Π”, „M”, „H” és „P” fonémákat hangfonémaként lehet szintetizálni: a „Φ”, „C”, „m”, „X”, „II”, <r, „K”, „Π” és „T” fonémák szintetizálása zajfonémákból, és a „B”, „3”, „X”. „B”, „3”, „Γ”, „33” és „3X” fonémáké vegyes fonémaként oldható meg.
A fonémák közötti kapcsolatot úgy valósítjuk meg, hogy utólag meghatározott hangperiódusokat vezetünk be, amelyre a formáns eloszlás egyenletes átmeneteinek megvalósítása céljából van szükség.
A beszédszintézishez alkalmazható berendezés alapegységét képezi a 4 fixtár, mert a beszédszintézis vázolt módszerével összhangban a szükséges információk ebben vannak rögzítve. Ezek az információk a hang- és zaj fonémák, és a beszédet kísérő hangok részei amplitúdóira vonatkozó digitális értékeket jelölnek. A 4 fixtárban rögzített különböző beszédelemek amplitúdóinak értékeit képező sorozatok hossza és kezdeti címe képezi a tárból való kiolvasást vezérlő információt, amelyet az 1 számítógép memóriája tárol. Egy adott nyelven a szintézis megvalósításához a 4 fixtárban rögzítendő beszédelemek választékát a szóban forgó nyelv fonetikai sajátosságaival összhangban úgy kell kialakítani, hogy a választott elemek a nyelv fonetikája tekintetében teljes rendszert alkossanak. Az 1 számítógép memóriájában az ismertetett eljárást megvalósító program van rögzítve, amely összhangban van a választott nyelv hangsúlyozásával és hanglejtésével.
A program bemeneti információját olyan állandó szöveg képezi, amely szükség esetén fonetikai jeleket is tartalmaz, és ez a szöveg a választott nyelven egy rögzített mondatot képvisel. Az 1 számítógép a mondatot nyelvtani és fonetikai elemzésnek veti alá az adott nyelv szabályaival összhangban, hogy feltárja ennek frekvencia és amplitúdó jellemzőit, valamint a szünetek helyét és időtartamát, és a beszédet kísérő hangokat. Ezt követően ezen tulajdonságoktól és a mondatban levő szomszédos fonémák kölcsönhatásától függően meghatározzuk minden fonéma összetételét (az öt alkotó periódusok típusát), amplitúdó jellemzőit és időtartamát. A szintetizált mondat minden beszédeleme esetében ezenkívül meghatározzuk a beszédelem amplitúdóját, időtartamát, a 4 fixtárban elfoglalt kezdeti címét és a kiolvasás irányát. A mondat ilyen módon a felsorolt értékekkel jellemzett beszédelemek és szünetek sorozatára van felosztva. A beszédelemek sorozatára jellemző minden ilyen értéket az 1 számítógép valós idejű program alapján vesz és ezeket felkérésre egymás után a beszédszintézist vezérlő berendezés megfelelő egységeihez továbbítja. Ezen adatok segítségével a 4 fixtárból a 3 címregiszter számláló által jelzett kezdeti címen a számlálási irányt meghatározó 6 regiszter által kijelölt kiolvasási irányban egy beszédelemet hozunk ki. A 4 fixtárból való kiolvasás sebességét a kiolvasási frekvencia 9 regiszter értéke határozza meg, és a kiolvasási adatok számát a kiolvasási címek számához tartozó 10 regiszter értéke jelöli ki. A 9 és 10 regiszterek információja vezérli a 11 impulzusgenerátor működését, amely időben változtatja a 3 címregiszter számláló tartalmát.
Az így meghatározott beszédelem amplitúdója értékét szekvenciálisán a 16 digitál-analóg átalakítóhoz vezetjük, a 9 regiszterben tárolt előre meghatározott kiolvasási sebességgel. A 16 digitál-analóg átalakító kimenete a 15 erősítő-modulátor bemenetéhez csatlakozik, amelynek erősítését az a 14 digitál-analóg átalakító kimenete vezérli, amelyet a szintetizált beszéd ezen időpontra vonatkozó amplitúdója reprodukálásához szükséges digitális adatok átalakításához használunk. Ezeket a digitális adatokat az 1 számítógép határozza meg és az amplitúdó vezérlő 13 regiszteren keresztül adja ki. A 15 erősítő-modulátor által felerősített jelet hanggá való átalakítás céljából a 17 hangszóróhoz és a 18 távközlő vonalhoz vezetjük. A beszédelem reprodukciójának befejező dése után a 19 vezérlőegység a szintézis folytatásához szükséges újabb adatok előállítására vonatkozó utasítást küld az 1 számítógép részére. A 4 fixtárból való kiolvasás és az ezt követő beszedetem reprodukció ideje alatt az 1 számítógép szabaddá válik, és eközben a szintézis vezérléséhez szükséges új adatok előkészítéséhez tartozó elemzéseket végez.
Ha az 1 számítógépet megfelelően gyors működésű számítógép képezi, akkor egyetlen számítógép több szintetizáló berendezés vezérlését is elláthatja. Az 1 számítógép általános rendeltetésű számítógéppel, kis számítógéppel vagy mikroprocesszorral egyaránt megvalósítható.
A 2. ábrán „Π” fonéma kiejtéséhez tartozó rövid beütést, az ezt követő „H” fonémák több periódusát, és az „A” fonémák hosszabb sorozatát tüntettük fel. Ezt követi két olyan hangperiódus csoport, amelyek a „H”és „A” fonémáknak felelnek meg. Ez a rögzített amplitúdó karakterisztika természetes módon kiejtett szóra vonatkozik, melynek simasága és formáns átmenetei természetesen hangzanak.
A 3. ábrán vázolt szintetizált szóban egymást követően az alábbi hangperiódusok követik egymást: „Π”, két periódus „W”, olyan „E” periódusok, melyek az „M” és az ezt követő „A” között a formáns átmenet simaságát biztosítják, majd „A”, „H” és „A” fonémák periódusai, melyek hosszát úgy választottuk meg, hogy az alaptónus sima változását eredményezzék.
A 4. és 5. ábrák közötti kapcsolat ezzel analóg, amikor is az első „M” és az első „I” fonémák közé az alap formáns átmenet kisimítása céljából „Ü” fonémát iktattunk közbe.
A 4. és az 5. ábrákon vázolt szavak szonogram megfelelőit a 6. és 7.ábrákon tüntettük fel. A 6. ábrán vázolt természetes beszéd egy szavának szonogramja formánsokban sokkal gazdagabb, de erre való tekintet nélkül a fül a szintetizált szót helyesen érzékeli.
Claims (7)
1. Eljárás beszéd szintetizálására, azzal jellemezve, hogy minden fonémát memóriában tárolt fonéma elemekből hozunk létre, ezeket egymás után a memóriából kiolvassuk, ahol a kiolvasási sebességet, irányt és az elemek számát az egyes fonémák típusával és hosszával, valamint a mondat jellegzetességeivel és a szomszédos fonémák típusával összhangban választjuk meg, a szintetizálandó szöveget a nyelv szabályai szerint mondatról mondatra nyelvtanilag és fonetikailag elemezzük, és ezzel sorjában meghatározzuk a mondat alapvető jellemzőit, és ezen értékeket állandó szövegként rögzítjük, melyek szükség esetén fonetikai jeleket, mint például a hangmagasság változásait frekvencia jellemzőként, a hangerő változásait amplitúdó jellemzőként és a szünetek időtartamát tartalmazzák, majd a fonémákból alkotott sorozatot elemezzük és figyelembe vesszük a szomszédos fonémák között fennálló kölcsönhatást, meghatározzuk a sorozaton belül a fonémák változásának helyeit és módját, ezt követően minden fonéma tekintetében a mondat alapvető tulajdonságainak figyelembevételével hangrezgések adott számú periódusát és típusát valóságos beszédből és/vagy mesterségesen előállított beszédből létrehozott jellegzetes formáns eloszlással hasonlítjuk össze, és az összehasonlítást meghatározott időtartamú, amplitúdójú és spektrális eloszlású zajfonémák meghatározott típusaira és adott számú idöszektorára elvégezzük, és a nyelvre előre kijelölt hivatkozott hangrezgési periódusokat és zajfonéma elemeket digitális alakban memóriában olyan módon tároljuk, hogy ezek a megfelelő rezgés amplitúdó értékeinek sorozatát képezik, és a fonémák megfelelő frekvencia tulajdonsága eléréséhez a rezgési amplitúdók értékeinek a sorozatát a frekvencia növekedési periódus befejeződése előtt megszakítjuk, és a periódusok befejezését követően nullértékekkel folytatjuk, és a frekvencia csökkentése és a beszéd természetességének biztosítása miatt kiolvasáskor a rezgési amplitúdók periódusainak hosszát kvázivéletlen módon változtatjuk, és zaj és vegyes fonémák szintetizálásakor egységes spektrális eloszlás biztosítására a zajelemek kiolvasási részeit kvázivéletlen kezdeti címekkel indítjuk, a kiolvasást kvázivéletlen időtartamra és irányra végezzük el, és ugyanazon tárolt zajelemekből különböző fonémák létrehozására az elemek tárolt értékeinek a kiolvasási frekvenciáját változtatjuk, vagy ugyanezért a fonémák amplitúdó jellemzőit változtatjuk, és a vegyes fonémákat úgy hozzuk létre, hogy hangperiódusokat és zajrészeket egymással összekapcsolunk, és a fonéma átmenetek simaságának biztosítására a fonémák közötti átmenet jellegének megfelelő formáns eloszlású periódusokat alkalmazunk, és a rezgési amplitúdókat a megfelelő átmeneti tartományban lecsökkentjük, továbbá a memóriában rögzített beszédelemek reprodukcióját a mondat fonéma összetételének és alapjellemzőinek elemzésekor előkészített digitális adatok alapján vezéreljük, és a fonémák amplitúdó jellemzőit a digitális értékek átalakításával kapott szintetizált fonémák analóg jelének az erősítésével vezéreljük, és a vezérlést a fonémák amplitúdó jellemzői digitális értékeinek megfelelő analóg jel segítségével végezzük el.
2. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a periódusok hosszát ± 40%-os határokon belül változtatjuk.
3. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a rezgési amplitúdók periódushosszának a kvázivéletlen változtatásait a kiolvasáskor ± 3%-os határokon belül tartjuk.
4. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a beszéd természetességének biztosításához a hangrezgési periódusokat és ezek amplitúdóit kvázivéletlen módon változtatjuk, vegyes fonémák előállításához a modulált amplitúdó-zaj rezgések periódusát, végül az „R” fonéma előállításához a modulált hangrezgések periódusát kvázivéletlen módon változtatjuk.
5. Berendezés beszéd szintetizálására, amely számítógépet tartalmaz, azzal jellemezve, hogy a számítógép (1) kimenete címregiszter számlálón (3) keresztül fixtárhoz (4) csatlakozik, a számítógép (1) második kimenete számlálási irányt meghatározó regiszterrel (
6) van összekötve, amelynek kimenete a címregiszter számlálóval (3) van összekötve, a számítógép (1) harmadik és negyedik kimenete (7, 8) a számlálási frekvenciát meghatározó regiszterhez (9) illetve a kiolvasási címek számát meghatározó regiszterhez (10) csatlakozik, és ezen regiszterek (9, 10) előírt számú és frekvenciájú impulzust előállító impulzusgenerátorral (11) vannak összekötve, az impulzusgenerátor (11) kimenete a címregiszter számláló (3) számláló bemenetéhez csatlakozik, a számítógép (1) ötödik kimenete (12) amplitúdó szabályozó regiszteren (13) keresztül digitál-analóg átalakítóval (14) van összekötve, kimenete pedig erősítő-modulátor (15) erősítést változtató bemenetével van összekötve, a fixtár (4) kimenete második digitál-analóg átalakítóhoz (16) csatlakozik, és ennek kimenete az erősítő-modulátor (15) bemenetével van összekötve, az erősítő-modulátor (15) kimenete hangszóróhoz (17) és távközlő vonalhoz (18) csatlakozik; a vezérlőegység (19) a számítógép bemenetével (21) van összekötve, és a számítógép (1) hatodik kimenete (20) a vezérlőegység (19) bemenetéhez csatlako5 zik.
7 rajz, 7 ábra
A kiadásért felel: a Közgazdasági és Jogi Könyvkiadd igazgatója
81.1423.66-42 Alföldi Nyomda, Debrecen — Felelős vezető: Benkő Irtván igazgató
Nemzetközi osztályozás:
G 10 L 1 00
176776 Nemzetközi osztályozás:
Nemzetközi osztályozás: G 10 L 1/00 t
G ÍO L 1/00
Nemzetközi osztályozás:
G 10 L 1/00
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BG7600034160A BG24190A1 (en) | 1976-09-08 | 1976-09-08 | Method of synthesis of speech and device for effecting same |
Publications (1)
Publication Number | Publication Date |
---|---|
HU176776B true HU176776B (en) | 1981-05-28 |
Family
ID=3902565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
HU77EI760A HU176776B (en) | 1976-09-08 | 1977-09-05 | Method and apparatus for synthetizing speech |
Country Status (10)
Country | Link |
---|---|
US (1) | US4278838A (hu) |
JP (1) | JPS5953560B2 (hu) |
BG (1) | BG24190A1 (hu) |
DD (1) | DD143970A1 (hu) |
DE (1) | DE2740520A1 (hu) |
FR (1) | FR2364522A1 (hu) |
GB (1) | GB1592473A (hu) |
HU (1) | HU176776B (hu) |
SE (1) | SE7709773L (hu) |
SU (1) | SU691918A1 (hu) |
Families Citing this family (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2020077B (en) * | 1978-04-28 | 1983-01-12 | Texas Instruments Inc | Learning aid or game having miniature electronic speech synthesizer chip |
JPS56161600A (en) * | 1980-05-16 | 1981-12-11 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
JPS58168096A (ja) * | 1982-03-29 | 1983-10-04 | 日本電気株式会社 | 複数言語音声合成装置 |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4579533A (en) * | 1982-04-26 | 1986-04-01 | Anderson Weston A | Method of teaching a subject including use of a dictionary and translator |
EP0107724A4 (en) * | 1982-04-26 | 1985-04-11 | Gerald M Fisher | ELECTRONIC DICTIONARY WITH LANGUAGE SYNTHESIS. |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
JPS6050600A (ja) * | 1983-08-31 | 1985-03-20 | 株式会社東芝 | 規則合成方式 |
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
JPS6145747U (ja) * | 1984-08-30 | 1986-03-26 | パイオニア株式会社 | カセツト型テ−プレコ−ダ |
US4695975A (en) * | 1984-10-23 | 1987-09-22 | Profit Technology, Inc. | Multi-image communications system |
US4788649A (en) * | 1985-01-22 | 1988-11-29 | Shea Products, Inc. | Portable vocalizing device |
JPS61145356U (hu) * | 1985-02-27 | 1986-09-08 | ||
US4589138A (en) * | 1985-04-22 | 1986-05-13 | Axlon, Incorporated | Method and apparatus for voice emulation |
US5175803A (en) * | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
JP2595235B2 (ja) * | 1987-03-18 | 1997-04-02 | 富士通株式会社 | 音声合成装置 |
JPS63285598A (ja) * | 1987-05-18 | 1988-11-22 | ケイディディ株式会社 | 音素接続形パラメ−タ規則合成方式 |
EP0372734B1 (en) * | 1988-11-23 | 1994-03-09 | Digital Equipment Corporation | Name pronunciation by synthesizer |
JPH02239292A (ja) * | 1989-03-13 | 1990-09-21 | Canon Inc | 音声合成装置 |
US5091931A (en) * | 1989-10-27 | 1992-02-25 | At&T Bell Laboratories | Facsimile-to-speech system |
AU632867B2 (en) * | 1989-11-20 | 1993-01-14 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US6150011A (en) * | 1994-12-16 | 2000-11-21 | Cryovac, Inc. | Multi-layer heat-shrinkage film with reduced shrink force, process for the manufacture thereof and packages comprising it |
US5729741A (en) * | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
DE19610019C2 (de) | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2002034478A1 (fr) * | 2000-10-23 | 2002-05-02 | Sony Corporation | Robot pourvu de jambes, procede de commande du comportement d"un tel robot, et support de donnees |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US6988068B2 (en) * | 2003-03-25 | 2006-01-17 | International Business Machines Corporation | Compensating for ambient noise levels in text-to-speech applications |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN1831896A (zh) * | 2005-12-08 | 2006-09-13 | 曲平 | 一种语音发声装置 |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
KR100699050B1 (ko) | 2006-06-30 | 2007-03-28 | 삼성전자주식회사 | 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8027837B2 (en) * | 2006-09-15 | 2011-09-27 | Apple Inc. | Using non-speech sounds during text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
KR101904293B1 (ko) | 2013-03-15 | 2018-10-05 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6728755B2 (ja) * | 2015-03-25 | 2020-07-22 | ヤマハ株式会社 | 歌唱音発音装置 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
RU2591640C1 (ru) * | 2015-05-27 | 2016-07-20 | Александр Юрьевич Бредихин | Способ модификации голоса и устройство для его осуществления (варианты) |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN113593521B (zh) * | 2021-07-29 | 2022-09-20 | 北京三快在线科技有限公司 | 语音合成方法、装置、设备及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US4130730A (en) * | 1977-09-26 | 1978-12-19 | Federal Screw Works | Voice synthesizer |
-
1976
- 1976-09-08 BG BG7600034160A patent/BG24190A1/xx unknown
-
1977
- 1977-08-31 SE SE7709773A patent/SE7709773L/xx not_active Application Discontinuation
- 1977-09-01 DD DD77200850A patent/DD143970A1/de not_active IP Right Cessation
- 1977-09-05 GB GB37045/77A patent/GB1592473A/en not_active Expired
- 1977-09-05 HU HU77EI760A patent/HU176776B/hu unknown
- 1977-09-07 FR FR7727129A patent/FR2364522A1/fr active Granted
- 1977-09-07 SU SU772520760A patent/SU691918A1/ru active
- 1977-09-08 JP JP52108323A patent/JPS5953560B2/ja not_active Expired
- 1977-09-08 DE DE19772740520 patent/DE2740520A1/de not_active Withdrawn
-
1979
- 1979-08-02 US US06/063,169 patent/US4278838A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE2740520A1 (de) | 1978-04-20 |
JPS5367301A (en) | 1978-06-15 |
SE7709773L (sv) | 1978-03-09 |
SU691918A1 (ru) | 1979-10-15 |
DD143970A1 (de) | 1980-09-17 |
BG24190A1 (en) | 1978-01-10 |
FR2364522A1 (fr) | 1978-04-07 |
JPS5953560B2 (ja) | 1984-12-25 |
FR2364522B3 (hu) | 1980-07-04 |
GB1592473A (en) | 1981-07-08 |
US4278838A (en) | 1981-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
HU176776B (en) | Method and apparatus for synthetizing speech | |
US5704007A (en) | Utilization of multiple voice sources in a speech synthesizer | |
US5930755A (en) | Utilization of a recorded sound sample as a voice source in a speech synthesizer | |
EP0140777B1 (en) | Process for encoding speech and an apparatus for carrying out the process | |
EP1643486B1 (en) | Method and apparatus for preventing speech comprehension by interactive voice response systems | |
US20040073428A1 (en) | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database | |
US7047194B1 (en) | Method and device for co-articulated concatenation of audio segments | |
US5321794A (en) | Voice synthesizing apparatus and method and apparatus and method used as part of a voice synthesizing apparatus and method | |
US7558727B2 (en) | Method of synthesis for a steady sound signal | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JP4510631B2 (ja) | 音声波形の連結を用いる音声合成 | |
JPH08248993A (ja) | 音韻時間長制御方法 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JPS5880699A (ja) | 音声合成方式 | |
JPH02153397A (ja) | 音声収録装置 | |
JPH113096A (ja) | 音声合成方法及び音声合成システム | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JP4305022B2 (ja) | データ作成装置、プログラム及び楽音合成装置 | |
JPH04125699A (ja) | 残差駆動型音声合成装置 | |
Butler et al. | Articulatory constraints on vocal tract area functions and their acoustic implications | |
May et al. | Speech synthesis using allophones | |
Sorace | The dialogue terminal | |
Yea et al. | Formant synthesis: Technique to account for source/tract interaction | |
Randolph et al. | Synthesis of continuous speech by concatenation of isolated words |