JP2010282612A - Ttsサーバーを用いたウェブリーダーシステム及びその方法 - Google Patents

Ttsサーバーを用いたウェブリーダーシステム及びその方法 Download PDF

Info

Publication number
JP2010282612A
JP2010282612A JP2010103816A JP2010103816A JP2010282612A JP 2010282612 A JP2010282612 A JP 2010282612A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010282612 A JP2010282612 A JP 2010282612A
Authority
JP
Japan
Prior art keywords
web
tts
reader
text
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010103816A
Other languages
English (en)
Inventor
Young Gug Kim
グック キム、ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOICEWARE CO Ltd
Original Assignee
VOICEWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOICEWARE CO Ltd filed Critical VOICEWARE CO Ltd
Publication of JP2010282612A publication Critical patent/JP2010282612A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ウェブページでマウスポインターが位置する部分のテキストを音声で再生するTTSサービスを、オペレーティングシステムやウェブブラウザーの種類に関わらず提供する。
【解決手段】ウェブリーダーシステムは、ウェブリーダーWASクライアント30、ウェブリーダーWAS40、TTSサーバー50、TTSエンジン60、音声データベース70を備え、テキストを抽出する段階、抽出したテキストをTTSエンジンに伝送する段階、音声を合成する段階、合成された音声データをTTSウェブリーダークライアントに伝送する段階、前記伝送された音声データに基づいてウェブブラウザーで音声を再生することができるようにウェブページを修正する段階、及び音声を再生する段階により駆動される。ジャバスクリプトを用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出す。
【選択図】図1

Description

本発明は、TTSサーバーを用いたウェブリーダーシステム及び方法に関する。より具体的に本発明は、ウェブページでマウスポインターが位置する部分のテキストを抽出して音声に合成し、それを再生するシステム及び方法に関する。
最近、TTS(Text To Speech)技術が急に発達することに応じて、様々な方法でTTS機能を応用して生活の便宜を提供しようとする研究が活発である。
電話機を通じて音声で銀行口座、株式、天気などの情報を提供受けることのできるシステムがあり、最近には受信したイーメールをTTSを通じて音声で聞くことのできる製品も出ている。
特に、インターネット上では、インターネットコンテンツを音声に合成してくれるとか、音声で望むウェブページにアクセスできるようにしてくれる技術が提案されている。
しかしながら、既存のこのようなウェブページでTTS機能を用いるためには、オペレーティングシステムやウェブブラウザーの種類に従属的な機能(例えば、Active X(登録商標))を用いて制限的なオペレーティングシステム(例えば、Windows(登録商標))と制限的なウェブブラウザー(例えば、Internet Explorer(登録商標))を使用すべきだとの問題点がある。
それで、本発明者は、運営体制やウェブブラウザーの種類に関わらず動作するようにするため、ジャバスクリプト(登録商標)を用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すシステムを開発することに至る。
本発明の目的は、ウェブページでTTSサービスを提供することにある。
本発明の他の目的は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供することにある。
本発明の前記及びその他の目的は、下記で説明される本発明によりすべて達成することができる。
本発明のTTSサーバーを用いたウェブリーダーシステムは、オペレーティングシステムやウェブブラウザーの種類に関わらず動作するTTSサービスを提供するために、ジャバスクリプトを用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すことを特徴とする。
本発明は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供する。
本発明に係るTTSサーバーを用いたウェブリーダーシステムの構成図である。 本発明のTTSサーバーを用いたウェブリーダーシステムの動作の流れ図である。 本発明のTTSウェブリーダーWASクライアントのテキストを抽出するソースコードの一例である。
図1は、本発明に係るシステムの概略的な構成図である。
図1を参照すると、本発明は、ウェブリーダーWASクライアント(30)、ウェブリーダーWAS(40)、TTSサーバー(50)、TTSエンジン(60)、音声データベース(70)からなる。
ウェブリーダーWASクライアント(30)は、ウェブページでマウスポインターが位置する部分のテキストを抽出し、抽出したテキストをウェブリーダーWASに伝達し、ウェブリーダーWASから伝達された音声データをウェブブラウザー(10)で再生することができるようにウェブページ(20)を実時間で修正する。このとき、テキストを抽出して音声データを再生するようにウェブページを実時間で修正することにはジャバスクリプトを用いる。
ウェブリーダーWAS(40)は、ウェブリーダーWASクライアント(30)が抽出したテキストをTTSサーバーに伝送し、TTSサーバーから音声データを受信してウェブブラウザーが解析することができるように、適当なウェブプロトコルを用いてウェブリーダーWASクライアント(30)に再伝送する。
TTSサーバー(50)は、ウェブリーダーWAS(40)から受信したテキスト情報をTTSエンジンに伝送して、TTSエンジンで合成された音声データをTCP/IPを通じてウェブリーダーWASにサービスする。
TTSエンジン(60)は、ウェブリーダーWASクライアント(30)が抽出したテキスト情報に基づいて、音声データベース(70)を用いて音声データを合成する。
音声データベース(70)は、TTSエンジンで用いる音声が入っているデータベースである。
図2は、本発明のTTSサーバーを用いたウェブリーダーシステムの動作の流れ図であって、動作の順序は次のようである。
第1の段階は、テキストを抽出する段階である。TTSウェブリーダーWASクライアント(30)は、ウェブブラウザー(10)を通じて接続したウェブサーバーに位置したウェブページ(20)で現在マウスポインターが位置する部分の有効なテキストをジャバスクリプトを用いて抽出する。
図3は、TTSウェブリーダーWASクライアント(30)のテキストを抽出するソースコードの一例である。なお、図3に示すソースコードの著作権は出願人にある。
第2の段階は、第1の段階で抽出したテキストをTTSエンジンに伝送する段階である。TTSウェブリーダーWASクライアント(30)は、抽出したテキストをTTSウェブリーダーWAS(40)に伝達する。TTSウェブリーダーWASは、伝達されたテキストを再度TTSサーバー(50)に伝達し、TTSサーバーに伝達されたテキストはTTSエンジンに伝送される。
第3の段階は、第2の段階でTTSエンジン(60)に伝送されたテキストに基づいて音声を合成する段階である。TTSエンジンは、伝送されたテキストに該当する音声データを音声データベース(70)から検索して音声を合成する。
第4の段階は、合成された音声データをTTSウェブリーダークライアントに伝送する段階である。前記合成された音声データは、TTSサーバー(50)を経てウェブリーダーWAS(40)に伝送され、ウェブリーダーWASは、音声データをウェブプロトコルに合わせてウェブリーダーWASクライアント(30)に再伝送する。
第5の段階は、伝送された音声データに基づいてウェブページを修正する段階である。ウェブリーダーWASクライアント(30)は、ウェブリーダーWAS(40)から伝達された音声データをウェブブラウザーで再生することができるようにウェブページ(20)を実時間で修正する。
第6の段階は、音声を再生する段階である。ウェブリーダーWASクライアント(30)がウェブページ(20)を修正すると、ウェブブラウザー(10)は修正されたウェブページを通じて音声を再生することになる。
したがって、本発明のTTSサーバーを用いたウェブリーダーシステム及びその方法は、ウェブページの上にマウスポインターを位置させるとマウスポインターが位置する部分のテキストを抽出して音声データを合成し、合成された音声データをウェブブラウザーで実時間で再生することになる。
本発明の単純な変形ないし変更は、この分野の通常の知識を有する者により容易に実施でき、このような変形や変更はすべて本発明の領域に含まれる。
10…ウェブブラウザー、20…ウェブページ、30…ウェブリーダーWASクライアント、40…ウェブリーダーWAS、50…TTSサーバー、60…TTSエンジン、70…音声データベース。

Claims (4)

  1. ウェブページでマウスポインターが位置する部分のテキストを抽出し、音声データをウェブブラウザーで再生することができるようにウェブページを実時間で修正するウェブリーダーWASクライアント(30)と、
    前記ウェブリーダーWASクライアントからテキスト情報を受信して、音声データを前記ウェブリーダーWASクライアントに伝送するウェブリーダーWAS(40)と、
    前記ウェブリーダーWASからテキスト情報を受信して、TCP/IPを用いて前記ウェブリーダーWASに音声情報をサービスするTTSサーバー(50)と、
    音声データを貯蔵して管理する音声データベース(70)と、
    前記ウェブリーダーWASクライアントで抽出したテキスト情報をTTSサーバーから受信し、前記音声データベースを用いて音声データを合成し、前記合成した音声データをTTSサーバーに再伝送するTTSエンジン(60)とを
    含むTTSサーバーを用いたウェブリーダーシステム。
  2. 前記ウェブリーダーWASクライアントは、テキストを抽出して、ウェブページを実時間で修正することにジャバスクリプトを用いることを特徴とする、請求項1に記載のTTSサーバーを用いたウェブリーダーシステム。
  3. TTSウェブリーダークライアントを用いてマウスポインターが位置する部分のテキストを抽出する段階と、
    前記抽出したテキストをTTSエンジンに伝送する段階と、
    前記伝送されたテキストに基づいて音声を合成する段階と、
    前記合成された音声データをTTSウェブリーダークライアントに伝送する段階と、
    前記伝送された音声データに基づいてウェブブラウザーで音声を再生することができるようにウェブページを修正する段階と、
    音声を再生する段階とを
    含むTTSサーバーを用いたウェブリーダーシステムを駆動する方法。
  4. 前記マウスポインターが位置する部分のテキストを抽出して、ウェブブラウザーで音声を再生することができるようにウェブページを修正することにジャバスクリプトを用いることを特徴とする、請求項3に記載のTTSサーバーを用いたウェブリーダーシステムを駆動する方法。
JP2010103816A 2009-06-05 2010-04-28 Ttsサーバーを用いたウェブリーダーシステム及びその方法 Pending JP2010282612A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090049938A KR101040585B1 (ko) 2009-06-05 2009-06-05 Tts 서버를 이용한 웹 리더 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
JP2010282612A true JP2010282612A (ja) 2010-12-16

Family

ID=43507267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010103816A Pending JP2010282612A (ja) 2009-06-05 2010-04-28 Ttsサーバーを用いたウェブリーダーシステム及びその方法

Country Status (2)

Country Link
JP (1) JP2010282612A (ja)
KR (1) KR101040585B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101406983B1 (ko) * 2013-09-10 2014-06-13 김길원 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
KR20210121812A (ko) 2020-03-31 2021-10-08 (주)에듀윌 텍스트 편집기 프로그램, 및 이와 개인화된 tts 서버를 이용한 학습 서비스 제공 방법
KR20230166189A (ko) 2022-05-30 2023-12-07 이어가다 주식회사 화자 별 특징 벡터를 바탕으로 사용자가 선호하는 음성을 추천하는 전자 장치, 및 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366853A (ja) * 2001-03-01 2002-12-20 Akiyasu Cho 通信ネットワークを介した音声情報提供方法及びシステム並びに通信ネットワークを介してバーチャルに構築されるサイトにおける音声運用方法
JP2008096489A (ja) * 2006-10-06 2008-04-24 Pentax Corp 音声化システム、音声化方法、音声化サーバ及び音声化プログラム
JP2009075625A (ja) * 2007-07-20 2009-04-09 Hidemi Yamamoto 情報処理システム及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100923942B1 (ko) * 2007-12-04 2009-10-29 엔에이치엔(주) 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366853A (ja) * 2001-03-01 2002-12-20 Akiyasu Cho 通信ネットワークを介した音声情報提供方法及びシステム並びに通信ネットワークを介してバーチャルに構築されるサイトにおける音声運用方法
JP2008096489A (ja) * 2006-10-06 2008-04-24 Pentax Corp 音声化システム、音声化方法、音声化サーバ及び音声化プログラム
JP2009075625A (ja) * 2007-07-20 2009-04-09 Hidemi Yamamoto 情報処理システム及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
KR20100131172A (ko) 2010-12-15
KR101040585B1 (ko) 2011-06-10

Similar Documents

Publication Publication Date Title
US9530415B2 (en) System and method of providing speech processing in user interface
CN108615527B (zh) 基于同声传译的数据处理方法、装置和存储介质
TWI249729B (en) Voice browser dialog enabler for a communication system
RU2010132237A (ru) Способ и устройство для реализации распределенных мультимодальных приложений
JP5542156B2 (ja) 発話処理のための認識器のマークアップ言語ベースの選択及び利用
US8032378B2 (en) Content and advertising service using one server for the content, sending it to another for advertisement and text-to-speech synthesis before presenting to user
US20090055186A1 (en) Method to voice id tag content to ease reading for visually impaired
KR20180091707A (ko) 패킷화된 오디오 신호의 변조
WO2018054181A1 (zh) 一种虚拟资源的展示方法、客户端及插件
TW200809769A (en) Sharing voice application processing via markup
CN103514882B (zh) 一种语音识别方法及***
JP5441455B2 (ja) ネットワーク基盤のサービス提供システム
CN1984201A (zh) 语音服务***和方法
US8095673B2 (en) Generic format for efficient transfer of data
JP2009009309A (ja) サーバ・システムならびにその動作制御方法およびその制御プログラム
JP2010282612A (ja) Ttsサーバーを用いたウェブリーダーシステム及びその方法
US20230169990A1 (en) Emotionally-aware voice response generation method and apparatus
Di Fabbrizio et al. A speech mashup framework for multimodal mobile services
GB2330429A (en) Data stream enhancement
KR102471071B1 (ko) 오디오 기반 컴퓨터 프로그램 출력의 수정
SE0201898D0 (sv) A method and an apparatus for styling a web service
JP2005151553A (ja) ボイス・ポータル
JP2011150521A (ja) 情報処理装置、メッセージ伝達方法およびプログラム
KR100533218B1 (ko) 인터넷에서 링크형태의 실시간 음성변환 BBS(Bulletin Board System) 서비스 방법
NO20052723L (no) Fremgangsmate for generering av en lydfil pa en server ved en sporring fra en mobiltelefon

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130129