WO2013061719A1 - Device for providing text data appended with speech synthesis information, and method for providing text data - Google Patents

Device for providing text data appended with speech synthesis information, and method for providing text data Download PDF

Info

Publication number
WO2013061719A1
WO2013061719A1 PCT/JP2012/074371 JP2012074371W WO2013061719A1 WO 2013061719 A1 WO2013061719 A1 WO 2013061719A1 JP 2012074371 W JP2012074371 W JP 2012074371W WO 2013061719 A1 WO2013061719 A1 WO 2013061719A1
Authority
WO
WIPO (PCT)
Prior art keywords
control
text
sentence
data
text data
Prior art date
Application number
PCT/JP2012/074371
Other languages
French (fr)
Japanese (ja)
Inventor
宗一郎 後藤
玲奈 中谷
剛志 許斐
Original Assignee
日立公共システムエンジニアリング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立公共システムエンジニアリング株式会社 filed Critical 日立公共システムエンジニアリング株式会社
Priority to CN201280044942.9A priority Critical patent/CN103797453A/en
Publication of WO2013061719A1 publication Critical patent/WO2013061719A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • G06F3/04855Interaction with scrollbars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the present invention relates to a text data providing apparatus with speech synthesis information and a text data providing method.
  • HTML Hyper Text Markup Language
  • Patent Document 1 describes a speech synthesizer for speech synthesis of text data.
  • Patent Document 2 describes that a homepage document is newly created or an existing document is read to be a homepage document, a reading range tag is specified, a reading range tag is inserted, and a reading identifier is specified. It is described that the speech reading range is passed to the reading detection text program identified by the above.
  • Patent Document 3 describes that a read-out part is specified in acquired content, the specified read-out part is read out with sound data, and the user is responded with sound data.
  • Patent Document 3 describes that when a screen part to be scroll-controlled is arranged so as to be hidden, the scroll control is continuously enabled by moving the scroll control to a position where it is not hidden. ing.
  • voice data is generated by using a voice synthesis program for text data selected by a Web server or other server, for example, homepage text data, and transmitted to a user terminal together with the text data.
  • a voice-to-speech operation was performed.
  • a tool for reading out voice data is built in the user terminal.
  • Patent Document 2 a reading range designation tag is inserted into a voice reading range, and a reading text identifier for identifying a reading text detection program is designated as an attribute of the reading range designation tag.
  • a reading range designation tag is inserted into a voice reading range, and a reading text identifier for identifying a reading text detection program is designated as an attribute of the reading range designation tag.
  • the present invention enables the user to arbitrarily read out an arbitrary sentence requested by the user, and makes it possible to read out the voice in a manner convenient for the user by an operation in accordance with the user's intention.
  • the purpose is to provide homepage text with scroll control displayed on the screen so that it can be displayed.
  • the present invention includes speech synthesis information converting means for converting text data described on a Web page into speech synthesis information, and provides speech synthesis information together with text data to a user terminal via a network.
  • Reads text data selected from a plurality of text data stored based on an instruction signal from a user terminal generates voice data for each sentence text of the text data by the voice data generation program, Text data generating means with voice data for each sentence to which the generated voice data for each sentence is attached
  • the scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
  • a scroll control having control items for controlling the voice conversion synthesis program and voice data reading control is attached to the homepage text data with voice data for each sentence so as to perform reading control of the phonetic symbol string for each sentence at the user terminal.
  • the present invention includes speech synthesis information converting means for converting text data described on a Web page into speech synthesis information, and provides speech synthesis information together with text data to a user terminal via a network.
  • a phonetic symbol generation program a voice conversion synthesis program that converts phonetic symbol sequences into speech data, and is displayed in the control panel form on the window screen of the user terminal, and is controlled by clicking the control items that make up the control panel form
  • a database that stores scroll controls
  • the homepage text data selected from a plurality of text data stored based on the instruction signal from the user terminal is read, and the phonetic symbol string generation program reads the homepage text data for each sentence text and the reading order.
  • the scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
  • the homepage text data with the sentence-by-sentence phonetic symbol string is attached with a scroll control having control items for performing the voice conversion synthesis program and the voice data reading control, and the reading analysis of the sentence-by-sentence language analysis data is performed at the user terminal.
  • a homepage text providing device with scroll control which is characterized in that it is transmitted to a user terminal.
  • the present invention also provides a control item with a scroll control, wherein control items for rewinding, forwarding and pausing the generated pronunciation data for each sentence or text data with a phonetic symbol string are added to the scroll control described above.
  • the present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for changing the layout at an arbitrary position on the screen of the scroll control is added to the scroll control described above.
  • the present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for vertically scrolling a control item displayed on the scroll control is added to the scroll control described above.
  • the present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for displaying the screen of the scroll control itself and switching the display is added to the scroll control described above.
  • the present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for displaying that the scroll control itself is activated is added to the scroll control described above.
  • the present invention also provides homepage text with speech synthesis information in which the above-described speech conversion synthesis program and scroll control are not installed in the user terminal, reside in the browser, and disappear when the browser is closed.
  • a data providing device is provided.
  • the present invention includes speech synthesis information converting means for converting homepage text data described on a Web page into speech synthesis information, and provides homepage text data together with homepage text data to a user terminal via a network.
  • the homepage text data providing method by the providing device, By clicking on the control items that make up the control panel form, which are displayed in the control panel form on the window screen of the user terminal, the database, the phonetic symbol generation program, the voice conversion synthesis program that converts and synthesizes the phonetic string into speech data Stores the scroll control that controls the screen, Homepage text data generating means with voice data for each sentence reads homepage text data selected from a plurality of text data stored based on an instruction signal from the user terminal, and the phonetic symbol string generation program executes the homepage text data.
  • Voice data is generated for each sentence text, and the generated phonetic symbol string is attached to each sentence text.
  • the scroll control is provided with a control item for performing voice data reading control of homepage text data with arbitrary voice data for each sentence, and performs reading control of the language analysis data for each sentence at the user terminal, Attached to the text data with voice data for each sentence is a scroll control having control items for performing the voice conversion synthesis program and voice data read-out control, and used so as to perform read-out control of the voice data for each sentence at the user terminal.
  • a homepage text providing method with scroll control which is characterized by being sent to a user terminal.
  • the present invention also provides a homepage text providing method with a scroll control, characterized in that the scroll control described above performs control to rewind, forward and pause the generated text data with a phonetic symbol string for each sentence. To do.
  • the present invention also provides homepage text with speech synthesis information in which the above-described speech conversion synthesis program and scroll control are not installed in the user terminal, reside in the browser, and disappear when the browser is closed. Provide a data provision method.
  • the present invention it is not necessary to install a tool for converting voice data into a user terminal as in the prior art, and the user can arbitrarily instruct and read out any text text.
  • a homepage is provided according to the user's intention, but when the language analysis data generation program is sent to the user terminal, the scroll control is sent at the same time, so there is no need to install it on the user terminal. Therefore, the next roll control in accordance with the user's intention that is easy for the user to use is provided.
  • the block diagram explaining the Example of this invention The figure which shows the structure of the homepage text data provision apparatus with speech synthesis information with a block.
  • FIG. 1 is a block diagram illustrating an embodiment of the present invention.
  • a homepage text data providing apparatus 100 with speech synthesis information according to an embodiment of the present invention includes a server 1 (sometimes referred to as a server system).
  • the server 1 includes a Web server 2 and a user. Terminals are connected via networks 4 and 5.
  • This example can be applied to the provision of text data for various contents including a home page, but a home page as a typical example will be described.
  • the server 1 and the Web server 2 may be configured as an integral unit, but will be described as a separate configuration here.
  • the server 1 stores the phonetic symbol string generation program 11, the speech conversion synthesis program 12, and the scroll control 13 in the database as will be described later.
  • Scroll control is a tool that is displayed in the form of a control panel on the window screen of the user terminal, and controls the screen by clicking (ie, touching) the control items constituting the control form.
  • the user sends a homepage acquisition request in HTML document format from the user terminal 3 to the homepage text data providing apparatus 100 via the network 5.
  • the homepage text data providing apparatus 100 issues an acquisition request to the Web server 2 via the network 4.
  • the Web server 2 stores a large number of home pages in a database.
  • the Web server 2 selects a corresponding home page based on the instruction requested to be acquired.
  • the home page includes various home page text information.
  • this homepage text information is referred to as homepage text data.
  • the text information is referred to as text data.
  • the homepage text data is composed of a plurality of text texts (HTML document).
  • the home page text data is usually formed in units of blocks, and therefore the home page text data can be extracted in units of blocks.
  • the Web server 2 transmits the selected homepage text data to the homepage text data providing apparatus 100 via the network 4. These data are stored in the server 1.
  • the homepage text data providing apparatus 100 analyzes the HTML document of the sent homepage text based on the data stored in the server 1 and creates a phonetic symbol string (language analysis data) that is the original data of the voice data.
  • a phonetic symbol string language analysis data
  • the voice data is not limited to a phonetic symbol string.
  • the homepage text data providing apparatus 100 transmits the text text of the homepage text data with phonetic symbol strings, the voice conversion synthesis program, and the scroll control to the user terminal 3 via the network 5.
  • the user terminal 3 reads out each sentence text of the homepage text data using the transmitted phonetic symbol string as voice data by the voice conversion synthesis program. As a result, sound data is created from the phonetic symbol string and reproduced.
  • the tool for reproducing the voice data is not installed in the user terminal, and the phonetic symbol string, the voice conversion synthesis program, and the scroll control are transmitted from the homepage text data providing apparatus 100. It does not prevent the voice data tool from being already installed in the user terminal 3.
  • the homepage text data providing system 200 including the homepage text data providing apparatus 100 with speech synthesis information is configured.
  • FIG. 2 is a block diagram showing the configuration of the homepage text data providing apparatus 100 with speech synthesis information.
  • homepage text data providing apparatus 100 with speech synthesis information includes input means 21, homepage text data generation means with pronunciation symbol string for each sentence (homepage text data generation means with speech data) 22, scroll control attachment means 23,
  • the transmission means 24, the database 25 stored in the server 1, and the image display means 26 are connected to each other by a communication circuit 27 to exchange data.
  • the homepage text data providing apparatus 100 with speech synthesis information is connected to the Web server 2 via the network 4 and is connected to the user terminal 3 via the network 5.
  • the Web server 2 receives a homepage acquisition request from the homepage text data providing apparatus 100, selects a corresponding homepage, and transmits the homepage text data to the input unit 21.
  • the input means 21 inputs the selected home page text data.
  • the homepage text data is formed as a collection of sentence texts in the HTML document format, and an HTML document that is one sentence text, that is, one document text is provided with a division symbol.
  • the database 25 stores a phonetic symbol string generation program, a voice conversion program, and a scroll control, and stores a homepage text with a phonetic symbol string generated by the homepage text data generation unit 22 with a phonetic symbol string for each sentence and a voice conversion synthesis program.
  • the homepage text data generation means 22 with a sentence-by-sentence symbol string for each sentence divides the document text into several parts using the division symbols of each sentence text.
  • the phonetic symbol string generation of each sentence text is generated using the phonetic symbol string generation program and attached to the homepage text data.
  • Scroll control attachment means 23 attaches scroll control to homepage text data.
  • the transmission means 24 transmits the home page text data to which the phonetic symbol string is attached for each sentence text, the voice conversion synthesis program, and the scroll control to the user terminal 3.
  • the homepage text data and the scroll control to which the generated phonetic symbol string for each sentence text is attached are displayed on the display screen of the image display means 26.
  • the database 25 stores a phonetic symbol string generation program, a voice conversion synthesis program that converts and synthesizes a phonetic symbol string into voice data, and a scroll control.
  • the voice conversion synthesis program for each sentence text is a program that can generate and reproduce voice data from the language analysis data generated for each sentence text, and only resides in the browser, and does not install on the user terminal 3. Closing closes the program.
  • the scroll control is the same.
  • the speech conversion synthesis program is a program that runs on the browser without being installed in the user terminal 3 as described above.
  • the scroll control is a remote control that operates on the browser.
  • the homepage text data generation means 22 with a phonetic symbol string for each sentence reads the homepage text data selected from the database storing a plurality of text data based on the instruction signal from the user terminal 3, and each sentence constituting the homepage text data
  • the divided symbols of the text are read, a phonetic symbol string is generated for each sentence text by the phonetic symbol string generation program, and the generated phonetic symbol string for each sentence is attached to each sentence text.
  • the voice conversion synthesis program uses the pronunciation symbol string for each sentence attached to the sentence text and uses each sentence text as an identifier.
  • a program that converts data is designated as a place where the voice data is to be read out.
  • FIG. 3 shows a display example of the displayed home page. Control the scroll control displayed on the screen to identify and read out text text. Further, “rewinding” and “delaying” can be performed.
  • the user terminal 3 receives the homepage text data with phonetic symbol strings for each sentence and the voice conversion synthesis program, and receives the text text to be read out as voice data from the scroll control.
  • a designation field can also be formed at the beginning of the document text. This is an identifier for identifying that the text of the text itself is read out as voice data.
  • the transmitted voice conversion synthesis program operates as a program on the browser, and reads out the sentence text as an identifier as voice data.
  • a plurality of text texts with identifiers can be specified.
  • voice data is created based on the above-mentioned data transmitted from the user terminal 3.
  • the voice data can be generated by designating a necessary portion (that is, sentence text) when necessary, and reading operation and reading in accordance with the user's intention are possible. .
  • FIG. 4 is an image diagram showing the state transition of the text text in the HTML format.
  • the text text of a part of the homepage text data “I will take a walk today because the weather is good” is transmitted from the Web server 2 to the homepage text data providing apparatus 100.
  • the homepage text data generation means 22 with sentence-by-sentence phonetic symbol string of the homepage text data providing apparatus 100 is a program stored in the database, and divides the clauses in units of divided symbols such as “,” “.”.
  • the division symbol is defined by the following eight symbols. ⁇ ⁇ ⁇ ".” ⁇ "?" ⁇ ⁇ ? ⁇ ⁇ "! ⁇ ⁇ "" (Full-width space) ⁇ "" (Half-width space) Next, a number (attribute) indicating the reading order and a phonetic symbol string consisting of how to read are added. As a result, a phonetic symbol string is added.
  • the generated phonetic symbol string is attached to the homepage text data and transmitted from the transmission means to the user terminal 3 together with the voice conversion synthesis program.
  • User terminal 3 creates speech data from phonetic symbol strings and speaks using a speech conversion program and scroll control.
  • FIG. 5 shows the image shown in FIG. 4 more specifically.
  • the voice conversion synthesis program and scroll control are downloaded to the user terminal together with the homepage text data. Since the downloaded voice conversion program is resident (operably held) in the browser of the user terminal, only the homepage text data is downloaded to the user terminal for the second and subsequent accesses. Since the voice conversion synthesis program and the scroll control are only resident in the browser and are not installed in the user terminal, they disappear when the browser is closed. When the browser is restarted and the server is accessed, the voice conversion program and the scroll control are downloaded to the user terminal together with the homepage text data.
  • FIG. 6 shows a display screen of the scroll control 13, which is formed in a remote control format, and can control each item displayed on the display screen. Details of the control means are configured by adopting a conventional technique.
  • the scroll control 13 includes a display size change item 31, a display / non-display switching item 32, a voice data reading item 33, a phonetic item 34, an arrangement item 35, a usage item 36, and a scroll control of the remote control configuration.
  • the non-display item 37 is a display size change item 31, a display / non-display switching item 32, a voice data reading item 33, a phonetic item 34, an arrangement item 35, a usage item 36, and a scroll control of the remote control configuration.
  • the non-display item 37 The non-display item 37.
  • the display size change item is used to change the display size of the homepage text displayed on the display screen.
  • the display size can be changed in the range of 50-600%, and the selected size is displayed as 100%.
  • the display / non-display switching shutter item 32 is used to change the color of the homepage text displayed on the display screen, change the icon, or change the shape. In this example, it is possible to control color inversion, black and white inversion, black and white intensity, and return to the original color.
  • the speech data read-out item 33 is used to instruct the sound read-out, and includes ON and OFF buttons.
  • the phonetic item 34 is used to add and restore hiragana or romaji.
  • the arrangement item is used to change the arrangement position of the scroll control itself on the display screen.
  • the usage item 36 is used to display an explanation about how to use the scroll control itself.
  • the scroll control non-display item 37 is used to hide the scroll control itself from the display screen.
  • the scroll control 13 having the voice data reading control function is attached to the homepage text data, and the phonetic symbol string for each sentence is read out and transmitted to the user terminal.
  • the scroll control is attached with a control item for performing a reading control of the phonetic symbol string for each sentence, and is attached to the home page text generated by the home page text generating means 100 with the text phonetic symbol string of the server 1 to be used by the user terminal 3. Sent to.
  • the scroll control 13 is added with control items for rewinding, forwarding and pausing the generated text data with pronunciation symbol string for each sentence.
  • a control item for vertically scrolling the control item displayed on the scroll control 13 is added to the scroll control 13.
  • the scroll control 13 includes a control item for performing voice data reading control of the homepage text data with an arbitrary sentence-by-sentence symbol string added, and performs reading control of the sentence-by-sentence pronunciation string at the user terminal.
  • the control panel form is displayed on the window screen of the user terminal 3 and includes the above-described many control items constituting the control panel form.
  • the homepage text data generation means 22 with sentence-by-sentence symbol string of the server 1 attaches a scroll control having a control item for performing read-out control of voice data to the homepage text data with sentence-by-sentence symbol string.
  • the phonetic symbol string for each sentence is read out and transmitted to the user terminal 3.
  • the homepage text data generation means 22 with a pronunciation symbol string for each sentence transmits the text data with a pronunciation symbol string for each sentence and a voice conversion synthesis program to the user terminal 3 via the network 5.
  • FIGS. 7 to 10 show states in which various controls including a reading-out control are performed on the user terminal by operating the scroll control 13 and using the control function of the scroll control.
  • FIG. 7 shows a state in which the arrangement item 35 is used to change the arrangement on the display screen of the user terminal of the scroll control itself.
  • the scroll control 13 is arranged at the left end in the upper display screen 40 and is arranged at the right end in the lower display screen 40 by the arrangement change control.
  • the scroll control 13 By displaying the scroll control 13 on the screen, when the scroll control 13 hides a part of the homepage text on the screen, the scroll control 13 is moved to a position where the part of the homepage text is not hidden.
  • the homepage using the scroll control 13 can be continuously browsed.
  • the display state of the scroll control can be changed by using the display size change item 31.
  • the display size can be changed between 50% and 600%.
  • a scroll button 41 is arranged at the upper end so that the screen of the scroll control 13 is scrolled up and down.
  • display / non-display switching control can be performed using the display / non-display switching item 32.
  • color change item of this item color change such as inversion, black and white inversion, black and white intensity adjustment, and control to return to the original screen can be performed.
  • this item it is possible to perform icon change and shape change control.
  • FIG. 10 shows that the scroll control can be hidden by using the non-display item 37.
  • some items 43 shown in the figure are displayed.
  • an expression that indicates that the present apparatus is being activated even when the remote control is not displayed by scroll control for example, an expression such as switching by animation may be added.
  • the database stores in advance a phonetic symbol string generation program, a scroll control, and a voice conversion synthesis program for converting and synthesizing a phonetic symbol string into voice data.
  • a homepage acquisition instruction is issued from the user terminal 3 to the Web server 2 via the homepage text data providing apparatus 100, and the Web server 2 selects a homepage based on this instruction and provides a server that provides speech synthesis information to the user terminal.
  • Homepage text data providing apparatus 100 reads the text text of the selected homepage. The divided symbol of each sentence text is discriminated by the phonetic symbol string generation program.
  • the phonetic symbol string is generated by the phonetic symbol string generation program. Thereby, a phonetic symbol string for each sentence is created. Attach the generated phonetic symbol string to the text.
  • the sentence text is a specific sentence text for each sentence text, and the specific sentence text itself constitutes an identifier.
  • ⁇ ⁇ Voice conversion synthesis program and scroll control are attached to homepage text data consisting of phonetic symbol strings for each sentence of the specified sentence text.
  • Homepage text data in which phonetic symbol strings are generated for each generated text text, voice conversion synthesis program, and scroll control are transmitted to the user terminal.
  • the user obtains the phonetic symbol string, speech conversion synthesis program, and scroll control generated for each homepage text data intended for the user terminal.
  • These phonetic symbol strings and the speech conversion synthesis program are data and programs that are operated on the browser, and these programs and scroll controls are not installed in the user terminal.
  • This example makes it possible to read out speech with improved functions. This will improve accessibility for older people, people with weak vision, and people who are not good at color identification. This makes it easier to use the home page.
  • the user designates an arbitrary sentence text by operating the user terminal and instructs the voice data to be read by scroll control. Since this sentence text has the function of an identifier, this sentence text is converted and synthesized into voice data by the phonetic symbol sequence attached to this sentence text and the function / function of the voice conversion synthesis program. Is read out.
  • This voice data can be read aloud repeatedly by instructing the text text to be read, and any text text can be designated, that is, rewinded and advanced.
  • the homepage text data providing method of speech synthesis information when the homepage text is used as the text data includes the following steps.
  • a step of storing a phonetic symbol string generation program and a voice conversion synthesis program for converting and synthesizing a phonetic symbol string into speech data in the database Reading homepage text data selected from the plurality of text data, generating a phonetic symbol string for each sentence text by the phonetic symbol string generation program, and attaching the generated phonetic symbol string to each sentence text Means for transmitting homepage text data, a speech synthesis conversion program, and a scroll control, each of which has a sentence symbol string attached to each sentence text, to the user terminal via the network;
  • the utterance data may be created on the homepage (server) side or the user terminal side.
  • server homepage
  • voice reading it is possible to create voice data only when needed (minutes), so simple reading operations and voice readings in line with the user's intentions Is possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

[Problem] To provide a sentence text for which a scroll control is displayed on a screen so that, together with enabling an operation for arbitrarily reading aloud an arbitrary user-requested text, speech data can be conveniently read aloud to the user in accordance with an operation that complies with user intent. [Solution] A control item, which controls the reading aloud of speech data for arbitrary text data having a phonetic symbol string for each sentence, is added to the scroll control, and means for creating text-to-speech home page text data attaches the scroll control having the control item for controlling the reading aloud of the speech data to the text-to-speech-enabled home page text data, and transmits the scroll control to the user terminal to control the text-to-speech read aloud at the user terminal.

Description

音声合成情報付きのテキストデータ提供装置及びテキストデータ提供方法Text data providing apparatus with speech synthesis information and text data providing method
 本発明は、音声合成情報付きのテキストデータ提供装置及びテキストデータ提供方法に関する。 The present invention relates to a text data providing apparatus with speech synthesis information and a text data providing method.
 インターネットのホームページを含めたある種のテキストデータは、HTML(Hyper Text Markup Language)で記述される。 Certain types of text data including Internet homepages are described in HTML (Hyper Text Markup Language).
 テキストデータなどの文字データを音声データに変換する音声合成システムが存在する。 There are speech synthesis systems that convert text data and other text data into speech data.
 特許文献1には、テキストデータを音声合成する音声合成装置が記載されている。 Patent Document 1 describes a speech synthesizer for speech synthesis of text data.
 特許文献2には、ホームページの文書を新規作成するか、または既存の文書を読み込んでホームページの文書とすることが記載され、文書の読み上げ範囲を指定して、読み上げ範囲タグを挿入し、読み上げ識別子により識別される読み上げ検出テキストプログラムに、音声読み上げ範囲を渡すことが記載されている。 Patent Document 2 describes that a homepage document is newly created or an existing document is read to be a homepage document, a reading range tag is specified, a reading range tag is inserted, and a reading identifier is specified. It is described that the speech reading range is passed to the reading detection text program identified by the above.
 特許文献3には、取得したコンテンツの中で読み上げ箇所を特定し、特定した読み上げ箇所部分を音声データで読み上げてユーザに音声データで応答することが記載されている。 Patent Document 3 describes that a read-out part is specified in acquired content, the specified read-out part is read out with sound data, and the user is responded with sound data.
 特許文献3には、スクロールコントロールする画面部品が隠されるように配置されたとき、スクロールコントロールを隠れない位置に移動することによって、スクロールコントロールを使ったスクロールを継続して可能にすることが記載されている。 Patent Document 3 describes that when a screen part to be scroll-controlled is arranged so as to be hidden, the scroll control is continuously enabled by moving the scroll control to a position where it is not hidden. ing.
特開2003-140673号公報JP 2003-140673 A 特開2001-109612号公報JP 2001-109612 A 特開2003-99079号公報JP 2003-99079 A 特開2003-208255号公報JP 2003-208255 A
 従来、Webサーバで、あるいはその他のサーバで選択されたテキストデータ、例えばホームページテキストデータについて音声合成プログラムを用いて音声データを生成し、テキストデータと共に利用者端末に送信し、利用者はその端末でテキストデータを閲覧する時に、音声読み上げ操作を行っていた。従来例にあっては、音声データを読み上げるツールは、利用者端末に内蔵されている。 Conventionally, voice data is generated by using a voice synthesis program for text data selected by a Web server or other server, for example, homepage text data, and transmitted to a user terminal together with the text data. When reading text data, a voice-to-speech operation was performed. In the conventional example, a tool for reading out voice data is built in the user terminal.
 しかし、このようなツールを利用者端末にインストールするには、管理者権限が必要とされ、インストールという行為自体が面倒なために利用者に敬遠されて来た。 However, in order to install such a tool on a user terminal, administrator authority is required, and the act of installation itself is troublesome and has been avoided by users.
 特許文献2には、音声読み上げ範囲に、読み上げ範囲指定タグを挿入し、読み上げテキスト検出プログラムを識別するための読み上げテキスト識別子を読み上げ範囲指定タグの属性として指定することを行っているが、この例にあっても音声読み上げに当っては、音声読み上げのためのツールを利用者端末にインストールすることを要するものとなっている。 In Patent Document 2, a reading range designation tag is inserted into a voice reading range, and a reading text identifier for identifying a reading text detection program is designated as an attribute of the reading range designation tag. However, when reading aloud, it is necessary to install a tool for reading aloud into the user terminal.
 利用者には、テキストデータの任意の位置にある文章を読み上げたいとする希望がある。このため、利用者の意向に沿った操作が求められる。読み上げのためのツールを利用者端末にインストールすることは面倒なために利用者に敬遠されるばかりでなく、従来例のようにサーバ側で一括して音声データに変換しているため、利用者が求める任意の位置、すなわち任意の文章について任意に読み上げを操作できず、読み上げはサーバ側で一括して変換した音声データ全体について読み上げがなされていて、利用者に意向に沿った操作がなされないでいる。 The user wants to read a sentence at an arbitrary position in the text data. For this reason, the operation | movement along a user's intention is calculated | required. It is troublesome to install a reading tool on the user terminal, so it is not avoided by the user, but it is converted into voice data at the server side as in the conventional example. Can not be arbitrarily read out for any position that is required, that is, any text is read out, the entire voice data that has been converted collectively on the server side is read out, and the operation according to the intention is not made to the user It is out.
 また、既存の利用者端末で音声合成のためのツールがインストールされている場合にあっても、インストールされたツールを使用しなくても利用者の意向に沿った操作が求められる。 In addition, even when a tool for speech synthesis is installed on an existing user terminal, an operation in accordance with the user's intention is required without using the installed tool.
 また、特許文献3に記載された発明に会っても、スクロールコントロールは、利用者端末にインストールされなければならず、インストールが面倒で苦手な利用者にとっては使い易いものとはなっていない。 Even when the invention described in Patent Document 3 is met, the scroll control must be installed in the user terminal, and is not easy to use for users who are troublesome to install.
 本発明は、かかる点に鑑みて利用者が求める任意の文章について任意に読み上げる操作を可能にしたことに合わせて、利用者の意向に沿った操作によって利用者に便利なようにして音声読み上げのできるように、スクロールコントロールを画面表示するようにしたホームページテキストを提供することを目的とする。 In consideration of such points, the present invention enables the user to arbitrarily read out an arbitrary sentence requested by the user, and makes it possible to read out the voice in a manner convenient for the user by an operation in accordance with the user's intention. The purpose is to provide homepage text with scroll control displayed on the screen so that it can be displayed.
 本発明は、Webページに記述されたテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してテキストデータと共に音声合成情報を利用者端末に提供する音声合成情報付きのテキストデータ提供装置において、
 音声データ生成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納するデータベースと、
 利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたテキストデータを読み込み、前記音声データ生成プログラムによって、テキストデータの文章テキスト毎に音声データを生成し、各文章テキストに生成した文章毎音声データを添付する文章毎音声データ付きテキストデータ生成手段と、を備え、
 前記スクロールコントロールが、任意の文章毎言語解析データ付きテキストデータの音声データ読み上げ制御を行う制御項目を備え、
 前記文章毎音声データ付きホームページテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールが添付されて、利用者端末で文章毎発音記号列の読み上げ制御を行うようにして利用者端末へ送信させること
 を特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。
The present invention includes speech synthesis information converting means for converting text data described on a Web page into speech synthesis information, and provides speech synthesis information together with text data to a user terminal via a network. In the text data providing device,
A database for storing a scroll control that is displayed in the control panel form on the voice data generation program and the window screen of the user terminal, and that performs screen control by clicking a control item constituting the control panel form;
Reads text data selected from a plurality of text data stored based on an instruction signal from a user terminal, generates voice data for each sentence text of the text data by the voice data generation program, Text data generating means with voice data for each sentence to which the generated voice data for each sentence is attached,
The scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
A scroll control having control items for controlling the voice conversion synthesis program and voice data reading control is attached to the homepage text data with voice data for each sentence so as to perform reading control of the phonetic symbol string for each sentence at the user terminal. A homepage text providing device with scroll control, which is characterized in that it is transmitted to the user terminal.
 本発明は、Webページに記述されたテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してテキストデータと共に音声合成情報を利用者端末に提供する音声合成情報付きのテキストデータ提供装置において、
 発音記号列生成プログラム、発音記号列を音声データに変換合成する音声変換合成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納するデータベースと、
 利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたホームページテキストデータを読み込み、前記発音記号列生成プログラムによって、ホームページテキストデータの文章テキスト毎に読む順序と読み方とからなる発音記号列を生成し、各文章テキストに生成した文章毎発音記号列を添付する文章毎発音記号列付きホームページテキストデータ生成手段と、を備え、
 前記スクロールコントロールが、任意の文章毎言語解析データ付きテキストデータの音声データ読み上げ制御を行う制御項目を備え、
 前記文章毎言発音記号列付きホームページテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールを添付して、利用者端末で文章毎言語解析データの読み上げ制御を行うようにして利用者端末へ送信させること
 を特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。
The present invention includes speech synthesis information converting means for converting text data described on a Web page into speech synthesis information, and provides speech synthesis information together with text data to a user terminal via a network. In the text data providing device,
A phonetic symbol generation program, a voice conversion synthesis program that converts phonetic symbol sequences into speech data, and is displayed in the control panel form on the window screen of the user terminal, and is controlled by clicking the control items that make up the control panel form A database that stores scroll controls
The homepage text data selected from a plurality of text data stored based on the instruction signal from the user terminal is read, and the phonetic symbol string generation program reads the homepage text data for each sentence text and the reading order. A homepage text data generating means with a phonetic symbol string for each sentence that generates a phonetic symbol string and attaches the phonetic symbol string generated for each sentence text;
The scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
The homepage text data with the sentence-by-sentence phonetic symbol string is attached with a scroll control having control items for performing the voice conversion synthesis program and the voice data reading control, and the reading analysis of the sentence-by-sentence language analysis data is performed at the user terminal. Provided is a homepage text providing device with scroll control, which is characterized in that it is transmitted to a user terminal.
 本発明は、また、上述したスクロールコントロールに、生成された文章毎発音データ又は発音記号列付きテキストデータの巻き戻し、先送り及び一時停止させる制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。 The present invention also provides a control item with a scroll control, wherein control items for rewinding, forwarding and pausing the generated pronunciation data for each sentence or text data with a phonetic symbol string are added to the scroll control described above. Provide homepage text provision device.
 本発明は、また、上述したスクロールコントロールに、該スクロールコントロール自体の画面の任意の位置にレイアウト変更させる制御項目が付加されることを特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。 The present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for changing the layout at an arbitrary position on the screen of the scroll control is added to the scroll control described above.
 本発明は、また、上述したスクロールコントロールに、該スクロールコントロールに表示された制御項目を上下方向にスクロールさせる制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。 The present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for vertically scrolling a control item displayed on the scroll control is added to the scroll control described above.
 本発明は、また、上述したスクロールコントロールに、該スクロールコントロール自体の画面を表示、表示の切り替えを行う制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。 The present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for displaying the screen of the scroll control itself and switching the display is added to the scroll control described above.
 本発明は、また、上述したスクロールコントロールに、該スクロールコントロール自体が起動中であることを表示する制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置を提供する。 The present invention also provides a homepage text providing apparatus with a scroll control, characterized in that a control item for displaying that the scroll control itself is activated is added to the scroll control described above.
 本発明は、また、上述した音声変換合成プログラム及びスクロールコントロールが、利用者端末にインストールされず、そのブラウザ内に常駐し、ブラウザを閉じると消滅することを特徴とする音声合成情報付きのホームページテキストデータ提供装置を提供する。 The present invention also provides homepage text with speech synthesis information in which the above-described speech conversion synthesis program and scroll control are not installed in the user terminal, reside in the browser, and disappear when the browser is closed. A data providing device is provided.
 本発明は、Webページに記述されたホームページテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してホームページテキストデータと共に音声合成情報を利用者端末に提供するホームページテキストデータ提供装置によるホームページテキストデータ提供方法において、
 データベース、発音記号列生成プログラム、発音記号列を音声データに変換合成する音声変換合成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納し、
 文章毎音声データ付きホームページテキストデータ生成手段が、利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたホームページテキストデータを読み込み、前記発音記号列生成プログラムによって、ホームページテキストデータの文章テキスト毎に音声データを生成し、各文章テキストに生成した文章毎発音記号列を添付し、
 前記スクロールコントロールが、任意の文章毎音声データ付きホームページテキストデータの音声データ読み上げ制御を行う制御項目を備え、利用者端末で文章毎言語解析データの読み上げ制御を行うようにし、
 文章毎音声データ付きテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールを添付して、利用者端末で文章毎音声データの読み上げ制御を行うようにして利用者端末へ送信させること
 を特徴とするスクロールコントロール付きのホームページテキスト提供方法を提供する。
The present invention includes speech synthesis information converting means for converting homepage text data described on a Web page into speech synthesis information, and provides homepage text data together with homepage text data to a user terminal via a network. In the homepage text data providing method by the providing device,
By clicking on the control items that make up the control panel form, which are displayed in the control panel form on the window screen of the user terminal, the database, the phonetic symbol generation program, the voice conversion synthesis program that converts and synthesizes the phonetic string into speech data Stores the scroll control that controls the screen,
Homepage text data generating means with voice data for each sentence reads homepage text data selected from a plurality of text data stored based on an instruction signal from the user terminal, and the phonetic symbol string generation program executes the homepage text data. Voice data is generated for each sentence text, and the generated phonetic symbol string is attached to each sentence text.
The scroll control is provided with a control item for performing voice data reading control of homepage text data with arbitrary voice data for each sentence, and performs reading control of the language analysis data for each sentence at the user terminal,
Attached to the text data with voice data for each sentence is a scroll control having control items for performing the voice conversion synthesis program and voice data read-out control, and used so as to perform read-out control of the voice data for each sentence at the user terminal. A homepage text providing method with scroll control, which is characterized by being sent to a user terminal.
 本発明は、また、上述したスクロールコントロールが、生成された文章毎発音記号列付きテキストデータの巻き戻し、先送り及び一時停止させる制御を行うことを特徴とするスクロールコントロール付きのホームページテキスト提供方法を提供する。 The present invention also provides a homepage text providing method with a scroll control, characterized in that the scroll control described above performs control to rewind, forward and pause the generated text data with a phonetic symbol string for each sentence. To do.
 本発明は、また、上述した音声変換合成プログラム及びスクロールコントロールが、利用者端末にインストールされず、そのブラウザ内に常駐し、ブラウザを閉じると消滅することを特徴とする音声合成情報付きのホームページテキストデータ提供方法を提供する。 The present invention also provides homepage text with speech synthesis information in which the above-described speech conversion synthesis program and scroll control are not installed in the user terminal, reside in the browser, and disappear when the browser is closed. Provide a data provision method.
 本発明によれば、従来のように音声データにするツールを利用者端末にインストールすることを要せず、利用者は、任意の文章テキストについて任意に指示して読み上げする操作が可能となり、利用者の意向に沿ったホームページが提供されるが、言語解析データ生成プログラムを利用者端末に送信する時に、同時にスクロールコントロールを送信するようにしているので、利用者端末にインストールすることを要せず、利用者にとって利用し易い利用者の意向に沿った次のロールコントロールが提供されることになる。 According to the present invention, it is not necessary to install a tool for converting voice data into a user terminal as in the prior art, and the user can arbitrarily instruct and read out any text text. A homepage is provided according to the user's intention, but when the language analysis data generation program is sent to the user terminal, the scroll control is sent at the same time, so there is no need to install it on the user terminal. Therefore, the next roll control in accordance with the user's intention that is easy for the user to use is provided.
本発明の実施例を説明するブロック図。The block diagram explaining the Example of this invention. 音声合成情報付きのホームページテキストデータ提供装置の構成をブロックで示す図。The figure which shows the structure of the homepage text data provision apparatus with speech synthesis information with a block. ホームページテキストの画面を示す図。The figure which shows the screen of a homepage text. HTML形式の文章テキストの状態遷移を示すイメージ図。The image figure which shows the state transition of the text text of an HTML format. 図4に示すイメージをより具体的にして示す図。The figure which shows the image shown in FIG. 4 more concretely. スクロールコントロールの外観を示す図。The figure which shows the external appearance of scroll control. スクロールコントロールの表示画面上の配置変更を示す図。The figure which shows arrangement | positioning change on the display screen of scroll control. スクロールコントロールの表示サイズ変更を示す図。The figure which shows the display size change of scroll control. スクロールコントロールの表示/非表示切り替えを示す図。The figure which shows display / non-display switching of scroll control. スクロールコントロールの非表示の例を示す図。The figure which shows the example of non-display of scroll control.
 以下、本発明の実施例を図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
 図1は、本発明の実施例を説明するブロック図である。
 図1において、本発明の実施例の音声合成情報付きのホームページテキストデータ提供装置100は、サーバ1(サーバシステムという場合がある。)を含んで構成され、サーバ1にはWebサーバ2及び利用者端末がネットワーク4,5を介して接続されている。
FIG. 1 is a block diagram illustrating an embodiment of the present invention.
In FIG. 1, a homepage text data providing apparatus 100 with speech synthesis information according to an embodiment of the present invention includes a server 1 (sometimes referred to as a server system). The server 1 includes a Web server 2 and a user. Terminals are connected via networks 4 and 5.
 本実施例は、ホームページを含む各種のコンテンツについてのテキストデータ提供に適用可能であるが、典型的な例としてのホームページについて説明する。 This example can be applied to the provision of text data for various contents including a home page, but a home page as a typical example will be described.
 サーバ1とWebサーバ2とは一体のものとして構成されてもよいが、ここでは別体構成のものとして説明する。 The server 1 and the Web server 2 may be configured as an integral unit, but will be described as a separate configuration here.
 サーバ1は、後術するようにそのデータベースに発音記号列生成プログラム11,音声変換合成プログラム12及びスクロールコントロール13をデータベースに格納する。 The server 1 stores the phonetic symbol string generation program 11, the speech conversion synthesis program 12, and the scroll control 13 in the database as will be described later.
 スクロールコントロールは、利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロール形体を構成する制御項目をクリック(すなわちタッチ)することで画面制御を行うツールである。 Scroll control is a tool that is displayed in the form of a control panel on the window screen of the user terminal, and controls the screen by clicking (ie, touching) the control items constituting the control form.
 このような構成において、利用者は、利用者端末3からHTML文書形式のホームページの取得要求をネットワーク5を介してホームページテキストデータ提供装置100に行う。ホームページテキストデータ提供装置100はネットワーク4を介してWebサーバ2に取得要求する。Webサーバ2は、多数のホームページをデータベースに格納している。 In such a configuration, the user sends a homepage acquisition request in HTML document format from the user terminal 3 to the homepage text data providing apparatus 100 via the network 5. The homepage text data providing apparatus 100 issues an acquisition request to the Web server 2 via the network 4. The Web server 2 stores a large number of home pages in a database.
 Webサーバ2は、取得要求された指示に基づいて該当のホームページを選択する。ホームページは、各種のホームページテキスト情報を含む。以下、このホームページテキスト情報をホームページテキストデータと称する。テキスト情報についてはテキストデータと称する。ホームページテキストデータは、複数の文章テキストから(HTML文書)構成される。ホームページテキストデータはブロック単位で形成されるのは普通であり、従って、ホームページテキストデータはブロック単位で抽出されうる。 The Web server 2 selects a corresponding home page based on the instruction requested to be acquired. The home page includes various home page text information. Hereinafter, this homepage text information is referred to as homepage text data. The text information is referred to as text data. The homepage text data is composed of a plurality of text texts (HTML document). The home page text data is usually formed in units of blocks, and therefore the home page text data can be extracted in units of blocks.
 Webサーバ2は、選択されたホームページテキストデータをネットワーク4を介してホームページテキストデータ提供装置100に送信する。これらのデータはサーバ1に格納される。 The Web server 2 transmits the selected homepage text data to the homepage text data providing apparatus 100 via the network 4. These data are stored in the server 1.
 ホームページテキストデータ提供装置100は、サーバ1に格納されたデータに基づいて、送信されたホームページテキストのHTML文書を解析、音声データの元データとなる発音記号列(言語解析データ)を作成する。以下、本例では音声データとして発音記号列を作成した場合について説明するが、音声データとしては発音記号列に限定されない。 The homepage text data providing apparatus 100 analyzes the HTML document of the sent homepage text based on the data stored in the server 1 and creates a phonetic symbol string (language analysis data) that is the original data of the voice data. Hereinafter, although a case where a phonetic symbol string is created as voice data will be described in this example, the voice data is not limited to a phonetic symbol string.
 ホームページテキストデータ提供装置100は、発音記号列付きのホームページテキストデータの文章テキスト,音声変換合成プログラム,及びスクロールコントロールをネットワーク5を介して利用者端末3に送信する。 The homepage text data providing apparatus 100 transmits the text text of the homepage text data with phonetic symbol strings, the voice conversion synthesis program, and the scroll control to the user terminal 3 via the network 5.
 利用者端末3は、送信された発音記号列を音声変換合成プログラムによって音声データとして、ホームページテキストデータの各文章テキストについての読み上げを行う。これによって、発音記号列から音声データが作成され、再生される。この音声データの再生のためのツールは利用者端末にインストールされず、発音記号列及び音声変換合成プログラム及びスクロールコントロールがホームページテキストデータ提供装置100から送信される。利用者端末3に既に音声データツールがインストールされているのを妨げない。 The user terminal 3 reads out each sentence text of the homepage text data using the transmitted phonetic symbol string as voice data by the voice conversion synthesis program. As a result, sound data is created from the phonetic symbol string and reproduced. The tool for reproducing the voice data is not installed in the user terminal, and the phonetic symbol string, the voice conversion synthesis program, and the scroll control are transmitted from the homepage text data providing apparatus 100. It does not prevent the voice data tool from being already installed in the user terminal 3.
 このようにして、音声合成情報付きのホームページテキストデータ提供装置100を含んだホームページテキストデータ提供システム200が構成される。 Thus, the homepage text data providing system 200 including the homepage text data providing apparatus 100 with speech synthesis information is configured.
 図2を用いて本実施例を更に詳述する。
 図2は、音声合成情報付きのホームページテキストデータ提供装置100の構成をブロックで示す。
This embodiment will be described in further detail with reference to FIG.
FIG. 2 is a block diagram showing the configuration of the homepage text data providing apparatus 100 with speech synthesis information.
 図2において、音声合成情報付きのホームページテキストデータ提供装置100は、入力手段21、文章毎発音記号列付きホームページテキストデータ生成手段(音声データ付きホームページテキストデータ生成手段)22、スクロールコントロール添付手段23、送信手段24、サーバ1に格納されたデータベース25及び画像表示手段26から構成され、これらの手段は通信回路27によって互いに結ばれ、データの授受がなされる。 In FIG. 2, homepage text data providing apparatus 100 with speech synthesis information includes input means 21, homepage text data generation means with pronunciation symbol string for each sentence (homepage text data generation means with speech data) 22, scroll control attachment means 23, The transmission means 24, the database 25 stored in the server 1, and the image display means 26 are connected to each other by a communication circuit 27 to exchange data.
 上述したように、音声合成情報付きホームページテキストデータ提供装置100は、ネットワーク4を介してWebサーバ2に接続され、ネットワーク5を介して利用者端末3に接続される。 As described above, the homepage text data providing apparatus 100 with speech synthesis information is connected to the Web server 2 via the network 4 and is connected to the user terminal 3 via the network 5.
 上述したように、Webサーバ2は、ホームページテキストデータ提供装置100からホームページの取得要求を受信し、該当のホームページの選択とホームページテキストデータの入力手段21への送信を行う。
 入力手段21は、選択されたホームページテキストデータを入力する。
As described above, the Web server 2 receives a homepage acquisition request from the homepage text data providing apparatus 100, selects a corresponding homepage, and transmits the homepage text data to the input unit 21.
The input means 21 inputs the selected home page text data.
 ホームページテキストデータは、HTML文書形式の文章テキストの集合体として形成され、1つの文章テキストであるHTML文書、すなわち1つの文書テキストは分割記号を備える。 The homepage text data is formed as a collection of sentence texts in the HTML document format, and an HTML document that is one sentence text, that is, one document text is provided with a division symbol.
 データベース25は、発音記号列生成プログラム、音声変換プログラム及びスクロールコントロールを格納し、文章毎発音記号列付きホームページテキストデータ生成手段22が生成した発音記号列付きホームページテキスト及び音声変換合成プログラムを格納する。 The database 25 stores a phonetic symbol string generation program, a voice conversion program, and a scroll control, and stores a homepage text with a phonetic symbol string generated by the homepage text data generation unit 22 with a phonetic symbol string for each sentence and a voice conversion synthesis program.
 文章毎発音記号列付きホームページテキストデータ生成手段22は、各文章テキストの分割記号を用いて、文書テキストをいくつかに区切ることを行う。 The homepage text data generation means 22 with a sentence-by-sentence symbol string for each sentence divides the document text into several parts using the division symbols of each sentence text.
 各文章テキストについて、発音記号列生成プログラムを用いて、各文章テキストの発音記号列の生成を行い、ホームページテキストデータへの添付を行う。 For each sentence text, the phonetic symbol string generation of each sentence text is generated using the phonetic symbol string generation program and attached to the homepage text data.
 スクロールコントロール添付手段23は、スクロールコントロールをホームページテキストデータへの添付を行う。 Scroll control attachment means 23 attaches scroll control to homepage text data.
 送信手段24は、文章テキスト毎に発音記号列が添付されたホームページテキストデータ,音声変換合成プログラム,及びスクロールコントロールを利用者端末3に送信する。 The transmission means 24 transmits the home page text data to which the phonetic symbol string is attached for each sentence text, the voice conversion synthesis program, and the scroll control to the user terminal 3.
 生成されたこれらの文章テキスト毎の発音記号列が添付されたホームページテキストデータ及びスクロールコントロールは、画像表示手段26の表示画面に表示される。 The homepage text data and the scroll control to which the generated phonetic symbol string for each sentence text is attached are displayed on the display screen of the image display means 26.
 以上のように、データベース25は、発音記号列生成プログラム,発音記号列を音声データに変換合成する音声変換合成プログラム及びスクロールコントロールを格納する。文章テキスト毎の音声変換合成プログラムは、文章テキスト毎に生成された言語解析データから音声データを生成し、再生できるプログラムであり、ブラウザに常駐するだけで、利用者端末3にインストールしないため、ブラウザを閉じるとプログラムは消滅する。スクロールコントロールも同じである。音声変換合成プログラムは、このように、利用者端末3にインストールせずに、ブラウザ上で動作するプログラムである。スクロールコントロールも同じようにブラウザ上で動作させるリモコンである。文章毎発音記号列付きホームページテキストデータ生成手段22は、利用者端末3から指示信号に基づいて複数のテキストデータを格納するデータベースから選択されたホームページテキストデータを読み込み、ホームページテキストデータを構成する各文章テキストの分割記号を判読し、前記発音記号列生成プログラムによって、文章テキスト毎に発音記号列を生成し、各文章テキストに生成した文章毎発音記号列を添付する。 As described above, the database 25 stores a phonetic symbol string generation program, a voice conversion synthesis program that converts and synthesizes a phonetic symbol string into voice data, and a scroll control. The voice conversion synthesis program for each sentence text is a program that can generate and reproduce voice data from the language analysis data generated for each sentence text, and only resides in the browser, and does not install on the user terminal 3. Closing closes the program. The scroll control is the same. The speech conversion synthesis program is a program that runs on the browser without being installed in the user terminal 3 as described above. Similarly, the scroll control is a remote control that operates on the browser. The homepage text data generation means 22 with a phonetic symbol string for each sentence reads the homepage text data selected from the database storing a plurality of text data based on the instruction signal from the user terminal 3, and each sentence constituting the homepage text data The divided symbols of the text are read, a phonetic symbol string is generated for each sentence text by the phonetic symbol string generation program, and the generated phonetic symbol string for each sentence is attached to each sentence text.
 音声変換合成プログラムは、音声データを読み上げたい箇所としてホームページテキストデータのいずれかの文章テキストが指示されると、当該文章テキストに添付された文章毎発音記号列を用い、各文章テキストを識別子として音声データに変換するプログラムである。 When a sentence text of homepage text data is designated as a place where the voice data is to be read out, the voice conversion synthesis program uses the pronunciation symbol string for each sentence attached to the sentence text and uses each sentence text as an identifier. A program that converts data.
 図3は、表示されたホームページの表示例を示す。
 画面に表示されるスクロールコントロールを制御して、文章テキストを特定して読み上げさせる。更に「巻き戻し」、「先送り」させることができる。
FIG. 3 shows a display example of the displayed home page.
Control the scroll control displayed on the screen to identify and read out text text. Further, “rewinding” and “delaying” can be performed.
 利用者端末3は、文章毎の発音記号列付きホームページテキストデータ及び音声変換合成プログラムの送信を受け、スクロールコントロールから音声データとして読み上げたい文章テキストを画面上で指定を受ける。文書テキストの文頭に指定欄を形成しておくこともできる。文章テキスト自体が音声データとして読み上げることを識別するための識別子となる。送信された音声変換合成プログラムは、ブラウザ上でのプログラムとして動作し、識別子となった文章テキストについて音声データとして読み上げる。識別子の付いた文章テキストは複数指定することが可能である。 The user terminal 3 receives the homepage text data with phonetic symbol strings for each sentence and the voice conversion synthesis program, and receives the text text to be read out as voice data from the scroll control. A designation field can also be formed at the beginning of the document text. This is an identifier for identifying that the text of the text itself is read out as voice data. The transmitted voice conversion synthesis program operates as a program on the browser, and reads out the sentence text as an identifier as voice data. A plurality of text texts with identifiers can be specified.
 このように、利用者端末3が送信された上述のデータに基づいて音声データを作成する。 Thus, voice data is created based on the above-mentioned data transmitted from the user terminal 3.
 利用者端末3で音声データを生成することにより、必要なときに必要な箇所(すなわち文章テキスト)を指定して音声データを生成でき、利用者の意向に沿った読み上げ操作、読み上げが可能となる。 By generating the voice data at the user terminal 3, the voice data can be generated by designating a necessary portion (that is, sentence text) when necessary, and reading operation and reading in accordance with the user's intention are possible. .
 図4は、HTML形式の文章テキストの状態遷移を示すイメージ図である。
 図4において、Webサーバ2からホームページテキストデータ提供装置100にホームページテキストデータの一部の文章テキストである“今日は、天気が良いので、散歩します。”が送信されたことを想定する。
FIG. 4 is an image diagram showing the state transition of the text text in the HTML format.
In FIG. 4, it is assumed that the text text of a part of the homepage text data “I will take a walk today because the weather is good” is transmitted from the Web server 2 to the homepage text data providing apparatus 100.
 ホームページテキストデータ提供装置100の文章毎発音記号列付きホームページテキストデータ生成手段22は、データべースに格納されたプログラムで、「、」「。」など分割記号単位で文節を区切る。 The homepage text data generation means 22 with sentence-by-sentence phonetic symbol string of the homepage text data providing apparatus 100 is a program stored in the database, and divides the clauses in units of divided symbols such as “,” “.”.
 分割記号は、以下の8つの記号で定義される。
  ・「、」
  ・「。」
  ・「?」
  ・「?」
  ・「!」
  ・「!」
  ・「 」(全角スペース)
  ・「 」(半角スペース)
 次いで、読む順序を示した番号(属性)と、読み方からなる発音記号列を付加することを行う。これによって発音記号列が付加される。
The division symbol is defined by the following eight symbols.
・ 「、」
・ "."
・ "?"
・ 「?」
・ "!"
・ 「!」
・ "" (Full-width space)
・ "" (Half-width space)
Next, a number (attribute) indicating the reading order and a phonetic symbol string consisting of how to read are added. As a result, a phonetic symbol string is added.
 生成した発音記号列をホームページテキストデータに添付し、送信手段から音声変換合成プログラムと共に利用者端末3へ送信する。 The generated phonetic symbol string is attached to the homepage text data and transmitted from the transmission means to the user terminal 3 together with the voice conversion synthesis program.
 利用者端末3では、音声変換プログラム及びスクロールコントロールによって、発音記号列から音声データを作成し、発話する。 User terminal 3 creates speech data from phonetic symbol strings and speaks using a speech conversion program and scroll control.
 図5は、図4に示すイメージをより具体的にして示す。 FIG. 5 shows the image shown in FIG. 4 more specifically.
 読む順序を示した番号(属性)と読み方を付加した発音記号列を付加する。これによって、今日は天気が良いので、散歩します。というように発音記号列が付加された文章テキストが構成されることになる。 Add a phonetic symbol string with a number (attribute) indicating the reading order and a reading. Because of this, the weather is nice today so I will take a walk. Thus, a sentence text to which a phonetic symbol string is added is constructed.
 利用者端末でブラウザを起動し、サーバに最初にアクセスした際に、音声変換合成プログラム及びスクロールコントロールは、ホームページテキストデータと一緒に利用者端末にダウンロードされる。ダウンロードした音声変換プログラムは利用者端末のブラウザ内に常駐(操作可能に保持)するため、2回目以降のアクセスについては、ホームページテキストデータのみが利用者端末にダウンロードされる。音声変換合成プログラム及びスクロールコントロールは、ブラウザに常駐するだけで、利用者端末にインストールされないため、ブラウザを閉じると消滅する。ブラウザを再度立ち上げ、サーバにアクセスすると、ホームページテキストデータと共に音声変換プログラム及びスクロールコントロールが再び利用者端末にダウンロードされる。 When the browser is started on the user terminal and the server is accessed for the first time, the voice conversion synthesis program and scroll control are downloaded to the user terminal together with the homepage text data. Since the downloaded voice conversion program is resident (operably held) in the browser of the user terminal, only the homepage text data is downloaded to the user terminal for the second and subsequent accesses. Since the voice conversion synthesis program and the scroll control are only resident in the browser and are not installed in the user terminal, they disappear when the browser is closed. When the browser is restarted and the server is accessed, the voice conversion program and the scroll control are downloaded to the user terminal together with the homepage text data.
 図4及び図5において、ホームページテキストデータの文章テキストをHTML文書で実装する利点は次の通りである。 4 and 5, the advantage of implementing the text text of the homepage text data as an HTML document is as follows.
・記述形式の構造上、文字列とその音声データの対応付けなど、データの加工が容易。
・記述形式が世界標準であるため、(ほぼ)全てのコンテンツに対して、音声データを付加できる。
・HTML文章形式の表示プログラム(ブラウザ)と、それに付随するツール類(プラグイン)が高機能であるため、他のテキストデータに比べて、開発が容易。
・画像や外部リンクなど、性質の異なるデータとテキストデータとを、ひとつのファイルに同居できる。
 以下、スクロールコントロール13を利用者端末3の表示画面に表示させるための手段、方法について説明する。
-Due to the structure of the description format, data processing such as correspondence between character strings and their voice data is easy.
-Since the description format is a global standard, audio data can be added to (almost) all contents.
-The HTML text format display program (browser) and accompanying tools (plug-ins) are highly functional, so they are easier to develop than other text data.
-Data and text data with different properties such as images and external links can coexist in one file.
Hereinafter, means and a method for displaying the scroll control 13 on the display screen of the user terminal 3 will be described.
 図6は、スクロールコントロール13の表示画面を示し、リモコン形式で形成されており、表示画面に表示された各項目について制御することができる。制御手段の詳細は、従来の技術を採用することによって構成される。 FIG. 6 shows a display screen of the scroll control 13, which is formed in a remote control format, and can control each item displayed on the display screen. Details of the control means are configured by adopting a conventional technique.
 図6に示すように、スクロールコントロール13は、表示サイズ変更項目31、表示/非表示切り替え項目32、音声データの読み上げ項目33、ふりがな項目34、配置項目35、使い方項目36及びリモコン構成のスクロールコントロールの非表示項目37からなる。 As shown in FIG. 6, the scroll control 13 includes a display size change item 31, a display / non-display switching item 32, a voice data reading item 33, a phonetic item 34, an arrangement item 35, a usage item 36, and a scroll control of the remote control configuration. The non-display item 37.
 表示サイズ変更項目は、表示画面に表示されたホームページテキストの表示サイズを変更するために使用される。この例にあっては、50-600%の範囲で表示サイズを変更可能としており、選択されたサイズが100%のように表示される。 The display size change item is used to change the display size of the homepage text displayed on the display screen. In this example, the display size can be changed in the range of 50-600%, and the selected size is displayed as 100%.
 表示/非表示切り替えシャッター項目32は、表示画面に表示されたホームページテキストの色を変更させたり、アイコンを変化させたり、形を変化させるために使用される。この例にあっては、色の反転、白黒の反転、白黒の強さ及び元の色に戻すことの制御を可能とする。 The display / non-display switching shutter item 32 is used to change the color of the homepage text displayed on the display screen, change the icon, or change the shape. In this example, it is possible to control color inversion, black and white inversion, black and white intensity, and return to the original color.
 音声データの読み上げ項目33は、音の読み上げを指示するために使用され、ON、OFFボタンからなる。 The speech data read-out item 33 is used to instruct the sound read-out, and includes ON and OFF buttons.
 ふりがな項目34は、ひらがなあるいはローマ字の付加及び元に戻す制御を行うために使用される。配置項目は、スクロールコントロール自体の表示画面上の配置位置を変更するために使用される。 The phonetic item 34 is used to add and restore hiragana or romaji. The arrangement item is used to change the arrangement position of the scroll control itself on the display screen.
 使い方項目36は、スクロールコントロール自体の使い方について説明文を表示するために使用される。 The usage item 36 is used to display an explanation about how to use the scroll control itself.
 スクロールコントロールの非表示項目37は、スクロールコントロール自体を表示画面から非表示にするために使用される。 The scroll control non-display item 37 is used to hide the scroll control itself from the display screen.
 以上のように、ホームページテキストデータに、音声データ読み上げ制御機能を有したスクロールコントロール13を添付して、文章毎発音記号列の読み上げ制御を行うようにして利用者端末に送信させる。 As described above, the scroll control 13 having the voice data reading control function is attached to the homepage text data, and the phonetic symbol string for each sentence is read out and transmitted to the user terminal.
 すなわち、スクロールコントロールには、文章毎発音記号列の読み上げ制御を行う制御項目が添付され、サーバ1の文章発音記号列付きホームページテキスト生成手段100によって生成されたホームページテキストに添付されて利用者端末3へ送信される。 That is, the scroll control is attached with a control item for performing a reading control of the phonetic symbol string for each sentence, and is attached to the home page text generated by the home page text generating means 100 with the text phonetic symbol string of the server 1 to be used by the user terminal 3. Sent to.
 利用者端末上では、スクロールコントロール13の読み上げ項目33をクリック操作することで、文章毎発音記号列の読み上げ制御を行うことができる。 On the user terminal, by clicking on the reading item 33 of the scroll control 13, it is possible to perform reading control of the pronunciation symbol string for each sentence.
 スクロールコントロール13に、生成された文章毎発音記号列付きテキストデータの巻き戻し、先送り及び一時停止させる制御項目が付加される。 The scroll control 13 is added with control items for rewinding, forwarding and pausing the generated text data with pronunciation symbol string for each sentence.
 更に、スクロールコントロール13に、該スクロールコントロール自体の画面の任意の位置にレイアウト変更させる制御項目が付加される。 Furthermore, a control item for changing the layout to an arbitrary position on the screen of the scroll control itself is added to the scroll control 13.
 更に、スクロールコントロール13に、スクロールコントロール13に表示された制御項目を上下方向にスクロールさせる制御項目が付加される。 Further, a control item for vertically scrolling the control item displayed on the scroll control 13 is added to the scroll control 13.
 更に、スクロールコントロール13に、スクロールコントロール自体の画面を表示、表示の切り替えを行う制御項目が付加される。スクロールコントロール13が、付加された任意の文章毎発音記号列付きホームページテキストデータの音声データ読み上げ制御を行う制御項目を備えて、利用者端末で文章毎発音記号列の読み上げ制御を行う。 Furthermore, a control item for displaying the screen of the scroll control itself and switching the display is added to the scroll control 13. The scroll control 13 includes a control item for performing voice data reading control of the homepage text data with an arbitrary sentence-by-sentence symbol string added, and performs reading control of the sentence-by-sentence pronunciation string at the user terminal.
 利用者端末3のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する上述した多数の制御項目を備え、これらの制御項目を利用者がクリックすることで画面制御を行うスクロールが構成されて、データベース5に格納される。 The control panel form is displayed on the window screen of the user terminal 3 and includes the above-described many control items constituting the control panel form. The user clicks these control items to form a scroll for screen control. And stored in the database 5.
 サーバ1の文章毎発音記号列付きホームページテキストデータ生成手段22が、文章毎発音記号列付きホームページテキストデータに、音声データ読み上げ制御を行う制御項目を有したスクロールコントロールを添付して、利用者端末で文章毎発音記号列の読み上げ制御を行うようにして利用者端末3へ送信させる。 The homepage text data generation means 22 with sentence-by-sentence symbol string of the server 1 attaches a scroll control having a control item for performing read-out control of voice data to the homepage text data with sentence-by-sentence symbol string. The phonetic symbol string for each sentence is read out and transmitted to the user terminal 3.
 文章毎発音記号列付きホームページテキストデータ生成手段22が、文章毎発音記号列付きテキストデータ及び音声変換合成プログラムをネットワーク5を介して利用者端末3へ送信する。 The homepage text data generation means 22 with a pronunciation symbol string for each sentence transmits the text data with a pronunciation symbol string for each sentence and a voice conversion synthesis program to the user terminal 3 via the network 5.
 図7-図10は、スクロールコントロール13を操作して、スクロールコントロールの持つ制御機能によって利用者端末上で読み上げ制御を含めた各種の制御を行う状態を示す。 FIGS. 7 to 10 show states in which various controls including a reading-out control are performed on the user terminal by operating the scroll control 13 and using the control function of the scroll control.
 図7は、配置項目35を使用して、スクロールコントロール自体の利用者端末の表示画面上の配置変更を行う状態を示す。この例では、スクロールコントロール13が上部の表示画面40では左側端に配置され、配置変更制御によって下部の表示画面40では右側端に配置される。 FIG. 7 shows a state in which the arrangement item 35 is used to change the arrangement on the display screen of the user terminal of the scroll control itself. In this example, the scroll control 13 is arranged at the left end in the upper display screen 40 and is arranged at the right end in the lower display screen 40 by the arrangement change control.
 スクロールコントロール13を画面表示することで、スクロールコントロール13が画面上のホームページテキストの一部を隠してしまうような場合に、スクロールコントロール13をホームページテキスト一部が隠れてしまわない位置に移動することによって、スクロールコントロール13を使ったホームページの継続した閲覧が可能になる。 By displaying the scroll control 13 on the screen, when the scroll control 13 hides a part of the homepage text on the screen, the scroll control 13 is moved to a position where the part of the homepage text is not hidden. The homepage using the scroll control 13 can be continuously browsed.
 このように、配置制御項目を用いることで、スクロールコントロール13のコントロールパネルとしての操作を想定して、リモコンであるスクロール13の配置が可能となる。 In this way, by using the arrangement control item, it is possible to arrange the scroll 13 as a remote controller assuming the operation of the scroll control 13 as a control panel.
 図8は、表示サイズ変更項目31を用いて、スクロールコントロールの表示状態を変更することができる。本例の場合、表示サイズ変更は50-600%の間で可能としてある。また、本例の場合、上端部にスクロールボタン41を配置して、スクロールコントロール13の画面が上下方向にスクロールするようにしている。 In FIG. 8, the display state of the scroll control can be changed by using the display size change item 31. In this example, the display size can be changed between 50% and 600%. In the case of this example, a scroll button 41 is arranged at the upper end so that the screen of the scroll control 13 is scrolled up and down.
 このようにすることで、各種制御項目を示すボタンの表示面積を大きくすることができて見易くすることができると共に、ブラウザ本体のスクロールバーとの混合をしずらいものとすることができる。 This makes it possible to increase the display area of the buttons indicating various control items, making it easy to see, and making it difficult to mix with the scroll bar of the browser body.
 図9は、表示/非表示切り替え項目32を用いて、表示/非表示切り替え制御することができる。この項目の色の変更項目を用いることによって色の変更、例えば反転、白黒反転、白黒強さ調整、元の画面に戻す制御を行うことができる。また、この項目を用いることによって、アイコンの変化、形の変化制御を行うことができる。 In FIG. 9, display / non-display switching control can be performed using the display / non-display switching item 32. By using the color change item of this item, color change such as inversion, black and white inversion, black and white intensity adjustment, and control to return to the original screen can be performed. In addition, by using this item, it is possible to perform icon change and shape change control.
 図10は、非表示項目37を用いてスクロールコントロールを非表示とする制御ができる。この場合には、図に示す一部の項目43が表示される。そして、この場合に、スクロールコントロールによるリモコン非表示でも本装置が起動中であるということがわかるような表現、例えばアニメーションで切り替わる等の表現が付加されるようにしてもよい。 FIG. 10 shows that the scroll control can be hidden by using the non-display item 37. In this case, some items 43 shown in the figure are displayed. In this case, an expression that indicates that the present apparatus is being activated even when the remote control is not displayed by scroll control, for example, an expression such as switching by animation may be added.
 しかしこのような表現を用いなくても、「リモコンをひらく」項目に付加した「>」マークを点滅できることでリモコン非表示であっても起動中であることを表示することができる。 However, even if such a representation is not used, it is possible to indicate that the system is being activated even if the remote control is not displayed by flashing the “>” mark added to the “open remote control” item.
 図4、図5において、データベースには予め発音記号列生成プログラム、スクロールコントロール及び発音記号列を音声データに変換合成する音声変換合成プログラムが格納される。利用者端末3からホームページの取得指示がホームページテキストデータ提供装置100経由でWebサーバ2になされ、Webサーバ2はこの指示に基づいてホームページを選択し、音声合成情報を利用者端末に提供するサーバに送信する。ホームページテキストデータ提供装置100は、選択されたホームページの文章テキストの読み込みを行う。発音記号列生成プログラムによって各文章テキストの分割記号の判別を行う。 4 and 5, the database stores in advance a phonetic symbol string generation program, a scroll control, and a voice conversion synthesis program for converting and synthesizing a phonetic symbol string into voice data. A homepage acquisition instruction is issued from the user terminal 3 to the Web server 2 via the homepage text data providing apparatus 100, and the Web server 2 selects a homepage based on this instruction and provides a server that provides speech synthesis information to the user terminal. Send. Homepage text data providing apparatus 100 reads the text text of the selected homepage. The divided symbol of each sentence text is discriminated by the phonetic symbol string generation program.
 発音記号列生成プログラムによって発音記号列を生成する。これによって文章毎発音記号列が作成される。作成した文章毎発音記号列を文章テキストに添付する。文章テキストは文章テキスト毎に特定の文章テキストとされ、この特定の文章テキスト自体が識別子を構成する。 The phonetic symbol string is generated by the phonetic symbol string generation program. Thereby, a phonetic symbol string for each sentence is created. Attach the generated phonetic symbol string to the text. The sentence text is a specific sentence text for each sentence text, and the specific sentence text itself constitutes an identifier.
 特定された文章テキストの文章毎発音記号列からなるホームページテキストデータに、音声変換合成プログラム及びスクロールコントロールが添付される。 音 声 Voice conversion synthesis program and scroll control are attached to homepage text data consisting of phonetic symbol strings for each sentence of the specified sentence text.
 生成された文章テキスト毎に発音記号列が生成されたホームページテキストデータ及び音声変換合成プログラム及びスクロールコントロールが利用者端末に送信される。これによって、利用者は、その利用者端末に目的としたホームページテキストデータ毎に生成された発音記号列及び音声変換合成プログラム及びスクロールコントロールを取得する。これらの発音記号列と音声変換合成プログラムは、ブラウザ上で動作されるデータ及びプログラムであり、これらのプログラム及びスクロールコントロールは利用者端末にインストールされることはない。 ∙ Homepage text data in which phonetic symbol strings are generated for each generated text text, voice conversion synthesis program, and scroll control are transmitted to the user terminal. As a result, the user obtains the phonetic symbol string, speech conversion synthesis program, and scroll control generated for each homepage text data intended for the user terminal. These phonetic symbol strings and the speech conversion synthesis program are data and programs that are operated on the browser, and these programs and scroll controls are not installed in the user terminal.
 本実施例によって、機能を向上させた音声読み上げが可能になる。これによって、高齢者をはじめ視力の弱い人や色の識別が苦手の人のアクセシビリティを改善できることになる。これによって、ホームページをより利用しやすくなる。 This example makes it possible to read out speech with improved functions. This will improve accessibility for older people, people with weak vision, and people who are not good at color identification. This makes it easier to use the home page.
 利用者は、利用者端末の操作によって任意の文章テキストを指定してスクロールコントロールによって音声データの読み上げを指示する。この文章テキストが識別子の機能を有しているので、この文章テキストがこの文章テキストに添付されて来た発音記号列及び音声変換合成プログラムの機能・働きによって音声データに変換合成され、音声データでの読み上げがなされる。この音声データでの読み上げは、文章テキストについて読み上げ指示することによって繰り返して行うことができることになり、また任意の文章テキストを指定して、すなわち巻き戻し、先送りさせて行うことができることになる。 The user designates an arbitrary sentence text by operating the user terminal and instructs the voice data to be read by scroll control. Since this sentence text has the function of an identifier, this sentence text is converted and synthesized into voice data by the phonetic symbol sequence attached to this sentence text and the function / function of the voice conversion synthesis program. Is read out. This voice data can be read aloud repeatedly by instructing the text text to be read, and any text text can be designated, that is, rewinded and advanced.
 以上のように、テキストデータとしてホームページテキストが用いられる時の音声合成情報のホームページテキストデータ提供方法は、次のステップによって構成される。 As described above, the homepage text data providing method of speech synthesis information when the homepage text is used as the text data includes the following steps.
 データベースに、発音記号列生成プログラム及び発音記号列を音声データに変換合成する音声変換合成プログラムを格納するステップ
 文章毎発音記号列付きホームページテキストデータ生成手段が、利用者端末から指示信号に基づいて格納した複数のテキストデータから選択されたホームページテキストデータを読み込み、前記発音記号列生成プログラムによって、文章テキスト毎に発音記号列を生成し、各文章テキストに生成した文章毎発音記号列を添付するステップ
 送信手段が、各文章テキストに文章毎発音記号列を添付したホームページテキストデータ,音声合成変換プログラム及びスクロールコントロールをネットワークを介して利用者端末に送信するステップ。
A step of storing a phonetic symbol string generation program and a voice conversion synthesis program for converting and synthesizing a phonetic symbol string into speech data in the database. Reading homepage text data selected from the plurality of text data, generating a phonetic symbol string for each sentence text by the phonetic symbol string generation program, and attaching the generated phonetic symbol string to each sentence text Means for transmitting homepage text data, a speech synthesis conversion program, and a scroll control, each of which has a sentence symbol string attached to each sentence text, to the user terminal via the network;
 発声データは、ホームページ(サーバ)側又は利用者端末側で作成されてよい。利用者端末にスクロールコントロールを送信して音声データとして読み上げることにより、必要なときに必要な箇所(分)だけ音声データを作成できるため、利用者の意向に沿った簡便な読み上げ操作や、音声読み上げが可能になる。 The utterance data may be created on the homepage (server) side or the user terminal side. By sending a scroll control to the user terminal and reading it out as voice data, it is possible to create voice data only when needed (minutes), so simple reading operations and voice readings in line with the user's intentions Is possible.
 1…サーバ、2…Webサーバ、3…利用者端末、4,5…ネットワーク、11…発音記号列(言語解析データ生成プログラム)、12…音声変換合成プログラム、21…入力手段、22…文章毎発音記号列付きホームページデータ生成手段、23…スクロールコントロール添付手段、24…送信手段、25…データベース、100…音声合成情報付きのホームページデータ提供装置、200…ホームページテキストデータ提供システム。 DESCRIPTION OF SYMBOLS 1 ... Server, 2 ... Web server, 3 ... User terminal, 4, 5 ... Network, 11 ... Phonetic symbol string (language analysis data generation program), 12 ... Speech conversion synthesis program, 21 ... Input means, 22 ... For each sentence Homepage data generation means with phonetic symbol string, 23 ... Scroll control attachment means, 24 ... Transmission means, 25 ... Database, 100 ... Homepage data provision apparatus with speech synthesis information, 200 ... Homepage text data provision system.

Claims (11)

  1.  Webページに記述されたテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してテキストデータと共に音声合成情報を利用者端末に提供する音声合成情報付きのテキストデータ提供装置において、
     音声データ生成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納するデータベースと、
     利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたテキストデータを読み込み、前記音声データ生成プログラムによって、テキストデータの文章テキスト毎に音声データを生成し、各文章テキストに生成した文章毎音声データを添付する文章毎音声データ付きテキストデータ生成手段と、を備え、
     前記スクロールコントロールが、任意の文章毎言語解析データ付きテキストデータの音声データ読み上げ制御を行う制御項目を備え、
     前記文章毎音声データ付きホームページテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールが添付されて、利用者端末で文章毎発音記号列の読み上げ制御を行うようにして利用者端末へ送信させること
     を特徴とするスクロールコントロール付きのホームページテキスト提供装置。
    A text data providing apparatus with speech synthesis information provided with speech synthesis information converting means for converting text data described in a Web page into speech synthesis information, and providing the speech synthesis information together with the text data to the user terminal via the network In
    A database for storing a scroll control that is displayed in the control panel form on the voice data generation program and the window screen of the user terminal, and that performs screen control by clicking a control item constituting the control panel form;
    Reads text data selected from a plurality of text data stored based on an instruction signal from a user terminal, generates voice data for each sentence text of the text data by the voice data generation program, Text data generating means with voice data for each sentence to which the generated voice data for each sentence is attached,
    The scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
    A scroll control having control items for controlling the voice conversion synthesis program and voice data reading control is attached to the homepage text data with voice data for each sentence so as to perform reading control of the phonetic symbol string for each sentence at the user terminal. A homepage text providing device with scroll control, characterized in that it is transmitted to the user terminal.
  2.  Webページに記述されたテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してテキストデータと共に音声合成情報を利用者端末に提供する音声合成情報付きのテキストデータ提供装置において、
     発音記号列生成プログラム、発音記号列を音声に変換合成する音声変換合成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納するデータベースと、
     利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたホームページテキストデータを読み込み、前記発音記号列生成プログラムによって、ホームページテキストデータの文章テキスト毎に読む順序と読み方とからなる発音記号列を生成し、各文章テキストに生成した文章毎発音記号列を添付する文章毎発音記号列付きホームページテキストデータ生成手段と、を備え、
     前記スクロールコントロールが、任意の文章毎言語解析データ付きテキストデータの音声データ読み上げ制御を行う制御項目を備え、
     前記文章毎言発音記号列付きホームページテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールを添付して、利用者端末で文章毎言語解析データの読み上げ制御を行うようにして利用者端末へ送信させること
     を特徴とするスクロールコントロール付きのホームページテキスト提供装置。
    A text data providing apparatus with speech synthesis information provided with speech synthesis information converting means for converting text data described in a Web page into speech synthesis information, and providing the speech synthesis information together with the text data to the user terminal via the network In
    Phonetic symbol generation program, voice conversion synthesis program that converts phonetic symbol strings to speech and displayed on the user terminal window screen in the form of a control panel, and controls screens by clicking control items that make up the control panel form A database that stores scroll controls to perform, and
    The homepage text data selected from a plurality of text data stored based on the instruction signal from the user terminal is read, and the phonetic symbol string generation program reads the homepage text data for each sentence text and the reading order. A homepage text data generating means with a phonetic symbol string for each sentence that generates a phonetic symbol string and attaches the phonetic symbol string generated for each sentence text;
    The scroll control includes a control item for performing voice data reading control of text data with language analysis data for each sentence,
    The homepage text data with the sentence-by-sentence phonetic symbol string is attached with a scroll control having control items for performing the voice conversion synthesis program and the voice data reading control, and the reading analysis of the sentence-by-sentence language analysis data is performed at the user terminal. A homepage text providing device with scroll control, characterized in that it is transmitted to the user terminal as it is done.
  3.  請求項1または2において、前記スクロールコントロールに、生成された文章毎発音データ又は発音記号列付きテキストデータの巻き戻し、先送り及び一時停止させる制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置。 3. The control with scroll control according to claim 1, wherein control items for rewinding, forwarding and pausing the generated sentence-by-sentence pronunciation data or text data with pronunciation symbol string are added to the scroll control. Homepage text provision device.
  4.  請求項1または2において、前記スクロールコントロールに、該スクロールコントロール自体の画面の任意の位置にレイアウト変更させる制御項目が付加されることを特徴とするスクロールコントロール付きのホームページテキスト提供装置。 3. The homepage text providing apparatus with a scroll control according to claim 1, wherein a control item for changing a layout at an arbitrary position on the screen of the scroll control is added to the scroll control.
  5.  請求項1または2において、前記スクロールコントロールに、該スクロールコントロールに表示された制御項目を上下方向にスクロールさせる制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置。 3. The homepage text providing apparatus with scroll control according to claim 1, wherein a control item for vertically scrolling a control item displayed on the scroll control is added to the scroll control.
  6.  請求項1または2において、前記スクロールコントロールに、該スクロールコントロール自体の画面を表示、表示の切り替えを行う制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置。 3. The homepage text providing apparatus with a scroll control according to claim 1, wherein a control item for displaying a screen of the scroll control and switching the display is added to the scroll control.
  7.  請求項1または2において、前記スクロールコントロールに、該スクロールコントロール自体が起動中であることを表示する制御項目が付加されたことを特徴とするスクロールコントロール付きのホームページテキスト提供装置。 3. The homepage text providing apparatus with a scroll control according to claim 1, wherein a control item indicating that the scroll control itself is activated is added to the scroll control.
  8.  請求項1または2において、前記音声変換合成プログラム及びスクロールコントロールが、利用者端末にインストールされず、そのブラウザ内に常駐し、ブラウザを閉じると消滅することを特徴とする音声合成情報付きのホームページテキストデータ提供装置。 3. The homepage text with speech synthesis information according to claim 1 or 2, wherein the speech conversion synthesis program and the scroll control are not installed in a user terminal, reside in the browser, and disappear when the browser is closed. Data provision device.
  9.  Webページに記述されたホームページテキストデータを音声合成情報に変換する音声合成情報変換手段を備えて、ネットワークを介してホームページテキストデータと共に音声合成情報を利用者端末に提供するホームページテキストデータ提供装置によるホームページテキストデータ提供方法において、
     データベース、発音記号列生成プログラム、発音記号列を音声データに変換合成する音声変換合成プログラム及び利用者端末のウィンドウ画面にコントロールパネル形体で表示され、コントロールパネル形体を構成する制御項目をクリックすることで画面制御を行うスクロールコントロールを格納し、
     文章毎音声データ付きホームページテキストデータ生成手段が、利用者端末からの指示信号に基づいて格納された複数のテキストデータから選択されたホームページテキストデータを読み込み、前記発音記号列生成プログラムによって、ホームページテキストデータの文章テキスト毎に音声データを生成し、各文章テキストに生成した文章毎発音記号列を添付し、
     前記スクロールコントロールが、任意の文章毎音声データ付きホームページテキストデータの音声データ読み上げ制御を行う制御項目を備え、利用者端末で文章毎言語解析データの読み上げ制御を行うようにし、
     文章毎音声データ付きテキストデータに、前記音声変換合成プログラム及び音声データ読み上げ制御を行う制御項目を有したスクロールコントロールを添付して、利用者端末で文章毎音声データの読み上げ制御を行うようにして利用者端末へ送信させること
     を特徴とするスクロールコントロール付きのホームページテキスト提供方法。
    A homepage by a homepage text data providing apparatus that includes speech synthesis information conversion means for converting homepage text data described in a web page into speech synthesis information, and provides the speech synthesis information to the user terminal together with the homepage text data via the network. In the text data providing method,
    By clicking on the control items that make up the control panel form, which are displayed in the control panel form on the window screen of the user terminal, the database, the phonetic symbol generation program, the voice conversion synthesis program that converts and synthesizes the phonetic string into speech data Stores the scroll control that controls the screen,
    Homepage text data generating means with voice data for each sentence reads homepage text data selected from a plurality of text data stored based on an instruction signal from the user terminal, and the phonetic symbol string generation program executes the homepage text data. Voice data is generated for each sentence text, and the generated phonetic symbol string is attached to each sentence text.
    The scroll control is provided with a control item for performing voice data reading control of homepage text data with arbitrary voice data for each sentence, and performs reading control of the language analysis data for each sentence at the user terminal,
    Attached to the text data with voice data for each sentence is a scroll control having control items for performing the voice conversion synthesis program and voice data read-out control, and used so as to perform read-out control of the voice data for each sentence at the user terminal. Homepage text provision method with scroll control, characterized in that it is sent to the user terminal.
  10.  請求項9において、前記スクロールコントロールが、生成された文章毎発音記号列付きテキストデータの巻き戻し、先送り及び一時停止させる制御を行うことを特徴とするスクロールコントロール付きのホームページテキスト提供方法。 10. The homepage text providing method with scroll control according to claim 9, wherein the scroll control performs control to rewind, forward and pause the generated text data with pronunciation symbol string for each sentence.
  11.  請求項9または10において、前記音声変換合成プログラム及びスクロールコントロールが、利用者端末にインストールされず、そのブラウザ内に常駐し、ブラウザを閉じると消滅することを特徴とする音声合成情報付きのホームページテキストデータ提供方法。 11. The homepage text with speech synthesis information according to claim 9, wherein the speech conversion synthesis program and the scroll control are not installed in the user terminal, reside in the browser, and disappear when the browser is closed. Data provision method.
PCT/JP2012/074371 2011-10-28 2012-09-24 Device for providing text data appended with speech synthesis information, and method for providing text data WO2013061719A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201280044942.9A CN103797453A (en) 2011-10-28 2012-09-24 Device for providing text data appended with speech synthesis information, and method for providing the text data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-237050 2011-10-28
JP2011237050A JP2013097424A (en) 2011-10-28 2011-10-28 Apparatus for providing text data with synthesized voice information and method for providing text data

Publications (1)

Publication Number Publication Date
WO2013061719A1 true WO2013061719A1 (en) 2013-05-02

Family

ID=48167555

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/074371 WO2013061719A1 (en) 2011-10-28 2012-09-24 Device for providing text data appended with speech synthesis information, and method for providing text data

Country Status (3)

Country Link
JP (1) JP2013097424A (en)
CN (1) CN103797453A (en)
WO (1) WO2013061719A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750423B (en) * 2019-10-29 2023-11-17 阿里巴巴集团控股有限公司 Personalized speech synthesis model construction method, device and system and electronic equipment
CN112269607A (en) * 2020-11-17 2021-01-26 北京百度网讯科技有限公司 Applet control method, system, server and terminal device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256142A (en) * 2000-03-09 2001-09-21 Toshiba Corp Voice information provision method and voice information provision device
JP2003216186A (en) * 2002-01-21 2003-07-30 Arcadia:Kk Speech data distribution management system and its method
JP2009134753A (en) * 2003-11-14 2009-06-18 Hitachi Government & Public Corporation System Engineering Ltd Client terminal

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216168A (en) * 2002-01-18 2003-07-30 Hitachi Ltd Method for executing audition via communication network, server, program, recording medium to be used for the same method
JP4755813B2 (en) * 2003-11-14 2011-08-24 日立公共システムエンジニアリング株式会社 Client terminal
CN1985233B (en) * 2005-06-20 2010-09-29 日立公共***工程株式会社 Client terminal
CN102163213B (en) * 2011-02-25 2015-06-24 中国科学院计算技术研究所 Voice browsing method and browser

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256142A (en) * 2000-03-09 2001-09-21 Toshiba Corp Voice information provision method and voice information provision device
JP2003216186A (en) * 2002-01-21 2003-07-30 Arcadia:Kk Speech data distribution management system and its method
JP2009134753A (en) * 2003-11-14 2009-06-18 Hitachi Government & Public Corporation System Engineering Ltd Client terminal

Also Published As

Publication number Publication date
CN103797453A (en) 2014-05-14
JP2013097424A (en) 2013-05-20

Similar Documents

Publication Publication Date Title
US9047261B2 (en) Document editing method
JP3938121B2 (en) Information processing apparatus, control method therefor, and program
KR100586766B1 (en) Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
EP3125134B1 (en) Speech retrieval device, speech retrieval method, and display device
US8707183B2 (en) Detection of a user's visual impairment based on user inputs or device settings, and presentation of a website-related data for sighted or visually-impaired users based on those inputs or settings
JP2011521383A (en) System and method for real-time creation and modification of a video player for users with disabilities
JP2008108280A (en) Web browser allowing navigation between hypertext objects using remote controller
WO2007018102A1 (en) Mobile information device and mobile information device display method
JP2011008787A (en) Method and device for facilitating directed reading of document portion based on information-sharing relevance
JP4386011B2 (en) Web page re-editing method and system
US6775805B1 (en) Method, apparatus and program product for specifying an area of a web page for audible reading
WO2013061719A1 (en) Device for providing text data appended with speech synthesis information, and method for providing text data
EP1073036B1 (en) Parsing of downloaded documents for a speech synthesis enabled browser
JP2002268788A (en) Information communication system equipped with close-up function of web document and close-up method for the same web document using the same system and recording medium with the same method recorded
WO2013061718A1 (en) Apparatus for providing text data with synthesized voice information and method for providing text data
JP5338298B2 (en) Page browsing device and program
JP4014361B2 (en) Speech synthesis apparatus, speech synthesis method, and computer-readable recording medium recording speech synthesis program
WO2020189376A1 (en) Voice output method, voice output system, and program
JP2005004100A (en) Listening system and voice synthesizer
JP2002251338A (en) Document display device having bookmark presenting function
JP2005266009A (en) Data conversion program and data conversion device
JP2008191879A (en) Information display device, display method for information display device, information display program, and recording medium with information display program recorded
JP3031256B2 (en) World wide web browser with remote control
JP4047323B2 (en) Information processing apparatus and method, and program
Chalamandaris et al. Enhancing accessibility of web content for the print-impaired and blind people

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12842949

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12842949

Country of ref document: EP

Kind code of ref document: A1