WO2003054731A2 - Verfahren zur rechnergestützten transformation strukturierter dokumente - Google Patents

Verfahren zur rechnergestützten transformation strukturierter dokumente Download PDF

Info

Publication number
WO2003054731A2
WO2003054731A2 PCT/EP2002/013673 EP0213673W WO03054731A2 WO 2003054731 A2 WO2003054731 A2 WO 2003054731A2 EP 0213673 W EP0213673 W EP 0213673W WO 03054731 A2 WO03054731 A2 WO 03054731A2
Authority
WO
WIPO (PCT)
Prior art keywords
structured document
cross
source code
modified
msd
Prior art date
Application number
PCT/EP2002/013673
Other languages
English (en)
French (fr)
Other versions
WO2003054731A3 (de
WO2003054731A9 (de
Inventor
Stuart Goose
Stefan Holz
Timothy Miller
Wei-Kwan Vincent Su
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2003054731A2 publication Critical patent/WO2003054731A2/de
Publication of WO2003054731A9 publication Critical patent/WO2003054731A9/de
Publication of WO2003054731A3 publication Critical patent/WO2003054731A3/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer

Definitions

  • the invention relates to a device for detecting and displaying movements.
  • Such devices are known from the prior art.
  • a so-called computer mouse is used in almost all computer desktop applications, with which the graphical user interface of a "computer " can be controlled.
  • Such computer mice have, for example, a ball which detects the movement and which is in a recess If the mouse is moved by the user, the ball rotates on the underside and the movement is transmitted to the computer via roll sensors installed in the mouse.
  • mice have optical sensors instead of mechanical motion detection by a ball.
  • the movement of the mouse is deduced from the measurement of the light scattered or reflected on the background on which the mouse is being moved, the corresponding data being transmitted to a computer via a cable.
  • the movement data is generally transmitted from the computer mouse to the computer via a cable.
  • designs are also known in which the movement data are transmitted wirelessly to a computer.
  • HTML format Hypertext Markup Language
  • Linguistic-based navigation and information transmission on the WWW is referred to as an interactive voice dialog procedure - also known to the person skilled in the art as Interactive Voice Response (IVR).
  • the IVR process has its roots in dialog-oriented speech systems for relieving routine tasks and for queue management in call centers.
  • the IVR method generally has an implementation of a voice-guided menu, in which a user has a choice between various options using linguistic means or also by actuating telephone number keys.
  • a standard to achieve an IVR-based WWW Navi gation is VoiceXML (Voice Extensible Markup Language), stan ⁇ dardized by the "World Wide Web Consortium", currently in version 1.0, issued May 5, 2000 (http: / /www.w3.org/TR/voicexml/).
  • This standard allows for design of structured documents that trigger an information retrieval using linguistic communi ⁇ cation.
  • This linguistic communication takes place on the one hand by outputting text contained in a VoiceXML script to a user as speech, on the other hand by processing a command spoken by the user.
  • VoiceXML VoicesXML
  • a user is restricted to information that is defined in this format on a WWW server; in particular, he cannot access HTML documents.
  • This configuration therefore corresponds to server-side support for the IVR process.
  • VoiceXML has a disadvantageously higher use of the WWW server computing power for the speech generation and analysis.
  • transmission capacities of the data networks transmitting the information are heavily used, since voice information required or output in the data network is generally required for control purposes.
  • a central component of this system is a Host computer system with a modem and a telephone-controlled audio WWW browser (TAWB).
  • TAWB telephone-controlled audio WWW browser
  • Part of ⁇ participants dials into the system by dialing a modem in a telephone network assigned phone number.
  • the modem of Leitrech ⁇ nersystems acts as an interface between the TAWB and the telephone network.
  • the subscriber can transmit commands for navigation or control in spoken form or in the form of DTMF signals (Dual Tone Multi Frequency) to the TAWB by pressing telephone number keys.
  • This interprets the commands loads the corresponding WWW documents and converts the information contained into an audio format.
  • the information is then sent over the phone network to the phone where the subscriber can hear it.
  • the conversion of textual data into audio information takes place by a method known to the person skilled in the art as a text-to-speech conversion or TTS (Text to Speech).
  • a method is known from US Pat. No. 6018710 for converting structured documents into audio signals by means of the TTS method, with particular attention to the structural instructions contained therein.
  • both methods and arrangements disclosed in the above publications work with a client-side implementation of the IVR method, so a user can rework in VoiceXML in any structured documents without the mentioned use of transmission capacities Search for information.
  • a client-side conversion of a structured document - which may have a complex structure - into voice information has the disadvantage that a user who navigates in this document with linguistic means by means of the conversion to confuse lost visual structuring of the document.
  • the object of the invention is to provide a method which ensures development of structured documents based on format-based editors for structured documents without ei ⁇ ner need for expert knowledge for simultaneous accessibility of these structured documents through a visual browser and by an IVR-based browser ,
  • a structured document is received and transformed into a modified structured document, the number, format and / or arrangement of cross-references for a transformation into a structured - suitable for use with IVR-based browsers - as part of an analysis of the source code of the structured document.
  • Menu structure takes place. This also includes the treatment of a cross-reference to a telephone subscriber number, which is implemented in the modified structured document in order to carry out a communication connection in connection with a communication device.
  • a major advantage of the method according to the invention is that after the development of a document structured for a visual browser, this document can also be accessed with a browser that works according to the IVR method. This eliminates the time-consuming development and maintenance of structured documents in two different protocols.
  • the analysis and modification of the structured document stored on the WWW server is particularly advantageous Runtime that does not require additional storage capacity on the WWW server.
  • 1 a structure diagram for the schematic representation of communication end points connected to a packet-oriented network and;
  • FIG. 1 shows a communication terminal KE, which uses a browser WTE which works according to the IVR method (Internet Voice Response) - hereinafter simply referred to as "IVR browser" WTE - and a proxy server PRX with a packet-oriented network NW, for example the
  • connection of the IVR browser WTE and the conventional browser BRW with the packet-oriented network NW is understood in particular to mean that their software works on a computer system (not shown) that provides the appropriate software and hardware components for the provision a bidirectional data exchange with a - not shown - so-called Internet Service Provider.
  • Control of the IVR browser WTE by a user operating the communication terminal KE serves commands which are spoken by the user and which are carried out in the IVR browser WTE by means of a method known to the person skilled in the art as a speech recognition process or also SR process ("Speech Recognition")
  • Control commands are implemented as well as DTMF signals ("Dual Tone Multifrequency") sent to the IVR browser WTE, which are triggered by the user by pressing a respective number key on the communication terminal KE.
  • DTMF signals Double Tone Multifrequency
  • connection for example, of the IVR browser WTE to the packet-oriented network NW, which is inherently connectionless, is to be understood as the source or destination of data packets between two communication end points connected to the packet-oriented network NW.
  • connection for example, of the IVR browser WTE to the packet-oriented network NW, which is inherently connectionless, is to be understood as the source or destination of data packets between two communication end points connected to the packet-oriented network NW.
  • the term continues to be a
  • Structured documents SD are managed in a memory M on a WWW server SRV (World Wide Web), which is also connected to the packet-oriented network NW, for a request from a client, for example by one of the two browsers WTE, BRW. With an arrow pointing from right to left are symbolically two structured documents SD shown during ei ⁇ nes charging through the appropriate client, so the IVR browser or the conventional browser BRW.
  • the method according to the invention leads to the transformation of the structured document SD into a modified structured document MSD intended for the IVR browser WTE.
  • Both the exchange of structured documents SD than the exchange of modified structured Do ⁇ kumenten MSD is further equipped with a replacement iA - not shown - files - also called library files - accompanied, for example, object and / or style definitions or configuration data.
  • the structure of the proxy server PRX corresponds to the information control computer PRX described in the patent application with the internal identifier 2001P21321.
  • This proxy server PRX is equipped with standard computer system devices such as Central processors, memory, etc. equipped, which ensure implementation of the method according to the invention.
  • the proxy server PRX is a possible variant for carrying out the method according to the invention in a computing unit. Alternatively, the method can also be carried out in the IVR browser, in the WWW server SRV or in a hierarchically different server.
  • the structured documents SD stored in the memory M of the WWW server are generated using a format-based editor.
  • a format-based editor e.g. Microsoft Word software from Microsoft Corp. used with which a structured document SD can be developed in the form of an HTML page. After completion of the structured document SD, it is saved in HTML format, transmitted to the WWW server SRV and stored in its memory M.
  • Microsoft Word provides tools for developing an HTML page that allow a user to design it Allow HTML page without detailed knowledge of an associated HTML source code.
  • a user can edit a desired text in a manner customary for word processing systems and can provide this text with appropriate formatting in a manner suitable for the presentation of the later HTML page.
  • graphics can be inserted, cross-references to related information - also known as "links" to the person skilled in the art - and so on.
  • Microsoft Word converts the formatting and cross-references into corresponding computer-readable instructions in the generated HTML source code. This implementation is carried out using a defined procedure that ensures a reproducible structure of the generated source code.
  • HTML page - generated by Microsoft Word
  • these instructions serve to structure the information contained on a browser. Instructions usually consist of HTML commands, which consist of marking points - so-called "tags" - and associated parameters. A list and explanation of these tags can be found, for example, in the Internet document Partl, Hubert: "HTML introduction"
  • cross-references for example to other structured documents, other areas of the structured document ment or to a to be loaded and to be output and / or execute file - done in Microsoft Word with a Be ⁇ processing tool that an area to be selected a destination address - referred to in the art with URL (Uniform Resource Locator) - assigns.
  • a cross-reference can be used to refer to another file, for example in the memory M of the WWW server.
  • the URL contains an entry about a directory location and a file name of the file in which the desired information is stored. Further components of the URL are an entry about the type of data access, an indication of a WWW server managing the file and possibly the position within the file or parameters for a search or for a script program running on the WWW server, which is in the Experts are also referred to as CGI (Common Gateway Interface) program.
  • CGI Common Gateway Interface
  • FIG. 2 schematically shows information elements and design conventions of a document D processed in Microsoft Word.
  • This document D is the basis for the generation of the associated structured document SD in HTML format in a subsequent step by Microsoft Word.
  • this structured document SD is stored in the memory M of the WWW server and is available both for the conventional browser BRW and for the IVR browser WTE.
  • the structured document SD is called up by the IVR browser with an “intermediate connection” of the proxy server PRX, which transforms the structured document SD into the modified structured document MSD according to a method that is still to be explained.
  • Document D consists, among other things, of a format text FT and of several property fields P1, P2, of which only two are shown for reasons of clarity.
  • the format text FT comprises the content to be represented by the structured document SD, which contains not only textual information but also graphics, cross-references, etc.
  • the property fields P1, P2 are used to hold information to be entered in the development phase of the document D for handling the structured document SD that is created later or the - using the inventive one
  • Process generated - modified structured document MSD The information entered in the property fields P1, P2 is therefore also available in the same way in the structured document SD generated from the document D and, if appropriate, also in the modified structured document MSD. hidden to a user operating the conventional browser BRW or the IVR browser WTE - of the structured document SD or of the modified structured document MSD. Fields intended for an entry of file properties of the document D can be used as property fields P1, P2, for example.
  • the proxy server PRX determines whether a transformation into a modified structured document MSD is to be carried out or whether the structured document SD is to be forwarded unchanged to the client calling up the structured document SD.
  • the developer of the document D must therefore make an entry which identifies an application in the IVR browser WTE which processes the later modified document MSD.
  • This information in the property field P1 is used by the proxy server PRX to assess whether the structured document SD generated from document D is passed on to a modified structured document MSD before being passed on to the calling client is to be converted. If there is no information in the property field P1 or information that cannot be assigned to an application, the structured document is forwarded unchanged to the calling client.
  • the developer of document D is to make an entry in the second property field P2 which contains information about an assignment of DTMF signals to be used.
  • the IVR browser WTE assigns DTMF signals to numbers, letters or special characters depending on information entered in the second property field P2, or also depending on a configuration file whose file name and / or address is entered in the second property field P2.
  • the configuration file can be stored in the memory M of the WWW server SRV or in a memory (not shown) in the IVR browser WTE.
  • entries in the configuration file can be present in a database (not shown) in the WWW server SRV or in the proxy server PRX.
  • the explained entries in the property fields P1, P2 of the document D represent prerequisites so that the structured document SD generated therefrom can be called up for the user of the IVR browser WTE using the inventive method to be described below.
  • the method according to the invention carries out the transformation of the structured document SD into the modified structured document MSD.
  • instructions in the HTML source code and / or attributes of these instructions are modified, ie expanded, added and / or replaced.
  • the transformation also includes the addition of further computer-readable instructions, so-called scripts - for example Java scripts or Visual Basic scripts - in the form of independent files or as part of the modified structured document MSD.
  • scripts - for example Java scripts or Visual Basic scripts - in the form of independent files or as part of the modified structured document MSD.
  • the developer of the document D to be considered a design convention for the format text FT, which is described below.
  • This assignment of a text passage to an audio file WAV reproducing the content of this text passage in natural language takes place when editing the document D by defining a cross-reference (or also "link” or “hyperlink") to the file.
  • This file can either be located as a so-called “local file” on the WWW server SRV, on which the structured document SD is also located, or else on another server (not shown) on the WWW or intranet.
  • HTML code examples A functional hardware environment of the method can be found in the patent application with the internal file number 2001P21321.
  • a syntactic analysis is used for the transformation lyse the HTML source code in the structured document SD.
  • Structured access to the HTML source code is made possible using HTMLDOM objects (HTML Document Object Model).
  • HTMLDOM objects HTML Document Object Model
  • These HTMLDOM objects are converted by a - not shown - transformation device into the modified structured document MSD with a source code in the XML (Extended Markup Language) format.
  • Cross-references are shown in an HTML document on a visually structuring browser BRW, for example, as follows:
  • one aim of the method is to carry out a graphic structuring into user-friendly operation based on structured spoken language. For example, for the purpose of an introductory presentation of optional cross-references that can be selected by the user of the language-based IVR browser WTE, an introductory announcement about the selectable links is advantageous.
  • audio data WAV allows an introductory announcement for the operator of the IVR browser WTE in a natural description of selectable cross-references.
  • the content of an audio file WAV "info.wav” can contain a spoken form of the text passage "Additional Information:”, which is enriched with information regarding the selectable cross-references and their selection method, for example in the form:
  • This HTML source code section is changed to an XML source code section when transformed into the modified structured document MSD:
  • cross references refer to areas of the current structured document SD defined with the respective suffix "_Test", which the user has defined with the editing tool for the definition of cross references , A cross reference to an area is indicated by the hash symbol ("#"). Further keywords such as “MsoNormal” are additional information inserted by Microsoft Word, which are irrelevant for the decoding of the HTML code and which are removed when the structured document SD is transformed into the modified structured document MSD.
  • a style element (“STYLE”) is inserted, which surrounds the cross-reference designations ("Link", “Wave”, etc.) with an explanation in a TTS procedure to be used thereon.
  • the user of the IVR browser hears the explanation "For Link Press 1, for Wave press 2, for Table press 3 for Form press 4".
  • the parameter "% 1" of the class "Menul”, method "cue-after” causes a incremented number depending on the number of cross-references.
  • Class attributes class "Menul” are entered in every cross-reference entry. In this case too, it is the responsibility of the developer of document D to make the numbers assigned in the order of the references consistent with the content of the audio file WAV.
  • XML source code of the modified structured document MSD is shown below if in document D - for example via a property field (not shown) corresponding to the first two property fields P1, P2 - a transformation of the structured document into a modified structured document MSD to support the SR -Procedure (Speech Recognition) was set.
  • Cut-Through YES; cue-before: To; cue-after: Press% 1 or Say continue; ⁇ ⁇ /STYLE>
  • the operator of the IVR browser WTE is informed by a message, e.g. "Press 2 or say Wave” referred to the possibility of activating the cross reference "Wave” by pronouncing this word.
  • a group of references is determined during the transformation and converted into a menu structure using the ⁇ ul> / ⁇ li> tags. Since the developer of document D does not provide for the use of an audio file WAV for the acoustic explanation of the selectable options, the style element (“STYLE”) is inserted, which contains the cross-reference designations ("Link", "Wave”, etc.) with an explanation in one surrounds the applicable TTS procedure.
  • STYLE style element
  • a "Continue” option is also inserted at the end of the menu.
  • the use of this "continuity” option can be determined, for example, by a property field (not shown) analogous to the two property fields P1, P2.
  • links can also appear in a text group, as shown in the following line:
  • the transformed XML source code causes a beep to be played - audio file WAV "bing.wav" - before the announcement of the cross-reference, which signals the operator of the IVR browser to a subsequent cross-reference.
  • the TTS conversion of the text is continued with a parameterizable time period after which an event is triggered ("on-selection timeout").
  • Another variant of the transformed XML source code offers the option of giving the operator the choice of whether to continue after referring to a cross-reference or whether, for example, it still takes time to rethink the information.
  • Which of these two variants is generated by a transformation can be entered, for example, in a property field (not shown) analogous to the two property fields P1, P2.
  • highlighted text passages - for example, in italics, bold print or underlining - must also be marked accordingly for the operator of the IVR browser WTE.
  • This marking is achieved using a scheme based on the marking points - tags - of the structured document SD.
  • the scheme converts underlined text - framed in the HTML source code with the ⁇ u> tag - into instructions that cause the volume of the correspondingly marked passages to be increased for the TTS process.
  • the method will analyze the HTML and check whether the WAV file can be downloaded. If it can, then the method will play the WAV file, otherwise it will insert the link anchor text ⁇ which, as suggested above, should be textual eguivalent of the WAV file content) which will be rendered by the text-to-speech engine.
  • the method ⁇ /u> will analyze the HTML and check whether the WAV file can be downloaded. If it can, then ⁇ b> the method ⁇ /b> will play the WAV file, otherwise it will insert the link anchor text ( ⁇ i> which, as suggested above, should be textual equivalent of the WAV file content ⁇ / i >) which will be rendered by the text-to-speech engine.
  • link anchor text ⁇ i> which, as suggested above, should be textual equivalent of the WAV file content ⁇ / i >
  • ⁇ i ⁇ pitch 190; volume: medium; speech rate:; 220;
  • ⁇ b ⁇ pitch 150; volume: medium; speech rate: 180; ⁇ / STYLE>
  • Forms When defining forms (“Forms") in document D, the various input elements such as text input fields (“Text Boxes”), option fields ("Radio Buttons”), control fields (“Check Boxes”), list fields (“List Boxes”) or combination fields (“pull-down menus”), a transformation of the HTML source code is also necessary to achieve application-oriented operation for the operator of the IVR browser WTE.
  • Text entry fields have a description ("label") that gives a user an explanation of the information to be entered.
  • label The following is the HTML source code generated by Microsoft Word of a text entry field designed in document D with the explanation "Last Name:":
  • the XML instruction set may contain
  • a script instruction which is not shown for reasons of space, is necessary, which handles an SR implementation (Speech Recognition) or a DTMF implementation of a text content to be entered by the operator of the IVR browser.
  • Letters are entered using a numeric keypad, for example, by repeatedly activating the numeric keys, with each key - according to an assignment scheme known to the person skilled in the art - several - generally. three or four letters are assigned. The repeated activation can also be omitted using a word lexicon and using the "T9" method known from mobile phone technology.
  • radio buttons have a description ("Name”) that gives a user an explanation of the option to be selected. Only one option can be selected in a group of option buttons.
  • the following is the HTML source code generated by Microsoft Word of two option fields designed in document D, labeled "Male” or "Female”:
  • Cut-Through YES; cue-before: "to select”; cue-after: "PRESS% 1";
  • Control fields have a description ("Name”) of a topic and a selection description ("Label”) of the selectable control field. In contrast to option fields, several control fields can be selected in a group of control fields.
  • the HTML source code generated by Microsoft Word of two control fields with the selection description "Java” or “Basic” is shown with the common description "Software Skills”:
  • Cut-Through YES; cue-before: "Press% 1 to select”; cue-after: "Press% 2 to continue”;
  • each control field is processed individually with an activation - selection - or deactivation. The operator hears the following announcement: “Press 1 to select Java, press 2 to continue", followed by a waiting time for user input. After user input, the announcement "Press 2 to select Basic, press 2 to continue” takes place.
  • Microsoft Word When defining a list field - containing the entries "British”, “American”, “German” - for selecting the nationality ("Nationality") in document D, Microsoft Word generates the following HTML source code:
  • Cut-Through YES; cue-before: "To select”; cue-after: "PRESS% 1";
  • a transformation into a modified " structured document MSD can be carried out by using the property field in document D that controls the type of commands to be entered by the operator
  • the transformation into the XML source code of the modified structured document MSD takes place in an analogous structure as in the example mentioned.
  • HTML source code generated by Microsoft Word is given if a "Submit Form" button is available.
  • Cut-Through YES; cue-before: "To select”; cue-after: "PRESS% 1"; ⁇ ⁇ /STYLE>
  • the operator of the IVR browser WTE hears the following announcement generated with the TTS method: "To select submit press 1, to select others press 2". If the operator activates the number key 2 of the communication terminal KE, the following announcement is generated: "To select reset press 1, to select skip press 2".
  • a cross-reference is described below which enables a telephone connection to a subscriber.
  • a cross-reference is defined, the destination of which is specified with dial: // * * *, where "***" stands for the number of the desired telephone subscriber.
  • the transformation into the XML source code may include the addition of a script which cross-references a structured document SD - for example of the "asp" type (Active Server Page) - which, in conjunction with a communication device (not shown), ensures a connection is established.
  • This structured document SD establishing the connection contains e.g. TAPI instructions for establishing the connection.
  • the cross-reference "Vincent” is assigned a reference to the URL dial: // 6097346566.
  • the number sequence "6097346566” is a subscriber number of "Vincent”.
  • the IVR browser WTE automatically generates - not shown - lexical mapping files - known to the person skilled in the art as "grammar files" - and assigns them to the running application.
  • a term to be recognized such as a gender designation "Male” is assigned several possible expressions entered by the operator by voice, such as "Male", "Man”.
  • This field contains possible entries for a positive confirmation by the operator and "IWR" is the name of the executing application.
  • Both the TTS method and the SR method enable different languages to be set for a dialog with the user of the IVR browser WTE.
  • For the TTS process e.g. uses a lexical analysis unit (not shown) for an analysis of the language of information contained in the structured document SD and, depending on the detected language, uses a respective library file (not shown) for converting textual into linguistic information.
  • a respective - not shown - grammar file is used to convert textual into linguistic information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Transformation strukturierter Dokumente (SD) in ein mittels eines IVR-Browsers (WTE) lesbares und/oder bearbeitbares modifiziertes strukturiertes Dokument (MSD). Dabei erfolgt eine Analyse eines das strukturierte Dokument (SD) bildenden Quellkodes mit einer Transformation des strukturierten Dokuments (SD) in ein modifiziertes strukturiertes Dokument (MSD) unter Verwendung eines für den IVR-Browser (WTE) lesbaren Quellkodes wobei eine Modifikation des Quellkodes des strukturierten Dokuments (SD) zur Definition einer sprachbasierten Menüstruktur erfolgt. Bei Querverweisen auf eine Telephonteilnehmernummer erfolgt eine Transformation des Quellkodes im modifizierten strukturierten Dokument (MSD) zur Unterstützung einer Kommunikationsverbindung in Verbindung mit einer Kommunikationseinrichtung.

Description

Beschreibung
Vorrichtung zum Erfassen und Darstellen von Bewegungen
Die Erfindung betrifft eine Vorrichtung zum Erfassen und Darstellen von Bewegungen.
Derartige Vorrichtungen sind aus dem Stand der Technik bekannt. So wird heutzutage beispielsweise bei fast allen Co - puterdesktopanwendungen eine sogenannte Computermaus verwendet, mit welcher die auf einem externen Bildschirm dargestellte graphische Benutzeroberfläche eines "Computers gesteuert werden kann. Solche Computermäuse besitzen zur Erfassung der Bewegung beispielsweise eine Kugel, welche in einer Ver- tiefung an der Unterseite der Maus eingelegt ist. Wird die Maus durch den Benutzer bewegt, so dreht sich die Kugel an der Unterseite und über in der Maus angebrachte Abrollsensoren wird die Bewegung an den Computer übertragen.
Andere Arten von Computermäusen haben statt der mechanischen Bewegungserfassung durch eine Kugel optische Sensoren. Bei diesen wird beispielsweise durch die Messung des am Untergrund, auf welchem die Maus bewegt wird, gestreuten oder reflektierten Lichts auf die Bewegung der Maus geschlossen, wo- bei die entsprechenden Daten über ein Kabel an einen Computer übermittelt werden.
Die Übertragung der Bewegungsdaten von der Computermaus zum Rechner erfolgt im allgemeinen über ein Kabel. Es sind aber auch Ausführungen bekannt, bei welchen die .Bewegungsdaten drahtlos an einen Computer übertragen werden.
Die Verwendung einer grafischen Benutzeroberfläche, wie sie sich heute bei herkömmlichen Computeranwendungen durchgesetzt hat, bedingt im allgemeinen die Möglichkeit, beliebige Orte auf der Bildschirmanzeige frei erreichen zu können. Dies wird, wie erwähnt, bei den meisten Desktopanwendungen mit der liehen, dem Benutzer darzustellenden Information auch rech¬ nerlesbare Instruktionen über deren Struktur enthalten. Für den Austausch strukturierter Dokumente im WWW wird heute überwiegend das HTML-Format (Hypertext Markup Language) ver- wendet .
Angesichts der Verbreitung des HTML-Formats bieten zahlreiche Softwarepakete wie beispielsweise Microsoft Word der Firma Microsoft Corp. die Möglichkeit, formatierte Dokumente in HTML-Kode für strukturierte Dokumente zu konvertieren. Dabei kann der von diesem Softwarepaket erzeugte HTML-Kode vom Benutzer nachträglich editiert werden. Auf derartige Softwarepakete, die i.A. keine speziellen Kenntnisse der Kodekonventionen in HTML erfordern, wird im folgenden mit dem Begriff eines "for atbasierten Editors" für strukturierte Dokumente Bezug genommen.
Die eingangs angesprochene Notwendigkeit eines jederzeitigen Zugangs auf Informationen im WWW schließt in zunehmenden Maße auch Situationen ein, bei der eine Person nicht über einen Arbeitsplatzrechner mit visuellen Ausgabe itteln verfügt. Da- her entsteht zunehmend das Bedürfnis, auf die im WWW vorliegenden Informationen in anderen Präsentationsformen zuzugreifen, beispielsweise in einem Audioformat über herkömmliche Telephone.
Eine sprachlich basierte Navigation und Infor ationsübermitt- lung im WWW wird als interaktives Sprachdialogverfahren - dem Fachmann auch als Interactive Voice Response (IVR) bekannt - bezeichnet. Das IVR-Verfahren hat seine Wurzeln in dialogorientierten Sprachsystemen zur Entlastung von Routineaufgaben und zur Warteschlangenverwaltung in Anrufzentralen. Dazu weist das IVR-Verfahren im allgemeinen eine Implementierung eines sprachgeführten Menüs auf, bei der ein Benutzer mit sprachlichen Mitteln oder auch durch Betätigung von Telephonzifferntasten die Wahl zwischen verschiedenen Optionen hat. Ein Standard zur Verwirklichung einer IVR-basierten WWW-Navi- gation ist VoiceXML (Voice Extensible Markup Language) , stan¬ dardisiert durch das "World Wide Web Consortium", derzeit in der Version 1.0, herausgegeben am 5. Mai 2000 (http: //www.w3.org/TR/voicexml/) . Dieser Standard erlaubt einen Entwurf von strukturierten Dokumenten, bei denen ein Abruf von Informationen unter Verwendung sprachlicher Kommuni¬ kation erfolgt. Diese sprachliche Kommunikation erfolgt einerseits durch Ausgabe von in einem VoiceXML-Skript enthalte- nem Text als Sprache an einen Benutzer, andererseits durch Verarbeiten eines von dem Benutzer gesprochenen Befehls.
Ein Abruf von Informationen auf sprachlicher Basis unter Verwendung von VoiceXML bedingt einen Entwurf und Bereitstellung von strukturierten Dokumenten auf einem WWW-Server im Voi- ceXML-Format . Damit ist ein Benutzer auf Informationen eingeschränkt, die in diesem Format auf einem WWW-Server definiert sind, er kann insbesondere nicht auf HTML-Dokumente zugreifen. Diese Ausgestaltung entspricht also einer server- seitigen Unterstützung des IVR-Verfahrens . Neben dem o.g. Nachteil eines nur eingeschränkten Zugriffs auf Informationen weist VoiceXML eine nachteilig höhere Beanspruchung der WWW-Serverrechenleistung für die Spracherzeugung und -analyse auf. Zusätzlich werden Übertragungskapazitäten der die Informationen übertragenden Datennetze stark beansprucht, da zur Steuerung benötigte bzw. ausgegebene Sprachinformationen in den Datennetz i.A. als digitalisierte Audiosignale übertragen werden, was im Vergleich zu einer Navigation in einem strukturierten Dokument via Mausklick oder Tastatureingabe einen erheblichen Anstieg der zu übertragenen Datenmenge bedeutet. Als weiterer Nachteil ist ein höherer Aufwand für den Entwurf von strukturierten Dokumenten im VoiceXML-Format zu nennen, der meist mit einem HTML-Entwurf parallel läuft.
Aus der internationalen Patentanmeldung WO99/46920 ist ein System für eine Navigation im WWW mit einem herkömmlichen Te- lephon bekannt. Zentraler Bestandteil dieses Systems ist ein Leitrechnersystem (Host Computer System) mit einem Modem und einem telephongesteuerten Audio-WWW-Browser (TAWB) . Ein Teil¬ nehmer wählt sich in dieses System durch Wahl einer dem Modem in einem Telephonnetz zugeordneten Rufnummer ein. Nach einem erfolgreichen Anmeldeprozess agiert das Modem des Leitrech¬ nersystems als eine Schnittstelle zwischen dem TAWB und dem Telephonnetz. Der Teilnehmer kann Kommandos zur Navigation oder Steuerung in gesprochener Form oder auch in Form von DTMF-Signalen (Dual Tone Multi Frequency) durch Betätigung von Telephonzifferntasten an den TAWB übermitteln. Dieser interpretiert die Kommandos, lädt die entsprechenden WWW- Doku ente und konvertiert die enthaltenen Informationen in ein Audio-Format. Die Informationen werden dann über das Telephonnetz an das Telephon gesendet, an dem der Teilnehmer sie hören kann. Die Umwandlung von textuellen Daten in Audioinformationen erfolgt durch ein dem Fachmann als Text-inSprache-Konversion oder auch TTS (Text to Speech) bekanntes Verfahren.
Aus der US-amerikanischen Patentschrift US 6018710 ist ein Verfahren bekannt, strukturierte Dokumente mittels des TTS- Verfahrens unter besonderer Berücksichtigung von darin enthaltenen strukturellen Anweisungen in Audiosignale zu konvertieren.
Beide in den obigen Druckschriften offenbarten Verfahren bzw. Anordnungen arbeiten - im Gegensatz zur server-seitigen Realisierung durch VoiceXML - mit einer client-seitigen Realisierung des IVR-Verfahrens, ein Benutzer kann also in beliebigen strukturierten Dokumenten ohne die erwähnte Beanspruchung von Übertragungskapazitäten bei VoiceXML nach Informa- tionen suchen. Eine client-seitig vorgenommene Umsetzung eines strukturierten - u.U. eine komplexe Struktur aufweisenden - Dokuments in Sprachinformation weist jedoch den Nachteil auf, einen mit sprachlichen Mitteln in diesem Dokument navigierenden Benutzer durch die im Zuge der Konvertierung verlorengegangene visuelle Strukturierung des Dokuments zu verwirren.
Aufgabe der Erfindung ist es, ein Verfahren anzugeben, das eine Entwicklung von strukturierten Dokumenten auf Basis von formatbasierten Editoren für strukturierte Dokumente ohne ei¬ ner Notwendigkeit von Expertenkenntnissen für eine gleichzeitige Abrufbarkeit dieser strukturierten Dokumente durch einen visuellen Browser sowie durch einen IVR-basierten Browser gewährleistet.
Eine Lösung der Aufgabe erfolgt durch die Merkmale des Patentanspruchs 1 bzw. 11.
Erfindungsgemäß wird ein strukturiertes Dokument empfangen und in ein modifiziertes strukturiertes Dokument transformiert, wobei im Rahmen einer Analyse des Quellkodes des strukturierten Dokuments Anzahl, Formats und/oder Anordnung von Querverweisen für eine Transformation in eine strukturierte - für die Bedienung mit IVR-basierten Browser geeignete- Menüstruktur erfolgt. Dies schließt auch die Behandlung eines Querverweises auf eine Telephonteilnehmernummer ein, der zur Ausführung einer Kommuni ationsVerbindung in Verbindung mit einer Kommunikationseinrichtung im modifizierten strukturierten Dokuments umgesetzt wird.
Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens ist darin zu sehen, dass nach der Entwicklung eines für visuelle Browser strukturierten Dokuments auf dieses Dokument ebenso mit einem nach dem IVR-Verfahren arbeitenden Browser zugreifbar ist. Damit entfällt eine aufwändige zweifache Entwicklung und Pflege von strukturierten Dokumenten in zwei unterschiedlichen Protokollen.
Besonders vorteilhaft ist die Analyse und Modifikation des auf dem WWW-Server gespeicherten strukturierten Dokuments zur Laufzeit, die keine zusätzliche Bereitstellung von Speicherkapazität am WWW-Server benötigt.
Weiterhin vorteilhaft ist, dass die Entwicklung strukturierter Dokumente ein geringes Maß an Kenntnissen über den Quell- kode erfordert, welcher durch den formatbasierten Editor automatisch generiert wird, beispielsweise in einem HTML-For¬ mat .
Ein Ausführungsbeispiel der Erfindung wird im folgenden anhand der Zeichnung näher erläutert.
Dabei zeigen:
Fig. 1: ein Strukturbild zur schematischen Darstellung von an ein paketorientiertes Netzwerk angeschlossenen Kommunikationsendpunkten und;
Fig. 2: eine schematische Darstellung eines Dokuments als Basis eines strukturierten Dokuments.
In Fig. 1 ist ein Kommunikationsendgerät KE dargestellt, das über einem nach dem IVR-Verfahren (Internet Voice Response) arbeitenden Browser WTE - im folgenden vereinfachend mit "IVR-Browser" WTE bezeichnet - sowie einem Proxyserver PRX mit einem paketorientierten Netzwerk NW, beispielsweise dem
Internet oder einem lokalen Netzwerk, bidirektional verbunden ist. Des weiteren ist ein herkömmlicher, d.h. Informationen auf einem - nicht dargestellten - visuellen Ausgabemittel ausgebender Browser BRW mit dem paketorientierten Netzwerk NW bidirektional verbunden.
Unter der Verbindung des IVR-Browsers WTE sowie des herkömmlichen Browsers BRW mit dem paketorientierten Netzwerk NW wird insbesondere verstanden, dass deren Software auf einem - nicht dargestellten - Rechnersystem arbeitet, das über ent- sprechende Soft- und Hardwarekomponenten zur Bereitstellung eines bidirektionalen Datenaustauschs mit einem - nicht dargestellten - sogenannten Internet Service Provider verfügt.
Der IVR-Browser WTE entspricht in seiner Funktionsweise beispielsweise der "Web Telephony Engine" der Firma Microsoft Corp., die in dem Internetdokumentpool "Microsoft Developers' Network", im speziellen unter der Adresse htt : //msdn.microsoft . com/library/default . asp?url=/library/ en-us/htmltel/wtestartpage 61et . asp (ohne Datumsangabe, Inhalt bezogen am 08.11.2001) bzw. in der Patentanmeldung mit dem internen Aktenzeichen 2001P21321 beschrieben ist. Zur
Steuerung des IVR-Browser WTE durch einen das Kommunikationsendgerät KE bedienenden Benutzer dienen sowohl vom Benutzer gesprochene Kommandos, die im IVR-Browser WTE mittels eines dem Fachmann als Spracherkennungsverfahren oder auch SR- Verfahren ("Speech Recognition") bekannten Verfahrens in
Steuerbefehle umgesetzt werden, als auch an den IVR-Browser WTE gesendete DTMF-Signale ("Dual Tone Multifrequency" ) , die vom Benutzer durch eine Betätigung einer jeweiligen Zifferntaste am Kommunikationsendgerät KE ausgelöst werden.
Die "Verbindung" beispielsweise des IVR-Browsers WTE mit dem - seiner Natur nach an sich verbindungslosen - paketorientierten Netzwerk NW ist als Quell- bzw. Zielort von Datenpaketen zwischen zwei mit dem paketorientierten Netzwerk NW verbundenen Kommunikationsendpunkten zu verstehen. Zur leich- teren Veranschaulichung wird weiterhin der Begriff einer
"Verbindung" verwendet. Ebenfalls aus Gründen der Anschaulichkeit werden in der Zeichnung mit dem paketorientierten Netzwerk NW ausgetauschte Datenpakete mit durchgezogenen Linien dargestellt.
Auf einem gleichfalls mit dem paketorientierten Netzwerk NW verbundenen WWW-Server SRV (World Wide Web) werden strukturierte Dokumente SD für eine Anforderung eines Clients - z.B. durch einen der beiden Browser WTE, BRW - in einem Speicher M verwaltet. Mit einem von rechts nach links weisenden Pfeil sind sinnbildlich zwei strukturierte Dokumente SD während ei¬ nes Ladevorgangs durch den entsprechenden Client, also dem IVR-Browser bzw. dem herkömmlichen Browser BRW dargestellt. Das noch zu beschreibende erfindungsgemäße Verfahren führt zu der Transformation des strukturierten Dokuments SD in ein für den IVR-Browser WTE bestimmtes modifizierte strukturierte Dokument MSD. Sowohl der Austausch von strukturierten Dokumenten SD als der Austausch von modifizierten strukturierten Do¬ kumenten MSD ist i.A. mit einem Austausch weiterer - nicht dargestellter - Dateien - auch Bibliotheksdateien genannt - begleitet, die z.B. Objekt- und/oder Stildefinitionen oder Konfigurationsdaten enthalten.
Der Aufbau des Proxyservers PRX entspricht dem aus der Patentanmeldung mit dem internen Kennzeichen 2001P21321 be- schriebenen Informationsleitrechner PRX. Dieser Proxyserver PRX ist mit rechnersystemüblichen Einrichtungen wie z.B. Zentralprozessoren, Arbeitsspeicher usw. ausgestattet, die eine Durchführung des erfindungsgemäßen Verfahrens gewährleisten. Der Proxyserver PRX ist eine mögliche Variante, das erfindungsgemäße Verfahren in einer rechentechnischen Einheit durchzuführen. Alternativ kann das Verfahren auch in den IVR- Browser, in den WWW-Server SRV oder in einem hierarchisch andersgearteten Server zum Ablauf kommen.
Die im Speicher M des WWW-Servers abgelegten strukturierten Dokumente SD werden unter Verwendung eines formatbasierten Editors erzeugt. Als formatbasierter Editor wird z.B. die Software Microsoft Word der Firma Microsoft Corp. verwendet, mit der eine Entwicklung eines strukturierten Dokuments SD in Form einer HTML-Seite durchführbar ist. Nach Fertigstellung des strukturierten Dokuments SD wird dieses im HTML-Format gespeichert, an den WWW-Server SRV übermittelt und in dessen Speicher M abgelegt.
Microsoft Word stellt zur Entwicklung einer HTML-Seite Werkzeuge zur Verfügung, die einem Anwender die Gestaltung dieser HTML-Seite ohne detaillierte Kenntnisse eines zugehörigen HTML-Quellkodes erlauben. Nach Aufruf einer Vorlage für HTML- Seiten kann ein Benutzer in einer für Textverarbeitungssysteme üblichen Weise einen gewünschten Text editieren und diesen Text in einer für die Präsentation der späteren HTML-Seite geeigneten Weise mit entsprechenden Formatierungen versehen. Neben formatierten Texten ist die Einfügung von Graphiken, Querverweisen auf verwandte Informationen - dem Fachmann auch als "Links" bekannt - usw. möglich. Microsoft Word führt bei einem Speichern des editierten Textes eine Umsetzung von Formatierungen und Querverweisen in entsprechende rechnerlesbare Anweisungen im erzeugten HTML-Quellkode um. Diese Umsetzung erfolgt durch eine definierte Vorgehensweise, die eine reproduzierbare Struktur des generierten Quellkodes gewährleistet.
Die unter Verwendung von Microsoft Word oder einem anderen formatbasierten Editor FE erzielte Einfachheit eines HTML- Entwurfs wird erfindungsgemäß mit einer fortschrittlichen Konvertierungstechnologie verbunden, die einen Zugang auf Informationen des strukturierten Dokuments SD mit dem IVR- Browser WTE gestattet.
In dem von Microsoft Word generierten strukturierten Dokument SD - der HTML-Seite - dienen diese Anweisungen einer strukturierten Darstellung der enthaltenen Information auf einem Browser. Anweisungen bestehen zumeist aus HTML-Befehlen, die aus Markierstellen - sogenannten "Tags" - und zugehörigen Parametern bestehen. Eine Aufstellung und Erklärung dieser Tags ist beispielsweise in dem Internetdokument Partl, Hubert: "HTML-Einführung"
(http://velociraptor.mni. fh-giessen.de/html/hein.html#index) in Version 97.9 vom September 1997 dargestellt. In dieser Beschreibung wird daher von einer syntaktischen und semantischen Erläuterung von Tags abgesehen.
Die Definition von Querverweisen - etwa auf andere strukturierte Dokumente, andere Bereiche des strukturierten Doku- ments oder auch auf eine zu ladende und auszugebende und/oder auszuführende Datei - erfolgt in Microsoft Word mit einem Be¬ arbeitungswerkzeug, das einem zu markierenden Bereich einer Zieladresse - in der Fachwelt auch mit URL (Uniform Resource Locator) bezeichnet - zuordnet. Alternativ kann mit einem Querverweis auf eine andere - z.B. im Speicher M des WWW- Servers vorliegende - Datei Bezug genommen werden.
Der URL enthält einen Eintrag über einen Verzeichnisort und einen Dateinamen der Datei, in der die gewünschte Information gespeichert ist. Weitere Bestandteile des URLs sind ein Eintrag über die Art des Datenzugriffs, eine Angabe eines die Datei verwaltenden WWW-Servers sowie eventuell die Stelle innerhalb der Datei oder Parameter für einen Suchvorgang oder für ein auf dem WWW-Server ablaufendes Skriptprogramm, wel- ches in der Fachwelt auch als CGI-Programm (Common Gateway Interface) bezeichnet wird.
Im folgenden wird unter weiterer Bezugnahme auf die Funktionseinheiten der Fig. 1 die Gestaltung eines strukturierten Dokuments SD näher erläutert.
Fig. 2 zeigt schematisch Informationselemente und Gestaltungskonventionen eines in Microsoft Word bearbeiteten Dokuments D. Dieses Dokument D ist die Basis für die durch Microsoft Word erfolgende Generierung des zugehörigen strukturiertem Dokuments SD im HTML-Format in einem darauffolgenden Schritt. In einem späteren Schritt wird dieses strukturierte Dokument SD im Speicher M des WWW-Servers gespeichert und steht sowohl dem herkömmlichen Browser BRW als auch dem IVR- Browser WTE für einen Abruf zur Verfügung. Der Abruf des strukturierten Dokuments SD durch den IVR-Browser erfolgt mit einer "Zwischenschaltung" des Proxyservers PRX, der das strukturierte Dokument SD nach einem noch zu erläuternden Verfahren in das modifizierte strukturiertes Dokument MSD transformiert . Das Dokument D besteht u.a. aus einem Formattext FT sowie aus mehreren Eigenschaftsfeldern P1,P2 von denen aus Übersichtsgründen lediglich zwei dargestellt sind. Der Formattext FT umfasst den durch das strukturierte Dokument SD darzustellen- de Inhalt, der neben textuellen Informationen auch Graphiken, Querverweise usw. enthält.
Die Eigenschaftsfelder P1,P2 dienen zur Aufnahme von in der Entwicklungsphase des Dokuments D einzutragenden Informationen zur Handhabung des später erzeugten strukturierten Doku- ments SD bzw. des - unter Anwendung des erfindungsgemäßen
Verfahrens erzeugte - modifizierten strukturierten Dokuments MSD. Die in den Eigenschaftsfeldern P1,P2 eingetragenen Informationen stehen somit in gleicher Weise auch in dem aus dem Dokument D generierten strukturierten Dokument SD sowie gegebenenfalls auch im modifizierten strukturierten Dokument MSD zur Verfügung, bleiben einem Empfänger - d.h. einem den herkömmlichen Browser BRW bzw. den IVR-Browser WTE bedienenden Benutzer - des strukturierten Dokuments SD bzw. des modifizierten strukturierten Dokuments MSD jedoch verborgen. Als Eigenschaftsfelder P1,P2 können beispielsweise für einen Eintrag von Dateieigenschaften des Dokuments D vorgesehene Felder verwendet werden.
Abhängig von der im ersten Eigenschaftsfeld Pl eingetragenen Information wird durch den Proxyserver PRX bestimmt, ob eine Transformation in ein modifiziertes strukturiertes Dokument MSD vorzunehmen ist, oder ob das strukturierte Dokument SD unverändert an den das strukturierte Dokument SD abrufenden Client weiterzuleiten ist. In dem ersten Eigenschaftsfeld Pl ist durch den Entwickler des Dokuments D somit ein Eintrag vorzunehmen, der eine das spätere modifizierte Dokument MSD bearbeitende Applikation im IVR-Browser WTE kennzeichnet. Diese Information im Eigenschaftsfeld Pl dient dem Proxyserver PRX zur Beurteilung, ob das aus dem Dokument D generierte strukturierte Dokument SD vor der Weitergabe an den aufrufen- den Client in ein modifiziertes strukturiertes Dokument MSD umzuwandeln ist. Liegt im Eigenschaftsfeld Pl keine oder eine nicht an eine Anwendung zuzuordnende Information vor, wird das strukturierte Dokument unverändert an den aufrufenden Client weitergeleitet.
In dem zweiten Eigenschaftsfeld P2 ist durch den Entwickler des Dokuments D ein Eintrag vorzunehmen, der Informationen über eine zu verwendende Zuordnung von DTMF-Signalen enthält. Eine Zuordnung von DTMF-Signalen durch den IVR-Browser WTE zu Zahlen, Buchstaben oder Sonderzeichen erfolgt dabei abhängig von einer im zweiten Eigenschaftsfeld P2 eingetragenen Information oder auch in Abhängigkeit einer Konfigurationsdatei, deren Dateiname und/oder Adresse im zweiten Eigenschaftsfeld P2 eingetragen wird. Die Konfigurationsdatei kann dabei im Speicher M des WWW-Servers SRV oder in einem - nicht darge- stellten - Speicher im IVR-Browser WTE gespeichert sein. Alternativ können Einträge der Konfigurationsdatei in einer - nicht dargestellten - Datenbank im WWW-Server SRV oder im Proxyserver PRX vorliegen.
Die erläuterten Einträge in die Eigenschaftsfelder P1,P2 des Dokuments D stellen Voraussetzungen dar, damit das daraus generierte strukturierte Dokument SD unter Anwendung des noch zu beschreibenden erfindungsgemäßen Verfahrens für den Benutzer des IVR-Browsers WTE abrufbar ist. Das erfindungsgemäße Verfahren führt dabei die Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD durch. Bei dieser Transformation werden Anweisungen im HTML- Quellkode und/oder Attribute dieser Anweisungen modifiziert, d.h. erweitert, hinzugefügt und/oder ersetzt. Die Transformation umfasst auch eine Hinzufügung von weiteren rechnerlesba- ren Anweisungen, sogenannte Skripten - beispielsweise Javaskripte oder Visual-Basic-Skripte - in Form eigenständiger Dateien oder als Bestandteil des modifizierten strukturierten Dokuments MSD. Neben der Eingabe der erläuterten Informationen in die Eigen¬ schaftsfelder P1,P2 hat der Entwickler des Dokuments D eine Gestaltungskonvention für den Formattext FT zu beachten, die im folgenden beschrieben wird.
Ein Kennzeichen für das erfindungsgemäße Verfahren ist eine sprachliche Wiedergabe der Inhalte des modifizierten struktu¬ rierten Dokuments MSD durch den IVR-Browser, die nicht aus¬ schließlich auf einer TTS-Konvertierung (Text to Speech) ba¬ siert. Statt dessen werden bereits bei der Entwicklung des Dokuments D Vorkehrungen getroffen, durch eine weitgehende
Zuordnung HL von Audiodateien WAV zu Textelementen im Formattext FT eine natürlichere Wiedergabe des Formattextes FT zu gewährleisten. Diese Zuordnung einer Textpassage zu einer den Inhalt dieser Textpassage in natürlicher Sprache wiedergeben- den Audiodatei WAV erfolgt beim Editieren des Dokuments D durch Definition eines Querverweises (oder auch "Link" bzw. "Hyperlink") auf die Datei. Diese Datei kann entweder als sogenannte "lokale Datei" auf dem WWW-Server SRV lokalisiert sein, an dem sich auch das strukturierte Dokument SD befin- det, oder auch an einem anderen - nicht dargestellten - Server im WWW bzw. Intranet. Der Bearbeiter des Dokuments hat diesen Querverweis mit einem URL in Form eines sogenannten "Get-String"-Typ in Form eines Fragezeichens ("?") einzutragen und eine Angabe der bearbeitenden Applikation (IWRVoice- File, s.u.). Bei einem Verweis auf die Datei "welcome.wav" der WWW-Adresse www. sJemens .com ist vom Benutzer folgender Querverweis einzutragen: http: //www. siemens . com/?IWRVoiceFile=welcome.wav.
Nach diesen Bedingungen für die Gestaltung des Dokuments D wird im folgenden die erfindungsgemäße Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD anhand von HTML-Kodebeispielen erläutert. Eine funktionale Hardwareumgebung des Verfahrens ist der Patentanmeldung mit dem internen Aktenzeichen 2001P21321 zu entneh- men. Für die Transformation wird dabei eine syntaktische Ana- lyse des HTML-Quellkodes im strukturierten Dokument SD vorgenommen. Unter Verwendung von HTMLDOM-Objekten (HTML Document Object Model) wird ein strukturierter Zugriff auf den HTML- Quellkode ermöglicht. Diese HTMLDOM-Objekte werden durch eine - nicht dargestellte - Transformationseinrichtung in das modifizierte strukturiertes Dokument MSD mit einem Quellkode im Format XML (Extended Markup Language) übergeführt. Die Analy¬ se des HTML-Quellkodes und die Transformation in den XML- Quellkode erfolgt zur Laufzeit, d.h. bei Zugriff des IVR- Browsers WTE auf das am WWW-Server SRV gespeicherte strukturierte Dokument SD.
Im folgenden wird das erfindungsgemäße Verfahren hinsichtlich der Bearbeitung von Querverweisen - Links - beschrieben. Abhängig von der Präsentation dieser Links in einem Textzusam- menhang ergeben sich unterschiedliche Anforderungen an die Präsentation der enthaltenen Informationen in dem sprachbasierten IVR-Browser WTE.
Querverweise werden in einem HTML-Dokument auf einem visuell strukturierenden Browser BRW beispielsweise wie folgt darge- stellt:
Additional Information: Link Wave Table Form
Dabei dient die Unterstreichung eines Bereiches - also eines Wortes ("Link", "Wave", "Table" oder "Form") oder einer Text- passage - einem Hinweis an den Bediener, dass durch aktivieren dieses Bereiches mit einem Eingabegerät - z.B. einer Maus - zur Darstellung einer weiterführenden Information führt. Diese weiterführende Information wird durch Aufruf eines weiteren strukturierten Dokuments SD, eines anderen Be- reiches im aktuellen strukturierten Dokument SD oder auch durch Aufruf einer Datei dargestellt. Im oben gezeigten Fall sind die Links abgesetzt von einem erklärenden Text ("Additional Information:") angeordnet. Dem Benutzer des sprachbasierten IVR-Browsers WTE steht zur Auswahl eines Links entweder die Betätigung einer Zifferntaste oder die sprachliche Nennung des jeweiligen Querverweises ("Link", "Wave", "Table" oder "Form") zur Verfügung. Die Textpassage "Additional Information:" besitzt die Funktion einer Beschreibung der unter Ihr stehenden Querverweise Link", "Wave", "Table" und "Form".
Anstatt einer ausschließlichen TTS-Konvertierung des Inhalts eines für visuelle Strukturierung vorgesehenen strukturierten Dokuments SD ist ein Ziel des Verfahrens dabei, eine graphische Strukturierung in eine benutzerfreundliche Bedienung auf der Basis von strukturierter gesprochener Sprache vorzunehmen. Beispielsweise ist zum Zwecke einer einleitenden Darstellung von durch den Benutzer des sprachbasierten IVR- Browsers WTE auswählbaren optionalen Querverweisen eine einleitende Ansage über die auswählbaren Links von Vorteil.
Die Einbindung von Audiodaten WAV erlaubt eine einleitende Ansage für den Bediener des IVR-Browsers WTE in einer natürlichen Beschreibung auswählbarer Querverweise. Beispielsweise kann der Inhalt einer Audiodatei WAV "info.wav" eine gesprochene Form der Textpassage "Additional Information:" enthalten, die um Informationen bezüglich der auswählbaren Querverweise und deren Auswahlmethode angereichert ist, etwa in der Form:
"For additional Information use the following links. For Link press 1, for wave press 2, for table press 3, for form press 4"
Dabei wird eine Auswahl von Querverweisen durch eine Betätigung einer jeweiligen Zifferntaste angenommen. Der Entwickler des Dokuments D hat dabei zu beachten, die Anordnung der
Querverweise mit dem Inhalt der Audiodatei WAV abzugleichen. An späterer Stelle dieser Beschreibung wird eine Bedienung über eine Spracherkennung nach dem an sich bekannten SR- Verfahren (Speech Recognition) mithilfe eines aus der sprachlichen Eingabe des Benutzers erzeugten Befehls erläutert.
Mit einer durch den Entwickler des Dokuments D zu erfolgenden Definition der Textpassage "Additional Information:" als Querverweis auf die Audiodatei WAV "info.wav" in einem Unterverzeichnis "waves" generiert Microsoft Word folgenden HTML- Quellkodeabschnitt :
<a href="waves/info.wav">Additional Information:</a>
Dieser HTML-Quellkodeabschnitt wird bei Transformation in das modifizierte strukturierte Dokument MSD wie folgt in einen XML-Quellkodeabschnitt geändert:
<p VoiceFile="waves/info.wav">Additional Information:</p>
Die Markierstelle - Tag - "<a>" ("Anchor") wird dabei in "<p>" ("Paragraph") geändert und die Link-Anweisung "href" ("Hypertext Reference") in eine durch den IVR-Browser rechnerlesbare Anweisung "VoiceFile=" zur Wiedergabe der Audiodatei WAV "info.wav" ersetzt (zur Bedeutung der Tags vgl. o.g. Dokument) . Wird durch den Entwickler des Dokuments D für die Textpassage "Additional Information:" kein Querverweis auf eine Audiodatei WAV definiert, wird diese Passage durch das TTS-Verfahren im IVR-Browser in Sprache umgesetzt.
Die oben genannten im Dokument D definierten Querverweise führen zu folgenden von Microsoft Word generierten HTML- Quellkode :
<p class=MsoNormal>
<a href="waves/info.wav">Additional Information: </a>
</p>
<p class=MsoNormal>
<a href="#Link_Test">Link</a> <a href="#Wave Test">Wave</a> <a href="#Table_Test">Table</a>
<a href="#Form_Test">Form</a> </p>
Die Querverweise ("Link", "Wave", "Table" oder "Form") ver- weisen auf mit dem jeweiligen Suffix "_Test" definierte Bereiche des aktuellen strukturierten Dokument SD, die der Anwender mit dem Bearbeitungswerkzeug zur Definition von Querverweisen definiert hat. Ein Querverweis auf einen Bereich wird durch das Rautesymbol ("#") angewiesen. Weitere Schlüs- selwörter wie beispielsweise "MsoNormal" sind zusätzliche von Microsoft Word eingefügte Informationen, die für die Dekodie- rung des HTML-Kodes irrelevant sind und bei der Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD entfernt werden.
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<p VoiceFile="waves/info .wav">Additional Information:</p> <p> <a VoiceFile="waves/silence.wav" href="#Link_Test">Link</a> <a VoiceFile="waves/silence.wav" href="#Wave_Test">Wave</a> <a VoiceFile="waves/silence.wav" href="#Table_Test">Table</a> <a VoiceFile="waves/silence.wav" href="#Form_Test">Form</a> </p>
Dabei wird durch die Transformation in jeden einzelnen Querverweiseintrag eine Anweisung zur Ausführung einer Audiodatei WAV "silence.wav" ("Stille") eingefügt, die die Funktion hat, die TTS-Umwandlung und Ansage dieses Querverweises zu unterdrücken. Diese Ansage ist durch die einleitende Ansage der Audiodatei WAV "info.wav" entbehrlich. Der Querverweis auf die Audiodatei WAV "silence.wav" erfolgt wie vorher durch die Einführung des Attributs "VoiceFile=", das die Funktion einer Anweisung für den IVR-Browser WTE zum Abspielen dieser Datei WAV besitzt. Infolge der Transformation wird die Markierstelle - Tag - eines Querverweises von <a> in <p> verändert.
Existiert für eine Gruppe von weiterführenden Querverweisen keine einleitende Textpassage (z.B. wie oben "Additional Information:"), wird die Bezeichnung des Querverweises ("Link", "Wave", "Table" oder "Form") in einen Kontext gestellt, der dem Benutzer des IVR-Browsers WTE Auswahl- und Aktivierungsmöglichkeiten dieser Querverweise erklärt. Aus dem von Micro- soft Word generierten HTML-Quellkode ohne die Passage "Additional Information:" (vgl. oben)
<p class=MsoNormal> <a href="#Link_Test">Link</a> <a href="#Wave_Test">Wave</a> <a href="#Table_Test">Table</a> <a href="#Form_Test">Form</a> </p>
wird nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD folgender XML- Quellkode generiert:
<STYLE>
A.Menul { cue-before: For; cue-after: Press %1;
} </STYLE> <p>
<a class="Menul" href="#Link_Test">link</a> <a class="menul" href="#Wave_Test">wave</a> <a class="Menul" href="#Table Test">table</a> <a class="Menul" href="#Form Test">form</a>
</p>
Durch die Transformation wird ein Stilelement ("STYLE") eingefügt, das die Querverweisbezeichnungen ("Link", "Wave", usw.) mit einer Erklärung in einem darauf anzuwendenden TTS- Verfahren umgibt. Der Benutzer des IVR-Browsers hört dabei die Erklärung "For Link Press 1, for Wave press 2, for Table press 3 for Form press 4". Der Parameter "%1" der Klasse "Me- nul", Methode "cue-after" bewirkt eine schrittweise inkremen- tierte Ziffer abhängig von der Anzahl der Querverweise. Klassenattribute class="Menul" werden in jedem Querverweiseintrag eingetragen. Auch in diesem Fall obliegt es der Verantwortung des Entwicklers von Dokument D, die in Reihenfolge der Verweise zugewiesenen Ziffern mit dem Inhalt der Audiodatei WAV konsistent zu gestalten.
Die oben beschrieben Transformation von zusammengehörigen Querverweisen wird bei anders strukturierten Gliederungsformen weitgehend analog ausgeführt. Als ein weiteres Beispiel sei eine Strukturierung mit Gliederungszeichen erläutert:
- Link
- Wave
- Table
- Form
Die oben genannten im Dokument D definierten Querverweise führen zu folgenden von Microsoft Word generierten HTML- Quellkode:
<ul style='margin-top: Oin' type=square> <li class=MsoNormal style='mso-list : 10 levell lfo3; tab-stops: list .5in'> <a href="#Link_Test">Link</a> </li> <li class=MsoNormal style='mso-list : 10 levell lfo3; tab-stops: list .5in'>
<a href="#Wave_Test">Wave</a>
</li> <li class=MsoNormal style='mso-list : 10 levell lfo3; tab-stops : list .5in'>
<a href="#Table_Test">Table</a>
</li>
<li class=MsoNormal style='mso-list : 10 levell lfo3; tab-stops : list .5in'>
<a href="#Form_Test">Form</a>
</li>
</ul>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE>
A.menu2 { cue-before: For; cue-after: Press %1; } </STYLE>
<ul> <li><a class="Menu2" href=" #Link_Test" >Link</a></li> <li><a class="Menu2 " href=" #Wave_Test " >Wave</a></li>
<lixa class="Menu2 " href=" # Table Test">Table</ax/li> <li><a class="Menu2" href="#Form_Test">Form</aX/li> </ul>
Alternativ zur Bedienung des IVR-Browsers mittels Zifferntas- ten zur Auswahl einer Option ist auch eine Bedienung mit einem gesprochenen Wort möglich, das über ein im IVR-Browser implementiertes TTS-Verfahren in ein entsprechendes Kommando umgesetzt wird. Im folgenden ist der XML-Quellkode des modifizierten strukturierten Dokuments MSD dargestellt, wenn im Dokument D - beispielsweise über ein den ersten beiden Eigenschaftsfeldern P1,P2 entsprechendes, nicht dargestelltes Eigenschaftsfeld - eine Transformation des strukturierten Dokuments in ein modifiziertes strukturiertes Dokument MSD zur Unterstützung des SR-Verfahrens (Speech Recognition) einge- stellt wurde.
<STYLE>
A. IWRMenuContinue
{
Cut-Through : YES ; cue-before : To ; cue-after : Press %1 or Say continue ; } </STYLE>
<body lang=EN-US> <ul>
<lixa Style="Cut-Through : YES ; cue-before : To select ; cue-after : Press %1 or Say link; " href=" #_Link_Following_Test" >Link</a> </li> <lixa Style="Cut-Through : YES ; cue-before : To select ; cue-after : Press %1 or Say wave ; " href=" # Wave File Test" >Wave</a> </li> <lixa Style="Cut-Through: YES; cue-before: To select; cue-after: Press %1 or Say table;" href="#_Table_Test">Table</a> </li> <lixa Style="Cut-Through: YES; cue-before: select; cue-after: Press %1 or Say form;" href="#_Form_Input_Test">Form</a> </li> <a Class=IWRMenuContinue href="#menul_continue"> continue </a> </ul> <a name="menul_continue"x/a>
Der Bediener des IVR-Browsers WTE wird durch einen Hinweis, z.B. "Press 2 or say Wave" auf die Möglichkeit einer Aktivierung des Querverweises "Wave" durch Aussprechen dieses Wortes hingewiesen. Wie im vorhergehenden Fall wird bei der Trans- formation eine Gruppe von Verweisen bestimmt und in eine Menüstruktur unter Verwendung der <ul>/<li>-Tags umgesetzt. Da der Entwickler des Dokuments D keine Verwendung einer Audiodatei WAV zur akustischen Erläuterung der auswählbaren Optionen vorsieht, wird das Stilelement ("STYLE") eingefügt, das die Querverweisbezeichnungen ("Link", "Wave", usw.) mit einer Erklärung in einem darauf anzuwendenden TTS-Verfahren umgibt. Um den Bediener mit der Methode "Cut-Through" ein Überspringen der restlichen Ansagekette bei Auswahl eines Elements zu ermöglichen, wird außerdem eine "Continue"-Option ("fortset- zen") am Ende des Menüs eingefügt. Das Einsetzen dieser "Con- tinue"-Option kann beispielsweise durch ein - nicht dargestelltes - Eigenschaftsfeld analog der beiden Eigenschaftsfelder P1,P2 bestimmt werden.
Alternativ zu der oben gezeigten Struktur, können Links auch in einem Textverbund auftreten, wie im folgender Zeile dargestellt:
Follow this external link to the CNN News Website. Follow this link to the last section of this page . Wie weiter oben für den Fall eines Querverweises auf eine Audiodatei WAV gezeigt, definiert ein Bearbeiter des Dokuments D in Microsoft Word die Zieldatei oder -adresse eines Links durch Markieren des Textes (z.B. "CNN News") und Aktivieren eines Bearbeitungswerkzeuges in Microsoft Word, mit dem ein Eintrag auf. die mit dem Bereich zu verknüpfende Zieldatei o- der -adresse (z.B. "http://www.cnn.com") vornehmbar ist.'
Die oben genannten im Dokument D definierten Querverweise führen zu folgenden von Microsoft Word generierten HTML- Quellkode:
<p class=MsoNormal>Follow this external link to the
<a href="http: //www.cnn. com/">CNN News</a> website.</p>
<p class=MsoNormal>Follow this link to the
<a href="#last_section">last section</a> of this page.</p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE> A.menu4 { cue-before: url (waves/Bing.wav) } </STYLE> <STYLE>
A.menu5. { cue-before: url (waves/Bing.wav) } </STYLE>
<script language="VBScript" for="single_linkl" event= "onselectiontimeOu.t"> window.navigate ("#single linkl continue") </script>
<script language="VBScript" for="single_link2" event= "onselectiontimeOut"> window.navigate ("#single_link2_continue") </script>
<p>Follow this external link to the </p> <p id="single_linkl">
<a class="Menu4" href="http: //www. cnn. com">CNN News</a> <a href="#single_linkl_continue"X/a>
</p>
<p><a id="single_linkl_continue"x/a>web site . </p>
<p>Follow this link to the </p> <p id="single_link2 ">
<a class="Menu4 " href=" #last_section">last section</a> <a href=" #single_link2_continue"x/a>
</p>
<p><a id="single_link2_continue"x/a> of this page.</p>
Der transformierte XML-Quellkode bewirkt eine Einspielung eines Signaltons - Audiodatei WAV "bing.wav" - vor der Ansage des Querverweises, der dem Bediener des IVR-Browsers einen folgenden Querverweis signalisiert. Mit einer parametrierba- ren Zeitspanne, nach der ein Ereignis ausgelöst wird ("onse- lectiontimeout") , wird die TTS-Konversion des Textes weitergeführt .
Eine andere Variante des transformierten XML-Quellkodes bietet die Möglichkeit, dem Bediener selbst die Wahl zu überlassen, ob er nach einem Hinweis auf einem Querverweis fortfah- ren möchte oder ob er beispielsweise noch Zeit benötigt, die Information zu überdenken. Welche dieser beiden Varianten durch eine Transformation erzeugt wird kann beispielsweise in einem - nicht dargestellten - Eigenschaftsfeld analog der beiden Eigenschaftsfelder P1,P2 eingetragen werden. <STYLE>
A.menu4
{ cue-before: For; cue-after: press %1;
} </STYLE> <STYLE>
A.menu4Continue { cue-before: To continue; cue-after: press %1;
} </STYLE> <STYLE>
A.menu5
{ cue-before: For; cue-after: press %1; }
</STYLE> <STYLE>
A.menu5Continue { cue-before: To continue cue-after: press %1
} </STYLE>
<script language="VBScript" for="single_linkl" event="onselectiontimeOut"> window.navigate ("#single_linkl_continue") </script>
<script language="VBScript" for="single_link2" event="onselectiontimeOut"> window.navigate ("#single_link2_continue") </script> π*ι/ er u L / u o
26
<P>Follow this external link to the </p>
<p id="single_linkl">
<a class="Menu4 " href="http : //www. cnn. com" >CNN News</a>
<a class="Menu4Continue" href="#single_linkl_continue"x/a> </p>
<p><a id="single_linkl_continue"x/a>web site .
</p>
<P>Follow this link to the </p><p id="single_link2"> <a class="Menu5" href="#last_section">last section</a> <a class="Menu5Continue" href="#single_link2_continue"X/a>
</p>
<pxa id="single_link2_continue"x/a> of this page.</p>
Im folgenden wird die Transformation von hervorgehobenen Textstellen erläutert. Bei einer TTS-Umwandlung sind - beispielsweise durch Kursivschrift, Fettdruck oder Unterstreichung realisierte - hervorgehobene Textstellen auch für den Bediener des IVR-Browsers WTE entsprechend zu kennzeichnen. Diese Kennzeichnung wird unter Anwendung eines Schemas auf Basis der Markierstellen - Tags - des struktu- rierten Dokuments SD erreicht. Das Schema setzt unterstrichene - im HTML-Quellkode mit dem Tag <u> eingerahmte - Textstellen in Anweisungen um, die für das TTS-Verfahren eine Anhebung der Lautstärke ("Volume") der entsprechend markierten Passagen veranlassen. Entsprechendes gilt für - im HTML- Quellkode mit dem Tag <i> eingerahmte - kursive Textpassagen, die in eine schnellere Ansage ("Speech-Rate") des Textes umgesetzt werden und für fettgedruckte Textpassagen, die in eine Ansage mit tieferer Tonhöhe ("Pitch") umgesetzt werden. Zur Erläuterung dient im folgenden ein auf einem visuellen Browser darzustellender Formattext FT mit verschiedenen Hervorhebungen:
When this page is accessed via the telephone, the method will analyze the HTML and check whether the WAV file can be downloaded. If it can, then the method will play the WAV file, otherwise it will insert the link anchor text { which , as suggested above, should be textual eguivalent of the WAV file content) which will be rendered by the text-to-speech engine.
Der oben genannten im Dokument D definierte Formattext FT führt zu folgenden von Microsoft Word generierten HTML- Quellkode:
<p class=MsoNormal><span lang=EN style='mso-ansi- language:ENf >When this page is accessed via the telephone, <u>the method</u> will analyze the HTML and check whether the WAV file can be downloaded. If it can, then <b>the method</b> will play the WAV file, otherwise it will insert the link anchor text (<i>which, as suggested above, should be textual equivalent of the WAV file content</i>) which will be rendered by the text-to-speech engine. </p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
STYLE>
U { pitch: 190; volume :highj speech' -rate: :180;
} i { pitch: ; 190; volume :medium; speech- -rate: ;220;
} b { pitch: : 150; volume :medium; speech- -rate: 180; </STYLE>
<p>When this page is accessed via the telephone, <u>the method</u> will analyze the HTML and check whether the WAV file can be downloaded. If it can, then <b>the method</b> will play the WAV file, otherwise it will insert the link anchor text (<i>which, as suggested above, should be textual equivalent of the WAV file content</i>) which will be rendered by the text-to-speech engine. </p>
Bei der Definition von Formularen ("Forms") im Dokument D, die verschiedene Eingabeelemente wie beispielsweise Texteingabefelder ("Text Boxes"), Optionsfelder ("Radio Buttons"), Kontrollfelder ("Check Boxes"), Listenfelder ("List Boxes") oder Kombinationsfelder ("Pull-Down Menüs") enthalten, ist gleichfalls eine Transformation des HTML-Quellkodes zur Er- reichung einer anwendungsorientierten Bedienung für den Bediener des IVR-Browser WTE notwendig.
Texteingabefelder verfügen über eine Beschreibung ("Label"), die einem Anwender eine Erklärung über die einzutragende Information geben. Im folgenden ist der von Microsoft Word ge- nerierte HTML-Quellkode eines im Dokument D entworfenen, mit der Erklärung "Last Name:" versehenen Texteingabefelds dargestellt:
<p class=MsoNormal>Last Name: <INPUT TYPE="TEXT" NAME="personal_lastname"X/p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE> label . textlastname {
Cut-Through: YES; cue-before: "Please enter the Information for"; }
</STYLE> <p>
<label class="textlastname" for="tlastname"> Last Name: </label>
<INPUT TYPE="TEXT" NAME="personal_lastname" id=" textlastname" /></p>
</p>
Im XML-Befehlssatz ist u.U. außerdem eine - aus Platzgründen nicht dargestellte - Skriptanweisung notwendig, die eine SR- Umsetzung (Speech Recognition) oder eine DTMF-Umsetzung eines vom Bediener des IVR-Browsers gewünschten einzutragenden Textinhalts handhabt. Die Eingabe von Buchstaben über eine Zifferntastatur erfolgt beispielsweise unter mehrmaliger Ak- tivierung der Zifferntasten, wobei jeder Taste - nach einem dem Fachmann bekannten ZuordnungsSchema - mehrere - i.a. drei oder vier - Buchstaben zugeordnet sind. Die mehrmalige Aktivierung kann unter Verwendung eines Wortlexikons und in analoger Anwendung des aus der Mobiltelephontechnik bekannten "T9"-Verfahrens auch entfallen.
Optionsfelder verfügen wie Texteingabefelder über eine Beschreibung ("Name"), die einem Anwender eine Erklärung über die auszuwählende Option geben. In einer Gruppe von Optionsfelder kann ausschließlich eine Option ausgewählt werden. Im folgenden ist der von Microsoft Word generierte HTML- Quellkode zweier im Dokument D entworfenen, mit der Beschreibung "Male" bzw. "Female" versehenen Optionsfelder dargestellt:
<p class=MsoNormal> <span lang=EN style='mso-ansi-language :EN' >Male </span> <INPUT TYPE="RADIO" NAME="gender" VALUE="Male"> <span lang=EN style='mso-ansi-language :EN' > <span style="mso-spacerun:yes"> </span> Female </spanXINPUT TYPE="RADIO" NAME="gender" VALUE="Fema1e"> <span lang=EN style='mso-ansi-language:EN' ><o:p></o:p></span>
</p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE> label . radiogender {
Cut-Through: YES; cue-before: "to select"; cue-after: "PRESS %1";
} </STYLE> <P>
<label class="radiogender" for="rmale"> Male </label> <INPUT name="gender" id="rmale" type="radio" value="Male" /> <label class="radiogender" for="rfemale"> Female </label> <INPUT name="gender" id="rfemale" type="radio" value="Female"/> </P>
Kontrollfelder verfügen über eine Beschreibung ("Name") eines Themas, und einer Auswahlbeschreibung ("Label") des auswähl- baren Kontrollfeldes. Im Gegensatz zu Optionsfeldern können in einer Gruppe von Kontrollfeldern mehrere Kontrollfelder ausgewählt werden. Im folgenden ist der von Microsoft Word generierte HTML-Quellkode zweier mit der Auswahlbeschreibung "Java" bzw. "Basic" versehenen Kontrollfelder mit der gemein- sa en Beschreibung "Software Skills" dargestellt:
<p class=MsoNormal><span lang=EN style='mso-ansi- language:EN'>Java </span><INPUT TYPE="CHECKBOX" NAME="software_skills" VALUE="j ava"><span lang=EN style= ' mso-ansi-language : EN' Xspan style="mso- spacerun : yes "> </span>Basic <INPUT TYPE=" CHECKBOX" NAME="software_skills " VALUE="basic"Xo :pX/o : pX/span>
</p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE> label. sclabel
{
Cut-Through: YES; cue-before: "Press %1 to select"; cue-after: "Press %2 to continue";
} </STYLE>
<P> <label class="sclabel" for="scheckboxjava"> Java</label> <INPUT id="scheckboxjava" name="software_skills" type="checkbox" value="java"/> <label class="sclabel" for="scheckboxbasic"> basic</label> <INPUT id="scheckboxbasic" name="software_skills" type="checkbox" value="basic"/> </p>
Dabei wird die TTS-umgesetzte Auswahlbeschreibung jedes Kontrollfelds für die Ansage des Bedieners am IVR-Browser WTE verwendet. Jedes Kontrollfeld wird dabei individuell mit ei- ner Aktivierung - Auswahl - oder Deaktivierung abgearbeitet. Der Bediener hört folgende Ansage: "Press 1 to select Java, press 2 to continue", gefolgt von einer Wartezeit für die Benutzereingabe. Nach der Benutzereingabe erfolgt die Ansage "Press 2 to select Basic, press 2 to continue". Bei der Definition eines - die Einträge "British", "American", "German" enthaltenden - Listenfeldes zur Auswahl der Nationalität ("Nationality") im Dokument D erzeugt Microsoft Word folgenden HTML-Quellkode:
p class=MsoNormalxbxspan lang=EN style='mso-ansi- language :EN' >Nationality: <o :p></o :p></span></bx/p> <p class=MsoNormalxSELECT NAME="nationality" SIZE="3"> <0PTI0N SELECTED VALUE="British">British <OPTION VALUE="American">American <OPTION VALUE="German">German </SELECTXspan lang=EN-US style='mso-ansi- language :EN_US ' ><o :p></o :p></span></p>
Listenfelder erlauben die Auswahl einer Option innerhalb ei- ner Liste von auswählbaren Optionen. Dabei ist auch eine
Mehrfachauswahl von Optionen möglich. Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE>
Option.nlb {
Cut-Through: YES; cue-before: "To select"; cue-after: "PRESS %1";
} </STYLE>
<p><b>Nationality</bx/p> <pXSELECT NAME="nationality" SIZE="3"> <OPTION class="nlb" SELECTED VALUE="British">British</Option> <OPTION class="nlb" VALUE="American">American</Option> <OPTION class="nlb" VALUE="German">German</Option> </SELECT> </p> Für alle beschriebenen Eingabefelder wurde die Transformation in das modifizierte strukturierte Dokument MSD unter Verwendung einer Eingabe mit Ziffernasten beschreiben. Auch bei Eingaben in ein Formular unter Verwendung von Eingabeelemen- ten ist - analog zu dem vorher genannten Beispiel mit in Aufzählungssymbolen gegliederten Verweisen - eine Transformation in ein modifiziertes " strukturiertes Dokument MSD durchführbar, indem die Art der vom Bediener einzugebenden Kommandos steuernde Eigenschaftsfeld im Dokument D auf einen entspre- chenden Wert eingestellt wird. Die Transformation in den XML- Quellkode des modifizierten strukturierten Dokuments MSD erfolgt in analoger Struktur wie im genannten Beispiel.
Am Ende eines Formulars zur Eingabe von Daten steht gewöhnlich eine Schaltfläche zur abschließenden Bestätigung der Eingaben durch den Bediener. Diese Bestätigungsschaltfläche ("Submit Button") wird im modifizierten strukturierten Dokument MSD wie folgt gehandhabt: Existiert ausschließlich die Bestätigungsschaltfläche mit dem Text "Submit Form" - oder einem ähnlichen, in einer anderen Sprache definierten Text - werden die eingegeben Daten ohne weitere Eingaben oder Hinweise übernommen. Ist für den Bediener jedoch eine Schaltfläche ("Reset Form") zum Zurücksetzen aller Eingaben vorgesehen, wird im modifizierten strukturierten Dokument MSD ein Menü erzeugt, dass die Auswahl "bestätigen" ("Submit") und "Andere Optionen" ("Others") erzeugt. Eine Eingabe des Befehls "Andere Optionen" ("Others") führt zu einer Präsentation von Untermenüs "Zurücksetzen" ("Reset") und "Überspringen" ("Skip") .
Im folgenden wird der von Microsoft Word generierte HTML- Quellkode bei der Existenz einer Schalfläche "Submit Form" angegeben.
<p class=MsoNormal><span lang=EN style='mso-ansi- language.EN'XINPUT TYPE="Submit" ACTION="login. asp" VALUE="Submit Form" METHOD="Post" ><o :px/o :px/spanx/p> Nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD ergibt sich folgender XML-Quellkode, der ein strukturiertes Dokument "login. asp" aufruft, die die eingegebenen Daten automatisch übernimmt.
<input TYPE="Submit" ACTION=" login. asp" METHOD="Post" Value="Submit"/>
Wurde im Dokument D neben der Schaltfläche "Submit Form" die Schaltfläche "Reset Form" zum Zurücksetzen aller Eingaben vorgesehen, wird im modifizierten strukturierten Dokument MSD folgender XML-Quellkode erzeugt.
<STYLE> a . otheroptions
{
Cut-Through: YES; cue-before: "To select"; cue-after: "PRESS %1"; } </STYLE>
<p>
<A class="otheroptions" href="#begin_form">Reset</A> <A class="otheroptions" href="#skip_form">Skip</A> </P> </form> <a id="skip_form"x/a>
Der Bediener des IVR-Browsers WTE hört folgende mit dem TTS- Verfahren generierte Ansage: "To select submit press 1, to select others press 2". Aktiviert der Bediener die Zifferntaste 2 des Kommunikationsendgeräts KE wird folgende Ansage generiert: "To select reset press 1, to select skip press 2".
Bei der Beschreibung aller Eingabeelemente wurde eine Gestaltung des Dokuments D unterstellt, die keinen einleitenden Text mit einer Verknüpfung zu einer erläuternden Audiodatei WAV vorsieht. Sieht der Entwickler des Dokuments - analog zu der Beschreibung im Zusammenhang mit der "Additional Information: "-Verknüpfung auf eine Audiodatei WAV - eine derartige Verknüpfung auf eine Informationen über die verfügbaren Optionen - nach dem Schema "For *** press 1, for *** press 2", wobei drei Sterne ("***") für zu odefierende Aktionen stehen - wiedergebende Audiodatei WAV vor, so wird der XML- Quellkode des modifizierten strukturierten Dokuments MSD eine wie oben gezeigte Struktur haben, die u.a. eine Einbindung der Audiodatei WAV "silence.wav" zur Unterdrückung von TTS- Konversionen der einzelnen Menüpunkte sowie eine Möglichkeit zum Verlassen der Ansagekette bei Auswahl eines Elements um- fasst .
Im folgenden wird ein Querverweis beschrieben, der eine Telephonverbindung zu einem Teilnehmer ermöglicht. Dabei wird ein Querverweis definiert, dessen Ziel mit dial : // * * * angegeben wird, wobei "***" für die Nummer des gewünschten Telephonteilnehmers steht. Die Transformation in den XML-Quellkode schließt dabei u.U. die Hinzufügung eines Skriptes ein, das einen Querverweis auf ein strukturiertes Dokument SD - beispielsweise vom Typ "asp" (Active Server Page) - ausführt, welches in Verbindung mit einer - nicht dargestellten - Kom- munikationseinrichtung einen Verbindungsaufbau gewährleistet. Dieses den Verbindungsaufbau .herstellende strukturierte Dokument SD enthält z.B. TAPI-Anweisungen zur Ausführung des Verbindungsaufbaus .
In dem nachfolgenden Beispiel von drei im Dokument D definierten Querverweisen ist dem Querverweis "Vincent" ein Ver- weis auf die URL dial : //6097346566 zugewiesen. Die Ziffernfolge "6097346566" sei dabei eine Teilnehmernummer von "Vincent" .
Vincent Wave Table Form Die oben genannten im Dokument D definierten Querverweise führen zu folgenden von Microsoft Word generierten HTML- Quellkode:
<p class=MsoNormalXa href="dial: //6097346566">Vincent</a> <a href="#Wave_Test">wave</a> <a href="#Table_Test">table </a> <a href="#Form_Test">form</aX/p>
Der nach Transformation des strukturierten Dokuments SD in das modifizierte strukturierte Dokument MSD resultierende XML-Quellkode ist im folgenden dargestellt.
<STYLE>
A.menu6
{ cue-before: To transfer to; cue-after: Press %1;
} A.menu7
{ cue-before: For; cue-after: Press %1;
} </STYLE>
<script language="VBScript" for="diall" event="onclick"> window.navigate ( "default_asp/transfer . asp?dialstring=
' 6097346566' &description= 'Vincent ' &return='diall_cancel ' ")
</script>
<P>
<a class="menu6" id="diall" href="dial : //6097346566">Vincent </a>
<a class="menu7" href="#Wave_Test">Wave</a>
<a class="menu7" href="#Table_Test">Table
</a>
<a class="menu7 " href="#Form_Test">form</a></p> <a id="diall cancel"x/a> Die Übergabe des Querverweises "Vincent" an das strukturierte Dokument "transfer.asp" (s.o.) erfolgt mit den Argumenten Teilnehmernummer als "dialstring", die Beschreibung ("Vincent") des Querverweises wird als "description" übergeben. Weiterhin wird ein Rückgabewert ("return") definiert, der ein Beenden der Telephonverbindung erlaubt.
Im folgenden wird ein Aspekt des SR-Verfahren - also der Spracherkennung am IVR-Browser WTE - erläutert. Der IVR- Browser WTE generiert automatisch - nicht dargestellte - le- xikalische Zuordnungsdateien - dem Fachmann als "Grammar Files" bekannt - und weist sie der laufenden Applikation zu. Dabei werden einem zu erkennenden Begriff wie etwa einer Geschlechtsbezeichnung "Male" (männlich) mehrere mögliche, vom Bediener per Sprache eingegebene Ausdrücke zugeordnet wie z.B. "Male", "Man".
Zur Verbesserung der Spracherkennung ist eine Zuweisung eigener Wörter zu den Grammar Files möglich. Dies ist entweder über ein für diesen Zweck reserviertes - nicht dargestelltes - Eigenschaftsfeld möglich, etwa in der Form:
Eigenschaft: "IWR. inputname. grammar" Wert: "'yes', 'ya', 'sure'"
wobei dieses Feld mögliche Eingaben für eine positive Bestätigung des Bedieners enthält und "IWR" der Name der ausführenden Applikation ist.
Eine andere Möglichkeit ist die Definition von möglichen Ausdrücken innerhalb des XML-Quellkodes wie folgender XML-Quellkodeauszug eines modifizierten strukturierten Dokuments MSD zur Präsentation zweier im Dokument D definierten Optionsfelder zeigt.
<P> <label VoiceFile="waves/silence.wav" for="rmale"> Male </label>
<INPUT name="gender" id="rmale" grammar=,"male, , 'man', 'female', wo an'" type="radio" value="Male"/> <label VoiceFile="waves/silence.wav" for="rfemale"> Female </label>
<INPUT name="gender" id="rfemale" grammar=" 'male'", 'man', 'female', woman'" type="radio" value="Female"/> </P>
Sowohl das TTS-Verfahren als auch das SR-Verfahren ermöglichen eine Einstellung unterschiedlicher Sprachen für einen Dialog mit dem Benutzer des IVR-Browsers WTE. Für das TTS- Verfahren wird hierzu z.B. eine - nicht dargestellte - lexikalische Analyseeinheit für eine Analyse der Sprache von im strukturierten Dokument SD enthaltenen Informationen verwendet und abhängig von der detektierten Sprache eine jeweilige - nicht dargestellte - Bibliotheksdatei zur Umsetzung von textuellen in sprachliche Informationen herangezogen.
Beim SR-Verfahren wird abhängig von der detektierten Sprache des Bedieners am IVR-Browser WTE ein jeweiliges - nicht dargestelltes - Grammar File zur Umsetzung von textuellen in sprachliche Informationen herangezogen.
Initiiert der Bediener des IVR-Browsers WTE ein Herunterladen einer - z.B. am WWW-Server SRV gespeicherten - Datei, bei- spielsweise mit einem Dateinamen "Beispiel.exe", werden Fortschrittsinformationen z.B. der Form "73% der Datei Beispiel.exe gespeichert" mit einem Anteil an TTS-konvertierten Daten (im Beispiel der Dateiname "Beispiel.exe" sowie der Prozentsatz "73") angesagt. Der Rest der Fortschrittsinforma- tion kann als Audiodatei WAV vorliegen.

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Transformation strukturierter Dokumente (SD) in ein mittels eines IVR-Browsers (WTE) lesbares und/oder bearbeitbares modifiziertes struktu- riertes Dokument (MSD) umfassend folgende Schritte:
- Empfang des strukturierten Dokuments (SD) ;
- Analyse eines das strukturierte Dokument (SD) bildenden Quellkodes mit folgenden Schritten: a) Registrierung von Querverweisen auf Audiodateien (WAV) und Zuordnung zu einer erster Querverweiskategorie; b) Registrierung von Querverweisen auf Dateien, auf Bereiche von Dateien oder auf strukturierte Dokumente (SD) und Zuordnung zu einer zweiten Querverweiskate- gorie;
- Transformation des strukturierten Dokuments (SD) unter Verwendung eines für den IVR-Browser (WTE) lesbaren Quellkodes wobei a) bei Querverweisen der ersten Querverweiskategorie ein modifizierter Querverweis auf die Audiodatei (WAV) bewirkender Eintrag im Quellkode erfolgt; b) bei Querverweisen der zweiten Querverweiskategorie unter Berücksichtigung von Anzahl, Format oder Anordnung der Querverweise im strukturierten Dokument (SD) eine Modifikation des Quellkodes zur Definition einer sprachbasierten Menüstruktur erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei einzelnen in einem Textverbund stehenden Querverwei- sen der ersten Verweiskategorie eine aus einer Option auszuwählenden Menüstruktur im modifizierten strukturierten Dokument derart erfolgt, dass der auswählbare Querverweis mit einer akustischen Kennzeichnung bei der Präsentation des modifizierten strukturierten Dokuments (MSD) gekennzeichnet wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei einem einer Gruppe von Querverweisen der zweiten Verweiskategorie vorausgehenden Querverweis der ersten Ver- weiskategorie dessen verwiesene Audiodatei (WAV) bei einer Präsentation des modifizierten strukturierten Dokuments (MSD) als Erklärung für die Gruppe von Querverweisen der zweiten Verweiskategorie verwendet wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Quellkode des modifizierten strukturierten Dokuments (MSD) so transformiert wird, dass eine Präsentation der Querverweise unterbunden wird.
5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass durch den transformierten Quellkode eine Bearbeitung des modifizierten strukturierten Dokuments (MSD) durch den IVR- Browser (WTE) mittels einer Text-in-Sprache-Konversion unterstützt .
6. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass durch den transformierten Quellkode eine Bearbeitung des modifizierten strukturierten Dokuments (MSD) durch den IVR- Browser (WTE) mittels eines Spracherkennungsverfahren unter- stützt.
7. Verfahren nach einem der Ansprüche 5 bis 6 dadurch gekennzeichnet, zur Unterstützung unterschiedlicher Sprachen im transformierten Quellkode auf eine die jeweilige Sprache enthaltende Bib- liotheksdatei verwiesen wird.
8. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass mit dem modifizierten Dokument (MSD) Bibliotheksdateien übersandt werden.
9. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der Quellkode des strukturierten Dokuments (SD) in einem HTML-Format vorliegt.
10. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass Informationen des modifizierten strukturierten Dokuments (MSD) sowohl durch einem IVR-Browser (WTE) als auch durch für visuelle Ausgabemittel vorgesehene Browser (BRW) ausgebbar sind.
11. Verfahren zur rechnergestützten Transformation strukturierter Dokumente (SD) in ein mittels eines IVR-Browsers (WTE) lesbares und/oder bearbeitbares modifiziertes strukturiertes Dokument (MSD) umfassend folgende Schritte:
- Empfang des strukturierten Dokuments (SD) ;
- Analyse eines das strukturierte Dokument (SD) bildenden Quellkodes mit folgenden Schritten: - Registrierung von Querverweisen auf eine Telephonteilnehmernummer;
Transformation des strukturierten Dokuments (SD) unter Verwendung eines für den IVR-Browser (WTE) lesbaren Quellkodes wobei bei Querverweisen auf eine Telephonteilnehmer- nummer im strukturierten Dokument (SD) eine Modifikation des Quellkodes zum Aufbau und Unterstützung einer Kommunikationsverbindung in Verbindung mit einer Kommunikationseinrichtung erfolgt.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass im modifizierten strukturierten Dokument (MSD) eingefügte Anweisungen zur Steuerung der Kommunikationseinrichtung verwendet werden.
13. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Unterstützung einer Kommuni kations Verbindung eine Unterstützung von Leistungsmerkmalen beinhaltet.
PCT/EP2002/013673 2001-12-20 2002-12-03 Verfahren zur rechnergestützten transformation strukturierter dokumente WO2003054731A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/037,979 US20030187656A1 (en) 2001-12-20 2001-12-20 Method for the computer-supported transformation of structured documents
US10/037,979 2001-12-20

Publications (3)

Publication Number Publication Date
WO2003054731A2 true WO2003054731A2 (de) 2003-07-03
WO2003054731A9 WO2003054731A9 (de) 2004-02-26
WO2003054731A3 WO2003054731A3 (de) 2004-04-01

Family

ID=21897402

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2002/013673 WO2003054731A2 (de) 2001-12-20 2002-12-03 Verfahren zur rechnergestützten transformation strukturierter dokumente

Country Status (2)

Country Link
US (1) US20030187656A1 (de)
WO (1) WO2003054731A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2848312A1 (fr) * 2002-12-10 2004-06-11 France Telecom Procede et dispositif de conversion de documents hypertextes en signaux vocaux, et portail d'acces au reseau internet utilisant un tel dispositif.

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8238881B2 (en) 2001-08-07 2012-08-07 Waloomba Tech Ltd., L.L.C. System and method for providing multi-modal bookmarks
US20030139928A1 (en) * 2002-01-22 2003-07-24 Raven Technology, Inc. System and method for dynamically creating a voice portal in voice XML
US7210098B2 (en) * 2002-02-18 2007-04-24 Kirusa, Inc. Technique for synchronizing visual and voice browsers to enable multi-modal browsing
US8213917B2 (en) 2006-05-05 2012-07-03 Waloomba Tech Ltd., L.L.C. Reusable multimodal application
US7032169B2 (en) * 2002-05-22 2006-04-18 International Business Machines Corporation Method and system for distributed coordination of multiple modalities of computer-user interaction
US7577568B2 (en) * 2003-06-10 2009-08-18 At&T Intellctual Property Ii, L.P. Methods and system for creating voice files using a VoiceXML application
US9378187B2 (en) 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
US8001454B2 (en) * 2004-01-13 2011-08-16 International Business Machines Corporation Differential dynamic content delivery with presentation control instructions
US7827239B2 (en) 2004-04-26 2010-11-02 International Business Machines Corporation Dynamic media content for collaborators with client environment information in dynamic client contexts
US7519683B2 (en) 2004-04-26 2009-04-14 International Business Machines Corporation Dynamic media content for collaborators with client locations in dynamic client contexts
US8185814B2 (en) 2004-07-08 2012-05-22 International Business Machines Corporation Differential dynamic delivery of content according to user expressions of interest
US7487208B2 (en) * 2004-07-08 2009-02-03 International Business Machines Corporation Differential dynamic content delivery to alternate display device locations
US8086756B2 (en) * 2006-01-25 2011-12-27 Cisco Technology, Inc. Methods and apparatus for web content transformation and delivery
US7924986B2 (en) * 2006-01-27 2011-04-12 Accenture Global Services Limited IVR system manager
US9009656B2 (en) * 2006-05-02 2015-04-14 International Business Machines Corporation Source code analysis archival adapter for structured data mining
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8943394B2 (en) * 2008-11-19 2015-01-27 Robert Bosch Gmbh System and method for interacting with live agents in an automated call center
US8832541B2 (en) * 2011-01-20 2014-09-09 Vastec, Inc. Method and system to convert visually orientated objects to embedded text
US9438610B2 (en) * 2013-09-03 2016-09-06 Pagefair Limited Anti-tampering server
US20160337318A1 (en) * 2013-09-03 2016-11-17 Pagefair Limited Anti-tampering system
US10291776B2 (en) * 2015-01-06 2019-05-14 Cyara Solutions Pty Ltd Interactive voice response system crawler
US11489962B2 (en) 2015-01-06 2022-11-01 Cyara Solutions Pty Ltd System and methods for automated customer response system mapping and duplication
US10394537B2 (en) 2017-01-10 2019-08-27 International Business Machines Corporation Efficiently transforming a source code file for different coding formats
FR3110740A1 (fr) 2020-05-20 2021-11-26 Seed-Up Procédé de conversion automatique de fichiers numériques

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998056159A1 (en) * 1997-06-03 1998-12-10 Infogear Technology Corporation Method and apparatus for iconifying and automatically dialing telephone numbers which appear on a web page
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
WO2000050984A1 (en) * 1999-02-24 2000-08-31 Pipebeach Ab A voice browser and a method at a voice browser
EP1073036A2 (de) * 1999-07-30 2001-01-31 Canon Kabushiki Kaisha Analsyse von heruntergeladenen Dokumenten für einen Browser mit Sprachsynthese-Fähigkeit
US20010034603A1 (en) * 1995-04-10 2001-10-25 Thrift Philip R. Voice activated apparatus for accessing information on the World Wide Web

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3048129B2 (ja) * 1996-11-28 2000-06-05 ソニー株式会社 情報処理装置および情報処理方法、情報提供装置、並びに情報処理システム
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US5899975A (en) * 1997-04-03 1999-05-04 Sun Microsystems, Inc. Style sheets for speech-based presentation of web pages
US6282512B1 (en) * 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
US6766298B1 (en) * 1999-09-03 2004-07-20 Cisco Technology, Inc. Application server configured for dynamically generating web pages for voice enabled web applications
US6453294B1 (en) * 2000-05-31 2002-09-17 International Business Machines Corporation Dynamic destination-determined multimedia avatars for interactive on-line communications
US6823311B2 (en) * 2000-06-29 2004-11-23 Fujitsu Limited Data processing system for vocalizing web content
US6665642B2 (en) * 2000-11-29 2003-12-16 Ibm Corporation Transcoding system and method for improved access by users with special needs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010034603A1 (en) * 1995-04-10 2001-10-25 Thrift Philip R. Voice activated apparatus for accessing information on the World Wide Web
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
WO1998056159A1 (en) * 1997-06-03 1998-12-10 Infogear Technology Corporation Method and apparatus for iconifying and automatically dialing telephone numbers which appear on a web page
WO2000050984A1 (en) * 1999-02-24 2000-08-31 Pipebeach Ab A voice browser and a method at a voice browser
EP1073036A2 (de) * 1999-07-30 2001-01-31 Canon Kabushiki Kaisha Analsyse von heruntergeladenen Dokumenten für einen Browser mit Sprachsynthese-Fähigkeit

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "AURAL STYLE SHEETS" W3C CASCADING STYLE SHEETS, LEVEL 2 SPECIFICATION, [Online] 12. Mai 1998 (1998-05-12), XP002256718 Gefunden im Internet: <URL:http://www.w3.org/TR/REC-CSS2/aural.h tml> [gefunden am 2003-10-06] *
GOOSE S ET AL: "Enhancing Web accessibility via the Vox Portal and a Web-hosted dynamic HTML<->VoxML converter" COMPUTER NETWORKS, ELSEVIER SCIENCE PUBLISHERS B.V., AMSTERDAM, NL, Bd. 33, Nr. 1-6, Juni 2000 (2000-06), Seiten 583-592, XP004304793 ISSN: 1389-1286 *
PATENT ABSTRACTS OF JAPAN vol. 1998, no. 11, 30. September 1998 (1998-09-30) & JP 10 164256 A (SONY CORP), 19. Juni 1998 (1998-06-19) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2848312A1 (fr) * 2002-12-10 2004-06-11 France Telecom Procede et dispositif de conversion de documents hypertextes en signaux vocaux, et portail d'acces au reseau internet utilisant un tel dispositif.

Also Published As

Publication number Publication date
WO2003054731A3 (de) 2004-04-01
WO2003054731A9 (de) 2004-02-26
US20030187656A1 (en) 2003-10-02

Similar Documents

Publication Publication Date Title
WO2003054731A2 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE60318021T2 (de) Sprachgesteuerte dateneingabe
DE69922971T2 (de) Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache
US20020065658A1 (en) Universal translator/mediator server for improved access by users with special needs
US8028003B2 (en) System and method for presenting survey data over a network
DE10125406A1 (de) Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser
DE60111481T2 (de) Handhabung benutzerspezifischer Wortschatzteile in Sprachendienstleistungssystemen
US7054952B1 (en) Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing interactive javascript support
DE60015531T2 (de) Client-server spracherkennungssystem
DE60130880T2 (de) Web-gestützte spracherkennung durch scripting und semantische objekte
US7548858B2 (en) System and method for selective audible rendering of data to a user based on user input
US8244541B2 (en) Content creation system, content creation method, computer executable program for executing the same content creation method, computer readable storage medium having stored the same program, graphical user interface system and display control method
US20020174147A1 (en) System and method for transcoding information for an audio or limited display user interface
DE4440598C1 (de) Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
WO1999048088A1 (en) Voice controlled web browser
DE102004012839B4 (de) System und Verfahren zur Bereitstellung von Hilfeinformation
EP1701247A2 (de) XML-basierte Architektur zur Steuerung von Benutzerschnittstellen mit kontextabhängigen Sprachbefehlen
US20030145062A1 (en) Data conversion server for voice browsing system
US20030139928A1 (en) System and method for dynamically creating a voice portal in voice XML
EP1369790A2 (de) Verfahren zur dynamischen Generierung strukturierter Dokumente
DE10250836A1 (de) System und Verfahren zum Zugreifen auf entfernte Lesezeichenlisten und Verwenden derselben
DE60123153T2 (de) Sprachgesteuertes Browsersystem
Stephanidis et al. Supporting interface adaptation: the AVANTI Web-Browser
Reithinger et al. A look under the hood: design and development of the first smartweb system demonstrator

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): CA CN JP

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
COP Corrected version of pamphlet

Free format text: PAGE 1, DESCRIPTION, REPLACED BY CORRECT PAGE 1

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP