WO2005091128A1 - 音声処理装置とシステム及び音声処理方法 - Google Patents

音声処理装置とシステム及び音声処理方法 Download PDF

Info

Publication number
WO2005091128A1
WO2005091128A1 PCT/JP2005/004959 JP2005004959W WO2005091128A1 WO 2005091128 A1 WO2005091128 A1 WO 2005091128A1 JP 2005004959 W JP2005004959 W JP 2005004959W WO 2005091128 A1 WO2005091128 A1 WO 2005091128A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
processing
identification information
client
voice
Prior art date
Application number
PCT/JP2005/004959
Other languages
English (en)
French (fr)
Inventor
Eiko Yamada
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2006511243A priority Critical patent/JP4725512B2/ja
Priority to US10/593,041 priority patent/US7835728B2/en
Publication of WO2005091128A1 publication Critical patent/WO2005091128A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/26Network addressing or numbering for mobility support

Definitions

  • the present invention relates to a voice processing technology, and more particularly, to a system, a device, and a method for transmitting voice information input on a terminal (client) side to a voice processing device via a network for processing.
  • a mobile phone terminal makes a telephone connection to a voice processing server using a phone-to function or the like, and processes a user's voice for voice processing (voice recognition, speaker verification, etc.). Process), transmit the result from the voice processing server to the web server, create a screen reflecting the processing result on the web server, download the screen on the mobile phone terminal, and display it.
  • a technique in which the above is linked for example, see Japanese Patent No. 3452250 (Reference 1)).
  • a mobile phone terminal 11 and a voice processing server 13 transmit and receive data through a circuit switching network 15, and a mobile phone terminal 11 and a Web server 12 transmit data through a packet network 14. Transmission and reception.
  • voice information such as feature vectors and compressed voice data has been transmitted from a client such as a personal digital assistant (PDA) or an in-vehicle terminal to a voice processing server via a packet network.
  • PDA personal digital assistant
  • voice processing server via a packet network.
  • a technique for performing voice processing processing such as voice recognition and speaker verification
  • reference 2 Japanese Patent Application Publication No. 2003-5949 (Reference 2)
  • the prior art of the above document 1 is a method of linking a telephone number and a mobile phone terminal ID, so that a telephone number is not required! This is a technology that cannot be used.
  • the server side determines the relationship between the screen downloaded to the client and the voice data transmitted from the client. A new technique to understand is needed.
  • an object of the present invention is to provide an information providing server (information providing device) such as a web server, information downloaded to a client (terminal), and voice transmitted from the client to a voice processing server (voice processing device).
  • the purpose is to enable the server to control the relationship with the information.
  • Another object of the present invention is to enable downloading of appropriate information reflecting the results of voice processing even when the voice processing server and the information providing server are accessed from a plurality of clients. It is to be. Means for solving the problem
  • a voice processing system includes a terminal that transmits input voice information and outputs received information, and performs voice processing based on voice information from the terminal.
  • a voice processing device that performs the voice processing, and an information providing device that receives a result of the voice processing performed by the voice processing device and transmits information reflecting the voice processing result to the terminal.
  • the terminal, the voice processing device, and the information providing device perform voice processing. Voice processing device and And process identification information corresponding to a series of processes performed by the information providing device.
  • the terminal transmits the input voice information to the voice processing device, and the voice processing device performs voice processing of the voice information from the terminal. Transmitting the voice processing result to the information providing apparatus; providing the information providing apparatus with information reflecting the voice processing result in the voice processing apparatus; and transmitting the prepared information to the terminal.
  • the terminal, the voice processing device, and the information providing device share process identification information corresponding to a series of processes performed by the voice processing device and the information providing device based on the voice information.
  • the information providing server device performs the first receiving means for receiving a service request signal from a client, and performs the service request signal based on voice information from the client when the service request signal is received.
  • Identification information generation means for generating processing identification information corresponding to a series of processing, means for generating first information to be presented to a client based on processing identification information, and transmission of processing identification information and first information to a client
  • a first transmitting means for receiving voice processing results and processing identification information from a voice processing server which receives voice signals and processing identification information from a client and performs voice processing; and a voice processing server.
  • the client device transmits to the client device a voice processing server that performs voice processing of voice information from the client device, and information reflecting the voice processing result of the voice processing server.
  • a unique identification information output means for outputting the unique identification information of the client device as processing identification information corresponding to a series of processing by the information providing server, and a service request signal when the service is requested, and a service identification signal.
  • a second transmitting unit for transmitting the input voice information to the voice processing server together with the process identification information.
  • the voice processing server device includes a first receiving unit that receives a voice processing request signal from a client, and a voice processing request signal that is received from the client when the voice processing request signal is received.
  • Identification information generating means for generating processing identification information corresponding to a series of processing performed based on these audio information, first transmission means for transmitting the processing identification information to the client, and audio information and processing from the client.
  • Second receiving means for receiving the identification information; voice processing executing means for performing voice processing of voice information from the client; and a voice processing result by the voice processing performing means and processing identification information from the client for processing identification.
  • transmitting means for generating information reflecting the result of the voice processing in association with the information and transmitting the information to the client.
  • a program according to the present invention is a program for causing a computer constituting the information providing server device, the client device, or the voice processing server device to realize the functions of the respective devices.
  • An information processing system includes a client and a plurality of servers,
  • a series of processes (A), (B), and (C) are managed by common process identification information shared by a client, one server, and another server.
  • the client terminal
  • the voice processing server voice processing device
  • the information providing server information providing device
  • the server can grasp the relationship between the information downloaded from the information providing server to the client and the voice information transmitted from the client to the voice processing server. Becomes possible. As a result, even when the voice processing server and the information providing server are accessed from a plurality of clients, the user can download appropriate information reflecting the voice processing result.
  • processing such as search is performed based on voice information uttered by the user.
  • the result is displayed on the screen or when the user downloads appropriate information based on the voice information uttered by the user, it is possible to provide content in which voice processing and the screen are linked.
  • FIG. 1 is a diagram showing a configuration of a conventional system.
  • FIG. 2 is a diagram showing a configuration of an example of the present invention.
  • FIG. 3 is a diagram showing a configuration of a first exemplary embodiment of the present invention.
  • FIG. 4 is a diagram showing a configuration of a second exemplary embodiment of the present invention.
  • FIG. 5 is a diagram showing a configuration of a third exemplary embodiment of the present invention.
  • FIG. 6 is a diagram showing a configuration of a client in a first specific example of the present invention.
  • FIG. 7 is a diagram showing a configuration of a Web server in a first specific example of the present invention.
  • FIG. 8 is a diagram showing a configuration of a voice processing server according to a first specific example of the present invention.
  • FIG. 9 is a diagram showing a configuration of a client in a second specific example of the present invention.
  • FIG. 10 is a diagram showing a configuration of a Web server in a second specific example of the present invention.
  • FIG. 11 is a diagram showing a configuration of a voice processing server in a third specific example of the present invention.
  • FIG. 12 is a diagram for explaining the operation of the first specific example of the present invention.
  • FIG. 14 is a diagram for explaining the operation of the second specific example of the present invention.
  • FIG. 14 is a diagram for explaining the operation of the third example of the present invention.
  • FIG. 15 is a diagram for explaining an example of transition of a screen (page) displayed on the client in the first specific example of the present invention.
  • FIG. 16 is a diagram for explaining another example of a transition of a screen (page) displayed on the client in the first specific example of the present invention.
  • a client (terminal) 10, a Web server (information providing server, information providing device) 20, and a voice processing server (voice processing device) 30 are connected to a network.
  • Work is connected.
  • the client 10 has a voice data input unit and a browser function, and has a communication function of connecting to a packet network 40 such as an IP network as a network.
  • the client 10, the web server 20, and the voice processing server 30 share process identification information corresponding to a series of processes performed by the web server 20 and the voice processing server 30 based on voice data.
  • the process identification information for example, an ID assigned to the session of the utterance process (referred to as “session ID”) or a unique ID held by the client 10 can be used.
  • FIG. 3 is a diagram showing a configuration of the first exemplary embodiment of the present invention.
  • the Web server 20 includes a session ID generation unit that generates a session ID generated for each session.
  • a session ID is generated in the web server 20 when the client 10 requests the web server 20 for a service using voice processing.
  • the generated session ID is transmitted from the Web server 20 to the client 10 when the client 10 downloads the screen information from the Web server 20.
  • the session ID may be transmitted by being included in the screen information.
  • the client 10 When transmitting the voice information of the input voice to the voice processing server 30, the client 10 transmits the session ID received from the web server 20 to the voice processing server 30.
  • the method of transmitting the ID may be included in the voice information or may be transmitted separately.
  • the voice processing server 30 performs voice processing (voice recognition, speaker verification, etc.) based on the received voice information.
  • the voice processing server 30 also transmits the session ID when transmitting the voice processing result to the web server 20.
  • the method of transmitting the session ID may be included in the voice processing result.
  • the Web server 20 can associate the result of the voice processing in the voice processing server 30 with the client 10 that has requested the service by using the session I green report, and display the screen reflecting the processing result on the screen. It is possible to have the client 10 download it. that time, The Web server 20 transmits a screen (page) including voice processing result information such as a voice recognition result of an utterance to the client 10, and downloads screen information corresponding to the voice processing result by selection from the client 10. As well.
  • FIG. 4 is a diagram showing the configuration of the second exemplary embodiment of the present invention, which has a configuration in which the ID held by the client 10 is used as a unique ID. Processing procedure when using the ID held by the client 10 in advance as a unique ID (unique ID) for the client, or when generating an ID unique to the client (unique ID) using the ID held by the client 10 in advance Let's explain.
  • the client 10 When the client 10 requests the Web server 20 for a service using voice processing, the client 10 notifies the Web server 20 of the ID held in advance as a unique ID. Alternatively, the client 10 uses the ID previously held by the client 10 to newly generate a client-specific ID, and notifies the Web server 20 of the generated unique ID. As a method of generating a unique ID, for example, time stamp information may be added to an ID held in advance.
  • the screen information of the requested service is downloaded from the Web server 20 to the client 10.
  • the screen downloaded from the Web server 20 is displayed on the screen display unit 140 of the client 10, and the client 10 receives a voice signal input by the user, converts the voice signal into voice information, and converts the voice signal into voice information.
  • the voice information is sent to the, the unique ID is also sent.
  • the voice processing server 30 performs voice processing based on the received voice information.
  • the voice processing server 30 also transmits the unique ID to the web server 20 when transmitting the voice processing result to the web server 20.
  • Web server 20 receives the voice processing result and the unique ID from voice processing server 30.
  • the Web server 20 can associate the voice processing result with the client 10 that has requested the service by using the unique ID from the voice processing server 30, and the screen information reflecting the voice processing result is transmitted to the client. 10 can be downloaded.
  • the Web server 20 displays a screen (page 1) including the voice processing result information such as the voice recognition result of the utterance. ) Is transmitted to the client 10, and the screen information corresponding to the voice processing result is downloaded according to the selection from the client 10.
  • FIG. 5 is a diagram showing the configuration of the third exemplary embodiment of the present invention.
  • the audio processing server 30 includes a session ID generation unit that generates a session ID generated for each session. With reference to FIG. 5, the processing procedure of the present embodiment will be described.
  • a session ID is generated by the session ID generation unit 31 of the voice processing server 30 and is notified to the client 10.
  • the client 10 notifies the Web server 20 of the received session ID.
  • the voice processing server 30 performs voice processing based on voice information received from the client 10.
  • the voice processing server 30 also transmits the session ID to the web server 20 when transmitting the voice processing result to the web server 20.
  • the Web server 20 it is possible to associate the voice processing result with the client having the service request by the session I green report, and the client 10 can download the screen reflecting the processing result to the client 10. It becomes possible. At that time, the Web server 20 transmits a screen (page) including the voice processing result information such as the voice recognition result of the utterance to the client 10, and downloads the screen information corresponding to the voice processing result according to the selection from the client 10. Configuration.
  • a method for transmitting the session ID from the web server 20 to the client 10 is as follows.
  • the transmission method for transmitting the session ID from the client 10 to the voice processing server 30 is as follows.
  • a method of transmitting a session ID from the voice processing server 30 to the web server 20 is as follows.
  • the client 10 is connected to a web server 20 and a voice processing server 30 via a network (packet network) 40.
  • Examples of the client include a mobile terminal, a PDA (Personal Digital Assistant), an in-vehicle terminal, a PC (personal computer), and a home terminal.
  • the Web server 20 and the voice processing server 30 include a computer equipped with Windows XP (registered trademark), Windows 2000 (registered trademark) or the like as an OS (operating system), or a computer equipped with Solaris (registered trademark) as an OS.
  • the network (packet network) 40 an IP network such as the Internet (wired Z wireless) or an intranet is used.
  • the Web server 20 has a session ID generation unit that generates a session ID.
  • FIG. 6 is a diagram showing a configuration of the client 10 according to the first specific example of the present invention.
  • client 10 includes a data input unit 110 that functions as a voice input unit and inputs voice data, a screen display unit 140, a data communication unit 130, and a control unit 120.
  • FIG. 7 is a diagram showing a configuration of the Web server 20.
  • the Web server 20 includes a data communication unit 210, a content management unit (information management unit) 220, and a session ID generation unit 230.
  • FIG. 8 is a diagram showing a configuration of the audio processing server 30.
  • the audio processing server 30 includes a data communication unit 310, a control unit 320, and an audio processing execution unit 330.
  • FIG. 12 is a diagram for explaining the sequence operation of this specific example. Fig. 6 to Fig. 8, Fig. This specific example will be described with reference to FIG.
  • the client 10 requests the Web server 20 for a service including voice processing (step S101). Specifically, a service request signal is transmitted to the Web server 20 by a click operation of a button on the screen displayed on the client 10, and the Web server 20 executes a service. And other programs are started.
  • the service request signal from the client 10 is received by the data communication unit 210 (step S201) and transmitted to the content management unit 220.
  • the session ID generation unit 230 receives the service request signal and generates a session ID (Step S202).
  • the ID may be generated by counting up by a predetermined initial value access number.
  • the generated session ID is transmitted to content management section 220.
  • the content management unit 220 generates a screen to be downloaded to the client 10 based on the received session ID (step S203).
  • the session ID may be included in the link destination URL (Uniform Resource Locator) information of the result acquisition button.
  • the generated screen is downloaded to the client through the data communication unit 210 of the Web server 20 (step S204).
  • the session ID is sent to the client 10 as well.
  • the screen information and the session ID received from the Web server 20 are received by the data communication unit 130 (step S102), and transmitted to the control unit 120 of the client 10.
  • the screen information is transmitted from the control unit 120 to the screen display unit 140 and displayed.
  • the screen information on the client 10 includes, for example, a user's A prompt is displayed.
  • the voice uttered by the user is input to the data input unit 110 of the client 10 (step S104), and transmitted to the control unit 120 in the client 10.
  • Necessary data processing is performed by the control unit 120 of the client 10 (step S105).
  • the data processing for example, digitization processing of input voice, voice detection processing, voice analysis processing, voice compression processing, and the like are performed.
  • speech data for example, digitized speech data, compressed speech data, feature vectors, etc. are used (for details, see “Speech Recognition by Stochastic Models”, by Seiji Nakagawa, ⁇ .10-12; The Institute of Electronics, Information and Communication Engineers (Reference 3)).
  • processing for including the session ID in the audio data is performed.
  • processing for including the session ID in the audio data is performed.
  • the data processed by the control unit 120 of the client 10 is sequentially transmitted from the data communication unit 130 to the voice processing server 30.
  • the data sequentially transmitted from the client is received by the data communication unit 310 (step S 301), and when the control unit 320 determines that the data is voice data, It is transmitted to the voice processing execution unit 330.
  • the voice processing execution unit 330 includes at least one of a recognition engine, a recognition dictionary, a synthesis engine, a synthesis dictionary, a speaker verification engine, and the like, all of which are required for voice processing and are not shown. And perform voice processing sequentially (step S302).
  • the content of the audio processing varies depending on the type of data transmitted from the client 10. For example, if the data to be transmitted is compressed voice data, decompression, voice analysis, and matching of the compressed data are performed. On the other hand, when the feature vector is transmitted from the client 10, only the matching process is performed.
  • the voice processing result transmitted from the voice processing server 30 to the Web server 20 is at least one of recognition result information, speaker verification information, and voice (synthesized voice, voice obtained by converting input voice, and the like). Including one.
  • the session ID is also transmitted from the voice processing server 30 to the web server 20. As a method of sending the session ID,
  • Web server 20 receives the voice processing result and the session ID by data communication unit 210 (step S205), and transmits them to content management unit 220.
  • the content management unit 220 outputs result information based on the voice processing result (for example, voice recognition result information, see screens 1003 in Figs. 15 and 16 described later) or content information in which the voice processing result is reflected. (Screen, audio, video, etc.) is created for each session ID (step S206).
  • the result information and the content, or only the content, created for each session ID are downloaded to the client 10 that has made the service request from the Web server 20 (step S207), and the client 10 downloads it.
  • the received result information / content is received (step S106).
  • the link destination URL of the button for acquiring the result of the screen downloaded from the web server 20 to the client 10 is a URL including the session ID.
  • the content management unit 220 places the content information in which the result of the audio processing is reflected on the Web server 20 at a location represented by the URL including the session ID.
  • the result acquisition button of the client 10 for example, the “display map” button on the screen 1003 in FIG. 15
  • the URL including the session ID is designated, and the URL corresponding to the URL is specified.
  • Content information (for example, the map screen of screen 1004 in FIG. 15) is downloaded.
  • the web server 20 can be used for various processes, such as performing a process such as a search using the voice processing result.
  • the processes of the client 10, the web server 20, and the voice processing server 30 shown in FIG. 12 are executed on a computer (computer) that configures the client 10, the web server 20, and the voice processing server 30.
  • the function may be realized by a program that executes the program.
  • the Web server 20 and the voice processing server 30 may be realized on one computer, or may be realized by a remote computer.
  • the transfer of the ID between the web server 20 and the voice processing server 30 may be an argument of a subroutine call.
  • the variable may be a commonly referred variable.
  • the present embodiment can be applied to a system in which a client that makes a processing request to a server is mounted on the same computer as the server.
  • the present invention can be applied to an arbitrary management system in which a plurality of servers cooperate and perform a client request.
  • FIG. 9 is a diagram showing a configuration of the client 10 according to the second specific example of the present invention.
  • client 10 includes a data input unit 110 which functions as a voice input unit and inputs voice data, a screen display unit 140, a data communication unit 130, a control unit 120, and a unique ID holding and generation unit.
  • Unit (unique identification information output means) 150 is provided.
  • FIG. 10 is a diagram showing a configuration of the Web server 20.
  • Web server 20 includes a data communication unit 210 and a content management unit 220.
  • the sound processing server 30 has the configuration shown in FIG. 8, and includes a data communication unit 310, a control unit 320, and a sound processing execution unit 330.
  • FIG. 13 is a diagram for explaining the sequence operation of this specific example. This specific example will be described with reference to FIG. 9, FIG. 10, FIG. 8, and FIG. [0073]
  • the client 10 uses the unique ID holding / generation unit 150 to store the ID (terminal identification information) previously held by the client 10 in the unique ID. It is transmitted to the control unit 120 as an ID (unique identification information) (Step Slll).
  • the unique ID holding / generation unit 150 generates an ID unique to the client using the ID held in advance, and notifies the control unit 120 of the generated unique ID.
  • time stamp information may be added to an ID held in advance.
  • the control unit 120 receives the service request and the ID, and transmits the received unique ID to the Web server 20 via the data communication unit 130 (Step S112).
  • the Web server 20 receives the service request signal including the received voice processing and the unique ID in the data communication unit 210 (Step S211).
  • Data communication section 210 transmits the service request signal and the unique ID to content management section 220.
  • the content management section 220 After checking the service, the content management section 220 generates a screen (first information) to be downloaded to the client 10 based on the received unique ID (step S212).
  • the session ID may be included in the URL (Uniform Resource Locator) information of the link of the button for acquiring the result, as in the specific example.
  • step S213 it is downloaded to the client 10 through the screen data communication unit 210 generated by the content management unit 220 (step S213).
  • the screen information received from the Web server 20 is received by the data communication unit 130 (step S113), and transmitted to the control unit 120.
  • the screen information is transmitted from the control unit 120 to the screen display unit 140 and displayed (step S114).
  • the voice uttered by the user is input to the data input unit 110 of the client 10 (step S115), and transmitted to the control unit 120.
  • the control unit 120 performs the data processing described in the specific example. At the time of this data processing, processing for including the unique ID in the audio data is performed.
  • the processed data is sequentially transmitted from the data communication unit 130 to the voice processing server 30 (step S116).
  • the process of including the unique ID in the audio data is the same as in the above specific example.
  • the data sequentially transmitted from the client 10 is The data is received by the data communication unit 310 (step S311), the control unit 320 determines that the data is audio data, and transmits it to the audio processing execution unit 330.
  • the voice processing execution unit 330 includes a recognition engine (not shown), a recognition engine, a recognition dictionary, and the like, which are required for voice processing (voice recognition, speaker verification, and the like), as in the specific example. It has at least one of a synthesis engine, a dictionary for synthesis, a speaker verification engine, and the like, and performs voice processing sequentially (step S312). After the end of the voice processing, the voice processing result is transmitted from the voice processing execution unit 330 to the data communication unit 310 via the control unit 320, and is transmitted from the data communication unit 310 to the Web server 20 (step S313). At this point, the unique ID is also transmitted from the voice processing server 30 to the Web server 20.
  • the transmission method is the same as in the above specific example.
  • the Web server 20 receives the voice processing result and the unique ID transmitted from the voice processing server 30 by the data communication unit 210 (Step S214), and transmits the result to the content management unit 220.
  • the content management unit 220 of the Web server 20 associates the unique ID with the information reflecting the audio processing result (second information: audio processing result information and content information corresponding to the audio processing result, Or, content information corresponding to the audio processing result is prepared (step S215).
  • the content management unit 220 of the Web server 20 can determine the client 10 to which the information reflecting the sound processing result is to be transmitted, based on the unique ID of the client.
  • the Web server 20 sends the result information (for example, the voice recognition result screen of the screen 1003 in FIG. 15) and the content (for example, FIG. 15) created for each unique ID to the client 10 that made the service request.
  • the result information for example, the voice recognition result screen of the screen 1003 in FIG. 15
  • the content for example, FIG. 15
  • the client 10 receives the downloaded information (step S117). Is displayed on the screen of client 10.
  • the method of downloading the created content information is the same as the specific example described above.
  • Each process of the client 10, the web server 20, and the voice processing server 30 shown in Fig. 13 is executed on a computer (computer) that configures the client 10, the web server 20, and the voice processing server 30.
  • the function may be realized by a program that executes the program.
  • the voice processing server 30 includes a processing unit that generates a session ID.
  • FIG. 11 is a diagram showing a configuration of the audio processing server 30. Referring to FIG. 11, the voice processing server 30 of this specific example is different from the voice processing server 30 shown in FIG. 8 in that a session ID generation unit 340 is added. Note that the client 10 of this specific example has the configuration shown in FIG. 6, and the Web server 20 has the configuration shown in FIG. Hereinafter, the operation of this specific example will be described.
  • FIG. 14 is a diagram for explaining the sequence operation of this specific example. This specific example will be described with reference to FIGS. 6, 10, 11, and 14. FIG.
  • the client 10 requests the Web server 20 for a service including voice processing (step S121).
  • the Web server 20 receives the service request signal at the data communication unit 210 (step S 221), and transmits the signal to the content management unit 220.
  • the content management section 220 receives the service request signal, checks the service, generates a screen of the requested service (step S222), and transmits (downloads) the screen to the client 10 through the data communication section 210 (step S223). .
  • the client 10 receives the screen information from the Web server 20 (step S122), and further transmits a voice processing request signal to the voice processing server 30 to transmit voice information to the voice processing server 30. (Step S123).
  • the data communication unit 310 receives the voice processing request signal (step S321) and transmits it to the control unit 320.
  • the control unit 320 transmits the audio processing request signal to the session ID generation unit 340.
  • the session ID generation unit 340 of the voice processing server 30 receives the session ID request signal.
  • the session ID generated by the session ID generation unit 340 of the voice processing server 30 is transmitted from the session ID generation unit 340 of the voice processing server 30 to the data communication unit 310 via the control unit 320.
  • the data communication unit 310 of the voice processing server 30 transmits the session ID to the client 10 (Step S322).
  • the client 10 receives the session ID from the voice processing server 30 (step S124), and transmits the session ID to the control unit 120 via the data communication unit 130.
  • the session ID is transmitted to Web server 20 via data communication unit 130 of client 10 (step S125).
  • the session ID is received by the data communication unit 210 (step S224), and transmitted to the content management unit 220 for management.
  • the voice uttered by the user is input to the data input unit 110 (step S126), and transmitted to the control unit 120.
  • the control unit 120 performs the same data processing as in the specific example described above.
  • the session ID may be included in the audio data.
  • the processed data is sequentially transmitted from the data communication unit 130 of the client 10 to the voice processing server 30 (step S127).
  • the data sequentially transmitted from the client 10 is received by the data communication unit 310 (step S323), and the control unit 320 determines that the data is voice data. , To the voice processing execution unit 330.
  • the speech processing execution unit 330 includes a recognition engine required for speech processing (speech recognition, speaker verification, etc.), a recognition dictionary, a synthesis engine, a synthesis dictionary, It has at least one function such as a person verification engine, and performs voice processing sequentially (step S324). After the end of the voice processing, the voice processing result is transmitted from the voice processing execution unit 330 to the data communication unit 310 via the control unit 320, and is transmitted from the data communication unit 310 to the Web server 20 (step S325). The result of the audio processing is the same as in the above specific example. At this point, the session ID is also changed from the voice processing server 30 to the web server 20. Sent to The transmission of the session ID is performed in the same manner as in the specific example.
  • Web server 20 receives the voice processing result and the session ID in data communication section 210 (step S225), and transmits them to content management section 220.
  • the result of the audio processing is the same as the specific example.
  • the session ID is also transmitted from the voice processing server 30 to the Web server 20 as in the above-described specific example.
  • the Web server 20 receives the voice processing result and the session ID in the data communication unit 210 and transmits them to the content management unit 220.
  • the content management unit 220 of the Web server 20 stores information (speech processing result information and content information corresponding to the speech processing result, or information corresponding to the speech processing result) reflecting the speech processing result corresponding to the session ID. Content information) is created for each session ID (step S226).
  • the Web server 20 transmits the result information (for example, the voice recognition result screen of screen 1003 in FIG. 15) and the content (for example, screen 1004 in FIG. 15) to the client that made the service request for each session ID.
  • the client 10 receives the downloaded information from the Web server 20 (step S226), and only the content (eg, the map screen of the screen 1004 in FIG. 15) is downloaded (step S226).
  • the client 10 is notified of the link destination URL of the button for acquiring the result of the screen downloaded to the client 10 at the start of the audio processing from the audio processing server 30.
  • the client 10 executes processing to make the URL including the session ID, and the Web server 20 places the content information reflecting the audio processing result in the URL containing the session ID.
  • the button for acquiring the result of the client screen for example, the “display map” button on the screen 1003 in FIG. 15
  • the content information reflecting the audio processing result is downloaded to the client 10. You can.
  • the processes of the client 10, the web server 20, and the voice processing server 30 shown in Fig. 14 are executed on a computer (computer) that configures the client 10, the web server 20, and the voice processing server 30.
  • the function may be realized by a program
  • FIG. 15 is a diagram illustrating an example of a transition of a screen (page) displayed on the screen display unit 140 of the client 10 in the first specific example of the present invention, which described the sequence operation with reference to FIG. .
  • the screen display of the client 10 in the first specific example of the present invention will be described with reference to FIG. 15 and FIG.
  • the screen 1001 is a screen downloaded from the web server 20 (the top page of “map search”), and the “voice input” button 1011 includes a CGI (for example, http: ⁇ ... .jp / a.cgi). Linked.
  • the user makes a service request by clicking the “voice input” button 1011 displayed on the screen (corresponding to step S101 in FIG. 12).
  • a process called "a.cgi” is started, and the input information is delivered.
  • the Web server 20 creates HTML and returns it to the client 10 as a response.
  • the "Voice Entry” screen 1002 appears. "Please say the address of the map you want to search for as” Mita, Minato-ku, Tokyo ". (Corresponding to steps S102 to S104 in FIG. 12). O The ID is embedded as a tag in the screen. In the state of this screen 1002, the user performs voice input (utterance).
  • the “display result” button 1012 on the screen is linked to the page (http: ⁇ - ⁇ -// b.ID.html) generated for each ID! /.
  • the recognition result recognized by the voice processing server 30 is displayed as in the next screen 1003. Note that the recognition result screen of the screen 1003 displays what is downloaded from the Web server 20 to the client 10.
  • the Web server 20 When the user clicks the “display map” button 1013 on the screen, the Web server 20 also downloads the content information (corresponding to step 106 in FIG. 12) and displays the map screen (page) 1004.
  • the screen 1004 may be directly displayed as a result of the screen 1002 without displaying the recognition result screen of the screen 1003. That is, the screen 1003 of the voice recognition result by the voice processing server 30 is created for each ID. By clicking the "display result" button 1012 of the screen 1002, the screen 1004 reflecting the voice recognition result is directly displayed. A configuration may be adopted (in this case, the screen 1003 in FIG. 15 is omitted).
  • FIG. 15 and FIG. 16 described below show an example of a screen of a map guidance system by voice input.
  • the present invention is not limited to a powerful system. And can be applied to any utterance management.
  • FIG. 16 is a diagram showing a modification of FIG.
  • the “display result” button 1012 of the screen 1002 in FIG. 15 is not displayed.
  • a recognition result screen 1003 without clicking the “Display result” button 1002a on the screen is displayed as shown in a screen 1002 in FIG.
  • Clicking the "Show Map” button 1013 displays the map on screen 1004.
  • the map on the screen 1004 is directly displayed as a result of voice input on the screen 1002a without displaying the screen 1003.
  • the Web server 20 transmits the URL information of the screen to the client 10, and the client 10 automatically receives the received URL information.
  • the screens 1003 and 1004 shown in FIGS. 15 and 16 are displayed.
  • a “re-input voice” t or button may be created on the screen 1004 in FIG. 15 or FIG. .
  • an ID is newly created when the user clicks the “Re-enter voice” button on screen 1004.
  • the 15th screen 1002 or the 1002a screen in FIG. 16 is displayed, and the voice input can be performed again.
  • a button for “TOP page” is created on screen 1004 in FIG. 15 or FIG.
  • the present invention can be applied to a service providing system in which a screen is displayed on a client, a request is made by voice, and the result is displayed on the screen.
  • a service providing system in which a screen is displayed on a client, a request is made by voice, and the result is displayed on the screen.
  • the client since data can be transmitted and received through a packet network, the client may be a personal digital assistant (PDA), a PC, an in-vehicle terminal, a home terminal, etc. Can be used.
  • PDA personal digital assistant
  • PC personal digital assistant
  • in-vehicle terminal a home terminal, etc. Can be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

 クライアント(10)は、サービス要求信号をWebサーバ(20)に送信する。サービス要求信号を受信したWebサーバは、セッション毎のIDを生成し、このIDを画面情報とともにクライアントに送信する。その後、クライアントは、入力された音声情報をIDとともに音声処理サーバ(30)に送信する。音声情報及びIDを受信した音声処理サーバは、音声情報の処理を行い、その処理結果をIDとともにWebサーバに送信する。Webサーバは、音声処理サーバからのIDに対応させて、音声処理サーバでの音声処理結果を反映した情報を用意し、クライアントに送信する。このように、クライアントとWebサーバと音声処理サーバが、セッション毎のIDを共用することにより、Webサーバからクライアントにダウンロードされる情報と、クライアントから音声処理サーバへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結果、Webサーバ及び音声処理サーバに複数台のクライアントからアクセスされた場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードすることが可能となる。                                                                                 

Description

明 細 書
音声処理装置とシステム及び音声処理方法
技術分野
[0001] 本発明は、音声処理技術に関し、特に、端末 (クライアント)側で入力された音声情 報をネットワークを通して音声処理装置に送信して処理を行うシステム、装置及び方 法に関する。
背景技術
[0002] この種の従来のシステムとして、携帯電話端末 (クライアント)から、 Phone-to機能等 を用いて音声処理サーバに電話接続し、ユーザの発声を音声処理 (音声認識、話者 照合等の処理)し、結果を音声処理サーノから Webサーバに送信し、 Webサーバに て処理結果を反映させた画面を作成し、携帯電話端末にて画面をダウンロードして 表示する枠組みにおいて、音声処理と画面とを連動させた技術が知られている(例え ば、特許第 3452250号公報 (文献 1)を参照)。この従来のシステムでは、図 1に示す ように、携帯電話端末 11と音声処理サーバ 13とは回線交換網 15を通してデータの 送受信を行い、携帯電話端末 11と Webサーバ 12とはパケット網 14を通してデータ の送受信を行う。
[0003] Webサーバ 12と音声処理サーバ 13に、複数台の携帯電話端末 11からアクセスが ある場合、音声処理した結果を、画面に反映させて携帯電話端末 11に表示させるた めに、 Webサーバ 12から携帯電話端末 11にダウンロードされる画面と、携帯電話端 末 11力 音声処理サーバ 13へ送信される音声データとの関係を把握する技術が必 要となる。
[0004] 図 1に示した従来のシステムでは、携帯電話端末 11の端末 IDと、携帯電話端末番 号とを紐付けしておくことで、画面情報をダウンロードする端末と、音声データを送信 する端末とを、 Webサーバ 12側と音声処理サーバ 13とで一意に把握する機構とさ れている。
[0005] 一方、近年、携帯情報端末 (PDA)や車載端末等のクライアントから特徴ベクトルや 圧縮された音声データ等の音声情報を、パケット網を通して音声処理サーバに送信 し、音声処理 (音声認識、話者照合等の処理)を行う技術が知られている (例えば、特 開 2003— 5949号公報 (文献 2)を参照)。
[0006] 文献 2に記載されたシステムでは、処理結果を表に示したり、処理結果をもとに検 索した結果を、画面に示したりするようなコンテンツを動作させることが可能となる。 発明の開示
発明が解決しょうとする課題
[0007] 上記文献 2に記載されたシステムでは、パケット網を通してデータの送受信を行うよ うな音声処理の枠 みにおいても、クライアントにダウンロードされた画面とクライアン トから送信された音声データとの関係をサーバ側で把握する技術が必要である。
[0008] また、上記文献 1の従来技術は、電話番号と携帯電話端末端末 IDを紐付けする方 法であるため、電話番号を必要としな!、パケット網を用いた前述の音声処理の枠組 みにおいては、使用することができない技術である。そのため、パケット網を通してク ライアント、音声処理サーバ、 Webサーバ間でデータの送受信を行う音声処理の枠 組みにおいて、クライアントにダウンロードされた画面とクライアントから送信された音 声データとの関係をサーバ側で把握する技術が新たに必要となる。
[0009] したがって、本発明の目的は、 Webサーバ等の情報提供サーバ(情報提供装置) 力 クライアント (端末)にダウンロードされる情報と、クライアントから音声処理サーバ (音声処理装置)へ送信される音声情報との関係をサーバ側で掌握可能とすることに ある。
[0010] また、本発明の他の目的は、音声処理サーバ及び情報提供サーバに複数台のクラ イアントからアクセスされた場合であっても、音声処理結果を反映させた適正な情報 をダウンロードできるようにすることにある。 課題を解決するための手段
[0011] このような目的を達成するために、本発明に係る音声処理システムは、入力された 音声情報を送信するとともに受信した情報を出力する端末と、端末からの音声情報 に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け 取りこの音声処理結果を反映させた情報を端末に送信する情報提供装置とを備え、 端末、音声処理装置及び情報提供装置は、音声情報に基づいて音声処理装置及 び情報提供装置で行われる一連の処理に対応する処理識別情報を共用することを 特徴とする。
[0012] また、本発明に係る音声処理方法は、端末が、入力された音声情報を音声処理装 置に送信するステップと、音声処理装置が、端末からの音声情報の音声処理を行う ステップと、音声処理結果を情報提供装置に送信するステップと、情報提供装置が、 音声処理装置での音声処理結果を反映した情報を用意するステップと、用意した情 報を端末に送信するステップとを備え、端末、音声処理装置及び情報提供装置が、 音声情報に基づいて音声処理装置及び情報提供装置で行われる一連の処理に対 応する処理識別情報を共用することを特徴とする。
[0013] また、本発明に係る情報提供サーバ装置は、クライアントからサービス要求信号を 受信する第 1の受信手段と、サービス要求信号が受信されたときに、クライアントから の音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識 別情報生成手段と、処理識別情報に基づきクライアントに提示する第 1の情報を生成 する手段と、処理識別情報及び第 1の情報をクライアントに送信する第 1の送信手段 と、クライアントからの音声信号及び処理識別情報を受け取って音声処理を行う音声 処理サーバから、音声処理結果及び処理識別情報を受信する第 2の受信手段と、音 声処理サーバからの処理識別情報に対応させて音声処理結果を反映した第 2の情 報を生成する手段と、第 2の情報をクライアントに送信する第 2の送信手段とを備える ことを特徴とする。
[0014] また、本発明に係るクライアント装置は、当該クライアント装置からの音声情報の音 声処理を行う音声処理サーバと、音声処理サーバでの音声処理結果を反映させた 情報を当該クライアント装置に送信する情報提供サーバとによる一連の処理に対応 する処理識別情報として、当該クライアント装置の固有識別情報を出力する固有識 別情報出力手段と、サービス要求時、サービス要求信号及び処理識別情報を情報 提供サーバに送信する第 1の送信手段と、入力された音声情報を処理識別情報とと もに音声処理サーバに送信する第 2の送信手段とを備えることを特徴とする。
[0015] また、本発明に係る音声処理サーバ装置は、クライアントからの音声処理要求信号 を受信する第 1の受信手段と、音声処理要求信号が受信されたときに、クライアントか らの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する 識別情報生成手段と、処理識別情報をクライアントに送信する第 1の送信手段と、ク ライアントからの音声情報及び処理識別情報を受信する第 2の受信手段と、クライア ントからの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段によ る音声処理結果及びクライアントからの処理識別情報を、処理識別情報に対応させ て音声処理結果を反映した情報を生成しクライアントに送信する情報提供サーバに 送信する送信手段とを備えることを特徴とする。
[0016] また、本発明に係るプログラムは、上記情報提供サーバ装置、上記クライアント装置 または上記音声処理サーバ装置を構成するコンピュータに、それぞれの装置の機能 を実現させるためのプログラムである。
[0017] また、本発明に係る情報処理システムは、クライアントと、複数のサーバとを備え、
(A)クライアントからの要求に基づき複数のサーバのうち少なくとも一のサーバで実 行される処理に関連して、要求に応えるために他のサーバでも処理が行われ、
(B)他のサーバと一のサーバとの間で処理結果の授受が行われ、
(C)一のサーバで処理結果に基づき、クライアントからの要求に対応する応答情報 が作成される、
一連の処理 (A)、(B)、(C)が、クライアント、一及び他のサーバで共用される共通 の処理識別情報で管理されることを特徴とする。
発明の効果
[0018] 本発明では、クライアント (端末)、音声処理サーバ (音声処理装置)及び情報提供 サーバ (情報提供装置)が、音声情報に基づ 、て音声処理サーバ及び情報提供サ ーバで行われる一連の処理に対応する処理識別情報を共用することにより、情報提 供サーノからクライアントにダウンロードされる情報と、クライアントから音声処理サー バへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結 果、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた 場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードす ることがでさる。
[0019] これによつて、例えば、ユーザが発声した音声情報をもとに検索等の処理を行った 結果を画面に表示する、又は、ユーザが発声した音声情報をもとに適切な情報をダ ゥンロードするといつた、音声処理と画面とを連動させたコンテンツの提供が可能とな る。
図面の簡単な説明
[0020] [図 1]図 1は、従来のシステムの構成を示す図である。
[図 2]図 2は、本発明の一実施例の構成を示す図である。
[図 3]図 3は、本発明の第 1の実施例の構成を示す図である。
[図 4]図 4は、本発明の第 2の実施例の構成を示す図である。
[図 5]図 5は、本発明の第 3の実施例の構成を示す図である。
[図 6]図 6は、本発明の第 1の具体例におけるクライアントの構成を示す図である。
[図 7]図 7は、本発明の第 1の具体例における Webサーバの構成を示す図である。
[図 8]図 8は、本発明の第 1の具体例における音声処理サーバの構成を示す図である
[図 9]図 9は、本発明の第 2の具体例におけるクライアントの構成を示す図である。
[図 10]図 10は、本発明の第 2の具体例における Webサーバの構成を示す図である。
[図 11]図 11は、本発明の第 3の具体例における音声処理サーバの構成を示す図で ある。
[図 12]図 12は、本発明の第 1の具体例の動作を説明するための図である。
[図 13]図 14は、本発明の第 2の具体例の動作を説明するための図である。
[図 14]図 14は、本発明の第 3の具体例の動作を説明するための図である。
[図 15]図 15は、本発明の第 1の具体例におけるクライアントに表示される画面 (ぺー ジ)の推移の一例を説明するための図である。
[図 16]図 16は、本発明の第 1の具体例におけるクライアントに表示される画面 (ぺー ジ)の推移の他の例を説明するための図である。
発明を実施するための最良の形態
[0021] 以下、本発明の実施例について、図面を参照しながら詳細に説明する。
[0022] 図 2を参照すると、本発明の実施例では、クライアント (端末) 10と、 Webサーバ (情 報提供サーバ、情報提供装置) 20と、音声処理サーバ (音声処理装置) 30とがネット ワーク接続されている。クライアント 10は、音声データ入力部、及び、ブラウザ機能を 具備し、ネットワークとして IP網等のパケット網 40に接続する通信機能を具備する。ク ライアント 10と Webサーバ 20と音声処理サーバ 30は、音声データに基づいて Web サーバ 20と音声処理サーバ 30で行われる一連の処理に対応する処理識別情報を 共用する。処理識別情報としては、例えば発話処理のセッションに対応して付与され る ID (「セッション ID」という)、又は、クライアント 10が保持する固有 IDを用いることが できる。このような処理識別情報を共用することで、 Webサーバ 20からクライアント 10 にダウンロードされる画面と、クライアント 10から音声処理サーバ 30に送信される音 声データとの対応関係を把握可能として 1、る。
[0023] [第 1の実施例]
図 3は、本発明の第 1の実施例の構成を示す図であり、セッション毎に生成されるセ ッシヨン IDを生成するセッション ID生成部を、 Webサーバ 20が具備して!/、る。
[0024] 図 3を参照して、本実施例の処理の手順を説明する。クライアント 10から Webサー ノ 20に音声処理を使用するサービスの要求があった時点で、 Webサーバ 20にてセ ッシヨン IDが生成される。
[0025] 生成されたセッション IDは、 Webサーバ 20から画面情報を、クライアント 10がダウ ンロードする時点で、 Webサーバ 20からクライアント 10に送信される。セッション IDの 送信の仕方として、例えば、画面情報に含めて送信してもよい。
[0026] クライアント 10は、入力音声の音声情報を音声処理サーバ 30に送信する際に、 W ebサーバ 20から受信したセッション IDを、音声処理サーバ 30へ送信する。 IDの送 信の仕方としては、音声情報に含めるようにしてもよいし、別途送信してもよい。
[0027] 音声処理サーバ 30では、受信した音声情報をもとに、音声処理 (音声認識、話者 照合等)を行う。音声処理サーバ 30は、音声処理結果を Webサーバ 20に送信する 時点でセッション IDも送信する。セッション IDの送信の仕方については、音声処理結 果に含めるようにしてもよい。
[0028] Webサーバ 20ではセッション Iひ f青報により、音声処理サーバ 30での音声処理結 果とサービス要求のあったクライアント 10とを関連付けることが可能となり、処理結果 を反映させた画面を、クライアント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音声認識結果等の音声処理結果情報を含む画面 (ぺー ジ)をクライアント 10に送信し、クライアント 10からの選択により、音声処理結果に対 応する画面情報をダウンロードする構成としてもょ 、。
[0029] [第 2の実施例]
図 4は、本発明の第 2の実施例の構成を示す図であり、クライアント 10が保持する I Dを、固有 IDとして用いる構成を具備している。予めクライアント 10が保持する IDをク ライアント固有の ID (固有 ID)として用いる場合、又は、予めクライアント 10が保持す る IDを用いて、クライアント固有の ID (固有 ID)を生成する場合の処理手順につ!、て 説明する。
[0030] クライアント 10から Webサーバ 20に音声処理を使用するサービスを要求する時に 、クライアント 10は予め保持する IDを固有 IDとして、 Webサーバ 20へ通知する。ある いは、クライアント 10側でクライアント 10が予め保持する IDを用いて、クライアント固 有の IDを新たに生成し、生成した固有 IDを、 Webサーバ 20へ通知する。固有 IDの 生成の仕方として、例えば、予め保持する IDにタイムスタンプ情報を付与するように してちよい。
[0031] 次に、 Webサーノ 20からクライアント 10に対して、要求のあったサービスの画面情 報がダウンロードされる。
[0032] 次に、 Webサーバ 20からダウンロードされた画面がクライアント 10の画面表示部 1 40に表示され、クライアント 10では、ユーザが入力し音声信号を受けて音声情報に 変換し、音声処理サーバ 30へ音声情報を送信する時点で、固有 IDも送信する。
[0033] 音声処理サーバ 30では、受信した音声情報をもとに、音声処理を行う。音声処理 サーバ 30は、音声処理結果を、 Webサーバ 20に送信する時点で、固有 IDも Webサ ーバ 20に送信する。
[0034] Webサーバ 20は、音声処理サーバ 30から音声処理結果と固有 IDを受け取る。 W ebサーバ 20では、音声処理サーバ 30からの固有 IDにより、音声処理結果と、サー ビス要求のあったクライアント 10とを関連付けることが可能となり、音声処理結果を反 映させた画面情報を、クライアント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音声認識結果等の音声処理結果情報を含む画面 (ぺー ジ)をクライアント 10に送信し、クライアント 10からの選択により、音声処理結果に対 応する画面情報をダウンロードする構成としてもょ 、。
[0035] [第 3の実施例]
図 5は、本発明の第 3の実施例の構成を示す図であり、セッション毎に生成されるセ ッシヨン IDを生成するセッション ID生成部を、音声処理サーバ 30が具備している。図 5を参照して、本実施例の処理手順について説明する。クライアント 10から音声処理 サーバ 30に音声情報送信のためのアクセスが行われた時点で、音声処理サーバ 30 のセッション ID生成部 31にてセッション IDが生成され、クライアント 10に通知される。
[0036] 次に、クライアント 10は、受信したセッション IDを Webサーバ 20に通知する。
[0037] 音声処理サーバ 30では、クライアント 10から受信した音声情報をもとに、音声処理 を行う。音声処理サーバ 30は、音声処理した結果を、 Webサーバ 20に送信する時 点でセッション IDも、 Webサーバ 20に送信する。
[0038] Webサーバ 20では、セッション Iひ f青報により、音声処理結果とサービス要求のあつ たクライアントとを関連付けることが可能となり、処理結果を反映させた画面をクライア ント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音 声認識結果等の音声処理結果情報を含む画面 (ページ)をクライアント 10に送信し、 クライアント 10からの選択により、音声処理結果に対応する画面情報をダウンロード する構成としてちよい。
[0039] 図 3に示す実施例において、 Webサーバ 20からクライアント 10にセッション IDを送 信する仕方として、
•画面(HTML、 XML等)内のタグ情報として埋め込む力、あるいは、
•パケットのヘッダ情報として埋め込む、
ようにしてちょい。
[0040] 図 3乃至図 5を参照して説明した前記各実施例において、クライアント 10から音声 処理サーバ 30にセッション IDを送信する送信方法として、
•音声情報のパケットのヘッダ情報として埋め込む力、あるいは、
•音声情報の一部として埋め込む、
ようにしてちょい。 [0041] 図 3乃至図 5を参照して説明した前記各実施例において、音声処理サーバ 30から Webサーバ 20にセッション IDを送信する方法として、
•音声処理結果情報のパケットのヘッダ情報として送信するか、あるいは •音声処理結果の一部として含める、
ようにしてちょい。
以下、具体例に即してさらに詳細に説明する。
[0042] [第 1の具体例]
図 2を参照して、本発明の音声処理システムの第 1の具体例について説明する。ク ライアント 10は、ネットワーク(パケット網) 40を介して、 Webサーバ 20と音声処理サ ーバ 30に接続される。クライアントとして、携帯端末、 PDA (Personal Digital Assistant)、車載端末、 PC (パソコン)、ホーム端末等を挙げることができる。また、 W ebサーバ 20、音声処理サーバ 30としては、 OS (オペレーティングシステム)として、 WindowsXP (登録商標)、 Windows2000 (登録商標)等を搭載したコンピュータや 、 OSとして Solaris (登録商標)を搭載したコンピュータを一例として挙げることができ る。ネットワーク (パケット網) 40として、インターネット (有線 Z無線)、イントラネット等 の IP網が用いられる。
[0043] 本具体例では、 Webサーバ 20力 セッション IDを生成するセッション ID生成部を 有する。
[0044] 図 6は、本発明の第 1の具体例のクライアント 10の構成を示す図である。図 6を参照 すると、クライアント 10は、音声入力部として機能し音声データを入力するデータ入 力部 110と、画面表示部 140と、データ通信部 130と、制御部 120を備えている。
[0045] 図 7は、 Webサーバ 20の構成を示す図である。図 7を参照すると、 Webサーバ 20 は、データ通信部 210と、コンテンツ管理部(情報管理手段) 220と、セッション ID生 成部 230を備えている。
[0046] 図 8は、音声処理サーバ 30の構成を示す図である。図 8を参照すると、音声処理サ ーバ 30は、データ通信部 310と、制御部 320と、音声処理実行部 330を備えている
[0047] 図 12は、本具体例のシーケンス動作を説明するための図である。図 6乃至図 8、図 12を参照して、本具体例について説明する。
[0048] クライアント 10より Webサーバ 20へ音声処理が含まれるサービスの要求が行われ る(ステップ S101)。具体的には、クライアント 10に表示された画面上のボタンのタリ ック操作により、サービス要求信号が、 Webサーバ 20に送信され、 Webサーバ 20に て、サービスを実行する CGI (Common Gateway Interface)等のプログラムが起動さ れる。
[0049] Webサーバ 20では、クライアント 10からのサービス要求信号を、データ通信部 210 にて受信し (ステップ S201)、コンテンツ管理部 220に送信する。
[0050] コンテンツ管理部 220では、サービスのチェック後、サービス要求信号をセッション I D生成部 230に送信する。セッション ID生成部 230は、サービス要求信号を受信し、 セッション IDを生成する(ステップ S202)。セッション ID生成の仕方として、例えば、 所定の初期値力 アクセス数分、カウントアップすることで、 IDを生成するようにしても よい。
[0051] 生成されたセッション IDは、コンテンツ管理部 220に送信される。コンテンツ管理部 220では、受信したセッション IDをもとに、クライアント 10にダウンロードする画面の生 成を行う(ステップ S203)。画面の生成の仕方としては、結果取得用のボタンのリンク 先 URL (Uniform Resource Locator)情報にセッション IDを含ませるようにしてもよい。
[0052] 次に、 Webサーノ 20のコンテンツ管理部 220にて、生成された画面が、 Webサー ノ 20のデータ通信部 210を通ってクライアントにダウンロードされる(ステップ S204) 。この時点で、 Webサーノ 20力ら、セッション IDもクライアント 10に送信される。セッ シヨン IDの送信方法として、
•Webサーバ 20にて生成された画面中のタグ情報として記述する力 あるいは、 •パケットのヘッダとして記述する
ようにしてちょい。
[0053] クライアント 10においては、 Webサーノ 20から受信した画面情報とセッション IDを データ通信部 130にて受信し (ステップ S102)、クライアント 10の制御部 120に送信 する。画面情報については、制御部 120から画面表示部 140に送信され、表示され る。クライアント 10上の画面情報には、例えばユーザによる音声入力等の選択 Z督 促が表示される。
[0054] 次に、ユーザの発声した音声は、クライアント 10のデータ入力部 110に入力され (ス テツプ S104)、クライアント 10内の制御部 120に送信される。クライアント 10の制御部 120にて、必要なデータ処理が行われる(ステップ S 105)。データ処理として、例え ば、入力音声のデジタル化処理、音声検出処理、音声分析処理、音声圧縮処理等 が行われる。音声データについては、例えば、デジタル化された音声データ、圧縮さ れた音声データ、特徴ベクトル等が用いられる(詳細は「確率モデルによる音声認識 」、中川聖ー著、 ρ.10-12、社団法人電子情報通信学会 (文献 3)を参照)。
[0055] このデータ処理の際に、セッション IDを音声データに含める処理が行われる。具体 的には、
•音声データパケットのヘッダ情報として含める力、あるいは、
•音声データの一部として含める
ようにしてちょい。
[0056] クライアント 10の制御部 120で処理されたデータは、逐次的に、データ通信部 130 より、音声処理サーバ 30に送信される。
[0057] 音声処理サーバ 30では、クライアントより逐次的に送信されたデータを、データ通 信部 310にて受信し (ステップ S301)、制御部 320にて、音声データであると判断し た場合、音声処理実行部 330に送信する。
[0058] 音声処理実行部 330では、音声処理に必要とする、いずれも図示されない、認識 エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうちの少 なくも 1つを具備しており、逐次的に、音声処理を行う(ステップ S302)。
[0059] なお、音声処理については、クライアント 10から送信されるデータの種類によって 処理内容が変わる。例えば、送信されるデータが圧縮音声データである場合には、 圧縮データの伸張、音声分析、マッチング処理を行う。一方、クライアント 10から特徴 ベクトルが送信される場合には、マッチング処理のみを行う。
[0060] 音声処理サーバ 30の音声処理実行部 330にお 、て、音声処理を終了すると、音 声処理結果は、音声処理実行部 330から、制御部 320を通り、データ通信部 310に 送信され、データ通信部 310から、 Webサーバ 20へ送信される(ステップ S303)。 [0061] 音声処理サーバ 30から Webサーバ 20へ送信される音声処理結果については、認 識結果情報や、話者照合情報、音声 (合成音声、入力音声を変換した音声等)等の 少なくともいずれか 1つを含む。その際、セッション IDも、音声処理サーバ 30から、 W ebサーバ 20へ送信される。セッション IDの送信方法として、
'音声処理結果送信のパケットのヘッダ情報として含める力 あるいは、
•音声処理結果の一部として送信する
ようにしてちょい。
[0062] Webサーバ 20は、音声処理結果と、セッション IDとを、データ通信部 210にて受信 し (ステップ S 205)、コンテンツ管理部 220に送信する。
[0063] コンテンツ管理部 220では、音声処理結果に基づく結果情報 (例えば音声認識結 果情報、後述する図 15、図 16の画面 1003等参照)、あるいは、音声処理結果を反 映させたコンテンツ情報 (画面、音声、動画等)を、セッション IDごとに作成する (ステ ップ S 206)。
[0064] そして、 Webサーノ 20力ら、サービス要求が行われたクライアント 10に、セッション I Dごとに作成された、結果情報とコンテンツ、あるいは、コンテンツのみがダウンロード され (ステップ S207)、クライアント 10でダウンロードされた結果情報/コンテンツが 受信される (ステップ S 106)。
[0065] 具体的には、音声処理開始時に、 Webサーバ 20からクライアント 10にダウンロード されて!/、る画面の結果取得用ボタンのリンク先 URLを、セッション IDが含まれた URL する。そして、コンテンツ管理部 220によって、 Webサーバ 20で音声処理結果を反 映させたコンテンツ情報を、セッション IDが含まれた URLによって表される場所に配 置する。これにより、ユーザが、クライアント 10の結果取得用ボタン (例えば図 15の画 面 1003の「地図を表示」ボタン)を押下することにより、セッション IDが含まれた URL が指定され、この URLに対応するコンテンツ情報(例えば図 15の画面 1004の地図 画面)力 ダウンロードされる。
[0066] 本具体例は、
•クライアント 10、音声処理サーバ 30間で対話を行う場合、
•音声処理サーバ 30が、音声処理結果を利用して、検索等の処理を行う場合、 •Webサーバ 20が、音声処理結果を利用して、検索等の処理を行う場合 等、様々な処理に利用可能である。
[0067] なお、図 12に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の 各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機( コンピュータ)上で実行されるプログラムによりその機能を実現するようにしてもよい。 また、本発明は、 Webサーバ 20、音声処理サーバ 30を 1つの計算機上に実現しても よいし、リモートのコンピュータで実現してもよい。この場合、 Webサーバ 20、音声処 理サーバ 30間の IDの受け渡しは、サブルーチンコールの引数としてもよい。あるい は、 Webサーバ 20、音声処理サーバ 30間でプロセス間通信により変数の引渡しを 行う場合、共通に参照される変数としてもよい。さらに、本具体例は、サーバに処理要 求を行うクライアントがサーバと同一計算機上に実装されたシステムに対しても本発 明を適用することができる。すなわち、複数のサーバが協調連携してクライアントの要 求を遂行するための任意の管理システムに適用することができる。
[0068] [第 2の具体例]
次に、本発明の第 2の具体例について説明する。本具体例では、図 4に示すように 、予めクライアント 10が保持する IDを、クライアント固有の ID (固有 ID)として用いる 場合、又は、予めクライアントが保持する IDを用いて、クライアント固有の ID (固有 ID )を生成する構成とされる。
[0069] 図 9は、本発明の第 2の具体例のクライアント 10の構成を示す図である。図 9を参照 すると、クライアント 10は、音声入力部として機能し音声データを入力するデータ入 力部 110と、画面表示部 140と、データ通信部 130と、制御部 120と、固有 ID保持生 成部(固有識別情報出力手段) 150を備えている。
[0070] 図 10は、 Webサーバ 20の構成を示す図である。図 10を参照すると、 Webサーバ 2 0は、データ通信部 210と、コンテンツ管理部 220とを備えている。
[0071] 音声処理サーバ 30は、図 8に示す構成とされ、データ通信部 310と、制御部 320と 、音声処理実行部 330を備えている。
[0072] 図 13は、本具体例のシーケンス動作を説明するための図である。図 9、図 10及び 図 8、図 13を参照して、本具体例について説明する。 [0073] クライアント 10から Webサーバ 20に音声処理を使用するサービスを要求する時点 で、クライアント 10は、固有 ID保持生成部 150にて、クライアント 10が予め保持する I Dを (端末識別情報)、固有 ID (固有識別情報)として制御部 120に送信する (ステツ プ Sl l l)。あるいは、ステップ S111では、固有 ID保持生成部 150が予め保持する I Dを用いてクライアント固有の IDを生成し、生成した固有 IDを制御部 120へ通知する 。固有 IDの生成の仕方として、予め保持する IDに、タイムスタンプ情報を付与するよ うにしてもよい。制御部 120は、サービス要求と IDを受信し、受信した固有 IDを、デ ータ通信部 130を通じて、 Webサーバ 20へ送信する(ステップ S 112)。
[0074] Webサーバ 20は、受信した音声処理が含まれるサービス要求信号と、固有 IDをデ ータ通信部 210にて受信する (ステップ S211)。データ通信部 210は、コンテンツ管 理部 220に、サービス要求信号と固有 IDを送信する。
[0075] コンテンツ管理部 220では、サービスのチェック後、受信した固有 IDをもとに、クライ アント 10にダウンロードする画面(第 1の情報)の生成を行う(ステップ S212)。画面の 生成の仕方 (方法)としては、前記具体例と同様、結果取得用のボタンのリンク先 UR L (Uniform Resource Locator)情報にセッション IDを含ませるようにしてもよい。
[0076] 次に、コンテンツ管理部 220にて生成された画面力 データ通信部 210を通ってク ライアント 10にダウンロードされる(ステップ S213)。
[0077] クライアント 10では、 Webサーバ 20から受信した画面情報を、データ通信部 130で 受信して (ステップ S113)、制御部 120に送信する。画面情報については、制御部 1 20力ゝら、画面表示部 140に送信され、表示される(ステップ S 114)。
[0078] 次に、ユーザの発声した音声は、クライアント 10のデータ入力部 110に入力され (ス テツプ S115)、制御部 120に送信される。制御部 120にて、前記具体例で説明した データ処理が行われる。このデータ処理の際に、固有 IDを、音声データに含める処 理が行われる。
[0079] 処理されたデータは、逐次的に、データ通信部 130より音声処理サーバ 30に送信 される(ステップ S 116)。固有 IDを音声データに含める処理については、前記具体 例と同様とされる。
[0080] 音声処理サーバ 30では、クライアント 10より、逐次的に送信されたデータを、デー タ通信部 310で受信し (ステップ S311)、制御部 320にて、音声データであると判断 し、音声処理実行部 330に送信する。
[0081] 音声処理サーバ 30において、音声処理実行部 330は、前記具体例と同様、音声 処理 (音声認識、話者照合等)に必要とする、いずれも図示されない、認識エンジン、 認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうち少なくとも 1つ を具備しており、逐次的に音声処理を行う(ステップ S312)。音声処理終了後、音声 処理結果は、音声処理実行部 330から制御部 320を通り、データ通信部 310に送信 され、データ通信部 310から、 Webサーバ 20へ送信される(ステップ S313)。この時 点で、固有 IDも、音声処理サーバ 30から、 Webサーバ 20へ送信される。送信方法 については、前記具体例と同様とされる。
[0082] Webサーバ 20は、音声処理サーバ 30から送信された音声処理結果と固有 IDを、 データ通信部 210にて受信し (ステップ S214)、コンテンツ管理部 220に送信する。
[0083] Webサーバ 20のコンテンツ管理部 220では、固有 IDに対応させて、音声処理結 果を反映させた情報 (第 2の情報:音声処理結果情報と該音声処理結果に対応する コンテンツ情報、又は該音声処理結果に対応するコンテンツ情報)を、用意する (ステ ップ S215)。なお、 Webサーバ 20のコンテンツ管理部 220では、クライアントの固有 I Dから、音声処理結果を反映させた情報の送信先のクライアント 10を判別できる。
[0084] そして、 Webサーバ 20は、サービス要求が行われたクライアント 10に、固有 IDごと に作成された、結果情報 (例えば図 15の画面 1003の音声認識結果画面)とコンテン ッ(例えば図 15の画面 1004の地図画面)がダウンロードされる力 あるいは、コンテ ンッ(例えば図 15の画面 1004の地図画面)のみがダウンロードされ (ステップ S216) 、クライアント 10がダウンロードされた情報を受信し (ステップ S117)、クライアント 10 の画面に表示される。作成されたコンテンツ情報のダウンロード方法については、前 記具体例と同様とされる。
[0085] 本具体例は、
•クライアント 10、音声処理サーバ 30間で対話を行う場合、
•音声処理サーバ 30が処理結果を利用して検索等の処理を行う場合、
•Webサーバ 20が、音声処理結果を利用して検索等の処理を行う場合 等、様々な処理に利用可能である。
[0086] なお、図 13に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の 各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機( コンピュータ)上で実行されるプログラムによりその機能を実現するようにしてもよい。
[0087] [第 3の具体例]
次に、本発明の第 3の具体例について説明する。本具体例は、セッション IDを生成 する処理部を音声処理サーバ 30が具備している。図 11は、音声処理サーバ 30の構 成を示す図である。図 11を参照すると、本具体例の音声処理サーバ 30は、図 8に示 した音声処理サーバ 30にセッション ID生成部 340が追加されている。なお、本具体 例のクライアント 10は、図 6に示す構成とされ、 Webサーバ 20は図 10に示す構成と される。以下、本具体例の動作について説明する。
[0088] 図 14は、本具体例のシーケンス動作を説明するための図である。図 6、図 10、図 1 1、図 14を参照して、本具体例について説明する。
[0089] クライアント 10より Webサーバ 20へ音声処理が含まれるサービスの要求が行われ る(ステップ S 121)。
[0090] Webサーバ 20側は、サービス要求信号をデータ通信部 210にて受信し (ステップ S 221)、コンテンツ管理部 220に送信する。コンテンツ管理部 220では、サービス要求 信号を受信し、サービスのチェック後、要求されたサービスの画面を生成し (ステップ S222)、データ通信部 210を通じてクライアント 10へ送信 (ダウンロード)する(ステツ プ S223)。
[0091] 次に、クライアント 10は、 Webサーバ 20からの画面情報を受信し (ステップ S 122)、 さらに音声情報を音声処理サーバ 30へ送信するために音声処理サーバ 30に音声 処理要求信号を送信する (ステップ S 123)。
[0092] 音声処理サーバ 30では、データ通信部 310にて、音声処理要求信号を受信し (ス テツプ S321)、制御部 320に送信する。制御部 320は、音声処理要求信号をセッシ ヨン ID生成部 340に送信する。
[0093] 音声処理サーバ 30のセッション ID生成部 340は、セッション ID要求信号を受信し
、セッション IDを生成する。セッション ID生成の仕方は、前記具体例で説明したもの と同様とされる。
[0094] 音声処理サーバ 30のセッション ID生成部 340によって生成されたセッション IDは、 音声処理サーバ 30のセッション ID生成部 340から制御部 320を通り、データ通信部 310に送信される。
[0095] 音声処理サーバ 30のデータ通信部 310は、クライアント 10へセッション IDを送信 する(ステップ S322)。
[0096] クライアント 10は、音声処理サーバ 30からセッション IDを受信し (ステップ S 124)、 セッション IDをデータ通信部 130を通じて、制御部 120に送信する。
[0097] 次に、クライアント 10のデータ通信部 130を通じて、セッション IDを、 Webサーバ 20 へ送信する(ステップ S 125)。
[0098] Webサーバ 20では、データ通信部 210にてセッション IDを受信し (ステップ S224) 、コンテンツ管理部 220に送信して管理する。
[0099] クライアント 10では、クライアント 10から Webサーバ 20にセッション IDを通知した後 、ユーザの発声した音声がデータ入力部 110に入力され (ステップ S126)、制御部 1 20に送信される。制御部 120にて、前記した具体例と同様のデータ処理が行われる 。このデータ処理の際に、セッション IDを、音声データに含めるようにしてもよい。
[0100] 処理されたデータは、逐次的に、クライアント 10のデータ通信部 130より、音声処理 サーバ 30に送信される(ステップ S127)。
[0101] 音声処理サーバ 30では、クライアント 10より、逐次的に送信されたデータを、デー タ通信部 310にて受信し (ステップ S323)、制御部 320にて、音声データであると判 断し、音声処理実行部 330に送信する。
[0102] 音声処理実行部 330は、前記具体例と同様、音声処理 (音声認識、話者照合等) に必要な認識エンジン、いずれも図示されない、認識用辞書、合成エンジン、合成用 辞書、話者照合エンジン等の機能の少なくとも 1つを具備しており、逐次的に、音声 処理を行う(ステップ S324)。音声処理終了後、音声処理結果は、音声処理実行部 330から制御部 320を通り、データ通信部 310に送信され、データ通信部 310から W ebサーバ 20へ送信される (ステップ S325)。音声処理結果については、前記具体例 と同様とされる。この時点で、セッション IDも音声処理サーバ 30から Webサーバ 20 へ送信される。セッション IDの送信も、前記具体例と同様とされる。
[0103] Webサーバ 20は、音声処理結果とセッション IDをデータ通信部 210にて受信し (ス テツプ S225)、コンテンツ管理部 220に送信する。音声処理結果については、前記 具体例と同様の内容とされる。この時点で、セッション IDも音声処理サーバ 30から、 前記具体例と同様、 Webサーバ 20へ送信される。 Webサーバ 20は、音声処理結果 とセッション IDをデータ通信部 210にて受信し、コンテンツ管理部 220に送信する。
[0104] Webサーバ 20のコンテンツ管理部 220は、セッション IDに対応した音声処理結果 を反映させた情報 (音声処理結果情報と該音声処理結果に対応するコンテンツ情報 、又は該音声処理結果に対応するコンテンツ情報)をセッション IDごとに作成する (ス テツプ S226)。
[0105] そして、 Webサーバ 20は、サービス要求が行われたクライアントにセッション IDごと に作成された結果情報 (例えば図 15の画面 1003の音声認識結果画面)とコンテン ッ(例えば図 15の画面 1004の地図画面)がダウンロードされる力 あるいは、コンテ ンッ(例えば図 15の画面 1004の地図画面)のみがダウンロードされ (ステップ S226) 、クライアント 10は Webサーバ 20からのダウンロードされた情報を受信する。
[0106] 作成されたコンテンツ情報のダウンロードの方法として、音声処理開始時にクライァ ント 10にダウンロードされている画面の結果取得用ボタンのリンク先 URLを、クライア ント 10が音声処理サーバ 30から通知されたセッション IDが含まれた URLとするよう な処理を、クライアント 10側で実行し、 Webサーバ 20で、音声処理結果を反映させ たコンテンツ情報を、セッション IDが含まれた URLに配置することで、ユーザが、クラ イアント画面の結果取得用ボタン(例えば図 15の画面 1003の「地図を表示」ボタン) を押下した際に、音声処理結果を反映させたコンテンツ情報をクライアント 10にダウ ンロードするようにしてもよ 、。
[0107] 本具体例においても、前記各具体例と同様に、
•クライアント 10、音声処理サーバ 30間で対話を行う場合、
•音声処理サーバ 30が処理結果を利用して検索等の処理を行う場合、 •Webサーバ 20が処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。 [0108] なお、図 14に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の 各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機( コンピュータ)上で実行されるプログラムにより、その機能を実現するようにしてもよい
[0109] [操作画面]
次に、本発明を適用した具体例としてクライアント 10での操作画面の一例について 説明する。図 15は、図 12を参照してシーケンス動作を説明した本発明の第 1の具体 例におけるクライアント 10の画面表示部 140に表示される画面(ページ)の推移の一 例を例示した図である。以下、図 15及び図 12を参照して、本発明の第 1の具体例に おけるクライアント 10の画面表示について説明する。
[0110] <画面 1001 >
画面 1001は、 Webサーバ 20からダウンロードした画面(「地図検索」のトップべ一 ジ)であり、「音声入力」ボタン 1011には、 CGI (例えば、 http:〃… .jp/a.cgi)がリンク されいる。ユーザが、画面上に表示される「音声入力」ボタン 1011をクリックしてサー ビス要求を行う(図 12のステップ S101に対応する)。すると、 Webサーバ 20では、 " a.cgi"というプロセス(CGIプログラム)が起動され、入力された情報が引き渡される。 CGIプログラムの処理結果を基に、 Webサーバ 20で HTMLを作成し、クライアント 1 0に応答として返す。
[0111] <画面 1002>
「音声入力」画面 1002が表示され、『検索したい地図の住所を「東京都港区三田」 のように発声してください。』と表示される(図 12のステップ S102— S104に対応する ) o IDは、画面中タグとして埋め込まれる。この画面 1002の状態で、ユーザは、音声 入力(発話)を行う。画面上で「結果を表示」ボタン 1012には、 IDごとに生成されたぺ ージ (http:〃- · -/b.ID.html)力リンクされて!/、る。画面上でユーザが「結果を表示」ボタ ン 1012をクリックすると、次の画面 1003のように、音声処理サーバ 30で音声認識さ れた認識結果が表示される。なお、画面 1003の認識結果画面は、 Webサーバ 20か らクライアント 10にダウンロードされたものを表示したものである。
[0112] <画面 1003 > クライアント 10に「認識結果」画面 1003が表示され、『結果は、「東京都港区三田」 ですね?』と表示され、画面上には「地図を表示」ボタン 1013が表示される。
[0113] <画面 1004>
ユーザが画面上で「地図を表示」ボタン 1013をクリックすることで、 Webサーバ 20 力もコンテンツ情報がダウンロードされ(図 12のステップ 106に対応する)、地図画面 (ページ) 1004が表示される。
[0114] なお、本具体例では、画面 1003の認識結果画面を表示せずに、画面 1002の結 果、画面 1004を直接表示するようにしてもよい。すなわち、音声処理サーバ 30によ る音声認識結果の画面 1003を IDごとに作成している力 画面 1002の「結果を表示 」ボタン 1012のクリックにより、音声認識結果を反映した画面 1004を直接表示する 構成としてもよい (この場合、図 15の画面 1003は省略される)。
[0115] なお、図 15及び以下に説明する図 16には、音声入力による地図案内システムの 画面の一例が示されている力 本発明は、力かるシステムに限定されるものでないこ とは勿論であり、任意の発話管理に適用できる。
[0116] 図 16は、図 15の変形例を示す図である。図 16に示す画面 1002aでは、図 15の画 面 1002の「結果を表示」ボタン 1012が表示されない。図 16に示す例では、画面 10 02aにおける音声入力の結果、図 15の画面 1002のように、画面上で「結果を表示」 ボタン 1002aをクリックすることなぐ認識結果画面 1003が表示され、ユーザが「地図 を表示」ボタン 1013をクリックすると、画面 1004の地図が表示される。あるいは、画 面 1003を表示せず、画面 1002aにおける音声入力の結果、直接、画面 1004の地 図が表示される。
[0117] Webサーバ 20は、 IDごとに画面が準備できた際に(図 12のステップ S206)、画面 の URL情報をクライアント 10に送信し、クライアント 10においては、受信した URL情 報を自動的にアクセスすることで、図 15、図 16に示した画面 1003、 1004が表示さ れる。
[0118] 次に、本発明の具体例において、ユーザがクライアント 10上で連続して発声する場 合について処理の流れを説明する。連続して発声する場合の一例として、図 15ある いは図 16の画面 1004に、「音声再入力」 t 、うボタンを作成しておくようにしてもょ ヽ 。画面 1004の「音声再入力」ボタンに、 Webサーバの CGIの URLをリンクさせておく ことで、画面 1004上でユーザが「音声再入力」ボタンをクリックした時に、あらたに ID が作成され、図 15の画面 1002又は図 16の画面 1002aが表示され、再度音声入力 が可能となる。
あるいは別の例としては、図 15又は図 16の画面 1004に、「TOPページ」へという ボタンを作成しておく。ユーザが、画面 1004上で「ΤΟΡページ」をクリックすることで 、図 15又は図 16の画面 1001のページに戻るため、再度「音声入力」のプロセスが 可能となる。
[0119] なお、クライアント 10と Webサーバ 20、音声処理サーバ 30間で転送されるセキユリ ティ ID、固有 IDの機密保持等のセキュリティ対策として、必要に応じて、パスワード、 暗号ィ匕 (公開鍵暗号ィ匕方式)等の対策を行ってもょ 、ことは勿論である。
[0120] 以上、本発明を上記具体例に即して説明したが、本発明は、上記具体例の構成に のみ限定されるものでなぐ本発明の範囲内で当業者であればなし得るであろう各種 変形、修正を含むことは勿論である。
産業上の利用可能性
[0121] 本発明によれば、クライアントに画面を表示させ、音声にて要求を行 、、結果を画 面に表示させるようなサービス提供システムに適用可能である。具体的には、
•音声で住所を発声して地図を表示させるサービス、
•音声で検索した 、文章を発声してマニュアルを表示するようなサービス、
•音声で曲名を発声して曲をダウンロードするサービス
等に適用して好適とされる。
[0122] さらに、本発明は、パケット網を通してデータを送受信することが可能であるため、ク ライアントとしては、携帯電話端末だけでなぐ携帯情報端末 (PDA)、 PC、車載端 末、ホーム端末等を用いることができる。

Claims

請求の範囲
[1] 入力された音声情報を送信するとともに、受信した情報を出力する端末と、
前記端末からの音声情報に基づき音声処理を行う音声処理装置と、
前記音声処理装置での音声処理結果を受け取り、この音声処理結果を反映させた 情報を前記端末に送信する情報提供装置とを備え、
前記端末、前記音声処理装置及び前記情報提供装置は、前記音声情報に基づい て前記音声処理装置及び前記情報提供装置で行われる一連の処理に対応する処 理識別情報を共用することを特徴とする音声処理システム。
[2] 前記音声処理装置は、前記音声処理として音声認識、対話及び照合処理の少なく とも 1つを行なう音声処理実行手段を備えることを特徴とする請求項 1記載の音声処 理システム。
[3] 前記情報提供装置及び前記音声処理装置の一方は、前記処理識別情報を生成 する識別情報生成手段を備えることを特徴とする請求項 1記載の音声処理システム。
[4] 前記情報提供装置及び前記音声処理装置の一方は、生成された前記処理識別情 報を前記端末に送信する通信手段をさらに備えることを特徴とする請求項 3記載の 音声処理システム。
[5] 前記端末は、前記情報提供装置及び前記音声処理装置の一方で生成された前記 処理識別情報を受信し、受信した前記処理識別情報を前記情報提供装置及び前記 音声処理装置の他方に送信する通信手段を備えることを特徴とする請求項 4記載の 音声処理システム。
[6] 前記端末は、前記情報提供装置の識別情報生成手段で生成された前記処理識別 情報を受信し、受信した前記処理識別情報を前記入力された音声情報とともに前記 音声処理装置に送信する通信手段を備えることを特徴とする請求項 4記載の音声処 理システム。
[7] 前記処理識別情報は、前記端末の固有識別情報であることを特徴とする請求項 1 記載の音声処理システム。
[8] 前記端末は、
前記固有識別情報を出力する固有識別情報出力手段と、 この固有識別情報出力手段から出力される前記固有識別情報を前記処理識別情 報として前記音声処理装置及び前記情報提供装置に送信する通信手段と
を備えることを特徴とする請求項 7記載の音声処理システム。
[9] 前記固有識別情報出力手段は、前記端末が予め保持する端末識別情報をそのま ま前記固有識別情報として出力することを特徴とする請求項 8記載の音声処理シス テム。
[10] 前記固有識別情報出力手段は、前記端末が予め保持する端末識別情報を基に前 記固有識別情報を生成し出力する手段を備えることを特徴とする請求項 8記載の音 声処理システム。
[11] 前記端末は、前記処理識別情報を前記入力された音声情報とともに前記音声処理 装置に送信する通信手段を備え、
前記音声処理装置は、
前記端末からの前記音声情報及び前記処理識別情報を受信する受信手段と、 受信された前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果に前記処理識別情報を含めて前記情 報提供装置に送信する送信手段と
を備えることを特徴とする請求項 1記載の音声処理システム。
[12] 前記端末は、前記処理識別情報がヘッダ部に格納された送信パケットを前記音声 処理装置に送信する通信手段を備えることを特徴とする請求項 1記載の音声処理シ ステム。
[13] 前記情報提供装置は、
前記音声処理装置による音声処理結果を前記処理識別情報とともに受信する受信 手段と、
前記処理識別情報に対応させて、前記音声処理結果を反映した結果情報を用意 する情報管理手段と、
前記結果情報を前記端末に送信する送信手段とを備え、
前記端末は、前記情報提供装置からの前記結果情報を出力する出力手段を備え ることを特徴とする請求項 1記載の音声処理システム。 [14] 前記情報提供装置は、
前記音声処理装置による音声処理結果を前記処理識別情報とともに受信する受信 手段と、
前記処理識別情報に対応させて、前記音声処理結果を反映したコンテンツ情報を 用意する情報管理手段と、
前記コンテンツ情報を前記端末に送信する送信手段とを備え、
前記端末は、前記情報提供装置からの前記コンテンツ情報を出力する出力手段を 備えることを特徴とする請求項 1記載の音声処理システム。
[15] 前記情報提供装置は、
前記音声処理装置による音声処理結果を前記処理識別情報とともに受信する第 1 の受信手段と、
前記音声処理結果を反映したコンテンツ情報を、前記処理識別情報を含む URL ( Uniform Resource Locator)情報によって表される場所に配置する情報管理手段と、 前記端末によって指定された前記 URL情報に対応する前記コンテンツ情報を前記 端末に送信する第 1の送信手段と
を備えることを特徴とする請求項 1記載の音声処理システム。
[16] 前記情報提供装置は、
前記音声処理結果を反映した、入力音声に対する認識結果情報を前記端末に送 信する第 2の送信手段と、
前記認識結果情報を受信した前記端末によって指定された前記 URL情報に対応 する前記コンテンツ情報を前記端末に送信する第 3の送信手段と
をさらに備えることを特徴とする請求項 15記載の音声処理システム。
[17] 前記音声情報は、デジタル化された音声データ、圧縮された音声データ及び特徴 ベクトルのうちの少なくとも 1つであることを特徴とする請求項 1記載の音声処理シス テム。
[18] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、
前記クライアントは、 サービス要求時、サービス要求信号を前記情報提供サーバに送信する第 1の送信 手段と、
前記サービス要求信号の応答として前記情報提供サーバから送信される前記処理 識別情報を受信する受信手段と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送 信する第 2の送信手段とを備え、
前記音声処理サーバは、
前記クライアントからの前記音声情報及び前記処理識別情報を受信する受信手段 と、
受信された前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記処理識別情報を前記情報 提供サーバに送信する送信手段とを備え、
前記情報提供サーバは、
前記クライアントからの前記サービス要求信号、及び、前記音声処理サーバからの 前記音声処理結果及び前記処理識別情報を受信する受信手段と、
前記サービス要求信号が受信されたときに前記処理識別情報を生成する識別情 報生成手段と、
前記識別情報生成手段で生成された前記処理識別情報に基づき前記クライアント に提示する情報を生成するとともに、前記音声処理サーバからの前記処理識別情報 に対応させて前記音声処理結果を反映した情報を生成する情報管理手段と、 生成された前記処理識別情報及び前記情報を前記クライアントに送信する送信手 段とを備える
ことを特徴とする請求項 1記載の音声処理システム。
前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、
前記クライアントは、
前記クライアントの固有識別情報を前記処理識別情報として出力する固有識別情 報出力手段と、 サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サー バに送信する第 1の送信手段と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送 信する第 2の送信手段とを備え、
前記音声処理サーバは、
前記クライアントからの前記音声情報及び前記処理識別情報を受信する受信手段 と、
受信された前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記処理識別情報を前記情報 提供サーバに送信する送信手段とを備え、
前記情報提供サーバは、
前記クライアントからの前記サービス要求信号及び前記処理識別情報、前記音声 処理サーバからの前記音声処理結果及び前記処理識別情報を受信する受信手段と
前記クライアントからの前記処理識別情報に基づき前記クライアントに提示する情 報を生成するとともに、前記音声処理サーバからの前記処理識別情報に対応させて 前記音声処理結果を反映した情報を生成する情報管理手段と、
前記情報管理手段で生成された前記情報を前記クライアントに送信する送信手段 とを備える
ことを特徴とする請求項 1記載の音声処理システム。
[20] 前記固有識別情報出力手段は、前記クライアントが予め保持する端末識別情報を そのまま前記固有識別情報とすることを特徴とする請求項 19記載の音声処理システ ム。
[21] 前記固有識別情報出力手段は、前記クライアントが予め保持する端末識別情報を 基に前記固有識別情報を生成する手段を備えることを特徴とする請求項 19記載の 音声処理システム。
[22] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、 前記クライアントは、
サービス要求時、サービス要求信号を前記情報提供サーバに送信する第 1の送信 手段と、
音声処理要求信号を前記音声処理サーバに送信する第 2の送信手段と、 前記音声処理要求信号の応答として前記音声処理サーバから送信される前記処 理識別情報を受信する受信手段と、
受信された前記処理識別情報を前記情報提供サーバに送信する第 3の送信手段 と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送 信する第 4の送信手段とを備え、
前記音声処理サーバは、
前記クライアントからの前記音声処理要求信号を受信する第 1の受信手段と、 前記音声処理要求信号が受信されたときに前記処理識別情報を生成する識別情 報生成手段と、
生成された前記処理識別情報を前記クライアントに送信する第 1の送信手段と、 前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受 信手段と、
前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、 前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理 識別情報を前記情報提供サーバに送信する送信手段とを備え、
前記情報提供サーバは、
前記クライアントからの前記サービス要求信号及び前記処理識別情報、及び、前記 音声処理サーバからの前記音声処理結果及び前記処理識別情報を受信する受信 手段と、
前記クライアントからの前記サービス要求信号に基づき前記クライアントに提示する 情報を生成するとともに、前記音声処理サーバからの前記処理識別情報に対応させ て前記音声処理結果を反映した情報を生成する情報管理手段と、
前記情報管理手段で生成された前記情報を前記クライアントに送信する送信手段 とを備える
ことを特徴とする請求項 1記載の音声処理システム。
[23] 端末が、入力された音声情報を音声処理装置に送信するステップと、
前記音声処理装置が、前記端末からの前記音声情報の音声処理を行うステップと 、音声処理結果を情報提供装置に送信するステップと、
前記情報提供装置が、前記音声処理装置での前記音声処理結果を反映した情報 を用意するステップと、用意した前記情報を前記端末に送信するステップとを備え、 前記端末、前記音声処理装置及び前記情報提供装置が、前記音声情報に基づい て前記音声処理装置及び前記情報提供装置で行われる一連の処理に対応する処 理識別情報を共用することを特徴とする音声処理方法。
[24] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、
前記クライアントが、サービス要求信号を前記情報提供サーバに送信するステップ と、
前記情報提供サーバが、前記サービス要求信号を受信したときに前記処理識別情 報を生成するステップと、前記処理識別情報に基づき前記クライアントに提示する情 報を生成するステップと、生成した前記処理識別情報及び前記情報を前記クライァ ントに送信するステップと、
前記クライアントが、入力された前記音声情報を、前記情報提供サーバからの前記 処理識別情報とともに前記音声処理サーバに送信するステップと、
前記音声処理サーバが、前記クライアントからの前記音声情報の音声処理を行うス テツプと、音声処理結果及び前記クライアントからの前記処理識別情報を前記情報 提供サーバに送信するステップと、
前記情報提供サーバが、前記音声処理サーバからの前記処理識別情報に対応さ せて、前記音声処理サーバでの前記音声処理結果を反映した情報を用意するステ ップと、用意した前記情報を前記端末に送信するステップと
を備えることを特徴とする請求項 23記載の音声処理方法。
[25] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、
前記クライアントが、サービス要求信号及び前記処理識別情報を前記情報提供サ ーバに送信するステップと、
前記情報提供サーバが、前記サービス要求信号及び前記処理識別情報を受信し たときに前記処理識別情報に基づき前記クライアントに提示する情報を生成するステ ップと、生成した前記情報を前記クライアントに送信するステップと、
前記クライアントが、前記情報提供サーバからの前記情報を受け取った後で、入力 された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信する ステップと、
前記音声処理サーバが、前記クライアントからの前記音声情報の音声処理を行うス テツプと、音声処理結果及び前記クライアントからの前記処理識別情報を前記情報 提供サーバに送信するステップと、
前記情報提供サーバが、前記音声処理サーバからの前記処理識別情報に対応さ せて、前記音声処理サーバでの前記音声処理結果を反映した情報を用意するステ ップと、用意した前記情報を前記端末に送信するステップと
を備えることを特徴とする請求項 23記載の音声処理方法。
[26] 前記クライアントが、前記クライアントの固有識別情報を出力するステップをさらに備 え、
前記クライアントが前記処理識別情報を送信するステップは、前記クライアントの固 有識別情報を前記処理識別情報として送信するステップを備えることを特徴とする請 求項 25記載の音声処理方法。
[27] 前記出力するステップは、前記クライアントが予め保持する端末識別情報をそのま ま前記固有識別情報とするステップを備えることを特徴とする請求項 26記載の音声 処理方法。
[28] 前記出力するステップは、前記クライアントが予め保持する端末識別情報を基に前 記固有識別情報を生成するステップを備えることを特徴とする請求項 26記載の音声 処理方法。
[29] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続され るクライアント、音声処理サーバ及び情報提供サーバであり、 前記クライアントが、サービス要求信号を前記情報提供サーバに送信するステップ と、
前記情報提供サーバが、前記サービス要求信号を受信したときに前記クライアント に提示する情報を生成するステップと、生成した前記情報を前記クライアントに送信 するステップと、
前記クライアントが、音声処理要求信号を前記音声処理サーバに送信するステップ と、
前記音声処理サーバが、前記音声処理要求信号を受信したときに前記処理識別 情報を生成するステップと、前記処理識別情報を前記クライアントに送信するステツ プと、
前記クライアントが、前記音声処理サーバからの前記処理識別情報を受け取り、前 記情報提供サーバに送信するステップと、入力された前記音声情報を前記処理識別 情報とともに前記音声処理サーバに送信するステップと、
前記音声処理サーバが、前記クライアントからの前記音声情報の音声処理を行うス テツプと、音声処理結果及び前記クライアントからの前記処理識別情報を前記情報 提供サーバに送信するステップと、
前記情報提供サーバが、前記音声処理サーバからの前記処理識別情報に対応さ せて、前記音声処理サーバでの前記音声処理結果を反映した情報を用意するステ ップと、用意した前記情報を前記端末に送信するステップと
を備えることを特徴とする請求項 23記載の音声処理方法。
クライアントからサービス要求信号を受信する第 1の受信手段と、
前記サービス要求信号が受信されたときに、前記クライアントからの音声情報に基 づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段 と、
前記処理識別情報に基づき前記クライアントに提示する第 1の情報を生成する手 段と、
前記処理識別情報及び前記第 1の情報を前記クライアントに送信する第 1の送信 手段と、
前記クライアントからの前記音声信号及び前記処理識別情報を受け取って音声処 理を行う音声処理サーバから、音声処理結果及び前記処理識別情報を受信する第
2の受信手段と、
前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を 反映した第 2の情報を生成する手段と、
前記第 2の情報を前記クライアントに送信する第 2の送信手段と
を備えることを特徴とする情報提供サーバ装置。
[31] 当該クライアント装置からの音声情報の音声処理を行う音声処理サーバと、前記音 声処理サーバでの音声処理結果を反映させた情報を当該クライアント装置に送信す る情報提供サーバとによる一連の処理に対応する処理識別情報として、当該クライァ ント装置の固有識別情報を出力する固有識別情報出力手段と、
サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サー バに送信する第 1の送信手段と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送 信する第 2の送信手段と
を備えることを特徴とするクライアント装置。
[32] 前記固有識別情報出力手段は、当該クライアント装置が予め保持する端末識別情 報をそのまま前記固有識別情報とすることを特徴とする請求項 31記載のクライアント 装置。
[33] 前記固有識別情報出力手段は、当該クライアント装置が予め保持する端末識別情 報を基に前記固有識別情報を生成する手段を備えることを特徴とする請求項 31記 載のクライアント装置。
[34] クライアントからの音声処理要求信号を受信する第 1の受信手段と、
前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基 づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段 と、
前記処理識別情報を前記クライアントに送信する第 1の送信手段と、 前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受 信手段と、
前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、 前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理 識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を 生成し前記クライアントに送信する情報提供サーバに送信する送信手段と
を備えることを特徴とする音声処理サーバ装置。
[35] 情報提供サーバ装置を構成するコンピュータに、
クライアントからサービス要求信号を受信する第 1の受信機能と、
前記サービス要求信号が受信されたときに、前記クライアントからの音声情報に基 づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成機能 と、
前記処理識別情報に基づき前記クライアントに提示する第 1の情報を生成する機 能と、
前記処理識別情報及び前記第 1の情報を前記クライアントに送信する第 1の送信 機能と、
前記クライアントからの前記音声信号及び前記処理識別情報を受け取って音声処 理を行う音声処理サーバから、音声処理結果及び前記処理識別情報を受信する第 2の受信機能と、
前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を 反映した第 2の情報を生成する機能と、
前記第 2の情報を前記クライアントに送信する第 2の送信機能と
を実現させるためのプログラム。
[36] クライアント装置を構成するコンピュータに、
当該クライアント装置からの音声情報の音声処理を行う音声処理サーバと、前記音 声処理サーバでの音声処理結果を反映させた情報を当該クライアント装置に送信す る情報提供サーバとによる一連の処理に対応する処理識別情報として、当該クライァ ント装置の固有識別情報を出力する固有識別情報出力機能と、 サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サー バに送信する第 1の送信機能と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送 信する第 2の送信機能と
を実現させるためのプログラム。
[37] 前記固有識別情報出力機能として、当該クライアント装置が予め保持する端末識 別情報をそのまま前記固有識別情報とする機能を実現させるための請求項 36記載 のプログラム。
[38] 前記固有識別情報出力機能として、当該クライアント装置が予め保持する端末識 別情報を基に前記固有識別情報を生成する機能を実現させるための請求項 36記載 のプログラム。
[39] 音声処理サーバ装置を構成するコンピュータに、
クライアントからの音声処理要求信号を受信する第 1の受信機能と、
前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基 づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成機能 と、
前記処理識別情報を前記クライアントに送信する第 1の送信機能と、
前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受 信機能と、
前記クライアントからの前記音声情報の音声処理を行う音声処理実行機能と、 前記音声処理実行機能による音声処理結果及び前記クライアントからの前記処理 識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を 生成し前記クライアントに送信する情報提供サーバに送信する送信機能と
を実現させるためのプログラム。
[40] クライアントと、複数のサーバとを備え、
(A)前記クライアントからの要求に基づき前記複数のサーバのうち少なくとも一のサ ーバで実行される処理に関連して、前記要求に応えるために他のサーバでも処理が 行われ、 (B)前記他のサーバと前記一のサーバとの間で処理結果の授受が行われ、
(C)前記一のサーバで前記処理結果に基づき前記要求に対応する応答情報が作 成される、
一連の処理 (A)、 (B)、 (C)が、前記クライアント、前記一及び他のサーバで共用さ れる共通の処理識別情報で管理されることを特徴とする情報処理システム。
[41] 前記処理識別情報は、前記一のサーバ及び前記他のサーバのいずれかで作成さ れることを特徴とする請求項 40記載の情報処理システム。
[42] 前記処理識別情報は、前記クライアントの固有識別情報が用いられることを特徴と する請求項 40記載の情報処理システム。
[43] 前記一のサーバは Webサーバ、前記他のサーバは音声処理を行う音声処理サー バよりなり、
前記クライアントに入力されるユーザの発話が前記処理識別情報で管理されること を特徴とする請求項 40記載の情報処理システム。
PCT/JP2005/004959 2004-03-18 2005-03-18 音声処理装置とシステム及び音声処理方法 WO2005091128A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006511243A JP4725512B2 (ja) 2004-03-18 2005-03-18 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム
US10/593,041 US7835728B2 (en) 2004-03-18 2005-03-18 Voice processing unit and system, and voice processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004079078 2004-03-18
JP2004-079078 2004-03-18

Publications (1)

Publication Number Publication Date
WO2005091128A1 true WO2005091128A1 (ja) 2005-09-29

Family

ID=34993882

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/004959 WO2005091128A1 (ja) 2004-03-18 2005-03-18 音声処理装置とシステム及び音声処理方法

Country Status (3)

Country Link
US (1) US7835728B2 (ja)
JP (1) JP4725512B2 (ja)
WO (1) WO2005091128A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527467A (ja) * 2007-04-02 2010-08-12 グーグル・インコーポレーテッド 電話による要求への位置を基にした応答
JP2017017669A (ja) * 2015-06-30 2017-01-19 百度在線網絡技術(北京)有限公司 声紋による通信方法、装置及びシステム
CN113542260A (zh) * 2021-07-12 2021-10-22 宏图智能物流股份有限公司 一种基于分发方式的仓库用语音传输方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
JP2008287674A (ja) * 2007-05-21 2008-11-27 Olympus Corp 情報処理装置、クライアント装置、情報処理システム及びサービス接続方法
US10354689B2 (en) * 2008-04-06 2019-07-16 Taser International, Inc. Systems and methods for event recorder logging
CN103871410B (zh) * 2012-12-11 2017-09-29 联想(北京)有限公司 一种数据处理方法和装置
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040051A (ja) * 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP2002359688A (ja) * 2001-03-30 2002-12-13 Ntt Comware Corp 音声認識による情報提供サーバならびにその方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717740A (en) * 1995-12-27 1998-02-10 Lucent Technologies Inc. Telephone station account number dialing device and method
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6636596B1 (en) * 1999-09-24 2003-10-21 Worldcom, Inc. Method of and system for providing intelligent network control services in IP telephony
JP3452250B2 (ja) 2000-03-15 2003-09-29 日本電気株式会社 無線携帯端末通信システム
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
JP3885523B2 (ja) 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040051A (ja) * 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP2002359688A (ja) * 2001-03-30 2002-12-13 Ntt Comware Corp 音声認識による情報提供サーバならびにその方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527467A (ja) * 2007-04-02 2010-08-12 グーグル・インコーポレーテッド 電話による要求への位置を基にした応答
US8650030B2 (en) 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
US8856005B2 (en) 2007-04-02 2014-10-07 Google Inc. Location based responses to telephone requests
US9600229B2 (en) 2007-04-02 2017-03-21 Google Inc. Location based responses to telephone requests
US9858928B2 (en) 2007-04-02 2018-01-02 Google Inc. Location-based responses to telephone requests
US10163441B2 (en) 2007-04-02 2018-12-25 Google Llc Location-based responses to telephone requests
JP2017017669A (ja) * 2015-06-30 2017-01-19 百度在線網絡技術(北京)有限公司 声紋による通信方法、装置及びシステム
US9865267B2 (en) 2015-06-30 2018-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Communication method, apparatus and system based on voiceprint
CN113542260A (zh) * 2021-07-12 2021-10-22 宏图智能物流股份有限公司 一种基于分发方式的仓库用语音传输方法

Also Published As

Publication number Publication date
JPWO2005091128A1 (ja) 2008-05-22
JP4725512B2 (ja) 2011-07-13
US20070143102A1 (en) 2007-06-21
US7835728B2 (en) 2010-11-16

Similar Documents

Publication Publication Date Title
KR100430953B1 (ko) 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
JP4725512B2 (ja) 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム
RU2491617C2 (ru) Способ и устройство для реализации распределенных мультимодальных приложений
US20120059655A1 (en) Methods and apparatus for providing input to a speech-enabled application program
US20030139933A1 (en) Use of local voice input and remote voice processing to control a local visual display
CN108028044A (zh) 使用多个识别器减少延时的语音识别***
JP2017535852A (ja) コンピュータベースの翻訳システムおよび方法
US7277733B2 (en) System and method for providing web content provision service using subscriber terminal in exchange system
US6631350B1 (en) Device-independent speech audio system for linking a speech driven application to specific audio input and output devices
US20090012888A1 (en) Text-to-speech streaming via a network
JP5768346B2 (ja) 通信システム、並びに、通信端末及び通信プログラム
CN112084245A (zh) 基于微服务架构的数据管理方法、装置、设备及存储介质
KR101403680B1 (ko) 주소록 관리 서버, 이동형 단말기 및 그의 제어방법
US8073930B2 (en) Screen reader remote access system
JP7319639B1 (ja) 音声入力システム及びそのプログラム
KR100536911B1 (ko) 인터넷 전화 서비스 제공 시스템 및 방법
JP2011109342A (ja) 携帯端末装置及び携帯端末装置の存在通知方法
KR100785101B1 (ko) 무선 인터넷 단말기에서의 전화번호 정보 처리방법
JPH11234451A (ja) 情報取得システム
JP2005339149A (ja) データ処理装置、データ処理方法およびデータ処理プログラム
JP2006508596A (ja) ネットワークのオーディオデータを処理する方法およびその方法を実行する装置
Tsourakis et al. An architecture for miultiemodal applications over wireless data networks
KR20020084337A (ko) 웹브라우저의 url입력창을 이용한 통신 시스템 및 방법
Bühler et al. CONNECTING SPOKEN LANGUAGE DIALOGUE SYSTEMS TO THE IN" TERNET

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006511243

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007143102

Country of ref document: US

Ref document number: 10593041

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10593041

Country of ref document: US