WO2004064393A1 - 放送受信方法、放送受信システム、記録媒体、及びプログラム - Google Patents

放送受信方法、放送受信システム、記録媒体、及びプログラム Download PDF

Info

Publication number
WO2004064393A1
WO2004064393A1 PCT/JP2003/017015 JP0317015W WO2004064393A1 WO 2004064393 A1 WO2004064393 A1 WO 2004064393A1 JP 0317015 W JP0317015 W JP 0317015W WO 2004064393 A1 WO2004064393 A1 WO 2004064393A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
additional information
word
broadcast
recognition
Prior art date
Application number
PCT/JP2003/017015
Other languages
English (en)
French (fr)
Inventor
Yumiko Kato
Takahiro Kamai
Hideyuki Yoshida
Yoshifumi Hirose
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US10/542,409 priority Critical patent/US7698138B2/en
Priority to AU2003296157A priority patent/AU2003296157A1/en
Priority to JP2004566305A priority patent/JPWO2004064393A1/ja
Publication of WO2004064393A1 publication Critical patent/WO2004064393A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • H04N21/44224Monitoring of user activity on external systems, e.g. Internet browsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/47815Electronic shopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47214End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for content reservation or setting reminders; for requesting event notification, e.g. of sport results or stock market
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital

Definitions

  • the present invention relates to a broadcast receiving method for receiving a broadcast broadcast from a broadcast station, a broadcast receiving system, a first device, a second device, a recording medium, and a program.
  • the viewer may want to obtain an object such as a program or commercial that appeared in the program or music played in the program or commercial. .
  • the viewer first connects a PC (Personal Computer) to the Internet, searches the Internet for information on these objects, and obtains information on the target objects.
  • PC Personal Computer
  • FIG. 37 is a block diagram showing a conceptual configuration of a shopping support system using interactive broadcasting in the inventor's application according to the present application.
  • Fig. 38 is a flowchart showing the operation of the shopping support system using interactive broadcasting (hereinafter abbreviated as shopping support system).
  • FIG. 39 is a functional block diagram showing details of the portion shown in FIG. 37.
  • the shopping support system includes a broadcasting station 10, a seller 20, and a home 30.
  • a TV / STB 310 and a remote controller 320 are installed in the home 30, a TV / STB 310 and a remote controller 320 are installed. I have.
  • the broadcasting station 10 is a broadcasting station that broadcasts a program together with program additional information.
  • Distributor 20 is a distributor that handles items appearing in the program as products.
  • Home 30 is the home that receives the broadcast. ,
  • TV / STB 31.0 is a two-way broadcast receiver such as a television or an STB (Set Top Box).
  • the remote controller 320 is means for operating the TV / STB 310, and includes a microphone 3221.
  • the TV / STB 310 includes a recognized vocabulary storage unit 311 and a voice recognition unit 312. That is, as shown in FIG. 39, TVZS TB 310 is Broadcast receiving unit 3 1 3, Recognized vocabulary generation unit 3 1 4, Recognized vocabulary storage unit 3 1 1, Voice recognition unit 3 1 2, Time expression dictionary 3 1 6, Storage time control unit 3 1 5, Additional information storage It consists of a unit 317, a display unit 318, and a transmission unit 319.
  • the broadcast receiving section 313 is a means for receiving a broadcast wave.
  • the recognition vocabulary generator 314 is a means for generating a target vocabulary for speech recognition from the program additional information received by the broadcast receiver 313.
  • the recognized vocabulary storage unit 311 1 is a means for storing the generated recognized vocabulary.
  • the time expression dictionary 3 16 is a dictionary that holds expressions relating to time, such as “soon ago” and “now,” as recognition vocabulary.
  • the speech recognition unit 312 is a means for performing speech recognition using the recognition vocabulary storage unit 311 and the temporal expression dictionary 316 as a recognition vocabulary dictionary.
  • the memory time controller 3 15 learns the relationship between each time expression vocabulary and the actual time width or the number of scenes from the relationship between the recognized time expression vocabulary and the viewer's information selection input, and performs speech recognition.
  • the display section 318 is a means for displaying additional information.
  • the transmitting unit 319 is means for transmitting the result of viewer input, such as selection of additional information, to the broadcasting station.
  • FIG. 38 shows the operation of the shopping support system and services. This will be described below with reference to FIG.
  • the viewer pays attention to things appearing in the program while watching the program, and utters words to convey that he / she is paying attention to a specific thing.
  • the microphone 321 inputs the utterance and outputs the utterance to the voice recognition unit 312.
  • the speech recognition unit 312 performs speech recognition on the utterance signal input from the microphone 3221. Then, based on the result of the voice recognition, the voice recognition unit 312 determines an object or the like to which the viewer pays attention, and specifies the corresponding program additional information. And store it in the additional information storage unit 3 17 (step 3 31).
  • the voice uttered by the viewer is input from the microphone 3 2 1, and the voice recognition unit 3 1 2 recognizes the input voice by referring to the time expression dictionary 3 16 and the recognized vocabulary storage unit 3 1 1, and is broadcast.
  • the corresponding additional information is extracted from the added program additional information.
  • the recognition vocabulary stored in the recognition vocabulary storage unit 3 1 1 was generated by the recognition vocabulary generation unit 3 14, which sequentially generated vocabulary representing objects with added information and music from the received program additional information. Things. That is, the program additional information also includes key word information for specifying an object or music associated with the program additional information at the broadcasting station, and the recognition vocabulary generator 314 recognizes the key word information from the keyword information. Generate vocabulary.
  • the speech recognition unit 312 extracts the recognition vocabulary from the uttered voice of the viewer by voice-recognizing the uttered voice of the viewer such as “I wish the red jacket just before”. For example, in the case of the utterance speech “I just like the red jacket,” the recognition vocabulary “red” and “jacket” are extracted. Then, the program additional information having the largest number of pieces of keyboard information corresponding to the extracted recognized vocabulary is selected, and the selected program additional information is stored in the additional information storage unit 317. In other words, if a certain program additional information includes both keyword information corresponding to the recognition vocabulary “red” and keyword information corresponding to the recognition vocabulary “jacket”, the program additional information is stored in the additional information. Store in part 3 17.
  • the voice recognition unit 312 can be specified by selecting the program additional information.
  • the speech recognition unit 312 has been described as selecting the program additional information having the largest number of pieces of keyword information corresponding to the recognized vocabulary extracted from the uttered voice of the viewer, but is not limited thereto.
  • the voice recognition unit 312 selects, for example, five pieces of program additional information in the descending order of the number of pieces of keyword information corresponding to the recognized vocabulary extracted from the uttered voice of the viewer, and adds the selected program additional information to the additional information.
  • the information may be stored in the storage unit 3 17. As described above, the voice recognition unit 312 may narrow down the program additional information instead of specifying it.
  • the storage time controller 3 15 has a large time width or scene number corresponding to the predetermined time range or scene number, or the time expression learned from the viewer's previous utterance and subsequent input. During this time, control is performed so that the generated recognition vocabulary is maintained.
  • the learning of the storage time control unit 315 will be described later. For example, in the case of an uttered voice saying “I'm looking forward to the red jacket,” the voice recognition unit 312 extracts the temporal expression vocabulary indicating the past “Soon ago” under the control of the storage time control unit 315. Then, referring to the time expression dictionary 31.6, the above-mentioned identification or narrowing down is performed on the program additional information broadcast during the time range or the number of scenes corresponding to “Saki”.
  • the display unit 318 displays additional information corresponding to the thing appearing in the specified drama by voice recognition (step 3333).
  • the additional information includes information such as size, weight, material, different colors, different sizes, prices, manufacturers, sellers, and seller contact information, etc.
  • additional information is selected by a remote controller 320 or a pointing device or input means such as voice recognition and the purchase information is input.
  • the transmission unit 3 19 matches the purchase information with the identification number of the corresponding additional information, etc. To the broadcast station (step 3 3 4).
  • the storage time control unit 3 15 learns the relationship between each time expression vocabulary and the actual time width or the number of scenes from the relationship between the recognized time expression vocabulary and the information selection input of the viewer.
  • the storage time control unit 315 holds information for associating the actual time width or the number of scenes for each recognition vocabulary, which is an expression relating to time, stored in the time expression dictionary 316.
  • the storage time control unit 3 15 associates the recognition vocabulary “Saki” with the time range from 20 seconds ago to 5 minutes ago based on the current time. The time width from the current time to 30 seconds before the current time is associated with the current time.
  • the speech recognition unit 312 performs control to specify and narrow down the program additional information received during the time period up to the previous time from 20 seconds before the current time. Identify and narrow down the program additional information received during the time width up to 5 minutes before, and store the specified or narrowed down program additional information in the additional information storage unit 3.
  • the storage time control unit 315 controls so that the recognition vocabulary generated during this time width is retained.
  • the storage time control unit 3 15 receives the recognition vocabulary representing the time expression “soon ago”, the storage time control unit 3 15
  • the program additional information displayed in 18 may be different from the time width intended by the viewer.
  • the viewer speaks into the microphone 321, saying “redo”, “want to display information before”, “want to display information after”.
  • the voice recognition unit 312 performs voice recognition of the utterance from the viewer, and notifies the storage time control unit 315 of the voice recognition result.
  • the voice recognition unit 3 1 2 recognizes the utterance “I want you to display the information before it”, it extracts “previous”, “information”, and “display” as the recognition vocabulary, and stores the memory time. Notify the control unit 3 15.
  • the memory time control unit 3 15 When the memory time control unit 3 15 receives the recognition vocabulary of “before”, “information”, and “display” from the speech recognition unit 3 12, it is associated with the recognition vocabulary representing the time expression of “previous”. Correct the time width information. In other words, it is modified so that the recognition vocabulary "Saki” is associated with the time width from 40 seconds ago to 5 minutes 40 seconds ago based on the current time. Then, the storage time control unit 3 15 adds the program to the speech recognition unit 3 12 again for the program additional information received from 40 seconds ago to 5 minutes 40 seconds ago based on the current time. The voice recognition unit 3 1 2 is controlled so as to specify or narrow down the information.
  • the voice recognition unit 312 again specifies or narrows down the program additional information under the control of the storage time control unit 315, and stores the specified or narrowed down program additional information in the additional information storage unit 317.
  • the display unit 318 displays the program additional information stored in the additional information storage unit 317. Then, if the displayed program additional information includes a target item, the viewer selects the program additional information and inputs purchase information.
  • the storage time control unit 315 can reflect the viewer's intention and associate the time width with the recognized vocabulary representing the time expression. This means that the storage time control unit 315 learns.
  • the viewers are interested in the objects, music, etc. appearing in the program. Make natural utterances Thus, it is possible to acquire and purchase information continuously after viewing the program.
  • the degree of matching between the speech-recognized word and the keyword corresponding to the keyword information including the additional information is determined.
  • additional information is specified.
  • the present invention has been made in consideration of the above problems, and provides a broadcast receiving method, a broadcast receiving system, a first apparatus, and a broadcast receiving method that can easily obtain a broadcast program or an object appearing in a commercial without much trouble. It is intended to provide two devices, a recording medium, and a program.
  • Broadcast receiving method, broadcast receiving system, first device, second device, recording that can be easily and easily obtained by adapting the object appearing in The purpose is to provide media and programs.
  • the present invention provides a broadcast receiving method and a broadcast receiving method which can easily obtain a broadcasted program or an object appearing in a commercial so as to be suitable for a viewer's interest without any hassle. It is intended to provide a receiving system, a first device, a second device, a recording medium, and a program.
  • a first aspect of the present invention is a keyword associated with an object appearing in broadcast content broadcasted from a broadcast station, the keyword being for identifying the object.
  • a display step of displaying additional information associated with the specified keyword information is a display step of displaying additional information associated with the specified keyword information.
  • the second invention provides the additional information, which is additional information associated with an object appearing in broadcast content broadcasted from a broadcasting station and includes keyword information for specifying the object. Broadcast information and language model to the broadcast content A receiving step of receiving a broadcast to be broadcast at the same time;
  • a synonym dictionary in which a plurality of words are classified into respective word classes based on the similarity between words, the frequency and / or frequency of occurrence of the predetermined combination of the word classes in the expression form of the language model Or a correction step of correcting the frequency of occurrence of a predetermined word based on the predetermined word class in the expression form of the language model based on history information of a voice recognition result of voice recognition that has already been performed;
  • a display step of displaying additional information associated with the specified keyword information is a display step of displaying additional information associated with the specified keyword information. .,
  • the third aspect of the present invention is the above-mentioned additional information, wherein the additional information includes keyword information for specifying the object, the additional information being associated with the object appearing in the broadcast content broadcast from the broadcast station.
  • the voice uttered by the viewer is A voice recognition step to recognize
  • a display step of displaying additional information associated with the specified keyword information is a display step of displaying additional information associated with the specified keyword information.
  • the fourth present invention provides the additional information, which is additional information associated with an object appearing in broadcast content broadcast from a broadcasting station and includes keyword information for identifying the object.
  • a first device having broadcasting means for broadcasting simultaneously with the broadcast content;
  • Receiving means for receiving the broadcast from the first device; and a keyword dictionary using a synonym dictionary in which a plurality of words are classified into respective word classes on the basis of synonyms between words.
  • Recognition vocabulary set generation means for generating a recognition vocabulary set composed of words belonging to the word class including words corresponding to information in association with the additional information, and a voice for recognizing a voice uttered by a viewer Recognition means, and when the word recognized by the speech recognition result is included in the recognized vocabulary set, specifying means for specifying the keyword information corresponding to the recognized vocabulary set, and corresponding to the specified keyword information
  • a second device having display means for displaying the attached additional information.
  • the additional information includes keyword information for identifying the object, the additional information being associated with the object appearing in the broadcast content broadcast from the broadcast station.
  • a first device having broadcasting means for broadcasting information and a language model simultaneously with the broadcast content;
  • the predetermined unit in a model expression form; History of speech recognition results of speech recognition that has already performed the frequency of occurrence of a combination of word classes and the frequency of occurrence of a predetermined word based on the predetermined word class in z or the expression format of the language model.
  • a second device having a display unit for displaying additional information associated with the specified keyword information.
  • the sixth invention is directed to additional information associated with an object appearing in the broadcast content broadcast from a broadcasting station, and including additional keyword information for specifying the object.
  • a first device having broadcasting means for broadcasting the additional information and information for specifying the language model simultaneously with the broadcast content; a receiving means for receiving the broadcast broadcasted from the first device; and Using the information for specifying the language model, a plurality of words are assigned to each word class on the basis of language model specifying means for specifying the language model stored in advance, and similarity between words.
  • Correcting means for correcting the appearance degree of a predetermined word based on the predetermined word class based on history information of a speech recognition result of speech recognition that has been performed, and the corrected language model.
  • Voice recognition means for recognizing a voice uttered by the viewer, and a specifying means for specifying the keyword information based on the voice recognition result, and an addition associated with the specified keyword information.
  • a broadcast receiving system comprising: a second device having display means for displaying information.
  • the broadcast corresponds to the keyword information by using a synonym dictionary in which a plurality of words are classified into respective word classes based on receiving means for receiving the broadcast, and synonyms between words.
  • a recognition vocabulary set generating means for generating a recognition vocabulary set composed of words belonging to the word class including words in association with the additional information, and a voice recognition means for voice recognition of a voice uttered by a viewer; And when the word recognized by the speech recognition result is included in the recognized vocabulary set, the key corresponding to the recognized vocabulary set.
  • a first device that is received by a second device having a display unit that displays the additional information obtained.
  • the eighth invention is directed to the additional information which includes additional information associated with an object appearing in the broadcast content broadcasted from a broadcasting station and includes keyword information for specifying the object.
  • the broadcast is a receiving means for receiving the broadcast, and a synonym dictionary in which a plurality of words are classified into respective word classes on the basis of synonyms between words.
  • the frequency of occurrence of the predetermined combination of the word classes and / or the frequency of occurrence of the predetermined word based on the predetermined word class in the expression form of the language model.
  • Correction means for correcting based on the history information of the result; and voice recognition means for recognizing voice uttered by the viewer using the corrected language model; and the key based on the voice recognition result.
  • Specifying means for specifying the key information, and the specified key information A first device which is received by a second device having a display means for displaying additional information associated with the first device.
  • the ninth aspect of the present invention is the additional information, wherein the additional information includes keyword information for identifying the object, the additional information being associated with the object appearing in the broadcast content broadcast from the broadcast station.
  • the broadcast includes: a receiving unit that receives the broadcast; and a language model specifying unit that specifies the language model stored in advance by using information for specifying the received language model.
  • a synonym dictionary in which a plurality of words are classified into respective word classes on the basis of synonymity, a combination of the predetermined word classes in the expression form of the specified language model appears.
  • the frequency of occurrence of a predetermined word in the expression form of Z or the specified language model based on the predetermined word class is corrected based on the history information of the voice recognition result of the voice recognition that has already been performed.
  • voice recognition means for recognizing a voice uttered by a viewer, and the key based on the voice recognition result.
  • Specifying means for specifying the over de information, and is received by a second device having a display means for displaying additional information associated with the identified said Kiwado information, which is the first device.
  • the tenth aspect of the present invention is the additional information, wherein the additional information includes keyword information for identifying the object, the additional information being associated with the object appearing in the broadcast content broadcast from the broadcast station.
  • Receiving means for receiving the broadcast broadcasted from the first device having broadcast means for broadcasting simultaneously with the broadcast content;
  • a recognition vocabulary set generating means for generating a recognition vocabulary set composed of words belonging to the notation word class in association with the additional information
  • Voice recognition means for recognizing a voice uttered by a viewer; and, when a word recognized by the voice recognition result is included in the recognized vocabulary set, the keyword information corresponding to the recognized vocabulary set is specified.
  • a predetermined appearance frequency is added to each word of the synonym dictionary
  • the voice recognition unit specifies the word having a higher appearance frequency as a word recognized in the voice recognition result. This is the second device.
  • a twelfth aspect of the present invention is the second device according to the eleventh aspect of the present invention, further comprising an appearance frequency correction unit that rewrites the appearance frequency according to the recognition result of the speech recognition result.
  • a thirteenth aspect of the present invention includes an appearance frequency correction unit for rewriting the appearance frequency corresponding to each word of the recognition vocabulary set according to the history information of the speech recognition result,
  • the appearance frequency corresponding to the word is added.
  • the speech recognition means is the second device of the present invention, wherein the speech recognition is performed using the appearance frequency of the recognized vocabulary set.
  • the fourteenth invention is directed to the additional information, which is additional information associated with an object appearing in broadcast content broadcasted from a broadcasting station and includes key word information for specifying the object.
  • the language model in the broadcast Receiving means for receiving the broadcast broadcasted from the first device having broadcast means for broadcasting at the same time;
  • a correction means for correcting the frequency of occurrence of a predetermined word based on the predetermined word class in the expression form of the language model based on history information of a voice recognition result of voice recognition that has already been performed,
  • Voice recognition means for recognizing voice uttered by the viewer using the corrected language model
  • the fifteenth aspect of the present invention provides the additional information, wherein the additional information includes keyword information for identifying the object, the additional information being associated with the object appearing in the broadcast content broadcast from the broadcast station. And receiving means for receiving the broadcast broadcasted from the first device having broadcast means for broadcasting information for specifying a language model simultaneously with the broadcast content;
  • language model specifying means for specifying the language model stored in advance
  • a predetermined combination of the word classes in the expression form of the specified language model is determined.
  • the frequency of occurrence and / or the frequency of occurrence of a predetermined word based on the predetermined word class in the specified expression format of the language model is determined by the speech recognition result of the already performed speech recognition.
  • Voice recognition means for recognizing voice uttered by the viewer using the captured language model
  • a display device for displaying additional information associated with the identified keyword information.
  • a sixteenth aspect of the present invention is the second device according to the fifteenth aspect of the present invention, wherein the information for specifying the language model is an ID assigned to the language model in advance.
  • the information for specifying the language model is language model specifying keyword information
  • the language model identification keyword information is also added to the language model stored in advance,
  • the language model specifying means is a second device according to a fifteenth aspect of the present invention, wherein the language model is specified in accordance with the degree of matching of the language model specifying keywords.
  • an eighteenth aspect of the present invention relates to a case where the correction means corrects the appearance frequency of a predetermined word based on the predetermined word class in the expression form of the language model,
  • the history information includes a word recognized by the already performed speech recognition
  • the correction means extracts a word included in the word class including a word corresponding to the keyword information
  • a nineteenth aspect of the present invention relates to a case where the correcting means corrects the frequency of occurrence of the predetermined combination of the word classes in the expression form of the language model,
  • the history information includes a word recognized by the already performed speech recognition
  • the correction means extracts a word class including a word corresponding to the keyword information
  • the frequency of occurrence of a predetermined combination of the word classes in the expression form of the language model is increased, and with respect to the word class not extracted, in the expression form of the language model, A second device according to any one of the 14th to 17th inventions, wherein the frequency of occurrence of the word class after the predetermined word class sequence is reduced.
  • the correcting means corrects the frequency of occurrence of the predetermined combination of the word classes in the expression form of the language model
  • the history information includes a word class including a word recognized by the already performed speech recognition,
  • the correction means extracts a word class corresponding to the keyword information, and increases a frequency of occurrence of a predetermined combination of word classes in the expression form of the language model with respect to the extracted word class.
  • the second device according to any one of the 14th to 17th inventions, which reduces a frequency of occurrence of a predetermined combination of word classes in the expression of the language model with respect to the word classes that have not been extracted. It is.
  • the twenty-first aspect of the present invention includes a transmission unit that transmits, when a predetermined operation is performed on the displayed additional information, an instruction corresponding to the predetermined operation to a predetermined destination.
  • a second device according to any one of the tenth to seventeenth aspects of the present invention. .
  • the twenty-second aspect of the present invention provides the program additional information product sales information and / or service sales information.
  • the instruction corresponding to the predetermined operation is the second device according to the twenty-first aspect of the present invention, which is information requesting or purchasing information of the product and Z or the service.
  • a twenty-third aspect of the present invention is the second device according to the fifteenth aspect of the present invention, wherein the language model stored in advance is obtained using a network in advance.
  • a twenty-fourth aspect of the present invention is the tenth aspect of the second apparatus of the present invention, which is additional information associated with an object appearing in broadcast content broadcast from a broadcast station, and Receiving means for receiving the broadcast broadcasted from the first device having broadcast means for broadcasting the additional information including the keyword information for specifying simultaneously with the broadcast content;
  • a recognition vocabulary set generating means for generating a vocabulary set in association with the additional information
  • Voice recognition means for recognizing voice uttered by the viewer
  • the word recognized by the speech recognition result is included in the recognized vocabulary set Specifying the keyword information corresponding to the recognized vocabulary set,
  • a program for causing a computer to function as display means for displaying the additional information associated with the specified keyword information is the second device of the fifteenth aspect of the present invention, which is additional information associated with an object appearing in broadcast content broadcast from a broadcasting station, and Receiving means for receiving the broadcast broadcast from a first device having a broadcast means for broadcasting the additional information and language model including keyword information for specifying at the same time as the broadcast content;
  • Voice recognition means for recognizing voice uttered by the viewer using the corrected language model
  • a twenty-sixth aspect of the present invention is the second device of the fifteenth aspect of the present invention, which is additional information associated with an object appearing in broadcast content broadcast from a broadcasting station, and A receiver for receiving the broadcast broadcasted from a first device having broadcasting means for simultaneously broadcasting the additional information including the keyword information for specifying and the language model for specifying the language model; Steps and
  • a language model specifying means for specifying the language model stored in advance, and a plurality of words based on the similarity between words.
  • the frequency of occurrence of the predetermined combination of the word classes and the expression of Z or the specified language model in the expression form of the specified language model Correcting means for correcting the appearance frequency of a predetermined word based on the predetermined word class in a format based on history information of a voice recognition result of voice recognition already performed;
  • Voice recognition means for recognizing voice uttered by the viewer using the corrected language model
  • a program for causing a computer to function as display means for displaying additional information associated with the specified keyword information is a recording medium carrying the program of the twenty-fourth aspect of the present invention, which is a recording medium that can be processed by a computer.
  • a twenty-eighth aspect of the present invention is a recording medium carrying the program of the twenty-fifth aspect of the present invention, which is a recording medium that can be processed by a computer.
  • a twentieth aspect of the present invention is a recording medium that carries the program of the twenty-sixth aspect of the present invention, and is a recording medium that can be processed by a computer.
  • FIG. 1 is a block diagram showing a schematic configuration of a shopping support system according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a TV / STB according to the first embodiment of the present invention. Lock diagram
  • FIG. 3 is a block diagram showing a detailed configuration of the recognition vocabulary generation unit according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart showing an outline of the operation of the shopping support system according to the first embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of a synonym dictionary according to the first embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating details of the operation of the shopping support system according to the first embodiment of the present invention.
  • FIG. 7 is a diagram illustrating an example of a recognized vocabulary set according to the first embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating details of the operation of the shopping support system according to the first embodiment of the present invention.
  • FIG. 9 is a block diagram showing the configuration of TV / STB according to Embodiment 2 of the present invention.
  • FIG. 10 is a block diagram showing a detailed configuration of a recognition vocabulary generation unit 360 in Embodiment 2 of the present invention.
  • FIG. 11 is a diagram illustrating an example of a synonym dictionary according to the second embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating details of the operation of the shopping support system according to the second embodiment of the present invention.
  • FIG. 13 is a diagram illustrating an example of a recognized vocabulary set according to the second embodiment of the present invention.
  • FIG. 14 is a diagram showing an example of a recognized vocabulary set in which frequency is standardized according to the second embodiment of the present invention.
  • FIG. 15 is a flowchart showing details of the operation of the shopping support system according to the second embodiment of the present invention.
  • FIG. 16 is a block diagram showing the configuration of TVZSTB in Embodiment 3 of the present invention.
  • FIG. 17 is a flowchart showing an outline of the operation of the shopping support system according to the third embodiment of the present invention.
  • FIG. 18 is a flowchart showing details of the operation of the shopping support system according to the third embodiment of the present invention.
  • FIG. 19 is a diagram illustrating an example of Ngram grammar information according to Embodiment 3 of the present invention.
  • FIG. 20 is a diagram for explaining the operation of the vocabulary weight correcting unit according to the third embodiment of the present invention.
  • FIG. 21 is a block diagram showing a configuration of TVZS TB according to Embodiment 4 of the present invention.
  • FIG. 22 is a flowchart showing an outline of the operation of the shopping support system according to the fourth embodiment of the present invention.
  • FIG. 23 is a flowchart showing details of the operation of the shopping support system according to the fourth embodiment of the present invention.
  • FIG. 24 is a diagram showing an example of P (C i. I C M) of Formula 4 in Embodiment 4 of the present invention.
  • FIG. 25 is a diagram for explaining the operation of the class weight correction unit according to the fourth embodiment of the present invention.
  • FIG. 26 is a block diagram showing a configuration of a program additional information automatic creation device according to the related art 1 of the present invention.
  • FIG. 27 is a flowchart showing the operation of the program additional information automatic creation device according to the related art 1 of the present invention.
  • FIG. 28 is a diagram showing a relationship between a camera, a fixed position transmitter, and an additional information code transmitter in Related Art 1 of the present invention.
  • FIG. 29 is a block diagram showing a configuration of a TV / STB according to the fifth embodiment of the present invention.
  • FIG. 30 is a flowchart showing the operation of the shopping support system using bidirectional broadcasting according to the fifth embodiment of the present invention.
  • FIG. 31 is a block diagram showing a configuration of a TV / STB according to the sixth embodiment of the present invention.
  • FIG. 32 is a flowchart showing the operation of the shopping support system using interactive broadcasting according to the sixth embodiment of the present invention.
  • FIG. 33 is a diagram showing an example of a list of product information according to the sixth embodiment of the present invention.
  • FIG. 34 is a block diagram showing a configuration of a TVZS TB according to the seventh embodiment of the present invention.
  • FIG. 35 is a flowchart showing the operation of the shopping support system using the interactive broadcast 'according to the seventh embodiment of the present invention.
  • FIG. 36 is a flowchart showing an operation different from that of FIG. 35 of the shopping support system using interactive broadcasting according to the seventh embodiment of the present invention.
  • FIG. 37 is a diagram showing the invention according to the present application. Block diagram showing the conceptual configuration of a shopping support system using interactive broadcasting in the applicant's application
  • Fig. 38 is a flowchart showing the operation of the shopping support system by interactive broadcasting in the inventor's application according to the present application.
  • Fig. 39 is a block diagram showing the detailed configuration of the shopping support system by interactive broadcasting in the 'inventor's application according to the present application.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system using interactive broadcasting according to Embodiment 1 of the present invention.
  • a functional block diagram showing the details of the shopping support system (hereinafter referred to as the shopping support system) using i-way broadcasting in Fig. 2 is shown.
  • the shopping support system includes a broadcasting station 10, a seller 20, and a home 30.
  • the home 30 includes a TV / STB 310, a remote controller There are 3 20 installed.
  • the broadcasting station 10 is a broadcasting station that broadcasts a program together with program additional information. Five
  • Distributors 20 are distributors that handle items that appear in programs as products.
  • Home 30 is the home that receives the broadcast.
  • the TV / STB 310 is a two-way broadcast receiver as a television or an STB (Set Top Box), which is a two-way broadcast receiver.
  • the remote controller 320 is a means for operating the TV / STB 310 and includes a microphone 3221.
  • the TV / STB 310 includes a recognized vocabulary storage unit 351, a voice recognition unit 352, and the like.
  • the TV / STB 310 is composed of a radio transmitting / receiving unit 3 13, a recognized vocabulary generation unit 354, a recognized vocabulary storage unit 3 51, a speech recognition unit 3 52 2, and a time expression dictionary. It consists of 3 16, storage time control section 3 15, additional information storage section 3 17, display section 3 18, and transmission section 3 19.
  • the broadcast receiving section 3 13 is a means for receiving broadcast radio waves.
  • the recognition vocabulary generation unit 354 is means for generating a recognition vocabulary set, which is a target vocabulary for speech recognition, from the program additional information received by the broadcast receiving unit 3 13.
  • the recognition vocabulary storage unit 351 is a means for storing the generated recognition vocabulary set.
  • the time expression dictionary 3 16 is a dictionary that holds expressions relating to time, such as “soon ago” and “now,” as recognition vocabulary.
  • the speech recognition unit 352 is a means for performing speech recognition using the recognition vocabulary storage unit 351 and the time expression dictionary 316 as a recognition vocabulary dictionary.
  • the memory time controller 3 15 learns the relationship between each time expression vocabulary and the actual time width or the number of scenes from the relationship between the recognized time expression vocabulary and the viewer's information selection input, and performs speech recognition. This is a means for controlling the section 3 52 and the recognized vocabulary storage section 3 51.
  • the additional information storage unit 317 is means for storing additional information corresponding to an object in a program specified by voice recognition.
  • the display unit 318 is a means for displaying additional information.
  • the transmitting unit 319 is means for transmitting the input result of the viewer such as selection of additional information to the broadcasting station.
  • Fig. 3 shows the detailed configuration of the recognition vocabulary generator 354.
  • the generating unit 354 includes a recognized vocabulary extracting unit 355, a recognized vocabulary extending unit 357, a synonym dictionary 356, and a recognized vocabulary adapting unit 358.
  • the recognition vocabulary extraction unit 355 is means for extracting a word corresponding to the keyword information included in the program additional information as a keyword.
  • the recognition vocabulary extension section 357 is a means for generating a recognition vocabulary set by expanding the extracted keywords.
  • the synonym dictionary 356 is a dictionary in which a plurality of words are classified into respective word classes based on the similarity between words. In the first embodiment, it is assumed that one word is always included in only one specific word class, and one word is not included in a plurality of word classes. The case where one word is included in a plurality of word classes will be described in detail in a second embodiment.
  • the recognition vocabulary adaptation unit 358 is means for correcting the frequency of occurrence of each word described in the synonym dictionary 356 according to the speech recognition result.
  • FIG. 4 is a flowchart showing an outline of the operation of the shopping support system according to the present embodiment.
  • 6 and 8 are flowcharts showing details of the operation of the shopping support system according to the present embodiment. Hereinafter, description will be made based on FIGS. 4, 6, and 8.
  • the broadcast receiver 3 13 receives this broadcast. Then, the recognition vocabulary generation unit 354 extracts the keyword information included in the program additional information (Step 351). Further, the recognition vocabulary generation unit 354 extracts a synonym of the keyword corresponding to the keyword information (step 352). Further, the recognition vocabulary generation unit 354 stores the extracted synonyms in the recognition vocabulary storage unit 351 as a recognition vocabulary set (step 353). Next, when the viewer speaks, the speech is recognized, the result is fed back to the synonym dictionary 390, and the weight is added to the recognized word in the synonym dictionary (step 354).
  • steps 3 51, 3 52, and 3 53 will be described in detail, then the operation of voice recognition will be described, and then the operation of step 3 54 will be described in detail. .
  • steps 351, 352, and 3553 will be described in more detail with reference to FIGS.
  • Figure 5 shows the synonym dictionary 390.
  • the synonym dictionary 39 0 is a dictionary that describes the word 39 1, the reading 3 9 2 of the word, the word class 3 9 3 containing the word, and the frequency 3 9 4 of the word. is there.
  • a word class is a class in which a plurality of words are classified based on the similarity between words.
  • the appearance frequency 3994 in the word class obtained from the sufficiently large Japanese corpus is described.
  • the jacket reading 3992 is a jacket
  • the word class 3993 containing the jacket is clothing
  • the word class of the jacket is clothing.
  • the appearance frequency 394 of the appearance of the jacket among the included words is 0.20.
  • the reading of the jacket 392 is ⁇ ⁇
  • the word class 393 containing 3 ⁇ is clothing and the word class of the jacket
  • the appearance frequency 394 of the words included in the clothing in which the outerwear appears is 0.10.
  • step 365 it is assumed that additional information of the jacket has been sent as additional information.
  • the additional information in addition to the keyword information indicating the jacket, includes the price, color, and size of the jacket. Includes any descriptions and descriptions of jacket vendors.
  • the additional information includes information about a product to which the additional information is associated in addition to the keyword information. The details of the additional information will be described later.
  • the recognized vocabulary extraction unit S355 extracts keyword information included in the additional information. That is, when the additional information of the jacket is sent, the information corresponding to the jacket is extracted as the keyword information.
  • the recognition vocabulary extension unit 357 uses the synonym dictionary 356 to generate a recognition vocabulary set including words belonging to the same word class 393 as the keyword corresponding to the extracted keyword information. You. ⁇
  • the recognition vocabulary extraction unit 355 extracts a jacket, which is a keyword corresponding to the keyword information, from the additional information.
  • the recognition vocabulary extension unit 357 extracts the word whose word class is clothing because the word class 393 including the jacket that is the keyword is clothing.
  • the words whose word class 393 is clothing are jackets, jackets, and clothes.
  • the recognition vocabulary extension unit 357 sets the jacket, the jacket, and the clothes as words constituting the recognition vocabulary set.
  • the appearance frequency 394 corresponding to each word is described in the recognized vocabulary set.
  • Figure 7 shows the recognition vocabulary set 395 created in this way. The readings of the jacket, the moon, and the jacket are described as jacket, fuku, and ⁇ ⁇ gi, respectively. Then, it can be seen that the frequency 397 in the word class is described as 0.2, 0.3, 0.1, etc. corresponding to the reading 3996.
  • step 357 the recognition vocabulary extension unit 357 generates The recognized vocabulary set is stored in the recognized vocabulary storage unit 351 in association with the additional information.
  • the recognition vocabulary storage unit 351 is a semiconductor memory or a hard disk device. Therefore, the generated recognition vocabulary set is stored in the semiconductor memory or the hard disk device in a format that can be associated with the additional information.
  • Fig. 2 first, the viewer pays attention to things appearing in the program while watching the program, and utters a word to convey that he / she is paying attention to a specific thing. Then, the microphone 3 2 1 inputs the utterance and outputs it to the voice recognition unit 3 52.
  • the speech recognition section 352 performs speech recognition on the utterance signal input from the microphone 3221. Then, based on the result of the voice recognition, the voice recognition unit 352 determines an object or the like to which the viewer pays attention, specifies the corresponding program additional information, and stores it in the additional information storage unit 317.
  • the voice uttered by the viewer is input from the microphone-mouth phone 3 2 1, and the voice recognition unit 3 52 recognizes the input voice by referring to the time expression dictionary 3 16 and the recognized vocabulary storage unit 3 51,
  • the relevant additional information is extracted from the broadcasted program additional information.
  • the recognized vocabulary set 395 shown in FIG. 7 includes the word outerwear. Specifies the recognition vocabulary set 3 95.
  • a word having a higher frequency 397 in the word class of the recognized vocabulary set 395 is spoken. Identify as a word recognized in the recognition result.
  • the frequencies 397 in the word class of the plurality of words are directly compared with each other, and the speech recognition unit 352 may specify the word having the higher frequency 397 in the word class.
  • the voice recognition results When the garage is recognized as a voice recognition sign, the word class clothing that includes the jacket and the building that is the word class that includes the garage have the same weight, that is, are treated equally. Then, the frequency 397 in the word class of the jacket is directly compared with the frequency 397 of the word class in the garage, and the one with the higher frequency 397 in the word class is identified as the word recognized as speech.
  • each word class including the plurality of words is used.
  • the frequency of occurrence of each word class has been described as being equal, but the frequency of occurrence of each word class is determined in advance from the sufficiently large Japanese corpus, and the frequency of occurrence of each word class is determined in advance. Considering the above, the words in the speech recognition result can be specified more accurately.
  • the weight of each word class is broadcast by data broadcasting from the broadcasting station 10, the weight of each word class is received by the broadcast receiving unit 3 13, and the weight of each word class received by the voice recognition unit 3 52 is received. Weight can also be considered.
  • TV / STB 310 and network For example, when a product is purchased from the Internet website through a PC connected by a network, the purchase history information is acquired, the weight of each word class is generated from the acquired purchase information, and the speech recognition unit is used. It is also possible to use it for speech recognition in 352.
  • the speech recognition unit 352 identifies the recognition vocabulary set 395 in FIG. 7, the speech recognition unit 352 stores the recognition vocabulary set 395 in the additional information storage unit 317.
  • the additional information of the jacket which is the additional information corresponding to 5, is stored.
  • the keyword corresponding to the keyword information included in the additional information broadcast from broadcast station 10 is a jacket
  • a recognized vocabulary set is generated to perform speech recognition.
  • additional information corresponding to the jacket can be specified.
  • the additional information of the jacket can be specified. Therefore, it becomes possible to easily specify an object appearing in a broadcasted program or a commercial so that it is suitable for expression when the viewer speaks, without any hassle.
  • the memory time control unit 3 15 is a predetermined time range or number of scenes, or the maximum time width or the number of scenes corresponding to the time expression learned from the viewer's previous utterance and subsequent input. The control is performed so that the generated recognition vocabulary set is retained. The learning of the storage time control unit 315 will be described later. For example, in the case of the voice utterance “I just like the red outerwear.” According to the control of the storage time controller 315, the voice recognizer 352 uses the time expression vocabulary indicating the past “Saki”. Extract and refer to the time expression dictionary 3 1 6 to find the time range or The above identification is performed on the program additional information broadcast during the number of scenes. After the drama is over, the display unit 318 displays additional information corresponding to an object or the like appearing in the dramas specified by voice recognition.
  • the additional information includes information such as the size, weight, material, color, size, price, manufacturer, seller, and seller contact information as described above. After confirming and examining, when purchasing, select additional information by input means such as remote controller 320, pointing device, or voice recognition and input purchase information.
  • the transmitting section 319 transmits the purchase information to the broadcasting station together with the identification number of the corresponding additional information.
  • the storage time control unit 3 15 uses the relationship between the recognized time expression vocabulary and the information selection input of the viewer to determine the relationship between each time expression vocabulary and the actual number of scenes with a time width.
  • the storage time control unit 315 holds information for associating the actual time width or the number of scenes for each recognition vocabulary, which is an expression relating to time, stored in the time expression dictionary 316.
  • the storage time control unit 3 15 associates the recognition vocabulary “Saki” with the time range from 20 seconds ago to 5 minutes ago based on the current time. The time width from the current time to 30 seconds before the current time is associated with the current time.
  • the storage time control unit 3 15 5 minutes from 20 seconds before the current time
  • the speech recognition unit 312 controls the broadcast additional information received during the time interval up to the previous time from 20 seconds before to 5 minutes before the current time.
  • the additional program information received during the specified time interval is specified, and the specified additional program information is stored in the additional information storage unit 317. That is, the memory time system
  • the control unit 315 controls so that the recognition vocabulary set generated during this time width is maintained.
  • the storage time control unit 3 15 receives the recognized vocabulary representing the time expression “Saki”, it corresponds to the time range from 20 seconds before to 5 minutes before the current time as described above.
  • the program additional information displayed on the display unit '318 by the viewer may be different from the intended time width of the viewer.
  • the viewer speaks to the microphone 3 2 1 saying, "Redo”, "I want you to display the information before that" and "I want you to display more information later”.
  • the voice recognition unit 352 performs voice recognition of the utterance from the viewer, and notifies the storage time control unit 315 of the voice recognition result.
  • the voice recognition unit 352 recognizes the utterance "I want you to display the information earlier”, it extracts "earlier", "information” and "display” as recognized vocabulary and stores Notify the control unit 3 15.
  • the memory time control unit 3 15 When the memory time control unit 3 15 receives the recognition vocabulary of “before”, “information”, and “display” from the speech recognition unit 3 12, it is associated with the recognition vocabulary representing the time expression of “previous” Correct the time width information. In other words, it is modified so that the recognition vocabulary "Saki” is associated with the time width from 40 seconds ago to 5 minutes 40 seconds ago based on the current time. Then, the storage time control unit 3 15 re-programs the voice recognition unit 3 52 with the program additional information received from 40 seconds ago to 5 minutes 40 seconds ago based on the current time. The voice recognition unit 352 is controlled so as to specify the additional information.
  • the voice recognition unit 352 specifies the program additional information again under the control of the storage time control unit 315, stores the specified program additional information in the additional information storage unit 317, and displays the display information. 18 displays the program additional information stored in the additional information storage unit 3 17. Then, the viewer may include the desired information in the displayed program additional information. If so, the program additional information is selected and purchase information is input.
  • the storage time control unit 315 can reflect the viewer's intention and associate the time width with the recognized vocabulary representing the time expression. This means that the storage time control unit 315 learns.
  • step 354 of FIG. 4 will be described in detail with reference to the flowchart of FIG.
  • the recognition vocabulary adaptation unit 358 in FIG. 3 feeds back the word recognition result to the synonym dictionary 390 and adds weight to the recognized words in the synonym dictionary 390. I do.
  • Step 352 it is assumed that the speech recognition unit 352 has recognized the word A in Step 358 (Step 358). It is assumed that the word A is recognized as the word A, specifically, as described above.
  • the synonym dictionary adaptation section 358 searches the synonym dictionary 390 for words whose reading is A (step 359). That is, the synonym dictionary adaptation unit 358 extracts a word whose pronunciation is ⁇ ⁇ from the synonym dictionary 390. Therefore, the word jacket is extracted.
  • the synonym dictionary adaptation unit 358 adds (1 / total number of assumed occurrence words) to the word A, ie, the frequency 397 in the word class of the jacket.
  • the synonym dictionary adaptation unit 358 determines the frequency of words other than the word A among words included in the word class including the word A (the frequency of occurrence of the word X (1 / Subtract the total number of assumed words))).
  • the word class that includes outerwear is clothing, and clothing includes the words jacket and clothes as words other than outerwear. Therefore, the appearance frequency 394 of the words “jacket” and “clothes” is reduced.
  • the recognition vocabulary adaptation unit 358 performs the processing of steps 359, 360, and 361 of FIG.
  • the recognition vocabulary extension unit 3 57 When new additional information is broadcasted from the broadcast station 10, when the recognition vocabulary extension unit 3 57 generates the recognition vocabulary set 3 95, the appearance frequency 3 94 of the synonym dictionary 390 is used as described above. The captured appearance frequency 394 is used. Therefore, words that are often uttered by the viewer can be more easily recognized by the voice recognition unit 352.
  • the viewer is interested in, for example, taking a note of the program itself, taking notes, etc. on the objects and music that appeared in the program. Only by making natural utterances without interruption, it becomes possible to acquire and purchase information continuously while watching the program.
  • the recognized vocabulary set can be specified not only by the keyword corresponding to the keyword information included in the additional information but also by uttering words having a similarity to the keyword. Obedience Thus, additional information can be specified.
  • the purchase information is transmitted from the transmitting unit 319 to the broadcasting station together with the identification number of the corresponding additional information, but may be transmitted to the distributor included in the additional information. good.
  • the voice recognition unit 312 specifies the additional information corresponding to the recognition result. However, only the time stamp in the program is determined, and the additional information storage unit 3 17 The additional vocabulary set corresponding to the additional information before that, the time stamp, and the additional information before that may be stored. That is, the voice recognition unit 312 determines only the time at which the viewer uttered the voice, and the additional information storage unit 317 stores the additional information corresponding to the time and the predetermined time until the time. The broadcasted additional information and the set of recognized vocabulary words corresponding to the additional information can also be stored. After viewing, the viewer presents the stored additional information, recognizes the voice uttered by the viewer, and presents detailed additional information and transmits purchase information. The case where the additional information is specified after viewing the program as described above will be described in detail in Embodiments 5 to 7 described later.
  • the additional information storage unit 3 17 stores only the selected additional information. However, it is assumed that all the additional information of the program is stored and only the additional information selected by the voice recognition unit is displayed. Is also good.
  • the additional information is stored and displayed after the end of the program.
  • the additional information and the corresponding scene which has been received and transmitted again to the program or the broadcast station which has been recorded may be displayed.
  • the additional information is stored and displayed after the end of the program.
  • only the identification code of the additional information may be stored, and the additional information may be transmitted to a broadcast station and received and displayed again.
  • broadcast station 10 of the present embodiment is an example of the first device of the present invention.
  • the TV / STB 310 of the embodiment is an example of the second device of the present invention, and the broadcast receiving section 3 14 of the present embodiment is an example of the receiving means of the present invention.
  • the form recognition vocabulary generation unit 354 is an example of a recognition vocabulary set generation unit of the present invention
  • the speech recognition unit 352 of the present embodiment is an example of a speech recognition unit of the present invention.
  • the voice recognition unit 352 is an example of the specifying means of the present invention.
  • the display unit 318 of the present embodiment is an example of the display means of the present invention.
  • the recognition vocabulary adapting unit 358 of the present embodiment is It is an example of the appearance frequency correction means of the present invention.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system using interactive broadcasting according to the second embodiment of the present invention.
  • the recognized vocabulary storage unit 35 1 is changed to a recognized vocabulary storage unit 36 1
  • the speech recognition unit 3 is changed. This corresponds to a case where 52 is changed to a speech recognition unit 36 2. Therefore, the description of FIG. 1 is omitted because it is the same as that of the first embodiment.
  • Figure 9 shows a functional block diagram showing the details of a shopping support system using interactive broadcasting (hereinafter referred to as a shopping support system).
  • the TV / STB 310 has a broadcast receiver 3 13, a recognized vocabulary generator 360, a recognized vocabulary storage 3 61, a voice recognizer 3 62, and a time table current dictionary 3. 16, storage time control unit 3 15, additional information storage unit 3 17, display unit 3 18, transmission unit 3 19, recognition history storage unit 3 63
  • the recognition vocabulary generation unit 360 ⁇ is a means for generating a recognition vocabulary set, which is a target vocabulary for speech recognition, from the program additional information received by the broadcast receiving unit 313.
  • the recognition vocabulary generation unit 360 Embodiment 2 is different from Embodiment 1 in that a recognized vocabulary set is generated when the set is included in a plurality of word classes.
  • the recognized vocabulary storage unit 361 is a means for storing a recognized vocabulary set generated when one word is included in a plurality of word classes.
  • the speech recognition unit 362 is means for performing speech recognition using the recognition vocabulary storage unit 361 and the time expression dictionary 316 as a recognition vocabulary dictionary.
  • the recognition history storage unit 365 stores the words already recognized by the speech recognition unit 362 and the word class including the words, and is configured by, for example, a semiconductor memory or a hard disk device.
  • the recognition vocabulary generation unit 360 includes a recognition vocabulary extraction unit 364, a recognition vocabulary extension unit 366, and synonyms. It consists of a dictionary 365 and a recognition vocabulary adaptation unit 365.
  • the recognition vocabulary extraction unit 365 is means for extracting a word corresponding to the keyword information included in the program additional information as a keyword.
  • the recognition vocabulary extension unit 366 is a means for generating a recognition vocabulary set by expanding the extracted keywords.
  • the synonym dictionary 365 is a dictionary in which a plurality of words are classified into respective word classes based on the similarity between words. Thus, the synonym dictionary 365 of Embodiment 2 can handle the case where one word is included in a plurality of word classes.
  • the recognition vocabulary adaptation unit 365 is a means for correcting the frequency of occurrence of each word described in the synonym dictionary 365 according to the speech recognition result.
  • FIG. 12 is a flowchart showing an operation performed by the shopping support system of the present embodiment until a recognized vocabulary set is generated and stored in the recognized vocabulary storage unit 361 in association with additional information.
  • FIG. 15 is a flowchart showing an operation when the voice uttered by the viewer is recognized.
  • a recognition vocabulary set is generated based on Fig. 12 and recognized in association with additional information. The operation up to storing the recognized vocabulary set in the vocabulary storage unit 36 1 will be described. Then, the operation in the case of recognizing the voice uttered by the viewer will be described.
  • FIG. 12 as in Embodiment 1, from broadcast station 10, additional information associated with an object appearing in the broadcast content and including keyword information for identifying the object is included. Additional information will be broadcast along with the content of the broadcast. The broadcast receiver 3 13 receives this broadcast.
  • FIG. 11 shows a synonym dictionary 400 used in the second embodiment.
  • the synonym dictionary 4,000 can handle the case where one word is included in a plurality of word classes.
  • the synonym dictionary 400 is composed of the word 401, the reading 46 1 of the word, the word class 1 (40 2) containing the word, the word class 2 (40 3), the word class ⁇ (404)
  • This is a dictionary in which the frequency of occurrence of the word 405 is described.
  • a word class is a class in which multiple words are classified based on the similarity between words.
  • one word 401 is included in ⁇ word classes.
  • the appearance frequency 405 obtained from a sufficiently large Japanese corpus is described. Unlike the first embodiment, the appearance frequency 405 describes the appearance frequency in a sufficiently large Japanese corpus.
  • the reading of the jacket 46 1 is a jacket
  • the word class 1 (402) containing the jacket is clothing
  • the word class 2 (403) Is an epidemic.
  • the appearance frequency 405 at which the jacket appears is 0.020.
  • step 370 it is assumed that the jacket additional information has been sent as additional information.
  • the additional information is the same as that described in the first embodiment.
  • the recognized vocabulary extraction unit 365 extracts keyword information included in the additional information. That is, when the additional information of the jacket is sent, information corresponding to the jacket is extracted as the keyword information.
  • the recognition vocabulary extension unit 3666 uses the synonym dictionary 365 to make the same word class 1 (402), word class 2 (400), and the same as the keyword corresponding to the extracted keyword information.
  • ⁇ ⁇ ⁇ Generates a recognized vocabulary set composed of words belonging to word class n (404).
  • the recognition vocabulary extraction unit 365 extracts a jacket, which is a keyword, corresponding to the keyword information from the additional information.
  • the recognition vocabulary extension unit 366 determines that the word class 1 (402) including the jacket, which is the keyword, is clothing and the word class 2 (400) is flowing. Words such as clothing and fashion are extracted. In the case of the synonym dictionary 400 of FIG. 11, it can be seen that the word whose word class is clothing is a jacket or the like. Then, the recognition vocabulary extension unit 366 sets a jacket or the like as a word constituting the recognition vocabulary set.
  • FIG. 13 shows an example of the recognition vocabulary set 406 created in this way.
  • the recognition vocabulary set 400 consists of jackets, clothes, outerwear, bags and the like.
  • the appearance frequency of the synonym dictionary 400 is also described as the frequency 409 in the word 406 of the recognized vocabulary set.
  • the recognition vocabulary extension unit 366 obtains the frequency 409 of each word in the recognition vocabulary set. That is, the frequency 409 is normalized by the recognition vocabulary set 406 so that the sum of the degrees of alcohol 409 of each word in the recognition vocabulary set becomes 1.
  • Figure 14 shows the recognized vocabulary set with the frequency 409 standardized in this way. Indicates 4 10.
  • the recognition vocabulary adaptation unit 373 extracts words included in the word class including the keyword corresponding to the keyword information of the additional information from the recognition history storage unit 363. That is, the recognition history storage unit 36 3 is composed of a semiconductor memory or a hard disk, and the recognition history storage unit 36 3 stores the words recognized by the already performed speech recognition and the words to which the words belong. The class is stored, and among these words, the words included in the word class including the keyword "jacket" are extracted.
  • the word classes included in the jacket include a plurality of word classes such as clothing and fashion, as shown in the synonym dictionary 401 of FIG.
  • the recognition vocabulary adaptation unit 373 determines the frequency in the set of words that match the word extracted in step ⁇ 73 out of the words in the recognition vocabulary set 410. For, add (number of occurrences in recognition history / number of assumed words). On the other hand, among the words in the recognized vocabulary set 411, the frequency 412 in the set of words not extracted in step 373 is (frequency in the set X total number of words in the recognized vocabulary set in the recognition history. Number of occurrences) / (Estimated word occurrences) is subtracted.
  • the recognition vocabulary adaptation unit 373 associates the recognition vocabulary set 411 from which the set frequency 412 was captured in step 374 with the additional information, and It is stored in the storage unit 3 6 1.
  • the recognized vocabulary set 410 is stored in the recognized vocabulary storage unit 361 in association with the additional information.
  • the operation of the speech recognition unit 362 using the recognition vocabulary set to specify the additional information is the same as in the first embodiment, and a description thereof will be omitted.
  • the operation for voice recognition will be described.
  • the operation described below is a process for reflecting the speech recognition result when the already generated recognition vocabulary set is used repeatedly even after speech recognition.
  • the speech recognition unit 362 has recognized the word A in step 380. Specifically, it is assumed that the word A is recognized as word A.
  • step 381 the recognition vocabulary adaptation unit 367 extracts a word class including the word A with reference to the synonym dictionary 400.
  • the recognition vocabulary adaptation unit 3667 stores the word A and the word class including the word A in the recognition history storage unit 365. However, if the number of words stored in the recognition history storage unit 36 exceeds the upper limit of the number of words stored, the oldest words are deleted in order.
  • the recognition vocabulary adaptation unit 367 searches for a word whose pronunciation is A in the synonym dictionary 400.
  • the word that reads the word Pagi is searched to extract the word outerwear.
  • Step 3 8 0 to Step 3 8 5 Returns Ri Repetitive processes from Step 3 8 0 to Step 3 8 5 for each speech recognition.
  • the viewers are interested in the work, such as watching the program itself, taking notes, etc., for objects and music that appeared in the program. It is possible to acquire and purchase information continuously with the viewing of a program simply by making natural utterances without interruption.
  • the recognition vocabulary set can be specified not only by the keyword corresponding to the keyword information included in the additional information but also by uttering words having a similarity to the keyword. And additional information can be specified accordingly.
  • the broadcasting station 10 of the present embodiment is an example of the first device of the present invention
  • the TV / STB 310 of the present embodiment is an example of the second device of the present invention.
  • the broadcast receiving unit 3 13 of the embodiment is an example of the receiving unit of the present invention
  • the recognized vocabulary generating unit 360 of the embodiment is an example of the recognized vocabulary set generating unit of the present invention.
  • the voice recognition unit 36 2 of the embodiment is an example of the voice recognition unit of the present invention
  • the voice recognition unit 36 2 of the embodiment is an example of the specifying unit of the present invention.
  • Reference numeral 18 denotes an example of the display means of the present invention
  • the recognized vocabulary adapting unit 365 of the present embodiment is an example of the appearance frequency correcting means of the present invention.
  • FIG. 1 shows a functional block diagram showing the details of a shopping support system using interactive broadcasting (hereinafter referred to as a shopping support system).
  • TV / STB 310 has a broadcast receiver 3 13, a recognized vocabulary generator 3 71, a synonym dictionary 3 74, a vocabulary weight corrector 3 75, and a grammar storage 37.
  • Speech recognition unit 3 7 Recognition history storage unit 3 6 3
  • Additional information storage unit 3 17 Display unit 3 18, Transmission unit 3 19, Remote controller 3 20, Microphone 3 21 1
  • Storage time It is composed of a control unit 3 15.
  • the recognition vocabulary generator 371 is composed of domain-specific rules 372 and a grammar selector 373. In other words, it is assumed that the recognition vocabulary generation unit 371 has the function of a semiconductor memory or a hard disk, and stores the rule 372 for each domain in the semiconductor memory or the hard disk.
  • the grammar storage unit 376 has the function of a semiconductor memory or a hard disk, and stores therein Ngram grammar information described later.
  • the recognition vocabulary generator 371 stores Ngram grammar information for each domain such as drama, outdoor, autumn, etc. in advance in its own semiconductor memory or hard disk, as shown in the rule by domain 372. This is a means for selecting the Ngram grammar information of the domain corresponding to the scene code sent from the broadcast receiver 3 13.
  • the grammar selector 3 7 3 This is a means for selecting the Ngram grammar information of the domain corresponding to the scene code output from the communication unit 3 13.
  • the grammar storage unit 376 has a function of a semiconductor memory or a hard disk, and is a means for storing the Ngram grammar information selected by the grammar selection unit 373 in one of these semiconductor memories or the hard disk.
  • the vocabulary weight correction unit 3 7 5 uses the synonym dictionary 3 7 4 in which a plurality of words are classified into each word class based on the similarity between words, and A means for correcting the frequency of occurrence of a predetermined word based on a predetermined word class based on history information of voice recognition results of voice recognition already performed stored in the recognition history storage unit 365. is there.
  • the speech recognizing unit 377 uses the Ngram grammar information stored in the grammar storage unit 376 to determine the voice uttered by the viewer by continuous speech recognition.
  • the broadcast station 10 broadcasts the broadcast content to be broadcast, and additional information that is associated with the object appearing in the broadcast content and includes keyword information for identifying the object.
  • a scene code for specifying Ngram grammar information is also broadcast.
  • the broadcast receiver 3 13 receives this broadcast.
  • the grammar selection unit 3733 extracts the key word information included in the scene code and the additional information from the data output from the broadcast reception unit 313.
  • the scene code is information for identifying the Ngrara grammar information stored in the recognition vocabulary generation unit 371, for each domain.
  • step 391 the grammar selector 3 7 13 Select the Ngram grammar information of the domain corresponding to the scene code output from 3.
  • the vocabulary weight correction unit 375 determines the frequency of occurrence of a predetermined word based on a predetermined word class in the expression form of the Ngram grammatical information. Is corrected using the recognition history information and the synonym dictionary 374 stored in.
  • the recognition vocabulary weight correction unit 3775 stores the corrected Ngram grammar information in the grammar storage unit 3756.
  • the Ngram grammar information stored in the grammar storage unit 3776 in this way is used by the speech recognition unit 377 for speech recognition.
  • the recognition vocabulary weight correction unit 375 corrects the Ngram grammar information using the recognition history information and the synonym dictionary 374, so it appears in broadcasted programs and commercials. Speech recognition can be performed so as to be suitable for the expression when the viewer utters the object. Therefore, additional information associated with a broadcasted program or an object appearing in a commercial can be specified so as to be suitable for expression when the viewer speaks. Hereinafter, this will be described in detail.
  • the broadcast content broadcasted from the broadcast station 10 is broadcast, and additional information associated with the object appearing in the broadcast content is provided. Additional information including keyword information for specifying and a scene code for specifying Ngram grammar information will also be broadcast.
  • step 400 the broadcast receiving unit 313 receives this broadcast.
  • step 401 the grammar selector 3 7 3 determines whether the broadcast receiver 3 1 3 Keyword information included in the scene code and the additional information is extracted from the data output from the terminal.
  • the scene code is information for specifying the N gram grammar information that the recognition vocabulary generation unit 371 stores for each domain.
  • a scene code is a code for identifying a domain such as drama, outdoor, and autumn.
  • Recognition vocabulary generator 3? In 1, N gram grammar information S is stored for each domain as shown in rule 3 7 • 2 for each domain. Therefore, by specifying the scene code, it is possible to specify the N gram grammar information of the domain corresponding to the specified scene code.
  • the additional information may include a description of the jacket price, color, size, etc., and a description of the jacket distributor. Same as mode 1.
  • the grammar storage unit 376 stores the selected Ngram grammar information.
  • Equation 1 the general expression of the Ngram grammar information is as shown in the following Equation 1.
  • the word Wi appears behind the word sequence Wi-iWi- 2 ⁇ ⁇ ⁇ Wi- n + i in a sufficiently large Japanese language corpus N (WiWi-l- ⁇ -Wi-n + l) is a sufficiently large Japanese
  • the word string WiWi-1 in the corpus represents the frequency of appearance of 'Wi-n + l.
  • Equation 1 is approximated as Equation 2 below.
  • P (Ci I Ci-l- ⁇ Ci-n + l) is the word class Ci-i ⁇ ⁇ Ci -n + i followed by the word class Ci in a sufficiently large Japanese co-pass. Represents the probability that appears.
  • P (Wi I Ci) represents the probability that the word Wi appears among the words included in the word class Ci in a sufficiently large Japanese co-path.
  • Equation 2 becomes like Equation 4, (Equation 4)
  • the word class Ci-l can be read as a word class sequence Ci-l ⁇ ⁇ 'Ci-n + l.
  • Equation 4 P (Wi I WM) represents the probability that the word Wi appears after the word Wi-i, and P (Ci I CM) represents the word class Ci in a sufficiently large Japanese corpus. — Represents the probability that a word in the word class Ci will appear after a word in 1; P (Wi I Ci) is the word of the words in the word class Ci in the aforementioned Japanese corpus. , The probability that the word Wi appears.
  • the word classes Ci and Ci-i are defined in the synonym dictionary 374. It is assumed that the synonym dictionary 374 is similar to, for example, the synonym dictionary 390 of FIG. 5 described in the first embodiment.
  • Equation 4 shows that the probability that the word Wi appears after the word Wi-i is the probability that the word included in the word class Ci appears after the word included in the word class Ci-i and the probability that the word class Ci It shows that the word Wi is represented by the product of the probability that the word Wi appears.
  • FIG. 19 shows Ngram grammar information 454 which is an example of the Ngram grammar information stored in the grammar storage unit 376 in this way.
  • Ngram grammar information 454 for example, the probability that the word ⁇ ⁇ gi appears after the word “ano” is due to the fact that the word included in the word class “clothing” is added after the word included in the word class “indicative”. It is expressed as the product of the probability of appearance and the probability of the word Kegegi appearing in the word class [clothing].
  • the vocabulary weight correction unit 375 stores the recognition frequency in the expression form of the Ngram grammatical information based on the predetermined word class with respect to the recognition history. Correction is performed using the recognition history information and the synonym dictionary 374 stored in Part 3 63. That is, P (Wi IC in Equation 4 is stored in the recognition history It is corrected using the recognition history information and the synonym dictionary 374.
  • FIG. 20 is a diagram for explaining the operation of step 402 and step 403. Hereinafter, the operations of Step 402 and Step 403 will be specifically described with reference to FIG.
  • the keyword corresponding to the keyword information included in the additional information is a jacket.
  • the synonym dictionary 3 7 4 defines that a jacket is included in the word class [clothing].
  • the synonym dictionary 374 defines a jacket, a fuku, a peony, and a sash as words included in the word class [clothing] as shown in C i 424.
  • the vocabulary weight correction unit 3775 sets the [clothing] when the keyword corresponding to the keyword information included in the additional information is a jacket. Extract the jacket, fuku, ⁇ ⁇ gi, and shirt that belong to the word class.
  • step 4003 words such as pumps, cuticles, televisions, and jackets are stored as recognition history information 421 in the recognition history storage unit 363.
  • the recognition history information 4 21 stored in the recognition history storage unit 3 63 indicates the history of words that have been recognized as a result of speech recognition that has already been performed.
  • Equation 4 P (Wi IC i) in Equation 4 is as shown in the initial state 4 2 1 I do. That is, among words included in the word class [clothing], the probability that a jacket appears is 0.4, and among words included in the word class [clothing], the probability that a hook appears is 0.3. class
  • the vocabulary weight correction unit 375 determines the recognition history information 4 of the words that belong to the word class [clothing], which is a word class including the word jacket, such as jacket, fuku, ⁇ ⁇ gi, and shirt. 2 Add P (WiC in the recognition history information 4 2 1) / (expected word occurrences) to P in the number 4 of each word included in 1.
  • the assumed word appearance number is This has the same meaning as that described in Embodiment 1.
  • the recognition history information 421 includes the jacket and the fuku among the jacket, fuku, peg, and shirt, and the jacket is performed twice. In this case, if the assumed number of occurrences of the word is 100, in this case, 2/100 is assigned to P (jacket I [clothing]). Add 1 Z 100 to P (Fuku I [clothing]).
  • the vocabulary weight correction unit 375 includes, in the recognition history information 421, words of the words “jacket”, “fuku”, ⁇ ⁇ gi, and “shatsu” that belong to the word class “clothing” that includes the word jacket. From P (W i IC) in the number 4 of each not-recognized word ((P (Wi I [clothing]) before correction) / (word belonging to word class [clothing] and not included in recognition history information 4 2 1 P of each word (Wi I
  • Recognition history information 421 does not include ⁇ ⁇ gi and shirt among jackets, fuku, ⁇ ⁇ gi, and shirts. In such a case, if the assumed number of occurrences of the word is assumed to be 100, from P ( ⁇ ⁇ GI I [clothing]) to (0.2 / (P ( ⁇ Gi I [Clothing] + P (Shirt I [Clothing])) ⁇ (3Z1 o 0) is subtracted. Also, subtract (0.1 / (P ( ⁇ ⁇ gi i [clothing]) + P (shirt I [clothing])) X (3/1 00) from P (shirt I [clothing]).
  • the vocabulary weight correction unit 375 also recognizes the words belonging to the word class [clothing], which includes the word jacket, such as the jacket, the fuku, the pegi, and the shut, as well as the recognition history information 42 1 If it is not included in, use P (Wi IC) in Equation 4 for the word class [clothing] without correction.
  • the vocabulary weight correction unit 375 sets the grammar storage unit 376 by associating the Ngram grammar information shown in P (Equation 4 obtained by capturing Wi IC) with the additional information. To memorize.
  • the voice recognition unit 377 performs voice recognition of the voice uttered by the viewer using the Ngram grammar information stored in the grammar storage unit 376.
  • the speech recognition unit 377 uses the corrected Ngram grammar information stored in the grammar storage unit 376 to perform continuous speech recognition. . As a result, the sentence "that jacket is good” is recognized.
  • the Ngram grammar information is used to divide a sequence of readings that have been recognized in speech recognition into words. '
  • the speech recognition unit 377 uses the N-gram grammar information to recognize the words “that”, “jacket”, and “good”. Then, the speech recognition unit 377 then specifies the jacket additional information because the jacket, which is a keyword corresponding to the keyword information included in the additional information, matches the jacket, which is a word whose speech has been recognized. And identified The additional information of the jacket is stored in the additional information storage unit 3 17. The subsequent operations relating to the processing of the additional information are the same as those in the first embodiment, and thus description thereof will be omitted.
  • the speech recognition unit 365 recognizes a word as described above, the recognized word is stored in the recognition history storage unit 365.
  • the vocabulary weight correction unit 375 stores the new word every time a new word is stored in the recognition history information storage unit 363. The operations of Steps 402 and 4403 are repeated using the word as recognition history information 4 21. In this way, the vocabulary weight correction unit 375 corrects P (WiIC) in Equation 4 even during speech recognition.
  • the recognition weight correction unit 375 performs the processing shown in FIG. 18 on the recognition history information 4 21 until the scene code is transmitted. Steps 402 and 403 are performed.
  • the recognition weight correction unit 375 After performing speech recognition using Ngram grammar information in Embodiment 3, when specifying additional information using a keyword corresponding to the keyword information included in the additional information, use Embodiment 1 or Embodiment 2 Additional information can also be specified using the recognition vocabulary set described in. By doing so, the effects of the first and second embodiments can be obtained in addition to the effects of the present embodiment.
  • the Ngram grammar information shown as the domain-specific rules 372 stored in the recognition vocabulary generation unit 371 of the present embodiment was downloaded in advance using a network such as the Internet. Anything may be used.
  • N-gram grammar information identification key information which is information for specifying N-gram grammar information
  • N-gram grammar information stored in domain-specific rule 37 2 is also N
  • the grammar grammar information identification keyword information is added, and the grammar selection unit identifies the Ngram grammar information in accordance with the degree of matching of the Ngram grammar information identification keywords, and parses the identified Ngram grammar information. You can choose.
  • N-gram grammatical information is described using N-gram grammatical information.
  • languages other than Ngram include, for example, a hidden Markov model (hiddenMarkovmow ⁇ de1) and a stochastic context-free grammar (probabbilibsticccontext—rreegramram).
  • hiddenMarkov model hidden Markovmow ⁇ de1
  • stochastic context-free grammar probabbilibsticccontext—rreegramram
  • the recognized word is output. From the “state”, the output probability that the word recognized by speech recognition is output is increased.
  • "non-terminal" for example, representing the class to which the recognized word belongs
  • expands to the recognized word Force increases the probability of generating the recognized word as a "terminal" It may be.
  • the recognition weight correcting unit 375 captures P (Wi IC) in Equation 4, continuous speech suitable for the expression uttered by the viewer is more easily recognized. This makes it possible to specify additional information associated with an object appearing in a commercial or a commercial so as to be suitable for expression when the viewer speaks.
  • the broadcasting station 10 of the present embodiment is an example of the first device of the present invention
  • the TV / STB 310 of the present embodiment is an example of the second device of the present invention.
  • the broadcast receiving section 3 13 of the embodiment is an example of the receiving means of the present invention
  • the recognized vocabulary generating section 3 71 of the present embodiment is an example of the language model specifying means of the present invention.
  • the vocabulary weight correction unit 3 75 5 is an example of the correction unit of the present invention.
  • the speech recognition unit 3 77 7 of the present embodiment is an example of the speech recognition unit of the present invention.
  • Reference numeral 377 denotes an example of the specifying means of the present invention
  • the display section 318 of the present embodiment is an example of the display means of the present invention
  • the scene code of the present embodiment is an example of the ID of the present invention. It is.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system using interactive broadcasting according to the fourth embodiment of the present invention.
  • the recognized vocabulary storage unit 35 1 is changed to a grammar storage unit 376, and a speech recognition unit 35 This is equivalent to the case where 2 is replaced with a voice recognition unit 377. Therefore, the description of FIG. 1 is omitted because it is the same as in the first embodiment.
  • Figure 21 shows a functional block diagram showing the details of the shopping support system using interactive broadcasting (hereinafter referred to as the shopping support system).
  • the TV / STB 310 has a broadcast receiver 3 13, grammar storage 3 76, voice recognition 3 7 7, product data storage 3 17, display 3 18, It is composed of a transmission section 319, a classifying section 382, a recognition history storage section 363, a synonym dictionary 374, and a class weight correcting section 381.
  • the broadcast receiving unit 3 13, additional information storage unit 3 17, display unit 3 18, transmitting unit 3 19, remote controller 320, and microphone 3 21 are the same as in the first embodiment, Detailed description is omitted.
  • the grammar storage unit 376, the speech recognition unit 3777, and the recognition history storage unit 363 are the same as those in the third embodiment, and a detailed description will be omitted.
  • the class weight correction unit 38 1 uses a plurality of units based on the similarity between words. This is a means of using the synonym dictionary 3 7 4 in which words are classified into each word class, to detect the frequency of occurrence of a given word class after a given word class in the Ngram grammar information expression format. .
  • the speech recognition unit 3777 uses the synonym dictionary 3774 to identify a class including the word from the word recognized as a result of the speech recognition, and determines a class including the recognized word and a class including the word. Is stored in the recognition history storage unit 365.
  • the broadcast station 10 broadcasts the broadcast content to be broadcast, and additional information that is associated with the object appearing in the broadcast content and includes keyword information for identifying the object. Also, Ngram grammar information will be broadcast.
  • the broadcast receiver 3 13 receives this broadcast.
  • step 410 the broadcast receiving unit 313 stores the broadcast Ngram grammar information in the grammar storage unit 3776.
  • the class weight correction unit 38 1 determines the frequency of occurrence of a given word class after a given word class in the Ngram grammar information expression form by using a recognition history storage unit 36. Correction is performed using the recognition history information stored in 3.
  • step 4 12 the class weight correcting unit 38 1 stores the captured Ngram grammar information in the grammar storage unit 376.
  • the Ngram grammar information stored in the grammar storage unit 376 in this way is used for speech recognition in the speech recognition unit 377 as in the third embodiment.
  • the class weight correction unit 381 using the recognition history information, corrects the Ngram grammar information. This makes it possible to perform speech recognition on objects appearing in the call to suit the interests of the viewer. Therefore, additional information associated with a broadcasted program or an object appearing in a commercial can be specified so as to be suitable for the interest of the viewer when speaking. This is explained in detail below.
  • the broadcast content broadcasted from the broadcast station 10 is broadcasted, and additional information associated with the object appearing in the broadcast content is provided. Additional information including keyword information for identification and Ngram grammar information will also be broadcast.
  • step 420 the broadcast receiving unit 313 receives the broadcast and stores the Ngram grammar information in the grammar storage unit 3776.
  • Ngram grammar information has been described in the third embodiment, and a description thereof will be omitted.
  • P (CiICM) in Equation 4 is corrected using the recognition history information of the recognition history storage unit 365.
  • FIG. 24 shows an example of P (C i I C i-i) in Equation 4. For example, in FIG. 24, it can be seen that the probability that the class of clothing appears after the word class of referential word is 0 ⁇ 30.
  • step 4 21 when the broadcast receiving unit 3 13 receives the additional information, it stores it in the additional information storage unit 3 17.
  • the received additional information is the additional information of the jacket as in the third embodiment.
  • the class weight correction unit 3 811 determines the frequency of occurrence of a given word class after a given word class in the Ngram grammar information expression format. Is corrected using the recognition history information stored in the recognition history storage unit 365. That is, P (C i IC ii) is corrected using the recognition history information stored in the recognition history storage unit 365.
  • FIG. 25 shows a diagram for explaining the operation of step 422 and step 423.
  • the operations of step 422 and step 423 will be specifically described with reference to FIG.
  • the keyword corresponding to the keyword information included in the additional information is a jacket.
  • the recognition history storage unit 365 stores the recognition history information of FIG.
  • recognition history information as shown in 451 is stored.
  • the recognition history information 451 is composed of a word whose speech has been recognized and a word class including the word. That is, the classifying unit 382 detects a word class including the word recognized as a result of the voice recognition performed by the voice recognition unit 377 using the synonym dictionary 374. Then, the classifying unit 382 stores the recognized word and the word class including the word in the recognition history storage unit 363 in advance. As described above, the recognition history information 451 is generated by the classifying unit 382.
  • the class weight correction unit 3811 identifies, using the synonym dictionary 3734, a word class [clothing] that includes a jacket that is a keyword corresponding to the keyword information of the additional information.
  • the words belonging to the word class [clothing] are extracted from the recognition history information 451. As shown in the recognition history information 451, two jackets and two puffers are extracted as words belonging to the word class [clothing].
  • n word classes are defined in the synonym dictionary 374 as shown in a set of classes 450.
  • the broadcast receiving unit 3 1 3 receives the Ngram grammar information, and the grammar storage unit It is assumed that P (Ci I Ci-i) in Equation 4 when stored in 3 76 is in the initial state 4 52.
  • P (Ci I Ci-i) in Equation 4 when stored in 3 76 is in the initial state 4 52.
  • the probability that a word included in the word class [clothing] appears after a word included in the word class [indicative] is 0.7, and a word class included after the word included in the word class [indicative].
  • the probability that [furniture] appears is 0.3.
  • the class weight correction unit 381 adds the word class to the probability that a word included in the word class [clothing] appears after a word included in the certain word class (P ([clothing] ICI)). Add the value obtained by dividing the number of occurrences of words included in [clothing] in the recognition history information 45 1 by the total number of assumed occurrences. That is, when Ci is a word class including a keyword corresponding to the keyword information of the additional information, the probability that a word included in Ci appears after a word included in a certain word class is determined by the probability that the word included in word class Ci is Add the value obtained by dividing the number of appearances in recognition history information 4 5 1 by the total number of assumed words. '
  • the class weight correction unit 3811 calculates P (Cj ICM) from ((P (Cj ICM before correction)) x ( ⁇ P (Cj I Ci-i) of word class Cj without knowledge history))) x ((total number of words belonging to word class [clothing] in recognition history information 4 5 1) / (expected occurrence) The total number of words)) is subtracted.
  • Equation 4 From P ([furniture] I [indicative]) in the initial state 4 52, it can be seen that (0.3 / 0.3) X (4/100) has been subtracted. In this way, P (Cj I C.) In Equation 4 is corrected, as shown by 453 after the adaptation of FIG.
  • step 424 the class weight correction unit 3811 corrects P (Ci I Ci »1) in equation 4 and associates the Ngram grammar information shown in equation 4 with the additional information to store grammar. Store in part 3 7 6.
  • the speech recognition unit 3777 recognizes the speech uttered by the viewer using the Ngram grammar information stored in the grammar storage unit 3776. .
  • the speech recognition unit 3777 uses the corrected Ngram grammar information stored in the grammar storage unit 3776 to perform continuous speech recognition. I do. As a result, the sentence "that jacket is good” is recognized.
  • the Ngram grammar information is used to divide a sequence of readings that have been recognized in speech recognition into words. '
  • the speech recognition unit 377 7 S uses the Ngram grammar information to recognize the words “Ano”, “Jacket”, and “Nice”. Then, the speech recognition unit 3777 next specifies the jacket additional information because the jacket, which is the keyword corresponding to the keyword information included in the additional information, matches the jacket, which is the word that was speech-recognized. . Then, the additional information of the identified jacket is stored in the additional information storage unit 317. The subsequent operations relating to the processing of the additional information are the same as those in the first embodiment, and thus description thereof will be omitted. '
  • the class weight correction unit 3 8 1 calculates P (Ci I Ci Since 1) is corrected, continuous speech suitable for the viewer's hobby becomes easier to recognize. Accordingly, additional information associated with a broadcasted program or an object appearing in a commercial can be specified so as to be suitable for the viewer's hobby.
  • N-gram grammar information has been described as being sent from the broadcast station 10. However, as in Embodiment 3, N-gram grammar information should be selected using a scene code or the like. Can also be. Conversely, instead of selecting the Ngram grammar information from the scene code in the third embodiment, the Ngram grammar information may be sent from the broadcasting station as described in the fourth embodiment.
  • language models other than Ngram include, for example, a hidden Markov model (hiddenMarkovmodel), a stochastic context-free grammar (probabililisticccontext—freegrammar).
  • hiddenMarkovmodel hidden Markov model
  • stochastic context-free grammar probabililisticccontext—freegrammar
  • a language model other than Ngram for example, in a hidden Markov model, if the “state” that outputs a recognized word based on the recognition result is S 1, for each state S i having an arc that transitions to S 1, S Increase the transition probability from i to S1.
  • a stochastic context-free grammar if the "non-terminal symbol” that expands the recognized word (terminal symbol) is C1, the probability of a generation rule that expands a symbol string including C1 may be increased. .
  • the broadcast station 10 of the present embodiment is an example of the first device of the present invention
  • the TV / STB 310 of the present embodiment is an example of the second device of the present invention.
  • the broadcast receiving section 3 13 of the embodiment is an example of the receiving means of the present invention
  • the class weight correcting section 3 81 of the present embodiment is an example of the correcting means of the present invention.
  • the voice recognition unit 377 is an example of the voice recognition unit of the present invention.
  • the voice recognition unit 377 of the present embodiment is an example of the specifying unit of the present invention.
  • the display unit 3 18 of the present embodiment is It is an example of the display means of the present invention.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system according to the fifth embodiment of the present invention.
  • the recognition vocabulary storage unit 35 1 is changed to a time / language model information storage unit 2005, and a speech recognition unit 3 52 Is equivalent to a speech recognition unit 377. Therefore, the description of FIG. 1 is omitted because it is the same as in the first embodiment.
  • Figure 29 shows a functional block diagram showing details of the shopping support system.
  • the TV / STB 310 has a broadcast receiving unit 3 13, a control unit 200 1, a sound output unit 200 3, an image display unit 2004, a time selection input means 2002, time and language model information. It comprises a storage unit 2005, an information selection unit 2006, a speech recognition unit 377, a microphone 321, and a transmission unit 319.
  • the broadcast receiving unit 3 13, the transmitting unit 3 19, the remote controller 3 20, and the microphone phone 3 21 are the same as those in the first embodiment, and a detailed description thereof will be omitted.
  • the control unit 2001 controls the sound output unit 2003, the image display unit 2004, the information selection unit 2006, and the like.
  • the sound signal output unit 2003 outputs a sound signal output from the control unit 2001 as sound from a speaker included in the sound signal output unit 2003. It is a step.
  • the image display unit 204 is means for displaying the video signal output from the control unit 2000 on a display of the image display unit 204.
  • the time selection input means 2002 includes a button switch, and when a user of the shopping support system is interested in watching the program, a time position at that time is designated.
  • the time / language model information storage unit 2000 stores the time position designated by the time selection input means 2000 and the language model information corresponding to the time position.
  • ⁇ Speech recognition unit 377 7 is a means for recognizing speech uttered by the user of the shopping support system using Ngram grammar information.
  • the information selection unit 2006 adds the additional information according to the degree of matching between the word recognized by the voice recognition unit 3777 by voice recognition and the keyword corresponding to the keyword information included in the additional information. It is a means to select.
  • the information selection unit 2006 includes a recognition vocabulary generation unit 371, a synonym dictionary 374, a vocabulary weight correction unit 3753, and a recognition history storage unit 3663 according to the third embodiment. It has various functions such as an additional information storage unit 317.
  • the transmitting section 319 is means for transmitting the purchase information included in the selected additional information to the broadcasting station together with the identification number of the corresponding additional information.
  • TV / STB 310 of the present embodiment has a built-in hard disk for recording a program being viewed.
  • FIG. 30 is a flowchart showing the operation of TV / STB 310 of the present embodiment. Hereinafter, the operation will be described based on FIG.
  • Broadcasting station 10 broadcasts program content 20007, which is the content of the broadcast, as well as an attachment associated with the object appearing in the broadcast content.
  • Program additional information (product information) 200 which is additional information that includes key word information for identifying the target object
  • program additional information (N-gram grammar) 209 which is N-gram grammar information 09 will be broadcast.
  • the broadcast receiver 3 13 receives this broadcast. That is, unlike the third embodiment, in this embodiment, the program additional information (Ngram grammar) 209 is also broadcast from the broadcast station.
  • the control unit 20001 converts the program content 2 0 7 received by the broadcast receiving unit 3 13 into the program content 2 0 1 0 to the audio signal output unit 2 0 3 and the image display unit 2 0 4.
  • the audio signal output unit 2003 controls the audio signal output unit 2003 to output the audio signal of the program content 21010 from the speaker, and the image display unit 204 outputs the video signal of the program content 21010. Control to display on the display.
  • the control unit 2001 transmits broadcast information such as program content 2000, program additional information (product information) 2008, and program additional information (Ngram grammar) 200. Control is performed so that recording is temporarily made on the built-in hard disk.
  • the user operates the time selection input means 202 to paste a time-based tag.
  • the time selection input means 200 0 2 is used for inputting a sticky note input by pressing the button switch by the user, and inputting a command for attaching a sticky note 10 seconds before the time when the command is input.
  • the time and the time 10 seconds after the time at which the instruction to attach the tag is input are output to the control unit 201 as the time position (step 501).
  • the control unit 20001 determines the time position and the program additional information (N-gram grammar) 2 209 included in the time position. In association with this, the time information is stored in the time / language model information storage unit 205 as an N-gram grammar 20011 corresponding to the time (step 502).
  • the control unit 2001 sets the time position stored in the time / language model information storage unit 205.
  • the Ngram grammar 2 Oil corresponding to the time is read out.
  • the audio signal and the video signal of the program content included in the read time position are extracted from the internal hard disk, and the audio signal output unit 203 and the audio signal output unit 203 are respectively extracted.
  • the image is output to the image display unit 204 (step 503).
  • the scene included in the time position stored in the time / language model information storage unit 205 is a scene in which a character of a drama wearing clothes is reflected
  • the scene showing the character of the drama wearing the clothes for the specified time width, that is, 20 seconds, is presented to the user again.
  • control unit 20001 outputs the Ngram grammar information corresponding to the read time position to the information selection unit 2000.
  • the information selection unit 2006 outputs the Ngram grammar information to the speech recognition unit 3777.
  • control unit 20001 extracts the program additional information (product information) 2008 included in the read time position from the built-in disk and the disc, and outputs the information to the information selection unit 2000.
  • the user looks at the scene specified at the time position presented again and inputs a voice specifying the clothes worn by the characters to the microphone 3 21 (step 504). For example, the user says, “Oh, clothes are good.” 3 2 1 'Then, the speech recognition unit 377 uses the Ngram grammar information which is the program additional information (Ngram grammar) 200 read from the time / language model information storage unit 205, and Recognize the voice signal saying "Ah, clothes are good” (Step 505).
  • Ngram grammar program additional information
  • the voice recognition unit 3777 is read from the time / language model information storage unit 2005, and as in the third embodiment. Recognize continuous speech using optimized Ngram grammar information. Note that the method of optimizing the Ngram grammar information is the same as that of the third embodiment, and thus a detailed description is omitted. As a result, the sentence "that clothes is good” is recognized.
  • the Ngram grammar information is used to divide a sequence of readings that have been recognized during speech recognition into words.
  • the speech recognition unit 377 recognized the words “that”, “clothes”, and “good” by using the Ngram grammar information. Then, the voice recognition unit 377 7 outputs the word strings “a”, “clothes”, and “nice” to the information selection unit 2006.
  • the information selection unit 2006 determines that the clothing corresponding to the keyword corresponding to the keyword information included in the extracted additional information (product information) 201 13 matches the clothing recognized as the speech-recognized word.
  • the additional information of is specified.
  • the additional information of the specified clothes is output to the transmission section 319 as the selected information 201.
  • the transmitting section 319 transmits the purchase information included in the selected information 201 to the broadcasting station together with the identification number of the corresponding additional information (step 506).
  • time selection input means 200 includes a touch panel
  • the user may touch the sticky button on the touch panel when an object of interest appears on the display while watching the program.
  • time selection input In the case where the means 2000 includes a microphone, the user only has to say "paste a sticky note" when something interesting is displayed on the display while watching the program.
  • the Ngram grammar information read out from the time 'language model information storage unit 205 by the information selection unit 20006 is optimized by the same method as in the third embodiment.
  • the present invention is not limited to this, and may be optimized by the same method as in the fourth embodiment.
  • the time 'language model information storage unit 205 stores the time position and the N-gram grammar information, which is the program additional information (N-gram grammar) 209, as time information and time. It has been described that the data is stored as the N-gram grammar 2 0 1 1, but the present invention is not limited to this.
  • the time 'language model information storage unit 20005 stores only the time position, and does not have to store the Ngram grammar information. In this case, in step 503, the control unit 2001 stores the Ngram grammar information included in the read time position in the program additional information (Ngram grammar) stored in the internal hard disk. It suffices to extract from 209 and output it to the information selector 2006.
  • the time / language model information storage unit 205 stores the time position and the N-gram grammar information which is the program additional information (N-gram grammar) 200 9 into the time information and the time. N Gram. Grammar 2 0 1 1 This is described as being stored as, but is not limited to this.
  • the time 'language model information storage unit 20005 stores the time position and the program additional information (product information) included in the time position in addition to the Ngram grammar information which is the program information (N-gram grammar) 200. 2 008 may be stored.
  • the control unit 2001 stores the additional information (product information) 2008 contained in the read time position in the time and language model information storage unit 2005. , And output it to the information selection unit 2006.
  • the program additional information (N-gram grammar) 209 is transmitted from the broadcasting station 10, but instead of the program additional information (N-gram grammar) 209
  • the recognized vocabulary set described in the first and second embodiments may be broadcast from the broadcast station 10.
  • the control unit 2001, the speech recognition unit 3777, and the information selection unit 2006 handle the recognized vocabulary set instead of the Ngram grammar information, and the information selection unit 200
  • the operation of the speech recognition unit 36 and the speech recognition unit 377 7 is to specify the additional information (product information) 2 08 using the recognition vocabulary set as in the first and second embodiments. I do.
  • all of the program additional information (product information) 2008 is recorded on the built-in hard disk, and the program additional information included in the time position designated by the time selection input means 200 2 (Commodity information) Although it has been described that only 2008 is presented, the present invention is not limited to this. Only the program additional information (product information) 208 included in the time position designated by the time axis selection input means 200 2 may be stored and presented.
  • the operation of specifying the additional information (product information) after the end of the program or after the interruption of the program rather than during the viewing of the program is performed.
  • the additional information (product information) can be specified without interrupting the information.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system according to the sixth embodiment of the present invention.
  • the recognition vocabulary storage unit 35 1 is changed to a product information / language model information storage unit 201, and speech recognition is performed. This is equivalent to a part obtained by replacing the part 352 with the voice recognition part 377. Therefore, the description of FIG. 1 overlaps with the first embodiment. Omitted.
  • Figure 31 shows a functional block diagram showing the details of the shopping support system (hereinafter referred to as the shopping support system).
  • TV / STB 310 has a broadcast receiving unit 3 13, a control unit 200 1, a sound output unit 200 3, an image display unit 2004, a time selection input unit 200 2, product information and a language model. It comprises an information storage section 2015, an information selection section 2016, a voice recognition section 377, a microphone 321, and a transmission section 319.
  • the broadcast receiving unit 3 13, the transmitting unit 3 19, the remote controller 3 20, and the microphone phone 3 21 are the same as those in the first embodiment, and a detailed description thereof will be omitted.
  • the control unit 2001 controls the sound output unit 2003, the image display unit 2004, the information selection unit 2006, and the like.
  • the sound signal output unit 2003 is a means for outputting the sound signal output from the control unit 2001 as sound from a speaker included in the sound signal output unit 2003.
  • the image display unit 2004 is means for displaying the video signal output from the control unit 2001 on a display of the image display unit 2004.
  • the time selection input means 2002 includes a button switch, and is a means for designating a time position at that time when a user of the shopping support system is interested while watching the program.
  • Language model information storage unit 20 15 stores language model information (Ngram grammar information) and product information as additional information corresponding to the time position designated by time selection input means 20 2. is there.
  • the speech recognition unit 377 is means for recognizing a speech uttered by a user of the shopping support system using the Ngram grammar information.
  • the information selection unit 20 16 is activated by the speech recognition unit 3 77 7 This is means for selecting additional information according to the degree of matching between the recognized word and a keyword corresponding to the keyword information included in the additional information.
  • the information selection unit 2006 includes a recognition vocabulary generation unit 371, a synonym dictionary 374, a vocabulary weight correction unit 3753, and a recognition history storage unit 3663 according to the third embodiment. It has various functions such as an additional information storage unit 317.
  • the transmitting section 319 is means for transmitting the purchase information included in the selected additional information to the broadcasting station together with the identification number of the corresponding additional information.
  • the TVZSTB 310 of the present embodiment may have a built-in hard disk for recording a program or the like being watched as in the fifth embodiment, or may have no built-in hard disk. .
  • FIG. 31 is a flowchart showing the operation of TVZS TB 310 of the present embodiment. The operation will be described below with reference to FIG.
  • Broadcasting station 10 broadcasts program content 20007, which is the content of the broadcast, and identifies the object by using additional information associated with the object appearing in the broadcast content.
  • Program additional information (product information) 209 which is additional information including key word information for performing, and program additional information (N gram grammar) 209, which is N-gram grammar information, are broadcast.
  • the broadcast receiver 3 13 receives this broadcast. That is, unlike the third embodiment, in the present embodiment, the program additional information (Ngram grammar) 209 is also broadcast from the broadcast station.
  • the control unit 200 1 outputs the program content 200 7 received by the broadcast receiving unit 3 13 to the audio signal output unit 200 3 and the image display unit 204 as the program content 201.
  • the audio signal output unit 2003 controls the audio signal output unit 2003 to output the audio signal of the program content 21010 from the speaker. 4 controls so that the video signal of the program content 210 0 is displayed on the display. .
  • Step 511 is the same as the operation of Step 501 of the fifth embodiment.
  • the control unit 20001 receives the program information (product information) 2008 included in the time position,
  • the N-gram grammar information as product information corresponding to the selected time and N gra ⁇ grammar 2 0 17 as product information and language model information storage unit 20 Store in 15 (step 5 1 2).
  • the control unit 2001 executes the Ngram grammar stored in the product information / language model information storage unit 205.
  • the information and the merchandise information are read out, and the merchandise information is output as a list to the image display unit 204.
  • the image display unit 204 displays a list of product information on a display.
  • Figure 33 shows an example of product information displayed in this way. That is, the product information of the product in the range in which the time selection input means 2002 specifies the time position is displayed as shown in FIG. In this way, the user is presented with the product information specifying the time position.
  • control unit 20001 outputs the read Ngram grammar information and the product information to the information selection unit 2000.
  • the information selection unit 2000 outputs this Ngram grammar information to the speech recognition unit 3777.
  • the user inputs a voice specifying the clothes into the microphone 3 21 while looking at the list of product information shown in Fig. 33 (step 514). For example, the user speaks into the microphone 321, "Oh, clothes are good.”
  • the operations after step 5 14 are the same as the operations in the fifth embodiment, and therefore, the description is omitted.
  • the operation of specifying the additional information (product information) after the end of the program or after the interruption of the program rather than during the viewing of the program is performed.
  • the additional information (product information) can be specified without interrupting the information.
  • FIG. 1 is a block diagram showing a conceptual configuration of a shopping support system according to the seventh embodiment of the present invention.
  • the recognition vocabulary storage unit 35 1 is changed to a speech / product information / language model information storage unit 201. This corresponds to a unit obtained by changing the unit 3 52 to the voice recognition unit 3 7 7. Therefore, the description of FIG. Figure 34 shows a functional block diagram showing the details of the shopping support system (hereinafter referred to as the shopping support system).
  • the TV / STB 310 has a broadcast receiving section 3 13, a control section 20 18, a sound output section 2003, an image display section 2004, a voice, product information, and a language model information storage section. 20 19, information selection section 2020, voice recognition section 377, microphone 321, and transmission section 319.
  • the broadcast receiver 3 13, the transmitter 3 19, the remote controller 3 20, and the microphone 3 21 are the same as in the first embodiment, Detailed description is omitted.
  • the control unit 210 is a means for controlling the sound output unit 203, the image display unit 204, the information selection unit 206, and the like.
  • the sound signal output unit 2003 is a means for outputting the sound signal output from the control unit 20001 as a sound from a speaker included in the sound signal output unit 2000. '
  • the image display unit 204 is means for displaying the video signal output from the control unit 210 on a display of the image display unit 204.
  • Voice ⁇ Product information ⁇ Language model information storage unit 201 is included for 20 seconds including the point when the user of the shopping support system utters into the microphone 3 21 while watching the program. This is a means to store language model information (N-gram grammar information), product information, and voice uttered by the user as additional information.
  • the speech recognition unit 377 is means for recognizing a speech uttered by a user of the shopping support system using the Ngram grammar information.
  • the information selection unit 202 selects the additional information according to the degree of matching between the word recognized by the voice recognition unit 377 and the keyword corresponding to the keyword information included in the additional information. It is a means to do.
  • the information selection unit 202 is a recognition vocabulary generation unit 371, a synonym dictionary 374, a vocabulary weight correction unit 375, and a recognition history storage unit 366 of the third embodiment. It has various functions such as an additional information storage unit 317.
  • the transmitting section 319 is means for transmitting the purchase information included in the selected additional information to the broadcasting station together with the identification number of the corresponding additional information.
  • the TVSTB 310 of the present embodiment may have a built-in hard disk for recording the program or the like being watched as in the fifth embodiment, but may not have a built-in hard disk. .
  • the operation of the present embodiment will be described focusing on differences from the fifth embodiment and the sixth embodiment.
  • FIG. 35 is a flowchart showing the operation of TV / STB 310 of the present embodiment. The operation will be described below with reference to FIG.
  • Broadcasting station 10 broadcasts program content 20007, which is the content of the broadcast, and identifies the object by using additional information associated with the object appearing in the broadcast content.
  • Program additional information (product information) 209 which is additional information including key word information for performing, and program additional information (N gram grammar) 209, which is N-gram grammar information, are broadcast.
  • the broadcast receiver 3 13 receives this broadcast. That is, unlike the third embodiment, in the present embodiment, the program additional information (Ngram grammar) 209 is also broadcast from the broadcast station.
  • the control section 210 changes the program content 2 0 7 received by the broadcast receiving section 3 13 into the program content 2 0 1 0 to the audio signal output section 2 0 3 and the image display section 2 0 4.
  • the audio signal output unit 2003 controls the audio signal output unit 2003 to output the audio signal of the program content 21010 from the speaker, and the image display unit 204 outputs the video signal of the program content 21010. It is controlled so that it is displayed on the display.
  • control unit 21018 compares the input voice input in step 5 21, the product information included in 20 seconds including the time position when the input voice was input, and the Ngram
  • the grammar information is stored in the voice, product information, and language model information storages (step 5222).
  • the control unit 208 is configured to output the program additional information (product information) 208 included during the 20 seconds including the time when the input voice is input, and the program additional information (program additional information).
  • the product information corresponding to the selected time is the Ngram grammar information 2 0 9 ′ and the Ngram grammar 2 0 17 as speech, product information, and language model information storage unit 2 0 1 Store in 9.
  • the control unit 210 stores the input voice input in step 521 in the voice / product information / language model information storage unit 210 as the input voice 2202 when the time is selected.
  • control unit 523 does not interrupt the viewing of the program, and outputs the input speech 2022 when the time is selected, which is stored in the speech, product information, and language model information storage unit 201, without interruption.
  • the speech and recognition unit 377 is controlled to input speech. .
  • the speech recognition section 377 performs speech recognition (step 523).
  • the information selection unit 202 specifies the product information when the product information can be specified. This specific operation of the product information is performed in the same manner as in the third embodiment. If the operation of step 5 23 is performed, the viewing of the program is not interrupted.
  • step 528 if the information selection unit 202 can specify the product information, the process proceeds to step 528, and if the product information cannot be specified, Proceed to step 5 25 (step 5 2 4).
  • the case where the product information can be specified is, for example, a case where the input voice 202 when the time is selected indicates a specific product such as "that clothes is good”.
  • the case where the information cannot be specified is a case where the input voice 202 when the time is selected does not indicate a specific product, for example, "that, good”.
  • step 528 the control section 21018 sets the information selection section 202, the sound output section 200 so as to present the specified product information to the user after the program viewing ends or after the program viewing is stopped. 0 3, Controls the image display unit 204. According to this control, the specified product information is displayed on the display of the image display unit 204, and the process proceeds to step 530.
  • step 525 after the end of the program viewing or after the program viewing is interrupted, the control unit 210 selects the product included in the 20 seconds including the time when the input sound 2202 at the time of the time selection is input.
  • the information is read from the voice, product information, and language model information storage unit 201 and output to the image display unit 204 as a list of product information.
  • the rain image display section displays a list of product information.
  • Fig. 33 shows an example of product information displayed in this way. That is, the product information included in the 20 seconds including the time when the input voice 2202 at the time of selection is input is displayed as shown in FIG. In this way, the product information specifying the time position is presented to the user.
  • the user inputs a voice for specifying the product information to be specified toward the microphone 321, while looking at the list in FIG. 33 (step 526). For example, when it is desired to specify clothes, a voice specifying the clothes, such as "Oh, clothes are good,” is uttered into the microphone 3 21.
  • the speech recognition unit 377 uses the Ngram grammar information included in the 20 seconds including the time when the input speech at the time of selection 202 was input as speech 'product information and language model information storage. It reads out from the section 201 and performs speech recognition using the read-out Ngram grammar information (step 527). That is, when the user utters “that clothes are good”, the speech recognition unit 377 is read out from the time / language model information storage unit 205, and the same as in the third embodiment. Continuous speech recognition using Ngram grammar information optimized in this way. The method of optimizing the Ngram grammar information is the same as that of the third embodiment, and a detailed description will be omitted. As a result, the sentence "that clothes is good" is recognized.
  • the Ngram grammar information is used to divide a sequence of readings that have been recognized during speech recognition into words.
  • the speech recognition unit 377 recognized the words “that”, “clothes”, and “good” by using the Ng ram grammar information. Then, the voice recognition unit 377 outputs the word strings “a”, “clothes”, and “nice” to the information selection unit 202.
  • the information selection unit 2006 matches the clothing corresponding to the keyword information included in the speech / product information / language model information storage unit 210/19 with the speech-recognized word, the clothing is selected.
  • the additional information of is specified.
  • the information selecting section 202 outputs the specified additional information to the transmitting section 319 as the selected information 203.
  • the transmitting unit 319 transmits the purchase information included in the selected information 201 to the broadcast station together with the identification number of the corresponding additional information (step 530).
  • the voice is input after looking at the list shown in FIG. 33 in step 526.
  • the scene specified by the time position is input. May be input after seeing again.
  • the operation of presenting and specifying additional information (product information) after the end of the program or after the interruption of the program rather than during the viewing of the program is performed.
  • the additional information (product information) can be specified without interrupting the viewer's viewing of the program.
  • the present embodiment has been described as operating according to the flowchart shown in FIG. 35, the present invention is not limited to this, and may operate according to the flowchart shown in FIG. In the flowchart shown in FIG. 36, the insertion position of step 522 is different from that of the flowchart shown in FIG. That is, in FIG. 35, step 5 22 was performed before step 5 24, whereas in FIG. 36, step 5 2 was performed only when the product information could not be identified by voice recognition in step 5 24. Two have been done. Even if the product information corresponding to the time position where the voice input is made and the Ngram grammar are stored only when the product information cannot be specified by the voice recognition, the same effect as in the present embodiment can be obtained. .
  • FIG. 26 is a functional block diagram showing a part of the shopping support system according to the related art 1 of the present invention in which program additional information for shopping is automatically created at the same time as the program creation.
  • FIG. 27 is a flowchart showing the operation of the shopping support system according to the related art 1 of the present invention in which the program additional information is automatically created at the same time as the program creation.
  • FIG. 26 the program recording device 110 and the additional information code transmitter 100 are shown.
  • the additional information code transmitter 1 0 2 0 is a transmitter for transmitting the code number of the program additional information by radio waves or infrared rays.
  • the program recording device 101 is a microphone 1101, a camera 101, a receiving unit 101, an additional information collating database 100, an information collating unit 101, a program additional information database 10 15 and a program storage unit 10 16.
  • Receiving section 1 0 1 3 receives additional information code transmitter 1 0 20 signal Means.
  • the additional information collating database 1104 is a database in which a code number of the program additional information and collation information of the program additional information are recorded.
  • the information collating unit 1007 based on the contents of the additional information collating database 1004, corresponds to the additional information code received by the receiving unit 1013 in the image and audio signals input from the camera and microphone. It is a means to determine whether an object, creature, or person is recorded.
  • the program additional information database 101 is a database that stores additional information to be recorded in a program.
  • the program storage unit 116 is a means for synchronously recording images, audio signals, and program additional information.
  • an additional information code transmitter 102 is attached to an object, a living thing, or a person having the corresponding additional information (step 1031).
  • input the image and sound signals from the camera 101 and the microphone 101 and at the same time, receive the signal transmitted by the additional information code transmitter from the receiver 103 (step 1032). .
  • the information collating unit 101 determines whether there is a signal from the transmitter and whether the received signal contains an additional information code (step 103). If there is no transmitter signal or no additional information code is included in the received signal in step 103, the image and sound signals input from the camera 101 and microphone 101 Record only (step 1 0 4 0). TJP2003 / 017015
  • the collation information corresponding to the additional information code is extracted from the additional information collation database 1004 (step 11034).
  • the information collating unit 101 determines whether there is any matching information in the images and sound signals input from the camera 101 and the microphone 101 (Step 10). 3 5).
  • step 1035 If it is determined in step 1035 that there is no matching information in the input image and sound signal, the image and sound signal input from camera 1012 and microphone 1011 Only record (step 1004).
  • step 1035 If it is determined in step 1035 that the input image and sound signal correspond to the collation information, the corresponding program additional information is extracted from the program additional information database 1005, and the image and sound signals are extracted. Recording is performed in synchronization with the acoustic signal (step 11036).
  • Figure 28 shows a shooting site producing broadcast content such as programs and commercials.
  • Camera 1 0 1 2 is installed at the shooting site, and camera 1 0 1 2 can move the installation location.
  • the camera 101 can move freely from the position of the camera 101a to the position of the camera 101b.
  • fixed position transmitters 130a, 130b, and 130c are installed at different fixed positions at the shooting site. These fixed position transmitters 103a, 103b, and 103c form three-dimensional fixed coordinates. In FIG. 28, three fixed position transmitters 10030a, 13030b, and 13030c are described as being installed at fixed positions, but the present invention is not limited to this. The above fixed position transmitter may be installed at a fixed position.
  • Camera 1 0 1 2 can move and change posture, but position is fixed By receiving signals from each of the transmitters 103a, 103b, and 103c, it is possible to calculate the information on the position and orientation of the camera 102 on its own coordinates. I can do it.
  • the additional information code transmitter 1 0 2 0 is a fixed position transmitter 1 0 '3 0 a
  • the additional information code transmitter 102 transmits its own position on the coordinates.
  • the camera 101 has a position and orientation on the coordinates of the camera 102 itself, a position on the coordinates of the additional information code transmitter 102, and a focal length as internal information of the camera 101. It is determined whether or not the additional information code transmitter 1 0 0 0 is within the shooting range of the camera 1 0 1 2 from the angle of view and the viewing angle.
  • the camera 1 0 1 2 has the additional information code transmitter 1 0 2 0
  • camera 1 0 1 2 has additional information code transmitter 1 0
  • the additional information code sent from the additional information code transmitter 102 is sent to the information inquiry unit 11017. Is not output. By doing so, the information inquiry unit 11017, when the additional information code 102 is sent, transmits the program additional information corresponding to the additional information code 102 as video and audio. By synchronizing and recording, it is possible to automatically create a broadcast content that broadcasts the program additional information associated with the target only when the target is captured in the video.
  • the creator checks the entire scene after the program is created, and adds and records the program additional information to the program. No longer needed, program creation Work time and work cost can be reduced.
  • the additional information code transmitter 1 0 2 0 transmitted the code number of the additional information, but transmitted the additional information collation data, and the information collation unit 1 0 1 6 It is also possible to perform collation with the image and the audio signal based on the received data without using the data.
  • the information collating unit 11017 extracts the program ancillary information corresponding to the code number from the program ancillary information database and records it in synchronization with the image and the sound signal. Tag information for linking with additional information may be recorded.
  • the program of the present invention is a program for causing a computer to execute the functions of all or a part of the above-described second device of the present invention (or device, element, or the like) by a computer. It is a program that works and operates.
  • the recording medium of the present invention carries a program for causing a computer to execute all or a part of the functions of all or a part of the above-described second apparatus of the present invention (or an apparatus, an element, or the like). And a program readable by a computer, and wherein the read program executes the function in cooperation with the computer.
  • the “functions of the means (or device, element, etc.)” of the present invention means all or a part of the functions of the means, and the “steps (or processes, operations, actions, etc.)” of the present invention.
  • the operation of “)” means the operation of all or part of the above steps.
  • one use form of the program of the present invention may be a form in which the program is recorded on a computer-readable recording medium and operates in cooperation with the computer. .
  • One use form of the program of the present invention is a form in which the program is transmitted through a transmission medium, read by a computer, and operates in cooperation with the computer.
  • the data structure of the present invention includes a database, a data format, a data table, a data list, a data type, and the like.
  • the recording medium includes ROM and the like
  • the transmission medium includes a transmission medium such as the Internet, light, radio waves, and sound waves.
  • the computer of the present invention described above is not limited to pure hardware such as CPU, but may include firmware, OS, and peripheral devices.
  • the configuration of the present invention may be implemented as software or as a hardware.
  • the present invention provides a broadcast receiving method, a broadcast receiving system, and a broadcast receiving method that can obtain a broadcast program or an object appearing in a commercial more easily and without difficulty.
  • An apparatus, a second apparatus, a recording medium, and a program can be provided.
  • the present invention provides a broadcast receiving method and a broadcast receiving system, which can be easily and easily obtained without being troublesome so as to be suitable for expression when a viewer utters a broadcasted program or an object appearing in a commercial.
  • a first device, a second device, a recording medium, and a program are examples of the present invention.
  • the present invention also provides for the use of objects appearing in broadcasted programs and commercials. 17015

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Social Psychology (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来るようにすること。放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報を放送内容と同時に放送する放送を受信する放送受信手段313と、類義語辞書316を利用して、認識語彙セットを付加情報と対応させて生成する認識語彙生成部354と、視聴者が発声した音声を音声認識し、その音声認識結果により認識された単語が認識語彙セットに含まれる場合、その認識語彙セットに対応するキーワード情報を特定する音声認識部352と、その特定したキーワード情報に対応付けられた付加情報を表示する表示部318とを備える。

Description

明 細 書 放送受信方法、 放送受信システム、 記録媒体、 及びプログラム 技術分野
本発明は、 放送局から放送されてくる放送を受信する放送受信方法、 放送受信システム、 第 1装置、 第 2装置、 記録媒体、 及びプログラムに 関するものである。
背景技術
従来のテレビ放送で放送される番組やコマーシャルを視聴している際 に、 視聴者が番組やコマーシャルに登場した物や番組やコマーシャルで 演奏された音楽等の対象物を入手したいと思うことがある。
このような場合視聴者は、 まず、 P C (パーソナルコンピュータ) を ィンターネットに接続し、 ィンターネッ トでこれらの対象物に関する情 報を検索し、 目的とする対象物に関する情報を入手する。
そして、 入手した情報に基づきこれらの対象物を販売する販売店に連 絡するか来店して、 これらの対象物を購入する。 従来視聴者は、 番組や コマーシャルに登場した対象物をこのような手順で購入していた。
しかしながら、 視聴者が、 放送された番組やコマーシャルに登場する 対象物を入手するためには、 放送の受信とは全く関係なく P Cからイン ターネッ トに接続し、 インターネッ トを介して目的とする対象物に関す る情報をダウンロードしなければならず、 さらに、 'ダウンロードした情 報に基づき電話などで対象物を注文したりしなければならず不便である。 すなわち、 従来の放送では放送された番組やコマーシャルに登場する 対象物を簡単に入手することが出来ず手間がかかり不便であるという課 題がある。
そこで、 上記のような課題を解決するために、 本出願に係る発明者の 出願 (特願 20 0 1— 258 564) で、 本出願に係る発明者は、 放送 された番組やコマーシャルに登場する対象物を手間がかからず簡単に入 手することが出来る双方向放送による買い物支援システムを提案してい る。 特願 200 1— 2 58 5 64の文献の全ての開示は、 そつく りその まま引用 (参照) することにより、 ここに一体化する。
以下、 本出願に係る発明者が提案している双方向放送による買い物支 援システムについて説明する。
図 3 7に、 本出願に係る発明者の出願における双方向放送による買い 物支援システムの概念構成を示すプロック図を示す。 また、 図 3 8に、 双方向放送による買い物支援システム(以下買い物支援システムと略す) の動作を示す流れ図を示す。 また、 図 3 9に、 図 3 7の部分の詳細を示 す機能プロック図を示す。
図 3 7において、買い物支援システムは、放送局 1 0、販売業者 20、 及び家庭 30から構成されており、家庭 30には、 TV/S TB 3 1 0、 及びリモートコントローラ 3 20が設置されている。
放送局 1 0は、 番組を番組付加情報とともに放送する放送局である。 販売業者 20は番組中に登場する物を商品として取り扱う販売業者であ る。 家庭 30は放送を受信する家庭である。 ,
TV/S TB 3 1.0は、 双方向放送受信機であるテレビあるいは S T B (S e t T o p B o x) .と しての双方向放送受信機である。
リモートコン トローラ 320は、 T V/S T B 3 1 0を操作するため の手段であり、 マイクロホン 3 2 1を備える。
TV/S TB 3 1 0は、 認識語彙記憶部 3 1 1 と音声認識部 3 1 2な どを備える。 すなわち、 図 3 9に示すように、 T VZS TB 3 1 0は、 放送受信部 3 1 3、 認識語彙生成部 3 1 4、 認識語彙記憶部 3 1 1、 音 声認識部 3 1 2、 時間表現辞書 3 1 6、 記憶時間制御部 3 1 5、 付加情 報記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9から構成される。
放送受信部 3 1 3は放送電波を受信する手段である。 認識語彙生成部 3 1 4は放送受信部 3 1 3で受信した番組付加情報から音声認識の対象 語彙を生成する手段である。 認識語彙記憶部 3 1 1は、 生成された認識 語彙を記憶する手段である。 時間表現辞書 3 1 6は 「さっきの」、 「今の」 といった時間に関する表現を認識語彙として保持する辞書である。 音声 認識部 3 1 2は認識語彙記憶部 3 1 1と時間表現辞書 3 1 6とを認識語 彙辞書として使用して音声認識を行う手段である。 記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情報選択入力との関係からおの おのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、 音声認識部 3 1 2および認識語彙記憶部 3 1 1の制御を行う手段である c 付加情報記憶部 3 1 7は音声認識によって指定された番組中の物等に対 応する付加情報を記憶する手段である。 表示部 3 1 8は付加情報を表示 する手段である。 送信部 3 1 9は付加情報の選択等の視聴者の入力結果 を放送局へ送信する手段である。
次に、 このような買い物支援システムの動作を説明する。
図 3 8に、 買い物支援システム及びサービスの動作を示す。 以下図 3 8に基づいて説明する。
まず視聴者は番組視聴中に番組に登場する物等に注目し、 特定のもの に注目していることを伝える言葉を発声する。 そうすると、 マイクロホ ン 3 2 1は、 その発声を入力し、 音声認識部 3 1 2に出力する。
音声認識部 3 1 2は、 マイクロホン 3 2 1から入力された発声信号に 対して音声認識を行う。 そしてその音声認識結果に基づいて音声認識部 3 1 2は、 視聴者が注目した物等を判断し、 対応する番組付加情報を特 定して、 付加情報記憶部 3 1 7へ蓄積する (ステップ 3 3 1 )。
ドラマを視聴している場合を例に取って具体的に説明すると、 例えば ドラマの視聴中に登場人物が着用していた洋服に視聴者の注意が向いた が、 その洋服を来ていた登場人物は画面から退場してしまったような場 合、 視聴者は 「さっきの赤いジャケットいいな。」 などと発声する。
視聴者が発声した音声はマイクロホン 3 2 1より入力され、 音声認識 部 3 1 2は時間表現辞書 3 1 6と認識語彙記憶部 3 1 1を参照して入力 された音声を認識し、 放送された番組付加情報より該当する付加情報を 抽出する。 . 認識語彙記憶部 3 1 1に記憶されている認識語彙は、 認識語彙生成部 3 1 4で、 受信した番組付加情報より付加情報のついた物や音楽等をあ らわす語彙を逐次生成したものである。 すなわち、 番組付加情報は、 番 組付加情報が放送局で対応付けられた物や音楽を特定するためのキーヮ 一ド情報をも含んでおり、 認識語彙生成部 3 1 4はこのキーヮード情報 から認識語彙を生成する。 そして、 音声認識部 3 1 2は、 「さっきの赤い ジャケットいいな。」などの視聴者の発声音声を音声認識することによつ て視聴者の発声音声から認識語彙を抽出する。 例えば 「さっきの赤いジ ャケッ トいいな。」 という発声音声の場合には、 「赤い」、 「ジャケット」 という認識語彙が抽出される。 そして抽出した認識語彙に対応するキー ヮード情報の個数が最も多い番組付加情報を選択し、 選択した番組付加 情報を付加情報記憶部 3 1 7に記憶させる。 すなわち、 ある番組付加情 報が「赤い」 という認識語彙に対応するキーヮード情報と、「ジャケット」 という認識語彙に対応'するキーヮード情報とを共に含んでいる場合には その番組付加情報を付加情報記憶部 3 1 7に記憶させる。 このように音 声認識部 3 1 2は、 番組付加情報を選択することによって特定すること が出来る。 なお、 音声認識部 3 1 2は、 視聴者の発声音声から抽出した認識語彙 に対応するキーヮード情報の個数が最も多い番組付加情報を選択すると して説明したが、 これに限らない。 音声認識部 3 1 2は、 視聴者の発声 音声から抽出した認識語彙に対応するキーヮード情報の個数が最も多い 順に例えば 5個の番組付加情報を選択して、 選択した番組付加情報を付 加情報記憶部 3 1 7に記憶しても構わない。 このように音声認識部 3 1 2は、 番組付加情報を特定するのではなく絞り込んでも構わない。
記憶時間制御部 3 1 5はあらかじめ定められた時間範囲あるいはシー 'ン数、 または視聴者のこれまでの発声とその後の入力より学習された時 間表現に対応するもつとも大きい時間幅あるいはシーン数の間、 生成さ れた認識語彙が保持されるよう制御する。 なお、 記憶時間制御部 3 1 5 の学習については後述する。 例えば 「さっきの赤いジャケットいいな。」 という発声音声の場合には、 記憶時間制御部 3 1 5の制御に従って、 音 声認識部 3 1 2は、 「さっき」 という過去を示す時間表現語彙を抽出し、 時間表現辞書 3 1. 6を参照して 「さっき」 に対応する時間範囲あるいは シーン数の間に放送された番組付加情報を対象にして上記の特定または 絞り込みを行う。
ドラマが終了した後 (ステップ 3 3 2 )、 表示部 3 1 8は、 音声認識に より指定されたドラマに登場した物等に対応する付加情報を表示する (ステップ 3 3 3 )。
付加情報には大きさ、重さ、材質、色違い、 サイズ違い価格、製造者、 販売者、 販売者連絡先等の情報が含まれており、 視聴者はこれらの情報 を確認して検討し、 購入する場合にはリモートコントローラ 3 2 0ある いはボインティングデパイス、 あるいは音声認識等の入力手段により付 加情報を選択し購入情報を入力する。
送信部 3 1 9は、 購入情報を対応する付加情報の識別番号等とあわせ て放送局へ送信する (ステップ 3 3 4 )。
さて、 前述したように記憶時間制御部 3 1 5は認識された時間表現語 彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際 の時間幅あるいはシーン数との関係を学習することについて具体的に説 明する。 記憶時間制御部 3 1 5は、 時間表現辞書 3 1 6に格納されてい る時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を 対応付けるための情報を保持している。 例えば、 記憶時間制御部 3 1 5 は、 例えば 「さっき」 という認識語彙については、 現在時刻を基準にし て 2 0秒前から 5分前までの時間幅を対応つけ、また、「今」については、 現在時刻を基準にして現在から 3 0秒前までの時間幅を対応付ける。 従って上述したように、 記憶時間制御部 3 1 5 「さっき」 という時間 表現を表す認識語彙を音声認識部 3 1 2から受け取った場合には、 現在 時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番 組付加情報に対して特定及び絞り込み^行うよう制御し、 この制御に従 つて音声認識部 3 1 2は、 現在時刻を基準にして 2 0秒前から 5分前ま での時間幅の間に受け取った番組付加情報に対して特定及び絞り込みを 行い、 その特定または絞り込みされた番組付加情報を付加情報記憶部 3
1 7に記憶させる。 すなわち、 記憶時間制御部 3 1 5は、 この時間幅の 間に生成された認識語彙が保持されるように制御する。
ところが、 記憶時間制御部 3 1 5が 「さっき」 という時間表現を表す 認識語彙を受け取った場合に、 上述したように現在時刻を基準にして 2
0秒前から 5分前までの時間幅を対応付けた場合に、 視聴者が表示部 3
1 8で表示された番組付加情報が視聴者の意図していた時間幅と異なる 番組付 ¾!情報が表示されることが起こり得る。 このような場合、 視聴者 はマイクロホン 3 2 1に向かって 「やり直して」 「もっと前の情報を表示 してほしいな」 「もっと後の情報を表示してほしいな」 などと発声する。 そうすると、 音声認識部 3 1 2は、 その視聴者からの発声を音声認識 し、 音声認識結果を記憶時間制御部 3 1 5に通知する。 音声認識部 3 1 2が 「もっと前の情報を表示してほしいな」 という発声を音声認識した 場合には、 「もっと前」、 「情報」、 「表示」 を認識語彙として抽出し、 記憶 時間制御部 3 1 5に通知する。
記憶時間制御部 3 1 5は、音声認識部 3 1 2から「もっと前」、「情報」、 「表示」 という認識語彙を受け取ると、 「さっき」 という時間表現を表す 認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」 という認識語彙に現在時刻を基準にして 4 0秒前から 5分 4 0秒前まで の時間幅を対応付けるように修正する。 そして、 記憶時間制御部 3 1 5 は、 音声認識部 3 1 2に現在時刻を基準にして 4 0秒前から 5分 4 0秒 前までの間に受け取つた番組付加情報を対象として再度番組付加情報の 特定または絞り込みを行うよう音声認識部 3 1 2を制御する。 音声認識 部 3 1 2は、 記憶時間制御部 3 1 5の制御に従って、 再度番組付加情報 の特定または絞り込みを行い、 特定または絞り込んだ番組付加情報を付 加情報記憶部 3 1 7に記憶させ、 表示部 3 1 8は、 付加情報記憶部 3 1 7に記憶された番組付加情報を表示する。 そして、 視聴者は、 表示され た番組付加情報に目的とするものが含まれている場合にはその番組付加 情報を選択して購入情報を入力する。
このような処理を多数繰り返すことによって、 記憶時間制御部 3 1 5 は、 時間表現を表す認識語彙に視聴者の意図を反映したり時間幅を対応 付けることが出来るようになる。 これが記憶時間制御部 3 1 5が学習す るということである。
以上のように、 買い物支援システムおよびサービスによれば、 視聴者 が興味を持った、 番組中に登場した物や音楽等について、 番組そのもの の視聴を、 メモをとる等の作業で妨げることなく、 自然な発声を行うだ けで、 番組の視聴と連続的に、 情報を取得し、 購入することが可能にな る。
本出願に係る発明者が提案している買い物支援システムを用いること によりこのようなすぐれた効果を得ることが出来る。
しかしながら、 本出願の発明者に係る出願である買い物支援システム では、 付加情報を特定するために、 音声認識された単語と付加情報が含 むキーヮード情報に対応するキーヮードとの合致の程度を判定すること により付加情報を特定してい,るが、 この方法よりもさらに柔軟かつ適切 に付加情報を特定できるようにしたいという要望がある。 つまり、 放送 された番組やコマーシャルに登場する対象物をより手間がかからずより 簡単に入手することが出来るようにしたいという課題がある。
また、 視聴者が発声するときの表現により適するようにして付加情報 を特定したいという要望がある。 つまり、 放送された番組やコマーシャ ルに登場する対象物を視聴者が発声するときの表現に適するようにして 手間がかからず簡単に入手したいという課題がある。 ' また、 視聴者の興味により適するようにして付加情報を特定したいと いう課題がある。 つまり、 放送された番組やコマーシャルに登場する対 象物を視聴者の興味に適するようにして手間がかからず簡単に入手した いという課題がある。 ' 発明の開示
本発明は、 上記課題を考慮し、 放送された番組やコマーシャルに登場 する対象物をより手間がかからずより簡単に入手することが出来る放送 受信方法、 放送受信システム、 第 1·装置、 第 2装置、 記録媒体、 及びプ ログラムを提供することを目的とするものである。
また、 本発明は、 上記課題を考慮し、 放送された番組やコマーシャル に登場する対象物を視聴者が発声するときの表現に適するようにして手 間がかからず簡単に入手することが出来る放送受信方法、 放送受信シス テム、 第 1装置、 第 2装置、 記録媒体、 及びプログラムを提供すること を目的とするものである。
また、 本発明は、 上記課題を考慮し、 放送された番組やコマーシャル に登場する対象物を視聴者の興味に適するようにして手間がかからず簡 単に入手することが出来る放送受信方法、放送受信システム、第 1装置、 第 2装置、 記録媒体、 及びプログラムを提供することを目的とするもの である。
上述した課題を解決するために、 第 1の本発明は、 放送局から放送さ れてくる放送内容に登場する対象物に対応付けられた付加情報であって 前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記 放送内容と同時に放送する放送を受信する受信ステップと、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーワード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セット生成ステップと、
視聴者が発声した音声を音声認識する音声認識ステップと、 その音声認識結果に'より認識された単語が前記認識語彙セッ トに含ま れる場合、 その認識語彙セッ トに対応する前記キーヮード情報を特定す る特定ステップと、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示ステップとを備えた、 放送受信方法である。
また、 第 2の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容 と同時に放送する放送を受信する受信ステップと、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記言語モデルの表現形式における、 所定の 前記単語クラスの組み合わせが出現する頻度及び/または前記言語モデ ルの表現形式における、 所定の前記単語クラスを基準とする所定の単語 が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基 づいて補正する補正ステップと、
捕正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識ステップと、
その音声認識結果に基づいて、 前記キーヮード情報を特定する特定ス テツプと、
その特定した前記キーワード情報に対応付けられた付加情報を表示す る表示ステップとを備えた、 放送受信方法である。 . ,
また、 第 3の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前記付加情報及び言語モデルを特定するため の情報を前記放送内容と同時に放送する放送を受信する受信ステップと、 受信された前記言語モデルを特定するための情報を利用して、 予め保 持されている前記言語モデルを特定する言語モデル特定ステツプと、 単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 特定された前記言語モデルの表現形式におけ る、 所定の前記単語クラスの組み合わせが出現する頻度及び/または特 定された前記言語モデルの表現形式における、 所定の前記単語クラスを 基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結 果の履歴情報に基づいて補正する補正ステップと、
補正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識ステップと、 '
その音声認識結果に基づいて、 前記キーヮード情報を特定する特定ス テツプと、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示ステップとを備えた、 放送受信方法である。
また、 第 4の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物を特定するため のキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する 放送手段を有する第 1装置と、
前記第 1装置から放送される前記放送を受信する受信手段、 及び単語 間の類義性を基準にして、 複数の単語が各単語クラスに分類された類義 語辞書を利用して、 前記キーヮード情報に対応する単語を含む前記単語 クラスに属する単語から構成される認識語彙セッ トを前記付加情報と対 応させて生成する認識語彙セット生成手段及び、 視聴者が発声した音声 を音声認識する音声認識手段、 及びその音声認識結果により認識された 単語が前記認識語彙セットに含まれる場合、 その認識語彙セットに対応 する前記キーヮード情報を特定する特定手段、 及ぴその特定した前記キ ーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置とを備えた、 放送受信システムである。
また、 第 5の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容 と同時に放送する放送手段を有する第 1装置と、
前記第 1装置から放送される前記放送を受信する受信手段、 及び単語 間の類義性を基準にして、 複数の単語が各単語クラスに分類された類義 語辞書を利用して、 前記言語モデルの表現形式における、 所定の前記単 語クラスの組み合わせが出現する頻度及ぴ zまたは前記言語モデルの表 現形式における、 所定の前記単語クラスを基準とする所定の単語が出現 する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて 補正する補正手段、 及ぴ補正された前記言語モデルを利用して、 視聴者 が発声した音声を音声認識する音声認識手段、 及びその音声認識結果に 基づいて、 前記キーワード情報を特定する特定手段、 及びその特定した 前記キーヮード情報に対応付けられた付加情報を表示する表示手段とを 有する第 2装置とを備えた、 放送受信システムである。
また、 第 6の本発明.は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前,記付加情報及び言語モデルを特定するため の情報を前記放送内容と同時に放送する放送手段を有する第 1装置と、 前記第 1装置かち放送される前記放送を受信する受信手段、 及び受信 された前記言語モデルを特定するための情報を利用して、 予め保持され ている前記言語モデルを特定する言語モデル特定手段、 及び単語間の類 義性を基準にして、 複数の単語が各単語クラスに分類された類義語辞書 を利用して、 特定された前記言語モデルの表現形式における、 所定の前 記単語クラスの組み合わせが出現する頻度及び Zまたは特定された前記 言語モデルの表現形式における、 所定の前記単語クラスを基準とする所 定の単語の出現蘋度を既に行われた音声認識の音声認識結果の履歴情報 に基づいて補正する補正手段、 及び捕正された前記言語モデルを利用し て、 視聴者が発声した音声を音声認識する音声認識手段、 及びその音声 認識結果に基づいて、 前記キーワード情報を特定する特定手段、 及びそ の特定した前記キーワード情報に対応付けられた付加情報を表示する表 示手段を有する第 2装置とを備えた、 放送受信システムである。
また、 第 7の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物を特定するため のキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する 放送手段を備え、
前記放送は、 前記放送を受信する受信手段、 及び単語間の類'義性を基 準にして、 複数の単語が各単語クラスに分類された類義語辞書を利用し て、 前記キーワード情報に対応する単語を含む前記単語クラスに属する 単語から構成される認識語彙セッ トを前記付加情報と対応させて生成す る認識語彙セッ ト生成手段、 及び視聴者が発声した音声を音声認識する 音声認識手段、 及びその音声認識結果により認識された単語が前記認識 語彙セットに含まれる場合、 その認識語彙セットに対応する前記キーヮ. 一ド情報を特定する特定手段、 及ぴその特定した前記キーヮード情報に 対応付けられた付加情報を表示する表示手段を有する第 2装置によって 受信される、 第 1装置である。
また、 第 8の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容 と同時に放送する放送手段を備え、
前記放送は、 前記放送を受信する受信手段、 及び単語間の類義性を基 準にして、 複数の単語が各単語クラスに分類された類義語辞書を利用し て、 前記言語モデルの表現形式における、 所定の前記単語クラスの組み 合わせが出現する頻度及び/または前記言語モデルの表現形式における、 所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行 われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段、 及び補正された前記言語モデルを利用して、 視聴者が発声した音声を音 声認識する音声認識手段、 及びその音声認識結果に基づいて、 前記キー ヮード情報を特定する特定手段、 及びその特定した前記キーヮード情報 に対応付けられた付加情報を表示する表示手段を有する第 2装置によつ て受信される、 第 1装置である。
また、 第 9の本発明は、 放送局から放送されてくる放送内容に登場す る対象物に対応付けられた付加情報であって前記対象物の特定を行うた めのキーヮード情報を含む前記付加情報及ぴ言語モデルを特定するため の情報を前記放送内容と同時に放送する放送手段を備え、'
前記放送は、 前記放送を受信する受信手段、 及び受信された前記言語 モデルを特定するための情報を利用して、 予め保持されている前記言語 モデルを特定する言語モデル特定手段、 及び単語間の類義性を基準にし て、 複数の単語が各単語クラスに分類された類義語辞書を利用して、 特 定された前記言語モデルの表現形式における、 所定の前記単語クラスの 組み合ねせが出現する頻度及び Zまたは特定された前記言語モデルの表 現形式における、 所定の前記単語クラスを基準とする所定の単語の出現 頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正 する補正手段、 及び補正された前記言語モデルを利用して、 視聴者が発 声した音声を音声認識する音声認識手段、 及ぴその音声認識結果に基づ いて、 前記キーワード情報を特定する特定手段、 及びその特定した前記 キーヮード情報に対応付けられた付加情報を表示する表示手段を有する 第 2装置によって受信される、 第 1装置である。
また、 第 1 0の本発明は、 放送局から放送されてくる放送内容に登場 する対象物に対応付けられた付加情報であって前記対象物を特定するた めのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送す る放送手段を有する第 1装置から放送される前記放送を受信する受信手 段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーヮード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セット生成手段と、
視聴者が発声した音声を音声認識する音声認識手段と、 · その音声認識結果により認識された単語が前記認識語彙セットに含ま れる場合、 その認識語彙セッ トに対応する前記キーヮード情報を特定す る特定手段と、 (
その特定した前記キーヮード情報に対応付けられた付加情報.を表示す る表示手段とを備えた、 第 2装置である。
また、 第 1 1の本発明は、 前記類義語辞書の各単語には、 予め決めら れた出現頻度が付加されており、
前記音声認識手段は、 前記音声認識の候補として複数の単語が認識さ れた場合、 前記出現頻度の高い方の単語を前記音声認識結果で認識され た単語として特定する、 第 1 0の本発明の第 2装置である。
また、 第 1 2の本発明は、 前記音声認識結果の認識結果に応じて、 前 記出現頻度を書き替える出現頻度補正手段を備えた、 第 1 1の本発明の 第 2装置である。
また、 第 1 3の本発明は、 前記音声認識結果の履歴情.報に応じて、 前 記認識語彙セッ トの各単語に対応する前記出現頻度を書き替える出現頻 度補正手段を備え、
前記認識語彙セッ トの各単語には、 その単語に対応する前記出現頻度 が付加されており、 ,
前記音声認識手段は、 前記認識語彙セットの前記出現頻度を用いて前 記音声認識を行う、 第 1 1の本発明の第 2装置である。
また、 第 1 4の本発明は、 放送局から放送されてくる放送内容に登場 する対象物に対応付けられた付加情報であって前記対象物の特定を行う ためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内 容と同時に放送する放送手段を有する第 1装置から放送される前記放送 を受信する受信手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記言語モデルの表現形式における、 所定の 前記単語クラスの組み合わせが出現する頻度及び Zまたは前記言語モデ ルの表現形式における、 所定の前記単語クラスを基準とする所定の単語 が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基 づいて補正する補正手段と、
補正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識手段と、
その音声認識結果に基づいて、 前記キーヮード情報を特定する特定手 段と、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示手段とを備えた、 第 2装置である。 .
また、 第 1 5の本発明は、 放送局から放送されてくる放送内容に登場 する対象物に対応付けられた付加情報であって前記対象物の特定を行う ためのキーヮード情報を含む前記付加情報及び言語モデルを特定するた めの情報を前記放送内容と同時に放送する放送手段を有する第 1装置か ら放送される前記放送を受信する受信手段と、
受信された前記単語モデルを特定するための情報を利用して、 予め保 持されている前記言語モデルを特定する言語モデル特定手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 特定された前記言語モデルの表現形式におけ る、 所定の前記単語クラスの組み合わせが出現する頻度及び/または特 定された前記言語モデルの表現形式における、 所定の前記単語クラスを 基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結 果の履歴情報に基づいて補正する補正手段と、
捕正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識手段と、
その音声認識結果に基づいて、 前記キーヮード情報を特定する特定手 段と、
' その特定した前記キーワード情報に対応付けられた付加情報を表示す る表示手段とを備えた、 第 2装置である。
また、 第 1 6の本発明は、 前記言語モデルを特定するための情報は、 前記言語モデルに予め付与されている I Dである、 第 1 5の本発明の第 2装置である。
また、 第 1 7の本発明は、 前記言語モデルを特定するための情報は、 言語モデル特定用キーヮード情報であり、
前記予め保持されている言語モデルにも言語モデル特定用キーヮード 情報が付加されており、
前記言語モデル特定手段は、 それらの言語モデル特定用キーヮードの 合致の程度に応じて前記言語モデルを特定する、 第 1 5の本発明の第 2 装置である。
また、 第 1 8の本発明は、 前記補正手段が、 前記言語モデルの表現形 式における、 所定の前記単語クラスを基準.とする所定の単語の出現頻度 を補正する場合であって、
前記履歴情報は、 前記既に行われた音声認識により認識された単語を 含むものであり、
前記捕正手段は、 前記キーヮード情報に対応する単語を含む前記単語 クラスに含まれる単語を抽出し、
抽出された単語のうち前記履歴情報に含まれる単語に関して、 前記言 語モデルの表現形式における、 前記単語クラスを基準とするその単語の 出現頻度を増加させ、 '
抽出された単語のうち前記履歴情報に含まれない単語に関して、 前記 言語モデルの表現形式における、 前記単語クラスを基準とするその単語 の出現頻度を減少させる、 第 1 4〜 1 7の本発明のいずれかの第 2装置 である。
また、 第 1 9の本発明は、 前記補正手段が、 前記言語モデルの表現形 式における、 所定の前記単語クラスの組み合わせが出現する頻度を補正 する場合であって、
前記履歴情報は、 前記既に行われた音声認識により認識された単語を 含むものであり、
前記補正手段は、 前記キーヮード情報に対応する単語を含む単語クラ スを抽出し、
抽出された前記単語クラスに関して、 前記言語モデルの表現形式にお ける、 所定の前記単語クラスの組み合わせが出現する頻度を増加させ、 抽出されなかった前記単語クラスに関して、 前記言語モデルの表現形 式における、 所定の前記単語クラス列の後ろにその単語クラスが出現す る頻度を減少させる、 第 1 4〜 1 7の本発明のいずれかの第 2装置であ る。
また、 第 2 0の本発明は、 前記捕正手段が、 前記言語モデルの表現形式 における、 所定の前記単語クラスの組み合わせが出現する頻度を補正す る場合であって、
前記履歴情報は、 前記既に行われた音声認識により認識された単語を 含む単語クラスを含むものであり、
前記補正手段は、前記キーヮード情報に対応する単語クラスを抽出し、 抽出された前記単語クラスに関して、 前記言語モデルの表現形式にお ける、 所定の単語クラスの組み合わせが出現する頻度を增加させ、 抽出されなかった前記単語クラスに関して、 前記言語モデルの表現形' 式における、 所定の単語クラスの組み合わせが出現する頻度を減少させ る、 第 1 4〜 1 7の本発明のいずれかの第 2装置である。
また、 第 2 1の本発明は、 表示された前記付加情報に対する所定の操 作が行われた場合、 その所定の操作に対応する指示を所定の送信先に送 信する送信手段を備えた、 第 1 0〜 1 7の本発明のいずれかの第 2装置 である。 .
また、 第 2 2の本発明は、 前記番組付加情報 商品販売情報及び/ま たはサービス販売情報であり'、 '
前記所定の操作に対応する指示とは、 前記商品及び Zまたは前記サー ビスの資料請求または購入指示情報である、 第 2 1の本発明の第 2装置 である。
また、 第 2 3の本発明は、 予め保持されている前記言語モデルは、 予 めネッ トワークを利用して取得したものである、 第 1 5の本発明の第 2 装置である。
また、 第 2 4の本発明は、 第 1 0の本発明の第 2装置の、 放送局から 放送されてくる放送内容に登場する対象物に対応付けられた付加情報で あって前記対象物を特定するためのキーヮード情報を含む前記付加情報 を前記放送内容と同時に放送する放送手段を有する第 1装置から放送さ れる前記放送を受信する受信手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーヮード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セッ ト生成手段と、
視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果により認識された単語が前記認識語彙セットに含ま れる場合、 その認識語彙セッ トに対応する前記キーワード情報を特定す る特定手段と、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示手段としてコンピュータを機能させるためのプログラムである。 また、 第 2 5の本発明は、 第 1 4の本発明の第 2装置の、 放送局から 放送されてくる放送内容に登場する対象物に対応付けられた付加情報で あって前記対象物の特定を行うためのキーヮード情報を含む前記付加情 報及び言語モデルを前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記言語モデルの表現形式における、 所定の 前記単語クラスの組み合わせが出現する頻度及び/または前記言語モデ ルの表現形式における、 所定の前記単語クラスを基準とする所定の単語 が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基 づいて補正する捕正手段と、
補正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識手段と、
その音声認識結果に基づいて、 前記キーヮード情報を特定する特定手 段と、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示手段としてコンピュータを機能させるためのプログラムである。 また、 第 2 6の本発明は、 第 1 5の本発明の第 2装置の、 放送局から 放送されてくる放送内容に登場する対象物に対応付けられた付加情報で あって前記対象物の特定を行うためのキーヮード情報を含む前記付加情 報及ぴ言語モデルを特定するための情報を前記放送内容と同時に放送す る放送手段を有する第 1装置から放送される前記放送を受信する受信手 段と、
受信された前記言語モデルを特定するための情報を利用して、 予め保 持されている前記言語モデルを特定する言語モデル特定手段と、 単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 特定された前記言語モデルの表現形式におけ る、 所定の前記単語クラスの組み合わせが出現する頻度及び Zまたは特 定された前記言語モデルの表現形式における、 所定の前記単語クラスを 基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結 果の履歴情報に基づいて捕正する補正手段と、
補正された前記言語モデルを利用して、 視聴者が発声した音声を音声 認識する音声認識手段と、 .
その音声認識結果に基づいて、 前記キーワード情報を特定する特定手 段と、
その特定した前記キーワード情報に対応付けられた付加情報を表示す る表示手段としてコンピュータを機能させるためのプログラムである。 また、 第 2 7の本発明は、 第 2 4の本発明のプログラムを担持した記 録媒体であって、 コンピュータにより処理可能な記録媒体である。
また、 第 2 8の本発明は、 第 2 5の本発明のプログラムを担持した記 録媒体であって、 コンピュータにより処理可能な記録媒体.である。
また、 第 2 9の本発明は、 第 2 6の本発明のプログラムを担持した記 録媒体であって、 コンピュータにより処理可能な記録媒体である。 図面の簡単な説明
図 1は、 本発明の実施の形態 1における買い物支援システムの概略構 成を示すブロック図
図 2は、 本発明の実施の形態 1における T V / S T Bの構成を示すブ ロック図
図 3は、 本発明の実施の形態 1における認識語彙生成部の詳細な構成 を示すプロック図
図 4は、 本発明の実施の形態 1における買い物支援システムの動作の 概要を示すフローチヤ一ト図
図 5は、 本発明の実施の形態 1における類義語辞書の例を示す図 図 6は、 本発明の実施の形態 1における買い物支援システムの動作の 詳細を示すフローチヤ一ト図
図 7は、 本発明の実施の形態 1における認識語彙セットの例を示す図 図 8は、 本発明の実施の形態 1における買い物支援システムの動作の 詳細を示すフローチヤ一ト図
図 9は、 本発明の実施の形態 2における T V / S T Bの構成を示すブ ロック図
図 1 0は、 本発明の実施の形態 2における認識語彙生成部 3 6 0の詳 細な構成を示すブロック図
図 1 1は、 本発明の実施の形態 2における類義語辞書の例を示す図 図 1 2は、 本発明の実施の形態 2における買い物支援システムの動作 の詳細を示すフローチヤ一ト図
図 1 3は、 本発明の実施の形態 2における認識語彙セッ トの例を示す 図
図 1 4は、 本発明の実施の形態 2における頻度が規格化された認識語 彙セットの例を示す図
図 1 5は、 本発明の実施の形態 2における買い物支援システムの動作 の詳細を示すフローチヤ一ト図
図 1 6は、 本発明の実施の形態 3における T V Z S T Bの構成を示す ブロック図 図 1 7は、 本発明の実施の形態 3における買い物支援システムの動作 の概要を示すフローチャート図
図 1 8は、 本発明の実施の形態 3における,買い物支援システムの動作 の詳細を示すフローチャー ト図 .
図 1 9は、 本発明の実施の形態 3における N g r a m文法情報の例を 示す図
図 2 0は、 本発明の実施の形態 3における語彙重み修正部の動作を説 明するための図
図 2 1は、 本発明の実施の形態 4における T V Z S T Bの構成を示す プロック図
図 2 2は、 本発明の実施の形態 4における買い物支援システムの動作 の概要を示すフローチヤ一ト図
図 2 3は、 本発明の実施の形態 4における買い物支援システムの動作 の詳細を示すフローチヤ一ト図
図 2 4は、 本発明の実施の形態 4における数 4の P ( C i. I C M) の例 を示す図
図 2 5は、 本発明の実施の形態 4におけるクラス重み修正部の動作を 説明するための図
図 2 6は、 本発明の関連技術 1における番組付加情報自動作成装置の 構成を示すブロック図
図 2 7は、 本発明の関連技術 1における番組付加情報自動作成装置の 動作を示す流れ図
図 2 8は、 本発明の関連技術 1におけるカメラ、 位置固定発信機、 付 加情報コード発信機の関係を示す図
図 2 9は、 本発明の第 5の実施の形態における T V / S T Bの構成を 示すプロック図 図 30は、 本発明の第 5の実施の形態における双方向放送による買い 物支援システムの動作を示すフローチヤ一ト図
図 3 1は、 本発明の第 6の実施の形態における TV/S TBの構成を 示すプロック図
図 3 2は、 本発明の第 6の実施の形態における双方向放送による買い 物支援システムの動作を示すフローチヤ一ト図
図 3 3は、 本発明の第 6の実施の形態における商品情報の一覧表の一 例を示す図
図 34は、 本発明の第 7の実施の形態における TVZS TBの構成を 示すプロック図
図 3 5は、 本発明の第 7の実施の形態における双方向放送'による買い 物支援システムの動作を示すフローチヤ一ト図
図 3 6は、 本発明の第 7の実施の形態における双方向放送による買い 物支援システムの図 3 5とはことなる動作を示すフ口,一チャート図 図 3 7は、 本出願に係る発明者の出願における双方向放送による買い 物支援システムの概念構成を示すプロック図
図 3 8は、 本出願に係る発明者の出願における双方向放送による買い 物支援システムの動作を示す流れ図
図 3 9は、 本出願に係る'発明者の出願における双方向放送による買い 物支援システムの詳細な構成を示すプロック図
(符号の説明)
1 0 放送局
20 販売業者
30 家庭
3 10 T V/S T B 3 1 3 放送受信部
3 1 5 記憶時間制御部
3 1 6 時間表現辞書
3 1 7 付加情報記憶部
3 1 8 表示部
3 1 9 送信部
3 5 1 認識語彙記憶部
3 5 2 音声認識部
3 5 5 認識語彙抽出部
3 56
3 5 7 認識語彙拡張部
3 58 認識語彙適応部 発明を実施するための最良の形態
以下に、 本発明の実施の形態を図面を参照して説明する。
(実施の形態 1)
まず、 本発明の実施の形態 1における双方向放送による買い物支援シ ステムについて説明する。
図 1に、 本発明の実施の形態 1における双方向放送による買い物支援 システムの概念構成を示すプロック図を示す。 図 2の i双方向放送による 買い物支援システム (以下買い物支援システムと呼ぶ) の詳細を示す機 能プロック図を示す。
図 1において、 本実施の形態の買い物支援システムは、 放送局 1 0、 販売業者 20、 及ぴ家庭 30から構成されており、 家庭 30には、 TV /S TB 3 1 0 , 及ぴリモートコントローラ 3 20が設置されている。 放送局 1 0は、 番組を番組付加情報とともに放送する放送局である。 5
26 販売業者 20は番組中に登場する物を商品として取り扱う販売業者であ る。 家庭 30は放送を受信する家庭である。
T V/S T B 3 10は、 双方向放送受信機であるテレビあるいは S T B (Set Top Box)としての双方向放送受信機である。
リモートコントローラ 3 20は、 TV/S TB 3 1 0を操作するため の手段であり、 マイクロホン 3 2 1を備える。
TV/ S T B 3 1 0は、 認識語彙記憶部 3 5 1と音声認識部 3 5 2な どを備える。 すなわち、 図 2に示すように、 TV/S TB 3 1 0は、 放 送受信部 3 1 3、 認識語彙生成部 3 54、 認識語彙記憶部 3 5 1、 音声 認識部 3 5 2、 時間表現辞書 3 1 6、 記憶時間制御部 3 1 5、 付加情報 記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9から構成される。 ' 放送受信部 3 1 3は放送電波を受信する手段である。 認識語彙生成部 3 54は放送受信部 3 1 3で受信した番組付加情報から音声認識の対象 語彙である認識語彙セッ トを生成する手段である。 認識語彙記憶部 35 1は、 生成された認識語彙セッ トを記憶する手段である。 時間表現辞書 3 1 6は「さっきの」、 「今の」といった時間に関する表現を認識語彙とし て保持する辞書である。 音声認識部 3 5 2は認識語彙記憶部 3 5 1 と時 間表現辞書 3 1 6とを認識語彙辞書として使用して音声認識を行う手段 である。 記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情 報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるい はシーン数との関係を学習し、 音声認識部 3 5 2および認識語彙記憶部 3 5 1の制御を行う手段である。 付加情報記憶部 3 1 7は音声認識によ つて指定された番組中の物等に対応する付加情報を記憶する手段である。 表示部 3 1 8は付加情報を表示する手段である。 送信部 3 1 9は付加情 報の選択等の視聴者の入力結果を放送局へ送信する手段である。
図 3に、 認識語彙生成部 3 54の部分の詳細な構成を示す、 認識語彙 生成部 3 5 4は、 認識語彙抽出部 3 5 5、 認識語彙拡張部 3 5 7、 類義 語辞書 3 5 6、 認識語彙適応部 3 5 8から構成される。
認識語彙抽出部 3 5 5は、 番組付加情報に含まれるキーワード情報に 対応する単語をキーヮードとして抽出する手段である。 認識語彙拡張部 3 5 7は、 抽出されたキーヮードを拡張して認識語彙セッ トを生成する 手段である。 類義語辞書 3 5 6は、 単語間の類義性を基準にして、 複数 の単語が各単語クラスに分類された辞書である。 なお、 実施の形態 1で は一つの単語は必ず特定の一つの単語クラスのみに含まれ、 一つの単語 が複数の単語クラスに含まれることはないと仮定する。 一つの単語が複 数の単語クラスに含まれる場合については実施の形態 2で詳細に説明す る。 認識語彙適応部 3 5 8は、 音声認識結果に応じて類義語辞書 3 5 6 に記載されている各単語が出現する頻度を捕正する手段である。
次に、 このような本実施の形態の動作を説明する。
図 4に、 本実施の形態の買い物支援システムの動作の概要を示すフロ 一チャートを示す。 また、 図 6及ぴ図 8に本実施の形態の買い物支援シ ステムの動作の詳細を示すフローチャートを示す。 以下、 図 4、 図 6、 及び図 8に基づいて説明する。
図 2と図 4において、 放送局 1 0からは、 放送内容に登場する対象物 に対応付けられた付加情報であって対象物を特定するためのキーヮード 情報を含む付加情報が放送内容とともに放送されてくる。
放送受信部 3 1 3は、 この放送を受信する。 そうすると、 認識語彙生 成部 3 5 4は、 番組付加情報に含まれるキーワード情報を抽出する (ス テツプ 3 5 1 )。 さらに認識語彙生成部 3 5 4は、 キーヮード情報に対応 するキーヮードの類義語を抽出する (ステップ 3 5 2 )。 さらに、 認識語 彙生成部 3 5 4は、 抽出した類義語を認識語彙セットとして認識語彙記 憶部 3 5 1に記憶させる (ステップ 3 5 3 )。 次に、 視聴者が発声した場合に音声認識し、 その結果を類義語辞書 3 9 0にブイ一ドバックし類義語辞書中の認識された単語に重みを加算す る (ステップ 3 5 4 )。
以下の説明では、 まず、 ステップ 3 5 1、 3 5 2、 3 5 3の動作を詳 細に説明した後、 音声認識の動作を説明し、 その後、 ステップ 3 5 4の 動作を詳細に説明する。
まず、 ステップ 3 5 1、 3 5 2、 及ぴ 3 5 3の動作を図 3と図 6を用 いてさらに詳細に説明する。
図 5に類義語辞書 3 9 0を示す。類義語辞書 3 9 0は、単語 3 9 1 と、 その単語の読み 3 9 2と、 その単語が含まれる単語クラス 3 9 3と、 そ の単語の出現頻度 3 9 4とが記載された辞書である。 なお、 単語クラス とは、 単語間の類義性を基準にして、 複数の単語が分類されたものであ る。 また、 本実施の形態の買い物支援システムを使用する初期状態にお いては、 十分に大きい日本語コーパスかち求められた単語クラス内の出 現頻度 3 9 4が記載されている。
例えば、 単語 3 9 1の一例としてジャケッ トがあり、 ジャケッ トの読 み 3 9 2はジャケットであり、 ジャケッ トが含まれる単語クラス 3 9 3 は衣類であり、 ジャケットの単語クラスである衣類に含まれる単語のう ちジャケットが出現する出現頻度 3 9 4は 0 . 2 0である。 また、 単語 3 9 1の一例として上着があり、 上着の読み 3 9 2はゥヮギであり、 ゥ ヮギが含まれる単語クラス 3 9 3は衣類であり、 上着の単語クラスであ る衣類に含まれる単語のうち上着が出現する出現頻度 3 9 4は 0 . 1 0 である。
ステップ 3 5 5において、 付加情報としてジャケッ トの付加情報が送 られてきたとする。 この場合付加情報としてはジャケットを示すキーヮ ード情報のほかに付加情報としては、 ジャケッ トの値段や色やサイズな どの説明、 ジャケッ トの販売元の説明なども含まれる。 このように付加 情報は、 キーヮード情報の他に付加情報が対応付けられている商品に関 する情報も含まれている。 なお、 付加情報の詳細については後述する。 次に、 ステップ 3 5 6において、 認識語彙抽出部 3 5 5は、 付加情報 に含まれるキーワード情報を抽出する。 すなわち、 ジャケッ トの付加情 報が送られてきた場合には、 キーヮード情報としてジャケットに対応す る情報を抽出する。 そして、 認識語彙拡張部 3 5 7は、 類義語辞書 3 5 6を利用して、 抽出したキーヮード情報に対応するキーヮードと同一の 単語クラス 3 9 3に属する単語から構成される認識語彙セットを生成す る。 ·
具体的に説明すると、 対象物がジャケットである付加情報のキーヮー ド情報に対応するキーヮードがジャケッ トであるとする。 そうすると認 識語彙抽出部 3 5 5は、 この付加情報からキーワード情報に対応するキ 一ワードであるジャケットを抽出する。
そして、 認識語彙拡張部 3 5 7は、 キーヮードであるジャケッ トを含 む単語クラス 3 9 3が衣類であるので、 単語クラスが衣類である単語を 抽出する。 図 5の類義語辞書の場合、 単語クラス 3 9 3が衣類である単 語は、 上着、 ジャケット、 服であることがわかる。 そうすると、 認識語 彙拡張部 3 5 7は、 上着、 ジャケッ ト、 及び服を認識語彙セットを構成 する単語とする。 また、 それぞれの単語に対応する出現頻度 3 9 4を認 識語彙セットに記載する。 図 7にこのようにして作成された認識語彙セ ット 3 9 5を示す。 ジャケッ ト、 月艮、 上着のそれぞれの読み 3 9 6がジ ャケッ ト、 フク、 ゥヮギのように記載されている。 そして、 単語クラス 内頻度 3 9 7が読み 3 9 6に対応して 0 . 2、 0 . 3、 0 . 1などと記 載されていることがわかる。
次に、 ステップ 3 5 7において、 認識語彙拡張部 3 5 7は、 生成した 認識語彙セッ トを付加情報と対応させて認識語彙記憶部 3 5 1に記憶さ せる。
ここで、 認識語彙記憶部 3 5 1は半導体メモリーまたはハードデイス ク装置であるとする。 従って、 生成された認識語彙セッ トは、 付加情報 と対応出来るような形式で半導体メモリ一またはハードディスク装置に 格納される。
次に、 視聴者が番組視聴中に発声した音声を音声認識する際の動作を 説明する。 図 2において、 まず視聴者は番組視聴中に番組に登場する 物等に注目し、特定のものに注目していることを伝える言葉を発声する。 そうすると、 マイクロホン 3 2 1は、 その発声を入力し、 音声認識部 3 5 2に出力する。
音声認識部 3 5 2は、 マイクロホン 3 2 1から入力された発声信号に 対して音声認識を行う。 そしてその音声認識結果に基づいて音声認識部 3 5 2は、 視聴者が注目した物等を判断し、 対応する番組付加情報を特 定して、 付加情報記憶部 3 1 7へ蓄積する。
ドラマを視聴している場合を例に取って具体的に説明すると、 例えば ドラマの視聰中に登場人物が着用していた洋服に視聴者の注意が向いた が、 その洋服を来ていた登場人物は画面から退場してしまったような場 合、 視聴者は 「さっきの赤い上着いいな。」 などと発声する。
視聴者が発声した音声はマイク口ホン 3 2 1より入力され、 音声認識 部 3 5 2は時間表現辞書 3 1 6と認識語彙記憶部 3 5 1を参照して入力 された音声を認識し、 放送された番組付加情報より該当する付加情報を 抽出する。
すなわち、 認識語彙記憶部 3 5 1に記憶されている認識語彙セッ トの うち図 7に示した認識語彙セット 3 9 5は、 上着という単語を含んでい るので、 音声認識部 3 5 2は認識語彙セット 3 9 5を特定する。 また、 音声認識部 3 5 2が音声認識した結果、 音声認識の候補として 複数の単語が認識された場合、 認識語彙セット 3 9 5の単語クラス内頻 度 3 9 7が高い方の単語を音声認識結果で認識された単語として特定す る。
この場合、 複数の単語がそれぞれ異なった単語クラスに属している場 合には、 例えば各単語クラスの重みを同一として扱う。 すなわち、 それ ら複数の単語の単語クラス内頻度 3 9 7どうしを直接比較し、 単語クラ ス内頻度 3 9 7が高い方の単語を音声認識部 3 5 2が特定すればよい。 例えば認識語彙セッ トとしてジャケッ トというキーヮードから生成され た図 7で示した認識語彙セッ トと、 車庫というキーヮードから生成され た認識語彙セッ トが存在する場合に、 音声認識した結果、 ジャケッ トと 車庫とが音声認識の候捕として認識された場合、 ジャケッ トが含まれる 単語クラスである衣類と、 車庫が含まれる単語クラスである建造物とを 同じ重みであるすなわち平等に扱う。 そして、 ジャケットの単語クラス 内頻度 3 9 7と車庫の単語クラス内頻度 3 9 7を直接比較し、 単語クラ ス内頻度 3 9 7が高い方を音声認識された単語として特定する。
なお、 本実施の形態では、 音声認識の候補として複数の単語が認識さ れた場合、 これら複数の単語がそれぞれ異なったクラスに属している場 合には、 複数の単語が含まれる各単語クラスの出現頻度を平等に出現す るとして扱うとして説明したが、 これに限らず、 予め各単語クラスの出 現する頻度を上述した十分大きな日本語コーパスより求めておき各単語 クラスに出現する頻度をも考慮すればさらに正確に音声認識結果の単語 を特定することが出来るようになる。 また、 各単語クラスの重みを放送 局 1 0からデータ放送により放送して、 放送受信部 3 1 3でこの各単語 クラスの重みを受信し、 音声認識部 3 5 2が受信した各単語クラスの重 みをも考慮することも出来る。 また、 T V / S T B 3 1 0とネッ トヮー クで接続された P Cを通じて、 ィンターネットのホームページから商品 を購入した場合等には、 その購入履歴情報を取得して、 取得した購入情 報から各単語クラスの重みを生成し、 音声認識部 3 5 2で音声認識に利 用することも可能である。
このようにして、 音声認識部 3 5 2が図 7の認識語彙セッ ト 3 9 5を 特定ずると、 音声認識部 3 5 2は、 付加情報記憶部 3 1 7に認識語彙セ ッ ト 3 9 5に対応する付加情報であるジャケットの付加情報を記憶させ る。
このように本実施の形態によれば、 放送局 1 0から放送されてきた付 加情報に含まれるキーヮード情報に対応するキーヮードがジャケッ トで ある場合に、認識語彙セットを生成して音声認識に利用することにより、 ジャケッ トと類義性のある上着という単語を視聴者が発声した場合であ つても、 ジャケットに対応する付加情報を特定することが出来るように なる。 また、 同様にジャケッ トと類義性がある服という単語を視聴者が 発声した場合であっても、 ジャケッ トの付加情報を特定することが出来 るようになる。 従って、 放送された番組やコマーシャルに登場する対象 物を視聴者が発声するときの表現に適するようにして手間がかからず簡 単に特定することが出来るようになる。
記憶時間制御部 3 1 5はあらかじめ定められた時間範囲あるいはシー ン数、 または視聴者のこれまでの発声とその後の入力より学習された時 間表現に対応するもっとも大きい時間幅あるいはシーン数の間、 生成さ れた認識語彙セットが保持されるよう制御する。 なお、 記憶時間制御部 3 1 5の学習については後述する。 例えば 「さっきの赤い上着いいな。」 という発声音声の場合には、 記憶時間制御部 3 1 5の制御に従って、 音 声認識部 3 5 2は、 「さっき」 という過去を示す時間表現語彙を抽出し、 時間表現辞書 3 1 6を参照して 「さっき」 に対応する時間範囲あるいは シーン数の間に放送された番組付加情報を対象にして上記の特定を行う。 ドラマが終了した後、 表示部 3 1 8は、 音声認識により指定されたド ラマに登場した物等に対応する付加情報を表示する。
付加情報には大きさ、 上述したように重さ、 材質、 色違い、 サイズ違 い価格、 製造者、 販売者、 販売者連絡先等の情報が含まれており、 視聴 者はこれらの情報を確認して検討し、 購入する場合にはリモートコント ローラ 3 2 0あるいはポィンティングデパイス、 あるいは音声認識等の 入力手段により付加情報を選択し購入情報を入力する。
送信部 3 1 9は、 購入情報を対応する付加情報の識別番号等とあわせ て放送局へ送信する。 '
さて、 前述したように記憶時間制御部 3 1 5は認識された時間表現語 彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際 の時間幅あるいばシーン数との関係を学習することについて具体的に説 明する。 記憶時間制御部 3 1 5は、 時間表現辞書 3 1 6に格納されてい る時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を 対応付けるための情報を保持している。 例えば、 記憶時間制御部 3 1 5 は、 例えば 「さっき」 という認識語彙については、 現在時刻を基準にし て 2 0秒前から 5分前までの時間幅を対応つけ、また、「今」については、 現在時刻を基準にして現在から 3 0秒前までの時間幅を対応付ける。
従って上述したように、 記憶時間制御部 3 1 5 「さっき」 という時間 表現を表す認識語彙を音声認識部 3 1 2から受け取った場合には、 現在 時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番 組付加情報に対して特定を行うよう制御し、 この制御に従って音声認識 部 3 1 2は、 現在時刻を基準にして 2 0秒前から 5分前までの時間幅の 間に受け取った番組付加情報に対して特定を行い、 その特定された番組 付加情報を付加情報記憶部 3 1 7に記憶させる。 すなわち、 記憶時間制 御部 3 1 5は、 この時間幅の間に生成された認識語彙セットが保持され るように制御する。
ところが、 記憶時間制御部 3 1 5が 「さっき」 という時間表現を表す 認識語彙を受け取った場合に、 上述したように現在時刻を基準にして 2 0秒前から 5分前までの時間幅を対応付けた場合に、 視聴者が表示部' 3 1 8で表示された番組付加情報が視聴者の意図していた時間幅と異なる 番組付加情報が表示されることが起こり得る。 このような場合、 視聴者. はマイクロホン 3 2 1に向かって「やり直して」 「もつと前の情報を表示 してほしいな」 「もっと後の情報を表示してほしいな」 などと発声する。 そうすると、 音声認識部 3 5 2は、 その視聴者からの発声を音声認識 し、 音声認識結果を記憶時間制御部 3 1 5に通知する。 音声認識部 3 5 2が 「もっと前の情報を表示してほしいな」 という発声を音声認識した 場合には、 「もっと前」、 「情報」、 「表示」 を認識語彙として抽出し、 記憶 時間制御部 3 1 5に通知する。
記憶時間制御部 3 1 5は、音声認識部 3 1 2から「もっと前」、「情報」、 「表示」 という認識語彙を受け取ると、 「さっき」 という時間表現を表す 認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」 という認識語彙に現在時刻を基準にして 4 0秒前から 5分 4 0秒前まで の時間幅を対応付けるように修正する。 そして、 記憶時間制御部 3 1 5 は、 音声 ^識部 3 5 2に現在時刻を基準にして 4 0秒前から 5分 4 0秒 前までの間に受け取った番組付加情報を対象として再度番組付加情報の 特定を行うよう音声認識部 3 5 2を制御する。 音声認識部 3 5 2は、 記 ' 憶時間制御部 3 1 5の制御に従って、 再度番組付加情報の特定を行い、 特定した番組付加情報を付加情報記憶部 3 1 7に記憶させ、 表示部 3 1 8は、 付加情報記憶部 3 1 7に記憶された番組付加情報を表示する。 そ して、 視聴者は、 表示された番組付加情報に目的とするものが含まれて いる場合にはその番組付加情報を選択して購入情報を入力する。
このような処理を多数繰り返すことによって、 記憶時間制御部 3 1 5 は、 時間表現を表す認識語彙に視聴者の意図を反映したり時間幅を対応 付けることが出来るようになる。 これが記憶時間制御部 3 1 5が学習す るということである。
次に、 図 4のステップ 3 5 4の動作を図 8のフローチャートを用いて 詳細に説明する。
上述したように音声認識する際、 図 3の認識語彙適応部 3 5 8は、 単 語認識結果を類義語辞書 3 9 0にフィードバックし、 類義語辞書 3 9 0 中の認識された単語に重みを加算する。
すなわち、 図 8のフローチャートにおいて、 ステップ 3 5 8で音声認 識部 3 5 2が単語 Aを認識したとする (ステップ 3 5 8 )。単語 Aとして は、 具体的には上述したようにゥヮギが認識されたとする。
類義語辞書適応部 3 5 8は、 類義語辞書 3 9 0で読みが Aである単語 を検索する (ステップ 3 5 9 )。 すなわち、 類義語辞書適応部 3 5 8は、 類義語辞書 3 9 0から読みがゥヮギである単語を抽出する。 従って単語 上着が抽出される。
次に、 類義語辞書適応部 3 5 8は、 単語 Aすなわち上着の単語クラス 内頻度 3 9 7に ( 1 /想定出現単語総数) を加算する。 ここで想定単語 出現総数とは、 類義語辞書 3 9 0の出現頻度 3 9 4を作成する際の出現 単語の総数を仮想的に設定した値であり、 例えば想定単語出現総数を 1 0 0とする。 そうすると、 今までの上着の出現頻度 3 9 4は 0 . 1 0で あつたので、 類義語辞書適応部 3 5 8は、 上着の出現頻度 3 9 4を 0 . 1 0 + 0 . 0 1 = 0 . 1 1 とする。 このように類義語辞書適応部 3 5 8 は、 類義語辞書 3 9 0の単語のうち音声認識により認識された単語 Aの 出現頻度 3 9 4を增加させる。 次に、 ステップ 3 6 1において、 類義語辞書適応部 3 5 8は、 単語 A が含まれる単語クラスに含まれる単語のうち単語 A以外の単語の頻度か ら (その単語の出現頻度 X ( 1/想定単語出現総数)) を減算する。 上着 が含まれる単語クラスは、 衣類であり、 衣類には上着以外の単語として ジャケッ ト及び服という単語が含まれている。 従って、 ジャケッ ト及ぴ 服という単語の出現頻度 3 94を減少させる。 すなわち、 今までジャケ ットの頻度は 0. 20であったので、 類義語辞書適応部 3 5 8は、 ジャ ケットの出現頻度 3 94を 0. 2_ (0 · 2X (1/1 00)) = 0. 1 9 8とする。 また、 今まで服の頻度は、 0. 3 0であったので、 類義語 辞書適応部 3 5 8は、 服の出現頻度 3 9 4を 0. 3 _ (0. 3 x (1 / 1 00)) = 0. 297とする。
音声認識部 3 5 2が単語を認識するたぴに、 認識語彙適応部 3 58は 図 8のステップ 3 5 9、 3 60、 及ぴ 3 6 1の処理を行う。
放送局 1 0から新たな付加情報が放送されてきた場合、 認識語彙拡張 部 3 5 7が認識語彙セット 3 9 5を生成する際、 類義語辞書 39 0の出 現頻度 3 94として上記のように捕正された出現頻度 3 94が用いられ る。 従って、 視聴者がよく発声する単語は音声認識部 3 5 2でより認識 されやすくなるようにすることが出来る。
以上のように、 本実施の形態の買い物支援システムによれば、 視聴者 が興味を持った、 番組中に登場した物や音楽等について、 番組そのもの の視聰を、 メモをとる等の作業で妨げることなく、 自然な発声を行うだ けで、 番組の視聴と連続的に、 情報を取得し、 購入することが可能にな る。
また、 認識語彙セットを利用することにより、 付加情報に含まれるキ ーヮード情報に対応するキーヮードのみならず、 そのキーヮードに類義 性のある単語を発声することによっても認識語彙セッ トを特定出来、 従 つて付加情報を特定することが出来るようになる。
なお本実施の形態では購入情報は対応する付加情報の識別番号等とあ わせて送信部 3 1 9から放送局へ送信されるとしたが、 付加情報に含ま れる販売元へ送信されるとしても良い。
なお本実施の形態では音声認識部 3 1 2は認識結果より対応する付加 情報を特定するとしたが、 番組内でのタイムスタンプのみを確定し、 付 加情報記憶部 3 1 7はそのタイムスタンプおよびそれ以前の付加情報お よびタイムスタンプおよびそれ以前の付加情報に対応する認識語彙セッ トを記憶するものとしても良い。 すなわち、 音声認識部 3 1 2は、 視聴 者が音声を発声した時刻のみを確定し、 付加情報記憶部 3 1 7は、 その 時刻に対応する付加情報やその時刻までの所定の時間の間に放送された 付加情報およびその付加情報に対応する認識語彙セッ トを記憶すること もできる。 視聴後に視聴者に記憶された付加情報を提示し、 視聴者の発 声した音声を認識し手詳細な付加情報の提示や購入情報等の送信を行う。 なお、 このように番組視聴後に付加情報の特定を行う場合については、 後述する実施の形態 5〜 7で詳細に説明する。
なお本実施の形態では付加情報記憶部 3 1 7は選択された付加情報の みを記憶するとしたが、 番組の全付加情報を記憶し、 音声認識部により 選択された付加情報のみを表示するとしても良い。
なお本実施の形態では付加情報を記憶し番組終了後表示するとしたが、 付加情報と収録しておいた番組あるいは放送局へ要求信号を送り再度受 信した対応シーンを表示するとしても良い。
なお本実施の形態では付加情報を記憶し番組終了後表示するとしたが、 付加情報の識別コードのみを記憶し、 付加情報は放送局へ要求信号を送 り再度受信して表示するとしても良い。
なお、 本実施の形態の放送局 1 0は本発明の第 1装置の例であり、 本 5
38 実施の形態の TV/S TB 3 1 0は本発明の第 2装置の例であり、 本実 施の形態の放送受信部 3 1 4は本発明の受信手段の例であり、 本実施の 形態の認識語彙生成部 3 54は本発明の認識語彙セット生成手段の例で あり、 本実施の形態の音声認識部 3 5 2は本発明の音声認識手段の例で あり、本実施の形態の音声認識部 3 5 2は本発明の特定手段の例であり、 本実施の形態の表示部 3 1 8は本発明の表示手段の例であり、 本実施の 形態の認識語彙適応部 35 8は本発明の出現頻度補正手段の例である。
(実施の形態 2)
次に、 本発明の実施の形態 2における双方向放送による買い物支援シ ステムについて説明する。
本発明の実施の形態 2における双方向放送による買い物支援システム の概念構成を示すブロック図は、 図 1で、 認識語彙記憶部 3 5 1を認識 語彙記憶部 36 1に変更し、 音声認識部 3 5 2を音声認識部 36 2に変 更したものに相当する。 従って図 1の説明は実施の形態 1 と重複するの で省略する。 図 9に、 双方向放送による買い物支援システム (以下買い 物支援システムと呼ぶ) の詳細を示す機能プロック図を示す。
TV/ S TB 31 0は、 図 9に示すように、 放送受信部 3 1 3、 認識 語彙生成部 3 6 0、 認識語彙記憶部 3 6 1、 音声認識部 3 6 2、 時間表 現辞書 3 1 6、 記憶時間制御部 3 1 5、 付加情報記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9、 認識履歴記憶部 3 63カゝら構成される。
放送受信部 3 1 3、 時間表現辞書 3 1 6、 記憶時間制御部 3 1 5、 付 加情報記憶部 3 1 7、 表示部 3 1 8、 及ぴ送信部 3 1 9については実施 の形態 1 と同様であるので説明を省略する。
認識語彙生成部 3 60·は、 放送受信部 3 1 3で受信した番組付加情報 から音声認識の対象語彙である認識語彙セッ トを生成する手段である。 なお、 実施の形態 1 とは異なり認識語彙生成部 3 60は、 一つの単語が 複数の単語クラスに含まれる場合に認識語彙セッ トを生成するところが 実施の形態 1とは異なっている。 認識語彙記憶部 3 6 1は、 一つの単語 が複数の単語クラスに含まれる場合に生成された認識語彙セットを記憶 する手段である。 音声認識部 3 6 2は、 認識語彙記憶部 3 6 1と時間表 現辞書 3 1 6とを認識語彙辞書として使用して音声認識を行う手段であ る。 認識履歴記憶部 3 6 3は、 音声認識部 3 6 2で既に認識された単語 及びその単語が含まれる単語クラスを記憶しておく手段であり、 例えば 半導体メモリ一またはハードディスク装置で構成される。
図 1 0に、 認識語彙生成部 3 6 0の部分の詳細な構成を示す、 認識語 彙生成部 3 6 0は、 認識語彙抽出部 3 6 4、 認識語彙拡張部 3 6 6、 類 義語辞書 3 6 5、 認識語彙適応部 3 6 7から構成される。
認識語彙抽出部 3 6 4は、 番組付加情報に含まれるキーワード情報に 対応する単語をキーヮードとして抽出する手段である。 認識語彙拡張部 3 6 6は、 抽出されたキーヮードを拡張して認識語彙セッ トを生成する 手段である。 類義語辞書 3 6 5は、 単語間の類義性を基準にして、 複数 の単語が各単語クラスに分類された辞書である。 このように、 実施の形 態 2の類義語辞書 3 6 5は、 一つの単語が複数の単語クラスに含まれる 場合も扱うことが可能である。 認識語彙適応部 3 6 7は、 音声認識結果 に応じて類義語辞書 3 6 5に記載されている各単語が出現する頻度を補 正する手段である。
次に、 このような本実施の形態の動作を説明する。
図 1 2は、 本実施の形態の買い物支援システムが認識語彙セッ トを生 成して、 付加情報と対応させて認識語彙記憶部 3 6 1に記憶させるまで の動作を示すフローチャートである。 また、 図 1 5は、 視聴者が発声し た音声を認識した場合の動作を示すフローチャートである。 まず、 図 1 2に基づいて、 認識語彙セッ トを生成して、 付加情報と対応させて認識 語彙記憶部 3 6 1に認識語彙セットを記憶させるまでの動作を説明する。 その後、 視聴者が発声した音声を音声認識する場合の動作を説明する。 図 1 2において、 実施の形態 1と同様に、 放送局 1 0からは、 放送内 容に登場する対象物に対応付けられた付加情報であって対象物を特定す るためのキーヮード情報を含む付加情報が放送内容とともに放送されて くる。 放送受信部 3 1 3は、 この放送を受信する。
ここで、 図 1 1に実施の形態 2で用いる類義語辞書 400を示す。 類 義語辞書 4,0 0は実施の形態 1のものとは異なり一つの単語が複数の単 語クラスに含まれる場合をも扱うことが出来るものである。 類義語辞書 400は、 単語 ·40 1と、 その単語の読み 46 1 と、 その単語が含まれ る単語クラス 1 (40 2) と、 単語クラス 2 (40 3) · · ·単語クラス η (404)、 その単語の出現頻度 40 5とが記載された辞書である。 な お、 単語クラスとは、 単語間の類義性を基準にして、 複数の単語が分類 されたものである。 実施の形態 2の類義語辞書では一つの単語 40 1が η個の単語クラスに含まれている。 また、 本実施の形態の買い物支援シ ステムを使用する初期状態においては、 十分に大きい日本語コーパスか ら求められた出現頻度 405が記載されている。この出現頻度 40 5は、 実施の形態 1 とは異なり、 十分に大きい日本語コーパスにおける出現頻 度が記載されている。
例えば、 単語 40 1の一例としてジャケッ トがあり、 ジャケッ トの読 み 46 1はジャケッ トであり、 ジャケッ トが含まれる単語クラス 1 (4 02) は衣類であり、 単語クラス 2 (40 3 ) は流行などである。 ジャ ケッ トの出現する出現頻度 405は 0. 020である。
ステップ 3 7 0において、 付加情報としてジャケッ トの付加情報が送 られてきたとする。 なお、 この.付加情報については実施の形態 1で説明 したものと同様である。 次に、 ステップ 3 7 1において、 認識語彙抽出部 3 6 4は、 付加情報 に含まれるキーワード情報を抽出する。 すなわち、 ジャケッ トの付加情 報が送られてきた場合には、 キーヮード情報としてジャケッ トに対応す る情報を抽出する。 そして、 認識語彙拡張部 3 6 6は、 類義語辞書 3 6 5を利用して、 抽出したキーヮード情報に対応するキーヮードと同一の 単語クラス 1 ( 4 0 2 )、単語クラス 2 ( 4 0 3 )、 · · ·単語クラス n ( 4 0 4 ) に属する単語から構成される認識語彙セットを生成する。
具体的に説明すると、 対象物がジャケットである付加情報のキーヮー ド情報に対応するキーヮードがジャケットであるとする。 そうすると認 識語彙抽出部 3 6 4は、 この付加情報からキーワード情報に対応する.キ 一ワードであるジャケットを抽出する。
そして、 認識語彙拡張部 3 6 6は、 キーヮードであるジャケットを含 む単語クラス 1 ( 4 0 2 ) が衣類であり、 単語クラス 2 ( 4 0 3 ) が流 行などであるので、 単語クラスが衣類、 流行等である単語を抽出する。 図 1 1の類義語辞書 4 0 0の場合、 単語クラスが衣類である単語は、 ジ ャケッ トなどであることがわかる。 そうすると、 認識語彙拡張部 3 6 6 は、 ジャケットなどを認識語彙セッ トを構成する単語とする。
図 1 3にこのようにして作成された認識語彙セット 4 0 6の例を示す。 認識語彙セット 4 0 6は、 ジャケッ ト、 服、 上着、 バッグなどから構成 されている。 また、 認識語彙セッ トの単語 4 0 6には類義語辞書 4 0 0 の出現頻度も頻度 4 0 9として記載される。
次に、 ステップ 3 7 2において、 認識語彙拡張部 3 6 6は、 認識語彙 セッ トにおける各単語の頻度 4 0 9を求める。 すなわち、 認識語彙セッ ト内の各単語の蘋度 4 0 9を合計すると 1になるように認識語彙セット 4 0 6で頻度 4 0 9を規格化する。
図 1 4に、 このようにして頻度 4 0 9が規格化された認識語彙セッ ト 4 1 0を示す。 最終的には、 認識語彙セット 4 1 0として、 単語の読み 4 1 1 と規格化された頻度であるセット内頻度 4 1 2が記載される。 次に、 ステップ 3 7 3において、 認識語彙適応部 3 7 3は、 認識履歴 記憶部 3 6 3より付加情報のキーヮード情報に対応するキーヮードが含 まれる単語クラスに含まれる単語を抽出する。 すなわち、 認識履歴記憶 部 3 6 3は半導体メモリ一またはハードディスクから構成されており、 認識履歴記憶部 3 6 3には、 既に行われた音声認識により認識された単 語及ぴその単語が属する単語クラスが記憶されており、 これらの単語の うち、 ジャケッ トというキーヮードが含まれる単語クラスに含まれる単 語を抽出する。 一般的には実施の形態 2ではジャケッ トに含まれる単語 クラスとレては、 図 1 1の類義語辞書 4 0 1が示すように衣類、 流行な ど複数の単語クラスがある。
次に、 ステップ 3 7 4において、 認識語彙適応部 3 7 3は、 認識語彙 セッ ト 4 1 0の単語のうちステップ^ 7 3で抽出された単語と一致する 単語のセッ ト内頻度 4 1 2に関して、(認識履歴中の出現数/想定単語出 現数) を加算する。 一方、 認識語彙セッ ト 4 1 0の単語のうちステップ 3 7 3で抽出されなかった単語のセット内頻度 4 1 2に関して、(セッ ト 内頻度 X認識履歴中の認識語彙セッ ト内単語の総出現数) / (想定単語 出現数) を減算する。
次に、 ステップ 3 7 5において、 認識語彙適応部 3 7 3は、 ステップ 3 7 4でセット内頻度 4 1 2が捕正された認識語彙セッ ト 4 1 0を付加 情報と対応させて認識語彙記憶部 3 6 1に記憶させる。
以上で、 認識語彙記憶部 3 6 1に認識語彙セッ ト 4 1 0が付加情報と 対応させて記憶される。
認識語彙セッ トを用いて音声認識部 3 6 2が付加情報を特定する動作 は実施の形態 1 と同様であるので説明を省略する。 次に、 音声認識する場合の動作について説明する。 以下に説明する動 作は、 すでに生成されている認識語彙セットを音声認識された後も繰り 返し使う場合に、 その音声認識結果を反映するための処理である。
すなわち、図 1 5に示すフローチヤ一トで、ステップ 3 8 0において、 音声認識部 3 6 2が単語 Aを認識したとする。 具体的には単語 Aとして ゥヮギが認識されたとする。
ステップ 3 8 1で、 認識語彙適応部 3 6 7は、 類義語辞書 4 0 0を参 照して単語 Aが含まれる単語クラスを抽出する。
次に、 ステップ 3 8 2で、 認識語彙適応部 3 6 7は、 認識履歴記憶部 3 6 3に単語 Aと単語 Aが含まれる単語クラスとを記憶させる。ただし、 認識履歴記憶部 3 6 3.の単語記憶数の上限を超える場合は、 最古の単語 から順に削除する。
ステップ 3 8 1、 3 8 2で認識履歴記憶部 3 6 3に記憶された単語 A などの単語は、上述した図 1 2のステップ 3 7 3、 3 7 4で用いられる。 . 一方、 ステップ 3 8 3において、 認識語彙適応部 3 6 7は、 類義語辞 書 4 0 0で読みが Aである単語を検索する。 本実施の形態では、 単語 A としてゥヮギが認識されているので、 ゥヮギが読みである単語を検索し て、 上着という単語を抽出する。
次に、 ステップ 3 8 4において、 認識語彙適応部 3 6 7は、 認識語彙 セッ ト 4 1 0中の単語 Aのセット内頻度 4 1 2に( 1 /想定単語出現数) を加算する。 具体的には、 想定単語総数を 1 0 0とした場合には上着の 頻度は 0 . 1 + 0 . 0 1 = 0 . 1 1に補正される。
次に、 ステップ 3 8 5において、 認識語彙適応部 3 8 5は、 認識語彙 セッ ト 4 1 0中の単語 A以外の単語の頻度から (セッ ト内頻度 X ( 1 / 想定単語総数)) を減算する。 具体的には、 ジャケッ トの頻度は、 0 . 2 一 (0 . 2 X 1 / 1 0 0 ) = 0 . 1 9 8と捕正され、 服の頻度は、 0 . 3— (0 . 3 1 / 1 0 0 ) = 0 . 2 9 7と補正される。
音声認識する毎にステップ 3 8 0からステップ3 8 5までの処理を繰 り返す。
以,上のように、 本実施の形態の買い物支援システムによれば、 視聴者 が興味を持った、 番組中に登場した物や音楽等について、 番組そのもの の視聴を、 メモをとる等の作業で妨げることなく、 自然な発声を行うだ けで、 番組の視聴と連続的に、 情報を取得し、 購入することが可能にな る。
また、 認識語彙セットを利用することにより、 付加情報に含まれるキ ーヮード情報に対応するキーワードのみならず、 そのキーヮードに類義 性のある単語を発声することによつても認識語彙セッ トを特定出来、 従 つて付加情報を特定することが出来るようになる。
なお、 実施の形態 2でも実施の形態 1で説明した種々の変形例を適用 することが出来ることは言うまでもない。
なお、 本実施の形態の放送局 1 0は本発明の第 1装置の例であり、 本 実施の形態の T V / S T B 3 1 0は本発明の第 2装置の例であり、 本実 施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、 本実施の 形態の認識語彙生成部 3 6 0は本発明の認識語彙セッ ト生^手段の例で あり、 本実施の形態の音声認識部 3 6 2は本発明の音声認識手段の例で あり、本実施の形態の音声認識部 3 6 2は本発明の特定手段の例であり、 本実施の形態の表示部 3 1 8は本発明の表示手段の例であり、 本実施の 形態の認識語彙適応部 3 6 7は本発明の出現頻度補正手段の例である。
(実施の形態 3 )
次に、 本発明の実施の形態 3における双方向放送による買い物支援シ ステムについて説明する。
本発明の実施の形態 3における双方向放送による買い物支援 · の概念構成を示すプロック図は、 図 1で、 認識語彙記憶部 3 5 1を文法 記憶部 3 7 6に変更し、 音声認識部 3 5 2を音声認識部 3 7 7に変更し たものに相当する。 従って図 1の説明は実施の形態 1 と重複するので省 略する。 図 1 6に、 双方向放送による買い物支援システム (以下買い物 支援システムと呼ぶ) の詳細を示す機能ブロック図を示す。
T V / S T B 3 1 0は、 図 1 6に示すように放送受信部 3 1 3、 認識 語彙生成部 3 7 1、 類義語辞書 3 7 4、 語彙重み修正部 3 7 5、 文法記 憶部 3 7 6、 音声認識部 3 7 7、 認識履歴記憶部 3 6 3、 付加情報記憶 部 3 1 7、表示部 3 1 8、送信部 3 1 9、 リモートコントローラ 3 2 0、 マイクロホン 3 2 1、 記憶時間制御部 3 1 5から構成される。 また、 認 識語彙生成部 3 7 1は、 ドメイン別ルール 3 7 2、 及び文法選択部 3 7 3力 ら構成される。 すなわち、 認識語彙生成部 3 7 1は半導体メモリー またはハードディスクの機能を有し、 半導体メモリ一またはハードディ スクにドメイン別ルール 3 7 2を記憶しているものとする。 また、 文法 記憶部 3 7 6は、 半導体メモリ一またはハードディスクの機能を有して おり、 それらの中に後述する N g r a m文法情報を記憶しているものと する。
放送受信部 3 1 3、 記憶時間制御部 3 1 5、 付加情報記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9、 リモー トコントローラ 3 2 0、 マイクロ ホン 3 2 1については第 1の実施の形態と同様であるので、 詳細な説明 を省略する。
認識語彙生成部 3 7 1は、 ドメイン別ルール 3 7 2に示すようにドラ マ、 屋外、 秋などのドメイン毎の N g r a m文法情報を自らが有する半 導体メモリ一またはハードディスクに予め記憶しており、 放送受信部 3 1 3から送られてくるシーンコードに対応するドメインの N g r a m文 法情報を選択する手段である。 すなわち、 文法選択部 3 7 3は、 放送受 信部 3 1 3から出力されてくるシーンコードに対応するドメインの N g r a m文法情報を選択する手段である。
文法記憶部 3 7 6は、 半導体メモリーまたはハードディスクの機能を 有し、 文法選択部 3 7 3で選択された N g r a m文法情報をこれらの半 導体メモリ一またはハードディスクに記憶する手段である。
語彙重み修正部 3 7 5は、 単語間の類義性を基準にして、 複数の単語 が各単語クラスに分類された類義語辞書 3 7 4を利用して、 N g r a m 文法情報の表現形式における、 所定の単語クラスを基準とする所定の単 語が出現する頻度を、 認識履歴記憶部 3 6 3に記憶されている既に行わ れた音声認識の音声認識結果の履歴情報に基づいて補正する手段である。 音声認識部 3 7 7は、 文法記憶部 3 7 6に記憶されている N g r a m 文法情報を利用して、 視聴者が発声した音声を連続音声認識する手段で める。
次に、 このような本実施の形態の動作を説明する。
まず、 図 1 7のフローチャートを用いて動作の概要を説明する。
放送局 1 0からは、 放送されてくる放送内容が放送されるとともに、 放送内容に登場する対象物に対応付けられた付加情報であって対象物の 特定を行うためのキーワード情報を含む付加情報及び N g r a m文法情 報を特定するためのシーンコードも放送されてくる。 放送受信部 3 1 3 は、 この放送を受信する。
ステップ 3 9 0において、 文法選択部 3 7 3は、 放送受信部 3 1 3か ら出力されてくるデータからシーンコード及ぴ付加情報が含むキーヮー ド情報を抽出する。 ここで、 シーンコードとは、 認識語彙生成部 3 7 1 がドメィン毎に記憶している N g r a ra文法情報を特定するための情報 である。
次に、 ステップ 3 9 1において、 文法選択部 3 7 3は、 放送受信部 3 1 3から出力されたシーンコードに対応するドメインの N g r a m文法 情報を選択する。
次に、 ステップ 3 9 2において、 語彙重み修正部 3 7 5は、 N g r a m文法情報の表現形式における、 所定の単語クラスを基準とする所定の 単語が出現する頻度を認識履歴記憶部 3 6 3に記憶されている認識履歴 情報と類義語辞書 3 7 4を用いて補正する。
次に、 ステップ 3 9 3において、 認識語彙重み修正部 3 7 5は、 補正 した N g r a m文法情報を文法記憶部 3 7 6に記憶させる。
このようにして文法記憶部 3 7 6に記憶された N g r a m文法情報が 音声認識部 3 7 7で音声認識のために用いられる。 ステップ 3 9 3にお いて、 認識語彙重み修正部 3 7 5が、 認識履歴情報と類義語辞書 3 7 4 を用いて N g r a m文法情報を補正するので、 放送された番組や マ一 シャルに登場する対象物を視聴者が発声するときの表現に適するように 音声認識することが出来るようになる。 従って、 放送された番組やコマ 一シャルに登場する対象物に対応付けられた付加情報を視聴者の発声す るときの表現に適するように特定することが出来るようになる。 以下こ のことを詳細に説明する。
次に、 図 1 8のフローチャートを用いて、 実施の形態 3の買い物支援 システムの詳細な動作の説明を行う。
図 1 8において、 上述したように、 放送局 1 0からは、 放送されてく る放送内容が放送されるとともに、 放送内容に登場する対象物に対応付 けられた付加情報であって対象物の特定を行うためのキーヮード情報を 含む付加情報及び N g r a m文法情報を特定するためのシーンコードも 放送されてくる。
ステップ 4 0 0において、放送受信部 3 1 3は、この放送を受信する。 ステップ 4 0 1において、 文法選択部 3 7 3は、 放送受信部 3 1 3か ら出力されてくるデータからシーンコード及び付加情報が含むキーヮー ド情報を抽出する。
ここで、 シーンコードとは、 認識語彙生成部 3 7 1がドメイン毎に記 憶し'ている N g r a m文法情報を特定するための情報である。 例えばシ ーンコードの例としては、 ドラマ、 屋外、 秋などのドメインを特定する ためのコードである。 認識語彙生成部 3 ? 1にはド イン別ルール 3 7 •2に示すように ドメイン別に N g r a m文法情報力 S格納されている。 従って、 シーンコードを指定することにより、 指定したシーンコードに 対応するドメインの N g r a m文法情報を特定することが出来る。
また、 実施の形態 1 と同様に、 付加情報としてジャケットの付加情報 が送られてきたとする。 この場合付加情報としてはジャケッ トを示すキ 一ワード情報のほかに付加情報としては、 ジャケッ トの値段や色やサイ ズなどの説明、'ジャケットの販売元の説明なども含まれることは実施の 形態 1と同様である。
文法選択部 3 7 3は、 シーンコードに対応する ドメインの N g r a m 文法情報をドメイン別ルール 3 7 2から選択すると、 選択した N g r a m文法情報を文法記憶部 3 7 6に記憶させる。
ここで、 N g r a m文法情報の一般式は次の数 1のようになる。
(数 1 )
P »/W il W一 . W i—„+ 1 )
Figure imgf000050_0001
数 1において、 P (Wi I Wi-iWi-2 - · · Wi-n+i) は、 十分大きな日本 語コーパスにおいて単語列 Wi-iWi-2 · · · Wi-n+iの後ろに単語 Wiが現れ る確率を表しており、 N (WiWi-l - · - Wi-n+l) は、 十分大きな日本語 コーパスにおいて単語列 WiWi— 1 · · 'Wi-n+lが現れた頻度を表している。
N g r a m文法では数 1を以下の数 2のように近似する。
(数 2)
PW W^W, 2...W, W(fiCM
N(c,— … N(
Figure imgf000051_0001
数 2において、 P (Ci I Ci-l - · · Ci-n+l) は、 十分大きな日本語コ 一パスにおいて単語ク ス列 Ci-i · · · Ci-n+iの後ろに単語クラス Ciが 現れた確率を表している。 また、 P (Wi I Ci) は、 十分大きな日本語コ 一パスにおいて、 単語クラス Ciに含まれる単語のうち、 単語 Wiが出現 する確率を表している。
特に η= 2の場合には、 数 1は数 3のようになる。
(数 3) D
また、 数 2は数 4のようになる, (数 4)
N(C,C,一,)"舉
U N(cf)
以下 n = 2の場合について説明するが、 nが 2より大きい場合につい ては、 単語クラス Ci-lなどを単語クラス列 Ci-l · · ' Ci-n+lなどと読み 替えればよい。
数 4において、 P (Wi I WM) は、 単語 Wi-iの後ろに単語 Wiが現れ る確率を表しており、 P (Ci I CM) は、 十分大きな日本語コーパスに おいて、単語クラス Ci— 1に含まれる単語の後ろに単語クラス Ciに含まれ る単語が出現する確率を表しており、 P (Wi I Ci) は、 前述した日本語 コーパスにおいて、 単語クラス Ciに含まれる単語のうち、 単語 Wiが出 現する確率を表している。 ここで、 単語クラス Ciや Ci-iなどは類義語辞 書 3 74で定義されている。 類義語辞書 3 74は、 例えば実施の形態 1 で説明した図 5の類義語辞書 3 90と同様のものであるとする。 すなわ ち、 数 4は、 単語 Wi-iの後ろに単語 Wiが現れる確率は、 単語クラス Ci-i に含まれる単語の後ろに単語クラス Ciに含まれる単語が出現する確率 と単語クラス Ciに含まれる単語のうち単語 Wiが出現する確率との積で 表されることを示している。
図 1 9に、 このようにして文法記憶部 37 6に記憶された N g r am 文法情報の例である N g r a m文法情報 454を示す。 N g r a m文法 情報 4 54において、 例えばァノという単語の後ろにゥヮギという単語 が現れる確率は、 [指示語]という単語クラスに含まれる単語の後ろに [衣 類] という単語クラスに含まれる単語が現れる確率と [衣類] という単 語クラスに含まれる単語のうちケヮギという単語が現れる確率との積で 表されている。 ' 次に、 ステップ 402、 及びステップ 40 3において、 語彙重み修正 部 3 75は、 Ng r a m文法情報の表現形式における、 所定の単語クラ スを基準とする所定の単語が出現する頻度を認識履歴記憶部 3 6 3に記 憶されている認識履歴情報と類義語辞書 374を用いて補正する。 すな わち、 数 4における P (Wi I C を認識履歴記憶部 3 6 3に記憶されて いる認識履歴情報と類義語辞書 3 7 4とを用いて補正する。
図 2 0に、 ステップ 4 0 2及びステップ 4 0 3の動作を説明するため の図を示す。 以下図 2 0を用いてステップ 4 0 2及びステップ 4 0 3の 動作を具体的に説明する。
まず、 ステップ 4 0 2において、 上述したように付加情報に含まれる キーヮード情報に対応するキーヮードはジャケッ トである。 類義語辞書 3 7 4には、 ジャケッ トは単語クラス [衣類] に含まれると定義されて いるとする。 そして、 類義語辞書 3 7 4に単語クラス [衣類] に含まれ る単語として、 C i 4 2 4に示すようにジャケット、 フク、 ゥヮギ、 シャ ッが定義されているとする。 このような場合には、 語彙重み修正部 3 7 5は、 C i 4 2 4に示すように、 付加情報に含まれるキーヮード情報に対 応するキーヮードがジャケッ トである場合には、 [衣類] という単語クラ スに属する単語であるジャケット、 フク、 ゥヮギ、 シャツを抽出する。 次に、 ステップ 4 0 3において、 認識履歴記憶部 3 6 3に、 認識履歴 情報 4 2 1 として、 パンプス、 クチべ二、 テレビ、 ジャケットなどの単 語が記憶されている。 認識履歴記憶部 3 6 3に記憶されている認識履歴 情報 4 2 1は、 既に行われた音声認識の結果認識された単語の履歴を示 すものである。
また、 文法選択部 3 7 3が N g r a m文法情報をシーンコードカゝら特 定して選択した際の数 4における P (Wi I C i) は、 初期状態 4 2 1のよ うになつているとする。 すなわち、 単語クラス [衣類] に含まれる単語 のうち、 ジャケッ トが現れる確率が 0 . 4であり、 単語クラス [衣類] に含まれる単語のうち、 フクが現れる確率が 0 . 3であり、 単語クラス
[衣類] に含まれる単語のうち、 ゥヮギが現れる確率が 0 . 2であり、 単語クラス [衣類] に含まれる単語のうち、 シャツが現れる確率が 0 . 1であるとする。 このような場合、 語彙重み修正部 3 7 5は、 単語ジャケッ トが含まれ る単語クラスである [衣類] に属する単語であるジャケッ ト、 フク、 ゥ ヮギ、 シャツのうち、 認識履歴情報 4 2 1に含まれる各単語の数 4にお ける P (Wi I C に (認識履歴情報 4 2 1中の出現数) / (想定単語出 現数) だけ加算する。 ここで想定単語出現数とは、 実施の形態 1で説明 したものと同様の意味である。 認識履歴情報 4 2 1には、 ジャケット、 フク、 ゥヮギ、 シャツのうち、 ジャケッ トとフクが含まれていおり、 ジ ャケットは 2回出現しており、 フクは 1回出現している。 このような場 合、想定単語出現数を 1 0 0とする場合には、 P (ジャケッ ト I [衣類] ) に 2 / 1 0 0を加算する。 また、 P (フク I [衣類] ) に 1 Z 1 0 0を加 算する。
また、 語彙重み修正部 3 7 5は、 単語ジャケッ トが含まれる単語クラ スである [衣類] に属する単語であるジャケッ ト、 フク、 ゥヮギ、 シャ ッのうち、認識履歴情報 4 2 1に含まれない各単語の数 4における P (W i I C から ((補正前の P (Wi I [衣類] ) ) / (単語クラス [衣類] に 属する単語で認識履歴情報 4 2 1に含まれなかった各単語の P (Wi I
[衣類]) の総和)) X ( (認識履歴情報 4 2 1中の単語クラス [衣類] に 属する単語の出現総数)/ (想定出現単語総数))を減算する'。すなわち、 一般的には、 認識履歴情報 4 2 1に含まれない各単語の数 4における JP
(Wi I C から ((補正前の P (Wi I C O ) / (単語クラス C iに属する 単語で認識履歴情報 4 2 1に含まれなかった各単語の P (Wi I C i) の総 和)) X ( (認識履歴情報 4 2 1中の単語クラス C iに属する単語の出現総 数) / (想定出現単語総数)) を減算する。
認識履歴情報 4 2 1には、 ジャケッ ト、 フク、 ゥヮギ、 シャツのうち、 ゥヮギとシャツが含まれていない。 このような場合、 想定単語出現数を 1 0 0とする場合には、 P (ゥヮギ I [衣類] ) から (0 . 2 / ( P (ゥ ヮギ I [衣類] +P (シャツ I [衣類])) χ (3Z1 o 0) を減算する。 また、 P (シャツ I [衣類]) から (0. 1/ (P (ゥヮギ i [衣類] + P (シャツ I [衣類])) X (3/1 00) を減算する。
また、 語彙重み修正部 37 5は、 単語ジャケッ トが含まれる単語クラ スである [衣類] に属する単語であるジャケッ ト、 フク、 ゥヮギ、 シャ ッのうち、 いずれの単語も認識履歴情報 42 1に含まれていない場合に は、単語クラス [衣類]に関して数 4における P (Wi I C を補正せず、 そのまま用いる。
上記のように語彙重み修正部 3 7 5が数 4における P (Wi I Ci) を補 正すると、 図 20の適応後 42 2に示すように捕正される。
次に、 ステップ 404において、 語彙重み修正部 3 75は、 数 4にお ける P (Wi I C を捕正した数 4に示した N g r a m文法情報を付加情 報と対応させて文法記憶部 3 76に記憶させる。
次に、 音声認識の際には、 音声認識部 3 7 7は、 視聴者が発声した音 声を文法記憶部 3 76に記憶されている N g r a m文法情報を用いて音 声認識する。
視聴者が 「あのジャケッ トいいな」 と発声した場合には、 音声認識部 3 7 7は、 文法記憶部 3 76に記憶されている補正された N g r a m文 法情報を用いて連続音声認識する。 その結果 「あのジャケットいいな」 という文章が認識される。 N g r a m文法情報は、 音声認識する際に音 声認識された読みの列を単語に区切る際に用いられる。 '
N g r a m文法情報を用いることにより、音声認識部 3 77力 S「あの」、 「ジャケッ ト」、 「いいな」 という単語を認識したとする。 そうすると、 次に音声認識部 3 77は、 付加情報に含まれるキーワード情報に対応す るキーヮードであるジャケッ トが音声認識された単語であるジャケット と一致するので、 ジャケッ トの付加情報を特定する。 そして、 特定した ジャケットの付加情報を付加情報記憶部 3 1 7に記憶させる。 これ以降 の付加情報の処理に関する動作は実施の形態 1 と同様であるので説明を 省略する。
また、 音声認識部 3 6 3が上記のように単語を認識するたぴに認識し た単語を認識履歴記憶部 3 6 3に記憶させる。
そして、 放送局 1 0から新たにシーンコードが送られてくるまでは、 語彙重み修正部 3 7 5は、 認識履歴情報記憶部 3 6 3に新たに単語が記 憶されるたびにその新たに記憶された単語を認識履歴情報 4 2 1 として ステップ 4 0 2及ぴステップ 4 0 3の動作を繰り返す。 このようにして 語彙重み修正部 3 7 5は、 音声認識中にも数 4における P (Wi I C を 捕正する。
そして、放送局 1 0から新たにシーンコードが送られてきた場合には、 認識重み修正部 3 7 5は、 シーンコードが送られてくるまでの認識履歴 情報 4 2 1を対象として図 1 8のステップ 4 0 2、 4 0 3の動作を行う。 なお、 実施の形態 3で N g r a m文法情報を用いて音声認識した後、 付加情報に含まれるキーヮード情報に対応するキーヮードを用いて付加 情報を特定する際に、 実施の形態 1または実施の形態 2で説明した認識 語彙セットを用いて付加情報を特定することも出来る。 このようにすれ ば、 本実施の形態の効果に加え、 実施の形態 1や実施の形態 2の効果を も得ることが出来る。
さらに、 本実施の形態の認識語彙生成部 3 7 1に格納されているドメ ィン別ルール 3 7 2 として示す N g r a m文法情報は、 予めィンタ ネ ットなどのネッ トワークを利用してダウンロードしたものを用いても構 わない。
さらに、 本実施の形態では、 文法選択部 3 7 2がシーンコードが入力 されると、 そのシーンコードに対応するドメインの N g r a m文法情報 を選択するとして説明したが、 これに限らない。 放送局 1 0から N g r a m文法情報を特定するための情報である N g r a m文法情報特定用キ ーヮード情報が送られてきて、 ドメイン別ルール 3 7 2に記憶されてい る N g r a m文法情報にも N g r a m文法情報特定用キーワード情報が 付加されており、 文法選択部は、 それらの N g r a m文法情報特定用キ ーヮードの合致の程度に応じて N g r a m文法情報を特定し、 特定した N g r a m文法情報を選択しても構わない。
さらに、 本実施の形態では、 N g r a m文法情報を用いて音声認識す るとして説明し が、 これに限らず、 N g r a m以外の言語モデルを用 いて音声認識しても本実施の形態と同様の効果を得ることが出来る。 こ こで N g r a m以外の言語 デルとは、 例えば隠れマルコフモデル (h i d d e n Ma r k o v m ο· d e 1 )、確率文脈自由文法( p r o b a b i l i s t i c c o n t e x t— r r e e g r a mm a r ) どである。 N g r a m以外の言語モデル、 たとえば隠れマルコフモデル, において、 認識結果に基づいて、 認識された単語を出力す'る 「状態」 か ら音声認識によって認識された単語が出力される出力確率を增加させる、 あるいは確率文脈自由文法において、 認識された単語へ展開する 「非終 端記号」 (例えば認識された単語が属するクラスを表す) 力 認識された 単語を 「終端記号」 として生成する確率を增加させるとしてもよい。
このように、 認識重み修正部 3 7 5が、 数 4における P (Wi I C を 捕正するので、 視聴者が発声する表現に適した連続音声がより認識され やすくなる。 従って、 放送された番組やコマーシャルに登場する対象物 に対応付けられた付加情報を視聴者の発声するときの表現に適するよう に特定することが出来るようになる。
なお、 本実施の形態の放送局 1 0は本発明の第 1装置の例であり、 本 実施の形態の TV/S TB 3 1 0は本発明の第 2装置の例であり、 本実 施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、 本実施の 形態の認識語彙生成部 3 7 1は本発明の言語モデル特定手段の例であり、 本実施の形態の語彙重み修正部 3 7 5は本発明の補正手段の例であり、 本実施の形態の音声認識部 3 7 7は本発明の音声認識手段の例であり、 本実施の形態の音声認識部 3 7 7は本発明の特定手段の例であり、 本実 施の形態の表示部 3 1 8は本発明の表示手段の例であり、 本実施の形態 のシーンコードは本発明の I Dの例である。
(実施の形態 4)
次に、 本発明の実施の形態 4における双方向放送による買い物支援シ ステムについて説明する。
本発明の実施の形態 4における双方向放送による買い物支援システム の概念構成を示すブロック図は、 図 1で、 認識語彙記憶部 3 5 1を文法 記憶部 3 76に変更し、 音声認識部 3 5 2を音声認識部 3 77に変更し たものに相当する。 従って図 1の説明は実施の形態 1 と重複するので省 略する。 図 2 1に、 双方向放送による買い物支援システム (以下買い物 支援システムと呼ぶ) の詳細を示す機能プロック図を示す。
TV/S TB 3 1 0は、 図 2 1に示すように放送受信部 3 1 3、 文法 記憶部 3 76、 音声認識部 3 7 7、 商品データ記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9、 クラス化部 3 8 2、 認識履歴記憶部 36 3、 類義 語辞書 3 74、 クラス重み修正部 38 1から構成される。
放送受信部 3 1 3、 付加情報記憶部 3 1 7、 表示部 3 1 8、 送信部 3 1 9、 リモートコントローラ 320、 マイクロホン 3 2 1については第 1の実施の形態と同様であるので、 詳細な説明を省略する。 また、 文法 記憶部 3 76、 音声認識部 3 7 7、 認識履歴記憶部 3 6 3については第 3の実施の形態と同様であるので詳細な説明を省略する。
クラス重み修正部 38 1は、 単語間の類義性を基準にして、 複数の単 語が各単語クラスに分類された類義語辞書 3 7 4を利用して、 N g r a m文法情報の表現形式における、 所定の単語クラスの後ろに所定の単語 クラスが出現する頻度を捕正する手段である。
音声認識部 3 7 7は、 音声認識された結果認識された単語から類義語 辞書 3 7 4を利用して、 その単語が含まれるクラスを特定し、 認識され た単語とその単語が含まれるクラスとを認識履歴記憶部 3 6 3に記憶さ せる手段である。
次に、 このような実施の形態 4の動作を実施の形態 3との相違点を中 心に説明する。
まず、 図 2 2のフローチヤ一トを用いて動作の概要を説明する。
放送局 1 0からは、 放送されてくる放送内容が放送されるとともに、 放送内容に登場する対象物に対応付けられた付加情報であって対象物の 特定を行うためのキーワード情報を含む付加情報及び N g r a m文法情 報も放送されてくる。 放送受信部 3 1 3は、 この放送を受信する。
ステップ 4 1 0において、 放送受信部 3 1 3は、 文法記憶部 3 7 6に 放送されてきた N g r a m文法情報を記憶させる。
次に、 ステップ 4 1 1において、 クラス重み修正部 3 8 1は、 N g r a m文法情報の表現形式における、 所定の単語クラスの後ろに所定の単 語クラスが出現する頻度を認識履歴記憶部 3 6 3に記憶されている認識 履歴情報を用いて補正する。
次に、 ステップ 4 1 2において、 クラス重み修正部 3 8 1は、 捕正し た N g r a m文法情報を文法記憶部 3 7 6に記憶させる。
このようにして文法記憶部 3 7 6に記憶された N g r a m文法情報が、 実施の形態 3と同様に音声認識部 3 7 7で音声認識のために用いられる。 ステップ 4 1 1において、 クラス重み修正部 3 8 1が、 認識履歴情報を 用いて N g r a m文法情報を捕正するので、 放送された番組やコマーシ ャルに登場する対象物を視聴者の興味に適するように音声認識すること が出来るようになる。 従って、 放送された番組やコマーシャルに登場す る対象物に対応付けられた付加情報を視聴者の発声するときの興味に適 するように特定することが出来るようになる。 以下このことを詳細に説 明する。
次に、 図 2 3のフローチャートを用いて、 実施の形態 4の買い物支援 システムの詳細な動作の説明を行う。
図 2 3において、 上述したように、 放送局 1 0からは、 放送されてく る放送内容が放送されるとともに、 放送内容に登場する対象物に対応付 けられた付加情報であって対象物の特定を行うためのキーヮード情報を 含む付加情報及び N g r a m文法情報も放送されてくる。
ステップ 4 2 0において、放送受信部 3 1 3は、この放送を受信して、 N g r a m文法情報を文法記憶部 3 7 6に記憶させる。
N g r a m文法情報については実施の'形態 3で説明したので説明を省 略する。実施の形態 4では、実施の形態 3とは異なり数 4における P ( C i I C M) を認識履歴記憶部 3 6 3の認識履歴情報を用いて補正する。
図 2 4に、 数 4における P ( C i I C i-i) の例を示す。 例えば図 2 4で 指示語という単語クラスの後ろに衣類というクラスが出現する確率は 0 · 3 0であることがわかる。
次に、 ステップ 4 2 1において、 放送受信部 3 1 3は付加情報を受信 すると付加情報記憶部 3 1 7に記憶させる。 ここで、 受信した付加情報 は実施の形態 3と词様にジャケットの付加情報であるとする。
次に、 ステップ 4 2 2、 及びステップ 4 2 3において、 クラス重み修 正部 3 8 1は、 N g r a m文法情報の表現形式における、 所定の単語ク ラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部 3 6 3 に記憶されている認識履歴情報を用いて補正する。 すなわち、 数 4にお ける P ( C i I C i-i) を認識履歴記憶部 3 6 3に記憶されている認識履歴 情報を用いて補正する。
図 2 5に、 ステップ 4 2 2及ぴステップ 4 2 3の動作を説明するため の図を示す。 以下図 2 5を用いてステップ 4 2 2及びステップ 4 2 3の 動作を具体的に説明する。
まず、 ステップ 4 2 2において、 上述したように付加情報に含まれる キーヮード情報に'対応するキーヮードはジャケッ トである。 類義語辞書
3 7 4には、 ジャケットは単語クラス [衣類] に含まれると定義されて いるとする。 また、 認識履歴記憶部 3 6 3には、 図 2 5の認識履歴情報
4 5 1に示すような認識履歴情報が記憶されているとする。
この認識履歴情報 4 5 1は、 音声認識された単語とその単語が含まれ る単語クラスとから構成されている。 すなわち、 音声認識部 3 7 7が音 声認識を行った結果認識した単語を含む単語クラスをクラス化部 3 8 2 が類義語辞書 3 7 4を用いて検出する。 そして、 クラス化部 3 8 2は、 認識された単語とその単語が含まれる単語クラスとを予め認識履歴記憶 部 3 6 3に記憶させておく。 このように認識履歴情報 4 5 1は、 クラス 化部 3 8 2により生成されたものである。
クラス重み修正部 3 8 1は、 付加情報のキーヮード情報に対応するキ 一ワードであるジャケッ トが含まれる単語クラスである [衣類] を類義 語辞書 3 7 4を用いて特定し、 さらに、 単語クラス [衣類] に属する単 語を認識履歴情報 4 5 1から抽出する。 認識履歴情報 4 5 1に示すよう に、 単語クラス [衣類] に属する単語としてジャケッ トが 2回、 フクが 2回抽出されている。
次に、 ステップ 4 2 3において、 単語クラスは、 類義語辞書 3 7 4に クラスの集合 4 5 0に示すように n個の単語クラスが定義されていると する。 放送受信部 3 1 3が N g r a m文法情報を受信して、 文法記憶部 3 7 6に記憶させた際の数 4における P (Ci I Ci-i) は、 初期状態 4 5 2のようになっているとする。 例えば、 単語クラス [指示語] に含まれ る単語の後ろに単語クラス [衣類] に含まれる単語が現れる確率が 0. 7であり、単語クラス [指示語]に含まれる単語の後ろに単語クラス [家 具] が現れる確率が 0. 3である。
このような場合、 クラス重み修正部 3 8 1は、 ある単語クラスに含ま れる単語の後ろに単語クラス [衣類] に含まれる単語が現れる確率であ る P ([衣類] I C I) に、 単語クラス [衣類] に含まれる単語が認識履 歴情報 4 5 1に出現する出現数を想定出現単語総数で割った値を加算す る。すなわち、 Ciが付加情報のキーヮード情報に対応するキーヮードを 含む単語クラスである場合に、 ある単語クラスに含まれる単語の後ろに Ciに含まれる単語が現れる確率に、 単語クラス Ciに含まれる単語が認 識履歴情報 4 5 1に出現する出現数を想定出現単語総数で割った値を加 算する。 '
初期状態 4 5 2の P ([衣類] 1 [指示語]) には、 認識履歴情報 4 5 1に単語クラス [衣類] の単語が 4個現れているので、 想定単語出現総 数を 1 00として 4/1 0 0が加算されていることがわかる。
一方、 クラス重み修正部 3 8 1は、 単語クラス [衣類] 以外の単語ク ラスを Cjとした場合、 P (Cj I CM) から、 ((修正前の P (Cj I CM)) x (認〉識履歴のなかった単語クラス Cjの P (Cj I Ci-i) の総和)) x ((認 識履歴情報 4 5 1中の単語クラス [衣類] に属する単語の出現総数) / (想定出現単語総数)) を減算する。 すなわち、 Cjが付加情報のキーヮ 一ド情報に対応するキーヮードを含む単語クラス以外の単語クラスであ り、 Ciが付加情報のキーヮード情報に対応するキーヮードを含む単語ク ラスである場合に、 P (Cj I Ci-i) から、 ((修正前の P (Cj I Ci-i)) ノ認識履歴のなかった単語クラス Cjの P (Cj I CM) の総和))) x (認 識履歴情報 4 5 1中の Ciに属する単語の出現総数) / (想定出現単語総 数) を減算する。
初期状態 4 5 2の P ([家具] I [指示語]) からは、 ( 0. 3 / 0. 3) X (4/ 1 0 0) だけ減算されていることがわかる。 このようにするこ とにより、 図 2 5の適応後 4 5 3に示すように数 4における P (Cj I C .が補正される。
次に、 ステップ 4 24において、 クラス重み修正部 3 8 1は、 数 4に おける P (Ci I Ci» 1) を補正した数 4に示した N g r a m文法情報を 付加情報と対応させて文法記憶部 3 7 6に記憶させる。
次に、 音声認識の際には、 音声認識部 3 7 7は、 視聴者が発声した音 声を文法記憶部 3 7 6に記憶されている N g r a m文法情報を用いて音 尸 Sii、識する。
視聴者が 「あのジャケッ トいいな」 と発声した場合には、 音声認識部 3 7 7は、 文法記憶部 3 7 6に記憶されている補正された N g r a m文 法情報を用いて連続音声認識する。 その結果 「あのジャケッ トいいな」 という文章が認識される。 N g r a m文法情報は、 音声認識する際に音 声認識された読みの列を単語に区切る際に用いられる。 '
N g r a m文法情報を用いることにより、音声認識部 3 7 7力 S「あの」、 「ジャケッ ト」、 「いいな」 という単語を認識したとする。 そうすると、 次に音声認識部 3 7 7は、 付加情報に含まれるキーワード情報に対応す るキーヮードであるジャケットが音声認識された単語であるジャケッ ト と一致するので、 ジャケッ トの付加情報を特定する。 そして、 特定した ジャケッ トの付加情報を付加情報記憶部 3 1 7に記憶させる。 これ以降 の付加情報の処理に関する動作は実施の形態 1 と同様であるので説明を 省略する。 '
このように、 クラス重み修正部 3 8 1が、 数 4における P (Ci I Ci 1) を補正するので、 視聴者の趣味に適した連続音声がより認識されや すくなる。 従って、 放送された番組やコマーシャルに登場する対象物に 対応付けられた付加情報を視聴者の趣味に適するように特定することが 出来るようになる。
なお、 本実施の形態においても上記各実施の形態で説明した種々の変 形例が適用出来ることは言う間でもない。
なお、 本実施の形態では、 N g r a m文法情報が放送局 1 0から.送ら れてくるとして説明したが、 実施の形態 3と同様に N g r a m文法情報 をシーンコードなどにより選択するようにすることも出来る。 また、 逆 に実施の形態 3で、 N g r a m文法情報をシーンコードから選択する代 わりに、 実施の形態 4で説明したように、 N g r a m文法情報が放送局 から送られてくるとしても構わない。
さらに、 本実施の形態では、 N g r a m文法情報を用いて音声認識を 行うとして説明したが、 これに限らない。 N g r a m以外の言語モデル を用いても構わない。 ここで、 N g r a m以外の言語モデルとは、 例え ば、 隠れマルコフモデル (h i d d e n Ma r k o v mo d e l )、 確率文脈自由文法 (p r o b a b i l i s t i c c o n t e x t— f r e e g r a mm a r ) などである。 N g r a m以外の言語モデノレ、 たとえば隠れマルコフモデルにおいて、 認識結果に基づいて、 認識され た単語を出力する「状態」を S 1 とすると、 S 1へ遷移するアークを持つ 状態 S iそれぞれについて、 S iから S 1への遷移確率を増加させる。 あるいは確率文脈自由文法において、 認識された単語 (終端記号) を展 開する 「非終端記号」 を C 1 とすると、 C 1を含む記号列を展開する生 成規則の確率を増加させるものとしてもよい。
なお、 本実施の形態の放送局 1 0は本発明の第 1装置の例であり、 本 実施の形態の T V/S TB 3 1 0は本発明の第 2装置の例であり、.本実 施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、 本実施の 形態のクラス重み修正部 3 8 1は本発明の捕正手段の例であり、 本実施 の形態の音声認識部 3 77は本発明の音声認識手段の例であり、 本実施 の形態の音声認識部 3 77は本発明の特定手段の例であり、 本実施の形 態の表示部 3 1 8は本発明の表示手段の例である。
(実施の形態 5)
次に、 本発明の実施の形態 5における買い物支援システムについて説 明する。
本発明の実施の形態 5における買い物支援システムの概念構成を示す ブロック図は、 図 1で、 認識語彙記憶部 3 5 1を時間 ·言語モデル情報 記憶部 200 5に変更し、 音声認識部 3 52を音声認識部 3 77に変更 したものに相当する。 従って図 1の説明は実施の形態 1 と重複するので 省略する。 図 2 9に、 買い物支援システムの詳細を示す機能ブロック図 を示す。 1
TV/ S TB 3 1 0は、 図 29に示すように放送受信部 3 1 3、 制御 部 200 1、 音響出力部 200 3、 画像表示部 2004、 時間選択入力 手段 20 02、 時間 ·言語モデル情報記憶部 200 5、 情報選択部 20 06、 音声認識部 3 7 7、 マイクロホン 32 1、 及ぴ送信部 3 1 9から 構成される。 ' 放送受信部 3 1 3、 送信部 3 1 9、 リモートコントローラ 3 20、 マ イク口ホン 3 2 1については第 1の実施の形態と同様であるので、 詳細 な説明を省略する。
制御部 200 1は、 音響出力部 200 3、 画像表示部 2004、 情報 選択部 2006などを制御する手段である。
音響信号出力部 200 3は、 制御部 200 1から出力された音響信号 を音響信号出力部 200 3が有するスピーカから音声として出力する手 段である。
画像表示部 2 0 0 4は、 制御部 2 0 0 1から出力された映像信号を画 像表示部 2 0 0 4が有するディスプレイに表示する手段である。
時間選択入力手段 2 0 0 2は、 ボタンスィッチを含み、 買い物支援シ ステムの使用者が番組視聴中に興味を持ったものがある場合にはその時 の時間位置を指定する手段である。
時間 ·言語モデル情報記憶部 2 0 0 5は、 時間選択入力手段 2 0 0 2 で指定された時間位置と、 その時間位置に対応する言語モデル情報を記 憶する手段である。 · 音声認識部 3 7 7は、 買い物支援システムの使用者が発声した音声を N g r a m文法情報を用いて音声認識する手段である。
情報選択部 2 0 0 6は、 音声認識部 3 7 7が音声認識することにより 認識した単語と、 付加情報に含まれるキーヮード情報に対応するキーヮ ードとの合致の程度に応じて付加情報を選択する手段である。 なお、 情 報選択部 2 0 0 6は、 第 3の実施の形態の認識語彙生成部 3 7 1、 類義 語辞書 3 7 4、 語彙重み修正部 3 7 5、 認識履歴記憶部 3 6 3、 付加情 報記憶部 3 1 7などの各種の機能を有している。
送信部 3 1 9は、 選択された付加情報に含まれる購入情報を対応する 付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、 本実施の形態の T V / S T B 3 1 0は、 視聴している番組など を記録するハードディスクが内蔵されているものとする。
次に、 このような本実施の形態の動作を説明する。
図 3 0に本実施の形態の T V/ S T B 3 1 0の動作を示すフローチヤ ートを示す。 以下、 図 3 0に基づいて動作を説明する。
放送局 1 0からは、 放送されてくる放送内容である番組内容 2 0 0 7 が放送されるとともに、 放送内容に登場する対象物に対応付けられた付 加情報であって対象物の特定を行うためのキーヮード情報を含む付加情 報である番組付加情報 (商品情報) 2 0 0 8及び N g r a m文法情報で ある番組付加情報 (N g r a m文法) 2 0 0 9が放送されてくる。 放送 受信部 3 1 3は、 この放送を受信する。 すなわち、 第 3の実施の形態と は、 異なり本実施の形態では、 番組付加情報 (N g r a m文法) 2 0 0 9も放送局から放送されてくる。
制御部 2 0 0 1は、 放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及ぴ画像表示部 2 0 0 4に出力するとともに、 音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、 また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよう制御す る。 また、 制御部 2 0 0 1は、 番組内容 2 0 0 7、 番組付加情報 (商品 情報) 2 0 0 8、 番組付加情報 (N g r a m文法) 2 0 0 9など放送さ れてくる情報を、一旦内蔵のハードディスクに記録するように制御する。 今、 音響信号出力部 2 0 0 3のスピー力と画像表示部 2 0 0 4のディ スプレイとに、 例えばドラマの番組が出力されているとする。 そして、 本実施の形態の買い物支援システムの使用者は、 ドラマを視聴している とする。
そして、 視聴者が番組を視聴している最中に、 登場人物の洋服や、 ド ラマのセットとして用いられている家具や本など番組中で興味があるも のがディスプレイに映った場合、 この使用者は、 時間選択入力手段 2 0 0 2を操作して、 時間的な付箋を貼り付ける。
すなわち、 使用者は、 番組視聴中に興味あるものがディスプレイに映 つた時に、 時間選択入力手段 2 0 0 2が有するポタンスィツチを押す。 時間選択入力手段 2 0 0 2は、 使用者がポタンスィッチを押すことに よって入力した付箋を貼る命令が入力された時点の時刻より 1 0秒前の 時刻と付箋を貼る命令が入力された時点の時刻より 1 0秒後の時刻とを 時間位置として制御部 2 0 0 1に出力する (ステップ 5 0 1 )。
制御部 2 0 0 1は、 時間選択入力手段 2 0 0 2から時間位置を入力さ れると、 その時間位置と、 その時間位置に含まれる番組付加情報 (N g r a m文法) 2 0 0 9とを対応付けて、 時間情報おょぴ時間に対応する N g r a m文法 2 0 1 1 として時間 ·言語モデル情報記憶部 2 0 0 5に 格納する (ステップ 5 0 2 )。
次に、 使用者が番組の視聴を終了した後、 または視聴を中断した後、 制御部 2 0 0 1は、 時間 ·言語モデル情報記憶部 2 0 0 5に格納されて いる時間位置おょぴ時間に対応する N g r a m文法 2 O i lを読み出し- その読み出された時間位置に含まれる番組内容の音声信号及び映像信号 を内蔵のハードディスクから抽出し、 それぞれ音響信号出力部 2 0 0 3 及ぴ画像表示部 2 0 0 4に出力する(ステップ 5 0 3 )。このようにして、 時間 ·言語モデル情報記憶部 2 0 0 5に格納されている時間位置に含ま れるシーンが、 洋服を着たドラマの登場人物が映っているシーンである とすると、 時間位置で指定される時間幅すなわち 2 0秒間分の洋服を着 たドラマの登場人物が映っているシーンが再度使用者に提示される。
, また、 制御部 2 0 0 1は、 読み出した時間位置に対応する N g r a m 文法情報を情報選択部 2 0 0 6に出力する。 情報選択部 2 0 0 6は、 こ の N g r a m文法情報を音声認識部 3 7 7に出力する。
また、 制御部 2 0 0 1は、 読み出した時間位置に含まれる番組付加情 報 (商品情報) 2 0 0 8を内蔵ノ'、ードディスクから抽出し、 情報選択部 2 0 0 6に出力する。
使用者は、 再度提示された時間位置で指定されたシーンを見て登場人 物が着ている洋服を特定する音声をマイクロホン 3 2 1に入力する (ス テツプ 5 0 4 )。 例えば、 使用者は、 「あの、 洋服いいな」 とマイクロホ ン 3 2 1に向かって発声する。 ' そうすると、 音声認識部 3 7 7は、 時間 ·言語モデル情報記憶部 2 0 0 5から読み出されてきた番組付加情報 (N g r a m文法) 2 0 0 9で ある N g r a m文法情報を用いて、 「あの、 洋服いいな」 という音声信号 を音声認識する (ステップ 5 0 5 )。
すなわち、 使用者が 「あの洋服いいな」 と発声した場合には、 音声認 識部 3 7 7は、 時間 ·言語モデル情報記憶部 2 0 0 5から読み出され、 実施の形態 3のように最適化された N g r a m文法情報を用いて連続音 声認識する。 なお、 N g r a m文法情報を最適化する方法は実施の形態 3と同様であるので、 詳細な説明を省略する。 その結果 「あの洋服いい な」 という文章が認識される。 N g r a m文法情報は、 音声認識する際 に音声認識された読みの列を単語に区切る際に用いられる。
N g r a m文法情報を用いることにより、音声認識部 3 7 7が「あの」、 「洋服」、 「いいな」 という単語を認識したとする。 そうすると、 次に音 声認識部 3 7 7は、 「あの」、 「洋服」、 「いいな」 という単語列を情報選択 部 2 0 0 6に出力する。
情報選択部 2 0 0 6は、 抽出された付加情報 (商品情報) 2 0 1 3に 含まれるキーワード情報に対応するキーヮードである洋服が音声認識さ れた単語である洋服と一致するので、 洋服の付加情報を特定する。 そし て、 特定した洋服の付加情報を選択された情報 2 0 1 3として送信部 3 1 9に出力する。 送信部 3 1 9は、 選択された情報 2 0 1 3に含まれる 購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する (ステップ 5 0 6 )。
なお、 時間選択入力手段 2 0 0 2がタツチパネルを含むものである場 合には、 使用者は、 番組視聴中に興味あるものがディスプレイに映った 時に、 タツチパネルの付箋ポタンに触れればよい。 また、 時間選択入力 手段 2 0 0 2がマイクを含むものである場合には、 使用者は、 番組視聴 中に興味あるものがディスプレイに映った時に、 「付箋'を貼って」などと 発声すればよい。
さらに、 本実施の形態では、 情報選択部 20 0 6が時間 '言語モデル 情報記憶部 2 0 0 5から読み出された N g r a m文法情報が、 実施の形 態 3と同様の方法により最適化するとして説明したが、 これに限らず、 実施の形態 4と同様の方法により最適化しても構わない。
さらに、本実施の形態では、時間'言語モデル情報記憶部 2 0 0 5が、 時間位置と番組付加情報 (N g r a m文法) 2 0 0 9である N g r a m 文法情報とを時間情報および時間に対応する N g r a m文法 2 0 1 1と して格納するとして説明したが、 これに限らない。 時間 '言語モデル情 報記憶部 2 0 0 5が、 時間位置のみを格納し、 N g r a m文法情報は格 納しなくても構わない。 なお、 この場合には、 制御部 2 0 0 1は、 ステ ップ 5 03において、 読み出した時間位置に含まれる N g r a m文法情 報を内蔵ハードディスクに格納されている番組付加情報 (N g r a m文 法) 2 00 9から抽出して、 情報選択部 2 00 6に出力すればよい。
さらに、本実施の形態では、時間 ·言語モデル情報記憶部 2 0 0 5が、 時間位置と番組付加情報 (N g r a m文法) 2 0 0 9である N g r a m 文法情報とを時間情報および時間に対応する N g r a m.文法 2 0 1 1 と して格納するとして説明したが、 これに限らない。 時間 '言語モデル情 報記憶部 2 00 5が、 時間位置と番組付加情報 (N g r a m文法) 2 0 0 9である N g r a m文法情報に加え、 時間位置に含まれる番組付加情 報 (商品情報) 2 0 0 8を格納しても構わない。 なお、 この場合には、 制御部 20 0 1は、 ステップ 5 0 3において、 読み出した時間位置に含 まれる付加情報 (商品情報) 2 0 0 8を時間 ·言語モデル情報記憶部 2 0 0 5から読み出し、 情報選択部 2 00 6に出力すればよい。 さらに、 本実施の形態では、 放送局 1 0から番組付加情報 (N g r a m文法) 2 0 0 9が送信されてくるとして説明したが、番組付加情報(N g r a m文法) 2 0 0 9の代わりに実施の形態 1や実施の形態 2で説明 した認識語彙セッ トが放送局 1 0から放送されてきても構わない。なお、 この場合には、 制御部 2 0 0 1、 音声認識部 3 7 7、 及び情報選択部 2 0 0 6は、 N g r a m文法情報の代わりに認識語彙セッ トを扱い、 情報 選択部 2 0 0 6及び音声認識部 3 7 7の動作は第 1の実施の形態や第 2 の実施の形態と同様に認識語彙セットを用いて、 付加情報 (商品情報) 2 0 0 8を特定するものとする。
さらに、 本実施の形態では、 番組付加情報 (商品情報) 2 0 0 8の全 てを内蔵のハードディスクに記録し、 時間選択入力手段 2 0 0 2で指定 された時間位置に含まれる番組付加情報 (商品情報) 2 0 0 8のみを提 示するとして説明したが、 これに限らない。 時間軸選択入力手段 2 0 0 2で指定された時間位置に含まれる番組付加情報 (商品情報) 2 0 0 8 のみを記憶しておき提示しても構わない。
このように本実施の形態によれば、 番組視聴中ではなく番組終了後ま たは番組中断後に付加情報 (商品情報) を特定する動作を行うので、 番 組視聴中に使用者の番組の視聴を中断することなく付加情報(商品情報) の特定を行うことが出来る。
(実施の形態 6 )
次に、 本発明の実施の形態 6における買い物支援システムについて説 明する。
本発明の実施の形態 6における買い物支援システムの概念構成を示す ブロック図は、 図 1で、 認識語彙記憶部 3 5 1を商品情報 ·言語モデル 情報記憶部 2 0 1 5に変更し、 音声認識部 3 5 2を音声認識部 3 7 7に 変更したものに相当する。 従って図 1の説明は実施の形態 1 と重複する ので省略する。 図 3 1に、 買い物支援システム (以下買い物支援システ ムと呼ぶ) の詳細を示す機能ブロック図を示す。
T V/S T B 3 1 0は、 図 3 1に示すように放送受信部 3 1 3、 制御 部 200 1、 音響出力部 200 3、 画像表示部 2004、 時間選択入力 手段 200 2、 商品情報 ·言語モデル情報記憶部 20 1 5、 情報選択部 20 1 6、 音声認識部 3 77、 マイクロホン 32 1、 及び送信部 3 1 9 から構成される。
放送受信部 3 1 3、 送信部 3 1 9、 リモートコントローラ 3 20、 マ イク口ホン 3 2 1については第 1の実施の形態と同様であるので、 詳細 な説明を省略する。
制御部 200 1は、 音響出力部 200 3、 画像表示部 2004、 情報 選択部 200 6などを制御する手段である。
音響信号出力部 2003は、 制御部 200 1から出力された音響信号 を音響信号出力部 200 3が有するスピーカから音声として出力する手 段である。
画像表示部 2004は、 制御部 200 1から出力された映像信号を画 像表示部 2004が有するディスプレイに表示する手段である。
時間選択入力手段 2002は、 ボタンスィッチを含み、 買い物支援シ ステムの使用者が番組視聴中に興味を持ったものがある場合にはその時 の時間位置を指定する手段である。
商品情報 ·言語モデル情報記憶部 20 1 5は、 時間選択入力手段 20 0 2で指定された時間位置に対応する付加情報として言語モデル情報 (N g r a m文法情報) と商品情報とを記憶する手段である。
音声認識部 3 7 7は、 買い物支援システムの使用者が発声した音声を N g r a m文法情報を用いて音声認識する手段である。
情報選択部 20 1 6は、 音声認識部 3 7 7が音声認識することにより 認識した単語と、 付加情報に含まれるキーヮード情報に対応するキーヮ ードとの合致の程度に応じて付加情報を選択する手段である。 なお、 情 報選択部 2 0 0 6は、 第 3の実施の形態の認識語彙生成部 3 7 1、 類義 語辞書 3 7 4、 語彙重み修正部 3 7 5、 認識履歴記憶部 3 6 3、 付加情 報記憶部 3 1 7などの各種の機能を有している。
送信部 3 1 9は、 選択された付加情報に含まれる購入情報を対応する 付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、 本実施の形態の T V Z S T B 3 1 0は、 実施の形態 5のように 視聴している番組などを記録するハードディスクが内蔵されていてもよ いが、 ハードディスクが内蔵されていなくても構わない。
次に、 このような本実施の形態の動作を第 5の実施の形態との相違点 を中心に説明する。
図 3 1に本実施の形態の T V Z S T B 3 1 0の動作を示すフローチヤ ートを示す。 以下、 図 3 1に基づいて動作を説明する。
放送局 1 0からは、 放送されてくる放送内容である番組内容 2 0 0 7 が放送されるとともに、 放送内容に登場する対象物に対応付けられた付 加情報であって対象物の特定を行うためのキーヮード情報を含む付加情 報である番組付加情報 (商品情報) 2 0 0 8及び N g r a m文法情報で ある番組付加情報 (N g r a m文法) 2 0 0 9が放送されてくる。 放送 受信部 3 1 3は、 この放送を受信する。 すなわち、 第 3の実施の形態と は、 異なり本実施の形態では、 番組付加情報 (N g r a m文法) 2 0 0 9も放送局から放送されてくる。
制御部 2 0 0 1は、 放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及び画像表示部 2 0 0 4に出力するとともに、 音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、 また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよう制御す る。 .
今、 音響信号出力部 2 0 0 3のスピーカと画像表示部 2 0 0 4のディ. スプレイとに、 例えばドラマの番組が出力されているとする。 そして、 本実施の形態の買い物支援システムの使用者は、 ドラマを視聴している とする。
ステップ 5 1 1の動作は、 第 5の実施の形態のステップ 5 0 1の動作 と同様である。
次に、 制御部 2 0 0 1は、 時間選択入力手段 2 0 0 2から時間位置を 入力されると、 その時間位置に含まれる番組付加情報 (商品情報) 2 0 0 8である商品情報と番組付加情報 (N g r a m文法) 2 0 0 9である N g r a m文法情報とを選択された時間に対応する商品情報と N g r a πι文法 2 0 1 7として、 商品情報 ·言語モデル情報記憶部 2 0 1 5に格 納する (ステップ 5 1 2 )。
次に、 使用者が番組の視聴を終了した後、 または視聴を中断した後、 制御部 2 0 0 1は、 商品情報 ·言語モデル情報記憶部 2 0 1 5に格納さ れている N g r a m文法情報と商品情報とを読み出し、 商品情報を一覧 表にして画像表示部 2 0 0 4に出力する。 画像表示部 2 0 0 4は商品情 報の一覧表をディスプレイに表示する。 (ステップ 5 1 3 )。 図 3 3にこ のようにして表示された商品情報の例を示す。 すなわち、 時間選択入力 手段 2 0 0 2が時間位置を指定した範囲に映っていた商品の商品情報が 図 3 3のように表示される。 このようにして使用者に時間位置を指定し た商品情報が提示される。
また、 制御部 2 0 0 1は、 読み出した N g r a m文法情報と商品情報 とを情報選択部 2 0 0 6に出力する。 情報選択部 2 0 0 6は、 この N g r a m文法情報を音声認識部 3 7 7に出力する。 使用者は、 図 3 3の商品情報の一覧表を見ながら、 洋服を特定する音 声をマイクロホン 3 2 1に入力する (ステップ 5 14)。 例えば、 使用者 は、 「あの、 洋服いいな」 とマイクロホン 3 2 1に向かって発声する。 な お、 ステップ 5 1 4以降の動作は第 5の実施の形態の動作と同様である ので説明を省略する。
なお、 第 5の実施の形態で説明した変形例は、 第 6の実施の形態でも 同様に適用することが出来る。
このように本実施の形態によれば、 番組視聴中ではなく番組終了後ま たは番組中断後に付加情報 (商品情報) を特定する動作を行うので、 番 組視聴中に使用者の番組の視聴を中断することなく付加情報(商品情報) の特定を行うことが出来る。
(実施の形態 7)
次に、 本発明の実施の形態 7における買い物支援システムについて説 明する。
本発明の実施の形態 7における買い物支援システムの概念構成を示す プロック図は、 図 1で、 認識語彙記憶部 3 5 1を音声 ·商品情報 ·言語 モデル情報記憶部 201 9に変更し、 音声認識部 3 5 2を音声認識部 3 7 7に変更したものに相当する。 従って図 1の説明は実施の形態 1 と重 複するので省略する。 図 34に、 買い物支援システム (以下買い物支援 システムと呼ぶ) の詳細を示す機能プロック図を示す
T V/S TB 3 1 0は、 図 34に示すように放送受信部 3 1 3、 制御 部 20 1 8、 音響出力部 200 3、 画像表示部 2004、 音声 ·商品情 報 ·言語モデル情報記憶部 20 1 9、 情報選択部 2020、 音声認識部 3 7 7、 マイクロホン 32 1、 及ぴ送信部 3 1 9から構成される。
放送受信部 3 1 3、 送信部 3 1 9、 リモートコントローラ 3 20、 マ イク口ホン 3 2 1については第 1の実施の形態と同様であるので、 詳細 な説明を省略する。
制御部 2 0 1 8は、 音響出力部 2 0 0 3、 画像表示部 2 0 0 4、 情報 選択部 2 0 0 6などを制御する手段である。
音響信号出力部 2 0 0 3は、 制御部 2 0 0 1から出力された音響信号 を音響信号出力部 2 0 0 3が有するスピーカから音声として出力する手 段である。 '
画像表示部 2 0 0 4は、 制御部 2 0 1 8から出力された映像信号を画 像表示部 2 0 0 4が有するディスプレイに表示する手段である。
音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9は、 番組視聴中に買 い物支援システムの使用者がマイクロホン 3 2 1に向かって発声した時 点を含む 2 0秒間の間に含まれる付加情報として言語モデル情報 (N g r a m文法情報) と商品情報と、 使用者が発声した音声を記憶する手段 である。
音声認識部 3 7 7は、 買い物支援システムの使用者が発声した音声を N g r a m文法情報を用いて音声認識する手段である。
情報選択部 2 0 2 0は、 音声認識部 3 7 7が音声認識することにより 認識した単語と、 付加情報に含まれるキーヮード情報に対応するキーヮ ードと 合致の程度に応じて付加情報を選択する手段である。 なお、 情 報選択部 2 0 2 0は、 第 3の実施の形態の認識語彙生成部 3 7 1、 類義 語辞書 3 7 4、 語彙重み修正部 3 7 5、 認識履歴記憶部 3 6 3、 付加情 報記憶部 3 1 7などの各種の機能を有している。
送信部 3 1 9は、 選択された付加情報に含まれる購入情報を対応する 付加情報の識別番号等とあわせて放送局へ送信する手段である。
なお、 本実施の形態の T V S T B 3 1 0は、 実施の形態 5のように 視聴している番組などを記録するハードディスクが内蔵されていてもよ いが、 ハードディスクが内蔵されていなくても構わない。 次に、 このような本実施の形態の動作を第 5の実施の形態及び第 6の 実施の形態との相違点を中心に説明する。
図 3 5に本実施の形態の T V / S T B 3 1 0の動作を示すフローチヤ ートを示す。 以下、 図 3 5に基づいて動作を説明する。
放送局 1 0からは、 放送されてくる放送内容である番組内容 2 0 0 7 が放送されるとともに、 放送内容に登場する対象物に対応付けられた付 加情報であって対象物の特定を行うためのキーヮード情報を含む付加情 報である番組付加情報 (商品情報) 2 0 0 8及び N g r a m文法情報で ある番組付加情報 (N g r a m文法) 2 0 0 9が放送されてくる。 放送 受信部 3 1 3は、 この放送を受信する。 すなわち、 第 3の実施の形態と は、 異なり本実施の形態では、 番組付加情報 (N g r a m文法) 2 0 0 9も放送局から放送されてくる。
制御部 2 0 1 8は、 放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及ぴ画像表示部 2 0 0 4に出力するとともに、 音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、 また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよ,う制御す る。
今、 音響信号出力部 2 0 0 3のスピーカと画像表示部 2 0 0 4のディ スプレイとに、 例えばドラマの番組が出力されているとする。 そして、 本実施の形態の買い物支援システムの使用者は、 ドラマを視聴している とする。
そして、 視聴者が番組を視聴している最中に、 登場人物の洋服や、 ド ラマのセッ トとして用いられている家具や本など番組中で興味があるも のがディスプレイに映った場合、 この使用者は、 マイクロホン 3 2 1に 向かって発声する (ステップ 5 2 1 )。 次に、 制御部 2 0 1 8は、 ステップ 5 2 1で入力された入力音声と、 その入力音声が入力された時 の時間位置を含む 2 0秒間の間に含まれ る商品情報と N g r a m文法情報を音声 ·商品情報 ·言語モデル情報記 憶部に格納する (ステップ 5 2 2 )。 つまり、 制御部 2 0 1 8は、 入力音 声が入力された時点を含む 2 0秒間の間に含まれる番組付加情報 (商品 情報) 2 0 0 8である商品情報と、 番組付加.情報 (N g r a m文法) 2 0 0 9'である N g r a m文法情報とを選択された時間に対応する商品情 報と N g r a m文法 2 0 1 7として音声 ·商品情報 ·言語モデル情報記 憶部 2 0 1 9に格納する。 また、 制御部 2 0 1 8は、 ステップ 5 2 1で 入力された入力音声を時間選択時の入力音声 2 0 2 2として音声 ·商品 情報 ·言語モデル情報記憶部 2 0 1 9に格納する。
次に制御部 5 2 3は、 番組の視聴を中断することなく、 音声 ·商品情 報 ·言語モデル情報記憶部 2 0 1 9に記憶された時間選択時の入力音声 2 0 2 2を、 その入力音声に^応する、 音声 ·商品情報 ·言語モデル情 報記憶部 2 0 1 9に記憶されている N g r a m文法情報を用いて音声,認 識部 3 7 7が音声入力するように制御する。 この制御に従って、 音声認 識部 3 7 7は、 音声認識を行う (ステップ 5 2 3 )。 そして、 情報選択部 2 0 2 0は、 商品情報の特定が可能な場合は商品情報の特定を行う。 こ の商品情報の特定の動作は、第 3の実施の形態と同様にして行う。なお、 ステップ 5 2 3の動作を行っている場合には、 番組の視聴は中断されな レ、。
次に、 音声認識部 3 7 7による音声認、識の結果、 情報選択部 2 0 2 0 が商品情報を特定出来る場合には、 ステップ 5 2 8に進み、 商品情報を 特定できない場合には、ステップ 5 2 5に進む(ステップ 5 2 4 )。なお、 商品情報を特定出来る場合とは、 例えば、 「あの洋服いいな」 など時間選 択時の入力音声 2 0 2 2が具体的な商品を示している場合であり、 商品 情報を特定出来ない場合とは、 例えば 「あれ、 いいな」 など時間選択時 の入力音声 2 0 2 2が具体的な商品を示していない場合である。
ステップ 5 2 8において、 制御部 2 0 1 8は、 番組視聴終了後または 番組視聴中断後に、 特定された商品情報を使用者に提示するよう情報選 択部 2 0 2 0、 音響出力部 2 0 0 3、 画像表示部 2 0 0 4を制御する。 この制御に従って、 画像表示部 2 0 0 4のディスプレイには、 特定され た商品情報が表示され、 ステップ 5 3 0に進む。
一方、 ステップ 5 2 5において、 番組視聴終了後または番組視聴中断 後に、 制御部 2 0 1 8は、 時間選択時の入力音声 2 0 2 2が入力された 時点を含む 2 0秒間に含まれる商品情報を音声 ·商品情報 ·言語モデル 情報記憶部 2 0 1 9から読み出して、 商品情報の一覧表として画像表示 部 2 0 0 4に出力する。 そして、 雨像表示部は商品情報の一覧表表示す る。図 3 3にこのようにして表示された商品情報の例を示す。すなわち、 時間選択時の入力音声 2 0 2 2が入力された時点を含む 2 0秒間に含ま れる商品情報が図 3 3のように表示される。 このようにして使用者に時 間位置を指定した商品情報が提示される。
使用者は、 図 3 3の一覧表を見ながら、 マイクロホン 3 2 1に向かつ て、 特定したい商品情報を特定する音声を入力する (ステップ 5 2 6 )。 例えば、 洋服を特定したい場合には、 「あの、 洋服いいな」 など洋服を特 定する音声をマイクロホン 3 2 1に向かって発声する。
次に、 音声認識部 3 7 7は、 時間選択時の入力音声 2 0 2 2が入力さ れた時点を含む 2 0秒間に含まれる N g r a m文法情報を音声 '商品情 報 ·言語モデル情報記憶部 2 0 1 9から読み出し、 読み出した N g r a m文法情報を用いて音声認識を行う (ステップ 5 2 7 )。 すなわち、 使用 者が 「あの洋服いいな」 と発声した場合には、 音声認識部 3 7 7は、 時 間 ·言語モデル情報記憶部 2 0 0 5から読み出され、 実施の形態 3のよ うに最適化された N g r a m文法情報を用いて連続音声認識する。なお、 N g r a m文法情報を最適化する方法は実施の形態 3と同様であるので、 詳細な説明を省略する。 その結果 「あの洋服いいな」 という文章が認識 される。 N g r a m文法情報は、 音声認識する際に音声認識された読み の列を単語に区切る際に用いられる。
N g r a m文法情報を用いることにより、音声認識部 3 7 7が「あの」、 「洋服」、 「いいな」 という単語を認識したとする。 そうすると、 次に音 声認識部 3 7 7は、 「あの」、 「洋服」、 「いいな」 という単語列を情報選択 部 2 0 2 0に出力する。
情報選択部 2 0 0 6は、 音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に含まれるキーヮード情報に対応するキーヮードである洋服が音声 認識された単語である洋服と一致するので、洋服の付加情報を特定する。 ステップ 5 3 0において、 情報選択部 2 0 2 0は、 特定された付加情 報を選択された情報 2 0 1 3 として送信部 3 1 9に出力する。 送信部 3 1 9は、 選択された情報 2 0 1 3に含まれる購入情報を対応する付加情 報の識別番号等とあわせて放送局へ送信する (ステップ 5 3 0 )。
なお、 第 7の実施の形態では、 ステップ 5 2 6において図 3 3の一覧 表を見てから音声を入力するとしたが、 第 5の実施の形態のように、 時 間位置で指定されるシーンが再度提示されたのを見て音声入力するとし てもよい。
なお、 第 5の実施の形態で説明した変形例は、 第 7の実施の形態でも 同様に適用することが出来る。
このように本実施の形態によれば、 番組視聴中ではなく番組終了後ま たは番組中断後に付加情報 (商品情報) を提示したり、 特定したりする 動作を行うので、 番組視聴中に使用者の番組の視聴を中断することなく 付加情報 (商品情報) の特定を行うことが出来る。 なお、 本実施の形態では、 図 3 5に示すフローチャートに従って動作 するとして説明したが、 これに限らず、 図 3 6に示すフローチャートに 従って動作しても構わない。 図 3 6に示すフローチャートでは、 図 3 5 に示すフローチヤ一トとはステップ 5 2 2の挿入位置が異なっている。 すなわち、 図 3 5ではステップ 5 24の前にステップ 5 2 2を行ってい たのに対して、 図 3 6では、 ステップ 5 24で音声認識により商品情報 が特定できなかった場合にのみステップ 5 2 2が行われている。 このよ うに音声認識により商品情報が特定できなかった場合にのみ音声入力の あった時間位置に対応する商品情報と N g r a m文法を格納するとして も本実施の形態と同等の効果を得ることが出来る。
(関連技術 1) '
次に、 本発明に関連する技術である関連技術 1について説明する。 図 2 6は、 本発明の関連技術 1における買い物支援システムのうち、 買い物のための番組付加情報を番組作成と同時に自動作成する部分を示 す機能ブロック図である。 図 2 7に本発明の関連技術 1における買い物 支援システムのうち番組付加情報を番組作成と同時に自動作成する動作 を示す流れ図を示す。
図 2 6において番組記録装置 1 0 1 0及び付加情報コード発信機 1 0 2 0が示されている。
付加情報コード発信機 1 0 2 0は、 番組付加情報のコード番号を電波 あるいは赤外線により発信する発信機である。
番組記録装置 1 0 1 0は、 マイクロホン 1 0 1 1、 カメラ 1 0 1 2、 受信部 1 0 1 3、 付加情報照合用データベース 1 0 1 4、 情報照合部 1 0 1 7、 番組付加情報データベース 1 0 1 5、 及び番組記憶部 1 0 1 6 を備える。
受信部 1 0 1 3は、 付加情報コード発信機 1 0 20の信号を受信する 手段である。 付加情報照合用データベース 1 0 1 4は、 番組付加情報の コード番号と番組付加情報の照合情報とが記録されているデータベース である。 情報照合部 1 0 1 7は、 付加情報照合用データベース 1 0 1 4 の内容から、 カメラおよびマイクロホンから入力した画像および音響信 号中に受信部 1 0 1 3で受信した付加情報コードに対応する物あるいは 生物あるいは人物が記録されているか否かを判断する手段である。 番組 付加情報データベース 1 0 1 5は、 番組に記録する付加情報を記憶した データベースである。 番組記憶部 1 0 1 6は、 画像および音響信号およ び番組付加情報を同期して記録する手段である。
次に、 このような関連技術 1の動作を説明する。
以下、 図 2 7を参照して説明する。 なお、 図 2 7の流れ図に従う動作 を行った場合には、物、生物、あるいは人物などの多数の対象物のうち、 その対象物が映像中に捉えられている場合のみにその対象物の番組付加 情報を放送する放送内容を自動的に作成することが出来るようになる。 まず、 図 2 7の流れ図に基づいて、 動作の概要を説明する。
まず、 撮影に先立って付加情報コード発信機 1 0 2 0を対応する付加 情報がある物、 生物、 あるいは人物に取り付ける(ステップ 1 0 3 1 )。 撮影はカメラ 1 0 1 2とマイクロホン 1 0 1 1より、 画像と音響信号 を入力すると同時に受信部 1 0 1 3より付加情報コード発信機が発信し た信号を受信する(ステップ 1 0 3 2 )。
次に、 情報照合部 1 0 1 7において発信機の信号の有無および受信し た信号に付加情報コードが含まれているか否かを判断する(ステップ 1 0 3 3 )。ステップ 1 0 3 3において発信機の信号が無いあるいは受信信 号に付加情報コードが含まれていなかった場合は、 カメラ 1 0 1 2およ ぴマイクロホン 1 0 1 1より入力された画像と音響信号のみを記録する (ステップ 1 0 4 0 )。 TJP2003/017015
81 一方、 ステップ 1 0 3 3において受信内容に付加情報コードがあった 場合は、 付加情報照合用データベース 1 0 1 4より付加情報コードに対 応した照合情報を抽出し(ステップ 1 0 3 4)、情報照合部 1 0 1 7は力 メラ 1 0 1 2およびマイクロホン 1 0 1 1より入力ざれた画像および音 響信号中に照合情報に該当するものがあるかどうかを判断する(ステツ プ 1 0 3 5 )。
ステップ 1 0 3 5で入力された画像および音響信号中に照合情報に該 当するものが無いと判断された場合はカメラ 1 0 1 2およびマイクロホ ン 1 0 1 1より入力された画像と音響信号のみを記録する(ステップ 1 0 4 0)。
ステップ 1 0 3 5で入力された画像および音響信号中に照合情報に該 当するものがあると判断された場合は番組付加情報データベース 1 0 1 5より該当する番組付加情報を抽出し、 画像および音響信号に同期して 記録する(ステップ 1 0 3 6 )。
図 2 8に、 番組やコマーシャルなどの放送内容を製作している撮影現 場を示す。 撮影現場にはカメラ 1 0 1 2が設置されており、 カメラ 1 0 1 2は設置場所を移動することが出来る。 例えばカメラ 1 0 1 2は、 力 メラ 1 0 1 2 aの位置からカメラ 1 0 1 2 bの位置まで自由に移動する ことが出来る。
また、 撮影現場にはそれぞれ異なった固定位置に位置固定発信機 1 0 3 0 a、 1 0 3 0 b , 1 0 3 0 cが設置されている。 これらの位置固定 発信機 1 0 3 0 a、 1 0 3 0 b、 1 0 3 0 cは、 3次元の固定座標を作 る。 なお、 図 2 8では固定位置に 3台の位置固定発信機 1 0 3 0 a、 1 0 3 0 b、 1 0 3 0 cが設置されているとして説明したが、 これに限ら ず、 3台以上の位置固定発信機を固定位置に設置しても構わない。
カメラ 1 0 1 2は、 移動や姿勢変更をすることが出来るが、 位置固定 発信機 1 0 3 0 a 、 1 0 3 0 b , 1 0 3 0 cそれぞれからの信号を受信 することにより、 カメラ 1 0 1 2自身の座標上の位置及ぴ姿勢の情報を 計算することが出来る。
一方、付加情報コード発信機 1 0 2 0は、位置固定発信機 1 0' 3 0 a 、
1 0 3 0 b , 1 0 3 0 cからの信号を受信することにより、 自分の座標 上の位置を計算する。 そして、 付加情報コード発信機 1 0 2 0は、 自分 の座標上の位置を発信する。
また、カメラ 1 0 1 2は、カメラ 1 0 1 2自身の座標上の位置と姿勢、 付加情報コード発信機 1 0 2 0の座標上の位置、 カメラ 1 0 1 2の内部 情報としての焦点距離と視野角より、 付加情報コード発信機 1 0 2 0が そのカメラ 1 0 1 2の撮影範囲内に存在するか否かを判断する。
そして、 カメラ 1 0 1 2は、 付加情報コード発信機 1 0 2 0がカメラ
1 0 1 2の撮影範囲内の存在すると判断した場合には、 その付加情報コ ード発信機 1 0 2 0から送られてきた付加情報コードを情報照会部 1 0
1 7に出力する。 また、 カメラ 1 0 1 2は、 付加情報コード発信機 1 0
2 0がカメラ 1 0 1 2の撮影範囲内には存在しないと判断した場合には、 その付加情報コード発信機 1 0 2 0から送られてきた付加情報コードを 情報照会部 1 0 1 7には出力しない。 このようにすすることにより情報 照会部 1 0 1 7は、 付加情報コード 1 0 2 0が送られてきた場合にはそ の付加情報コード 1 0 2 0に対応する番組付加情報を映像音声と同期さ せて記録することにより対象物が映像中に捉えられている場合のみにそ の対象物に対応つけられた番組付加情報を放送する放送内容を自動的に 作成することが出来る。
以上のように本関連技術 1における番組付加情報を番組作成と同時に 自動作成システムによれば、 番組作成後に製作者が全シーンを確認して 番組付加情報を番組に付加、 記録していく作業が不要となり、 番組作成 の作業時間の短縮および作業コス トの削減が可能となる。
なお、 本関連技術 1では、 付加情報コード発信機 1 0 2 0は付加情報 のコード番号を発信したが、 付加情報照合用データを発信し、 情報照合 部 1 0 1 6は付加情報照合用データベースを利用せず、 受信したデータ に基づいて画像および音響信号との照合を行うとしても良い。
なお、 本関連技術 1では、 情報照合部 1 0 1 7は番組付加情報データ ベースよりコード番号に対応する番組付加情報を抽出して画像および音 響信号と同期させて記録するとしたが、 番組と付加情報とをリンクする タグ情報を記録するとしても良い。
尚.、 本発明のプログラムは、 上述した本発明の第 2装置の全部又は一 部の手段 (又は、 装置、 素子等) の機能をコンピュータにより実行させ るためのプログラムであって、 コンピュータと協働して動作するプログ ラムである。
又、 本発明の記録媒体は、 上述した本発明の第 2装置の全部又は一部 の手段 (又は、 装置、 素子等) の全部又は一部の機能をコンピュータに より実行させるためのプログラムを担持した記録媒体であり、 コンビュ ータにより読み取り可能且つ、 読み取られた前記プログラムが前記コン ピュータと協動して前記機能を実行する記録媒体である。
尚、 本発明の上記 「一部の手段 (又は、 装置、 素子等)」 とは、 それら の複数の手段の內の、一つ又は幾つかの手段を意味し、本発明の上記「一 部のステップ (又は、 工程、 動作、 作用等)」 とは、 それらの複数のステ ップの Λの、 一つ又は幾つかのステップを意味する。
又、 本発明の上記 「手段 (又は、 装置、 素子等) の機能」 とは、 前記 手段の全部又は一部の機能を意味し、 本発明の上記 「ステップ (又は、 工程、 動作、 作用等) の動作」 とは、 前記ステップの全部又は一部の動 作を意味する。 又、 本発明のプログラムの一利用形態は、 コンピュータにより読み取 り可能な記録媒体に記録され、 コンピュータと協働して動作する態様で あっても良い。 .
又、 本発明のプログラムの一利用形態は、 伝送媒体中を伝送し、 コン ピュータにより読みとられ、 コンピュータと協働して動作する態様であ つても良レ、。
又、 本発明のデータ構造としては、 データベース、 データフォーマツ ト、 データテーブル、 データリスト、 データの種類などを含む。
又、 記録媒体としては、 R O M等が含まれ、 伝送媒体としては、 イン ターネット等の伝送媒体、 光 ·電波 ·音波等が含まれる。
又、 上述した本発明のコンピュータは、 C P U等の純然たるハードウ エアに限らず、 ファームウェアや、 O S、 更に周辺機器を含むものであ つても良い。
尚、 以上説明した様に、 本発明の構成は、 ソフトウエア的に実現して も良いし、 ハードゥヱァ的に実現しても良い。 産業上の利用可能性
以上説明したところから明らかなように、 本発明は、 放送された番組 やコマーシャルに登場する対象物をより手間がかからずより簡単に入手 することが出来る放送受信方法、 放送受信システム、 第 1装置、 第 2装 置、 記録媒体、 及びプログラムを提供することが出来る。
また、 本発明は、 放送された番組やコマーシャルに登場する対象物を 視聴者が発声するときの表現に適するようにして手間がかからず簡単に 入手することが出来る放送受信方法、 放送受信システム、 第 1装置、 第 2装置、 記録媒体、 及ぴプログラムを提供することが出来る。
また、 本発明は、 放送された番組やコマーシャルに登場する対象物を 17015
85 視聴者の興味に適するようにして手間がかからず簡単に入手することが 出来る放送受信方法、 放送受信システム、 第 1装置、 第 2装置、 記録媒 体、 及びプログラムを提供することが出来る。

Claims

請 求 の 範 囲
1 . 放送局から放送されてくる放送内容に登場する対象物に対応付け られた付加情報であって前記対象物を特定するためのキーヮード情報を 含む前記付加情報を前記放送内容と同時に放送する放送を受信する受信 ステップと、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーヮード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セット生成ステップと、
視聴者が発声した音声を音声認識する音声認識ステツプと、 その音声認識結果により認識された単語が前記認識語彙セッ トに含ま れる場合、 その認識語彙セットに対応する前記キーヮード情報を特定す る特定ステップと、
その特定した前記キーワード情報に対応付けられた付加情報を表示す る表示ステップとを備えた、 放送受信方法。
2 . 放送局から放送されてくる放送内容に登場する対象物に対応付け られた付加情報であって前記対象物を特定するためのキーヮード情報を 含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置と、
前記第 1装置から放送される前記放送を受信する受信手段、 及び単語 間の類義性を基準にして、 複数の単語が各単語クラスに分類された類義 語辞書を利用して、 前記キーヮード情報に対応する単語を含む前記単語 クラスに属する単語から構成される認識語彙セッ トを前記付加情報と対 応させて生成する認識語彙セット生成手段及び、 視聴者が発声した音声 を音声認識する音声認識手段、 及びその音声認識結果により認識された 単語が前記認識語彙セッ トに含まれる場合、 その認識語彙セッ トに対応 する前記キーヮード情報を特定する特定手段、 及ぴその特定した前記キ ーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置とを備えた、 放送受信システム。
3 . 放送局から放送されてくる放送内容に登場する対象物に対応付け られた付加情報であって前記対象物を特定するためのキーヮード情報を 含む前記付加情報を前記放送内容と同時に放送する放送手段を備え、 前記放送は、 前記放送を受信する受信手段、 及び単語間の類義性を基 準にして、 複数の単語が各単語クラスに分類された類義語辞書を利用し て、 前記キーヮード情報に対応する単語を含む前記単語クラスに属する 単語から構成される認識語彙セッ トを前記付加情報と対応させて生成す る認識語彙セット生成手段、 及び視聴者が発声した音声を音声認識する 音声認識手段、 及びその音声認識結果により認識された単語が前記認識 語彙セッ トに含まれる場合、 その認識語彙セットに対応する前記キーヮ 一ド情報を特定する特定手段、 及びその特定した前記キーヮード情報に 対応付けられた付加情報を表示する表示手段を有する第 2装置によって 受信される、 第 1装置。
4 . 放送局から放送されてくる放送内容に登場する対象物に対応付け られた付加情報であって前記対象物を特定するためのキーヮード情報を 含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーヮード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セッ ト生成手段と、
視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果により認識された単語が前記認識語彙セットに含ま れる場合、 その認識語彙セットに対応する前記キーワード情報を特定す る特定手段と、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示手段とを備えた、 第 2装置。
5 . 前記類義語辞書の各単語には、 予め決められた出現頻度が付加さ れており、
前記音声認識手段は、 前記音声認識の候補として複数の単語が認識さ れた場合、 前記出現頻度の高い方の単語を前記音声認識結果で認識され た単語として特定する、 請求の範囲第 4項記載の第 2装置。
6 . 前記音声認識結果の認識結果に応じて、 前記出現頻度を書き替え る出現頻度補正手段を備えた、 請求の範囲第 5項記載の第 2装置。
7 . 前記音声認識結果の履歴情報に応じて、 前記認識語彙セッ トの各 単語に対応する前記出現頻度を書き替える出現頻度補正手段を備え、 前記認識語彙セッ トの各単語には、 その単語に対応する前記出現頻度 が付加されており、
前記音声認識手段は、 前記認識語彙セッ トの前記出現頻度を用いて前 記音声認識を行う、 請求の範囲第 5項記載の第 2装置。 .
8 . 表示された前記付加情報に対する所定の操作が行われた場合、 そ' の所定の操作に対応する指示を所定の送信先に送信する送信手段を備え た、 請求の範囲第 4〜 7項のいずれかに記載の第 2装置。
9 . 前記番組付加情報は商品販売情報及び Zまたはサービス販売情報 であり、
前記所定の操作に対応する指示とは、 前記商品及ぴ または前記サー ビスの資料請求または購入指示情報である、 請求の範囲第 8項記載の第 2装置である。
1 0 . 請求の範囲第 4項記載の第 2装置の、 放送局から放送されてくる 放送内容に登場する対象物に対応付けられた付加情報であって前記対象 物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容 と同時に放送する放送手段を有する第 1装置から放送される前記放送を 受信する受信手段と、
単語間の類義性を基準にして、 複数の単語が各単語クラスに分類され た類義語辞書を利用して、 前記キーヮード情報に対応する単語を含む前 記単語クラスに属する単語から構成される認識語彙セッ トを前記付加情 報と対応させて生成する認識語彙セット生成手段と、
視聴者が発声した音声を音声認識する音声認識手段と、
その音声認識結果により認識された単語が前記認識語彙セットに含ま れる場合、 その認識語彙セットに対応する前記キーヮード情報を特定す る特定手段と、
その特定した前記キーヮード情報に対応付けられた付加情報を表示す る表示手段としてコンピュータを機能させるためのプログラム。
1 1 . 請求の範囲第 1 0項記載のプログラムを担持した記録媒体であつ て、 コンピュータにより処理可能な記録媒体。
PCT/JP2003/017015 2003-01-15 2003-12-26 放送受信方法、放送受信システム、記録媒体、及びプログラム WO2004064393A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/542,409 US7698138B2 (en) 2003-01-15 2003-12-26 Broadcast receiving method, broadcast receiving system, recording medium, and program
AU2003296157A AU2003296157A1 (en) 2003-01-15 2003-12-26 Broadcast reception method, broadcast reception system, recording medium, and program
JP2004566305A JPWO2004064393A1 (ja) 2003-01-15 2003-12-26 放送受信方法、放送受信システム、記録媒体、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003007442 2003-01-15
JP2003-7442 2003-01-15

Publications (1)

Publication Number Publication Date
WO2004064393A1 true WO2004064393A1 (ja) 2004-07-29

Family

ID=32709113

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/017015 WO2004064393A1 (ja) 2003-01-15 2003-12-26 放送受信方法、放送受信システム、記録媒体、及びプログラム

Country Status (5)

Country Link
US (1) US7698138B2 (ja)
JP (1) JPWO2004064393A1 (ja)
CN (1) CN1757229A (ja)
AU (1) AU2003296157A1 (ja)
WO (1) WO2004064393A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163710A (ja) * 2004-12-06 2006-06-22 Nec Corp 番組情報蓄積装置及び方法並びに番組情報蓄積用プログラム
JP2006285115A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 情報提供方法および情報提供装置
JP2013140520A (ja) * 2012-01-05 2013-07-18 Fujitsu Ltd 画像再生装置、画像再生プログラム、及び画像再生方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
EP1699042B1 (en) * 2003-12-26 2010-02-17 Kabushiki Kaisha Kenwood Device control device, method and program
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
JP5459214B2 (ja) * 2008-08-20 2014-04-02 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2010072507A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 音声認識検索装置及び音声認識検索方法
US20120017155A1 (en) * 2010-07-19 2012-01-19 John Lynch Instant delayed gratification presentation-interactive electronic commerce
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9172999B2 (en) * 2012-08-08 2015-10-27 Verizon Patent And Licensing Inc. Behavioral keyword identification based on thematic channel viewing
CN104093079B (zh) 2014-05-29 2015-10-07 腾讯科技(深圳)有限公司 基于多媒体节目的交互方法、终端、服务器和***
WO2017199486A1 (ja) * 2016-05-16 2017-11-23 ソニー株式会社 情報処理装置
CN107665710B (zh) * 2016-07-27 2021-02-09 上海博泰悦臻网络技术服务有限公司 移动终端语音数据处理方法及装置
WO2019188269A1 (ja) 2018-03-27 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法
FR3095563A1 (fr) * 2019-04-26 2020-10-30 Orange Commande d’un service utilisant le traitement d’un flux comprenant des données multimédias

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916191A (ja) * 1995-06-29 1997-01-17 Asahi Chem Ind Co Ltd ナビゲータ用音声認識装置および方法
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2001229180A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
JP2001258011A (ja) * 2000-03-08 2001-09-21 Sony Corp データ送信方法および装置、データ受信方法および装置、データ表示方法および装置、並びに情報サービス方法および装置
JP2002290859A (ja) * 2001-03-26 2002-10-04 Sanyo Electric Co Ltd ディジタル放送受信装置
JP2002330422A (ja) * 2001-04-27 2002-11-15 Sony Corp デジタル放送を用いた商品販売ビジネスの方法、およびデジタル放送受信装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6323911B1 (en) * 1995-10-02 2001-11-27 Starsight Telecast, Inc. System and method for using television schedule information
JPH09186943A (ja) 1996-01-08 1997-07-15 Canon Inc データ受信方法とその装置
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6131086A (en) * 1997-04-02 2000-10-10 Walker Digital, Llc Method and system for allowing viewers to purchase program products
JPH11110385A (ja) 1997-10-01 1999-04-23 Nippon Hoso Kyokai <Nhk> 言語処理装置および方法
JPH11252533A (ja) 1998-03-05 1999-09-17 Toshiba Corp 情報表示装置
US7536706B1 (en) * 1998-08-24 2009-05-19 Sharp Laboratories Of America, Inc. Information enhanced audio video encoding system
JP3979556B2 (ja) 1998-12-22 2007-09-19 パイオニア株式会社 番組選択装置及び番組選択方法
US6314398B1 (en) 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
JP2002010207A (ja) 2000-06-26 2002-01-11 Matsushita Electric Ind Co Ltd 放送情報受信装置、放送情報送信装置、放送情報受信方法及び放送情報送信方法
JP2002091477A (ja) 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US20020143550A1 (en) * 2001-03-27 2002-10-03 Takashi Nakatsuyama Voice recognition shopping system
US6760705B2 (en) * 2001-05-31 2004-07-06 Motorola, Inc. Virtual speech interface system and method of using same
ATE550755T1 (de) 2001-08-28 2012-04-15 Panasonic Corp Empfangsverfahren für funkübertragungen
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US8261306B2 (en) * 2001-12-11 2012-09-04 Koninklijke Philips Electronics N.V. System for and method of shopping through television
US20060206339A1 (en) * 2005-03-11 2006-09-14 Silvera Marja M System and method for voice-enabled media content selection on mobile devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916191A (ja) * 1995-06-29 1997-01-17 Asahi Chem Ind Co Ltd ナビゲータ用音声認識装置および方法
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2001229180A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
JP2001258011A (ja) * 2000-03-08 2001-09-21 Sony Corp データ送信方法および装置、データ受信方法および装置、データ表示方法および装置、並びに情報サービス方法および装置
JP2002290859A (ja) * 2001-03-26 2002-10-04 Sanyo Electric Co Ltd ディジタル放送受信装置
JP2002330422A (ja) * 2001-04-27 2002-11-15 Sony Corp デジタル放送を用いた商品販売ビジネスの方法、およびデジタル放送受信装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163710A (ja) * 2004-12-06 2006-06-22 Nec Corp 番組情報蓄積装置及び方法並びに番組情報蓄積用プログラム
JP2006285115A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 情報提供方法および情報提供装置
JP4736511B2 (ja) * 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
JP2013140520A (ja) * 2012-01-05 2013-07-18 Fujitsu Ltd 画像再生装置、画像再生プログラム、及び画像再生方法

Also Published As

Publication number Publication date
US7698138B2 (en) 2010-04-13
JPWO2004064393A1 (ja) 2006-05-18
AU2003296157A1 (en) 2004-08-10
US20060259299A1 (en) 2006-11-16
CN1757229A (zh) 2006-04-05

Similar Documents

Publication Publication Date Title
WO2004064393A1 (ja) 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP3762926B2 (ja) 放送受信方法、放送システム、プログラム及び記録媒体
US6553345B1 (en) Universal remote control allowing natural language modality for television and multimedia searches and requests
KR101644789B1 (ko) 방송 프로그램 연관 정보 제공 장치 및 방법
US6513006B2 (en) Automatic control of household activity using speech recognition and natural language
US8738371B2 (en) User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter
US8442389B2 (en) Electronic apparatus, reproduction control system, reproduction control method, and program therefor
CN102378050B (zh) 使用文本转语音转换的广播***
US20110060592A1 (en) Iptv system and service method using voice interface
KR20100067174A (ko) 음성 인식을 이용한 메타데이터 검색기, 검색 방법, iptv 수신 장치
CN106210901B (zh) 显示装置
CN113194346A (zh) 一种显示设备
JP2003255992A (ja) 対話システムおよびその制御方法
JPWO2007069512A1 (ja) 情報処理装置及びプログラム
JP2001022374A (ja) 電子番組ガイドの操作装置および電子番組ガイドの送信装置
US20220293106A1 (en) Artificial intelligence server and operation method thereof
US20210133609A1 (en) Artificial intelligence device
JP4367713B2 (ja) 放送受信方法、放送受信システム、第1装置、第2装置、音声認識方法、音声認識装置、プログラム及び記録媒体
JP5330005B2 (ja) デジタルフォトフレーム、情報処理システム及び制御方法
US20230282209A1 (en) Display device and artificial intelligence server
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2005141328A (ja) 予知ロボット装置、予知ロボットの制御方法、及び予知ロボットシステム
JP2010044614A (ja) キーフレーズ抽出装置、シーン分割装置およびプログラム
US20230054251A1 (en) Natural language processing device
WO2020240996A1 (ja) 情報処理装置、情報処理方法、および、プログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004566305

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006259299

Country of ref document: US

Ref document number: 10542409

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20038A99175

Country of ref document: CN

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10542409

Country of ref document: US