WO2007029348A1 - データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム - Google Patents

データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム Download PDF

Info

Publication number
WO2007029348A1
WO2007029348A1 PCT/JP2005/019775 JP2005019775W WO2007029348A1 WO 2007029348 A1 WO2007029348 A1 WO 2007029348A1 JP 2005019775 W JP2005019775 W JP 2005019775W WO 2007029348 A1 WO2007029348 A1 WO 2007029348A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
terminal
server
image
unit
Prior art date
Application number
PCT/JP2005/019775
Other languages
English (en)
French (fr)
Inventor
Kengo Nakajima
Original Assignee
Community Engine Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Community Engine Inc. filed Critical Community Engine Inc.
Priority to JP2006519016A priority Critical patent/JPWO2007029348A1/ja
Priority to US11/991,451 priority patent/US8321198B2/en
Publication of WO2007029348A1 publication Critical patent/WO2007029348A1/ja
Priority to US13/593,616 priority patent/US8700702B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Definitions

  • the present invention relates to a data extraction system for extracting predetermined data on a web page force on the web.
  • the present invention also relates to a terminal device and a server device used in the data extraction system, and relates to a program for the terminal device and a program for the server device.
  • an information extraction device that analyzes text data by morphological analysis and extracts numerical data in association with parts of speech such as nouns has been developed (for example, see Patent Document 1).
  • This device cuts out text data one sentence at a time and extracts sentences with numerical values. Then, the dependency in the sentence is judged, and the phrase related to the numerical value is extracted.
  • Patent Document 1 Japanese Unexamined Patent Application Publication No. 2005-149359
  • Patent Document 1 performs all processing such as morphological analysis of obtained text data, phrase extraction, phrase storage, and phrase display in a single process. Since it is performed by the device, there is a problem that a burden force S is applied to the device.
  • the present invention is a data that can disperse the processing required to extract predetermined data including words and phrases and reduce the burden on each device. It aims to provide an extraction system. Also, a terminal device and a server device used in the data extraction system, and a terminal device program and a server device The purpose is to provide a program.
  • a data extraction system of the present invention is a data extraction system for extracting predetermined data from a web page on the web, and includes a plurality of terminals and a server connected to the terminals.
  • the terminal is not stored in the data storage means by the search means for searching the web page from the web, the extraction means for extracting the predetermined data from the web page, and the collation means Receiving the predetermined data or information corresponding to the predetermined data from the server, and outputting the predetermined data or information corresponding to the predetermined data And wherein the Rukoto to have a door.
  • a web page on the web is searched by the terminal, and the web page force is also extracted from the predetermined data.
  • the extracted data is collated by the server and the data is stored. That is, it is possible to extract predetermined data on the web page force on the web by distributing processing related to data extraction between the terminal and the server. This makes it possible to find new data that has not been created in the conventional web page.
  • the predetermined data is a phrase having a combination of parts of speech of a predetermined morpheme
  • the server uses a combination of parts of speech of the morpheme for extracting the phrase.
  • Part of speech accumulating means for accumulating and the terminal has morphological analysis means for morphological analysis of text data in the web page searched by the searching means, and the morpheme stored in the part of speech accumulating means
  • a combination of morpheme parts-of-speech that matches the morpheme part-of-speech combination received from the server is morphologically analyzed by the morpheme analysis unit.
  • the word / phrase extracted from the text data and not stored in the data storage means by the server verification means Received from the server, and displaying on the display screen by the output means The phrase.
  • the text data in the web page can be morphologically analyzed by the terminal, and the word / phrase that combines the morpheme part-of-speech stored in the server part-of-speech storage unit can be extracted. It can be determined whether or not the data is stored by the storage means. Therefore, each process related to phrase extraction can be distributed between the terminal and the server. Therefore, it is possible to perform morphological analysis on a web page with a huge amount of data on the web.
  • the server transmits the words that are not stored in the data storage unit by the verification unit to all of the plurality of terminals. This makes it possible for all terminals to share new phrases extracted by terminals. In addition, it is not necessary for one terminal to view all the text data on the web, and each terminal can share and extract words and phrases, thereby further reducing the burden on the terminal.
  • the server transmits, to the terminal from which the word / phrase has been extracted by the extraction unit, the word / phrase that has not been accumulated in the data accumulation unit by the collation unit.
  • the terminal that has received the phrase transmits the phrase to another terminal.
  • the extracted new phrase can be shared by all terminals.
  • the server does not transmit / receive words to / from all terminals.
  • the terminal 2 that receives the phrase does not transmit it to all the terminals 2 connected to the server 3. That is, the transmission of words can be distributed among the terminals 2 connected to the server 3, and the burden on the terminal 2 and the server 3 can be reduced.
  • the part-of-speech storage unit stores a combination of parts of speech of new morphemes input by the terminal. This makes it possible to extract combinations of morpheme parts of speech that the user wants.
  • the data extraction system of the present invention is characterized in that the server transmits only the words satisfying a predetermined condition among the words extracted by the extraction means to the terminal. As a result, only words that satisfy a predetermined condition are displayed, and it is possible to make it difficult to display words that cause noise. Therefore, more accurate word extraction is possible.
  • the terminal receives only a web page that satisfies a predetermined condition. As a result, it is possible to make it difficult to display a word that becomes a noise from words displayed on the terminal. Therefore, more accurate word extraction is possible.
  • the server transmits a combination of morpheme parts of speech requested by the terminal to the terminal.
  • the server transmits a combination of morpheme parts of speech requested by the terminal to the terminal.
  • the output means of the terminal receives the web page from which the word / phrase has been extracted by selecting the word / phrase displayed on the display screen.
  • the web page is displayed on the display screen of the terminal. This allows us to see how the words extracted by this system are used. That is, the user can easily use the displayed phrase as a new phrase.
  • the server aggregates the number of times the word displayed on the display screen is selected by a plurality of the terminals, and associates the display based on the number with the word. And transmitting to the terminal so as to be displayed on the display screen of the terminal. This makes it possible to know what words the user is paying attention to.
  • the terminal has image extraction means for extracting the web page force image searched by the search means, and the server receives the extracted image, Image storage means for storing the image, and the collating means collates the power of the extracted image stored in the image accumulating means;
  • the information corresponding to the image stored in the image storage means is received from the Sano and the information corresponding to the image is displayed on the display screen by the output means.
  • web page images on the Web can be extracted together with the words in the text data.
  • the web page power on the web that has been newly constructed or updated has also been It is possible to find new images that have not been formed on the e-page.
  • the terminal includes image compression means for reducing the size of the image extracted by the image extraction means and performing color reduction to compress the image into predetermined bytes
  • the server receives the image compressed by the image compression unit, stores the compressed image by the image storage unit, and based on the bit string of the image compressed by the collating unit, It is characterized in that an image is collated with force or power, which is an image stored in the image storage means. This makes it possible to reduce the size of the image and reduce the image capacity. Therefore, the server collating means can quickly collate a large amount of images stored in the image accumulating unit with images extracted and compressed by the terminal. Therefore, it is possible to quickly process a large amount of data extracted from the web page force.
  • the terminal has voice extraction means for extracting voice from the web page searched by the search means, and the server receives the extracted voice, A voice storage means for storing the voice; the collating means collates the power of the extracted voice stored in the voice accumulation means; and the terminal uses the collating means to Information corresponding to the voice that is not stored in the voice storage means is received from the server, and the information corresponding to the voice is output by the output means.
  • the voice of the web page on the web can be extracted in the same manner as the words and phrases in the text data. In other words, a newly constructed or updated web page power on the web It is possible to find a new voice that has not been created in the past.
  • the terminal includes voice compression means for compressing the voice extracted by the voice extraction means in a time axis direction
  • the server includes the voice compression means.
  • the compressed voice is received by the voice storage means, the compressed voice is stored by the voice storage means, and the voice is stored in the voice storage means based on the bit string of the voice compressed by the collating means. It is characterized by checking whether or not it is a stored voice. As a result, the size of the voice can be reduced, and the volume of the voice is reduced. Therefore, the server verification means is stored in the image storage unit. It is possible to quickly compare a large amount of voice and the voice extracted and compressed by the terminal. Therefore, it is possible to quickly process a huge amount of data extracted from web page power.
  • the predetermined data is an image.
  • the predetermined data is voice.
  • the terminal device of the present invention is a terminal device connected to a server and used for a data extraction system for extracting predetermined data on a web page force on the web, and searches the web page from the web.
  • Search means for extracting the predetermined data from the web page
  • data transmission means for transmitting the predetermined data extracted by the extraction means to the server
  • the predetermined data transmitted by the data transmission means It is verified whether or not the data is the predetermined data stored in the data storage means of the server, and the predetermined data determined not to be stored in the data storage means or information corresponding to the predetermined data
  • Data receiving means for receiving data from the server, and the predetermined data received by the data receiving means or information corresponding to the predetermined data.
  • Output means for outputting.
  • the terminal device of the present invention web page search and data extraction are performed.
  • each processing related to word extraction can be distributed among connected servers, and the burden of processing is reduced. Therefore, it is possible to analyze a huge amount of data on a web page, and to perform quick processing analysis.
  • a program for a terminal device of the present invention is a program for a terminal device that is used in a data extraction system that extracts predetermined data from a web page on the web and is connected to a server.
  • Data receiving process for receiving predetermined data or information corresponding to the predetermined data from the server, and outputting the predetermined data received in the data receiving process or information corresponding to the predetermined data Output processing.
  • processing such as web page search and data extraction is executed by the terminal device, and distribution of each process related to data extraction of the server connected to the terminal device is performed. Is possible. In other words, the burden of processing on the terminal device that implements this program is reduced. Therefore, it is possible to analyze an enormous amount of data on a web page, and to provide a program capable of quick processing analysis.
  • the server device of the present invention is a server device used in a data extraction system for extracting predetermined data on a web page force on the web, searching the web page from the web, Data receiving means connected to a plurality of terminals for extracting predetermined data from the web page force and receiving the predetermined data extracted by the terminal, and the predetermined data received by the data receiving means
  • Data transmitting means for transmitting the predetermined data stored in the means or the information corresponding to the predetermined data so as to be output to the terminal; Yes, characterized in that.
  • the collation of the extracted data and the accumulation of the data are performed. That is, each process relating to phrase extraction can be distributed among connected terminals, and the burden of processing is reduced. Therefore, it is possible to analyze a huge amount of data on a web page, and to perform quick processing analysis.
  • the server device program of the present invention is a server device program used in a data extraction system for extracting predetermined data from a web page on the web, and the server device is loaded from the web.
  • a data receiving process for searching a web page and connected to a plurality of terminals for extracting the predetermined data from the web page force, and for receiving the predetermined data extracted by the terminal from the terminal,
  • a data storage process for storing the predetermined data received in the data reception process; and
  • the predetermined data received in the communication process is collated for verifying whether or not the predetermined data is a word accumulated by the data accumulation process, and is accumulated by the data accumulation process by the collation process.
  • a data transmission process for transmitting the predetermined data or information corresponding to the predetermined data so that the terminal outputs the predetermined data.
  • each process related to data extraction of a terminal connected to the server device is executed by executing processing such as collating data extracted by the server device and storing data. Can be distributed. In other words, the burden imposed on the processing in the server device that implements this program is reduced. Therefore, it is possible to analyze a huge amount of data on a web page, and to provide a program capable of quick processing analysis.
  • the data extraction system of the present invention searches a web page on the web with a terminal, and extracts predetermined data from the web page.
  • the extracted data is collated by the server and the data is stored. That is, it is possible to extract predetermined data on the web page force on the web by distributing processing related to data extraction between the terminal and the server. This makes it possible to find powerful new data that has not been formed in the web page from the newly constructed or updated web page on the web.
  • the terminal device of the present invention performs web page search and data extraction. In other words, each process related to word extraction can be distributed among connected servers, and the burden of processing is reduced. Therefore, it is possible to analyze a huge amount of data on a web page, and to perform rapid processing.
  • the program of the terminal device allows processing such as web page search and data extraction to be executed by the terminal device, and distribution of each process related to data extraction of a server connected to the terminal device is possible. It becomes. In other words, the burden of processing on the terminal device that implements this program is reduced. Therefore, it is possible to analyze a huge amount of data on a web page and provide a program that can be processed quickly.
  • the server device of the present invention collates the extracted data and stores the data. In other words, each process related to phrase extraction can be distributed among connected terminals. The burden of force is reduced. Therefore, it is possible to analyze a huge amount of data on a web page, and to perform rapid processing.
  • the program of the server device of the present invention can execute processing such as collation of data extracted by the server device and storage of data, and can distribute each processing related to data extraction of the terminals connected to the server device. It becomes. In other words, the burden on the server device that implements this program is reduced. Therefore, it is possible to analyze an enormous amount of data on a web page and provide a program that can be processed quickly.
  • FIG. 1 is a network configuration diagram of a data extraction system described in a first embodiment.
  • FIG. 2 is a block diagram showing a configuration of a terminal of the data extraction system described in the first embodiment.
  • FIG. 3 is a block diagram showing a configuration of a server of the data extraction system described in the first embodiment.
  • FIG. 4 is a diagram showing an example of a display screen described in the first embodiment.
  • FIG. 5 is a flowchart showing processing until a word or phrase is extracted from a text data card of the data extraction system described in the first embodiment.
  • FIG. 6 is a flowchart showing processing up to collation of words / phrases by the collation unit of the server of the data extraction system described in the first embodiment.
  • FIG. 7 is a block diagram showing a configuration of a terminal of the data extraction system described in the second embodiment.
  • FIG. 8 is a network configuration diagram of a data extraction system described in a second embodiment.
  • FIG. 9 is a block diagram showing a server configuration of a data extraction system described in a third embodiment.
  • FIG. 10 is a block diagram showing a configuration of a terminal of the data extraction system described in the fourth embodiment.
  • FIG. 11 is a block diagram showing a configuration of a terminal of the data extraction system described in the fifth embodiment.
  • FIG. 12 is a block diagram showing a server configuration of the data extraction system described in the fifth embodiment.
  • FIG. 12 is a block diagram showing a server configuration of the data extraction system described in the fifth embodiment.
  • FIG. 13 is a block diagram showing a terminal configuration of a data extraction system described in a sixth embodiment.
  • FIG. 14 is a block diagram showing a configuration of a server of a data extraction system described in a sixth embodiment.
  • the data extraction system of the present invention described in Embodiment 1 includes a plurality of terminals 2 that are terminal devices such as personal computers, and are connected to the plurality of terminals 2 via the network 1.
  • the server 3 is a server device, and a web sano connected to the plurality of terminals 2 and the server 3 via the network 1. These terminal 2, server 3 and websano can communicate with each other.
  • FIG. 2 is a block diagram showing the configuration of the data extraction system of the present invention.
  • Terminal 2 includes interface 20, search unit 21, morphological analysis unit 22, extraction unit 23, output unit 24, and input unit.
  • the interface 20 connects the terminal 2 to the network 1.
  • the terminal 2 transmits and receives information such as phrases, parts of speech, text data, images, and voices to and from the server 3 and the web server 4 via the interface 20 connected to the network 1.
  • the search unit 21 is a search unit that searches for a web page of a web sano connected to the network, and receives a web page from the web server 4 via the interface 20.
  • the search unit 21 sends the text data in the received web page to the morpheme analysis unit 22.
  • a web page including text data from which the selected phrase has been extracted is received from the web server 4 and displayed. Display on the screen.
  • This search unit 21 The web page is automatically searched from the web server 4 to which the terminal 2 is connected.
  • the morpheme analysis unit 22 is a morpheme analysis unit that performs morpheme analysis that decomposes text data into morphemes and analyzes the parts of speech of the morphemes.
  • the morpheme analysis unit 22 performs morpheme analysis on the text data in the web page received by the search unit 21 based on the possessed dictionary.
  • the dictionary used by the morphological analysis unit 22 may be received from a web as long as it is a dictionary for morphological analysis, or may be introduced directly from the disk-like medium to the terminal 2.
  • the extraction unit 23 is an extraction unit that uses the morpheme part-of-speech analyzed by the morpheme analysis unit 22 to extract a phrase that the morpheme is associated with a predetermined part-of-speech string.
  • This extraction unit receives the combination of morpheme parts of speech from the part of speech storage unit 31 of the server 3, and the text data power obtained by the morpheme analysis unit 22 in the morpheme analysis unit 22. Is extracted.
  • the extraction unit 23 transmits the extracted word / phrase to the server 3 via the interface 20 that functions as a data transmission unit.
  • the extraction unit 23 can also extract! /, Which does not extract words including unknown words that are not in the dictionary at the time of extraction.
  • a phrase is data that also includes one or more morphological forces.
  • the word “figure recognition-euron” t is composed of three morphological forces: “figure”, “recognition”, and “neuron” t.
  • the phrase “screen” also constitutes one morphological force called “screen”.
  • the morphemes are classified according to parts of speech such as nouns, adjectives, particles and verbs.
  • the morpheme analysis unit 22 decomposes the text data into morphemes based on the installed dictionary and analyzes the part of speech of the morphemes. For words that are not in the dictionary, they are unknown words.
  • the extracting unit 23 determines whether or not the part of speech of the morpheme forming one word is in a predetermined combination! / Is extracted as phrase data. For example, when “noun” + “noun” + “noun” is received from server 3 so that a combination of three nouns is extracted as a combination of morpheme parts of speech, the figure recognition neuron shown in the above example Text data analyzed by morpheme If it is included in the data, this "figure recognition-euron" is extracted.
  • This combination of parts of speech is not particularly limited, and may be a specific character in the part of speech, for example, “noun” + “participant“ no ”” + “noun”. Further, only “unknown words” may be used.
  • the output unit 24 determines that the collation unit 33 of the server 3 does not accumulate the phrase storage unit 32 and displays the phrase received via the interface 20 functioning as a data reception unit. Is an output means for displaying on the screen.
  • the phrase displayed by the output unit 24 is a phrase that is newly stored in the phrase storage unit 32.
  • the display screen that displays the words by the output unit 24 can display a web page including the text data from which the words are extracted by inputting the displayed words from the input unit 25.
  • the input unit 25 can select the words displayed on the display screen by the output unit 24. Further, the input unit 25 can input a combination of morpheme parts of speech stored in the part of speech storage unit 31 of the server 3. In addition, the terminal 2 and the server 3 can be operated so as to perform predetermined processing. For example, it is possible to manually input a command to display a combination of morpheme parts of speech and phrases stored in the part of speech storage unit 31 and the phrase storage unit 32 of the server 3 on the display screen of the terminal 2.
  • the terminal 2 executes a predetermined program under the control of a CPU (Central Processing Unit) (not shown) to thereby perform the search unit 21, the morpheme analysis unit 22, the extraction unit 23, and the output described above.
  • a CPU Central Processing Unit
  • the functions of each member including the unit 24, the input unit 25, and the search condition storage unit 26 are realized.
  • the server 3 includes an interface 30, a part-of-speech storage unit 31, a phrase storage unit 32, a collation unit 33, and a frequency measurement unit 35.
  • the interface 30 connects the server 3 to the network.
  • Information such as words, parts of speech, images, and sounds is transmitted to and received from the terminal 2 and the web server 4 through the interface 30 connected to the network 1.
  • the part-of-speech accumulating unit 31 is a part-of-speech accumulating unit for accumulating combinations of morpheme parts of speech in order for the extracting unit 23 of the terminal 2 to extract words.
  • This part-of-speech storage unit 31 is, for example, “noun
  • Part of speech storage 31 sends the stored morpheme part-of-speech combinations to terminal 2 via interface 30 serving as a part-of-speech transmission means.
  • the combination of morpheme parts of speech in the part of speech accumulation unit 31 can also be accumulated from the input unit 25 of the terminal 2.
  • a list of part-of-speech combinations may be formed in advance, and may be stored in the part-of-speech storage unit 31 by inputting from the input unit 25 so as to select the combination power of the parts of speech displayed in the list. This makes it possible to extract combinations of morpheme parts of speech desired by the user.
  • the phrase storage unit 32 is a data storage unit that stores the phrases extracted by the extraction unit 23 of the terminal 2.
  • the phrase storage unit 32 receives the phrase extracted by the extraction unit 23 via the interface 30 that is a data receiving unit. Then, the word storage unit 32 stores the word / phrase when the collation unit 33 stores the received word / phrase in the word / phrase!
  • a URL Uniform Resource Locator
  • This URL may be sent to terminal 2 together with the words and phrases sent by matching unit 33 to be displayed on the display screen by output unit 24 of terminal 2, but depending on the selection by input unit 25 on the display screen of terminal 2 May be transmitted to the terminal 2.
  • the phrase storage unit 32 stores the number of times the phrase is selected by the input unit 25 of the terminal 2 measured by the number counting unit 35 in association with the phrase. This number of times is transmitted to the terminal 2 by the number counting unit 35 so as to be displayed in association with a word displayed on the display screen of the terminal 2.
  • the phrase or the like stored in the phrase storage unit 32 can be transmitted to the terminal 2 in response to an operation input by the input unit 25 of the terminal 2.
  • the phrase storage unit 32 is input from the input unit 25 of the terminal 2 so as to show the history of the phrase that has been stored, the history is transmitted to the terminal 2 and displayed on the display screen of the terminal 2. It can also be displayed. This is done by arranging the words in order and displaying them on the display screen of terminal 2 in the selected number of times.
  • the collating unit 33 is a collating unit that receives the word / phrase extracted by the extracting unit 23 of the terminal 2 and collates the power of the word / phrase stored in the word / phrase accumulating unit 31. As a result of collation, the collation unit 33 If it is not stored in the product section 32, the phrase is stored in the phrase storage section 32, and the phrase is transmitted to the terminal 2 via the interface 30 serving as a data transmission means.
  • the frequency measuring unit 35 measures the number of times that the word / phrase displayed on the display screen of the terminal 2 is selected by the input unit 25. The number of times is stored in association with the words stored in the word storage unit 32. The number counting unit 35 can count the number of times selected by all the terminals 2 connected to the server 3. The number measuring unit 35 transmits the number of times measured through the interface 30 to the terminal 2 so as to be displayed in association with the phrase on the display screen of the terminal 2.
  • This server 3 executes a predetermined program under the control of a CPU (not shown) to thereby store the part-of-speech storage unit 31, the phrase storage unit 32, the verification unit 33, and the verification condition storage unit 34 described above.
  • the function of each member including the number counting unit 35 is realized.
  • the web server 4 has an interface and is connected to the terminal 2 and the server 3 via the network 1 and can send and receive information such as web pages.
  • the web server 4 stores a web page including text data, images, sounds, and the like.
  • the search unit 21 searches for the web page, and the terminal 2 receives the web page.
  • the search unit 21 of the terminal 2 searches for a web page. And as a result of the search, the search unit
  • a process as shown in FIG. 4 is performed.
  • the terminal 2 morpheme analyzer 22 performs morpheme analysis on the received web page text data as in step S41. By this morphological analysis, the part of speech of the morpheme in the text data is analyzed.
  • the extraction unit 23 stores the morpheme stored in the part-of-speech storage unit 31 of the server 3 in step S42 in order to extract a word / phrase that is a combination of the part-of-speech of the text data power predetermined morpheme. Receive part-of-speech combinations.
  • the extraction unit 23 determines whether or not a word or phrase that is a combination of morpheme part-of-speech matches the morpheme part-of-speech combination received from the part-of-speech storage unit 31 of the server 3 To check. As a result, the extraction unit 23 ends this process when there is no phrase that is a combination power of parts of speech of matching morphemes.
  • step S43 if there is a word / phrase that also has a combination power of the corresponding morpheme parts of speech, the extraction unit 23 extracts the corresponding word / phrase as in step S44. At this time, the extraction unit 23 associates the URL that is the destination of the web page including the text data from which the word is extracted with the extracted word.
  • the extraction unit 23 transmits the word / phrase to be extracted to the server 3 via the interface 20 as in step S45. Then, as in step S46, the extraction unit 23 adds another morpheme part-of-speech combination that matches the morpheme part-of-speech combination received from the sano 3 part-of-speech storage unit 31 in the morphological-analyzed text data Check if there are any words.
  • step S46 if there is another word / phrase that also has the ability to combine parts of speech of matching morphemes, the extraction unit 23 proceeds to step S44 and repeats until the word / phrase cannot be extracted from the text data subjected to morphological analysis. On the other hand, in step S46, if there is no other word / phrase that also has a matching power of part of speech of the corresponding morphological analysis, this process is terminated. At this time, the extraction unit 23 transmits the URL associated with the phrase to the server 3 together with the phrase.
  • the search unit 21 can automatically search and extract a word or phrase having a web page force including the text data received from the web server 4 and a combination power of parts of speech of a predetermined morpheme.
  • the server 3 sends the transmitted word / phrase to the collation unit 33 as in step S51. Then, the collation unit 33 collates whether or not the received word is in the word accumulation unit 32 as in step S52. As a result, if the received phrase is in the phrase storage unit 32, the matching unit 33 As in step S53, the collated word / phrase is deleted, and this process is terminated.
  • step S52 if the received phrase is not in the phrase storage unit 32, the collation unit 33 accumulates the collated phrase in the phrase storage unit 32 as in step S54. At this time, the matching unit 33 also stores the URL of the web page that is associated with the word and includes the text data from which the word received from the terminal 2 is extracted.
  • step S55 the collating unit 33 is connected to all the terminals 2 connected so that the collated words are displayed on the display screen by the output unit 24 of the terminal 2 via the interface 30. To send to.
  • FIG. 6 is a diagram showing an example of a display screen that displays received words / phrases.
  • the terminal 2 that has received the phrase from the server 3 via the interface 30 causes the output unit 24 to display the phrase in the display area 240 on the display screen.
  • the output unit 24 displays the phrase in the phrase display field 242 so that the phrases are arranged in the order received.
  • phrases that are not stored in the phrase storage unit 32 are displayed on the output unit 24 of the terminal 2. That is, a new word will be displayed.
  • a scroll bar or the like may be provided at the side edge portion of the word display column 242 so that the words are displayed so that the word display column 242 is scrolled. Also, try to delete words in order as new words appear.
  • the phrase displayed in the phrase display field 242 can be selected by the input unit 25.
  • the output unit 24 sends the information input so that a word is selected by the input unit 25 to the search unit 21.
  • the search unit 21 receives the URL of the web page including the text data extracted from the phrase stored in association with the phrase selected in the phrase storage unit 32 of the sano 3 via the interface 20.
  • the search unit 21 searches the web server 4 based on the received URL, and receives the web page of the corresponding URL.
  • the received web page is sent to the output unit 24 and displayed on a new screen. This allows you to see how the words and phrases extracted by this system are used. That is, it becomes easier for the user to use the displayed phrase as a new phrase.
  • the input unit 25 When a word / phrase is selected by the input unit 25, information on the selected word / phrase is transmitted to the server 3. A plurality of terminals 2 are connected to the server 3, and the frequency counting unit 35 is connected to each terminal 2 Based on the received phrase selection information, the total number of phrase selections is measured. Then, the frequency measuring unit 35 causes the word storage unit 32 to store the number of times selected in association with the word at any time.
  • the number of times a word is selected is associated with the word and transmitted to the terminal 2 via the interface 30.
  • the number of times of transmission is passed to the output unit 24 and displayed on the display screen so as to correspond to the associated word / phrase.
  • the number of times a word is selected is displayed by adding an asterisk, for example, next to the associated word.
  • the number of times may be written in numbers.
  • a mark indicating the frequency selected based on the number of times for example, by the length of a gauge or the number of stars may be displayed. This makes it possible to know what words the user is paying attention to.
  • the combination of morpheme parts of speech transmitted from the part of speech accumulation unit 31 of the server 3 to the extraction unit 23 of the terminal 2 is a combination of morpheme parts of speech requested by the user using the terminal 2. Also good. That is, the user who uses the terminal 2 requests a desired morpheme combination of morphemes from the combination of morpheme parts of speech stored in the part of speech storage unit 31 of the server 3 via the input unit 25. Then, the server 3 transmits to the terminal 2 a combination of parts of speech of morphemes required by the terminal 2. In this case, it is more preferable that the phrase transmitted to the terminal 2 is transmitted only to the terminal 2 that has requested a combination of morpheme parts of speech. As a result, it is possible to extract only words and phrases that have a combination power of parts of speech of morphemes that the user is interested in. And it becomes a system which is easy for a user to use.
  • the data extraction system of the present invention can distribute each process related to the extraction of words and phrases as data between the terminal 2 and the server 3.
  • the burden on each device can be reduced. For example, even if there are many terminals 2 connected to the server 3, the burden imposed on the server 3 is small.
  • the server 3 may be provided with the search unit 21 of the terminal 2.
  • the web page can be similarly searched with the terminal 2.
  • the searched web page may be transmitted to the terminal 2 through the interface 30, but the The server 3 may be provided with the morphological analysis unit 22 and the extraction unit 23, and the web page force searched by the server 3 may be extracted.
  • the morphological analysis unit 22 and the extraction unit 23 are substantially the same as those provided in the terminal 2 described above.
  • the web page searched by the search unit 21 of the server 3 is analyzed by the morpheme analysis unit 22 of the server 3 in the same manner as the terminal 2.
  • the extraction unit 23 of the server 3 is based on the combination of the part-of-speech of this morpheme in the same way as the extraction unit 23 of the terminal 2.
  • the extracted words are sent to the matching unit 33 of the server 3 for matching.
  • the server 3 can also extract the phrases in the same manner as the terminal 2.
  • the word / phrase extracted by terminal 2 is collated by sano 3 and the result is transmitted to terminal 2 connected to server 3 to be extracted by terminal 2.
  • New words can be shared by all terminals 2. In this case, it is not necessary for one terminal 2 to view all the text data in the web server 4, and each terminal 2 can share words and extract words and phrases, thus further burdening the terminal 2 Can be reduced.
  • the data extraction system described in Embodiment 2 is a system that uses a terminal 2 that includes a transmission / reception unit 29 that can transmit and receive the words matched by the server 3 to each terminal 2 between the terminals 2.
  • This data extraction system will be described with reference to FIGS. Note that the same numbers are assigned to the same data extraction systems as those described in the first embodiment, and description thereof is omitted.
  • the transmission / reception unit 29 receives the word / phrase via the interface 20. Then, the transmission / reception unit 29 transmits the received word / phrase to be displayed on the display screen by the output unit 24 of the other terminal 2 connected to the server 3.
  • the server 3 collates the phrases extracted by the terminal 2a. Then, when it is determined that the phrase is not in the phrase storage unit 32, the server 3 transmits only to the terminal 2a that has extracted the phrase.
  • the word / phrase received via the interface 20 is sent to the output unit 24 and the transmission / reception unit 29.
  • the phrase is displayed on the display screen by the output unit 24 and transmitted from the transmission / reception unit 29 to be displayed on the display screen by the output unit 24 of another terminal 2b connected to the server 3 through the interface 20 again. Is done.
  • the phrase received from the terminal 2a is sent to the output unit 24 of the terminal 2b and displayed on the display screen of the terminal 2b.
  • the terminal 2b transmits the received word / phrase to the terminal 2.
  • the data is transmitted to the transmission / reception unit 29 and transmitted to each terminal 2 in the same manner as described above.
  • the number of times the word / phrase stored in association with the word / phrase is selected in the word / phrase storage unit 32 is also transmitted to each terminal 2.
  • the terminals 2 may be connected to each other in a peer-to-peer connection so that the terminals 2 and the number of times the phrase is selected are shared between the terminals 2.
  • the terminal 2 b when the terminal 2 b is connected in a peer-to-peer manner and the other terminal 2 receives the word and recognizes it, it establishes a communication path with the terminal 2 and transmits the word. Thereby, it is possible to share information such as the number of phrases and the number of times a phrase has been selected between the terminals 2 connected in peer-to-peer connection.
  • the extracted new word / phrase can be shared by all terminals.
  • the server 3 does not transmit / receive words to / from all the terminals 2.
  • the terminal 2 that has received the phrase does not transmit it to all the terminals 2 connected to the server 3. That is, the words and phrases can be distributed among the terminals 2 connected to the server 3, and the burden on the terminal 2 and the server 3 can be further reduced.
  • the processing at the terminal 2 and the server 3 is reduced, it is possible to speed up the transmission and reception of words.
  • the server 3 transmits only words / phrases that satisfy a predetermined condition to the terminal 2. That is, as shown in FIG.
  • the server 3 described is provided with a matching condition storage unit 34.
  • the collation condition storage unit 34 stores the conditions for the collation unit 33 to collate words.
  • the collation condition storage unit 34 sends the collation conditions stored for each word collation to the collation unit 33.
  • the collation unit 34 that has received the collation condition collates words based on the collation condition. Further, this matching condition can be changed as appropriate by input from the input unit 25 of the terminal 2.
  • Examples of the matching condition stored in the matching condition storage unit 34 include an example of when the phrase extracted at each terminal is transmitted more than a predetermined number of times and the phrase is transmitted to the terminal 2. .
  • the phrase storage unit 32 also stores the number of times transmitted to the server 3 in association with the phrase together with the phrase. Then, the collation unit 33 collates the power transmitted to the server 3 without regard to whether or not there is a word transmitted to the word storage unit 32, and only the word or phrase that has exceeded the predetermined number of times is checked. Transmitted to be displayed on the display screen by output unit 24 of terminal 2.
  • the phrase storage unit 32 uses the URL of the web page including the text data stored in association with the stored phrase to extract the text data having the same URL. It is also possible not to add the number of times of transmission. This makes it possible to extract more accurate words and phrases without extracting the same text data.
  • the terminal 2 satisfies the predetermined condition. It is received only for the strike data. That is, as shown in FIG. 10, the search condition storage unit 26 is provided in the terminal 2 described in the first embodiment.
  • the search condition storage unit 26 stores search conditions for web pages including text data by the search unit 21.
  • the search condition storage unit 26 sends the search conditions to the search unit 21 before the search unit 21 searches the web server 4.
  • the search unit 21 searches for a web page including text data based on the search condition. Further, this search condition can be changed as appropriate by input from the input unit 25 of the terminal 2.
  • Examples of the search condition stored in the search condition storage unit 26 include an example in which a web page having a predetermined URL is not received.
  • a predetermined URL is stored in the search condition storage unit 26, and this URL is sent to the search unit 21 together with this search condition.
  • the search unit 21 searches for a web page based on the received search condition and a predetermined URL.
  • the search unit 21 searches the web page including the text data while comparing the URL of the web page of the web server 4 with the URL received from the search condition storage unit 26.
  • the search unit 21 searches the web page based on the search condition, so that the search unit 21 does not match the URL of the web page of the web sano and the URL received from the search condition storage unit 26. Web pages that match only and will not receive. That is, it is possible to exclude web pages in which the URL of the web page of the web sano and the URL received from the search condition storage unit 26 match.
  • the URL of the web page to be received is memorized, and the web page having the URL that matches the URL is not received, so that even if there is a malicious web page as described above, There is no display of meaningless phrases. Further, since meaningless words are not displayed, the meaningless words are not selected by the input unit 25, and a web page in which meaningless words are simply arranged is not displayed on the display screen. That is, it is possible to make it difficult to display a phrase that is phrase power noise displayed on the display screen by the output unit 24 of the terminal 2. Therefore, more accurate word extraction is possible. It is also possible to receive only a web page having a predetermined URL.
  • a URL of a web page including text data from which a word stored in association with the word stored in the word storage unit 32 of the server 3 can be used.
  • a web page having a URL that matches the URL stored in the phrase storage unit 32 can be prevented from being received. As a result, it is possible to avoid redundant word extraction at each terminal 2 and to reduce the burden on the terminal 2.
  • the URL of the URL stored in the phrase storage unit 32 using the URL of the web page containing the text data from which the phrases stored in association with the phrase stored in the phrase storage unit 32 are extracted. It is also possible to monitor the status of page updates and receive only updated web pages. As a result, the updated web page can be received efficiently, and the burden on the terminal 2 can be further reduced.
  • the web sano can use a ping, for example, to send a notification of the update to a predetermined server or the like.
  • the server 3 may be able to acquire update information notified using bing or the like.
  • the search unit 21 of the terminal 2 that has received this notification may search for a web page.
  • web page update information can be immediately grasped at low cost.
  • the notification may be taken out from a server or the like that provides notification that the web page has been updated by bing or the like every predetermined time.
  • Embodiments 1 to 4 words can be extracted smoothly by the data extraction system.
  • Data described in Embodiments 1 to 4 The extraction systems are not limited to independent ones, and may be combined as appropriate, for example, combining Embodiment 1 and Embodiment 4 or combining Embodiment 2 and Embodiment 3.
  • the morphological analysis unit 22 of the terminal 2 is not limited to the morphological analysis of only the web page searched by the search unit 21.
  • the morphological analysis unit 22 of the terminal 2 is The user can know a combination of morpheme parts of speech by inputting a certain word and analyzing the morpheme. It is also possible to store the combination of morpheme parts of speech in the part of speech storage unit 31. This makes it more convenient.
  • the word storage unit 32 of the server 3 can also store the date and time when the words are collated by the collation unit 33 in association with the accumulated words and phrases.
  • the words and phrases stored in the phrase storage unit 32 can be arranged along the time axis by the input at the input unit 25. That is, it is possible to form a table in which the appearance times of words are represented on the time axis.
  • the data extraction system of the present invention is not only for extracting only words and phrases of web pages.
  • an image can be extracted as data in the same manner as described in the first to fourth embodiments.
  • a data extraction system for extracting an image described in the fifth embodiment will be described with reference to the drawings.
  • the data extraction system described in the fifth embodiment includes a terminal 2 and a server 3 as in the first embodiment.
  • the terminal 2 instead of the extraction unit 23 of the first embodiment, the terminal 2 includes an image extraction unit 50 as an extraction unit for extracting an image, and an image compression that compresses the image extracted by the image extraction unit 50.
  • an image compression unit 52 is provided.
  • server instead of the word / phrase storage unit 32 of the first embodiment, an image storage unit 51 is provided as data storage means for storing images. Note that the same numbers are assigned to the same data extraction systems as those described in the first embodiment, and description thereof is omitted.
  • the image extraction unit 50 also extracts image data from the web page force in the web server 4 searched by the search unit 21.
  • the image extraction unit 50 passes an image to the image compression unit 52 in order to compress the image when transmitting the extracted word / phrase to the server 3 via the interface 20 functioning as a data transmission unit.
  • the image to be extracted may be a still image or a moving image, and may be a file having any extension as long as it is displayed as an image on a web page.
  • the image compression unit 52 compresses the image to a predetermined size. For example, when receiving an image as shown in FIG. 13 from the image extraction unit 50, the image compression unit 52 reduces the size of the image to, for example, 8 ⁇ 8 pixels. Then, the image is reduced to, for example, 256 colors. This results in 256 gradations of 1 pixel power bit, and an 8 x 8 pixel image is 64 bytes. As described above, the image compression unit 52 compresses the image received from the image extraction unit 50 into a predetermined byte by reducing the image to a predetermined size and reducing the color. This reduces the number of bytes in the image. Therefore, the burden on the network 1 when transmitting to the server 3 is reduced.
  • the image compression unit 52 that has compressed the image in this way transmits the compressed image to the server 3 via the interface 20.
  • the image compression unit 52 may or may not be provided if the image compressed by the image collation by the collation unit 33 of the server 3 described below is not used. In that case, the image extracted by the image extraction unit 50 is transmitted to the server 3 via the interface 20 as it is.
  • the image accumulating unit 51 accumulates the image extracted by the image extracting unit 50 of the terminal 2 and compressed by the image compressing unit 52. Further, the image accumulating unit 51 accumulates information such as characters and images corresponding to the image formed by the collating unit 33 in association with the image.
  • the image storage unit 51 receives the image compressed by the image compression unit 52 via the interface 30. Then, when it is determined that there is no received image among the images stored in the collation unit 33, the image storage unit 51 stores the image. At this time, the capacity before being compressed by the image compression unit 52 A large image may be received from the terminal 2 and stored in the image storage unit 51 so as to correspond to the compressed image.
  • the image storage unit 51 stores the URL of the web page from which the image to be stored is extracted in association with the image.
  • This URL may be sent together with information corresponding to the image sent by the matching unit 33 to be displayed on the display screen by the output unit 24 of the terminal 2, but the image displayed on the display screen may also be sent. It may be transmitted to the terminal 2 by selecting the information corresponding to
  • the image storage unit 51 stores the number of times the image is selected by the input unit 25 of the terminal 2 measured by the number counting unit 35 in association with the image. This number of times is transmitted to the terminal 2 by the number counting unit 35 for display in association with information corresponding to the image displayed on the display screen of the terminal 2.
  • the image stored in the image storage unit 51 can be transmitted to the terminal 2 in response to an operation input by the input unit 25 of the terminal 2.
  • the image storage unit 51 is input from the input unit 25 of the terminal 2 so as to show the history of the stored image
  • the history is transmitted to the terminal 2 and displayed on the display screen of the terminal 2. It can also be displayed.
  • the information corresponding to the images are arranged in order and displayed on the terminal 2 display screen.
  • the search unit 21 of the terminal 2 searches for a web page and receives a web page including an image.
  • the terminal 2 passes the web page to the image extraction unit 50, and the image in the web page is extracted.
  • the image extraction unit 50 associates the URL that is the reception destination of the web page from which the image is extracted with the extracted image.
  • the image extraction unit 51 passes the extracted image to the image compression unit 52 and compresses the image into a predetermined byte.
  • the image compression unit 52 transmits the compressed image to the server 3 via the interface 20.
  • the image extraction unit 50 transmits the URL associated with the image to the server 3 together with the image. Repeat this if there are multiple images on the web page.
  • the search unit 21 searches the web server 4 for a new web page.
  • the server 3 receives the image compressed by the image compression unit 52 from the connected terminal 2, the server 3 processes it in the same manner as the word / phrase in the first embodiment. Server 3 sends the received image to collation unit 33. Then, the collation unit collates whether or not the received image is in the image storage unit 51.
  • the image stored in the image storage unit 51 is an image compressed to a predetermined byte by the image compression unit 52 of the terminal 2.
  • the image sent to the collation unit 33 is also an image compressed to a predetermined byte by the image compression unit 52 of the predetermined terminal 2. For example, when compressed to 256 colors of 8 ⁇ 8 pixels, the collation unit compares the colors for each pixel, and the image sent to the collation unit 33 is stored in the image storage unit 51. And match.
  • the matching method in the collating unit 33 is not particularly limited, and can be changed as appropriate depending on the compression method and compression rate.
  • the collation unit 33 deletes the collated image.
  • the collation unit 33 forms information such as characters and images corresponding to the collated image and stores the information in the image storage unit 51 together with the collated image. .
  • the collation unit 33 stores the U of the web page associated with the image and extracted from the image received from the terminal 2.
  • the collation unit 33 transmits the information corresponding to the collated image to all the terminals 2 connected to be displayed on the display screen by the output unit 24 of the terminal 2 via the interface 30. .
  • the terminal 2 By inputting the information corresponding to the image displayed on the display screen so as to be selected by the input unit 25, the terminal 2 sets the URL of the image corresponding to the information displayed on the display screen to the server 3 Received from the image storage unit 51. Then, the search unit 21 searches for a web page based on the received URL. At this time, the search unit 21 may simply display the web page as if the web page having the phrase extracted in the first embodiment is displayed. However, the search unit 21 receives and outputs the image in the web page. Display the image on the display screen using part 24.
  • the data extraction system described in the fifth embodiment has the form of implementation as data.
  • An image can be extracted instead of the phrase of state 1.
  • a newly constructed or updated web page power on the web.
  • the collation unit 33 of the server 3 allows the image stored in the image storage unit 51 and the image extracted and compressed by the terminal to be compressed. And can be collated quickly and in large quantities. Therefore, it is possible to quickly process a huge amount of data extracted from web page power.
  • the information corresponding to the image formed by the collation unit 33 is not particularly limited as long as it is output so as to be displayed by the output unit 24 on the display screen of the terminal 2. May be.
  • the compressed image that is stored in association with the compressed image file name or the compressed image and collated by the collating unit 33 even if it is a part of the URL or the like is displayed as it is.
  • the server 3 having the image storage unit 51 may be provided with the search unit 21 of the terminal 2 as in the first embodiment.
  • the web page can be searched for together with the terminal 2.
  • the searched web page may be transmitted to the terminal 2 via the interface 30, but the server 3 includes the extracting unit 23, and the web page force searched in the server 3 Similarly, an image may be extracted.
  • the data extraction system described in the fifth embodiment may be combined with the first to fourth embodiments to extract both words and images.
  • the data extraction system described in the first to fourth embodiments is newly provided with an image extraction unit 50, an image compression unit 52, and an image storage unit 51 so that the image can be extracted as described above. This allows you to extract words and images from the web page.
  • the data extraction system of the present invention is not only for extracting only words and phrases of web pages.
  • voice can be extracted as data in the same manner as described in the first to fourth embodiments.
  • a data extraction system for extracting speech described in Embodiment 6 will be described with reference to the drawings.
  • the data extraction system described in the sixth embodiment includes the terminal 2 and the server 3 as in the first embodiment.
  • a voice extraction unit 60 as voice extraction means and voice compression that compresses voice extracted by the voice extraction unit 60 are used.
  • a voice compression unit 62 is provided as means.
  • the server 3 includes a voice storage unit 61 as data storage means for storing voice instead of the phrase storage unit 32 of the first embodiment. Note that the same numbers are assigned to the same data extraction systems as those described in the first embodiment, and description thereof is omitted.
  • the voice extraction unit 60 also extracts voice data of the web page power in the web server 4 searched by the search unit 21.
  • the voice extraction unit 60 passes the voice to the voice compression unit 62 in order to compress the voice when the extracted phrase is transmitted to the server 3 via the interface 20 functioning as a data transmission unit.
  • the audio to be extracted may be a file having any extension as long as it is displayed as audio on the web page.
  • the audio compression unit 62 compresses audio into predetermined bytes. For example, when the audio compression unit 62 receives the audio from the audio extraction unit 60, the audio compression unit 62 samples the audio so as to thin out the sampling information included in the audio file, and compresses the audio in the time direction, for example, to about 64 samples. Compress. As a result, the number of bit strings to be compared by the collation unit 33 is reduced, and the load on the network 1 when transmitting to the server 3 is reduced.
  • the voice compression unit 62 that has compressed the voice in this way transmits the compressed voice to the server 3 via the interface 20.
  • the voice compression unit 62 may not be provided when the voice compressed by the voice collation in the collation unit 33 of the server 3 described below is not used. In that case, the voice extracted by the voice extraction unit 60 is transmitted to the server 3 via the interface 20 as it is.
  • the voice storage unit 61 stores the voice extracted by the voice extraction unit 60 of the terminal 2 and compressed by the voice compression unit 62. Further, the voice storage unit 61 stores information such as characters and images corresponding to the voice formed by the collating unit 33 in association with the voice.
  • the audio storage unit 61 receives the audio compressed by the audio compression unit 62 via the interface 30. The voice storage unit 61 has no received voice among the voices stored in the verification unit 33. If so, the sound is stored. At this time, the large capacity sound before being compressed by the sound compression unit 62 may be received from the terminal 2 and stored in the sound storage unit 61 so as to correspond to the compressed sound.
  • the voice storage unit 61 stores the URL of the web page from which the stored voice is extracted in association with the voice.
  • This URL may be sent to the terminal 2 together with information corresponding to the voice sent by the matching unit 33 for display on the display screen by the output unit 24 of the terminal 2, but the URL displayed on the display screen The corresponding information may be transmitted to the terminal 2 by selecting it with the input unit 25.
  • the voice accumulating unit 61 stores the number of times the voice is selected by the input unit 25 of the terminal 2 measured by the number counting unit 35 in association with the voice. This number of times is transmitted to the terminal 2 by the number counting unit 35 for display in association with information corresponding to the sound displayed on the display screen of the terminal 2.
  • the voice stored in the voice storage unit 61 can be transmitted to the terminal 2 in response to an operation input by the input unit 25 of the terminal 2. For example, when the voice storage unit 61 is input from the input unit 25 of the terminal 2 so as to show the history of the voice that has been stored, the history is transmitted to the terminal 2 and displayed on the display screen of the terminal 2. It can also be displayed. It can be done by rubbing the information corresponding to the audio in the order of the selected number to be displayed on the display screen of terminal 2.
  • the search unit 21 of the terminal 2 searches for a web page and receives a web page including sound.
  • the terminal 2 passes the web page to the voice extraction unit 60, and the voice in the web page is extracted.
  • the voice extraction unit 60 associates the URL that is the reception destination of the web page from which the voice is extracted with the extracted voice.
  • the voice extraction unit 61 passes the extracted voice to the voice compression unit 62 and compresses the voice.
  • the audio compression unit 62 transmits the compressed audio via the interface 20 to the server 3.
  • the voice extraction unit 60 transmits the URL associated with the voice to the server 3 together with the voice. Repeat this if there are multiple sounds in the web page.
  • the search unit 21 stops the voice to be extracted from the web page. If a new web page is found, the web server 4 is searched.
  • server 3 When the server 3 receives the voice compressed by the voice compression unit 62 from the connected terminal 2, the server 3 processes the same as the phrase in the first embodiment. Server 3 sends the received voice to collation unit 33. Then, the collation unit collates the power of the received voice in the voice storage unit 51.
  • the audio stored in the audio storage unit 61 is the audio compressed by the audio compression unit 62 of the terminal 2.
  • the voice sent to the collation unit 33 is also the voice compressed by the voice compression unit 62 of the predetermined terminal 2. For example, when the voice is compressed to about 64 samples, the bit strings generated by the compression are compared, and the voice sent to the collation unit 33 is collated with the voice accumulated in the voice accumulation unit 61.
  • the collation method in the collation unit 33 can be appropriately changed depending on the compression method and the like, which is not particularly limited.
  • the collation unit 33 deletes the collated voice.
  • the collation unit 33 forms information such as characters and images corresponding to the collated voice and stores the information in the voice storage unit 61 together with the collated voice. . Further, the collation unit 33 accumulates the URL of the web page associated with the voice and extracted from the voice received from the terminal 2.
  • the collation unit 33 transmits the information corresponding to the collated voice to all the terminals 2 connected to be displayed on the display screen by the output unit 24 of the terminal 2 via the interface 30. .
  • the terminal that has received the voice collated by the collation unit 33 and information corresponding to the voice passes the information corresponding to the voice to the output unit 24.
  • the output unit 24 that receives the information corresponding to the sound displays the information on the display screen.
  • voice can be extracted as data instead of the word / phrase of the first embodiment.
  • a new voice that has not been found in a web page can be found from a web page on the web that has been newly constructed or updated.
  • the terminal 2 By inputting the information corresponding to the sound displayed on the display screen so as to be selected by the input unit 25, the terminal 2 stores the URL of the sound corresponding to the information displayed on the display screen as the server. Received from the sound storage unit 61 in FIG. Then, the search unit 21 searches for a web page based on the received URL. At this time, the search unit 21 may simply display the web page as if the web page having the phrase extracted in the first embodiment is displayed, but receives and outputs the audio in the web page. Output the sound from the speaker through a part 24.
  • the collation unit 33 of the server extracts the voice stored in the voice storage unit 61 and the voice extracted and compressed by the terminal. Can be collated quickly and in large quantities. Therefore, it is possible to quickly process a large amount of data extracted from web page power.
  • the information corresponding to the voice formed by the collation unit 33 is not particularly limited as long as it is output so as to be displayed by the output unit 24 on the display screen of the terminal 2. May be.
  • it may be a compressed audio file name or a part of a URL stored in association with the compressed audio.
  • the server 3 having the voice storage unit 61 may be provided with the search unit 21 of the terminal 2 as in the first embodiment.
  • the web page can be searched for together with the terminal 2.
  • the searched web page may be transmitted to the terminal 2 via the interface 30, but the server 3 includes the extracting unit 23, and the web page force searched in the server 3 Similarly, sound may be extracted.
  • Embodiment 6 may be combined with Embodiments 1 to 5 to extract words and sounds, words and images, sounds and sounds.
  • the data extraction system described in the first to fifth embodiments is newly provided with a voice extraction unit 60, a voice compression unit 62, and a voice storage unit 61 so that voice extraction can be performed as described above. In this way, it is possible to extract the phrase and sound and the phrase, image and sound in the web page.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページから所定のデータを抽出することができる。これにより、データを抽出するまでに必要とする処理を分散させ、各装置にかかる負担を少なくすることができる。そして、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たなデータを見つけ出すことができる。

Description

明 細 書
データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及 び、サーバ装置のプログラム
技術分野
[0001] 本発明は、ウェブ上のウェブページ力 所定のデータを抽出するデータ抽出システ ムに関するものである。また、このデータ抽出システムに利用される端末装置及びサ ーバ装置に関するものであり、その端末装置のプログラム及びサーバ装置のプロダラ ムに関するものである。
背景技術
[0002] 従来、形態素解析によってテキストデータを解析し、数値データを名詞等の品詞と 関連付けて抽出する情報抽出装置が開発されている (例えば、特許文献 1参照)。こ の装置は、テキストデータを 1文ずつ切り出し、数値を有する文を抽出する。そして、 文中の係り受けを判断し、数値と関連する語句を抽出するものである。
[0003] 特許文献 1 :特開 2005— 149359号公報
発明の開示
[0004] し力しながら、特許文献 1に記載されて 、る情報抽出装置は、得られたテキストデー タの形態素解析、語句の抽出、語句の蓄積、語句の表示といった処理全てを単一の 装置で行うため、装置に負担力 Sかかってしまうという問題点を有している。
[0005] また、近年のネットワーク技術の発達にともない、さまざまなウェブサイトが構築され ているが、そのようなウェブサイトのウェブページを形態素解析するシステムは存在し て 、な力つた。特許文献 1に記載された装置のような単一の装置でウェブページを解 祈しょうとすると膨大なデータ量をこなす必要があり、現実的ではない。また、ウェブ 上の音声や画像を解析する場合にも、同様に単一の装置で行うのは無理である。
[0006] そこで、本発明は、上記実情に鑑み、語句をはじめとする所定のデータを抽出する までに必要とする処理を分散させ、各装置に力かる負担を少なくすることができるデ ータ抽出システムを提供することを目的とする。また、このデータ抽出システムに利用 される端末装置及びサーバ装置、そして、端末装置のプログラム及びサーバ装置の プログラムを提供することを目的とする。
[0007] 本発明のデータ抽出システムは、ウェブ上のウェブページから所定のデータを抽出 するデータ抽出システムであって、複数の端末と、前記端末に接続されたサーバとを 有し、前記サーバは、前記端末で抽出された前記所定のデータを蓄積するデータ蓄 積手段と、抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデ ータである力否力を照合する照合手段とを有し、前記端末は、前記ウェブから前記ゥ エブページを探索する探索手段と、前記ウェブページから前記所定のデータを抽出 する抽出手段と、前記照合手段で前記データ蓄積手段に蓄積されていないとされた 前記所定のデータ又は該所定のデータに対応する情報を前記サーバから受信し、 該所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有す ることを特徴とする。
[0008] 本発明のデータ抽出システムによれば、端末でウェブ上のウェブページを探索し、 所定のデータをそのウェブページ力も抽出する。そして、抽出されたデータをサーバ で照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの 抽出に係る処理を分散させてウェブ上のウェブページ力 所定のデータを抽出する ことができる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブべ ージ力 従来ウェブページには形成されていなかった新たなデータを見つけ出すこ とがでさる。
[0009] 本発明のデータ抽出システムにおいて、前記所定のデータは、所定の形態素の品 詞の組み合わせを有する語句であり、前記サーバは、前記語句を抽出するための前 記形態素の品詞の組み合わせを蓄積する品詞蓄積手段を有し、前記端末は、前記 探索手段で探索された前記ウェブページ中のテキストデータを形態素解析する形態 素解析手段を有し、前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み 合わせを予め前記サーバから受信し、前記抽出手段によって、前記サーバから受信 した前記形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせ力 な る語句を前記形態素解析手段で形態素解析したテキストデータから抽出し、前記サ ーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記語句を前 記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴とする。こ れにより、端末でウエッブページ中のテキストデータを形態素解析し、サーバの品詞 蓄積手段に蓄積されている形態素の品詞の組み合わせ力 なる語句を抽出すること ができ、サーバの照合手段でその語句がデータ蓄積手段で蓄積されて 、るか否かを 判断することができる。したがって、端末とサーバとで語句抽出に係る各処理を分散 させることができる。そのため、ウェブ上の膨大なデータ量のウェブページを形態素 解析することも可能となる。
[0010] 本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末全てに、 前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を 送信することを特徴とする。これにより、端末で抽出された新しい語句を全ての端末 で共有することができる。また、 1つの端末がウェブ上にあるテキストデータをすベて 見る必要がなくなり、各端末で分担して語句を抽出することができるため、端末にか 力る負担をさらに少なくすることができる。
[0011] 本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段によって前 記語句を抽出した前記端末に、前記照合手段によって前記データ蓄積手段に蓄積 されていないとされた前記語句を送信し、前記語句を受信した端末は、該語句を他 の端末に送信することを特徴とする。これにより、抽出された新しい語句を全ての端 末で共有できる。そして、複数の端末 2間で表示する語句を送受信可能とすることで 、サーバは、全ての端末に語句を送受信することがなくなる。また、語句を受信した端 末 2がサーバ 3に接続されている全ての端末 2に送信することもない。すなわち、語句 の送信をサーバ 3に接続さている端末 2で分散させることができ、端末 2やサーバ 3に 力かる負担をより少なくすることができる。
[0012] 本発明のデータ抽出システムにおいて、前記品詞蓄積手段は、前記端末で入力さ れた新たな形態素の品詞の組み合わせを蓄積することを特徴とする。これにより、利 用者が求める形態素の品詞の組み合わせを抽出することができる。
[0013] 本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段で抽出され た前記語句のうち、所定の条件を満たす語句に限って前記端末に送信することを特 徴とする。これにより、所定の条件を満たす語句のみが表示され、ノイズとなる語句を 表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。 [0014] 本発明のデータ抽出システムにおいて、前記端末は、所定の条件を満たすウェブ ページのみを受信することを特徴とする。これにより、端末に表示される語句からノィ ズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可 能となる。
[0015] 本発明のデータ抽出システムにおいて、前記サーバは、前記端末が要求する形態 素の品詞の組み合わせを該端末に送信することを特徴とする。これにより、利用者が 興味のある形態素の品詞の組み合わせ力もなる語句のみを抽出することができる。 そして、利用者にとって利用しやすいシステムとなる。
[0016] 本発明のデータ抽出システムにおいて、前記端末の前記出力手段は、前記表示画 面に表示された前記語句が選択されることによって、前記語句が抽出された前記ゥ ブページを前記ウェブ力 受信し、前記ウェブページを該端末の表示画面に表示す ることを特徴とする。これにより、本システムで抽出された語句がどのように使用されて いる力を見ることができる。すなわち、利用者が表示された語句を新たな語句として 利用しやすくなる。
[0017] 本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末で前記表 示画面に表示された前記語句が選択された回数を集計し、該回数に基づいた表示 を前記語句と関連付けて前記端末の前記表示画面に表示させるように前記端末に 送信することを特徴とする。これにより、利用者がどのような語句を注目しているかを 知ることができる。
[0018] 本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前 記ウェブページ力 画像を抽出する画像抽出手段を有し、前記サーバは、抽出され た前記画像を受信し、前記画像を蓄積する画像蓄積手段を有し、前記照合手段によ つて、抽出された前記画像が前記画像蓄積手段に蓄積されている力否力を照合し、 前記端末は、前記照合手段で前記画像蓄積手段に蓄積されて!、な!、とされた前記 画像に対応する情報を前記サーノから受信し、前記出力手段によって、該画像に対 応する情報を前記表示画面に表示することを特徴とする。これにより、ウェブ上のゥェ ブページの画像もテキストデータ中の語句とともに同様に抽出することができる。すな わち、新規に構築されたり、更新されたりしたウェブ上のウェブページ力も従来にはゥ エブページには形成されていな力つた新たな画像を見つけ出すことができる。
[0019] 本発明のデータ抽出システムにおいて、前記端末は、前記画像抽出手段で抽出さ れた前記画像のサイズを小さくするとともに減色することによって所定バイトに圧縮す る画像圧縮手段を有し、前記サーバは、前記画像圧縮手段で圧縮された前記画像 を受信し、前記画像蓄積手段によって、圧縮された前記画像を蓄積し、前記照合手 段によって、圧縮された前記画像のビット列に基づいて、当該画像が前記画像蓄積 手段に蓄積されている画像である力否力を照合することを特徴とする。これにより、画 像のサイズを小さくすることが可能となり、画像の容量が減少する。したがって、サー バの照合手段は、画像蓄積部に蓄積されている画像と端末で抽出して圧縮された画 像とを早く大量に照合することができる。したがって、ウェブページ力 抽出される膨 大なデータ量を早く大量に処理することが可能となる。
[0020] 本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前 記ウェブページから音声を抽出する音声抽出手段を有し、前記サーバは、抽出され た前記音声を受信し、前記音声を蓄積する音声蓄積手段を有し、前記照合手段によ つて、抽出された前記音声が前記音声蓄積手段に蓄積されている力否力を照合し、 前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前記 音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を対 応する情報を出力することを特徴とする。これにより、ウェブ上のウェブページの音声 もテキストデータ中の語句とともに同様に抽出することができる。すなわち、新規に構 築されたり、更新されたりしたウェブ上のウェブページ力 従来にはウェブページには 形成されていな力つた新たな音声を見つけ出すことができる。
[0021] 本発明のデータ抽出システムにおいて、前記端末は、前記音声抽出手段で抽出さ れた前記音声を時間軸の方向に圧縮する音声圧縮手段を有し、前記サーバは、前 記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄積手段によって、圧 縮された前記音声を蓄積し、前記照合手段によって、圧縮された前記音声のビット列 に基づいて、当該音声が前記音声蓄積手段に蓄積されている音声である力否かを 照合することを特徴とする。これにより、音声のサイズを小さくすることが可能となり、 音声の容量が減少する。したがって、サーバの照合手段は、画像蓄積部に蓄積され ている音声と端末で抽出して圧縮された音声とを早く大量に照合することができる。し たがって、ウェブページ力 抽出される膨大なデータ量を早く大量に処理することが 可能となる。
[0022] 本発明のデータ抽出システムにおいて、前記所定のデータは、画像であることを特 徴とする。また、本発明のデータ抽出システムにおいて、前記所定のデータは、音声 であることを特徴とする。これにより、画像と音声も語句と同様に抽出することができる
[0023] 本発明の端末装置は、ウェブ上のウェブページ力 所定のデータを抽出するデー タ抽出システムに利用され、サーバに接続された端末装置であって、前記ウェブから 前記ウェブページを探索する探索手段と、前記ウェブページから前記所定のデータ を抽出する抽出手段と、前記抽出手段によって抽出された前記所定のデータを前記 サーバに送信するデータ送信手段と、前記データ送信手段で送信した前記所定の データが前記サーバのデータ蓄積手段に蓄積された所定のデータである力否かが 照合され、前記データ蓄積手段に蓄積されていないとされた所定のデータ又は該所 定のデータに対応する情報を前記サーバから受信するデータ受信手段と、前記デー タ受信手段で受信した前記所定のデータ又は該所定のデータに対応する情報を出 力する出力手段とを有することを特徴とする。
[0024] 本発明の端末装置によれば、ウェブページの探索と、データの抽出とを行う。すな わち、語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理に 力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析すること も可能となり、迅速な処理解析ができる。
[0025] 本発明の端末装置のプログラムは、ウェブ上のウェブページから所定のデータを抽 出するデータ抽出システムに利用され、サーバに接続された端末装置のプログラム であって、前記ウェブから前記ウェブページを探索する探索処理と、前記ウェブべ一 ジから前記所定のデータを抽出する抽出処理と、前記抽出処理によって抽出された 前記所定のデータを前記サーバに送信するデータ送信処理と、前記データ送信処 理で送信した前記所定のデータが前記サーバのデータ蓄積処理によって蓄積され た所定のデータであるか否かが照合され、前記データ蓄積処理によって蓄積されて いないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから 受信するデータ受信処理と、前記データ受信処理で受信した前記所定のデータ又 は該所定のデータに対応する情報を出力する出力処理とを有することを特徴とする。
[0026] 本発明の端末装置のプログラムによれば、端末装置でウェブページの探索と、デー タの抽出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係 る各処理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処 理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析す ることも可能となり、迅速な処理解析ができるプログラムを提供できる。
[0027] 本発明のサーバ装置は、ウェブ上のウェブページ力 所定のデータを抽出するデ ータ抽出システムに利用されるサーバ装置であって、前記ウェブから前記ウェブべ一 ジを探索し、前記所定のデータを前記ウェブページ力 抽出する複数の端末と接続 され、前記端末で抽出された前記所定のデータを前記端末力 受信するデータ受信 手段と、前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手 段と、前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に 蓄積されている語句である力否力を照合する照合手段と、前記照合手段によって前 記データ蓄積手段に蓄積されて 、な 、とされた前記所定のデータ又は該所定のデ ータに対応する情報を前記端末に出力させるように送信するデータ送信手段とを有 することを特徴とする。
[0028] 本発明のサーバ装置によれば、抽出されたデータの照合と、データの蓄積とを行う 。すなわち、語句抽出に係る各処理を接続された端末とで分散させることができ、処 理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析す ることも可能となり、迅速な処理解析ができる。
[0029] 本発明のサーバ装置のプログラムは、ウェブ上のウェブページから所定のデータを 抽出するデータ抽出システムに利用されるサーバ装置のプログラムであって、前記サ ーバ装置は、前記ウェブから前記ウェブページを探索し、前記所定のデータを前記 ウェブページ力 抽出する複数の端末と接続され、当該プログラムは、前記端末で抽 出された前記所定のデータを前記端末から受信するデータ受信処理と、前記データ 受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、前記データ受 信処理で受信した前記所定のデータが前記データ蓄積処理によって蓄積された語 句であるか否力を照合する照合処理と、前記照合処理によって前記データ蓄積処理 によって蓄積されて 、な 、とされた前記所定のデータ又は該所定のデータに対応す る情報を前記端末に出力させるように送信するデータ送信処理とを有することを特徴 とする。
[0030] 本発明のサーバ装置のプログラムによれば、サーバ装置で抽出されたデータの照 合と、データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデー タ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサー バ装置での処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデー タ量を解析することも可能となり、迅速な処理解析ができるプログラムを提供できる。
[0031] 本発明のデータ抽出システムは、端末でウェブ上のウェブページを探索し、所定の データをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合 するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に 係る処理を分散させてウェブ上のウェブページ力 所定のデータを抽出することがで きる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブページから 従来にはウェブページには形成されていな力つた新たなデータを見つけ出すことが できる。
[0032] 本発明の端末装置は、ウェブページの探索と、データの抽出とを行う。すなわち、 語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理に力かる 負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能 となり、迅速な処理ができる。
[0033] 本発明の端末装置のプログラムは、端末装置でウェブページの探索と、データの抽 出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係る各処 理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処理にか 力る負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも 可能となり、迅速な処理ができるプログラムを提供できる。
[0034] 本発明のサーバ装置は、抽出されたデータの照合と、データの蓄積とを行う。すな わち、語句抽出に係る各処理を接続された端末とで分散させることができ、処理にか 力る負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも 可能となり、迅速な処理ができる。
[0035] 本発明のサーバ装置のプログラムは、サーバ装置で抽出されたデータの照合と、 データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデータ抽出 に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサーバ装置 での処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を 解析することも可能となり、迅速な処理ができるプログラムを提供できる。
図面の簡単な説明
[0036] [図 1]実施の形態 1で説明するデータ抽出システムのネットワーク構成図である。
[図 2]実施の形態 1で説明するデータ抽出システムの端末の構成を示したブロック図 である。
[図 3]実施の形態 1で説明するデータ抽出システムのサーバの構成を示したブロック 図である。
[図 4]実施の形態 1で説明する表示画面の一例を示した図である。
[図 5]実施の形態 1で説明するデータ抽出システムのテキストデータカゝら語句を抽出 するまでの処理を示したフロー図である。
[図 6]実施の形態 1で説明するデータ抽出システムのサーバの照合部で語句を照合 するまでの処理を示したフロー図である。
[図 7]実施の形態 2で説明するデータ抽出システムの端末の構成を示したブロック図 である。
[図 8]実施の形態 2で説明するデータ抽出システムのネットワーク構成図である。
[図 9]実施の形態 3で説明するデータ抽出システムのサーバの構成を示したブロック 図である。
[図 10]実施の形態 4で説明するデータ抽出システムの端末の構成を示したブロック図 である。
[図 11]実施の形態 5で説明するデータ抽出システムの端末の構成を示したブロック図 である。
[図 12]実施の形態 5で説明するデータ抽出システムのサーバの構成を示したブロック 図である。
[図 13]実施の形態 6で説明するデータ抽出システムの端末の構成を示したブロック図 である。
[図 14]実施の形態 6で説明するデータ抽出システムのサーバの構成を示したブロック 図である。
発明を実施するための最良の形態
[0037] 以下、本発明について図面を参照しながら詳細に説明する。なお、本発明におい ては以下の記述に限定されるものではなぐ本発明の要旨を逸脱しない範囲におい て適宜変更可能である。
[0038] [実施の形態 1]
本発明のデータ抽出システムの構成例として、図 1乃至図 4を用いて説明する。実 施の形態 1で説明する本発明のデータ抽出システムは、図 1のように、パーソナルコ ンピュータ等の端末装置である端末 2が複数と、この複数の端末 2にネットワーク 1を 介して接続されて 、るサーバ装置であるサーバ 3と、複数の端末 2及びサーバ 3とネ ットワーク 1を介して接続されているウェブサーノ とを有している。これらの端末 2、サ ーバ 3及びウェブサーノ は、相互に通信可能となっている。
[0039] 図 2は、本発明のデータ抽出システムの構成を示したブロック図である。端末 2は、 インターフェース 20、探索部 21、形態素解析部 22、抽出部 23、出力部 24、入力部
25とを有して!/ヽる。
[0040] インターフェース 20は、端末 2をネットワーク 1に接続している。このネットワーク 1に 接続されたインターフェース 20を介して、端末 2は、語句、品詞、テキストデータ、画 像、音声等の情報をサーバ 3やウェブサーバ 4と送受信する。
[0041] 探索部 21は、ネットワークに接続されたウェブサーノ のウェブページを探索する 探索手段であり、インターフェース 20を介して、ウェブサーバ 4からウェブページを受 信する。この探索部 21は、受信したゥヱブページ中のテキストデータを形態素解析部 22に送る。また、後述するように、出力部 24によって表示画面に表示された語句を 入力部 25によって選択することで、選択した語句が抽出されたテキストデータを含む ウェブページをウェブサーバ 4から受信し、表示画面に表示させる。この探索部 21は 、端末 2が接続されているウェブサーバ 4から自動的にウェブページを探索する。
[0042] 形態素解析部 22は、テキストデータを形態素に分解し、その形態素の品詞を解析 する形態素解析を行う形態素解析手段である。形態素解析部 22は、探索部 21で受 信したウェブページ中のテキストデータを、所有している辞書に基づいて形態素解析 を行う。形態素解析部 22が使用する辞書は、形態素解析用の辞書であればよぐゥ ヱブ上から受信するものであっても、ディスク状媒体から直接端末 2に導入するもので あってもよい。
[0043] 抽出部 23は、形態素解析部 22で解析した形態素の品詞を利用して、形態素が所 定の品詞の糸且み合わせとなつて ヽる語句を抽出する抽出手段である。この抽出部は 、サーバ 3の品詞蓄積部 31から形態素の品詞の組み合わせを受信し、形態素解析 部 22で形態素解析したテキストデータ力 この受信した形態素の品詞の組み合わせ と一致する形態素の品詞の組み合わせとなる語句を抽出する。抽出部 23は、抽出さ れた語句をデータ送信手段として機能するインターフェース 20を介してサーバ 3に送 信する。また抽出部 23は、抽出時に、辞書にはないような未知語を含む語句は抽出 しな 、と!/、うことも可能である。
[0044] 語句は、 1つ又は複数の形態素力もなるデータである。例えば、「図形認識-ユーロ ン」 t 、う語句は、「図形」と「認識」と「ニューロン」 t 、う 3つの形態素力も構成される。 また、「画面」という語句は、「画面」という 1つの形態素力も構成される。
[0045] そして、形態素は、名詞、形容詞、助詞や動詞といった品詞によって分類される。
例えば上述の例では、「図形」、「認識」、「ニューロン」及び「画面」は全て名詞である 。このように、形態素解析部 22では、搭載されている辞書に基づいてテキストデータ を形態素に分解し、その形態素の品詞を解析している。また、辞書にはないものに関 しては、未知の語である未知語となる。
[0046] この形態素の品詞が解析された後、抽出部 23では、 1つの語句を形成する形態素 の品詞が所定の組み合わせになって!/、るか否かを判断し、所定の組み合わせになつ ているものを語句のデータとして抽出する。例えば、形態素の品詞の組み合わせとし て 3つの名詞が並んだものを抽出するようにサーバ 3から「名詞」 +「名詞」 +「名詞」 を受信した場合、上述の例である「図形認識ニューロン」が形態素解析したテキストデ ータに含まれていると、この「図形認識-ユーロン」が抽出される。この品詞の組み合 わせは、特に限定するものではなぐ例えば、「名詞」 +「助詞の「の」」 +「名詞」とい つた品詞の中で特定の文字であってもよい。また、「未知語」のみであってもよい。
[0047] 出力部 24は、サーバ 3の照合部 33で語句蓄積部 32に蓄積されていないと判断さ れ、データ受信手段として機能するインターフェース 20を介して受信した語句を図示 されていない表示画面に表示させる出力手段である。この出力部 24によって表示さ れる語句は、新たに語句蓄積部 32に蓄積される語句である。出力部 24によって語 句を表示する表示画面は、表示された語句を選択するように入力部 25によって入力 すると、その語句が抽出されたテキストデータを含むウェブページを表示することがで きる。
[0048] 入力部 25は、出力部 24によって表示画面に表示された語句を選択することができ る。また、入力部 25は、サーバ 3の品詞蓄積部 31に蓄積する形態素の品詞の組み 合わせを入力することができる。また、端末 2及びサーバ 3に所定の処理を行わせる ように操作することもできる。例えば、サーバ 3の品詞蓄積部 31や語句蓄積部 32に 蓄積されている形態素の品詞の組み合わせや語句を端末 2の表示画面に表示させ るようなコマンドを人力することちでさる。
[0049] この端末 2は、図示されていない CPU (Central Processing Unit)の制御のもと に、所定のプログラムを実行することにより、上述した探索部 21、形態素解析部 22、 抽出部 23、出力部 24、入力部 25、探索条件記憶部 26をはじめとする各部材の機能 を実現する。
[0050] サーバ 3は、図 3のように、インターフェース 30と、品詞蓄積部 31と、語句蓄積部 32 と、照合部 33と、回数計測部 35とを有している。
[0051] インターフェース 30は、サーバ 3をネットワークに接続して!/、る。ネットワーク 1に接 続されたインターフェース 30を介して、語句、品詞、画像、音声等の情報を端末 2や ウェブサーバ 4と送受信する。
[0052] 品詞蓄積部 31は、端末 2の抽出部 23で語句を抽出するために、形態素の品詞の 組み合わせを蓄積する品詞蓄積手段である。この品詞蓄積部 31は、例えば、「名詞
」+「名詞」 +「名詞」といったように、品詞の組み合わせを蓄積している。品詞蓄積部 31は、品詞送信手段となるインターフェース 30を介して、蓄積している形態素の品 詞の組み合わせを端末 2に送信する。この品詞蓄積部 31への形態素の品詞の組み 合わせは、端末 2の入力部 25から入力されたものを蓄積することもできる。このとき、 品詞の組み合わせのリストが予め形成され、そのリストに表示された形態素の品詞の 組み合わせ力 選択するように入力部 25から入力して、品詞蓄積部 31に蓄積しても よい。これにより、利用者が求める形態素の品詞の組み合わせを抽出することができ る。
[0053] 語句蓄積部 32は、端末 2の抽出部 23で抽出された語句を蓄積するデータ蓄積手 段である。この語句蓄積部 32は、抽出部 23が抽出した語句をデータ受信手段であ るインターフェース 30を介して受信する。そして、語句蓄積部 32は、照合部 33で蓄 積されて!、る語句の中に受信した語句がな 、とされた場合、その語句を蓄積する。
[0054] また、語句蓄積部 32には、蓄積する語句が抽出されたテキストデータを含むウェブ ページの URL (Uniform Resource Locator)をその語句と関連付けて蓄積され ている。この URLは、端末 2の出力部 24によって表示画面に表示させるために照合 部 33が送信する語句とともに端末 2に送信してもよいが、端末 2の表示画面での入力 部 25による選択に応じて、端末 2に送信されてもよい。
[0055] さらに、語句蓄積部 32は、回数計測部 35で計測された端末 2の入力部 25で語句 が選択された回数を語句に関連付けて蓄積されている。この回数は、端末 2の表示 画面に表示される語句と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。
[0056] またさらに、この語句蓄積部 32に蓄積されている語句等は、端末 2の入力部 25に よって入力される操作に応じてその返答を端末 2に送信することができる。例えば、語 句蓄積部 32は、蓄積されて!、る語句の履歴を見せるように端末 2の入力部 25から入 力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもで きる。選択された回数の多 、順に語句を並べて端末 2の表示画面に表示させるように することちでさる。
[0057] 照合部 33は、端末 2の抽出部 23で抽出された語句を受信し、その語句が語句蓄 積部 31にある力否力を照合する照合手段である。照合の結果、照合部 33が語句蓄 積部 32に蓄積されていないとした場合、その語句を語句蓄積部 32に蓄積させるとと もに、その語句をデータ送信手段となるインターフェース 30を介して端末 2に送信す る。
[0058] 回数計測部 35は、端末 2の表示画面に表示された語句を入力部 25で選択された 回数を計測する。その回数は、語句蓄積部 32に蓄積される語句と関連付けて蓄積 する。この回数計測部 35は、サーバ 3に接続されている全ての端末 2で選択された 回数が計測できる。この回数計測部 35は、インターフェース 30を介して計測した回 数を、端末 2の表示画面に語句に関連付けて表示されるように端末 2に送信する。
[0059] このサーバ 3は、図示されていない CPUの制御のもとに、所定のプログラムを実行 することにより、上述した品詞蓄積部 31、語句蓄積部 32、照合部 33、照合条件記憶 部 34、回数計測部 35をはじめとする各部材の機能を実現する。
[0060] ウェブサーバ 4は、図 1のように、インターフェースを有し、ネットワーク 1を介して端 末 2及びサーバ 3と接続され、ウェブページ等の情報を送受信することができる。そし て、ウェブサーバ 4は、テキストデータ、画像、音声等を含むウェブページが記憶され 、探索部 21がこのウェブページを探索し、端末 2がこのウェブページを受信する。
[0061] このように構成されるデータ抽出システムの動作にっ ヽて図 4乃至図 6を用いて説 明する。まず、端末 2による語句の抽出について説明する。これは、端末 2が 1つのテ キストデータの受信毎に行われるものであり、テキストデータを受信するたびに繰り返 される。
[0062] まず、端末 2の探索部 21がウェブページを探索する。そして、探索の結果、探索部
21は、テキストデータを含むウェブページを受信する。
[0063] テキストデータを含むウェブページを受信すると、図 4のような処理が行われる。端 末 2の形態素解析部 22は、ステップ S41のように受信したウェブページのテキストデ ータを形態素解析する。この形態素解析によってテキストデータ中の形態素の品詞 を解析する。
[0064] そして、抽出部 23は、テキストデータ力 所定の形態素の品詞の組み合わせとなる 語句を抽出するために、ステップ S42のように、サーバ 3の品詞蓄積部 31から蓄積さ れて 、る形態素の品詞の組み合わせを受信する。 [0065] 抽出部 23は、ステップ S43のように、サーバ 3の品詞蓄積部 31から受信した形態 素の品詞の組み合わせと一致する形態素の品詞の組み合わせ力 なる語句が受信 したテキストデータにある力否かを確認する。抽出部 23は、その結果、一致する形態 素の品詞の組み合わせ力 なる語句がない場合、この処理を終了する。
[0066] ステップ S43において、一致する形態素の品詞の組み合わせ力もなる語句がある 場合、抽出部 23は、ステップ S44のように、該当する語句を抽出する。このとき、抽出 部 23は、その語句が抽出されたテキストデータを含むウェブページの受信先である URLを抽出した語句に関連付ける。
[0067] そして、抽出部 23は、インターフェース 20を介して、ステップ S45のように、抽出す る語句をサーバ 3に送信する。そして、抽出部 23は、ステップ S46のように、形態素 解析されたテキストデータの中に、サーノ 3の品詞蓄積部 31から受信した形態素の 品詞の組み合わせと一致する形態素の品詞の組み合わせからなる他の語句がある か否かを確認する。
[0068] ステップ S46において、一致する形態素の品詞の組み合わせ力もなる他の語句が ある場合、抽出部 23は、ステップ S44に移行し、形態素解析されたテキストデータか ら語句が抽出できなくなるまで繰り返す。一方、ステップ S46において、一致する形 態素解析の品詞の組み合わせ力もなる他の語句がな 、場合、この処理を終了する。 このとき、抽出部 23は、語句とともに、その語句に関連付けられた URLをサーバ 3に 送信する。
[0069] このようにして、探索部 21が自動的に探索し、ウェブサーバ 4から受信したテキスト データを含むウェブページ力 所定の形態素の品詞の組み合わせ力 なる語句を抽 出することができる。
[0070] 次に、端末 2の抽出部 23で抽出された語句の照合、及び、サーバ 3に接続されて いる端末 2への送信について説明する。これは、サーバ 3が 1つの語句を受信するこ とで行われるものであり、語句の受信毎に繰り返される。
[0071] まず、サーバ 3は、ステップ S51のように、送信された語句を照合部 33に送る。そし て、照合部 33は、ステップ S52のように、受信した語句が語句蓄積部 32にあるか否 力を照合する。その結果、受信した語句が語句蓄積部 32にある場合、照合部 33は、 ステップ S53のように、照合した語句を消去し、この処理を終了する。
[0072] ステップ S52において、受信した語句が語句蓄積部 32にない場合、照合部 33は、 ステップ S54のように、照合した語句を語句蓄積部 32に蓄積させる。このとき、照合 部 33は、語句と関連付けられ、端末 2から受信したその語句が抽出されたテキストデ ータを含むウェブページの URLも蓄積させる。
[0073] そして、照合部 33は、ステップ S55のように、インターフェース 30を介して、照合し た語句を端末 2の出力部 24によって表示画面に表示させるように接続されている全 ての端末 2に送信させる。
[0074] 図 6は、受信した語句を表示する表示画面の一例を示す図である。サーバ 3からィ ンターフェース 30を介して語句を受信した端末 2は、その語句を出力部 24によって 表示画面上の表示領域 240に表示させる。このとき、出力部 24は、受信した順に上 力も語句が並ぶように、語句表示欄 242に表示する。このように、語句蓄積部 32に蓄 積されていない語句が端末 2の出力部 24に表示されることになる。すなわち、新しい 語句が表示されることになる。表示する語句が多くなつた場合、語句表示欄 242の側 端部分にスクロールバー等を設け、語句表示欄 242をスクロールさせるように語句を 表示させてもよい。また、新しい語句が表示されるたびに、上力も順に語句を消去す るようにしてちょい。
[0075] この語句表示欄 242に表示された語句は、入力部 25によって選択することができる 。出力部 24は、入力部 25で語句が選択されるように入力された情報を探索部 21に 送る。そして、探索部 21は、インターフェース 20を介してサーノ 3の語句蓄積部 32に 選択された語句と関連付けて蓄積されている語句が抽出されたテキストデータを含 むウェブページの URLを受信する。そして、探索部 21は、受信した URLに基づいて ウェブサーバ 4を探索し、該当する URLのウェブページを受信する。受信したウェブ ページは、出力部 24に送られ、新たな画面で表示される。これにより、本システムで 抽出された語句がどのように使用されているかを見ることができる。すなわち、利用者 が表示された語句を新たな語句として利用しやすくなる。
[0076] 入力部 25によって語句を選択した場合、語句が選択された情報は、サーバ 3に送 信される。サーバ 3には複数の端末 2が接続されており、回数計測部 35は、各端末 2 力 受信した語句の選択の情報に基づ 、て、全体での語句の選択回数を計測する。 そして、回数計測部 35は、その語句に関連付けて選択された回数を語句蓄積部 32 に随時蓄積させる。
[0077] また、語句が選択された回数は、語句と関連付けられ、インターフェース 30を介し て端末 2に送信される。送信された回数は、出力部 24に渡され、関連付けられた語 句に対応するように表示画面に表示される。例えば、図 5のように、関連付けられた語 句の横に、例えば星印を付して語句が選択された回数を表示させる。また、回数を数 字で記載してもよい。さらには、数字や印で直接回数での表示でなくても、例えば、 回数に基づいて選択された頻度を例えばゲージの長さや星の数で示すような印を表 示させてもよい。これにより、利用者がどのような語句を注目しているかを知ることがで きる。
[0078] さらに、サーバ 3の品詞蓄積部 31から端末 2の抽出部 23に送信される形態素の品 詞の組み合わせは、端末 2を利用する利用者が要求する形態素の品詞の組み合わ せであってもよい。すなわち、端末 2を利用する利用者が、サーバ 3の品詞蓄積部 31 に蓄積されている形態素の品詞の組み合わせの中から入力部 25を介して所望する 形態素の品詞の組み合わせを要求する。そして、サーバ 3は、端末 2が要求する形 態素の品詞の組み合わせを端末 2に送信する。この場合、端末 2に送信される語句 は、形態素の品詞の組み合わせを要求した端末 2のみに送信されるほうがより好まし い。これにより、利用者が興味のある形態素の品詞の組み合わせ力 なる語句のみ を抽出することができる。そして、利用者にとって利用しやすいシステムとなる。
[0079] このように、本発明のデータ抽出システムは、端末 2とサーバ 3とでデータとして語句 の抽出に係る各処理を分散させることができる。そして、各装置に力かる負担を少な くすることができる。例えば、サーバ 3に接続する端末 2が多くなつても、サーバ 3にか 力る負担は少ない。
[0080] このサーバ 3には端末 2の探索部 21が備えられていてもよい。この場合、端末 2とと もに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブべ ージを探索するという処理を端末 2とサーバ 3とでさらに分散させることができる。探索 されたウェブページは、インターフェース 30を介して端末 2に送信されてもよいが、サ ーバ 3に形態素解析部 22及び抽出部 23を備え、サーバ 3が探索したウェブページ 力も語句を抽出しても良い。この場合の形態素解析部 22及び抽出部 23は、上述し た端末 2に備えられているものと略同じである。サーバ 3の探索部 21で探索されたゥ エブページは、端末 2と同様に、サーバ 3の形態素解析部 22で形態素解析される。 そして、同じサーバ 3内にある品詞蓄積部 31に蓄積されている形態素の品詞の組み 合わせを受け取り、サーバ 3の抽出部 23が端末 2の抽出部 23と同様にこの形態素の 品詞の組み合わせに基づいて語句を抽出する。抽出された語句は、サーバ 3の照合 部 33に送られ、照合される。これにより、サーバ 3でも、端末 2と同様に語句を抽出す ることがでさる。
[0081] また、実施の形態 1で説明したように、端末 2で抽出した語句をサーノ 3で照合し、 その結果をサーバ 3に接続されている端末 2に送信することで、端末 2で抽出された 新しい語句を全ての端末 2で共有することができる。この場合、 1つの端末 2がウェブ サーバ 4にあるテキストデータをウェブページをすベて見る必要がなくなり、各端末 2 で分担して語句を抽出することができるため、端末 2にかかる負担をさらに少なくする ことができる。
[0082] [実施の形態 2]
実施の形態 2で説明するデータ抽出システムは、各端末 2にサーバ 3で照合した語 句を、各端末 2同士で送受信することができる送受信部 29を備えた端末 2を使用す るシステムであり、このデータ抽出システムについて、図 3乃至図 8を利用して説明す る。なお、実施の形態 1で説明したデータ抽出システムと重複するものについては同 じ番号を付して説明を省略する。
[0083] 送受信部 29は、図 7のように、インターフェース 20を介して受信した語句が出力部 24に送られるときに、インターフェース 20を介してその語句を受け取る。そして、送受 信部 29は、受け取った語句をサーバ 3に接続されている他の端末 2の出力部 24によ つて表示画面に表示させるように送信する。
[0084] この送受信部 29を有する端末 2をサーバ 3に複数接続させることで、実施の形態 2 で説明するデータ抽出システムが構築される。図 8のように、実施の形態 2で説明す るデータ抽出システムは、サーバ 3に送受信部 29を備えた端末 2a、 2bが接続されて いる。
[0085] 実施の形態 1で説明したように、端末 2aが抽出した語句をサーバ 3で照合する。そ して、サーバ 3は、語句蓄積部 32にない語句であるとされた場合、その語句の抽出を 行った端末 2aのみに送信する。
[0086] インターフェース 20を介して受信した語句は、出力部 24と送受信部 29とに送られ る。その語句は、出力部 24によって表示画面に表示されるとともに、送受信部 29から 再びインターフェース 20を介してサーバ 3に接続されている他の端末 2bの出力部 24 によって表示画面に表示させるように送信される。
[0087] 端末 2aから受信した語句は、端末 2bの出力部 24に送られ、端末 2bの表示画面に 表示される。このとき、サーバ 3に接続されている端末 2a及び端末 2b以外の端末のう ち、語句が送信されていない端末がある場合、端末 2bは、受信した語句をその端末 2に送信するために、送受信部 29に送り、上述と同様に各端末 2に送信する。このと き、語句蓄積部 32に、語句に関連付けて蓄積される語句が選択された回数も同様に 、各端末 2に送信される。このように、語句や語句が選択された回数等を各端末 2間 で共有するように、例えば端末 2同士をピアツーピア接続してもよい。例えば、端末 2 bは、ピアツーピア接続して 、る他の端末 2が語句を受信して 、な 、ことを認識した場 合、その端末 2との通信路を確立し語句を送信する。これにより、ピアツーピア接続さ れた端末 2同士で語句や語句が選択された回数等の情報を共有することができる。
[0088] このように、抽出された新 、語句を全ての端末で共有できる。そして、複数の端末 2間で表示する語句を送受信可能とすることで、サーバ 3は、全ての端末 2に語句を 送受信することがなくなる。また、語句を受信した端末 2がサーバ 3に接続されている 全ての端末 2に送信することもない。すなわち、語句をサーバ 3に接続さている端末 2 で分散させることができ、端末 2やサーバ 3にかかる負担をより少なくすることができる 。また、端末 2やサーバ 3での処理が軽減されるため、語句の送受信を高速化するこ とちでさる。
[0089] [実施の形態 3]
実施の形態 3で説明するデータ抽出システムは、サーバ 3が所定の条件を満たす 語句に限って端末 2に送信するものである。すなわち、図 9のように、実施の形態 1で 説明したサーバ 3に照合条件記憶部 34を備えたものである。
[0090] 照合条件記憶部 34は、照合部 33が語句を照合する条件を記憶して 、る。照合条 件記憶部 34は、語句の照合毎に記憶した照合条件を照合部 33に送る。照合条件を 受け取った照合部 34は、この照合条件に基づいて語句の照合を行う。また、この照 合条件は、端末 2の入力部 25による入力で適宜変更することができる。
[0091] 照合条件記憶部 34に記憶される照合条件としては、各端末で抽出された語句が所 定の回数以上送信された場合、その語句を端末 2に送信するといつた例が挙げられ る。この場合、語句蓄積部 32には、語句とともに、語句に関連付けてサーバ 3に送信 された回数も蓄積させる。そして、照合部 33は、語句蓄積部 32に送信されてきた語 句があるか否かではなぐサーバ 3に何回送信されてきた力を照合し、所定の回数以 上となった語句のみを端末 2の出力部 24によって表示画面に表示させるように送信 する。
[0092] 例えば、「図形認識-ユーロン」を誤って「図形認識-ョーロン」と記載された語句を 有するテキストデータがあった場合、誤って記載された「図形認識-ョーロン」が「図 形認識-ユーロン」と区別され判断されてしまう。実際には、正しい記載の「図形認識 ニューロン」の方が多く使用され、誤った記載の「図形認識ニョーロン」は、使用される 回数が限られている。ここで、所定の回数以上サーバ 3に送信された語句に限って端 末 2に送信することで、このような誤った記載の「図形認識ニョーロン」が端末 2の表示 画面に表示されなくなる。すなわち、所定の条件を満たす語句のみが表示され、ノィ ズである誤った記載の語句を表示させ難くすることができる。したがって、より的確な 語句抽出が可能となる。
[0093] このとき、語句蓄積部 32には、蓄積される語句に関連づけて蓄積されるテキストデ ータを含むウェブページの URLを利用して、同じ URLを有するテキストデータ力 抽 出された語句は送信されてきた回数を加算されないようにすることもできる。これによ り、同じテキストデータ力 語句が抽出されることがなぐより的確な語句抽出が可能と なる。
[0094] [実施の形態 4]
実施の形態 4で説明するデータ抽出システムは、端末 2が所定の条件を満たすテキ ストデータに限って受信するものである。すなわち、図 10のように、実施の形態 1で説 明した端末 2に探索条件記憶部 26を備えたものである。
[0095] 探索条件記憶部 26は、探索部 21によるテキストデータを含むウェブページの探索 の条件を記憶している。探索条件記憶部 26は、探索部 21がウェブサーバ 4の探索を 行う前に探索条件を探索部 21に送る。探索条件を受け取った探索部 21は、探索条 件に基づいてテキストデータを含むウェブページの探索を行う。また、この探索条件 は、端末 2の入力部 25による入力で適宜変更することができる。
[0096] 探索条件記憶部 26に記憶される探索条件としては、所定の URLを有するウェブべ ージは受信しないといった例が挙げられる。この場合、探索条件記憶部 26には、所 定の URLが記憶されており、この探索条件とともにこの URLが探索部 21に送られる 。そして、探索部 21は、受け取った探索条件と所定の URLに基づいてウェブページ の探索を行う。このとき、探索部 21は、ウェブサーバ 4のウェブページの URLと探索 条件記憶部 26から受け取った URLとを比較しながらテキストデータを含むウェブべ ージを探索する。
[0097] そして、探索部 21がこの探索条件に基づいてウェブページを探索することで、探索 部 21は、ウェブサーノ のウェブページの URLと探索条件記憶部 26から受け取った URLとが一致しないウェブページのみを受信し、一致するウェブページは、受信しな くなる。すなわち、ウェブサーノ のウェブページの URLと探索条件記憶部 26から受 け取った URLとが一致するウェブページを排除することができる。
[0098] 端末 2の出力部 24によって表示画面に表示される語句を無意味な語句や文字列 で溢れさせる等といった目的のために、一般に利用されない語句や文字列を単に並 ベただけの悪意あるウェブページが存在することも考えられる。例えば「図形認識- ユーロン」と 、つた語句に似せて、「図形認識-ョーロン」や「図形認識-ヤーロン」等 といった無意味な語句を並べて形成されたテキストデータを含むウェブページがゥェ ブサーバ 4に作成される可能性がある。このようなウェブページを受信すると、このよう な無意味な語句まで抽出され、出力部 24によって表示画面に表示される。そして、こ の語句を入力部 25で選択しても、無意味な語句が単に並んだウェブページを出力 部 24によって表示画面に表示することになり、語句の意味や活用方法などを知ること ができない。このような場合、受信するウェブページの URLを記憶させ、その URLと 一致する URLを有するウェブページは受信しな 、ようにすることで、上述のような悪 意あるウェブページがあっても、無意味な語句を表示させることがない。また、無意味 な語句を表示させることがないため、その無意味な語句を入力部 25で選択することも なくなり、無意味な語句が単に並ぶウェブページを表示画面に表示させることもなく なる。すなわち、端末 2の出力部 24によって表示画面に表示される語句力 ノイズと なる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能と なる。なお、所定の URLを有するウェブページのみを受信することも可能である。
[0099] また、別の探索条件として、サーバ 3の語句蓄積部 32に蓄積された語句と関連付 けて蓄積される語句が抽出されたテキストデータを含むウェブページの URLを利用 することもできる。この場合、上述のように、語句蓄積部 32に蓄積された URLと一致 する URLを有するウェブページを受信しないようにすることもできる。これにより、各端 末 2で重複して語句を抽出することが避けられ、端末 2にかかる負担をより少なくする ことができる。
[0100] またさらに、語句蓄積部 32に蓄積された語句と関連付けて蓄積される語句が抽出 されたテキストデータを含むウェブページの URLを利用して、語句蓄積部 32に蓄積 される URLのウェブページの更新状況を監視し、更新されたウェブページのみを受 信することも可能である。これにより、更新されたウェブページを効率的に受信するこ とができ、端末 2にかかる負担をより少なくすることができる。
[0101] また、ウェブサーノ は、ウェブページの更新時に、例えばビング (ping)等を利用し て、その更新した旨の通知を所定のサーバ等に発信させることができる。これを利用 し、サーバ 3は、ビング等を利用して通知される更新の情報を取得できるようにするよ うにしてもよい。そして、この通知を受信した端末 2の探索部 21がウェブページの探 索を行ってもよい。これにより、ウェブページの更新の情報が低コストで即座に把握で きる。また、例えば所定の時間毎にビング等でウェブページの更新した旨の通知を提 供するサーバ等からその通知を取り出すようにしてもょ 、。
[0102] 実施の形態 1乃至実施の形態 4で説明したように、データ抽出システムによって、円 滑に語句を抽出することができる。実施の形態 1乃至実施の形態 4で説明したデータ 抽出システムは、それぞれ独立したものに限られず、例えば、実施の形態 1と実施の 形態 4とを組み合わせる、実施の形態 2と実施の形態 3とを組み合わせるように適宜 組み合わせることも可能である。
[0103] 本発明のデータ抽出システムにおいて、端末 2の形態素解析部 22は、探索部 21 で探索されたウェブページのみを形態素解析するに限られない。例えば、形態素解 析部 22を有する端末 2の入力部 25から入力されたテキストデータを形態素解析する ことも可能である。これにより、例えば、端末 2の入力部 25を介して、サーバ 3の品詞 蓄積部 31に入力する際に、語句の品詞がわ力もない場合であっても、端末 2の形態 素解析部 22を利用して、利用者がある語句を入力して形態素解析することで、この 語句の形態素の品詞の組み合わせを知ることができる。そして、この形態素の品詞の 組み合わせを品詞蓄積部 31に蓄積させようとすることも可能である。これにより、より 便利になる。
[0104] また、本発明のデータ抽出システムにおいて、ウェブサーバ 4からウェブサーバ 4の ウェブページの閲覧回数を取得し、この閲覧回数に基づいて受信するウェブページ の優先順位を決めることも可能である。
[0105] さらに、サーバ 3の語句蓄積部 32には、蓄積される語句に関連付けて、語句を照合 部 33で照合した日時も蓄積することができる。これにより、例えば、入力部 25での入 力によって、語句蓄積部 32に蓄積された語句を時間軸に沿って並べることができる。 すなわち、語句の出現時刻を時間軸で表した表を形成することも可能である。
[0106] [実施の形態 5]
本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出する ためだけのものではない。例えば、データとして画像も実施の形態 1乃至 4に説明し たのと同様に抽出することもできる。実施の形態 5で説明する画像を抽出するデータ 抽出システムについて図面を参照しながら説明する。
[0107] 実施の形態 5で説明するデータ抽出システムは、実施の形態 1と同様に端末 2とサ ーバ 3とを有している。端末 2には、図 11のように、実施の形態 1の抽出部 23の代わり に、画像を抽出する抽出手段として画像抽出部 50と、画像抽出部 50によって抽出し た画像を圧縮する画像圧縮手段として画像圧縮部 52を備えている。そして、サーバ 3には、図 12のように、実施の形態 1の語句蓄積部 32の代わりに、画像を蓄積する データ蓄積手段として画像蓄積部 51を備えたものである。なお、実施の形態 1で説 明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略 する。
[0108] 画像抽出部 50は、探索部 21で探索したウェブサーバ 4中のウェブページ力も画像 のデータを抽出する。この画像抽出部 50は、抽出された語句をデータ送信手段とし て機能するインターフェース 20を介してサーバ 3に送信する際に、画像を圧縮するた めに画像圧縮部 52に画像を渡す。このとき、抽出する画像は、静止画及び動画であ つてもよく、ウェブページ中に画像として表示されるものであればどのような拡張子を 有するファイルであってもよ 、。
[0109] 画像圧縮部 52は、画像を所定のノ《イトに圧縮する。この画像圧縮部 52は、例えば 図 13のような画像を画像抽出部 50から受け取ると、その画像の大きさを例えば 8 X 8 ピクセルまで縮小する。そして、その画像を例えば 256色に減色する。これにより、 1 ピクセル力 ビットの 256階調となり、 8 X 8ピクセルの画像は 64バイトとなる。このよう に画像圧縮部 52は、画像抽出部 50から受け取った画像を所定のサイズに小さくす るとともに減色することによって所定のバイトに圧縮する。これにより、画像のバイト数 が減少する。したがって、サーバ 3に送信する際にネットワーク 1にかかる負担が軽減 される。このように画像を圧縮した画像圧縮部 52は、インターフェース 20を介して圧 縮した画像をサーバ 3に送信する。この画像圧縮部 52は、下記で説明するサーバ 3 の照合部 33での画像の照合で圧縮した画像を使用しな 、場合は、備えられて 、なく てもよい。その場合、画像抽出部 50で抽出された画像は、そのままインターフェース 20を介してサーバ 3に送信される。
[0110] 画像蓄積部 51は、端末 2の画像抽出部 50で抽出され、画像圧縮部 52で圧縮され た画像を蓄積する。さら〖こ、画像蓄積部 51は、照合部 33で形成されたその画像に対 応する文字や画像等の情報を、その画像と対応させて蓄積する。この画像蓄積部 51 は、インターフェース 30を介して画像圧縮部 52で圧縮された画像を受信する。そし て、画像蓄積部 51は、照合部 33で蓄積されている画像の中に受信した画像が無い とされた場合、その画像を蓄積する。このとき、画像圧縮部 52で圧縮される前の容量 の大きい画像を端末 2から受信し、圧縮した画像に対応させるように画像蓄積部 51 に蓄積してもよい。
[0111] また、画像蓄積部 51には、蓄積する画像が抽出されたウェブページの URLをその 画像と関連付けて蓄積されている。この URLは、端末 2の出力部 24によって表示画 面に表示させるために、照合部 33が送信する画像に対応する情報とともに端末 2〖こ 送信してもよいが、表示画面に表示された画像に対応する情報を入力部 25によって 選択することで、端末 2に送信されてもよい。
[0112] さらに、画像蓄積部 51は、回数計測部 35で計測された端末 2の入力部 25で画像 が選択された回数を画像に関連付けて蓄積されている。この回数は、端末 2の表示 画面に表示される画像に対応する情報と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。
[0113] またさらに、この画像蓄積部 51に蓄積されている画像等は、端末 2の入力部 25に よって入力される操作に応じてその返答を端末 2に送信することができる。例えば、画 像蓄積部 51は、蓄積されて!、る画像の履歴を見せるように端末 2の入力部 25から入 力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもで きる。選択された回数の多 、順に画像に対応する情報を並べて端末 2の表示画面に 表示させるよう〖こすることちでさる。
[0114] このように構成される実施の形態 5で説明するデータ抽出システムは、まず、端末 2 の探索部 21がウェブページを探索し、画像を含むウェブページを受信する。
[0115] 端末 2は、画像を含むウェブページを受信すると、そのウェブページを画像抽出部 50に渡し、ウェブページ中の画像が抽出される。このとき、実施の形態 1と同様に、画 像抽出部 50は、その画像が抽出されたウェブページの受信先である URLを抽出し た画像に関連付ける。画像抽出部 51は、抽出した画像を画像圧縮部 52に渡し、画 像を所定のバイトに圧縮する。そして、画像圧縮部 52は、インターフェース 20を介し て圧縮した画像をサーバ 3に送信する。このとき、画像抽出部 50は、画像とともに、そ の画像に関連付けられた URLをサーバ 3に送信する。ウェブページ中に画像が複数 ある場合、これを繰り返す。そして探索部 21は、ウェブページ中に抽出する画像が存 在しなくなった場合、新たなウェブページをウェブサーバ 4から探索する。 [0116] サーバ 3は、接続されている端末 2から画像圧縮部 52で圧縮された画像を受信す ると、実施の形態 1の語句と同様に処理する。サーバ 3は、受信した画像を照合部 33 に送る。そして、照合部は、受信した画像が画像蓄積部 51にあるか否かを照合する
[0117] 画像蓄積部 51に蓄積されている画像は、端末 2の画像圧縮部 52で所定のバイトに 圧縮された画像である。また、照合部 33に送られてきた画像も、所定の端末 2の画像 圧縮部 52で所定のバイトに圧縮された画像である。例えば、 256色の 8 X 8ピクセル に圧縮されている場合、照合部は、 1ピクセル毎の色を比較し、照合部 33に送られて きた画像と画像蓄積部 51に蓄積されて 、る画像とを照合する。この照合部 33での照 合の方法は、特に限定されるものではなぐ圧縮の方法や圧縮率などにより適宜変更 することができる。
[0118] 照合部 33での照合の結果、サーノ 3が受信した画像が画像蓄積部 51にある場合 、照合部 33は、照合した画像を消去する。一方、サーバ 3が受信した画像が画像蓄 積部 51にない場合、照合部 33は、照合した画像に対応する文字や画像などの情報 を形成し、照合した画像とともに画像蓄積部 51に蓄積させる。このとき、照合部 33は 、画像と関連付けられ、端末 2から受信したその画像が抽出されたウェブページの U も蓄積させる。
[0119] そして、照合部 33は、インターフェース 30を介して、照合した画像に対応する情報 を端末 2の出力部 24によって表示画面に表示させるように接続されている全ての端 末 2に送信させる。
[0120] この表示画面に表示される画像に対応する情報を入力部 25で選択するように入力 することで、端末 2は、表示画面に表示された情報に対応する画像の URLをサーバ 3の画像蓄積部 51から受信する。そして、探索部 21は、受信した URLを基にウェブ ページを探索する。このとき、探索部 21は、実施の形態 1で抽出した語句を有するゥ エブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ゥ エブページ中の画像を受信し、出力部 24によってその画像を表示画面に表示させて ちょい。
[0121] このように、実施の形態 5で説明したデータ抽出システムは、データとして実施の形 態 1の語句に代わって画像を抽出することができる。これにより、例えば新規に構築さ れたり、更新されたりしたウェブ上のウェブページ力 従来には、ウェブページには無 力つた新たな画像を見つけ出すことができる。
[0122] また、抽出される画像を圧縮することで、画像の容量が小さくなり、サーバ 3の照合 部 33は、画像蓄積部 51に蓄積されている画像と端末で抽出して圧縮された画像と を早く大量に照合することができる。したがって、ウェブページ力 抽出される膨大な データ量を早く大量に処理することが可能となる。
[0123] 照合部 33で形成される画像に対応する情報は、特に限定するものではなぐ端末 2 の表示画面に出力部 24によって表示するように出力されるものであればどのようなも のであってもよい。例えば、圧縮された画像のファイル名や圧縮された画像に関連付 けて蓄積されて 、る URLの一部等であってもよぐ照合部 33で照合した圧縮された 画像をそのまま表示させてもょ 、。
[0124] 画像蓄積部 51を有するサーバ 3には、実施の形態 1と同様に、端末 2の探索部 21 が備えられていてもよい。この場合、端末 2とともに、ウェブページを同様に探索する ことができる。これにより、膨大な量のウェブページを探索するという処理を端末 2とサ ーバ 3とでさらに分散させることができる。探索されたウェブページは、インターフエ一 ス 30を介して端末 2に送信されてもよいが、サーバ 3に抽出部 23を備え、サーバ 3内 が探索したウェブページ力 端末 2の抽出部 23と同様に画像を抽出しても良い。
[0125] 実施の形態 5で説明したデータ抽出システムは、実施の形態 1乃至 4と組み合わせ 、語句と画像との両方を抽出するものであってもよい。この場合、実施の形態 1乃至 4 で説明したデータ抽出システムに、画像抽出部 50、画像圧縮部 52、画像蓄積部 51 を新たに、備え付け、上述のように画像の抽出も行えるようにすることで、ウェブべ一 ジ中の語句及び画像を抽出することができる。
[0126] [実施の形態 6]
本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出する ためだけのものではない。例えば、データとして音声も実施の形態 1乃至 4に説明し たのと同様に抽出することもできる。実施の形態 6で説明する音声を抽出するデータ 抽出システムについて図面を参照しながら説明する。 [0127] 実施の形態 6で説明するデータ抽出システムは、実施の形態 1と同様に端末 2とサ ーバ 3とを有している。端末 2には、図 13のように、実施の形態 1の抽出部 23の代わり に、音声を抽出する抽出手段として音声抽出部 60と、音声抽出部 60によって抽出し た音声を圧縮する音声圧縮手段として音声圧縮部 62を備えている。そして、サーバ 3には、図 14のように、実施の形態 1の語句蓄積部 32の代わりに、音声を蓄積する データ蓄積手段として音声蓄積部 61を備えたものである。なお、実施の形態 1で説 明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略 する。
[0128] 音声抽出部 60は、探索部 21で探索したウェブサーバ 4中のウェブページ力も音声 のデータを抽出する。この音声抽出部 60は、抽出された語句をデータ送信手段とし て機能するインターフェース 20を介してサーバ 3に送信する際に、音声を圧縮するた めに音声圧縮部 62に音声を渡す。このとき、抽出する音声は、ウェブページ中に音 声として表示されるものであればどのような拡張子を有するファイルであってもよい。
[0129] 音声圧縮部 62は、音声を所定のバイトに圧縮する。この音声圧縮部 62は、例えば 音声を音声抽出部 60から受け取ると、その音声を例えば音声ファイルに含まれるサ ンプリング情報を間引くようにサンプリングし、時間方向に圧縮することで、 64サンプ ル程度に圧縮する。これにより、照合部 33で比較するビット列が少なくなり、サーバ 3 に送信する際にネットワーク 1にかかる負担が軽減される。このように音声を圧縮した 音声圧縮部 62は、インターフェース 20を介して圧縮した音声をサーバ 3に送信する 。この音声圧縮部 62は、下記で説明するサーバ 3の照合部 33での音声の照合で圧 縮した音声を使用しない場合は、備えられていなくてもよい。その場合、音声抽出部 60で抽出された音声は、そのままインターフェース 20を介してサーバ 3に送信される
[0130] 音声蓄積部 61は、端末 2の音声抽出部 60で抽出され、音声圧縮部 62で圧縮され た音声を蓄積する。さらに、音声蓄積部 61は、照合部 33で形成されたその音声に対 応する文字や画像等の情報を、その音声と対応させて蓄積する。この音声蓄積部 61 は、インターフェース 30を介して音声圧縮部 62で圧縮された音声を受信する。そし て、音声蓄積部 61は、照合部 33で蓄積されている音声の中に受信した音声が無い とされた場合、その音声を蓄積する。このとき、音声圧縮部 62で圧縮される前の容量 の大きい音声を端末 2から受信し、圧縮した音声に対応させるように音声蓄積部 61 に蓄積してもよい。
[0131] また、音声蓄積部 61には、蓄積する音声が抽出されたウェブページの URLをその 音声と関連付けて蓄積されている。この URLは、端末 2の出力部 24によって表示画 面に表示させるために、照合部 33が送信する音声に対応する情報とともに端末 2に 送信してもよいが、表示画面に表示された音声に対応する情報を入力部 25によって 選択することで、端末 2に送信されてもよい。
[0132] さらに、音声蓄積部 61は、回数計測部 35で計測された端末 2の入力部 25で音声 が選択された回数を音声に関連付けて蓄積されている。この回数は、端末 2の表示 画面に表示される音声に対応する情報と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。
[0133] またさらに、この音声蓄積部 61に蓄積されている音声等は、端末 2の入力部 25に よって入力される操作に応じてその返答を端末 2に送信することができる。例えば、音 声蓄積部 61は、蓄積されて!、る音声の履歴を見せるように端末 2の入力部 25から入 力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもで きる。選択された回数の多い順に音声に対応する情報を並べて端末 2の表示画面に 表示させるよう〖こすることちでさる。
[0134] このように構成される実施の形態 5で説明するデータ抽出システムは、まず、端末 2 の探索部 21がウェブページを探索し、音声を含むウェブページを受信する。
[0135] 端末 2は、音声を含むウェブページを受信すると、そのウェブページを音声抽出部 60に渡し、ウェブページ中の音声が抽出される。このとき、実施の形態 1と同様に、音 声抽出部 60は、その音声が抽出されたウェブページの受信先である URLを抽出し た音声に関連付ける。音声抽出部 61は、抽出した音声を音声圧縮部 62に渡し、音 声を圧縮する。そして、音声圧縮部 62は、インターフェース 20を介して圧縮した音声 をサーバ 3に送信する。このとき、音声抽出部 60は、音声とともに、その音声に関連 付けられた URLをサーバ 3に送信する。ウェブページ中に音声が複数ある場合、こ れを繰り返す。そして探索部 21は、ウェブページ中に抽出する音声が存在しなくなつ た場合、新たなウェブページをウェブサーバ 4から探索する。
[0136] サーバ 3は、接続されている端末 2から音声圧縮部 62で圧縮された音声を受信す ると、実施の形態 1の語句と同様に処理する。サーバ 3は、受信した音声を照合部 33 に送る。そして、照合部は、受信した音声が音声蓄積部 51にある力否力を照合する
[0137] 音声蓄積部 61に蓄積されている音声は、端末 2の音声圧縮部 62で圧縮された音 声である。また、照合部 33に送られてきた音声も、所定の端末 2の音声圧縮部 62で 圧縮された音声である。例えば、 64サンプル程度にまで音声が圧縮されている場合 、その圧縮によってできるビット列を比較し、照合部 33に送られてきた音声と音声蓄 積部 61に蓄積されている音声とを照合する。この照合部 33での照合の方法は、特に 限定するものではなぐ圧縮の方法などにより適宜変更することができる。
[0138] 照合部 33での照合の結果、サーバ 3が受信した音声が音声蓄積部 61にある場合 、照合部 33は、照合した音声を消去する。一方、サーバ 3が受信した音声が音声蓄 積部 61にない場合、照合部 33は、照合した音声に対応する文字や画像等の情報を 形成し、照合した音声とともに音声蓄積部 61に蓄積させる。また、照合部 33は、音声 と関連付けられ、端末 2から受信したその音声が抽出されたウェブページの URLも蓄 積させる。
[0139] そして、照合部 33は、インターフェース 30を介して、照合した音声に対応する情報 を端末 2の出力部 24によって表示画面に表示させるように接続されている全ての端 末 2に送信させる。
[0140] 照合部 33で照合した音声とこの音声に対応する情報を受信した端末は、音声に対 応する情報を出力部 24に渡す。音声に対応する情報を受け取った出力部 24は、そ の情報を表示画面に表示させる。これにより、データとして実施の形態 1の語句に代 わって音声を抽出することができる。これにより、例えば新規に構築されたり、更新さ れたりしたウェブ上のウェブページから従来には、ウェブページには無かった新たな 音声を見つけ出すことができる。
[0141] この表示画面に表示される音声に対応する情報を入力部 25で選択するように入力 することで、端末 2は、表示画面に表示された情報に対応する音声の URLをサーバ 3の音声蓄積部 61から受信する。そして、探索部 21は、受信した URLを基にウェブ ページを探索する。このとき、探索部 21は、実施の形態 1で抽出した語句を有するゥ エブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ゥ エブページ中の音声を受信し、出力部 24によってその音声をスピーカ等で出力して ちょい。
[0142] また、抽出される音声を圧縮することで、音声の容量力 、さくなり、サーバの照合部 33は、音声蓄積部 61に蓄積されている音声と端末で抽出して圧縮された音声とを 早く大量に照合することができる。したがって、ウェブページ力 抽出される膨大なデ 一タ量を早く大量に処理することが可能となる。
[0143] 照合部 33で形成される音声に対応する情報は、特に限定するものではなぐ端末 2 の表示画面に出力部 24によって表示するように出力されるものであればどのようなも のであってもよい。例えば、圧縮された音声のファイル名や圧縮された音声に関連付 けて蓄積されて 、る URLの一部等であってもよ 、。
[0144] 音声蓄積部 61を有するサーバ 3には、実施の形態 1と同様に、端末 2の探索部 21 が備えられていてもよい。この場合、端末 2とともに、ウェブページを同様に探索する ことができる。これにより、膨大な量のウェブページを探索するという処理を端末 2とサ ーバ 3とでさらに分散させることができる。探索されたウェブページは、インターフエ一 ス 30を介して端末 2に送信されてもよいが、サーバ 3に抽出部 23を備え、サーバ 3内 が探索したウェブページ力 端末 2の抽出部 23と同様に音声を抽出しても良い。
[0145] 実施の形態 6で説明したデータ抽出システムは、実施の形態 1乃至 5と組み合わせ 、語句と音声や語句と画像と音声とを抽出するものであってもよい。この場合、実施の 形態 1乃至 5で説明したデータ抽出システムに、音声抽出部 60、音声圧縮部 62、音 声蓄積部 61を新たに、備え付け、上述のように音声の抽出も行えるようにすることで 、ウェブページ中の語句と音声や語句と画像と音声を抽出することができる。

Claims

請求の範囲
[1] ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムであって 複数の端末と、
前記端末に接続されたサーバとを有し、
前記サーバは、
前記端末で抽出された前記所定のデータを蓄積するデータ蓄積手段と、 抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデータであ る力否力を照合する照合手段とを有し、
肯 己端末は、
前記ゥ ブから前記ゥ ブページを探索する探索手段と、
前記ウェブページから前記所定のデータを抽出する抽出手段と、
前記照合手段で前記データ蓄積手段に蓄積されて!、な!、とされた前記所定のデ ータ又は該所定のデータに対応する情報を前記サーバから受信し、該所定のデータ 又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とす るデータ抽出システム。
[2] 前記所定のデータは、所定の形態素の品詞の組み合わせを有する語句であり、 前記サーバは、
前記語句を抽出するための前記形態素の品詞の組み合わせを蓄積する品詞蓄積 手段を有し、
肯 己端末は、
前記探索手段で探索された前記ウェブページ中のテキストデータを形態素解析す る形態素解析手段を有し、
前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み合わせを予め前記 サーバから受信し、
前記抽出手段によって、前記サーバから受信した前記形態素の品詞の組み合わ せと一致する形態素の品詞の組み合わせ力 なる語句を前記形態素解析手段で形 態素解析したテキストデータ力 抽出し、 前記サーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記 語句を前記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴 とする請求項 1記載のデータ抽出システム。
[3] 前記サーバは、複数の前記端末全てに、前記照合手段によって前記データ蓄積 手段に蓄積されていないとされた前記語句を送信することを特徴とする請求項 2記載 のデータ抽出システム。
[4] 前記サーバは、前記抽出手段によって前記語句を抽出した前記端末に、前記照合 手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信し、 前記語句を受信した端末は、該語句を他の端末に送信することを特徴とする請求 項 2記載のデータ抽出システム。
[5] 前記品詞蓄積手段は、前記端末で入力された新たな形態素の品詞の組み合わせ を蓄積することを特徴とする請求項 2記載のデータ抽出システム。
[6] 前記サーバは、前記抽出手段で抽出された前記語句のうち、所定の条件を満たす 語句に限って前記端末に送信することを特徴とする請求項 2記載のデータ抽出シス テム。
[7] 前記端末は、所定の条件を満たすウェブページのみを受信することを特徴とする請 求項 2記載のデータ抽出システム。
[8] 前記サーバは、前記端末が要求する形態素の品詞の組み合わせを該端末に送信 することを特徴とする請求項 2記載のデータ抽出システム。
[9] 前記端末の前記出力手段は、前記表示画面に表示された前記語句が選択される ことによって、前記語句が抽出された前記ウェブページを前記ウェブ力 受信し、前 記ウェブページを該端末の表示画面に表示することを特徴とする請求項 2記載のデ ータ抽出システム。
[10] 前記サーバは、複数の前記端末で前記表示画面に表示された前記語句が選択さ れた回数を集計し、該回数に基づ!、た表示を前記語句と関連付けて前記端末の前 記表示画面に表示させるように前記端末に送信することを特徴とする請求項 2記載 のデータ抽出システム。
[11] 前記端末は、前記探索手段で探索した前記ウェブページから画像を抽出する画像 抽出手段を有し、
前記サーバは、抽出された前記画像を受信し、前記画像を蓄積する画像蓄積手段 を有し、前記照合手段によって、抽出された前記画像が前記画像蓄積手段に蓄積さ れているか否かを照合し、
前記端末は、前記照合手段で前記画像蓄積手段に蓄積されて!、な!、とされた前 記画像に対応する情報を前記サーバから受信し、前記出力手段によって、該画像に 対応する情報を前記表示画面に表示することを特徴とする請求項 2記載のデータ抽 出システム。
[12] 前記端末は、前記画像抽出手段で抽出された前記画像のサイズを小さくするととも に減色することによって所定バイトに圧縮する画像圧縮手段を有し、
前記サーバは、前記画像圧縮手段で圧縮された前記画像を受信し、前記画像蓄 積手段によって、圧縮された前記画像を蓄積し、前記照合手段によって、圧縮された 前記画像のビット列に基づいて、当該画像が前記画像蓄積手段に蓄積されている画 像であるか否かを照合することを特徴とする請求項 11記載のデータ抽出システム。
[13] 前記端末は、前記探索手段で探索した前記ウェブページ力 音声を抽出する音声 抽出手段を有し、
前記サーバは、抽出された前記音声を受信し、前記音声を蓄積する音声蓄積手段 を有し、前記照合手段によって、抽出された前記音声が前記音声蓄積手段に蓄積さ れているか否かを照合し、
前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前 記音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を 対応する情報を出力することを特徴とする請求項 2記載のデータ抽出システム。
[14] 前記端末は、前記音声抽出手段で抽出された前記音声を時間軸の方向に圧縮す る音声圧縮手段を有し、
前記サーバは、前記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄 積手段によって、圧縮された前記音声を蓄積し、前記照合手段によって、圧縮された 前記音声のビット列に基づいて、当該音声が前記音声蓄積手段に蓄積されている音 声であるか否かを照合することを特徴とする請求項 13記載のデータ抽出システム。
[15] 前記所定のデータは、画像であることを特徴とする請求項 1記載のデータ抽出シス テム。
[16] 前記所定のデータは、音声であることを特徴とする請求項 1記載のデータ抽出シス テム。
[17] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用さ れ、サーバに接続された端末装置であって、
前記ゥ ブから前記ゥ ブページを探索する探索手段と、
前記ウェブページから前記所定のデータを抽出する抽出手段と、
前記抽出手段によって抽出された前記所定のデータを前記サーバに送信するデ ータ送信手段と、
前記データ送信手段で送信した前記所定のデータが前記サーバのデータ蓄積手 段に蓄積された所定のデータである力否かが照合され、前記データ蓄積手段に蓄積 されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サー バから受信するデータ受信手段と、
前記データ受信手段で受信した前記所定のデータ又は該所定のデータに対応す る情報を出力する出力手段とを有することを特徴とする端末装置。
[18] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用さ れ、サーバに接続された端末装置のプログラムであって、
前記ゥ ブから前記ゥ ブページを探索する探索処理と、
前記ゥ ブページ力 前記所定のデータを抽出する抽出処理と、
前記抽出処理によって抽出された前記所定のデータを前記サーバに送信するデ ータ送信処理と、
前記データ送信処理で送信した前記所定のデータが前記サーバのデータ蓄積処 理によって蓄積された所定のデータである力否かが照合され、前記データ蓄積処理 によって蓄積されていないとされた所定のデータ又は該所定のデータに対応する情 報を前記サーバから受信するデータ受信処理と、
前記データ受信処理で受信した前記所定のデータ又は該所定のデータに対応す る情報を出力する出力処理とを有することを特徴とする端末装置のプログラム。
[19] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用さ れるサーバ装置であって、
前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページ から抽出する複数の端末と接続され、
前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信手 段と、
前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手段と、 前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に蓄積 されて 、る語句である力否力を照合する照合手段と、
前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記所定 のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信す るデータ送信手段とを有することを特徴とするサーバ装置。
[20] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用さ れるサーバ装置のプログラムであって、
前記サーバ装置は、
前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページ から抽出する複数の端末と接続され、
当該プログラムは、
前記端末で抽出された前記所定のデータを前記端末力 受信するデータ受信処 理と、
前記データ受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、 前記データ受信処理で受信した前記所定のデータが前記データ蓄積処理によつ て蓄積された語句である力否力を照合する照合処理と、
前記照合処理によって前記データ蓄積処理によって蓄積されて 、な 、とされた前 記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように 送信するデータ送信処理とを有することを特徴とするサーバ装置のプログラム。
PCT/JP2005/019775 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム WO2007029348A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006519016A JPWO2007029348A1 (ja) 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US11/991,451 US8321198B2 (en) 2005-09-06 2005-10-27 Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis
US13/593,616 US8700702B2 (en) 2005-09-06 2012-08-24 Data extraction system, terminal apparatus, program of the terminal apparatus, server apparatus, and program of the server apparatus for extracting prescribed data from web pages

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005257325 2005-09-06
JP2005-257325 2005-09-06

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US11/991,451 A-371-Of-International US8321198B2 (en) 2005-09-06 2005-10-27 Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis
US13/593,616 Continuation US8700702B2 (en) 2005-09-06 2012-08-24 Data extraction system, terminal apparatus, program of the terminal apparatus, server apparatus, and program of the server apparatus for extracting prescribed data from web pages

Publications (1)

Publication Number Publication Date
WO2007029348A1 true WO2007029348A1 (ja) 2007-03-15

Family

ID=37835485

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019775 WO2007029348A1 (ja) 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム

Country Status (3)

Country Link
US (2) US8321198B2 (ja)
JP (1) JPWO2007029348A1 (ja)
WO (1) WO2007029348A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075908A (ja) * 2007-09-21 2009-04-09 Sony Corp ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム
JP2010009742A (ja) * 2007-05-15 2010-01-14 Sony Corp データ処理装置および方法、プログラム、並びに記録媒体
JP2010237948A (ja) * 2009-03-31 2010-10-21 Kddi R & D Laboratories Inc 画像処理システム
US8065265B2 (en) 2007-10-29 2011-11-22 Microsoft Corporation Methods and apparatus for web-based research
US8264727B2 (en) 2007-05-15 2012-09-11 Sony Corporation Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
JPWO2022219741A1 (ja) * 2021-04-14 2022-10-20

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280781B1 (en) 2001-03-21 2012-10-02 Amazon Technologies, Inc. Automatically purchasing a gift from a wishlist
US8195529B1 (en) 2006-11-07 2012-06-05 Amazon Technologies, Inc. Creating and maintaining gift lists in online shopping
US9817539B1 (en) 2010-02-02 2017-11-14 Amazon Technologies, Inc. Discovery of items added to wish lists

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134334A (ja) * 1997-10-29 1999-05-21 Fujitsu Ltd 単語登録装置及び記録媒体
JPH11282873A (ja) * 1998-03-31 1999-10-15 Central Res Inst Of Electric Power Ind 画像データベース検索装置及びその検索方法並びに記録媒体
JP2000112978A (ja) * 1998-10-05 2000-04-21 Fuji Xerox Co Ltd カスタマイズ配信装置
JP2003178261A (ja) * 2001-12-10 2003-06-27 Ricoh Co Ltd 文字認識装置およびプログラム
JP2003248494A (ja) * 2002-02-25 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> 音声信号検索方法,音声検索のための音声信号蓄積方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US6654754B1 (en) * 1998-12-08 2003-11-25 Inceptor, Inc. System and method of dynamically generating an electronic document based upon data analysis
US7844594B1 (en) * 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US6631369B1 (en) * 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6418453B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6480837B1 (en) * 1999-12-16 2002-11-12 International Business Machines Corporation Method, system, and program for ordering search results using a popularity weighting
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US7139747B1 (en) * 2000-11-03 2006-11-21 Hewlett-Packard Development Company, L.P. System and method for distributed web crawling
US20020111792A1 (en) * 2001-01-02 2002-08-15 Julius Cherny Document storage, retrieval and search systems and methods
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US7213013B1 (en) * 2001-06-18 2007-05-01 Siebel Systems, Inc. Method, apparatus, and system for remote client search indexing
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
US7130861B2 (en) * 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7072890B2 (en) * 2003-02-21 2006-07-04 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for improved web scraping
US7502779B2 (en) * 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system
EP1665092A4 (en) * 2003-08-21 2006-11-22 Idilia Inc INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
JP4458517B2 (ja) 2003-11-19 2010-04-28 株式会社 日立システムアンドサービス 情報抽出装置およびその方法
US20050125412A1 (en) * 2003-12-09 2005-06-09 Nec Laboratories America, Inc. Web crawling
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
WO2006023765A2 (en) * 2004-08-19 2006-03-02 Claria, Corporation Method and apparatus for responding to end-user request for information
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
EP1645974B1 (en) * 2004-10-05 2014-01-01 Sony Europe Limited Self-organisation approach to semantic interoperability in peer-to-peer information exchange
US7689557B2 (en) * 2005-06-07 2010-03-30 Madan Pandit System and method of textual information analytics
US7660815B1 (en) * 2006-06-30 2010-02-09 Amazon Technologies, Inc. Method and system for occurrence frequency-based scaling of navigation path weights among online content sources

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134334A (ja) * 1997-10-29 1999-05-21 Fujitsu Ltd 単語登録装置及び記録媒体
JPH11282873A (ja) * 1998-03-31 1999-10-15 Central Res Inst Of Electric Power Ind 画像データベース検索装置及びその検索方法並びに記録媒体
JP2000112978A (ja) * 1998-10-05 2000-04-21 Fuji Xerox Co Ltd カスタマイズ配信装置
JP2003178261A (ja) * 2001-12-10 2003-06-27 Ricoh Co Ltd 文字認識装置およびプログラム
JP2003248494A (ja) * 2002-02-25 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> 音声信号検索方法,音声検索のための音声信号蓄積方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009742A (ja) * 2007-05-15 2010-01-14 Sony Corp データ処理装置および方法、プログラム、並びに記録媒体
US8264727B2 (en) 2007-05-15 2012-09-11 Sony Corporation Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
JP2009075908A (ja) * 2007-09-21 2009-04-09 Sony Corp ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム
US8065265B2 (en) 2007-10-29 2011-11-22 Microsoft Corporation Methods and apparatus for web-based research
JP2010237948A (ja) * 2009-03-31 2010-10-21 Kddi R & D Laboratories Inc 画像処理システム
JPWO2022219741A1 (ja) * 2021-04-14 2022-10-20
WO2022219741A1 (ja) * 2021-04-14 2022-10-20 三菱電機株式会社 学習装置、推論装置、プログラム、学習方法及び推論方法
JP7366316B2 (ja) 2021-04-14 2023-10-20 三菱電機株式会社 学習装置、推論装置、プログラム、学習方法及び推論方法

Also Published As

Publication number Publication date
US20120323882A1 (en) 2012-12-20
US20090106396A1 (en) 2009-04-23
US8700702B2 (en) 2014-04-15
JPWO2007029348A1 (ja) 2009-03-12
US8321198B2 (en) 2012-11-27

Similar Documents

Publication Publication Date Title
WO2007029348A1 (ja) データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
JP3923513B2 (ja) 音声認識装置および音声認識方法
US9177142B2 (en) Identification of electronic documents that are likely to contain embedded malware
US10235680B2 (en) System and method for populating a database with user input
US20070192309A1 (en) Method and system for identifying sentence boundaries
US20020087515A1 (en) Data acquisition system
CN110362601B (zh) 元数据标准的映射方法、装置、设备及存储介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US20040167888A1 (en) Document extracting device, document extracting program, and document extracting method
CN110083774B (zh) 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
US20050010422A1 (en) Speech processing apparatus and method
US7302427B2 (en) Text mining server and program
CN113656763B (zh) 确定小程序特征向量的方法、装置和电子设备
JP4889706B2 (ja) 広告配信装置、システム及び方法
CN112380337A (zh) 基于富文本的高亮方法及装置
US8346745B2 (en) Information retrieval method, computer readable medium and information retrieval apparatus
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
KR20090083747A (ko) 웹 문서 요약 제공을 위한 사용자 단말 장치 및 웹 문서제공 방법
US7921126B2 (en) Patent summarization systems and methods
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
KR101111679B1 (ko) 검색시스템 및 그 방법
CN114254109B (zh) 用于确定行业类别的方法及装置
CN111160042B (zh) 一种文本语义解析方法和装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006519016

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11991451

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05799407

Country of ref document: EP

Kind code of ref document: A1