WO2016190063A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2016190063A1
WO2016190063A1 PCT/JP2016/063634 JP2016063634W WO2016190063A1 WO 2016190063 A1 WO2016190063 A1 WO 2016190063A1 JP 2016063634 W JP2016063634 W JP 2016063634W WO 2016190063 A1 WO2016190063 A1 WO 2016190063A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentences
sentence
word
unit
hierarchy
Prior art date
Application number
PCT/JP2016/063634
Other languages
English (en)
French (fr)
Inventor
亮裕 渡辺
亮介 三谷
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2016190063A1 publication Critical patent/WO2016190063A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and in particular, an information processing device and an information processing method that can analyze a large number of sentences easily and with high accuracy and visualize an analysis result. , As well as programs.
  • Patent Document 1 a technique for analyzing sentences such as various comments has been proposed.
  • Patent Document 1 In the conventional technique represented by Patent Document 1, an input document is divided into word units called morphemes, and a method of analyzing the distribution of word appearance (bag-of-words) is adopted.
  • the bag-of-words method is mainstream.
  • This technology has been made in view of such a situation, and in particular, can analyze many sentences easily and with high accuracy and visualize the analysis results.
  • An information processing apparatus includes a sentence dividing unit that divides a comment including input text information into sentences, an analysis unit that analyzes the divided sentences and separates them into phrases.
  • a dictionary storage unit that stores a dictionary in which words are arranged in a hierarchical structure according to a concept; and for each of the sentences, a word corresponding to a phrase unit that is an analysis result by the analysis unit is searched in the dictionary
  • a classifying unit that hierarchically classifies the sentence by classifying the hierarchy of the dictionary to which the word as the topic belongs and the hierarchy to which the word to which the topic belongs belongs as the hierarchy to which the sentence belongs.
  • the information processing apparatus includes a visible image generation unit that generates a visualized image by statistically processing information in which a plurality of sentences are hierarchized according to a concept by the classification unit.
  • the dictionary can be generated by arranging the words extracted from the technical terminology layered according to the concept.
  • the dictionary can be an ontology dictionary.
  • the analysis unit causes the divided sentences to be analyzed by morphological analysis, syntax analysis, and semantic analysis, and is separated into phrase units according to the analysis results, and the modalities in each of the sentences are analyzed, and the result Can be added as modality information.
  • the visualized image generation unit can generate, as a visualized image, a statistical processing result indicating a ratio to the total number of sentences classified as topics for each word belonging to the hierarchy for each hierarchy.
  • the visualized image generation unit may generate a statistical processing result indicating a ratio of each modality information as a visualized image with respect to the total number of sentences classified as topics for each word.
  • the visualized image generation unit generates a statistical processing result indicating the ratio of positive and negative in the modality information as a visualized image with respect to the total number of sentences classified as topics for each word. be able to.
  • An operation unit that accepts a user's operation and generates an operation signal according to the operation content can be further included, and the visualized image generation unit includes a topic for each word belonging to the hierarchy for each hierarchy.
  • the statistical processing results indicating the ratio to the total number of sentences classified as a topic and the statistical processing results indicating the ratio of each modality information to the total number of sentences classified as a topic for each word At least one selected by operating the unit can be generated as a visualized image.
  • An information processing method divides a comment made up of input text information into sentences, analyzes sentences divided into sentences, divides them into phrases, and for each of the sentences,
  • the word corresponding to the phrase unit that is the analysis result is searched in a dictionary in which words are arranged in a hierarchical structure by concept, the word that is the search result is the topic of the sentence, and the word that is the topic belongs to Classifying the hierarchy in the dictionary as a hierarchy to which the sentence belongs, and hierarchizing the sentence according to a concept, and statistically processing information in which a plurality of sentences are hierarchized according to the concept to generate a visualized image Information processing method.
  • a program includes a sentence dividing unit that divides a comment including input text information into sentences, an analysis unit that analyzes the divided sentences and separates them into phrases, and a concept
  • a dictionary storage unit that stores a dictionary in which words are arranged in a hierarchical structure according to the above, and for each sentence, a word corresponding to a phrase unit that is an analysis result by the analysis unit is searched in the dictionary
  • the resulting word is the topic of the sentence, and the hierarchy in the dictionary to which the word that is the topic belongs is classified as a hierarchy to which the sentence belongs, thereby classifying the sentence by concept
  • a program that causes a computer to function as a visible image generation unit that generates statistical images by statistically processing information in which a plurality of sentences are hierarchized by concept by a classification unit.
  • a comment composed of input text information is divided into sentences, the sentence is divided into sentences, separated into phrases, and words are structured in a hierarchical structure by concept.
  • An arranged dictionary is stored, and for each of the sentences, a word corresponding to a phrase unit that is an analysis result by the analysis unit is searched in the dictionary, and the word that becomes the search result is a topic of the sentence,
  • the hierarchy in the dictionary to which the word as the topic belongs is classified as a hierarchy to which the sentence belongs, so that the sentence is hierarchized by concept, and information in which a plurality of sentences are hierarchized by concept is statistically processed.
  • a visualized image is generated.
  • the information processing apparatus may be an independent apparatus or a block that functions as an information processing apparatus.
  • FIG. 11 is a diagram illustrating a configuration example of a general-purpose personal computer.
  • FIG. 1 shows a configuration example of an information processing system to which the present technology is applied.
  • the information processing system in FIG. 1 analyzes many sentences input as input text and displays the analysis result as a visualized image.
  • the information processing system in FIG. 1 includes an information processing device 11, a display unit 12, and an operation unit 13.
  • the information processing device 11 is configured by a plurality of texts supplied from a network or operation input (not shown). And the analysis result is visualized and displayed on the display unit 12. At this time, the information processing apparatus 11 switches the content displayed on the display unit 12 based on an operation signal corresponding to the operation content by operating the operation unit 13 including a keyboard and operation buttons.
  • the information processing apparatus 11 in FIG. 1 includes a sentence division unit 31, a language analysis unit 32, an extraction classification unit 33, an ontology conversion unit 34, a visualized image generation unit 35, a technical term collection 36, a dictionary generation unit 37, And an ontology dictionary 38.
  • the sentence dividing unit 31 receives input of comments made up of the supplied text, divides comments made up of a plurality of sentences into sentences, and supplies them to the language analysis unit 32 one sentence at a time.
  • the language analysis unit 32 performs processing such as morphological analysis, syntax analysis, and semantic analysis on each sentence supplied one sentence at a time. With such processing, the language analysis unit 32 separates the sentence into phrase units from case information such as the dependency relation of the input sentence, the main case, and the target case with respect to the morpheme that is the minimum unit such as a phrase. Further, the language analysis unit 32 assigns modality information (eg, negation, question, desire, etc.) that is a linguistic expression representing the speaker's judgment and feeling for the content being spoken, and outputs it to the extraction and classification unit 33.
  • modality information eg, negation, question, desire, etc.
  • the extraction and classification unit 33 searches for the corresponding word from the words registered in the ontology dictionary 38 for each phrase (comment), classifies the searched word as a topic in each sentence, and determines the classification result. This is supplied to the ontology unit 34.
  • the ontology dictionary 38 is a dictionary in which words extracted from the terminology glossary 36 made up of text data in advance by the dictionary generating unit 37 have a hierarchical structure based on concepts, in other words, This is a dictionary in which words are arranged in a hierarchical structure based on a concept. Details of the ontology dictionary will be described later.
  • the ontology unit 34 is arranged in the hierarchical structure according to the concept in the ontology dictionary 38 in association with the word that is the topic of the sentence, which is the classification result of each sentence (comment) supplied from the extraction classification unit 33.
  • the sentences (comments) themselves are hierarchized by concept.
  • the topic of the sentence (comment) is classified into one of the words (words) hierarchized by the concept in the ontology dictionary, and the sentence (comment) is arranged in association with the hierarchical structure by the concept of the ontology dictionary ( Classification) is referred to as “ontology of sentences (comments)”, and information in which a plurality of sentences are ontologies is referred to as “ontology information”.
  • the visualized image generating unit 35 statistically processes the ontology information, generates a visualized image of an analysis result of a plurality of sentences (comments) from the statistical processing result, and displays the generated visualized image on the display unit 12. At this time, even if the same ontology information is used, different statistical processing results are obtained depending on the topic and hierarchy. However, the input of the operation signal corresponding to the operation content of the operation unit 13 is received, and the visualized image generation unit 35 generates a visualized image by switching the topic or hierarchy, and displays it on the display unit 12.
  • step S11 the sentence dividing unit 31 accepts input of comments made up of the supplied text, divides comments made up of a plurality of sentences into sentences, and supplies them to the language analysis unit 32 one sentence at a time.
  • Example sentences Ex1 to Ex8 these divided sentences are referred to as example sentences Ex1 to Ex8.
  • “Breakfast is delicious and I like it” as example sentence Ex1
  • Example sentence Ex2 “The view is wonderful.”
  • “Easy” As example sentence Ex4, "view is very good” as example sentence Ex5, "access from the station front was very good” as example sentence Ex6, "the reception was very good.”
  • Example sentence Ex7
  • Example sentence Ex8 “Sorry that there is no public bath” will be referred to as Example sentence Ex8.
  • step S12 the language analysis unit 32 performs processes such as morphological analysis, syntax analysis, and semantic analysis for each sentence supplied one sentence at a time.
  • the language analysis unit 32 separates the sentence from the case information such as the dependency relation of the input sentence, the main case, and the purpose case with respect to the morpheme that is the minimum unit such as a phrase.
  • the language analysis unit 32 assigns modality information (eg, negation, question, desire, etc.) that is a linguistic expression representing the speaker's judgment and feeling for the content being spoken, and outputs it to the extraction and classification unit 33.
  • modality information eg, negation, question, desire, etc.
  • Example sentence 1 is separated into “Breakfast is”, “Delicious”, and “I like it”. Then, the expression “I like it” gives the sentence modality information that is positive. For example, “breakfast”, “delicious”, and “I like it” are all phrase units of the example sentence Ex1.
  • example sentence Ex4 is divided into “in front of the station”, “very” and “it was easy”. Then, with the expression “It was easy”, modality information that is positive and past is given to this sentence.
  • example sentence Ex6 is separated into “from the station”, “access is also”, “very”, and “good”. Then, the expression “good” gives the sentence modality information that is positive.
  • step S13 the extraction and classification unit 33 searches each sentence for words registered in the corresponding ontology dictionary 38 for each phrase, classifies the words as search results as topic of the sentence, and classifies each phrase.
  • the result is supplied to the ontology unit 34.
  • the ontology dictionary 38 is a dictionary in which each word (word) registered in the technical terminology 36 or the like is hierarchized according to the concept and is, for example, as shown in FIG. In FIG. 4, an ontology dictionary 38 in the case where the category of the technical term collection 36 is “hotel term” is shown.
  • the concept in the ontology dictionary 38 of FIG. 4 is hierarchized into concepts consisting of hierarchies L1 to L4. It should be noted that the number of hierarchies may be more or less than this.
  • the dictionary generation unit 37 stratifies information in the technical term collection 36 into the concepts of the hierarchies L1 to L4.
  • the hierarchy L1 is indicated as “hotel term” indicating a category.
  • words that are subordinate concepts of each word in the hierarchy L2 are arranged like a tree diagram.
  • the subordinate concept “ ”And“ facility ” are arranged.
  • the words “lobby”, “staff”, and “reception” are arranged as subordinate concepts.
  • “lobby” and “reception” are classified as being synonymous with each other.
  • the words “equipment” and “non-smoking” are arranged as subordinate concepts.
  • the words “facility”, “bathhouse”, “hot spring”, and “meal” are arranged as subordinate concepts.
  • words that are subordinate concepts of each word in the hierarchy L3 are arranged.
  • “convenience store” representing a convenience store is included as a subordinate concept.
  • the words “check-in” and “check-out” are arranged as subordinate concepts.
  • the terms “air purifier”, “bathroom”, and “internet” are arranged as subordinate concepts.
  • the ontology dictionary 38 is generated in advance at the timing before executing the visualized image display process, and by changing or adding a category in the technical glossary 36, Various categories of ontology dictionaries 38 can be formed.
  • step S ⁇ b> 14 the ontology forming unit 34 selects, as the topic of the input comment, the corresponding word searched from the phrase unit among the words registered in the ontology dictionary 38 supplied from the extraction and classification unit 33.
  • the texts are classified and arranged in a hierarchical structure based on the concepts formed by the ontology dictionary 38, whereby the texts (comments) themselves are hierarchized according to the concepts (ontology).
  • the ontology unit 34 stratifies the sentences of the comments Ex1 to Ex8 by using the ontology dictionary 38 of FIG. 4 and conceptually stratifying each sentence as shown in FIG.
  • the phrase units “Breakfast is”, “Delicious” and “I like it” are respectively searched.
  • the example sentence Ex1 is changed to “meal” below the “facility” included in the concept of “hotel term”. It is classified as a sentence about the topic “breakfast” to which it belongs.
  • the example sentence Ex1 belongs to the hierarchy L3 in the category “hotel term” to which the word “breakfast” belongs, and thus has a hierarchical structure based on the concept of the ontology dictionary 38. Placed (ontographed).
  • the phrase units “from the station”, “location is” and “best” are respectively searched. Then, by searching for the word “location” in the hierarchy L2 in FIG. 5, it is classified that the example sentence Ex2 is a sentence related to the topic “location” included in the concept of “hotel term”. As a result, as shown in FIG. 5, the example sentence Ex2 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L2 in the category of “hotel term” to which the word “location” belongs ( Ontology).
  • the example sentence Ex3 that “the view is wonderful”, “the view is also” and “great” are respectively searched. Then, the word “view” synonymous with the word “landscape” in the hierarchy L2 in FIG. 5 is searched, and the example sentence Ex3 is called “view” synonymous with “landscape” included in the concept of “hotel term”. It is classified as a sentence about the topic. As a result, as shown in FIG. 5, the example sentence Ex3 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L2 in the category “hotel term” to which the word “view” belongs ( Ontology).
  • the example sentence Ex4 “It was very easy in front of the station”, “In front of the station”, “Very” and “It was easy” are respectively searched. Then, by searching for the word “in front of the station” in the hierarchy L3 in FIG. 5, the example sentence Ex4 is classified as a sentence related to the topic “in front of the station” subordinate to “location” included in the concept of “hotel term”. Is done. As a result, as shown in FIG. 5, the example sentence Ex4 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L3 in the category of “hotel term” to which the word “station front” belongs ( Ontology).
  • the example sentence Ex5 that “view is very good”, “view is”, “very”, and “good” are respectively searched. Then, by searching for the word “view” synonymous with “scenery” in the hierarchy L3 in FIG. 5, the example sentence Ex5 is called “view” synonymous with “scenery” included in the concept of “hotel term”. It is classified as a sentence about the topic. As a result, as shown in FIG. 5, the example sentence Ex5 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L2 in the category “hotel term” to which the word “breakfast” belongs ( Ontology).
  • the example sentence Ex6 “Access from the station front was very good”, “From the station front”, “Access too”, “Very”, and “Good” were respectively searched. Then, by searching for the word “in front of the station” in the hierarchy L3 in FIG. 5, the example sentence Ex6 is classified as a sentence relating to the topic “in front of the station” subordinate to “location” included in the concept of “hotel term”. Is done. As a result, as shown in FIG. 5, the example sentence Ex6 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L3 in the category of “hotel term” to which the word “station front” belongs ( Ontology).
  • the example sentence Ex7 that “reception was good”, “reception”, “response”, and “good” were respectively searched. Then, by searching for “reception” which is synonymous with “lobby” in the hierarchy L3 in FIG. 5, the example sentence Ex7 is synonymous with “lobby” subordinate to the word “customer service” included in the concept of “hotel term” It is classified as a sentence on the topic “reception” of the word. As a result, as shown in FIG. 5, the example sentence Ex7 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L3 in the category “hotel term” to which the word “reception” belongs ( Ontology).
  • the example sentence Ex8 is referred to as “large public bath” below the “community bath” below the “facility” included in the concept of “hotel term”. It is classified as a sentence about the topic.
  • the example sentence Ex8 is arranged in a hierarchical structure according to the concept by belonging to the hierarchy L3 in the category of “hotel term” to which the word “large bath” belongs. (Ontology).
  • the ontology conversion unit 34 uses the ontology dictionary 38 to create an ontology by hierarchizing the input sentences (comments) according to the concept, and outputs the ontology result to the visualized image generation unit 35.
  • step S15 the visualized image generation unit 35 generates a visualized image using the ontology result.
  • the visualized image generation unit 35 generates visualized images CHL1, CHL2, and CHF, outputs them to the display unit 12, and displays them.
  • the highest level L1 is “ROOT”, and the words “A” and “B” are provided in the lower level L2.
  • words “C” and “D” are provided in the hierarchy L3 below the word “A”
  • words “E” and “F” are provided in the hierarchy L3 below the word “B”. It has been.
  • the visualized image generating unit 35 generates a pie chart (pie graph) as shown by the visualized image CHL1 for the layer L2. That is, in the hierarchy L2, the visualized image generation unit 35 obtains a ratio according to the number of sentences having the words “A” and “B” as a topic by statistical processing, and obtains the statistical processing result as a ratio of the angle from the center position. To generate a visualized image CHL1. In the visualized image CHL1, it is shown that the ratio of the number of sentences having a topic of the word “A” in the hierarchy L2 and sentences having the topic of the word “B” is 1: 3.
  • the visualized image generating unit 35 can also generate a visualized image CHF as a visualized image related to each word and display it on the display unit 12, for example.
  • the visualized image CHF includes a graph CHF-1 showing the ratio of positive and negative ones based on modality information for the word “F” of all comments, detailed modality information, That is, a graph CHF-2 showing a ratio indicating any of solicitation, degree, command, claim, question, etc. is included.
  • modality information is shown as an example where positive, negative, solicitation, degree, command, assertion, or question is assigned, but other modalities should be assigned. May be.
  • the visualized image generation unit 35 divides the number of modalities information that is positive and the number that is negative among sentences whose topics are words. Record as a score.
  • sentences about topics such as “scenery”, “location”, “customer service”, “price”, and “room” in the hierarchy L2 are listed as positive comments.
  • the points (number of sentences) of 5, 4, 4 and 3 are recorded.
  • 4 points are recorded in a sentence whose topic is “bathhouse” in level L3, which is a lower level of “facility” in level L2.
  • the visualized image generation unit 35 has the number of sentences (points) having topics of “scenery”, “location”, “customer service”, “price”, “room”, and “facility” for the level L2. ) Is generated as a pie chart corresponding to the visualized images CHL1 and CHL2.
  • the visualized image generation unit 35 selects positive among the modality information of sentences having topics such as “scenery”, “location”, “customer service”, “price”, “room”, and “facility”. A graph indicating the ratio of each of the number of sentences and the number of negative sentences to the total number is generated as a visualized image CHF-1. In addition, the visualized image generation unit 35 calculates the number of sentences in the modality information of sentences having topics such as “scenery”, “location”, “customer service”, “price”, “room”, and “facility”. Then, a graph showing the ratio to the total number is generated as a visualized image CHF-2.
  • all the visualized images CHL1, CHL2, and CGF of each layer are displayed at the same time, or any of them is selectively displayed. This may be displayed on the display unit 12 by switching the visualization image generation unit 35.
  • the ontology dictionary 38 is generated based on the technical terminology 36 based on “hotel terms”.
  • the ontology dictionary 38 may be generated based on other glossaries, for example, “Game It may be generated based on the terminology technical terminology 36.
  • the ontology dictionary 38 is generated based on the technical term collection 36 of “game terms”, for example, the one shown in FIG. 8 is generated.
  • FIG. 8 shows that the category of the ontology dictionary 38 is “game glossary” in the uppermost layer L1.
  • the separated comments are the following example sentences Ex11 to Ex18 in step S11.
  • the example sentences Ex11 to Ex18 are “I'm in trouble because I can't download the costumes”, “I can't download the costumes”, “I want more characters”, “It ’s strange that the bracelet ’s bracelet is n’t the strongest. "Do you want to use strong magic that makes use of various attack magic?", “I want you to make more fancy magic.”, “Fire attack is too low.” The number of times it can be used is too small. " At this time, the example sentences Ex11 to Ex18 are separated into phrase units as shown in FIG.
  • Example Ex12 the sentence “Executive clothing cannot be downloaded” in Example Ex12 is separated from “Professional clothing”, “Unable to download”, and “I am in trouble”, and “Negative” and “Impossible” Modality information is given.
  • Example Ex18 Excessive use of recovery magic in Example Ex18 is separated from “recovery magic”, “useable”, “number of times”, and “too few”, and is “negative”. Modality information is given.
  • sentences Ex11 to Ex18 constituting the comment are hierarchized by concept.
  • the words corresponding to “Hougi ga”, “Unable to download”, and “I'm in trouble” in the example sentence Ex12 “Can't download Hoi” are searched in the ontology dictionary 38, respectively. Then, by searching for the word “Hori” in the hierarchy L4, which is lower than the “costume” in the hierarchy L3 in FIG. 10, the example sentence Ex12 is “clothes” under the “character” included in the concept of “game term”. It is classified into sentences whose topic is “costume”.
  • the words corresponding to “More”, “Flashy”, “Magic”, and “I want you to make” are entered in the ontology dictionary 38, respectively. Searched. Then, by searching for “magic” in the hierarchy L2 in FIG. 10, the example sentence Ex16 is classified into sentences having “magic” included in the concept of “game term” as a topic.
  • the example sentence Ex17 “fire attack is too low”, words corresponding to “fire”, “attack is”, and “too low” are searched in the ontology dictionary 38, respectively. Then, by searching for “fire” in the hierarchy L4 of FIG. 10, the example sentence Ex17 includes “game terms” included in the concept of “game terms” in the hierarchy L3 lower than “attack magic” and “ It is categorized into sentences with the topic “Fire”.
  • the words corresponding to “the recovery magic”, “can be used”, “the number of times”, and “too few” are respectively ontology dictionaries. Searched at 38. Then, by searching for “recovery magic” in the level L3 in FIG. 10, the example sentence Ex18 becomes a sentence whose topic is “recovery magic” in the lower level L3 of the “magic” included in the concept of “game term”. being classified.
  • visualized images CH1, CH11 to CH13 as shown in FIG. 11 are generated and displayed on the display unit 12 by the process of step S15.
  • a pie chart corresponding to the number of sentences having a word related to a predetermined hierarchy as a topic is generated in the upper left part.
  • Angles corresponding to the number of comments of “character”, “magic”, and “magic” are assigned to the visualized image CH1 including the pie chart in the upper left of FIG. 11, and are 45%, 35%, and 20%, respectively. It is said to be%.
  • the visualization image CH11 in the upper right part of FIG. 11 is visualization information relating to the “character” in the visualization image CH1, and the visualization image CH11-1 including a graph showing a positive or negative ratio is provided in the upper part of the figure.
  • a visualized image CH11-2 comprising a graph showing the ratio of more detailed modality information is provided.
  • the visualization image CH12 in the lower right part of FIG. 11 is visualization information regarding “magic” in the visualization image CH1, and the visualization image CH12-1 including a graph showing a positive or negative ratio is provided in the upper part of the figure.
  • a visualized image CH12-2 comprising a graph showing the ratio of more detailed modality information is provided.
  • the visualization image CH13 in the lower left part of FIG. 11 is visualization information regarding the “demon” in the visualization image CH1, and the visualization image CH13-1 including a graph showing a positive or negative ratio is provided in the upper part of the figure.
  • a visualized image CH13-2 comprising a graph showing the ratio of more detailed modality information is provided.
  • any of these visualized images CH1 and CH11 to CH13 may be switched and displayed by operating the operation unit 13. For example, a portion displayed as “character” in the visualized image CH1 is displayed with a pointer or the like. When selecting, the visualized image CH11 may be displayed.
  • each of a plurality of sentences input as comments is separated into phrases by linguistic analysis, and the corresponding words are searched by the ontology dictionary 38 and searched.
  • the words are classified as the topic of the sentence, and the sentence is hierarchically classified according to the topic word.
  • the result of ontology is displayed as a visualized image.
  • each sentence composing a comment can be classified hierarchically according to the concept of the word as a topic by using an ontology dictionary (it can be converted into an ontology). Also, by making ontology using words that become topics of a plurality of sentences, it is possible to generate a visualized image that uses the distribution of sentences for each word that each of the sentences that have been converted into a topic. In the past, it was only possible to search by inputting keywords or the like actively and reading the searched comments, but the topic of the sentence is regarded as hierarchical information by concept (ontology information). Since this is visualized, an analysis result in an objective language that the user is not particularly conscious of is visualized, so that an objective analysis result can be presented to the user.
  • ⁇ Example executed by software> By the way, the series of processes described above can be executed by hardware, but can also be executed by software.
  • a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a recording medium in a general-purpose personal computer or the like.
  • FIG. 12 shows a configuration example of a general-purpose personal computer.
  • This personal computer incorporates a CPU (Central Processing Unit) 1001.
  • An input / output interface 1005 is connected to the CPU 1001 via a bus 1004.
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.
  • the input / output interface 1005 includes an input unit 1006 including an input device such as a keyboard and a mouse for a user to input an operation command, an output unit 1007 for outputting a processing operation screen and an image of the processing result to a display device, programs, and various types.
  • a storage unit 1008 including a hard disk drive for storing data, a LAN (Local Area Network) adapter, and the like are connected to a communication unit 1009 that executes communication processing via a network represented by the Internet.
  • magnetic disks including flexible disks
  • optical disks including CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc)), magneto-optical disks (including MD (Mini Disc)), or semiconductors
  • a drive 1010 for reading / writing data from / to a removable medium 1011 such as a memory is connected.
  • the CPU 1001 is read from a program stored in the ROM 1002 or a removable medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 to the RAM 1003. Various processes are executed according to the program.
  • the RAM 1003 also appropriately stores data necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads the program stored in the storage unit 1008 to the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 1001) can be provided by being recorded on the removable medium 1011 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by attaching the removable medium 1011 to the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008. In addition, the program can be installed in advance in the ROM 1002 or the storage unit 1008.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • this technique can also take the following structures.
  • a sentence dividing unit that divides a comment composed of input text information into sentences; Analyzing the divided sentences one sentence at a time, and an analysis unit for separating the sentences into phrases;
  • a dictionary storage unit that stores a dictionary in which words are arranged in a hierarchical structure according to a concept; For each of the sentences, a word corresponding to a phrase unit that is an analysis result by the analysis unit is searched in the dictionary, a word that becomes a search result is set as the topic of the sentence, and the word that becomes the topic belongs to the word Classifying the hierarchy in the dictionary as a hierarchy to which the sentence belongs, thereby classifying the sentence into a hierarchy by concept;
  • An information processing apparatus comprising: a visible image generating unit that generates a visualized image by statistically processing information in which a plurality of sentences are hierarchized by concept by the classification unit.
  • ⁇ 2> The information processing apparatus according to ⁇ 1>, wherein the dictionary is generated by arranging words extracted from a technical terminology layered according to a concept.
  • ⁇ 3> The information dictionary according to ⁇ 1> or ⁇ 2>, wherein the dictionary is an ontology dictionary.
  • the analysis unit performs morphological analysis, syntax analysis, and semantic analysis of the divided sentences, and separates them into phrases according to the analysis results, and analyzes the modalities in each of the sentences, The result is added as modality information.
  • the information processing apparatus according to any one of ⁇ 1> to ⁇ 3>.
  • the visualized image generation unit generates, as a visualized image, a statistical processing result indicating a ratio to the total number of sentences classified as topics for each word belonging to the hierarchy for each hierarchy. ⁇ 1> to ⁇ 4>.
  • the information processing apparatus according to any one of 4>.
  • the visualized image generation unit generates a statistical processing result indicating a ratio of each modality information as a visualized image with respect to the total number of sentences classified as topics for each word. ⁇ 1> to ⁇ 4> The information processing apparatus according to any one of the above.
  • the visualized image generation unit generates, as a visualized image, a statistical processing result indicating a ratio of positive and negative in the modality information with respect to the total number of sentences classified as topics for each word. 6>.
  • An operation unit that receives an operation of the user and generates an operation signal according to the operation content, The visualized image generation unit includes, for each hierarchy, a statistical processing result indicating a ratio to the total number of sentences classified as topics for each word belonging to the hierarchy, and the number of sentences classified as topics for each word. Any one of ⁇ 1> to ⁇ 7> is generated as a visualized image selected from the statistical processing result indicating the ratio of each modality information with respect to the total number of images, by operating the operation unit.
  • An information processing apparatus divide the comment consisting of the input text information into sentences, Analyzing the divided sentences and separating them into phrases, For each of the sentences, a word corresponding to a phrase unit that is an analysis result is searched in a dictionary in which words are arranged in a hierarchical structure by concept, and the word that becomes the search result is set as the topic of the sentence, and the topic By classifying the hierarchy in the dictionary to which the word belongs as the hierarchy to which the sentence belongs, the sentence is hierarchized by concept, An information processing method including a step of statistically processing information in which a plurality of sentences are hierarchized according to a concept to generate a visualized image.
  • ⁇ 10> a sentence dividing unit that divides a comment made up of input text information into one sentence; Analyzing the divided sentences one sentence at a time, and an analysis unit for separating the sentences into phrases;
  • a dictionary storage unit that stores a dictionary in which words are arranged in a hierarchical structure according to a concept; For each of the sentences, a word corresponding to a phrase unit that is an analysis result by the analysis unit is searched in the dictionary, a word that becomes a search result is set as the topic of the sentence, and the word that becomes the topic belongs to the word Classifying the hierarchy in the dictionary as a hierarchy to which the sentence belongs, thereby classifying the sentence into a hierarchy by concept;
  • a program that causes a computer to function as a visible image generation unit that generates a visualized image by performing statistical processing on information in which a plurality of sentences are hierarchized by concept by the classification unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本技術は、多くの文章を容易で、かつ、高精度に解析し、解析結果を可視化させることができるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。 入力されたテキスト情報を一文ずつに分割し、分割された一文ずつの文章を句単位で解析し、概念により階層化した構造で単語が配置されたオントロジ辞書を記憶し、句単位の解析結果を、オントロジ辞書内の単語で検索し、検索結果を、文章におけるトピックとして、オントロジ辞書に対応した概念により階層化して分類し、分類結果を統計処理して可視化画像を生成する。本技術は、コメント解析技術に適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本技術は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、多数の文章を容易で、かつ、高精度に解析し、解析結果を可視化できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
 インターネットの普及により、ユーザが個人の意見を発信する機会が増えている。例えば、日々の生活において、食事にいったときのレストランのコメント、旅行に行ったときのホテルのコメント、買った製品のコメント、およびイベントに参加した時のコメントなど様々な情報がインターネット上で発信されている。
 それらのコメントをまとめた製品・サービスやホテル、住まいなどのレビュや口コミサイトも多く存在するが、多くのサイトでは、ユーザが特定のカテゴリに対して、採点した評価やレビュを載せるのみで、詳しい情報が知りたいユーザは全てのレビュを読まなくては自分の本当に知りたい内容を調べる方法がなかった。
 そこで、様々なコメントなどの文章を分析する技術が提案されている(特許文献1参照)。
特許第5426292号
 特許文献1に代表される従来の技術においては、入力文書を形態素と呼ばれる単語単位に分割し、単語の出現頻度の分布を分析する(bag-of-words)法が採用されており、この(bag-of-words)法が主流となっている。
 しかしながら、分析結果をカテゴリに分けるといったことがなされていないので、どのようなカテゴリに対するコメントが多いのか、さらには、各カテゴリにおいて、どのような内容についてコメントが多いのかを認識するには、さらに個々のコメントを読んで解析する必要があった。
 本技術は、このような状況に鑑みてなされたものであり、特に、多くの文章を容易で、かつ、高精度に解析し、解析結果を可視化できるようにするものである。
 本技術の一側面の情報処理装置は、入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部とを含む情報処理装置である。
 前記辞書は、専門用語集より抽出された単語が、概念により階層化されて配置されることで生成されるようにすることができる。
 前記辞書は、オントロジ辞書とすることができる。
 前記解析部には、前記分割された一文ずつの文章を形態素解析、構文解析、および意味解析させ、解析結果に応じて句単位に分離させると共に、前記文章のそれぞれにおけるモダリティを解析させ、その結果をモダリティ情報として付加させるようにすることができる。
 前記可視化画像生成部には、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果を可視化画像として生成させるようにすることができる。
 前記可視化画像生成部には、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果を可視化画像として生成させるようにすることができる。
 前記可視化画像生成部には、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報のうちのポジティブ、およびネガティブの割合を示す統計処理結果を可視化画像として生成させるようにすることができる。
 ユーザの操作を受け付けて操作内容に応じた操作信号を発生する操作部をさらに含ませるようにすることができ、前記可視化画像生成部には、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果、および前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果のうち、前記操作部が操作されることにより選択された、少なくともそのいずれかを可視化画像として生成させるようにすることができる。
 本技術の一側面の情報処理方法は、入力されたテキスト情報からなるコメントを一文ずつに分割し、前記分割された一文ずつの文章を解析し、句単位に分離し、前記文章のそれぞれについて、解析結果である句単位に対応する単語を、概念により階層化した構造で単語が配置された辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化し、複数の文章が概念により階層化された情報を統計処理して可視化画像を生成するステップを含む情報処理方法である。
 本技術の一側面のプログラムは、入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部としてコンピュータを機能させるプログラムである。
 本技術の一側面においては、入力されたテキスト情報からなるコメントが一文ずつに分割され、前記分割された一文ずつの文章が解析され、句単位に分離され、概念により階層化した構造で単語が配置された辞書が記憶され、前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語が前記文章のトピックとされ、前記トピックとなる前記単語が属する前記辞書における前記階層が、前記文章の属する階層として分類されることで、前記文章が概念により階層化され、複数の文章が概念により階層化された情報が統計処理されて可視化画像が生成される。
 本技術の一側面の情報処理装置は、それぞれ独立した装置であっても良いし、情報処理装置として機能するブロックであっても良い。
 本技術の一側面によれば、文章を容易で、かつ、高精度に解析し、解析結果を可視化することが可能となる。
本技術を適用した情報処理システムの構成例を説明する図である。 可視化画像表示処理を説明するフローチャートである。 ホテル用語に関して入力されたコメントを1文ずつ分割したときの各文章の例文を説明する図である。 ホテル用語の専門用語集より生成されるオントロジ辞書を説明する図である。 図4のオントロジ辞書を利用して、入力されたコメントの各文章をオントロジ化結果の例を説明する図である。 図5のオントロジ化結果を利用した可視化画像の例を説明する図である。 図5のオントロジ化結果を利用した可視化画像の生成方法を説明する図である。 ゲーム用語の専門用語集より生成されるオントロジ辞書を説明する図である。 ゲーム用語に関して入力されたコメントを1文ずつ分割したときの各文章の例文を説明する図である。 図8のオントロジ辞書を利用して、入力されたコメントの各文章をオントロジ化結果の例を説明する図である。 図10のオントロジ化結果を利用した可視化画像の例を説明する図である。 汎用のパーソナルコンピュータの構成例を説明する図である。
 <情報処理システムの構成例>
 図1は、本技術を適用した情報処理システムの構成例を示している。図1の情報処理システムは、入力テキストとして入力される多くの文章を解析して、解析結果を可視化画像として表示するものである。
 図1の情報処理システムは、情報処理装置11、表示部12、および操作部13から構成されるものであり、情報処理装置11が、図示せぬネットワークや操作入力より供給された複数のテキストからなるコメントを解析し、解析結果を可視化して表示部12に表示する。このとき、キーボードや操作ボタンなどからなる操作部13が操作されることにより操作内容に応じた操作信号に基づいて、情報処理装置11は、表示部12に表示させる内容を切り替える。
 より詳細には、図1の情報処理装置11は、文分割部31、言語解析部32、抽出分類部33、オントロジ化部34、可視化画像生成部35、専門用語集36、辞書生成部37、およびオントロジ辞書38を備えている。
 文分割部31は、供給されてくるテキストからなるコメントの入力を受け付けて、複数の文章からなるコメントを、文章毎に分割し、1文ずつ言語解析部32に供給する。
 言語解析部32は、1文ずつ供給されてくる各文章について、形態素解析、構文解析、および意味解析といった処理を施す。言語解析部32は、このような処理により、文節等の最小単位となる形態素に対して、入力文章の係り受け関係、主格および目的格などの格情報から文章を、句単位に分離する。また、言語解析部32は、話している内容に対する話し手の判断や感じ方を表す言語表現であるモダリティ情報(否定、疑問、願望など)を付与して抽出分類部33に出力する。
 抽出分類部33は、各文章(コメント)の句単位で、オントロジ辞書38登録された単語の中から対応する単語を検索し、検索された単語を、各文章におけるトピックとして分類し、分類結果をオントロジ化部34に供給する。
 ここで、オントロジ辞書38とは、辞書生成部37により予めテキストデータからなる専門用語集36などから抽出された単語が、概念による階層構造を持った構成にされた辞書であり、換言すれば、単語を概念による階層構造を持った構成で配置している辞書である。尚、オントロジ辞書については、詳細を後述する。
 オントロジ化部34は、抽出分類部33より供給されてくる、各文章(コメント)の分類結果である、文章のトピックとなる単語に対応付けて、オントロジ辞書38における概念により階層構造の中に配置させ、これにより文章(コメント)そのものを概念により階層化する。以下、文章(コメント)のトピックを、オントロジ辞書における概念により階層化された言葉(単語)のいずれかに分類することで、文章(コメント)をオントロジ辞書の概念による階層構造に対応付けて配置(分類)することを「文章(コメント)をオントロジ化する」と称するものとし、複数の文章がオントロジ化されている情報を「オントロジ化情報」と称する。
 可視化画像生成部35は、オントロジ化情報を統計処理し、統計処理結果より、複数の文章(コメント)の解析結果の可視化画像を生成し、生成した可視化画像を表示部12に表示する。この際、同一のオントロジ化情報を用いても、トピックや階層により異なる統計処理結果が求められる事になるが、操作部13の操作内容に対応した操作信号の入力を受け付けて、可視化画像生成部35は、トピックや階層を切り替えて可視化画像を生成し、表示部12に表示する。
 <可視化画像表示処理>
 次に、図2のフローチャートを参照して、図1の情報処理システムによる可視化画像表示処理について説明する。
 ステップS11において、文分割部31は、供給されてくるテキストからなるコメントの入力を受け付けて、複数の文章からなるコメントを、文章毎に分割し、1文ずつ言語解析部32に供給する。
 例えば、「朝食は美味しくて気に入っています。駅からの立地は最高です。展望も素晴らしい。駅前でとても楽でした。眺めがとてもよい。駅前からのアクセスも非常によかった。受付の対応もよかったです。大浴場がないのが残念でした。」というコメントが入力された場合、「朝食は美味しくて気に入っています。」、「駅からの立地は最高です。」、「展望も素晴らしい。」、「駅前でとても楽でした。」、「眺めがとてもよい。」、「駅前からのアクセスも非常によかった。」、「受付の対応もよかったです。」、および、「大浴場がないのが残念でした。」といったように文章が一文ずつ分割される。
 尚、以降においては、これらの分割された文章を例文Ex1乃至Ex8と称するものとする。すなわち、「朝食は美味しくて気に入っています。」を、例文Ex1として、「駅からの立地は最高です。」を、例文Ex2として、「展望も素晴らしい。」を、例文Ex3として、「駅前でとても楽でした。」を、例文Ex4として、「眺めがとてもよい。」を、例文Ex5として、「駅前からのアクセスも非常によかった。」を、例文Ex6として、「受付の対応もよかったです。」を、例文Ex7として、「大浴場がないのが残念でした。」を、例文Ex8として、それぞれ称するものとする。
 ステップS12において、言語解析部32は、1文ずつ供給されてくる各文章について、形態素解析、構文解析、および意味解析といった処理を施す。言語解析部32は、このような処理により、文節等の最小単位となる形態素に対して、入力文章の係り受け関係、主格および目的格などの格情報から文章を分離する。また、言語解析部32は、話している内容に対する話し手の判断や感じ方を表す言語表現であるモダリティ情報(否定、疑問、願望など)を付与して抽出分類部33に出力する。
 すなわち、例文1は、「朝食は」、「美味しくて」、および「気に入っています。」に分離される。そして、「気に入っています。」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。尚、例えば、「朝食は」、「美味しくて」、および「気に入っています。」は、いずれも、例文Ex1の句単位である。
 また、例文Ex2は、「駅からの」、「立地は」、および「最高です。」に分離される。そして、「最高です。」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。
 さらに、例文Ex3は、「展望も」、および「素晴らしい。」に分離される。そして、「素晴らしい。」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。
 また、例文Ex4は、「駅前で」、「とても」、および「楽でした。」に分離される。そして、「楽でした。」との表現により、この文章に、ポジティブなものであり、かつ、過去のものであるとのモダリティ情報が付与される。
 さらに、例文Ex5は、「眺めが」、「とても」、および「よい。」に分離される。そして、「よい」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。
 また、例文Ex6は、「駅前からの」、「アクセスも」、「非常に」、および「よかった。」に分離される。そして、「よかった。」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。
 さらに、例文Ex7は、「受付の」、「対応も」、および「よかったです。」に分離される。そして、「よかったです。」との表現により、この文章に、ポジティブなものであるとのモダリティ情報が付与される。
 また、例文Ex8は、「大浴場が」、「ないのが」、および、「残念でした。」に分離される。そして、「残念でした。」は、ネガティブなもので、かつ、過去のものであるとのモダリティ情報が付与される。
 ステップS13において、抽出分類部33は、各文章について、句単位で、対応するオントロジ辞書38に登録された単語を検索し、検索結果となる単語を文章のトピックとして分類し、各句単位の分類結果をオントロジ化部34に供給する。
 <オントロジ辞書>
 ここで、オントロジ辞書38について説明する。オントロジ辞書38は、専門用語集36などに登録された各言葉(単語)を概念により階層化して配置した辞書であり、例えば、図4で示されるようなものである。図4においては、専門用語集36のカテゴリが「ホテル用語」である場合のオントロジ辞書38が示されている。図4のオントロジ辞書38における概念は、階層L1乃至L4からなる概念に階層化されている。尚、階層数は、これ以上でも良いし、これ以下でもよい。
 辞書生成部37は、専門用語集36の情報を階層L1乃至L4の概念に階層化する。ここで、階層L1は、カテゴリを示す「ホテル用語」と示されている。
 さらに、階層L2には、カテゴリが「ホテル用語」となる言葉のうち、概念として最上位となる言葉が配置されており、図4においては、「立地」、「接客」、「部屋」、「施設」、「価格」、「景色」、「展望」、および「眺め」の語が分類されている。ここで、点線の矢印で結ばれている、「景色」、「展望」、および「眺め」の語は、相互に同義語であることが示されている。
 また、階層L3には、階層L2における各語の下位の概念となる言葉が樹形図のように配置されており、例えば、「立地」の語に対しては、その下位の概念として「駅前」、および「施設」の語が配置されている。また、「接客」の語に対しては、その下位の概念として「ロビー」、「スタッフ」、および「受付」の語が配置されている。ここで、「ロビー」と「受付」については相互に同義語であるものとして分類されている。
 また、「部屋」の語に対しては、その下位の概念として「設備」、および「禁煙」の語が配置されている。さらに、「施設」の語に対しては、その下位の概念として「浴場」、「温泉」、および「食事」が配置されている。
 さらに、階層L4には、階層L3における各語の下位の概念となる言葉が配置されており、例えば、「周辺施設」の語に対しては、その下位の概念として、コンビニエンスストアを表す「コンビニ」が配置されている。また、「ロビー」の語に対しては、その下位の概念として「チェックイン」、および「チェックアウト」の語が配置されている。さらに、「設備」の語に対しては、その下位の概念として「空気清浄機」、「バストイレ」、および「インターネット」の語が配置されている。
 オントロジ辞書38は、図4で示されるように、可視化画像表示処理を実行する前のタイミングで、予め生成されるものであると共に、専門用語集36におけるカテゴリを変化させたり、追加させることにより、様々なカテゴリのオントロジ辞書38を形成させることができる。
 ステップS14において、オントロジ化部34は、抽出分類部33より供給されてくる、オントロジ辞書38に登録された単語のうち、句単位で検索された、対応する単語を、入力されたコメントのトピックとして分類し、オントロジ辞書38の構成する概念による階層構造に文章を配置し、これにより文章(コメント)そのものを概念により階層化する(オントロジ化する)。
 オントロジ化部34は、例えば、コメントEx1乃至Ex8の文章を、図4のオントロジ辞書38を用いて、図5で示されるように各文章を概念により階層化する。
 すなわち、「朝食は美味しくて気に入っています。」という例文Ex1においては、句単位である「朝食は」、「美味しくて」、および「気に入っています。」がそれぞれ検索される。そして、図5の階層L3における「食事」に分類される「朝食」という言葉が検索されることにより、例文Ex1が、「ホテル用語」という概念に含まれる「施設」の下位の「食事」に属する「朝食」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex1は、「朝食」という単語が属する、「ホテル用語」というカテゴリにおける階層L3に属するものとされることで、オントロジ辞書38の概念による階層構造に配置される(オントロジ化される)。
 また、「駅からの立地は最高です。」という例文Ex2においては、「駅からの」、「立地は」、および「最高です。」の句単位がそれぞれ検索される。そして、図5の階層L2における「立地」という言葉が検索されることにより、例文Ex2が、「ホテル用語」という概念に含まれる「立地」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex2は、「立地」という単語が属する、「ホテル用語」というカテゴリにおける階層L2に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 さらに、「展望も素晴らしい。」という例文Ex3においては、「展望も」、および「素晴らしい。」がそれぞれ検索される。そして、図5の階層L2における「景色」という言葉と同義語の「展望」が検索されることにより、例文Ex3が「ホテル用語」という概念に含まれる「景色」と同義語の「展望」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex3は、「展望」という単語が属する、「ホテル用語」というカテゴリにおける階層L2に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 また、「駅前でとても楽でした。」という例文Ex4においては、「駅前で」、「とても」、および「楽でした。」がそれぞれ検索される。そして、図5の階層L3における「駅前」という言葉が検索されることにより、例文Ex4が「ホテル用語」という概念に含まれる「立地」の下位の「駅前」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex4は、「駅前」という単語が属する、「ホテル用語」というカテゴリにおける階層L3に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 さらに、「眺めがとてもよい。」という例文Ex5においては、「眺めが」、「とても」、および「よい。」がそれぞれ検索される。そして、図5の階層L3における「景色」と同義語の「眺め」という言葉が検索されることにより、例文Ex5が「ホテル用語」という概念に含まれる「景色」と同義語の「眺め」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex5は、「朝食」という単語が属する、「ホテル用語」というカテゴリにおける階層L2に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 また、「駅前からのアクセスも非常によかった。」という例文Ex6においては、「駅前からの」、「アクセスも」、「非常に」、および「よかった。」がそれぞれ検索される。そして、図5の階層L3における「駅前」という言葉が検索されることにより、例文Ex6が「ホテル用語」という概念に含まれる「立地」の下位の「駅前」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex6は、「駅前」という単語が属する、「ホテル用語」というカテゴリにおける階層L3に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 さらに、「受付の対応もよかったです。」という例文Ex7においては、「受付の」、「対応も」、および「よかったです。」がそれぞれ検索される。そして、図5の階層L3における「ロビー」と同義語の「受付」が検索されることにより、例文Ex7が「ホテル用語」という概念に含まれる「接客」という言葉の下位の「ロビー」と同義語の「受付」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex7は、「受付」という単語が属する、「ホテル用語」というカテゴリにおける階層L3に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 また、「大浴場がないのが残念でした。」という例文Ex8においては、「大浴場が」、「ないのが」、および、「残念でした。」がそれぞれ検索される。そして、図5の階層L4における「大浴場」という言葉が検索されることにより、例文Ex8が「ホテル用語」という概念に含まれる「施設」の下位の「浴場」の下位の「大浴場」というトピックに関する文章であることが分類される。これにより、図5で示されるように、例文Ex8は、「大浴場」という単語が属する、「ホテル用語」というカテゴリにおける階層L3に属するものとされることで、概念により階層構造に配置される(オントロジ化される)。
 このように、オントロジ化部34は、オントロジ辞書38を利用して、入力された文章(コメント)そのものを概念により階層化することでオントロジ化し、オントロジ化結果を可視化画像生成部35に出力する。
 ステップS15において、可視化画像生成部35は、オントロジ化結果を用いて可視化画像を生成する。
 例えば、図6で示されるようなオントロジ化結果である場合、可視化画像生成部35は、可視化画像CHL1,CHL2,CHFを生成して表示部12に出力して表示する。
 より詳細には、図6のオントロジ化結果においては、最上位の階層L1が「ROOT」であり、その下の階層L2においては、言葉「A」、「B」が設けられている。また、言葉「A」の下位の階層L3においては、言葉「C」、「D」が設けられており、言葉「B」の下位の階層L3においては、言葉「E」、「F」が設けられている。
 さらに、その下の階層L4においても、言葉「C」乃至「F」の下位の言葉が設けられている。
 このような場合、可視化画像生成部35は、例えば、階層L2については、可視化画像CHL1で示されるようなパイチャート(円グラフ)を生成する。すなわち、階層L2においては、可視化画像生成部35は、言葉「A」、「B」をトピックとする文章の数に応じた割合を統計処理により求め、統計処理結果を中心位置からの角度の割合として示す可視化画像CHL1を生成する。可視化画像CHL1では、階層L2の言葉「A」をトピックとする文章と、言葉「B」をトピックとする文章との数の割合が、1:3であることが示されている。
 また、可視化画像生成部35は、例えば、階層L3については、可視化画像CHL2で示されるようなパイチャート(円グラフ)を生成する。すなわち、階層L2においては、可視化画像生成部35は、言葉「C」乃至「F」をトピックとする文章の数に応じた割合を統計処理により求め、統計処理結果を中心位置からの角度の割合として示す可視化画像CHL2を生成する。可視化画像CHL2では、階層L3における言葉「C」乃至「F」をトピックとする文章の割合がC:D:E:F=1:1:3:3であることが示されている。
 以下、各階層に設定された言葉をトピックとする文章の数の割合を示すパイチャートが可視化画像として生成される。
 さらに、可視化画像生成部35は、例えば、各言葉に関する可視化画像として、可視化画像CHFを生成して表示部12に表示することもできる。
 ここで、可視化画像CHFには、全コメントのうち、言葉「F」について、モダリティ情報に基づいて、ポジティブなものと、ネガティブなものとの割合を示すグラフCHF-1と、詳細なモダリティ情報、すなわち、勧誘、程度、命令、主張、疑問等のいずれかを示す割合を示すグラフCHF-2とが含まれている。尚、ここでは、モダリティ情報は、ポジティブ、ネガティブ、勧誘、程度、命令、主張、疑問のいずれかが割り付けられるものとする場合の例が示されているが、これ以外のモダリティが割り付けられるようにしてもよい。
 より具体的には、図7の上部で示されるように、最上位の階層L1が「ホテル用語」のカテゴリに分類される場合、その下位の階層L2には、「景色」、「立地」、「接客」、「価格」、「部屋」、「施設」の言葉が配置されることになる。ここで、可視化画像生成部35は、図7の下部で示されるように、それぞれの言葉をトピックとする文章のうち、モダリティ情報がポジティブとなる数と、ネガティブとなる数とを、それぞれ分けてスコアにして記録する。
 図7の下部においては、ポジティブなコメントについて、階層L2の「景色」、「立地」、「接客」、「価格」、「部屋」の言葉をトピックとする文章が挙げられており、それぞれ5,5,4,4,3のポイント(文章の数)が記録されている。また、ネガティブなコメントについて、階層L2の「施設」の下位である階層L3の「浴場」をトピックとする文章に4のポイントが記録されている。
 したがって、この場合、可視化画像生成部35は、階層L2について、「景色」、「立地」、「接客」、「価格」、「部屋」、「施設」のそれぞれをトピックとする文章の数(ポイント)の割合からなる可視化画像CHL1,CHL2に相当するパイチャートからなる可視化画像を生成する。
 さらに、可視化画像生成部35は、「景色」、「立地」、「接客」、「価格」、「部屋」、「施設」といった各言葉のそれぞれをトピックとする文章のモダリティ情報のうち、ポジティブとなる文章の数、およびネガティブの文章の数それぞれの、総数に対する割合を示すグラフを可視化画像CHF-1として生成する。また、可視化画像生成部35は、「景色」、「立地」、「接客」、「価格」、「部屋」、「施設」といった各言葉をトピックとする文章のモダリティ情報のそれぞれの文章の数の、総数に対する割合を示すグラフを可視化画像CHF-2として生成する。
 尚、操作部13が操作されることにより発生される操作信号に応じて、各階層の可視化画像CHL1,CHL2、およびCGFを同時にすべて表示する、または、それらのいずれかを選択的に表示するといったことを、可視化画像生成部35が切り替えて表示部12に表示するようにしてもよい。
 <他の実施の形態>
 以上においては、オントロジ辞書38が、「ホテル用語」に基づいた専門用語集36により生成される例について説明してきたが、それ以外の用語集に基づいて生成されたものでもよく、例えば、「ゲーム用語」の専門用語集36に基づいて生成されたものであってもよい。
 「ゲーム用語」の専門用語集36に基づいて、オントロジ辞書38が生成される場合、例えば、図8で示されるようなものが生成される。
 図8においては、最上層の階層L1には、オントロジ辞書38のカテゴリが「ゲーム用語集」であることが示されている。
 その下の階層L2には、「ゲーム用語」の概念の最上層の言葉として、「キャラクタ」、「魔法」、および「魔物」が設けられている。
 さらに、階層L2より下位の階層L3に、「キャラクタ」および「魔法」のそれぞれに下位の概念の言葉が設けられており、「キャラクタ」の下位の概念の言葉として、「装飾」、および「服装」が設けられており、「魔法」の下位の概念の言葉として「攻撃魔法」、および「回復魔法」が設けられている。ここで、「服装」という言葉と同義語として、「服」、および「衣装」が設けられている。
 また、階層L4には、階層L3の各言葉の下位の概念の言葉が設けられており、「装飾」という言葉の下位には、「腕輪」、および「兜」が設けられており、「服装」の下位には、「法衣」、および「鎧」が設けられており、「攻撃魔法」の下位には、「ファイア」、および「サンダ」が設けられており、「回復魔法」の下位には、「ヒール」が設けられている。
 さらに、階層L5には、階層L4の「腕輪」の下位の概念の言葉として、「賢者の腕輪」が設けられている。
 ここで、ステップS11において、分離されたコメントが、以下の例文Ex11乃至Ex18であるものとする。すなわち、例文Ex11乃至Ex18は、「衣装がダウンロードできず困っています。」、「法衣がダウンロード出来ません。」、「キャラクタをもっと増やして欲しい。」、「賢者の腕輪が最強じゃないとおかしくないですか。」、「色々な攻撃魔法を駆使した強い魔法が使いたい。」、「もっと派手な魔法をつくってほしい。」、「ファイアの攻撃が低すぎます。」、および「回復魔法の使用出来る回数が少なすぎる。」であるものとする。このとき、例文Ex11乃至Ex18は、ステップ13の処理により図9で示されるように句単位に分離される。
 すなわち、例えば、例文Ex11の「衣装がダウンロードできず困っています。」は、「衣装が」、「ダウンロードできず」、および「困っています。」と分離されて、「ネガティブ」なものであるとのモダリティ情報が付与される。
 また、例文Ex12の「法衣がダウンロード出来ません。」は、「法衣が」、「ダウンロードできず」、および「困っています。」と分離されて、「ネガティブ」、および「不可能」なものであるとのモダリティ情報が付与される。
 さらに、例文Ex13の「キャラクタをもっと増やして欲しい。」は、「キャラクタを」、「もっと」、および「増やして欲しい。」と分離されて、「願望」であるとのモダリティ情報が付与される。
 また、例文Ex14の「賢者の腕輪が最強じゃないとおかしくないですか。」は、「賢者の腕輪が」、「最強じゃないと」、および「おかしくないですか。」と分離されて、「疑問」であるとのモダリティ情報が付与される。
 さらに、例文Ex15の「色々な攻撃魔法を駆使した強い魔法が使いたい。」は、「色々な」、「攻撃魔法を」、「駆使した」、「強い」、「魔法が」、および「使いたい。」と分離されて、「願望」であるとのモダリティ情報が付与される。
 また、例文Ex16の「もっと派手な魔法をつくってほしい。」は、「もっと」、「派手な」、「魔法を」、および「つくってほしい」と分離されて、「願望」であるとのモダリティ情報が付与される。
 さらに、例文Ex17の「ファイアの攻撃が低すぎます。」は、「ファイアの」、「攻撃が」、および「低すぎます。」と分離されて、「ネガティブ」であるとのモダリティ情報が付与される。
 また、例文Ex18の「回復魔法の使用出来る回数が少なすぎる。」は、「回復魔法の」、「使用出来る」、「回数が」、および「少なすぎる。」と分離されて、「ネガティブ」であるとのモダリティ情報が付与される。
 さらに、ステップS14の処理により、オントロジ化されることにより、例えば、図10で示されるように、コメントを構成する文章Ex11乃至Ex18を概念により階層化する。
 すなわち、「衣装がダウンロードできず困っています。」という例文Ex11の「衣装が」、「ダウンロードできず」、および「困っています。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L3における「服装」と同義語の「衣装」という言葉が検索されることにより、例文Ex11は「ゲーム用語」という概念に含まれる「キャラクタ」の下位の「服装」と同義語の「衣装」をトピックとする文章に分類される。
 また、「法衣がダウンロード出来ません。」という例文Ex12の「法衣が」、「ダウンロードできず」、および「困っています。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L3の「衣装」の下位の階層L4の「法衣」という言葉が検索されることにより、例文Ex12は「ゲーム用語」という概念に含まれる「キャラクタ」の下位の「服装」の下位の「衣装」をトピックとする文章に分類される。
 さらに、「キャラクタをもっと増やして欲しい。」という例文Ex13では、「キャラクタを」、「もっと」、および「増やして欲しい。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L2の「キャラクタ」が検索されることにより、例文Ex13は「ゲーム用語」という概念に含まれる「キャラクタ」をトピックとする文章に分類される。
 また、「賢者の腕輪が最強じゃないとおかしくないですか?」という例文Ex14では、「賢者の腕輪が」、「最強じゃないと」、および「おかしくないですか?」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L4の「賢者の腕輪が」が検索されることにより、例文Ex14が「ゲーム用語」という概念に含まれる「キャラクタ」の下位の階層L3の「装飾」の下位の階層L4の「腕輪」の、さらに下位の階層L5の「賢者の腕輪」をトピックとする文章に分類される。
 さらに、「色々な攻撃魔法を駆使した強い魔法が使いたい。」という例文Ex15では、「色々な」、「攻撃魔法を」、「駆使した」、「強い」、「魔法が」、および「使いたい。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L3の「攻撃魔法」が検索されることにより、例文Ex15は「ゲーム用語」という概念に含まれる「魔法」の下位の階層L4の「攻撃魔法」をトピックとする文章に分類される。
 また、「もっと派手な魔法をつくってほしい。」という例文Ex16では、「もっと」、「派手な」、「魔法を」、および「つくってほしい。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L2の「魔法」が検索されることにより、例文Ex16は「ゲーム用語」という概念に含まれる「魔法」をトピックとする文章に分類される。
 さらに、「ファイアの攻撃が低すぎます。」という例文Ex17では、「ファイアの」、「攻撃が」、および「低すぎます。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L4の「ファイア」が検索されることにより、例文Ex17は「ゲーム用語」という概念に含まれる「魔法」の下位の階層L3の「攻撃魔法」の下位の階層L4の「ファイア」をトピックとする文章に分類される。
 また、「回復魔法の使用出来る回数が少なすぎる。」という例文Ex18では、「回復魔法の」、「使用出来る」、「回数が」、および「少なすぎる。」に対応する単語が、それぞれオントロジ辞書38において検索される。そして、図10の階層L3の「回復魔法」が検索されることにより、例文Ex18は「ゲーム用語」という概念に含まれる「魔法」の下位の階層L3の「回復魔法」をトピックとする文章に分類される。
 以上のような処理により、図10で示されるようなオントロジ化結果が生成される。
 さらに、ステップS15の処理により、例えば、図11で示されるような可視化画像CH1,CH11乃至CH13が生成されて表示部12に表示される。
 すなわち、図11の可視化画像CH1においては、左上部に所定の階層に係る言葉をトピックとする文章の数に応じたパイチャートが生成される。図11の左上部のパイチャートからなる可視化画像CH1には、「キャラクタ」、「魔法」、および「魔法」のコメント数に応じた角度が割り当てられており、それぞれ、45%,35%,20%とされている。
 また、図11の右上部の可視化画像CH11は、可視化画像CH1における「キャラクタ」に関する可視化情報であり、図中上段には、ポジティブまたはネガティブの割合を示すグラフからなる可視化画像CH11-1が設けられており、図中下段には、さらに詳細なモダリティ情報の割合を示すグラフからなる可視化画像CH11-2が設けられている。
 さらに、図11の右下部の可視化画像CH12は、可視化画像CH1における「魔法」に関する可視化情報であり、図中上段には、ポジティブまたはネガティブの割合を示すグラフからなる可視化画像CH12-1が設けられており、図中下段には、さらに詳細なモダリティ情報の割合を示すグラフからなる可視化画像CH12-2が設けられている。
 また、図11の左下部の可視化画像CH13は、可視化画像CH1における「魔物」にに関する可視化情報であり、図中上段には、ポジティブまたはネガティブの割合を示すグラフからなる可視化画像CH13-1が設けられており、図中下段には、さらに詳細なモダリティ情報の割合を示すグラフからなる可視化画像CH13-2が設けられている。
 これらの可視化画像CH1およびCH11乃至CH13は、いずれも操作部13を操作することで切り替えて表示させるようにしてもよいし、例えば、可視化画像CH1における「キャラクタ」と表示された部分をポインタなどで選択するとき、可視化画像CH11が表示されるようにしてもよい。
 以上の如く、本技術の情報処理装置によれば、コメントとして入力されている複数の文章のそれぞれについて、言語解析により句単位に分離し、オントロジ辞書38で対応する単語を検索し、検索された単語を文章のトピックであるものと分類し、トピックとなる単語により文章を、階層的に分類することで、オントロジ化するようにした。さらに、オントロジ化された結果を可視化画像とすることで表示するようにした。
 この結果、コメントを構成する各文章は、オントロジ辞書を用いることで、トピックとなる言葉の概念に応じて階層的に分類することが可能となる(オントロジ化することが可能となる)。また、複数の文章のトピックとなる言葉を利用してオントロジ化することで、オントロジ化された各文章がトピックとする言葉毎の文章の分布を利用した可視化画像を生成することが可能となる。これにより、これまでは、能動的にキーワードなどを入力して検索し、検索されたコメントを読むことしかできなかったが、文章のトピックが、概念による階層化した情報(オントロジ化情報)とされ、これが可視化されることにより、ユーザが特に意識していない客観的な言葉による解析結果が可視化されることになるので、ユーザに対して客観的な解析結果を提示することが可能となる。
 <ソフトウェアにより実行させる例>
 ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
 図12は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタ-フェイス1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタ-フェイス1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本技術は、以下のような構成も取ることができる。
<1> 入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、
 前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、
 概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、
 前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、
 前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部と
 を含む情報処理装置。
<2> 前記辞書は、専門用語集より抽出された単語が、概念により階層化されて配置されることで生成される
 <1>に記載の情報処理装置。
<3> 前記辞書は、オントロジ辞書である
 <1>または<2>に記載の情報処理装置。
<4> 前記解析部は、前記分割された一文ずつの文章を形態素解析、構文解析、および意味解析し、解析結果に応じて句単位に分離すると共に、前記文章のそれぞれにおけるモダリティを解析し、その結果をモダリティ情報として付加する
 <1>乃至<3>のいずれかに記載の情報処理装置。
<5> 前記可視化画像生成部は、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果を可視化画像として生成する
 <1>乃至<4>のいずれかに記載の情報処理装置。
<6> 前記可視化画像生成部は、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果を可視化画像として生成する
 <1>乃至<4>のいずれかに記載の情報処理装置。
<7> 前記可視化画像生成部は、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報のうちのポジティブ、およびネガティブの割合を示す統計処理結果を可視化画像として生成する
 <6>に記載の情報処理装置。
<8> ユーザの操作を受け付けて操作内容に応じた操作信号を発生する操作部をさらに含み、
 前記可視化画像生成部は、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果、および前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果のうち、前記操作部が操作されることにより選択された、少なくともそのいずれかを可視化画像として生成する
 <1>乃至<7>のいずれかに記載の情報処理装置。
<9> 入力されたテキスト情報からなるコメントを一文ずつに分割し、
 前記分割された一文ずつの文章を解析し、句単位に分離し、
 前記文章のそれぞれについて、解析結果である句単位に対応する単語を、概念により階層化した構造で単語が配置された辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化し、
 複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する
 ステップを含む情報処理方法。
<10> 入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、
 前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、
 概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、
 前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、
 前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部と
 してコンピュータを機能させるプログラム。
 11 情報処理装置, 31 文分割部, 32 言語解析部, 33 抽出分類部, 34 オントロジ化部, 35 可視化画像生成部, 36 専門用語集, 37 辞書生成部, 38 オントロジ辞書

Claims (10)

  1.  入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、
     前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、
     概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、
     前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、
     前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部と
     を含む情報処理装置。
  2.  前記辞書は、専門用語集より抽出された単語が、概念により階層化されて配置されることで生成される
     請求項1に記載の情報処理装置。
  3.  前記辞書は、オントロジ辞書である
     請求項1に記載の情報処理装置。
  4.  前記解析部は、前記分割された一文ずつの文章を形態素解析、構文解析、および意味解析し、解析結果に応じて句単位に分離すると共に、前記文章のそれぞれにおけるモダリティを解析し、その結果をモダリティ情報として付加する
     請求項1に記載の情報処理装置。
  5.  前記可視化画像生成部は、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果を可視化画像として生成する
     請求項1に記載の情報処理装置。
  6.  前記可視化画像生成部は、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果を可視化画像として生成する
     請求項1に記載の情報処理装置。
  7.  前記可視化画像生成部は、前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報のうちのポジティブ、およびネガティブの割合を示す統計処理結果を可視化画像として生成する
     請求項6に記載の情報処理装置。
  8.  ユーザの操作を受け付けて操作内容に応じた操作信号を発生する操作部をさらに含み、
     前記可視化画像生成部は、前記階層毎に、前記階層に属する単語毎のトピックとして分類された文章の数の総数に対する割合を示す統計処理結果、および前記単語毎にトピックとして分類された文章の数の総数に対する、前記モダリティ情報毎の割合を示す統計処理結果のうち、前記操作部が操作されることにより選択された、少なくともそのいずれかを可視化画像として生成する
     請求項1に記載の情報処理装置。
  9.  入力されたテキスト情報からなるコメントを一文ずつに分割し、
     前記分割された一文ずつの文章を解析し、句単位に分離し、
     前記文章のそれぞれについて、解析結果である句単位に対応する単語を、概念により階層化した構造で単語が配置された辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化し、
     複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する
     ステップを含む情報処理方法。
  10.  入力されたテキスト情報からなるコメントを一文ずつに分割する文分割部と、
     前記分割された一文ずつの文章を解析し、句単位に分離する解析部と、
     概念により階層化した構造で単語が配置された辞書を記憶する辞書記憶部と、
     前記文章のそれぞれについて、前記解析部による解析結果である句単位に対応する単語を、前記辞書内において検索し、検索結果となる単語を前記文章のトピックとし、前記トピックとなる前記単語が属する前記辞書における前記階層を、前記文章の属する階層として分類することで、前記文章を概念により階層化する分類部と、
     前記分類部により複数の文章が概念により階層化された情報を統計処理して可視化画像を生成する可視画像生成部と
     してコンピュータを機能させるプログラム。
PCT/JP2016/063634 2015-05-22 2016-05-06 情報処理装置、および情報処理方法、並びにプログラム WO2016190063A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-104709 2015-05-22
JP2015104709A JP2016218853A (ja) 2015-05-22 2015-05-22 情報処理装置、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2016190063A1 true WO2016190063A1 (ja) 2016-12-01

Family

ID=57393132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/063634 WO2016190063A1 (ja) 2015-05-22 2016-05-06 情報処理装置、および情報処理方法、並びにプログラム

Country Status (2)

Country Link
JP (1) JP2016218853A (ja)
WO (1) WO2016190063A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7082333B2 (ja) * 2017-11-30 2022-06-08 学校法人酪農学園 設問自動生成プログラム及び設問自動生成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079247A (ja) * 2010-10-06 2012-04-19 Hironori Abe 口コミ情報管理システム及び口コミ情報管理プログラム
JP2012256284A (ja) * 2011-06-10 2012-12-27 Nomura Research Institute Ltd 感性分析システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079247A (ja) * 2010-10-06 2012-04-19 Hironori Abe 口コミ情報管理システム及び口コミ情報管理プログラム
JP2012256284A (ja) * 2011-06-10 2012-12-27 Nomura Research Institute Ltd 感性分析システム及びプログラム

Also Published As

Publication number Publication date
JP2016218853A (ja) 2016-12-22

Similar Documents

Publication Publication Date Title
Egger et al. A topic modeling comparison between lda, nmf, top2vec, and bertopic to demystify twitter posts
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
Hai et al. Analyzing sentiments in one go: A supervised joint topic modeling approach
Bravo-Marquez et al. Meta-level sentiment models for big social data analysis
Miura et al. TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data
JP6655788B2 (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
Zaroor et al. JRC: a job post and resume classification system for online recruitment
Ahmad et al. Tools and techniques for lexicon driven sentiment analysis: a review
WO2007066607A1 (ja) 情報処理装置および方法、並びにプログラム
Syed Applying sentiment and emotion analysis on brand tweets for digital marketing
Badaro et al. A light lexicon-based mobile application for sentiment mining of arabic tweets
Atagün et al. Topic modeling using LDA and BERT techniques: Teknofest example
Almarsoomi et al. AWSS: An algorithm for measuring Arabic word semantic similarity
Priya Emoji based sentiment analysis using KNN
Khan et al. Sentiview: A visual sentiment analysis framework
CN113901263B (zh) 一种视频素材的标签生成方法及装置
CN113923475B (zh) 一种视频合成方法及视频合成器
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
WO2016190063A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis
CN113111664A (zh) 文本的生成方法、装置、存储介质及计算机设备
Neema et al. Automatic Infographic Builder Using Natural Language Statements
Franco et al. A Recall Analysis of Core Word Lists over Children's Utterances for Augmentative and Alternative Communication
Shalunts et al. Sentiment analysis in Indonesian and French by SentiSAIL
JP2019021285A (ja) 情報処理システム、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16799771

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16799771

Country of ref document: EP

Kind code of ref document: A1