WO2014034557A1 - テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体 - Google Patents

テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2014034557A1
WO2014034557A1 PCT/JP2013/072548 JP2013072548W WO2014034557A1 WO 2014034557 A1 WO2014034557 A1 WO 2014034557A1 JP 2013072548 W JP2013072548 W JP 2013072548W WO 2014034557 A1 WO2014034557 A1 WO 2014034557A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
record
attribute value
text
analysis viewpoint
Prior art date
Application number
PCT/JP2013/072548
Other languages
English (en)
French (fr)
Inventor
土田正明
石川開
大西貴士
アンドラーデシルバダニエルゲオルグ
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014532977A priority Critical patent/JP6281491B2/ja
Priority to US14/419,705 priority patent/US10140361B2/en
Priority to CN201380045560.2A priority patent/CN104603779A/zh
Publication of WO2014034557A1 publication Critical patent/WO2014034557A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Definitions

  • the present invention relates to a text mining system that can provide useful knowledge to an analyst by analyzing text data, and in particular, a text mining device, a text mining method, which recommends the viewpoint of analysis to the analyst as useful knowledge,
  • the present invention also relates to a computer-readable recording medium on which a program for realizing these is recorded.
  • Patent Document 1 discloses a conventional text mining system for executing such text mining.
  • the text mining system disclosed in Patent Document 1 uses data composed of a plurality of records as analysis target data.
  • Each record of analysis target data includes an attribute value and text data.
  • the text mining system disclosed in Patent Document 1 performs text classification on the text data of the analysis target data to generate a plurality of text groups. After that, the text mining system disclosed in Patent Document 1 indexes the relationship between the subset and the text group for each attribute value, and displays information indicating the relationship between the subset and the text group.
  • an analyst can specify an attribute as a viewpoint of analysis, and can overview an association with a text group for each attribute value.
  • an analyst can set a generally known viewpoint, a viewpoint inferred from the experience or sense of the analyst, and perform analysis based on the set viewpoint. be able to.
  • An object of the present invention is to solve the above-mentioned problems, and in text mining, a text mining device, a text mining method, and a text mining device that can efficiently set an analysis viewpoint that leads to discovery of useful knowledge while being unexpected for an analyst, To provide a computer-readable recording medium.
  • a text mining device is a text mining device that uses data constructed by a set of records including attribute values and text data as analysis target data.
  • An analysis viewpoint candidate generating unit that extracts an attribute value from the analysis target data and generates an analysis viewpoint candidate using the extracted attribute value;
  • the text data of the record including the attribute value extracted as the analysis viewpoint candidate is compared with the text data of the record set including at least a record other than the record including the attribute value in the analysis target data.
  • a feature degree calculation unit that calculates a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data; It is characterized by providing.
  • a text mining method is a text mining method in which data constructed by a set of records including attribute values and text data is analysis target data, (A) extracting an attribute value from the analysis target data, and generating an analysis viewpoint candidate using the extracted attribute value; (B) comparing text data of a record including the attribute value extracted as the analysis viewpoint candidate with text data of a record set including at least a record other than the record including the attribute value in the analysis target data; Calculating a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data based on a comparison result; and It is characterized by having.
  • a computer-readable recording medium is a text mining in which data constructed by a set of records including attribute values and text data is analyzed by the computer.
  • a computer-readable recording medium storing a program for executing In the computer, (A) extracting an attribute value from the analysis target data, and generating an analysis viewpoint candidate using the extracted attribute value; (B) comparing text data of a record including the attribute value extracted as the analysis viewpoint candidate with text data of a record set including at least a record other than the record including the attribute value in the analysis target data; Calculating a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data based on a comparison result; and A program including an instruction for executing is recorded.
  • FIG. 1 is a block diagram showing a configuration of a text mining device according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram showing an example of analysis target data used in Embodiment 1 of the present invention.
  • FIG. 3 is a flowchart showing the operation of the text mining device according to Embodiment 1 of the present invention.
  • FIG. 4 is a flowchart showing the operation of the text mining device according to Embodiment 2 of the present invention.
  • FIG. 5 is a block diagram showing the configuration of the text mining device according to Embodiment 3 of the present invention.
  • FIG. 6 is a flowchart showing the operation of the text mining device according to Embodiment 3 of the present invention.
  • FIG. 7 is a block diagram showing an example of a computer that implements the text mining apparatus according to Embodiments 1 to 3 of the present invention.
  • Embodiment 1 a text mining device, a text mining method, and a program according to Embodiment 1 of the present invention will be described with reference to FIGS.
  • FIG. 1 is a block diagram showing a configuration of a text mining device according to Embodiment 1 of the present invention.
  • the text mining device 2 is a device that executes text mining using data constructed by a set of records including attribute values and text data as analysis target data.
  • the text mining apparatus 2 includes an analysis viewpoint candidate generation unit 20 and a feature calculation unit 21.
  • the analysis viewpoint candidate generation unit 20 extracts attribute values from the analysis target data, and generates analysis viewpoint candidates using the extracted attribute values.
  • the feature calculation unit 21 first compares the text data of the record including the attribute value extracted as the analysis viewpoint candidate with the text data of the record set including at least a record other than the record including the attribute value in the analysis target data. To do. And the characteristic degree calculation part 21 calculates the characteristic degree which shows the relationship between an analysis viewpoint candidate and analysis object data based on a comparison result.
  • the text mining apparatus 2 mechanically extracts attribute values as analysis viewpoint candidates regardless of the will of the analyst, and calculates the characteristic degree of the attribute value. calculate. For this reason, although the analyst does not assume, it is possible to identify an analysis viewpoint candidate with a high characteristic degree, that is, an analysis viewpoint candidate with a high possibility of finding useful knowledge. Therefore, according to the text mining device 2, in text mining, an analysis viewpoint that leads to discovery of useful knowledge can be efficiently set while being unexpected for an analyst.
  • FIG. 2 is a diagram showing an example of analysis target data used in Embodiment 1 of the present invention.
  • the text mining device 2 is connected to the data storage device 1, and the text mining system 3 is constructed together with the data storage device 1.
  • the data storage device 1 includes an analysis target data storage unit 10 and an analysis viewpoint data storage unit 11.
  • the analysis target data storage unit 10 stores analysis target data.
  • the analysis target data is a questionnaire result for a personal computer.
  • each record constituting the analysis target data includes an attribute value for seven types of attributes (gender, age, marriage, main purpose of use, manufacturer, product, tens of degrees) and a text attribute ( 2 types of text data having different free description (1) and free description (2)).
  • the number of types of attributes in the analysis target data and the number of types of text data are not particularly limited.
  • the analysis viewpoint data storage unit 11 stores analysis viewpoint data output by the text mining device 2.
  • the analysis viewpoint data is composed of the feature degrees calculated for each analysis viewpoint candidate.
  • the analysis viewpoint candidate generation unit 20 may extract one attribute value from the analysis target data, generate an analysis viewpoint candidate using only this, or generate a plurality of attribute values.
  • An analysis viewpoint candidate may be generated by extracting and using the plurality of attribute values.
  • the analysis viewpoint candidate generation unit 20 may generate an analysis viewpoint candidate including only “male” or an analysis viewpoint candidate including a combination of “male, 20s”. It may be generated.
  • the analysis viewpoint candidate generation unit 20 specifies a record including the attribute value extracted as the analysis viewpoint candidate, and sets the specified records (hereinafter, “record” Create a "subset").
  • the attribute value extracted as the analysis viewpoint candidate may be one record including the attribute value, and in this case, the record subset is composed of only one record.
  • the “record set including at least records other than the records including the attribute values in the analysis target data” may include at least one record other than the records including the attribute values. Or a set of records randomly selected from all the records of the analysis target data. Furthermore, the “record set including at least records other than the record including the attribute value in the analysis target data” may be a set of records selected based on a preset analysis viewpoint.
  • FIG. 3 is a flowchart showing the operation of the text mining device according to Embodiment 1 of the present invention.
  • FIGS. 1 and 2 are referred to as appropriate.
  • the text mining method is implemented by operating the text mining device 2. Therefore, the description of the text mining method according to the first embodiment is replaced with the following description of the operation of the text mining device 2.
  • the analysis viewpoint candidate generation unit 20 reads the analysis target data from the analysis target data storage unit 10, acquires attribute values that are analysis viewpoint candidates from the read analysis target data, and performs analysis.
  • a viewpoint candidate is generated (step S1).
  • the attribute value acquired as one analysis viewpoint candidate may be a single attribute value or a combination of two or more attribute values.
  • step S1 the analysis viewpoint candidate production
  • Each analysis viewpoint candidate generated in this way becomes an element of the record subset generated in step S2 described later.
  • the analysis viewpoint candidate generation unit 20 may limit the number of attribute values to be combined in order to reduce the amount of analysis viewpoint candidates to be listed, and the number of corresponding records does not exceed a certain number. Analysis viewpoint candidates may be removed.
  • the analysis viewpoint candidate generation unit 20 specifies the record including each analysis viewpoint candidate as an element for each analysis viewpoint candidate using the analysis viewpoint candidate acquired in step S1, and further specifies for each analysis viewpoint candidate.
  • a set of records (record subset) is created (step S2). Further, the analysis viewpoint candidate generation unit 20 outputs each record subset to the feature calculation unit 11.
  • step S ⁇ b> 2 the analysis viewpoint candidate generation unit 20 further determines a constant between a record (record subset) specified for one analysis viewpoint candidate and a record (record subset) specified for another analysis viewpoint candidate. It is possible to determine whether or not a similar relationship exists. And the analysis viewpoint candidate production
  • a union or intersection set of attribute values included in each analysis viewpoint candidate to be integrated is obtained, and the obtained union or intersection set is used as a new analysis viewpoint.
  • Candidate methods are listed.
  • another method of integrating a plurality of analysis viewpoint candidates there is a technique of leaving only one of the analysis viewpoint candidates to be integrated and deleting the other. Note that, when a method using deletion is employed, the analysis viewpoint candidate creation unit 20 may leave only the analysis viewpoint candidate with the highest characteristic after the execution of step S3 described later, and delete others.
  • the feature degree calculation unit 21 includes, for each analysis viewpoint candidate, a record set including at least records other than the text data of the record subset created in step S2 and the record including the attribute value specified in step S2. And the degree of feature indicating the relationship between the analysis viewpoint candidates and the analysis target data is calculated based on the comparison result (step S3).
  • “record set including at least records other than the record including the attribute value identified in step S2” is “all records of analysis target data”. An example in which “all records” is used will be described.
  • step S3 the feature degree calculation unit 21 calculates the feature degree so that, for example, the value increases as the tendency of the contents of the text data of the record subset and the text data of all the records differ.
  • the feature calculation unit 21 performs text clustering, which is an existing technique, on the entire text data of each record of the analysis target data, and divides the entire text data into topics. . Then, the feature degree calculation unit 21 obtains the topic distribution for the text data of the record subset of each analysis viewpoint candidate and the text data of all the records of the analysis target data, and determines the dissimilarity of the obtained topic distribution. Based on this, the feature degree can be calculated. When the feature is calculated in this way, the overall topic distribution is compared with the topic distribution of a specific analysis candidate, so that the overall trend difference is calculated as the feature. become.
  • the entire text data is divided into three topics T1, T2, and T3, and the frequency distribution x of each topic in the record subset of the analysis viewpoint candidate A is “T1: 10%, T2: 30%, T3: 60% ", and the frequency distribution y of each topic in the entire record is" T1: 20%, T2: 20%, T3: 60%)) ".
  • the feature degree is calculated as 1.02 by the following formula 1. Note that the greater the value of the cosine similarity is, the higher the value is, the more similar the tendency is.
  • the characteristic degree is expressed by the above-described Expression 1. Calculated as 1.57.
  • the characteristic degree of the analysis viewpoint candidate B is higher than the characteristic degree of the analysis viewpoint candidate A, it is considered that the analysis viewpoint candidate B is more likely to discover useful knowledge than the analysis viewpoint candidate A. It is done.
  • the reciprocal of an arbitrary similarity that can be calculated from the frequency distribution vector, or a distance that can also be calculated from the frequency distribution vector can be used as the feature degree.
  • the feature degree calculation unit 21 performs a statistical test based on the null hypothesis that the topic appearance ratios of the analysis viewpoint candidate A and all records are the same, and the lower the P value, the higher the value.
  • the degree of feature can be calculated.
  • a chi-square test, a G test which is a kind of likelihood non-test, or the like can be used as the statistical test.
  • the feature calculation unit 21 specifies a set of records including the topic for each topic from the entire record after text clustering. Then, the feature degree calculation unit 21 can calculate the degree of similarity between the set for each identified topic and the record subset of each analysis viewpoint candidate, and can calculate the feature degree using the degree of similarity.
  • the feature level represents a comparison result regarding a specific topic between the entire record and the record subset of analysis viewpoint candidates.
  • the number of records including the topic T1 is 1000, and the number of records in the record subsets of the two analysis viewpoint candidates C and D is 500 and 700, respectively. And In the record subsets of analysis viewpoint candidates C and D, it is assumed that the number of records including the topic T1 and the number of common records are 400 and 200, respectively.
  • the feature degree calculation unit 21 extracts feature words from the record subset of analysis viewpoint candidates, and calculates the feature degree using the result of feature word extraction, for example, the score (appearance frequency, etc.) of the extracted feature words. You can also Specifically, the feature degree calculation unit 21 may specify N feature words from the extracted feature words in descending order of score values, and use the sum of the scores of the specified feature words as the feature degree. it can.
  • the feature degree calculation unit 21 extracts feature words from each of the record subsets of analysis viewpoint candidates and all the records of the analysis target data, and calculates the similarity between the extracted feature words.
  • the feature degree can be calculated using the similarity degree.
  • the feature degree calculation unit 21 first extracts N feature words in descending order of score value from each of the record subsets of analysis viewpoint candidates and all the records of the analysis target data. Subsequently, the feature degree calculation unit 21 calculates the degree of similarity between the N feature words extracted from each, and uses this similarity degree so that the value is higher as the similarity degree is lower. The degree can be calculated.
  • the feature calculation unit 21 performs a statistical test using the null hypothesis that the feature word appearance ratios of the analysis viewpoint candidate A and all records are the same. And the degree of feature can be calculated so that the lower the P value, the higher the value.
  • the feature calculation unit 21 outputs the feature for each analysis viewpoint candidate calculated in step S3 to the analysis viewpoint data storage unit 11 as analysis viewpoint data (step S4).
  • the analysis viewpoint data storage unit 11 stores the analysis viewpoint data.
  • the process in the text mining device 2 ends.
  • the analysis viewpoint data is a combination data of analysis viewpoint candidates and their characteristic degrees.
  • the program according to the first embodiment of the present invention may be a program that causes a computer to execute steps S1 to S4 shown in FIG.
  • the text mining apparatus 2 and the text mining method according to the first embodiment can be realized by installing and executing this program on a computer.
  • a central processing unit (CPU) of the computer functions as the analysis viewpoint candidate generation unit 20 and the feature calculation unit 21 to perform processing.
  • the data storage device 1 can be realized by a storage device such as a hard disk provided in a computer in which the program in the first embodiment is installed. Further, the data storage device 1 may be realized by a storage device of another computer connected via a network or the like to the computer in which the program according to the first embodiment is installed.
  • the analysis viewpoint candidates are automatically set from the analysis target data without depending on the experience and sense of the analyst. For this reason, according to the first embodiment, an analysis viewpoint that is highly likely to obtain a characteristic result including an unexpected analysis viewpoint for the analyst is efficiently set.
  • the text mining device according to the second embodiment has the same configuration as that of the text mining device 1 according to the first embodiment shown in FIG. 1, but is different in terms of the operation of the analysis viewpoint candidate and the feature calculation unit. Yes.
  • the differences from the first embodiment will be described with reference to FIG. 4 while explaining the operation of the text mining apparatus according to the second embodiment.
  • FIG. 4 is a flowchart showing the operation of the text mining apparatus according to Embodiment 2 of the present invention.
  • FIGS. 1 and 2 used in Embodiment 1 are referred to as appropriate, and the reference numerals used in FIG. 1 are used.
  • the text mining method is implemented by operating the text mining apparatus.
  • the analysis viewpoint candidate generation unit 20 reads the analysis target data from the analysis target data storage unit 10, acquires attribute values that are analysis viewpoint candidates from the read analysis target data, An analysis viewpoint candidate is generated (step S11).
  • the analysis viewpoint candidates are not exhaustively listed as in step S1 shown in FIG. 3 in the first embodiment.
  • a plurality of analysis viewpoint candidates are randomly generated.
  • the analysis viewpoint candidate generation unit 20 specifies the record including each analysis viewpoint candidate as an element for each analysis viewpoint candidate using the analysis viewpoint candidate acquired in step S11, and further specifies for each analysis viewpoint candidate.
  • a set of records (record subset) is created (step S12). Step S12 is the same as step S2 shown in FIG.
  • the analysis viewpoint candidate generation unit 20 outputs each record subset to the feature calculation unit.
  • the feature degree calculation unit 21 includes, for each analysis viewpoint candidate, a record set including at least records other than the text data of the record subset created in step S12 and the record including the attribute value specified in step S12. And the degree of feature indicating the relationship between the analysis viewpoint candidates and the analysis target data is calculated based on the comparison result (step S13).
  • Step S13 is the same as step S3 shown in FIG.
  • the “record set including at least records other than the record including the attribute value identified in step S12” is “all records of the analysis target data”, and is hereinafter referred to as “analysis target”. An example in which “all records of data” is used will be described.
  • the feature calculation unit 21 counts the number of analysis viewpoint candidates whose feature calculated in step S13 is equal to or greater than a preset threshold, and determines whether the number has reached the target number. (Step S14).
  • step S14 If it is determined in step S14 that the number has not reached the target number, the feature calculation unit 21 causes the analysis viewpoint candidate generation unit 20 to execute step S11 again. That is, the generation of analysis viewpoint candidates and the calculation of the feature degree are repeated until a predetermined number or more of analysis viewpoint candidates that can be regarded as characteristic above a certain level are found by the determination in step S14.
  • step S15 is the same as step S4 shown in FIG.
  • the program according to the second embodiment of the present invention may be a program that causes a computer to execute steps S11 to S15 shown in FIG. By installing and executing this program on a computer, the text mining apparatus and text mining method according to the second embodiment can be realized.
  • a central processing unit (CPU) of the computer functions as the analysis viewpoint candidate generation unit 20 and the feature calculation unit 21 to perform processing.
  • the data storage device 1 can be realized by a storage device such as a hard disk provided in a computer in which the program according to the second embodiment is installed. Furthermore, the data storage device may be realized by a storage device of another computer connected via a network or the like to the computer in which the program according to the second embodiment is installed.
  • FIG. 5 is a block diagram showing the configuration of the text mining device according to Embodiment 3 of the present invention.
  • the text mining device 23 includes a verification information extraction unit 22 in addition to the analysis viewpoint candidate 20 and the feature degree calculation unit 21.
  • the mode 1 is different from the text mining device 2 shown in FIG.
  • the text mining device 23 is configured in the same manner as the text mining device 2 shown in FIG. 1 in the first embodiment, and the analysis viewpoint candidate 20 and the feature degree calculation unit shown in FIG. 21 is the same functional block as the analysis viewpoint candidate 20 and the feature degree calculation unit 21 shown in FIG.
  • the difference from the first embodiment will be mainly described.
  • the verification information extraction unit 22 verifies one or both of feature words and representative text from the text data of a record (record subset) including attribute values extracted as analysis viewpoint candidates. Extract as information for use.
  • any technique that has already been disclosed is used as a technique for extracting feature words or representative text from text data.
  • the verification information extraction unit 22 adds the extracted verification information to the analysis viewpoint candidate.
  • the verification information extraction unit 22 stores the analysis viewpoint candidate with the verification information added in the analysis viewpoint data storage unit 11.
  • FIG. 6 is a flowchart showing the operation of the text mining device according to Embodiment 1 of the present invention.
  • the text mining method is implemented by operating the text mining device 23. Therefore, the description of the text mining method in the third embodiment is replaced with the following description of the operation of the text mining device 23.
  • the analysis viewpoint candidate generation unit 20 reads the analysis target data from the analysis target data storage unit 10, acquires attribute values that are analysis viewpoint candidates from the read analysis target data, and performs analysis.
  • a viewpoint candidate is generated (step S21).
  • the analysis viewpoint candidate generation unit 20 specifies the record including each analysis viewpoint candidate as an element for each analysis viewpoint candidate using the analysis viewpoint candidate acquired in step S21, and further specifies for each analysis viewpoint candidate.
  • a set of records (record subset) is created (step S22).
  • the feature degree calculation unit 21 includes, for each analysis viewpoint candidate, a record set including at least records other than the record data including the text data of the record subset created in step S22 and the attribute value specified in step S22; And the degree of feature indicating the relationship between the analysis viewpoint candidates and the analysis target data is calculated based on the comparison result (step S23).
  • the “record set including at least records other than the record including the attribute value identified in step S22” is assumed to be “all records of analysis target data”, and hereinafter referred to as “analysis target”. An example in which “all records of data” is used will be described.
  • Step S21 to S23 are the same as steps S1 to S3 shown in FIG.
  • the verification information extraction unit 22 extracts one or both of the feature word and the representative text as verification information of analysis viewpoint candidates from the text data of each record subset. (Step S24).
  • the verification information extraction unit 22 adds the verification information extracted in step S24 to the analysis viewpoint candidate (step S25). Then, the verification information extraction unit 22 outputs the analysis viewpoint candidate with the verification information added to the analysis viewpoint data storage unit 11 as analysis viewpoint data together with the feature degree calculated in step S23 (step S26).
  • step S26 When step S26 is executed, the analysis viewpoint data storage unit 11 stores the analysis viewpoint data. After the execution of step S26, the processing in the text mining device 23 ends. Note that the execution timings of steps S24 and S25 are not particularly limited as long as the analysis viewpoint candidates are generated.
  • the program according to the third embodiment of the present invention may be a program that causes a computer to execute steps S21 to S26 shown in FIG. By installing and executing this program on a computer, the text mining apparatus and text mining method according to the second embodiment can be realized.
  • a CPU Central Processing Unit
  • the computer functions as the analysis viewpoint candidate generation unit 20, the feature degree calculation unit 21, and the verification information extraction unit 22, and performs processing.
  • the data storage device 1 can be realized by a storage device such as a hard disk provided in a computer in which the program according to the third embodiment is installed. Furthermore, the data storage device 1 may be realized by a storage device of another computer connected via a network or the like to the computer in which the program according to the third embodiment is installed.
  • FIG. 7 is a block diagram showing an example of a computer that implements the text mining apparatus according to Embodiments 1 to 3 of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the CPU 111 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program is provided in a state stored in a computer-readable recording medium 120.
  • the program may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 include a hard disk drive and a semiconductor storage device such as a flash memory.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic storage media such as a flexible disk, or CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
  • CF Compact Flash
  • SD Secure Digital
  • magnetic storage media such as a flexible disk
  • CD- Optical storage media such as ROM (Compact Disk Read Only Memory) are listed.
  • a text mining device that uses data constructed by a set of records including attribute values and text data as analysis target data, An analysis viewpoint candidate generating unit that extracts an attribute value from the analysis target data and generates an analysis viewpoint candidate using the extracted attribute value; The text data of the record including the attribute value extracted as the analysis viewpoint candidate is compared with the text data of the record set including at least a record other than the record including the attribute value in the analysis target data.
  • a feature degree calculation unit that calculates a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data;
  • a text mining device comprising:
  • the analysis viewpoint candidate generation unit extracts a plurality of attribute values from the analysis target data, and generates the analysis viewpoint candidates using the extracted plurality of attribute values.
  • the text mining device according to attachment 1.
  • the feature degree calculation unit includes text data of a record including the attribute value extracted as the analysis viewpoint candidate, and text data of a record set including at least a record other than the record including the attribute value in the analysis target data; For the topic distribution, the feature degree is calculated so that the higher the topic distribution is, the higher the value is.
  • the text mining device according to appendix 1 or 2.
  • the feature degree calculation unit includes text data of a record including the attribute value extracted as the analysis viewpoint candidate, and text data of a record set including at least a record other than the record including the attribute value in the analysis target data; The similarity is calculated, and the feature is calculated using the similarity.
  • the text mining device according to any one of appendices 1 to 3.
  • the feature calculation unit extracts a feature word from a record including the attribute value extracted as the analysis viewpoint candidate, and calculates the feature using a score of the extracted feature word.
  • the text mining device according to appendix 1 or 2.
  • the feature calculation unit is characterized by each of a record including the attribute value extracted as the analysis viewpoint candidate and a record set including at least a record other than the record including the attribute value in the analysis target data. A word is extracted, and the degree of similarity between the extracted feature words is calculated, and the degree of feature is calculated using the degree of similarity.
  • the text mining device according to appendix 1 or 2.
  • the analysis viewpoint candidate generation unit generates a plurality of analysis viewpoint candidates, specifies a record including the attribute value extracted as the analysis viewpoint candidate for each of the plurality of analysis viewpoint candidates, and If there is a certain similarity relationship between the record identified for the analysis candidate and the record identified for the other analysis candidate, and if the determination results in a certain similarity relationship, Integrating the one analysis viewpoint candidate and the other analysis viewpoint candidate;
  • the text mining device according to any one of appendices 1 to 6.
  • Appendix 8 From the text data of the record including the attribute value extracted as the analysis viewpoint candidate, one or both of the feature word and the representative text are extracted as the verification information of the analysis viewpoint candidate, and the extracted verification information is , Further comprising a verification information extraction unit to be added to the analysis viewpoint candidate.
  • the text mining device according to any one of appendices 1 to 7.
  • Topics that appear in the text data of the record set including at least records other than the records that contain the attribute values in the analysis target data, and topics that appear in the text data of the records that contain the attribute values extracted as the analysis viewpoint candidates And perform a statistical test with the null hypothesis that the occurrence ratio is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the text mining device according to appendix 1 or 2.
  • the feature calculation unit Appears in the text data of a record set including at least records other than the feature word that appears in the text data of the record including the attribute value extracted as the analysis viewpoint candidate and the record that includes the attribute value in the analysis target data Perform a statistical test with the null hypothesis that the appearance ratio of the feature word is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the text mining device according to appendix 1 or 2.
  • a text mining method that uses data constructed by a set of records including attribute values and text data as analysis target data, (A) extracting an attribute value from the analysis target data, and generating an analysis viewpoint candidate using the extracted attribute value; (B) comparing text data of a record including the attribute value extracted as the analysis viewpoint candidate with text data of a record set including at least a record other than the record including the attribute value in the analysis target data; Calculating a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data based on a comparison result; and A text mining method characterized by comprising:
  • step (a) a plurality of attribute values are extracted from the analysis target data, and the analysis viewpoint candidates are generated using the extracted plurality of attribute values.
  • step (b) text data of a record set including at least records other than the record including the attribute value in the analysis target data and the text data of the record including the attribute value extracted as the analysis viewpoint candidate
  • the distribution of the topic is obtained, and the degree of feature is calculated so that the value increases as the obtained distribution of the topic differs from each other.
  • step (b) text data of a record set including at least records other than the record including the attribute value in the analysis target data and the text data of the record including the attribute value extracted as the analysis viewpoint candidate And the similarity is calculated, and the feature is calculated using the similarity.
  • the text mining method according to any one of appendices 11 to 13.
  • step (b) a feature word is extracted from the record including the attribute value extracted as the analysis viewpoint candidate, and the feature degree is calculated using the score of the extracted feature word.
  • the text mining method according to appendix 11 or 12.
  • each of the record set including the attribute value extracted as the analysis viewpoint candidate and the record set including at least a record other than the record including the attribute value in the analysis target data Extracting a feature word, further calculating a similarity between the extracted feature words, and calculating the feature using the similarity.
  • step (a) a plurality of analysis viewpoint candidates are generated, a record including the attribute value extracted as the analysis viewpoint candidate is specified for each of the plurality of analysis viewpoint candidates, and If there is a certain similarity relationship between the record identified for the analysis candidate and the record identified for the other analysis candidate, and if the determination results in a certain similarity relationship, Integrating the one analysis viewpoint candidate and the other analysis viewpoint candidate;
  • the text mining method according to any one of appendices 11 to 16.
  • Topics that appear in the text data of the record set including at least records other than the records that contain the attribute values in the analysis target data, and topics that appear in the text data of the records that contain the attribute values extracted as the analysis viewpoint candidates And perform a statistical test with the null hypothesis that the occurrence ratio is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the text mining method according to appendix 11 or 12.
  • step (b) Appears in the text data of a record set including at least records other than the feature word that appears in the text data of the record including the attribute value extracted as the analysis viewpoint candidate and the record that includes the attribute value in the analysis target data Perform a statistical test with the null hypothesis that the appearance ratio of the feature word is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the text mining method according to appendix 11 or 12.
  • a computer-readable recording medium recording a program for executing text mining with data constructed as a set of records including attribute values and text data by a computer, In the computer, (A) extracting an attribute value from the analysis target data, and generating an analysis viewpoint candidate using the extracted attribute value; (B) comparing text data of a record including the attribute value extracted as the analysis viewpoint candidate with text data of a record set including at least a record other than the record including the attribute value in the analysis target data; Calculating a feature degree indicating a relationship between the analysis viewpoint candidate and the analysis target data based on a comparison result; and The computer-readable recording medium which records the program containing the instruction
  • step (a) a plurality of attribute values are extracted from the analysis target data, and the analysis viewpoint candidates are generated using the extracted plurality of attribute values.
  • step (b) text data of a record set including at least records other than the record including the attribute value in the analysis target data and the text data of the record including the attribute value extracted as the analysis viewpoint candidate
  • the distribution of the topic is obtained, and the degree of feature is calculated so that the value increases as the obtained distribution of the topic differs from each other.
  • step (b) text data of a record set including at least records other than the record including the attribute value in the analysis target data and the text data of the record including the attribute value extracted as the analysis viewpoint candidate And the similarity is calculated, and the feature is calculated using the similarity.
  • the computer-readable recording medium according to any one of appendices 21 to 23.
  • step (b) a feature word is extracted from the record including the attribute value extracted as the analysis viewpoint candidate, and the feature degree is calculated using the score of the extracted feature word.
  • each of the record set including the attribute value extracted as the analysis viewpoint candidate and the record set including at least a record other than the record including the attribute value in the analysis target data Extracting a feature word, further calculating a similarity between the extracted feature words, and calculating the feature using the similarity.
  • step (a) a plurality of analysis viewpoint candidates are generated, a record including the attribute value extracted as the analysis viewpoint candidate is specified for each of the plurality of analysis viewpoint candidates, and If there is a certain similarity relationship between the record identified for the analysis candidate and the record identified for the other analysis candidate, and if the determination results in a certain similarity relationship, Integrating the one analysis viewpoint candidate and the other analysis viewpoint candidate; 27.
  • a computer-readable recording medium according to any one of appendices 21 to 26.
  • the program is (C) From the text data of the record including the attribute value extracted as the analysis viewpoint candidate, one or both of feature words and representative text are extracted as analysis viewpoint candidate verification information, and the extracted verification 28.
  • the computer-readable recording medium according to any one of appendices 21 to 27, further comprising instructions for adding information to the analysis viewpoint candidate and causing the computer to execute a step.
  • Topics that appear in the text data of the record set including at least records other than the records that contain the attribute values in the analysis target data, and topics that appear in the text data of the records that contain the attribute values extracted as the analysis viewpoint candidates And perform a statistical test with the null hypothesis that the occurrence ratio is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the computer-readable recording medium according to appendix 21 or 22.
  • step (b) Appears in the text data of a record set including at least records other than the feature word that appears in the text data of the record including the attribute value extracted as the analysis viewpoint candidate and the record that includes the attribute value in the analysis target data Perform a statistical test with the null hypothesis that the appearance ratio of the feature word is the same, The feature degree is calculated so that the lower the P value obtained by the statistical test, the higher the value.
  • the computer-readable recording medium according to appendix 21 or 22.
  • the present invention in text mining, an analysis viewpoint that leads to discovery of useful knowledge can be efficiently set, which is unexpected for an analyst.
  • the present invention is useful in various fields where text mining is required, such as the marketing field.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置2を用いる。テキストマイニング装置2は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する、分析観点候補生成部20と、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データの属性値を含むレコード以外のレコードを少なくとも含むレコード集合のテキストデータとを比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する、特徴度計算部21と、を備えている。

Description

テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
 本発明は、テキストデータの分析によって分析者に有用な知見を提供し得る、テキストマイニングシステムに関し、特には、有用な知見として分析者に分析の観点を推薦する、テキストマイニング装置、テキストマイニング方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 一般に、テキストマイニングで有用な知見を得るためには、様々な観点で分析することが肝要である。例えば、テキストマイニングでは、対象となるテキストデータに対して、ある観点に基づいて、クラスタリングが実行され、クラスタリングによって分割された部分のテキスト内容が特徴的であるかどうかが判定される。判定の結果、特徴的な部分が存在すれば、有用な知見の発見につながる。
 特許文献1は、このようなテキストマイニングを実行するための、従来からのテキストマイニングシステムを開示している。特許文献1に開示されたテキストマイニングシステムは、複数のレコードで構成されたデータを分析対象データとしている。また、分析対象データの各レコードには、属性値とテキストデータとが含まれている。
 そして、特許文献1に開示されたテキストマイニングシステムは、まず、分析者がある属性(例えば、職種)を指定すると、指定された属性の属性値(例えば、学生,会社員、etc)を用いて、属性値毎に、分析対象データから、該当するレコードを抽出する。また、ここでは、抽出されたレコードを「部分集合」と表記する。
 続いて、特許文献1に開示されたテキストマイニングシステムは、分析対象データのテキストデータを対象にしてテキスト分類を行なって、複数のテキストグループを生成する。その後、特許文献1に開示されたテキストマイニングシステムは、属性値毎に、部分集合とテキストグループとの関連性を指標化し、部分集合とテキストグループとの関連性を表わす情報を表示する。
 すなわち、特許文献1に開示されたテキストマイニングシステムによれば、分析者は、分析の観点として属性を指定することで、その属性値毎のテキストグループとの関連性を概観することができる。言い換えると、分析者は、このようなテキストマイニングシステムを用いることで、一般的に知られている観点、分析者の経験又は感覚から推察した観点を設定でき、設定した観点に基づいて分析を行なうことができる。
特開2004-164137号公報
 しかしながら、特許文献1に開示されたテキストマイニングシステムにおいては、分析者は経験又は感覚等に基づいて観点を自身で設定する必要があることから、分析は分析者の先入観の範囲で行なわれる傾向にある。このため、分析者が試行錯誤を行なって分析観点を設定しない限り、分析者にとって想定外でありながら、有用な知見の発見につながる、分析観点を効率良く設定することは困難となる。
[発明の目的]
 本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面におけるテキストマイニング装置は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
 前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
 前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とする。
 また、上記目的を達成するため、本発明の一側面におけるテキストマイニング方法は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
 以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。
図1は、本発明の実施の形態1におけるテキストマイニング装置の構成を示すブロック図である。 図2は、本発明の実施の形態1で用いられる分析対象データの一例を示す図である。 図3は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。 図4は、本発明の実施の形態2におけるテキストマイニング装置の動作を示す流れ図である。 図5は、本発明の実施の形態3におけるテキストマイニング装置の構成を示すブロック図である。 図6は、本発明の実施の形態3におけるテキストマイニング装置の動作を示す流れ図である。 図7は、本発明の実施の形態1~3におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
 以下、本発明の実施の形態1におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図1~図3を参照しながら説明する。
[装置構成]
 最初に、図1を用いて、本実施の形態1におけるテキストマイニング装置の構成について説明する。図1は、本発明の実施の形態1におけるテキストマイニング装置の構成を示すブロック図である。
 図1に示すように、本実施の形態1におけるテキストマイニング装置2は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとして、テキストマイニングを実行する装置である。
 また、図1に示すように、テキストマイニング装置2は、分析観点候補生成部20と、特徴度計算部21とを備えている。このうち、分析観点候補生成部20は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する。
 特徴度計算部21は、まず、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較する。そして、特徴度計算部21は、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する。
 このように、本実施の形態1におけるテキストマイニング装置2は、分析者の意志とは関係無く、機械的に、分析観点候補となる属性値を抽出し、そして、この属性値についての特徴度を計算する。このため、分析者は、想定していないが、特徴度の高い分析観点候補、即ち、有用な知見を発見できる可能生が高い分析観点候補を特定することができる。従って、テキストマイニング装置2によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。
 ここで、本実施の形態1におけるテキストマイニング装置2の構成について、図2を用いて、更に具体的に説明する。図2は、本発明の実施の形態1で用いられる分析対象データの一例を示す図である。
 図1に示すように、本実施の形態1では、テキストマイニング装置2は、データ記憶装置1に接続されており、データ記憶装置1と共にテキストマイニングシステム3を構築している。データ記憶装置1は、分析対象データ記憶部10と、分析観点データ記憶部11とを備えている。
 分析対象データ記憶部10は、分析対象データを記憶している。図2の例では、分析対象データは、パーソナルコンピュータについてのアンケート結果である。また、図2の例では、分析対象データを構成する各レコードは、7種類の属性(性別、年代、既婚、主な利用目的、メーカ、製品、万度)についての属性値と、テキスト属性(自由記述(1)、自由記述(2))の異なる2種類のテキストデータとを含んでいる。なお、本実施の形態において、分析対象データにおける属性の種類の数と、テキストデータの種類の数とは、特に限定されるものではない。
 また、分析観点データ記憶部11は、テキストマイニング装置2によって出力された分析観点データを記憶している。本実施の形態において、分析観点データは、分析観点候補毎に計算された特徴度で構成されている。
 また、分析観点候補生成部20は、本実施の形態1では、分析対象データから1つの属性値を抽出し、これのみを用いて分析観点候補を生成しても良いし、複数の属性値を抽出し、この複数の属性値を用いて分析観点候補を生成しても良い。具体的には、図3の例において、分析観点候補生成部20は、「男性」のみを含む分析観点候補を生成しても良いし、「男性、20代」の組合せを含む分析観点候補を生成しても良い。
 更に、分析観点候補生成部20は、本実施の形態1では、分析観点候補を生成すると、分析観点候補として抽出された属性値を含むレコードを特定し、特定したレコードの集合(以下、「レコード部分集合」と表記する。)を作成する。なお、分析観点候補として抽出される属性値は、それを含むレコードが一つであっても良く、この場合、レコード部分集合は、一つのレコードのみで構成されることになる。
 また、本実施の形態1において、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、属性値を含むレコード以外のレコードを少なくとも1つ含めば良く、分析対象データの全レコードであっても良いし、分析対象データの全レコードからランダムに選択されたレコードの集合であっても良い。更に、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、予め設定された分析観点に基づいて選択されたレコードの集合であっても良い。
[装置動作]
 次に、本発明の実施の形態1におけるテキストマイニング装置2の動作について図3を用いて説明する。図3は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図1及び図2を参酌する。また、本実施の形態1では、テキストマイニング装置2を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態1におけるテキストマイニング方法の説明は、以下のテキストマイニング装置2の動作説明に代える。
 図3に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する(ステップS1)。このとき、1つの分析観点候補として取得される属性値は、単一の属性値であっても良いし、2以上の属性値の組み合せであっても良い。
 また、本実施の形態1では、ステップS1において、分析観点候補生成部20は、分析対象データを構成する全てのレコードを対象にして、レコード毎に、各レコードで想定される全ての属性値の組み合せを取り出し、取り出した各組み合せを分析観点候補とする。この場合、少なくとも1つのレコードが含まれるレコード部分集合を生成可能な、分析観点候補が列挙されることになる。
 例えば、図2の例において、分析観点候補生成部20は、「性別、年代」の属性の組み合わせを元に、ID=1のレコードから「男性、20代」という分析観点候補を生成し、ID=2のレコードから「女性、30代」という分析観点候補を生成する。このようにして生成された各分析観点候補は、後述のステップS2で生成されるレコード部分集合の要素となる。
 また、ステップS1では、分析観点候補生成部20は、列挙される分析観点候補の量を絞るため、組み合わせる属性値の数を制限しても良いし、該当するレコードの数が一定数以上とならない分析観点候補を除去しても良い。
 次に、分析観点候補生成部20は、ステップS1で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS2)。また、分析観点候補生成部20は、各レコード部分集合を、特徴度計算部11に出力する。
 ステップS2では、分析観点候補生成部20は、更に、一の分析観点候補について特定したレコード(レコード部分集合)と、他の分析観点候補について特定したレコード(レコード部分集合)との間に、一定の類似関係が存在するかどうかを判定することができる。そして、分析観点候補生成部20は、判定の結果、一定の類似関係が存在する場合に、一の分析観点候補と他の分析観点候補とを統合することができる。
 このとき、複数の分析観点候補を統合する手法としては、統合対象となった各分析観点候補に含まれる属性値の和集合又は積集合を求め、求めた和集合又は積集合を新たな分析観点候補とする手法が挙げられる。更に、複数の分析観点候補を統合する別の手法としては、統合対象となった分析観点候補のうちの一つのみを残し、他を削除する手法も挙げられる。なお、削除による手法を採用する場合は、分析観点候補作成部20は、後述するステップS3の実行後に、最も特徴度の高い分析観点候補のみを残し、他を削除しても良い。
 レコード部分集合が類似している場合は、テキストデータの内容の傾向もほぼ変わらないことが多いことから、このように、分析観点候補の統合を行なうことは、分析観点候補を分析者に提示する際の冗長性の削減に効果的である。また、レコード部分集合が類似する分析観点候補同士が、同じ傾向が得られる分析観点としてまとめて提示されると、分析者における分析効率が向上する。
 次に、特徴度計算部21は、分析観点候補毎に、ステップS2で作成したレコード部分集合のテキストデータと、ステップS2で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS3)。なお、図3の説明においては、「ステップS2で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
 ステップS3では、特徴度計算部21は、例えば、レコード部分集合のテキストデータと全レコードのテキストデータとのそれぞれの内容の傾向が異なるほど、値が高くなるように、特徴度を計算する。
 本実施の形態1においては、まず、特徴度計算部21は、分析対象データの各レコードのテキストデータ全体に対して、既存技術であるテキストクラスタリングを実行し、テキストデータ全体を話題毎に分割する。そして、特徴度計算部21は、各分析観点候補のレコード部分集合のテキストデータと、分析対象データの全レコードのテキストデータとについて、話題の分布を求め、求めた話題の分布の非類似性に基づいて、特徴度を計算することができる。このようにして特徴度を計算した場合は、全体の話題の分布と、特定の分析観点候補の話題の分布とが比較されるので、特徴度として、全体的な傾向の違いが計算されることになる。
 具体的には、例えば、テキストクラスタリングによって、テキストデータ全体が、3つの話題T1、T2、T3に分割され、分析観点候補Aのレコード部分集合における各話題の頻度分布xが「T1:10%,T2:30%,T3:60%」であり、レコード全体における各話題の頻度分布yが「T1:20%,T2:20%,T3:60%))」であるとする。
 そして、特徴度として、コサイン類似度の逆数が用いられる場合は、特徴度は、下記の数1により、1.02と計算される。なお、コサイン類似度は、値が大きいほど、同じ傾向にあって類似していることを表わすため、特徴度としては、逆数が用いられる。
(数1)
 特徴度=1/(x・y/|x||y|)
 また、一方、分析観点候補Bのレコード部分集合における各話題の頻度分布が「T1:60%,T2:20%,T3:30%」である場合は、特徴度は、上記の数1により、1.57と計算される。この場合、分析観点候補Bの特徴度は、分析観点候補Aの特徴度と比べて高くなることから、分析観点候補Bの方が分析観点候補Aよりも有用な知見の発見につながり易いと考えられる。
 更に、特徴度としては、コサイン類似度以外にも、頻度分布のベクトルから計算可能な任意の類似度の逆数、又は同じく頻度分布のベクトルから計算可能な距離を用いることもできる。
 また、特徴度計算部21は、分析観点候補Aと全レコードとの話題の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのP値が低いほど高い値となるように、特徴度を計算することもできる。統計的検定としては、カイ二乗検定、尤度非検定の一種であるG検定、などを用いることができる。
 また、別の例では、ステップS3において、特徴度計算部21は、テキストクラスタリング後に、レコード全体から、話題毎に、その話題を含むレコードの集合を特定する。そして、特徴度計算部21は、特定した話題毎の集合と、各分析観点候補のレコード部分集合との間の類似度を計算し、この類似度を用いて特徴度を計算することができる。この例では、特徴度は、レコード全体と分析観点候補のレコード部分集合との、特定の話題に関する比較結果を表わしている。
 具体的には、例えば、レコード全体において、話題T1を含むレコードの数が1000個であり、2つの分析観点候補C及びDのレコード部分集合におけるレコードの数がそれぞれ、500個、700個であるとする。また、分析観点候補C及びDのレコード部分集合において、話題T1を含むレコードの数と共通のレコードの数とは、それぞれ400個、200個であるとする。
 この場合において、ダイス係数を用いると、分析観点候補Cの話題T1についての特徴度は0.53(=2×400/(1000+500))となる。また、分析観点候補Dの話題T1に対する特徴度は0.24(=2×200/(1000+700))となる。なお、この場合において、特徴度の計算には、ダイス係数以外にも、レコードの集合間における任意の類似度の計算方法を用いることもできる。
 また、特徴度計算部21は、分析観点候補のレコード部分集合から特徴語を抽出し、特徴語抽出の結果、例えば、抽出した特徴語のスコア(出現頻度等)を用いて、特徴度を計算することもできる。具体的には、特徴度計算部21は、抽出した特徴語の中から、スコアの値が大きい順にN個の特徴語を特定し、特定した特徴語のスコアの和を特徴度とすることができる。
 更に、特徴度計算部21は、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、特徴語を抽出し、そして、抽出した両者の特徴語の類似度を計算し、この類似度を用いて、特徴度を計算することもできる。
 具体的には、特徴度計算部21は、まず、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、スコアの値が大きい順にN個の特徴語を抽出する。続いて、特徴度計算部21は、それぞれから抽出したN個の特徴語同士について、類度を計算し、この類似度を用いて、当該類似度が低いほど値が高くなるようにして、特徴度を計算することができる。
 なお、特徴度の計算に特徴語抽出を用いる2例を説明したが、これらの例には、テキストクラスタリングに必要なパラメタの設定が不要になるという利点はあるが、これらの例では、話題毎に傾向を捉えることが難しくなる。
 更に、上述した話題の出現比率に基づく方法と同様に、特徴度計算部21は、分析観点候補Aと全レコードとの特徴語の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのP値が低いほど高い値となるように、特徴度を計算することもできる。
 次に、特徴度計算部21は、ステップS3で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部11に出力する(ステップS4)。ステップS4が実行されると、分析観点データ記憶部11は、分析観点データを記憶する。ステップS4の実行後、テキストマイニング装置2における処理は終了する。なお、本実施の形態1では、分析観点データは、分析観点候補と、その特徴度との組み合せデータである。
[プログラム]
 本発明の実施の形態1におけるプログラムは、コンピュータに、図3に示すステップS1~S4を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるテキストマイニング装置2とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
 また、本実施の形態1では、データ記憶装置1は、本実施の形態1におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置1は、本実施の形態1におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態1の効果]
 以上のように本実施の形態1では、分析観点候補は、分析者の経験及び感覚に依存することなく、分析対象データから、自動的に設定される。このため、本実施の形態1によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点が効率良く設定されることになる。
(実施の形態2)
 次に、本発明の実施の形態2におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図4を参照しながら説明する。
 本実施の形態2におけるテキストマイニング装置は、図1に示した実施の形態1におけるテキストマイニング装置1と同様の構成を備えているが、分析観点候補及び特徴度計算部の動作の点で異なっている。以下、図4を用いて、本実施の形態2におけるテキストマイニング装置の動作を説明しながら、実施の形態1との相違点を説明する。
 図4は、本発明の実施の形態2におけるテキストマイニング装置の動作を示す流れ図である。なお、以下の説明においては、実施の形態1で用いた図1及び図2を適宜参酌すると共に、図1で用いられている符号を使用する。また、本実施の形態2においても、テキストマイニング装置を動作させることによって、テキストマイニング方法が実施される。
 図4に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得して、分析観点候補を生成する(ステップS11)。但し、ステップS11においては、実施の形態1で図3に示したステップS1のように分析観点候補が網羅的に列挙されることはない。ステップS11では、複数個の分析観点候補がランダムに生成される。
 次に、分析観点候補生成部20は、ステップS11で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS12)。ステップS12は、図3に示したステップS2と同様のステップである。また、分析観点候補生成部20は、各レコード部分集合を、特徴度計算部に出力する。
 次に、特徴度計算部21は、分析観点候補毎に、ステップS12で作成したレコード部分集合のテキストデータと、ステップS12で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS13)。ステップS13は、図3に示したステップS3と同様のステップである。また、本実施の形態2においても、「ステップS12で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
 次に、特徴度計算部21は、ステップS13で計算された特徴度が予め設定された閾値以上となっている分析観点候補の個数をカウントし、その個数が目標数に到達したかどうかを判定する(ステップS14)。
 ステップS14の判定の結果、個数が目標数に到達していない場合は、特徴度計算部21は、分析観点候補生成部20に、再度、ステップS11を実行させる。すなわち、ステップS14の判定により、一定以上の特徴的と見なせる分析観点候補が一定個数以上発見されるまで、分析観点候補の生成と特徴度の計算とが繰り返えされる。
 一方、ステップS14の判定の結果、個数が目標数に到達している場合は、特徴度計算部21は、ステップS13で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部11に出力する(ステップS15)。ステップS15の実行後、テキストマイニング装置における処理は終了する。ステップS15は、図3に示したステップS4と同様のステップである。
[プログラム]
 本発明の実施の形態2におけるプログラムは、コンピュータに、図4に示すステップS11~S15を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
 また、本実施の形態2でも、データ記憶装置1は、本実施の形態2におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置は、本実施の形態2におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態2の効果]
 以上のように、本実施の形態2では、分析観点候補の数が制限されるので、属性及びその属性値の種類が膨大であり、計算時間及び記憶容量の関係で、事前の分析観点候補を列挙することが困難な場合に、有用となる。本実施の形態2によれば、計算時間及び必要となる記憶容量の削減を図ることができる。また、本実施の形態2を用いた場合も、実施の形態1と同様の効果を得ることができる。
(実施の形態3)
 次に、本発明の実施の形態3におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図5及び図6を参照しながら説明する。
[装置構成]
 最初に、図5を用いて、本実施の形態3におけるテキストマイニング装置の構成について説明する。図5は、本発明の実施の形態3におけるテキストマイニング装置の構成を示すブロック図である。
 図5に示すように、本実施の形態3におけるテキストマイニング装置23は、分析観点候補20及び特徴度計算部21に加えて、検証用情報抽出部22を備えており、この点で、実施の形態1において図1に示したテキストマイニング装置2と異なっている。
 なお、これ以外の点では、テキストマイニング装置23は、実施の形態1において図1に示したテキストマイニング装置2と同様に構成されており、図5に示した分析観点候補20及び特徴度計算部21は、図1に示した分析観点候補20及び特徴度計算部21と同一の機能ブロックである。以下、実施の形態1との相違点を中心に説明する。
 検証用情報抽出部22は、まず、分析観点候補として抽出された属性値を含むレコード(レコード部分集合)のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する。なお、本実施の形態1において、テキストデータから特徴語又は代表的なテキストを抽出する技術としては、既に開示されている任意の技術が用いられる。
 続いて、検証用情報抽出部22は、抽出した検証用情報を、分析観点候補に付加する。また、検証用情報抽出部22は、検証用情報が付加された分析観点候補を、分析観点データ記憶部11に記憶させる。
[装置動作]
 次に、本発明の実施の形態3におけるテキストマイニング装置23の動作について図6を用いて説明する。図6は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態3でも、テキストマイニング装置23を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態3におけるテキストマイニング方法の説明は、以下のテキストマイニング装置23の動作説明に代える。
 図6に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する(ステップS21)。
 次に、分析観点候補生成部20は、ステップS21で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS22)。
 次に、特徴度計算部21は、分析観点候補毎に、ステップS22で作成したレコード部分集合のテキストデータと、ステップS22で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS23)。なお、本実施の形態3においても、「ステップS22で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
 以上のステップS21~S23は、図3に示したステップS1~S3と同様のステップである。ステップS21~S23が実行されると、検証用情報抽出部22は、各レコード部分集合のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する(ステップS24)。
 次に、検証用情報抽出部22は、ステップS24で抽出した検証用情報を分析観点候補に付加する(ステップS25)。そして、検証用情報抽出部22は、検証用情報を付加した分析観点候補を、ステップS23で計算した特徴度と共に、分析観点データとして、分析観点データ記憶部11に出力する(ステップS26)。
 ステップS26が実行されると、分析観点データ記憶部11は、分析観点データを記憶する。ステップS26の実行後、テキストマイニング装置23における処理は終了する。なお、ステップS24及びS25の実行タイミングは、分析観点候補が生成された後であれば良く、特に限定されることはない。
[プログラム]
 本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップS21~S26を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、特徴度計算部21、及び検証用情報抽出部22として機能し、処理を行なう。
 また、本実施の形態3でも、データ記憶装置1は、本実施の形態3におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置1は、本実施の形態3におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態3の効果]
 以上のように、本実施の形態3では、分析観点候補が有望そうであるかを検証するための情報(検証用情報)が提供され、分析者は、提示された分析観点候補の特徴を容易に把握できる。言い換えると、分析者は、提供された情報により、分析観点候補を用いて分析した場合に、意味を見出せそうな結果を得ることができるか否かを、予想できる。従って、本実施の形態3によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点がより効率良く設定されることになる。
[具体的構成]
 ここで、実施の形態1~3におけるプログラムを実行することによって、テキストマイニング装置を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態1~3におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。
 図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、プログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。プログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記30)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
 前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
 前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。
(付記2)
 前記分析観点候補生成部が、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記1に記載のテキストマイニング装置。
(付記3)
 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記4)
 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1から3のいずれかに記載のテキストマイニング装置。
(付記5)
 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記6)
 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記7)
 前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記1から6のいずれかに記載のテキストマイニング装置。
(付記8)
 前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
付記1から7のいずれかに記載のテキストマイニング装置。
(付記9)
 前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記10)
 前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記11)
 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。
(付記12)
 前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記11に記載のテキストマイニング方法。
(付記13)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記14)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11から13のいずれかに記載のテキストマイニング方法。
(付記15)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記16)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記17)
 前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記11から16のいずれかに記載のテキストマイニング方法。
(付記18)
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に有する、付記11から17のいずれかに記載のテキストマイニング方法。
(付記19)
 前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記20)
 前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記21)
 コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
(付記22)
 前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記21に記載のコンピュータ読み取り可能な記録媒体。
(付記23)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記24)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21から23のいずれかに記載のコンピュータ読み取り可能な記録媒体。
(付記25)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記26)
 前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記27)
 前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記21から26のいずれかに記載のコンピュータ読み取り可能な記録媒体。
(付記28)
前記プログラムが、
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを前記コンピュータに実行させる、命令を更に含む、付記21から27のいずれかに記載のコンピュータ読み取り可能な記録媒体ム。
(付記29)
 前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記30)
 前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2012年8月31日に出願された日本出願特願2012-191067を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。本発明は、テキストマイニングが必要とされる様々な分野、例えば、マーケティング分野等に有用である。
 1 データ記憶装置
 2 テキストマイニング装置
 3 テキストマイニングシステム
 10 分析対象データ記憶部
 11 分析観点データ記憶部
 20 分析観点候補生成部
 21 特徴度計算部
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス
 

Claims (10)

  1.  属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
     前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
     前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
    を備えることを特徴とするテキストマイニング装置。
  2.   前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
    請求項1に記載のテキストマイニング装置。
  3.  前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の出現比率を求め、求めた前記話題の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
    前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、請求項1または2に記載のテキストマイニング装置。
  4.  前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  5.  前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  6.  前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  7.  前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
    請求項1から6のいずれかに記載のテキストマイニング装置。
  8.  前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
    請求項1から7のいずれかに記載のテキストマイニング装置。
  9.  属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
    (a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
    (b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
    を有することを特徴とするテキストマイニング方法。
  10.  コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
    (b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
    を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
     
PCT/JP2013/072548 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体 WO2014034557A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014532977A JP6281491B2 (ja) 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びプログラム
US14/419,705 US10140361B2 (en) 2012-08-31 2013-08-23 Text mining device, text mining method, and computer-readable recording medium
CN201380045560.2A CN104603779A (zh) 2012-08-31 2013-08-23 文本挖掘设备、文本挖掘方法和计算机可读记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-191067 2012-08-31
JP2012191067 2012-08-31

Publications (1)

Publication Number Publication Date
WO2014034557A1 true WO2014034557A1 (ja) 2014-03-06

Family

ID=50183370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/072548 WO2014034557A1 (ja) 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体

Country Status (4)

Country Link
US (1) US10140361B2 (ja)
JP (1) JP6281491B2 (ja)
CN (1) CN104603779A (ja)
WO (1) WO2014034557A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016013157A1 (ja) * 2014-07-23 2016-01-28 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP2019207482A (ja) * 2018-05-28 2019-12-05 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
CN112906728A (zh) * 2019-12-04 2021-06-04 杭州海康威视数字技术股份有限公司 一种特征比对方法、装置及设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6472573B2 (ja) * 2016-03-28 2019-02-20 三菱電機株式会社 データ分析手法候補決定装置
CN110619535B (zh) * 2018-06-19 2023-07-14 华为技术有限公司 一种数据处理方法及其装置
CN116662556B (zh) * 2023-08-02 2023-10-20 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (ja) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> データ分析システム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2011034457A (ja) * 2009-08-04 2011-02-17 Nec Corp データマイニングシステム、データマイニング方法及びデータマイニング用プログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164137A (ja) 2002-11-11 2004-06-10 Ricoh Co Ltd テキスト分類結果表示装置、テキスト分類結果表示方法、及び記録媒体
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
WO2007069663A1 (ja) 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP2010061176A (ja) * 2006-11-22 2010-03-18 Nec Corp テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP4735726B2 (ja) 2009-02-18 2011-07-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5135412B2 (ja) 2010-10-27 2013-02-06 株式会社東芝 文書分析装置およびプログラム
US8965848B2 (en) * 2011-08-24 2015-02-24 International Business Machines Corporation Entity resolution based on relationships to a common entity
US8930339B2 (en) * 2012-01-03 2015-01-06 Microsoft Corporation Search engine performance evaluation using a task-based assessment metric
US9367633B2 (en) * 2012-06-29 2016-06-14 Yahoo! Inc. Method or system for ranking related news predictions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (ja) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> データ分析システム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2011034457A (ja) * 2009-08-04 2011-02-17 Nec Corp データマイニングシステム、データマイニング方法及びデータマイニング用プログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016013157A1 (ja) * 2014-07-23 2016-01-28 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JPWO2016013157A1 (ja) * 2014-07-23 2017-05-25 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP2019207482A (ja) * 2018-05-28 2019-12-05 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
JP7048891B2 (ja) 2018-05-28 2022-04-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
CN112906728A (zh) * 2019-12-04 2021-06-04 杭州海康威视数字技术股份有限公司 一种特征比对方法、装置及设备
CN112906728B (zh) * 2019-12-04 2023-08-25 杭州海康威视数字技术股份有限公司 一种特征比对方法、装置及设备

Also Published As

Publication number Publication date
JPWO2014034557A1 (ja) 2016-08-08
JP6281491B2 (ja) 2018-02-21
US10140361B2 (en) 2018-11-27
US20150205859A1 (en) 2015-07-23
CN104603779A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
JP6281491B2 (ja) テキストマイニング装置、テキストマイニング方法及びプログラム
TW202029079A (zh) 異常群體識別方法及裝置
JP6111543B2 (ja) 類似サブ時系列の抽出方法及び装置
JP5194818B2 (ja) データ分類方法およびデータ処理装置
JP2016009344A (ja) テストケース生成プログラム、テストケース生成方法、及びテストケース生成装置
JP6936014B2 (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
JP2017045080A (ja) 業務フロー仕様再生方法
JPWO2018021163A1 (ja) シグネチャ作成装置、シグネチャ作成方法、シグネチャ作成プログラムが記録された記録媒体、及び、ソフトウェア判定システム
CN109901978A (zh) 一种Hadoop日志无损压缩方法和***
Zhu et al. A cluster-based sequential feature selection algorithm
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
KR20210035987A (ko) 자카드 모델 기반의 문서 검색 장치 및 방법
US9286349B2 (en) Dynamic search system
US9292704B2 (en) Information processing device for detecting an illegal stored document, illegal stored document detection method and recording medium
EP4113313A1 (en) Control method, information processing device, and control program
JP2022061689A (ja) 妥当性確認方法、妥当性確認システム及びプログラム
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
JP2017111553A (ja) 画像認識装置及び画像認識装置の動作方法
JP7327468B2 (ja) 文書解析装置及び文書解析方法
JP7156376B2 (ja) 観測事象判定装置、観測事象判定方法、及びプログラム
US11960541B2 (en) Name data matching apparatus, and name data matching method and program
KR102289411B1 (ko) 가중치 기반의 피처 벡터 생성 장치 및 방법
JP2018151913A (ja) 情報処理システム、情報処理方法、及びプログラム
WO2021111606A1 (ja) グラフ探索装置、グラフ探索方法、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13832647

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014532977

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14419705

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13832647

Country of ref document: EP

Kind code of ref document: A1