WO2016016974A1 - データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム - Google Patents

データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム Download PDF

Info

Publication number
WO2016016974A1
WO2016016974A1 PCT/JP2014/070119 JP2014070119W WO2016016974A1 WO 2016016974 A1 WO2016016974 A1 WO 2016016974A1 JP 2014070119 W JP2014070119 W JP 2014070119W WO 2016016974 A1 WO2016016974 A1 WO 2016016974A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
unit
document
score
predetermined case
Prior art date
Application number
PCT/JP2014/070119
Other languages
English (en)
French (fr)
Inventor
守本 正宏
秀樹 武田
和巳 蓮子
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to JP2016537661A priority Critical patent/JP6441930B2/ja
Priority to PCT/JP2014/070119 priority patent/WO2016016974A1/ja
Priority to TW104124167A priority patent/TW201610727A/zh
Publication of WO2016016974A1 publication Critical patent/WO2016016974A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a data analysis apparatus and the like that can extract data related to a predetermined case from newly acquired data.
  • Patent Document 1 discloses a document separation system that analyzes digitized document information collected for submission as evidence in a lawsuit and separates the information so that it can be easily used in a lawsuit. .
  • Patent Document 2 discloses a display method for detecting information file leakage useful for information leakage prevention measures by grasping the behavior of an information network user.
  • Patent Document 1 cannot detect a sign of fraudulent behavior as described above from e-mail distributed daily on a network. Since the system analyzes related documents to be submitted in a lawsuit filed after the fraud has occurred, it assumes that all documents subject to the analysis exist in advance. is there.
  • a user behavior is recorded as in the display method disclosed in Patent Document 2, and a predetermined behavior (behavior defined as “fraud”) regarded as a problem is used. If it is discovered, there is a way to alert the administrator.
  • a predetermined behavior behavior defined as “fraud”
  • a warning requirement is set in order to detect the fraud in advance. The more you loosen, the more frequently you will be alerted and the less effective monitoring will be.
  • Patent Document 1 or 2 is only specific to a specific fraud and is not general-purpose, and is not applicable to cases other than specific fraud.
  • the present invention has been made in view of the above problems, and its purpose is to extract data related to a predetermined case by analyzing current data based on the result of analyzing past data. Providing a simple data analysis device.
  • a data analysis apparatus is a data analysis apparatus capable of extracting data related to a predetermined case from newly acquired data, and is related to the predetermined case.
  • the threshold that is the basis of the determination for the undecided data is related to the predetermined case.
  • the threshold value specifying unit specified from the score calculated as an index indicating the strength of the relationship with the predetermined case, the threshold value specified by the threshold specifying unit, and the undetermined data are calculated.
  • a data setting unit that sets undecided data as data to be reported to the user according to the result of comparison with the score.
  • the threshold value specifying unit uses, as a threshold value, a score that can exceed the target value set for the relevance ratio among the scores calculated for the already determined data. Can be identified.
  • the data analysis device compares the score calculated for undecided data with the threshold specified by the threshold specifying unit, thereby determining whether the score exceeds the threshold.
  • the data setting unit can set undecided data as data to be reported to the user when it is determined by the excess determining unit that the data has been exceeded.
  • the data analysis apparatus is based on the element evaluation unit that evaluates the data elements included in the already-determined data based on predetermined criteria, and the results evaluated by the element evaluation unit, A score calculation unit that calculates a score may be further included.
  • the element evaluation unit determines a predetermined amount of transmission information indicating a dependency relationship between the data element and the result of the user's determination on the already determined data including the data element. As one of the criteria, the data element can be evaluated.
  • the data analysis apparatus provides a result of determination by a user whether or not the data set by the data setting unit is related to a predetermined case via the predetermined input unit.
  • a result acquisition unit acquired from the user is further provided, and the element evaluation unit can evaluate each data element included in the data set by the data setting unit based on the result acquired by the result acquisition unit.
  • the data analysis apparatus further includes a storage unit that associates the data element evaluated by the element evaluation unit with the result of evaluation of the data element and stores the data element in a predetermined storage unit. You may be prepared.
  • the undecided data includes unique data elements that can respectively identify a plurality of persons or organizations
  • the data setting unit includes unique data elements from the undecided data, respectively. Extracting and visualizing the strength of connection between a plurality of persons or organizations by estimating the correspondence between the first unique data element and a second unique data element different from the first unique data element Can do.
  • the data analysis apparatus provides a result of a determination made by a user whether or not data extracted from a predetermined data group is related to a predetermined case via the predetermined input unit.
  • a determination data acquisition unit that acquires the determination data by acquiring it from the user may be further provided.
  • the data analysis apparatus may further include a relationship adding unit that adds relationship information indicating that the data is related to a predetermined case to the data set by the data setting unit. .
  • the data may be a document digitized so that it can be processed by a computer, and the data element may be a keyword included in the document.
  • the data may be voice that has been digitized so as to be processed by a computer, and the data element may be partial voice included in the voice.
  • a control method for a data analysis apparatus is a control method for a data analysis apparatus capable of extracting data related to a predetermined case from newly acquired data. Whether or not the threshold value that is the basis of the judgment for the undecided data is related to the predetermined case when new undecided data that has not been determined whether or not it is related to the predetermined case
  • the threshold specified in the threshold specifying step For the already determined data determined by the user from the score respectively calculated as an index indicating the strength of the relationship with the predetermined case, the threshold specified in the threshold specifying step, and the undetermined data
  • a control program for a data analysis apparatus is a control program for a data analysis apparatus capable of extracting data related to a predetermined case from newly acquired data.
  • a threshold that is the basis of the determination for the undetermined data is related to the predetermined case.
  • Threshold determination function that specifies from the score respectively calculated as an index indicating the strength of the relationship with the predetermined case, and the threshold determination function The data for setting the undetermined data as data to be reported to the user according to the result of comparing the threshold and the score calculated for the undetermined data To realize the data setting function.
  • a data analysis device newly acquire undecided data that has not been determined whether or not it relates to a predetermined case. If the judgment data for which the user has determined whether or not the threshold that is the basis of the judgment for the undecided data is related to the predetermined case, the strength of the relationship with the predetermined case The undetermined data is set as data to be reported to the user according to the result of comparing the threshold and the score calculated for the undetermined data.
  • the data analysis apparatus and the like have an effect that data related to a predetermined case can be extracted by analyzing current data based on a result of analyzing past data.
  • the document analysis system (data analysis apparatus) 100 is an information processing system that can extract a document related to a predetermined case from a newly acquired document by analyzing a digital document.
  • the document analysis system 100 only needs to include a computer that can execute the processing described below, and can be realized using, for example, a server device, a personal computer, a mainframe, a workstation, or other electronic devices.
  • FIG. 2 is a schematic diagram schematically showing an example of the document analysis system 100.
  • the reviewer user determines whether or not the document is related to a predetermined case, and inputs the determined result (review result 5 a) to the document analysis system 100.
  • FIG. 2 shows an example in which the document analysis system 100 takes in an electronic mail distributed on a network every day and analyzes a document included in the electronic mail.
  • the “predetermined case” includes an incident that occurs when a general user who uses the document in the organization takes an illegal act and / or a preliminary act thereof, for example, an incident in which confidential information is leaked to the outside.
  • the predetermined case is not limited to the above example, and may include a wide range of cases that can generate related data (eg, document, audio, video, etc.).
  • the document analysis system 100 evaluates keywords (data elements) included in the document (determined data) based on the review result 5a based on a predetermined standard (for example, the amount of transmitted information). Then, the document analysis system 100 calculates, for each of the documents, a score indicating the strength of the relationship with the predetermined case based on the evaluated result, and determines the relevance rate (relevant to the predetermined case). The minimum score that can exceed the target value (target relevance ratio) set for the ratio of the recorded document to the document group including a predetermined number of documents is specified as the relevance threshold.
  • a predetermined standard for example, the amount of transmitted information
  • the document analysis system 100 sets the matching threshold based on the review result 5a given by the reviewer (the result of human judgment on past data), and the score exceeding the matching threshold is set.
  • the list result 5b (information that can be listed and presented to the reviewer) can be returned to the reviewer.
  • the document analysis system 100 can extract data related to a predetermined case by analyzing current data based on the result of analyzing past data. Thereby, the document analysis system 100 can detect, for example, a sign that an illegal act occurs.
  • FIG. 1 is a block diagram showing a main configuration of the document analysis system 100.
  • the document analysis system 100 includes a control unit 10 (a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a score specification unit 15, an excess determination unit 16, a data setting. Unit 17, relationship giving unit 18, storage unit 19), receiving unit 20, input unit 40, display unit 50, and storage unit 30.
  • a control unit 10 a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a score specification unit 15, an excess determination unit 16, a data setting.
  • Unit 17, relationship giving unit 18, storage unit 19 receiving unit 20, input unit 40, display unit 50, and storage unit 30.
  • the control unit 10 comprehensively controls various functions of the document analysis system 100.
  • the control unit 10 includes a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a score specification unit 15, an excess determination unit 16, a data setting unit 17, a relationship assignment unit 18, and a storage unit 19. Including.
  • the data extraction unit (pre-determined data acquisition unit) 11 extracts a predetermined number of documents 1a to be determined by the reviewer from a predetermined document group (data group) as to whether or not it is related to a predetermined case.
  • the document group may be data distributed on the network, or may be data stored in advance in the storage unit 30.
  • the data extraction unit 11 can present the document 1a to the reviewer by outputting the extracted document 1a to the display unit 50.
  • the reviewer can give, for example, the review result 5a indicating that the document 1a is “related to the predetermined case” or “not related to the predetermined case” to the document 1a.
  • the data extraction unit 11 outputs the document 1 a to the result acquisition unit 12 and the element evaluation unit 13.
  • the result acquisition unit (determined data acquisition unit) 12 determines whether the reviewer determines whether or not the document 1a is related to a predetermined case (review result 5a). Is obtained via the input unit 40, and the review result 5a is output to the element evaluation unit 13 and the score identification unit 15.
  • the element evaluation unit 13 evaluates each keyword (data element) included in the document 1a determined by the reviewer whether or not it is related to a predetermined case based on a predetermined criterion.
  • the element evaluation unit 13 uses, for example, the amount of transmitted information representing the dependency relationship between the keyword and the result (review result 5a) determined by the reviewer for the document 1a including the keyword as one of the predetermined criteria.
  • the keyword can be evaluated by calculating the weight of the keyword. Thereby, since the document analysis system 100 can accurately evaluate the keyword, it is possible to accurately extract data related to a predetermined case.
  • the element evaluation unit 13 may evaluate the keyword by assigning a predetermined weight to the keyword. In this case, for example, the element evaluation unit 13 can assign a weight of “1” to the keyword.
  • the “keyword” is a meaningful character string (morpheme). For example, a sentence “classify a document” includes keywords “document” and “classification”.
  • the element evaluation unit 13 outputs the keyword information 5 c that is a pair of the keyword and the weight of the keyword to the score calculation unit 14 and the storage unit 19.
  • the score calculation unit 14 Based on the result (keyword information 5c) evaluated by the element evaluation unit 13, the score calculation unit 14 calculates a score 5d indicating the strength of the relationship with the predetermined case for each document 1a, and the score 5d is calculated. The result is output to the score specifying unit 15.
  • the score calculation unit 14 calculates a score 5e for the document 1b, The score 5e is output to the excess determination unit 16.
  • the score calculation unit 14 can calculate the score of the document by adding the weights of keywords appearing in the document. For example, as a result of the text “adjust price” included in the document, the keywords “price” and “adjustment” are evaluated by the element evaluation unit 13, respectively. As a result, “1.2” and “2. When the weight “2” is set, the score calculation unit 14 can calculate the score of the document as “3.4” (1.2 + 2.2).
  • the score calculation unit 14 generates a keyword vector indicating whether or not a predetermined keyword is included in the document.
  • the keyword vector is a vector indicating whether or not a predetermined keyword associated with the element is included in the document when each element of the keyword vector takes a value of “0” or “1”. It is.
  • the score calculation unit 14 changes the element corresponding to the “price” of the keyword vector from “0” to “1”. Then, the score calculation unit 14 calculates the inner product of the keyword vector (vertical vector) and the weight vector (vertical vector using the weight for each keyword as an element) as in the following formula, thereby calculating the score of the document. S is calculated.
  • s represents a keyword vector
  • W represents a weight vector
  • T represents transposing a matrix / vector (replaces rows and columns).
  • the score calculation unit 14 may calculate the score S according to the following formula.
  • m j represents the appearance frequency of the j-th keyword
  • w i represents the weight of the i-th keyword.
  • the score calculation unit 14 determines that the first keyword included in the document 1a and / or the document 1b is evaluated (the weight of the first keyword) and the second keyword included in the document 1a and / or the document 1b. Based on the evaluated result (weight of the second keyword), the score 5d and / or the score 5e may be calculated. The score calculation unit 14 may calculate the scores 5d and / or 5e for each sentence included in the document 1a and / or the document 1b (both will be described in detail later).
  • the score specifying unit (threshold specifying unit) 15 is configured to set a target value (target matching) indicating a ratio of the document 1a determined to be related to a predetermined case to a document group including a predetermined number of documents.
  • the minimum score that can exceed (rate) is identified as the fitness threshold 6.
  • the score specifying unit 15 sorts the scores 5d in descending order.
  • the score specifying unit 15 scans the review result 5a given to the document 1a in order from the document 1a having the maximum score 5d (score rank is first), and “relevant to a predetermined case”.
  • the ratio of the number of documents to which the review result 5a is given to the number of documents that have been scanned at the present time is sequentially calculated.
  • the score specifying unit 15 calculates the relevance rate as 0.9 (18/20).
  • the score specifying unit 15 calculates the precision as 0.875 (35/40).
  • the score specifying unit 15 calculates all the relevance ratios for the document 1a and specifies the minimum score that can exceed the target relevance ratio. Specifically, the score specifying unit 15 scans the relevance ratio calculated for the document 1a in order from the document 1a having the minimum score 5d (score rank is 100th), and the relevance ratio is the target. When the accuracy rate is exceeded, the score corresponding to the accuracy rate is output to the excess determination unit 16 and the storage unit 19 as the minimum score (matching threshold 6) that can maintain the target accuracy rate.
  • the excess determination unit 16 determines that the score 5e calculated for the document 1b that has not yet been determined whether or not it is related to a predetermined case It is determined whether or not the threshold value 6 is exceeded, and the determined result (determination result 5f) is output to the data setting unit 17.
  • the data setting unit 17 sets the document 1b as a document to be reported to the reviewer when it is determined by the excess determination unit 16 that the number has been exceeded.
  • the data setting unit 17 sets the document 1b as a document to be reported to the reviewer, for example, by setting a flag for the document 1b that has exceeded the conformance threshold 6.
  • the data setting unit 17 outputs setting information 5g that can specify the set document to the relationship adding unit 18.
  • the relationship assignment unit 18 assigns relationship information (review result by the document analysis system 100) indicating that the document 1b is related to a predetermined case to the document 1b set by the data setting unit 17.
  • the relationship assigning unit (display processing unit) 18 outputs the list result 5b to the display unit 50, whereby the document 1b set by the data setting unit 17 (the document determined by the document analysis system 100 to be related to a predetermined case). ) Can be displayed as a list.
  • the storage unit 19 associates the keyword included in the keyword information 5 c with the result (weight) of evaluation of the keyword and stores it in the storage unit 30. To do.
  • the document analysis system 100 can extract data related to a predetermined case by analyzing the current data based on the result of analyzing past data (weight as a result of evaluating the keyword).
  • the storage unit 19 stores the adaptation threshold 6 in the storage unit 30.
  • the input unit (predetermined input unit) 40 receives an input (review result 5a) from a reviewer.
  • FIG. 1 shows a configuration in which the document analysis system 100 includes an input unit 40 (for example, a configuration in which a keyboard, a mouse, and the like are connected as the input unit 40).
  • the input unit 40 communicates with the document analysis system 100. It may be an external input device (for example, a client terminal) that is connected as possible.
  • the receiving unit 20 receives the document 1a and / or the document 1b from the network via a communication network according to a predetermined communication method. It is only necessary that the receiving unit 20 has an essential function for realizing communication with an external device (for example, a terminal used by a general user), and a communication line, a communication method, a communication medium, and the like are not limited.
  • the receiving unit 20 can be configured by a device such as an Ethernet (registered trademark) adapter, for example.
  • the receiving unit 20 can use a communication method or a communication medium such as IEEE 802.11 wireless communication or Bluetooth (registered trademark).
  • the display unit 50 is a device that displays an interface screen that can be operated by the reviewer.
  • FIG. 1 shows a configuration in which the document analysis system 100 includes a display unit 50 (for example, a configuration in which a liquid crystal display or the like is connected as the display unit 50).
  • the display unit 50 can communicate with the document analysis system 100. It may be an external display device (for example, a client terminal) connected to the.
  • the storage unit (predetermined storage unit) 30 is a storage device composed of an arbitrary recording medium such as a hard disk, an SSD (silicon state drive), a semiconductor memory, a DVD, and the like.
  • a threshold 6 and / or a control program capable of controlling the document analysis system 100 are stored.
  • 1 illustrates a configuration in which the document analysis system 100 includes the storage unit 30, the storage unit 30 may be an external storage device connected to be communicable with the document analysis system 100.
  • FIG. 3 is a table showing the minimum score corresponding to the number of documents to which the review result 5a is given.
  • (A) shows a case where the target precision is 100%, and (b) is the target precision. Is 90%.
  • example number in the table of FIG. 3 is “100”.
  • the document analysis system 100 sets the minimum score as a conformance threshold, and a document 1b having a score exceeding the conformance threshold is a document that can maintain a conformance rate of 100% (ie, related to a predetermined case). Document).
  • a document having a score exceeding the conformance threshold was extracted from 7994 documents to which the review result 5a was given by the reviewer.
  • the document is a special document prepared for verifying the performance of the document analysis system 100, and the document that is analyzed by the document analysis system 100 is only related to a predetermined case. Note that the document 1b has not yet been determined.
  • the accuracy (accuracy rate) of the document analysis system 100 increases as the number of documents determined by the reviewer as to whether or not it is related to a predetermined case, and the target conformity is increased. It can be seen that the rate is approaching (see the column “Fit rate” included in “Total sample” in the figure). As shown in FIG. 3B, the above tendency is also established when the target precision is lowered to 90%.
  • the document analysis system 100 can extract data related to a predetermined case by analyzing current data based on the result of analyzing past data. As a result, the document analysis system 100 can detect signs of increasing legal risks such as leaking confidential information to the outside or rigging other companies without manpower.
  • FIG. 4 is a flowchart illustrating an example of processing executed by the document analysis system 100.
  • parenthesized “ ⁇ step” represents each step included in the control method of the data analysis apparatus.
  • the data extraction unit 11 extracts a predetermined number of documents 1a to be judged by a reviewer from a predetermined document group as to whether or not they are related to a predetermined case (Step 1, hereinafter “Step” is “S”). Abbreviated).
  • the result acquisition unit 12 acquires a result (review result 5a) determined by the reviewer as to whether or not the document 1a is related to a predetermined case via the input unit 40 (S2).
  • the element evaluation unit 13 evaluates each keyword included in the document determined by the reviewer whether or not it is related to the predetermined case based on a predetermined criterion (S3).
  • the score calculation unit 14 calculates, for each document 1a, a score 5d indicating the strength of the relationship with the predetermined case based on the result (keyword information 5c) evaluated by the element evaluation unit 13 (S4). ),
  • the score specifying unit 15 sets a target value (target relevance ratio) set for the relevance ratio indicating the ratio of the document 1a determined to be related to the predetermined case to the document group including the predetermined number of documents. Is specified as the matching threshold 6 (S5, threshold specifying step).
  • the score calculation unit 14 calculates a score 5e indicating the strength of the relationship with the predetermined case for each document 1b based on the result (keyword information 5c) evaluated by the element evaluation unit 13 ( S6). Based on the result (keyword information 5c) evaluated by the element evaluation unit 13, the excess determination unit 16 has a score 5e calculated for the document 1b that has not yet been determined whether or not it is related to the predetermined case. It is determined whether or not the conformance threshold 6 has been exceeded (S7), and if it is determined that it has been exceeded (YES in S7), the data setting unit 17 is a document that should report the document 1b to the reviewer. (S8, data setting step). Finally, the relationship assigning unit 18 assigns relationship information (review result by the document analysis system 100) indicating that the document 1b is related to a predetermined case to the document 1b set by the data setting unit 17 ( S9).
  • control method may optionally include not only the above-described processing described with reference to FIG. 4 but also processing executed in each unit included in the control unit 10.
  • the score calculation unit 14 can calculate the score based on the result of evaluating the first keyword included in the document and the result of evaluating the second keyword included in the document. That is, when the first keyword appears in the document, the score calculation unit 14 takes into account the frequency with which the second keyword appears in the document (that is, the correlation between the first keyword and the second keyword or co-occurrence). The document score.
  • the score calculation unit 14 uses the correlation matrix (co-occurrence matrix) C that represents the correlation (co-occurrence) between the first keyword and the second keyword to express the following equation (instead of [Equation 1] above). Therefore, the score S can be calculated.
  • the correlation matrix C is optimized in advance using a learning data set including a predetermined number of predetermined documents. For example, when a keyword “price” appears in a document, a value obtained by normalizing the number of occurrences of other keywords with respect to the keyword between 0 and 1 (that is, a maximum likelihood estimate) is the correlation matrix C. Stored in each element (therefore, the sum for each column of the correlation matrix C is 1).
  • the document analysis system 100 can calculate the score in consideration of the correlation between keywords, it can extract data related to a predetermined case with higher accuracy.
  • the score calculation unit 14 can calculate a score for each sentence included in each document.
  • the score calculation unit 14 generates a keyword vector indicating whether or not a predetermined keyword is included in the sentence included in the document for each sentence.
  • the score calculation part 14 calculates a score for every document according to the following formula.
  • s s is a keyword vector corresponding to the sth sentence. It should be noted that co-occurrence is taken into account (correlation matrix C is used) in calculating the score according to [Equation 4].
  • TFnorm can be calculated as shown in [Formula 5] below.
  • TF i represents the appearance frequency (Term Frequency) of the i-th keyword
  • s ji represents the j-th element of the i-th keyword vector
  • c ji represents the correlation matrix C Of j rows and i columns.
  • the score calculation unit 14 calculates the following score for each document by calculating the following [Equation 6].
  • w i is the i-th element of the weight vector w.
  • the document analysis system 100 can calculate a score that correctly reflects the sentence meaning, it is possible to extract data related to a predetermined case with higher accuracy.
  • phase analysis The document analysis system 100 can estimate a phase to which a predetermined case belongs and calculate a score according to the phase.
  • the “phase” is an index indicating each stage where the predetermined case progresses (classified according to the progress of the predetermined case).
  • the predetermined case is a fraud case called “collusion with another company”, and the document analysis system 100 determines whether or not an email distributed daily on the network is related to the fraud case.
  • the above phases include the “preparation phase for collecting information on competitors with other companies”, the “relationship building phase for building relationships with customers / competitors”, “ It may include a “competition phase” that presents a price to the customer, gets feedback, and communicates with the competitor regarding that feedback.
  • time series information and generation process information are stored in the storage unit 30.
  • the “time-series information” is information indicating the temporal order of the phases, for example, a time development model indicating that the “competition phase” is reached from the “preparation phase” through the “relationship building phase”. It may be.
  • the “generation process information” is information that models a process in which each keyword is generated in a certain phase, and may be, for example, a multinomial distribution model defined for each phase.
  • the result acquisition unit 12 obtains the review result based on the result of the review by the reviewer as to whether or not the document 1a is related to the predetermined case and the result of determining which phase of the predetermined case the document 1a belongs to.
  • the element evaluation unit 13 evaluates the keywords included in the document 1a for each phase (determines the weight of each keyword).
  • the score calculation unit 14 estimates in which phase the document 1b is based on the generation process information. Specifically, the likelihood for each phase is calculated based on the generation process information, and the phase that maximizes the likelihood is estimated as the phase of the document 1b. And the score calculation part 14 calculates the score of the document 1b, respectively using the weight corresponding to the estimated phase. At this time, the score calculation unit 14 may use the correlation matrix C corresponding to the phase.
  • the relationship assigning unit 18 can display a list of the documents 1b set by the data setting unit 17 and can display the estimated phases. At this time, the relationship assigning unit 18 can predict the possibility and timing of the estimated phase developing to the next phase based on the time series information, and can display the predicted result together.
  • the document analysis system 100 can accurately calculate a score according to a phase, it can extract data related to a predetermined case with higher accuracy.
  • the element evaluation unit 13 can recalculate the weight based on the feedback newly obtained for the determination of the document analysis system 100.
  • the document analysis system 100 can obtain a weight suitable for the document to be analyzed, and can accurately calculate a score based on the weight, so that data related to a predetermined case can be extracted with higher accuracy. .
  • the data setting unit 17 extracts proper nouns appearing in the document 1b (for example, unique data elements such as a person's name, company name, place name, etc.), a predetermined proper noun (first unique data element) and others By estimating the correspondence with the proper noun (second unique data element), the strength of the connection between a plurality of persons or organizations can be visualized.
  • proper nouns appearing in the document 1b for example, unique data elements such as a person's name, company name, place name, etc.
  • first unique data element a predetermined proper noun
  • second unique data element the strength of the connection between a plurality of persons or organizations can be visualized.
  • data setting unit 17 Extracts “person A”, “person B”, and “person C” and puts an arrow on each of the node indicating “person B” and the node indicating “person C” from the node indicating “person A”.
  • the connected chart can be displayed.
  • the data setting unit 17 may display the chart so that the thickness of the arrow varies depending on the strength of the correlation between the person and the organization.
  • the document analysis system 100 can easily identify and display the correlation between the person and the organization based on the result of analyzing the document, so that the subject that causes the fraud case can be identified without omission.
  • the control block (particularly, the control unit 10) of the document analysis system 100 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or using a CPU (Central Processing Unit). It may be realized by software.
  • the document analysis system 100 includes a CPU that executes instructions of a control program that is software that implements each function, and a ROM (Read Only) in which the control program and various data are recorded so as to be readable by a computer (or CPU).
  • Memory or a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) that expands the control program, and the like.
  • the computer reads the control program from the recording medium and executes it, thereby achieving the object of the present invention.
  • a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the control program may be supplied to the computer via any transmission medium (such as a communication network or a broadcast wave) that can transmit the control program.
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the control program is embodied by electronic transmission.
  • the above control program is implemented using, for example, a script language such as Python, ActionScript, JavaScript (registered trademark), an object-oriented programming language such as Objective-C, Java (registered trademark), or a markup language such as HTML5. it can.
  • a script language such as Python, ActionScript, JavaScript (registered trademark), an object-oriented programming language such as Objective-C, Java (registered trademark), or a markup language such as HTML5.
  • an information processing apparatus for example, the document analysis system 100
  • server apparatus that includes each unit that implements the remaining functions different from the respective functions
  • An analysis system including the above also falls within the scope of the present invention.
  • the data analysis apparatus of the present invention can be implemented in the form of a voice analysis system that analyzes voice.
  • the voice analysis system (1) recognizes the voice, converts the content of the conversation included in the voice into characters (document data), and processes the document data in the same manner as the document analysis system 100.
  • the audio data may be processed as it is.
  • the speech analysis system converts speech data into document data by using an arbitrary speech recognition algorithm (for example, a recognition method using a hidden Markov model).
  • an arbitrary speech recognition algorithm for example, a recognition method using a hidden Markov model.
  • the voice analysis system can discriminate whether or not the voice data is related to a predetermined case by extracting partial voices included in the voice data. For example, when voice data “adjust price” is obtained, the voice analysis system extracts partial voices “price” and “adjustment” from the voice data, and based on the result of evaluating the partial voice, Relevance information can be given to unsorted audio data.
  • the speech analysis system can classify speech data using a time series data classification algorithm (for example, a hidden Markov model, a Kalman filter, a neural network, etc.). Thereby, the voice analysis system has the same effect as the document analysis system 100.
  • the data analysis apparatus of the present invention can also be implemented in the form of a video analysis system that analyzes video (moving images).
  • the video analysis system can identify a person included in the frame image by extracting a frame image included in the video data and using an arbitrary face recognition technique.
  • the video analysis system uses an arbitrary motion recognition technique (for example, a pattern matching technique may be applied), thereby enabling a partial video (all frame images included in the video to be included) included in the video data.
  • the motion (motion) of the person can be extracted from the video including a part of the video.
  • the video analysis system can sort the video data based on the person and / or motion.
  • the video analysis system has the same effect as the document analysis system 100.
  • the data analysis apparatus of the present invention can analyze digital data (documents, audio, video, etc.) in which information is developed in time series. Accordingly, the data analysis apparatus can extract data related to a predetermined case by analyzing current data based on the result of analyzing past data (document, audio, video, etc.) (for example, illegal It is possible to detect a sign that an action will occur.
  • the present invention can also be expressed as follows. That is, based on the result evaluated by the element evaluation unit and the element evaluation unit that evaluates each data element included in the data determined by the user as to whether or not it is related to the predetermined case based on a predetermined standard A score calculation unit for calculating a score indicating the strength of the relationship with a predetermined case for each data, and a ratio of data determined to be related to the predetermined case to a data group including a predetermined number of data It is related to a given case based on the score evaluation unit that specifies the minimum score that can exceed the target value set for the accuracy rate shown as the adaptation threshold and the result evaluated by the element evaluation unit Exceeded by the excess determination unit that determines whether the score calculated for data that has not been determined yet exceeds the conformance threshold and the excess determination unit If it is determined that the data analyzer and a data setting unit for setting the data to be reported the data to the user.
  • the present invention can also be expressed as follows. That is, as an index indicating the strength of the relationship with a predetermined case, out of the scores calculated for the already-determined data determined by the user whether or not it is related to the predetermined case, When new data is obtained for the score identification unit that identifies the minimum score that can exceed the set target value, and whether or not it is determined whether or not it is related to a predetermined case, When it is determined that the calculated score exceeds the minimum score specified by the score specifying unit, and the excess determining unit determines that the calculated score exceeds the minimum score, A data analysis device including a data setting unit that sets data to be reported to the computer.
  • the present invention can also be expressed as follows. That is, when undecided data that has not been determined whether or not it is related to a predetermined case is newly acquired, the basic information that is the basis of the determination for the undecided data is related to the predetermined case An information specifying unit that specifies whether or not the data has already been determined by the user, and a data setting unit that sets undetermined data as data to be reported to the user based on the basic information specified by the information specifying unit; Data analysis device equipped with.
  • the score calculation unit determines whether or not the score indicating the strength of the relationship with the predetermined case is related to the predetermined case based on the result evaluated by the element evaluation unit. Is calculated for each sentence included in each document determined by the user, and the excess determination unit has not yet been determined whether it is related to a predetermined case based on the result evaluated by the element evaluation unit It is possible to determine whether or not the score calculated for each sentence included in each exceeds a fitness threshold.
  • the present invention can be widely applied to personal computers, server devices, mainframes, workstations, and other electronic devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 所定の事案と関係するデータを抽出する。 本発明は、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、閾値特定部によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備える。

Description

データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
 本発明は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置等に関するものである。
 価格カルテルに加担した嫌疑により企業が独占禁止法(反トラスト法)違反を追求されたり、内部者の手引きにより機密情報が漏洩されたりなど、企業のリーガルリスクが増大している背景から、上記のような不正行為を検知するシステムが望まれている。例えば、特許文献1には、訴訟において証拠として提出するために収集された、デジタル化された文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムが開示されている。
 一方、コンピュータ利用に関するビヘイビア(どのファイルにアクセスしたかなど)を記録する技術も、従来から提案されている。例えば、特許文献2には、情報ネットワークの利用者の行動を把握して、情報漏洩の予防対策に役立つ情報ファイル漏洩を検知するための表示方法が開示されている。
特開2013-182338号公報 特開2007-304943号公報
 特許文献1に開示された従来のシステムは、例えば、ネットワーク上を日々流通する電子メールから上記のような不正行為の予兆を検知することはできない。当該システムは、当該不正行為が起こった後に提起された訴訟において提出すべき関連文書を分析するものであるため、当該分析の対象となるすべての文書が事前に存在することを前提としているからである。
 進行中の不正行為を捕捉する方法として、例えば、特許文献2に開示された表示方法のようにユーザのビヘイビアを記録し、問題視される所定のビヘイビア(「不正行為」として定義したビヘイビア)が発見された場合、管理者に警告を出す方法が考えられる。しかし、上記方法では、(a)上記所定のビヘイビアが発見された時点では、すでに不正行為が生じた後であることが多い、および(b)不正行為を事前に検知するために警告の要件を緩めるほど警告が頻発し、監視が実効的でなくなるという問題が生じる。
 また、特許文献1または2に開示された従来技術は、特定の不正行為に特化したものに過ぎず、汎用的でないため、特定の不正行為以外の事案に適用可能なものではない。
 本発明は、上記の問題点に鑑みてなされたものであり、その目的は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出可能なデータ分析装置等を提供することである。
 上記課題を解決するために、本発明の一態様に係るデータ分析装置は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、閾値特定部によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えている。
 また、本発明の一態様に係るデータ分析装置において、閾値特定部は、既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、閾値として特定することができる。
 また、本発明の一態様に係るデータ分析装置は、未判断データについて算出されたスコアと、閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、データ設定部は、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定することができる。
 また、本発明の一態様に係るデータ分析装置は、既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、スコアを算出するスコア算出部とをさらに備えてよい。
 また、本発明の一態様に係るデータ分析装置において、要素評価部は、データ要素と当該データ要素を含む既判断データに対してユーザが判断した結果との依存関係を表す伝達情報量を、所定の基準の1つとして、当該データ要素を評価することができる。
 また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータが所定の事案と関係するか否かが、ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、要素評価部は、結果取得部によって取得された結果に基づいて、データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することができる。
 また、本発明の一態様に係るデータ分析装置は、要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えてよい。
 また、本発明の一態様に係るデータ分析装置において、未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、データ設定部は、未判断データから固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
 また、本発明の一態様に係るデータ分析装置は、所定のデータ群から抽出したデータが、所定の事案と関係するか否かがユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、既判断データを取得する既判断データ取得部をさらに備えてよい。
 また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータに、当該データが所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えてよい。
 また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された文書であり、データ要素は、文書に含まれるキーワードであってよい。
 また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された音声であり、データ要素は、音声に含まれる部分音声であってよい。
 上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御方法は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、閾値特定ステップにおいて特定した閾値と、未判断データについて算出したスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含んでいる。
 上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御プログラムは、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、コンピュータに、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、閾値特定機能によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させる。
 本発明の一態様によれば、データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラムは、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定し、当該閾値と未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定する。
 上記構成により、上記データ分析装置等は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できるという効果を奏する。
本発明の実施の形態に係る文書分析システムの要部構成を示すブロック図である。 上記文書分析システムの一例を概略的に示す模式図である。 レビュー結果が付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。 上記文書分析システムが実行する処理の一例を示すフローチャートである。
 図1~図4に基づいて、本発明の実施の形態を説明する。
 〔文書分析システム100の概要〕
 文書分析システム(データ分析装置)100は、デジタル文書を分析することによって、新たに取得された文書から所定の事案と関係する文書を抽出可能な情報処理システムである。文書分析システム100は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。
 図2は、文書分析システム100の一例を概略的に示す模式図である。図2に示されるように、レビュア(ユーザ)は、文書が所定の事案と関係するか否かを判断し、当該判断した結果(レビュー結果5a)を文書分析システム100に入力する。
 ここで、上記「文書」は、コンピュータによって処理可能となるようにデジタル化されたデータであり、例えば、電子メール、技術文書、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、契約書、組織図、事業計画書などが広く含まれ得る。図2は、文書分析システム100がネットワーク上を日々流通する電子メールを取り込み、当該電子メールに含まれる文書を分析する例を示している。
 また、上記「所定の事案」は、組織において上記文書を利用する一般ユーザが、不正行為、および/またはその予備的行為をとることによって生じる事件を含み、例えば、機密情報が外部に漏えいする事件、他社と談合した事件、決算を粉飾した事件、取引企業に架空請求して代金を着服した事件、その他企業にとって好ましくない事件など、当該組織が発生を未然に防止したいと考える事案を広く含む。ただし、上記所定の事案は上記の例に限定されず、関連するデータ(例えば、文書、音声、映像など)を生成し得る事案一般を広く含んでよい。
 文書分析システム100は、上記レビュー結果5aに基づいて、上記文書(既判断データ)に含まれるキーワード(データ要素)を所定の基準(例えば、伝達情報量)に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、上記所定の事案との関係性の強さを示すスコアを上記文書についてそれぞれ算出し、適合率(上記所定の事案に関係すると判断された文書が、所定数の文書を含む文書群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定する。
 すなわち、文書分析システム100は、レビュアから与えられたレビュー結果5a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する文書のみを、上記所定の事案と関係する可能性が高い文書として、レビュアに一覧結果5b(当該文書を一覧してレビュアに提示可能な情報)を返すことができる。言い換えれば、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、不正行為が生じる予兆を検知できる。
 〔文書分析システム100の構成〕
 図1は、文書分析システム100の要部構成を示すブロック図である。図1に示されるように、文書分析システム100は、制御部10(データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、格納部19)、受信部20、入力部40、表示部50、および記憶部30を備えている。
 制御部10は、文書分析システム100が有する各種の機能を統括的に制御する。制御部10は、データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、および格納部19を含む。
 データ抽出部(既判断データ取得部)11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群(データ群)から所定数だけ抽出する。当該文書群は、ネットワーク上を流通するデータであってもよいし、記憶部30にあらかじめ格納されたデータであってもよい。
 データ抽出部11は、抽出した文書1aを表示部50に出力することによって、当該文書1aをレビュアに提示することができる。これにより、レビュアは、例えば、文書1aが「所定の事案と関係する」または「所定の事案と関係しない」を示すレビュー結果5aを当該文書1aにそれぞれ付与できる。また、データ抽出部11は、当該文書1aを結果取得部12および要素評価部13に出力する。
 結果取得部(既判断データ取得部)12は、文書1aがデータ抽出部11から入力された場合、当該文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得し、当該レビュー結果5aを要素評価部13およびスコア特定部15に出力する。
 要素評価部13は、所定の事案と関係するか否かがレビュアによって判断された文書1aに含まれるキーワード(データ要素)を、所定の基準に基づいてそれぞれ評価する。要素評価部13は、例えば、上記キーワードと当該キーワードを含む文書1aに対してレビュアが判断した結果(レビュー結果5a)との依存関係を表す伝達情報量を、上記所定の基準の1つとして当該キーワードの重みを算出することによって、当該キーワードを評価することができる。これにより、文書分析システム100は、キーワードを正確に評価することができるため、所定の事案と関係するデータを正確に抽出できる。
 または、要素評価部13は、上記キーワードに所定の重みを割り当てることにより、当該キーワードを評価してもよい。この場合、要素評価部13は、例えば、上記キーワードに「1」の重みを割り当てることができる。
 なお、上記「キーワード」は、意味を有する文字列(形態素)である。例えば、「文書を分別する」という文章には、「文書」および「分別」というキーワードが含まれる。要素評価部13は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報5cを、スコア算出部14および格納部19に出力する。
 スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し、当該スコア5dをスコア特定部15に出力する。また、受信部20から文書1b(所定の事案と関係するか否かが未だ判断されていないデータ)が新たに取得された場合、スコア算出部14は、当該文書1bについてスコア5eを算出し、当該スコア5eを超過判定部16に出力する。
 スコア算出部14は、文書に出現するキーワードの重みを合算することによって、当該文書のスコアを計算できる。例えば、文書に「価格を調整する」という文章が含まれていることにより、「価格」および「調整」というキーワードが要素評価部13によってそれぞれ評価された結果、「1.2」および「2.2」という重みが設定された場合、スコア算出部14は、当該文書のスコアを「3.4」(1.2+2.2)と計算できる。
 具体的には、スコア算出部14は、所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。例えば、上記文書に「価格」というキーワードが含まれている場合、スコア算出部14は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、スコア算出部14は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記文書のスコアSを計算する。
Figure JPOXMLDOC01-appb-M000001
 ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
 または、スコア算出部14は、以下の式にしたがってスコアSを算出してもよい。
Figure JPOXMLDOC01-appb-M000002
 ここで、mは、j番目のキーワードの出現頻度を表し、wは、i番目のキーワードの重みを表す。なお、スコア算出部14は、文書1aおよび/または文書1bに含まれる第1キーワードが評価された結果(第1キーワードの重み)と、当該文書1aおよび/または文書1bに含まれる第2キーワードが評価された結果(第2キーワードの重み)とに基づいて、スコア5dおよび/またはスコア5eを算出してよい。また、スコア算出部14は、文書1aおよび/または文書1bにそれぞれ含まれるセンテンスごとに、スコア5dおよび/または5eを算出してよい(いずれも後で詳細に説明する)。
 スコア特定部(閾値特定部)15は、所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する。具体的には、スコア算出部14からスコア5dが入力された場合、スコア特定部15は、当該スコア5dを降順に並べ替える。次に、スコア特定部15は、最大のスコア5d(スコアのランクが1位)を有する文書1aから順番に当該文書1aに付与されたレビュー結果5aを走査し、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が、現時点において走査が終了した文書の数に占める割合(適合率)を、順次計算する。
 例えば、レビュー結果5aが付与された文書1aの数が100である場合に、スコアのランクが1位から20位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が18であった場合、スコア特定部15は、適合率を0.9(18/20)と計算する。または、スコアのランクが1位から40位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が35であった場合、スコア特定部15は、適合率を0.875(35/40)と計算する。
 スコア特定部15は、文書1aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、スコア特定部15は、最小のスコア5d(スコアのランクが100位)を有する文書1aから順番に当該文書1aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値6)として超過判定部16および格納部19に出力する。
 超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し、当該判定した結果(判定結果5f)をデータ設定部17に出力する。
 データ設定部17は、超過判定部16によって超過していると判定された場合、当該文書1bをレビュアに報告すべき文書として設定する。データ設定部17は、例えば、上記適合しきい値6を超過した文書1bにフラグを立てることによって、当該文書1bをレビュアに報告すべき文書に設定する。データ設定部17は、設定した文書を特定可能な設定情報5gを関係付与部18に出力する。
 関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する。関係付与部(表示処理部)18は、一覧結果5bを表示部50に出力することにより、データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)を一覧可能に表示できる。
 格納部19は、要素評価部13からキーワード情報5cが入力された場合、当該キーワード情報5cに含まれるキーワードと、当該キーワードが評価された結果(重み)とを対応付けて、記憶部30に格納する。これにより、文書分析システム100は、過去のデータを分析した結果(キーワードが評価された結果としての重み)に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。また、格納部19は、スコア特定部15から適合しきい値6が入力された場合、当該適合しきい値6を記憶部30に格納する。
 入力部(所定の入力部)40は、レビュアから入力(レビュー結果5a)を受け付ける。図1は、文書分析システム100が入力部40を備えた構成(例えば、入力部40としてキーボード、マウスなどが接続された構成)を示すが、当該入力部40は、当該文書分析システム100と通信可能に接続された外部の入力装置(例えば、クライアント端末)であってもよい。
 受信部20は、所定の通信方式にしたがう通信網を介して、ネットワークから文書1aおよび/または文書1bを受信する。外部の機器(例えば、一般ユーザが使用する端末)との通信を実現する本質的な機能が受信部20に備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部20は、例えばイーサネット(登録商標)アダプタなどの機器で構成できる。また、受信部20は、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。
 表示部50は、レビュアが操作可能なインターフェース画面を表示するデバイスである。図1は、文書分析システム100が表示部50を備えた構成(例えば、表示部50として液晶ディスプレイなどが接続された構成)を示すが、当該表示部50は、当該文書分析システム100と通信可能に接続された外部の表示装置(例えば、クライアント端末)であってもよい。
 記憶部(所定の記憶部)30は、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される記憶機器であり、文書1a、キーワード情報5c、適合しきい値6、および/または文書分析システム100を制御可能な制御プログラムを記憶する。なお、図1は、文書分析システム100が記憶部30を内蔵する構成を示すが、当該記憶部30は、当該文書分析システム100と通信可能に接続された外部の記憶装置であってもよい。
 〔文書分析システム100の性能検証〕
 図3は、レビュー結果5aが付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。
 図3の(a)に例示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が100である場合(同図の表において「サンプル数」が「100」である行を参照)、目標適合率100%を達成可能な最下位のランクは11位であり、当該ランクに対応するスコア(適合率100%を達成可能な最小スコア)は、0.110である。文書分析システム100は、上記最小スコアを適合しきい値として設定し、当該適合しきい値を超過するスコアを有する文書1bは、適合率100%を維持可能な文書(すなわち、所定の事案と関係する文書)とみなす。
 上記適合しきい値の妥当性を検証するために、レビュアによってレビュー結果5aが付与された7994の文書から、上記適合しきい値を超過するスコアを有する文書を取り出した。なお、上記文書は、文書分析システム100の性能を検証するために用意された特別な文書であり、当該文書分析システム100が分析の目的とする文書は、あくまでも、所定の事案と関係するか否かが未だ判断されていない文書1bであることに注意する。
 上記の結果、766の文書が上記適合しきい値を超過し、このうちの605の文書に「所定の事案と関係する」というレビュー結果5aが付与されていた。すなわち、わずか100の文書に対してレビュー結果5aを与えさえすれば、文書分析システム100は、約8000の文書に対して79%(605/766=0.790)の精度(適合率)で所定の事案と関係する文書を抽出できることが定量的に証明された。
 図3の(a)に示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が増えるほど、文書分析システム100の精度(適合率)が上昇し、目標適合率に近づくことが分かる(同図の「全体サンプル」に含まれる「適合率」の列を参照)。図3の(b)に示されるように、目標適合率を90%に下げた場合も、上記傾向は成立する。
 以上のように、文書分析システム100は、全体のサンプル数を確定できない任意の文書の一部に、レビュアによって判断された結果(レビュー結果5a)を与えさえすれば、残りの大部分の文書を高い精度で分別できる。すなわち、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、機密情報を外部に漏えいさせたり、他社に談合を持ちかけたりするなどの法的リスクが高まる予兆を、人手をかけることなく検知できる。
 〔文書分析システム100が実行する処理〕
 図4は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「~ステップ」は、データ分析装置の制御方法に含まれる各ステップを表す。
 まず、データ抽出部11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群から所定数だけ抽出する(ステップ1、以下「ステップ」を「S」と略記する)。次に、結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得する(S2)。次に、要素評価部13は、上記所定の事案と関係するか否かがレビュアによって判断された文書に含まれるキーワードを、所定の基準に基づいてそれぞれ評価する(S3)。そして、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し(S4)、スコア特定部15は、上記所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する(S5、閾値特定ステップ)。
 次に、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5eを文書1bについてそれぞれ算出する(S6)。超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し(S7)、超過していると判定される場合(S7においてYES)、データ設定部17は、当該文書1bをレビュアに報告すべき文書として設定する(S8、データ設定ステップ)。最後に、関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する(S9)。
 なお、上記制御方法は、図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
 〔共起に基づくスコア計算〕
 前述したように、スコア算出部14は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部14は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
 この場合、スコア算出部14は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
Figure JPOXMLDOC01-appb-M000003
 なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0~1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
 以上のように、文書分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
 〔センテンスごとのスコア計算〕
 前述したように、スコア算出部14は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部14は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
Figure JPOXMLDOC01-appb-M000004
 ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
 TFnormは、下記の〔数5〕に示されるように計算できる。
Figure JPOXMLDOC01-appb-M000005
 ここで、上記〔数5〕において、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
 上記〔数4〕および〔数5〕をまとめると、スコア算出部14は、以下の〔数6〕を計算することによって文書ごとに上記スコアを算出する。
Figure JPOXMLDOC01-appb-M000006
 ここで、上記〔数6〕において、wは上記重みベクトルwのi番目の要素である。
 以上のように、文書分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
 〔フェーズ分析〕
 文書分析システム100は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
 例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分析システム100は、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
 また、時系列情報および生成過程情報が記憶部30に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
 結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書1aが上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果5aとして取得し、要素評価部13は、文書1aに含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
 スコア算出部14は、文書1bに対してスコア5eを算出する場合、上記生成過程情報に基づいて当該文書1bがいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書1bのフェーズとして推定する。そして、スコア算出部14は、推定したフェーズに対応する重みを用いて、文書1bのスコアをそれぞれ算出する。このとき、スコア算出部14は、当該フェーズに対応する相関行列Cを用いてもよい。
 関係付与部18は、データ設定部17によって設定された文書1bを一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部18は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
 以上のように、文書分析システム100は、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
 〔重みの再計算〕
 データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)が、関係付与部18によって一覧可能に表示された後、結果取得部12は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム100によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部13は、上記フィードバックに基づいて各キーワードを再評価できる。
 言い換えれば、要素評価部13は、文書分析システム100の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分析システム100は、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
 〔人物・組織相関の表示〕
 データ設定部17は、文書1bに出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
 例えば、人物Aから人物Bに送信された電子メールを文書1bとして分析した結果、当該文書1bに「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部17は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部17は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
 以上のように、文書分析システム100は、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
 〔サーバ装置が機能の一部または全部を提供する構成〕
 以上では、データを分析する機能を提供可能な制御プログラム(データ分析装置の制御プログラム)が、主に文書分析システム100(データ分析装置)において実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム100(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明のデータ分析装置は、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム100が機能を提供する場合に、当該文書分析システム100が奏する効果と同じ効果を奏する。
 〔ソフトウェアによる実現例〕
 文書分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分析システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
 〔文書以外のデータに適用する例〕
 本発明のデータ分析装置を実施する一形態として、文書を分析する文書分析システム100を説明したが、当該データ分析装置は、文書以外のデータも分析可能である。
 例えば、本発明のデータ分析装置は、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分析システム100と同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
 上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分析システム100が実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
 上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
 または、本発明のデータ分析装置は、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分析システム100と同様の効果を奏する。
 すなわち、本発明のデータ分析装置は、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記データ分析装置は、過去のデータ(文書、音声、映像など)を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる(例えば、不正行為が生じる予兆を検知できる)という効果を奏する。
 〔付記事項〕
 本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
 例えば、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かがユーザによって判断されたデータに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、データについてそれぞれ算出するスコア算出部と、所定の事案に関係すると判断されたデータが、所定数のデータを含むデータ群に占める割合を示す適合率に対して設定された目標値を超過可能な最小のスコアを、適合しきい値として特定するスコア特定部と、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていないデータについて算出されたスコアが、適合しきい値を超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、当該データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
 または、本発明は以下のようにも表現できる。すなわち、所定の事案との関係性の強さを示す指標として、当該所定の事案と関係するか否かがユーザによって判断された既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能な最小のスコアを特定するスコア特定部と、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、当該未判断データについて算出されたスコアが、スコア特定部によって特定された最小のスコアを超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
 または、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる基礎情報を、当該所定の事案と関係するか否かがユーザによって判断された既判断データから特定する情報特定部と、情報特定部によって特定された基礎情報に基づいて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
 また、上記データ分析装置において、スコア算出部は、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、当該所定の事案と関係するか否かがユーザによって判断された文書にそれぞれ含まれるセンテンスごとに算出し、超過判定部は、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていない文書にそれぞれ含まれるセンテンスについて算出されたスコアが、適合しきい値を超過しているか否かを判定することができる。
 本発明は、パーソナルコンピュータ、サーバ装置、メインフレーム、ワークステーション、その他の電子機器に広く適用することができる。
 1a:文書(既判断データ)、1b:文書(未判断データ)、5a:レビュー結果(ユーザによって判断された結果)、5d:スコア、5e:スコア、6:適合しきい値、11:データ抽出部(既判断データ取得部)、12:結果取得部(既判断データ取得部)、13:要素評価部、14:スコア算出部、15:スコア特定部(閾値特定部)、16:超過判定部、17:データ設定部、18:関係付与部、19:格納部、30:記憶部(所定の記憶部)、40:入力部(所定の入力部)、100:文書分析システム(データ分析装置)

Claims (14)

  1.  新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、
     前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、
     前記閾値特定部によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
  2.  前記閾値特定部は、前記既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、前記閾値として特定することを特徴とする請求項1に記載のデータ分析装置。
  3.  前記未判断データについて算出されたスコアと、前記閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、
     前記データ設定部は、前記超過判定部によって超過していると判定された場合、前記未判断データをユーザに報告すべきデータとして設定することを特徴とする請求項1または2に記載のデータ分析装置。
  4.  前記既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、
     前記要素評価部によって評価された結果に基づいて、前記スコアを算出するスコア算出部とをさらに備えたことを特徴とする請求項1から3のいずれか一項に記載のデータ分析装置。
  5.  前記要素評価部は、前記データ要素と当該データ要素を含む既判断データに対して前記ユーザが判断した結果との依存関係を表す伝達情報量を、前記所定の基準の1つとして、当該データ要素を評価することを特徴とする請求項4に記載のデータ分析装置。
  6.  前記データ設定部によって設定されたデータが前記所定の事案と関係するか否かが、前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、
     前記要素評価部は、前記結果取得部によって取得された結果に基づいて、前記データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することを特徴とする請求項4または5に記載のデータ分析装置。
  7.  前記要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えたことを特徴とする請求項4から6のいずれか一項に記載のデータ分析装置。
  8.  前記未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、
     前記データ設定部は、前記未判断データから前記固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、前記複数の人物または組織の間の繋がりの強さを可視化することを特徴とする請求項1から7のいずれか一項に記載のデータ分析装置。
  9.  所定のデータ群から抽出したデータが、前記所定の事案と関係するか否かが前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、前記既判断データを取得する既判断データ取得部をさらに備えたことを特徴とする請求項1から8のいずれか一項に記載のデータ分析装置。
  10.  前記データ設定部によって設定されたデータに、当該データが前記所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えたことを特徴とする請求項1から9のいずれか一項に記載のデータ分析装置。
  11.  前記データは、コンピュータで処理可能となるようにデジタル化された文書であり、
     前記データ要素は、前記文書に含まれるキーワードであることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。
  12.  前記データは、コンピュータで処理可能となるようにデジタル化された音声であり、
     前記データ要素は、前記音声に含まれる部分音声であることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。
  13.  新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、
     前記所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、
     前記閾値特定ステップにおいて特定した閾値と、前記未判断データについて算出したスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含むデータ分析装置の制御方法。
  14.  新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、
     コンピュータに、
     前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、
     前記閾値特定機能によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させるデータ分析装置の制御プログラム。
PCT/JP2014/070119 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム WO2016016974A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016537661A JP6441930B2 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
PCT/JP2014/070119 WO2016016974A1 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
TW104124167A TW201610727A (zh) 2014-07-30 2015-07-24 資料分析裝置、資料分析裝置的控制方法、以及資料分析裝置的控制程式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/070119 WO2016016974A1 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム

Publications (1)

Publication Number Publication Date
WO2016016974A1 true WO2016016974A1 (ja) 2016-02-04

Family

ID=55216917

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/070119 WO2016016974A1 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム

Country Status (3)

Country Link
JP (1) JP6441930B2 (ja)
TW (1) TW201610727A (ja)
WO (1) WO2016016974A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2010055566A (ja) * 2008-08-29 2010-03-11 Toshiba Corp クライアント/サーバシステムとクライアント/サーバシステムの監査方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2010055566A (ja) * 2008-08-29 2010-03-11 Toshiba Corp クライアント/サーバシステムとクライアント/サーバシステムの監査方法

Also Published As

Publication number Publication date
JPWO2016016974A1 (ja) 2017-06-01
TW201610727A (zh) 2016-03-16
JP6441930B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
US9495445B2 (en) Document sorting system, document sorting method, and document sorting program
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP6144427B2 (ja) データ分析システムおよびデータ分析方法並びにデータ分析プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5905651B1 (ja) 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
CN112948823A (zh) 一种数据泄露风险评估方法
TWI556128B (zh) Forensic system, forensic method and evidence collection program
US20150339786A1 (en) Forensic system, forensic method, and forensic program
CN113570259A (zh) 基于维度模型的数据评估方法和计算机程序产品
JP2015149085A (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP6441930B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2016111007A1 (ja) データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
CN113014591A (zh) 假冒公众号的检测方法和装置、电子设备、及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14898576

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016537661

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14898576

Country of ref document: EP

Kind code of ref document: A1