WO2020059432A1 - 選定装置および選定方法 - Google Patents

選定装置および選定方法 Download PDF

Info

Publication number
WO2020059432A1
WO2020059432A1 PCT/JP2019/033289 JP2019033289W WO2020059432A1 WO 2020059432 A1 WO2020059432 A1 WO 2020059432A1 JP 2019033289 W JP2019033289 W JP 2019033289W WO 2020059432 A1 WO2020059432 A1 WO 2020059432A1
Authority
WO
WIPO (PCT)
Prior art keywords
teacher data
tag
similarity
document
test data
Prior art date
Application number
PCT/JP2019/033289
Other languages
English (en)
French (fr)
Inventor
山田 剛史
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/273,428 priority Critical patent/US20220027673A1/en
Publication of WO2020059432A1 publication Critical patent/WO2020059432A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Definitions

  • the present invention relates to a selection device and a selection method.
  • Patent Document 1 a technique for automatically extracting a test item corresponding to a development requirement from a document such as a design document written by a non-engineer using a natural language has been studied (see Patent Document 1).
  • This technology uses, for example, machine learning (CRF, Conditional Random Fields) techniques to attach tags to important parts of a design document and automatically extracts test items from the tagged parts. is there.
  • CRF machine learning
  • the present invention has been made in view of the above, and has an object to appropriately tag a document using appropriate teacher data.
  • a selection device includes a teacher data candidate, which is a document to which a predetermined tag according to the content of description is added, and a document to which the tag is added.
  • an assigning unit that assigns the tag to the test data according to a learned result.
  • a tag can be appropriately given to a document using appropriate teacher data.
  • FIG. 1 is a diagram for explaining a processing outline of a system including the selection device of the present embodiment.
  • FIG. 2 is a diagram for explaining a processing outline of a system including the selection device of the present embodiment.
  • FIG. 3 is a diagram for explaining an outline of processing of the selection device according to the present embodiment.
  • FIG. 4 is a diagram for explaining an outline of processing of the selection device according to the present embodiment.
  • FIG. 5 is a schematic diagram illustrating a schematic configuration of the selection device of the present embodiment.
  • FIG. 6 is a diagram for explaining the processing of the calculation unit.
  • FIG. 7 is a diagram for explaining the processing of the calculation unit.
  • FIG. 8 is a diagram for explaining the processing of the calculation unit and the selection unit.
  • FIG. 9 is a flowchart illustrating the selection processing procedure.
  • FIG. 10 is a diagram illustrating an example of a computer that executes a selection program.
  • FIG. 1 and FIG. 2 are diagrams for explaining the processing outline of a system including the selection device of the present embodiment.
  • the system including the selection device of the present embodiment executes a test item extraction process.
  • the system attaches a tag to a document such as a design document written in a natural language to an important description portion indicating a development requirement or the like.
  • the system automatically extracts test items from the portion indicated by the tag of the tagged document (see Patent Document 1).
  • the system performs machine learning by using a document to which a tag is manually added as teacher data, and learns the addition of the tag. Further, in the test phase, the system attaches a tag to the test data, which is a document to be subjected to the test item extraction processing for extracting the test items, using the learning result obtained in the learning phase.
  • the system uses the teacher data in which the tag is attached to the important description portion as input information to determine the tendency of the tagging in the teacher data. Learning is performed by statistical calculation and output as a learning result. For example, the system learns the tendency of tag assignment based on the position and type of the tag, words before and after, the context, and the like. Further, as shown in FIG. 2B, in the test phase, the system attaches a tag to the test data by using a learning result obtained in the learning phase and indicating a tendency of the teacher data to attach the tag. .
  • FIGS. 3 and 4 are diagrams for explaining the processing outline of the selection device of the present embodiment.
  • “call processing process” is often described as a subject in a call processing category document such as “two call processing processes are executed simultaneously during normal operation”.
  • the "call processing process” is often described as an object such as "the maintenance person monitors the number of operating call processing processes from the maintenance screen.”
  • a document having a different category may have a different description tendency.
  • the selection device of the present embodiment performs preprocessing for removing unnecessary information from teacher data used in the test phase in order to obtain an appropriate learning result in the test phase. Specifically, as shown in FIG. 4, the selection device selects, from a large number of teacher data candidates, one having a high degree of similarity with the test data as teacher data by a selection process described later.
  • a document in the same category as the test data is selected from among the teacher data candidates having different categories such as the call processing category, the service category, and the maintenance category as those having high similarity with the test data. I have.
  • the test data is the design document E
  • the design documents A and B in the same call processing category as the design document E are selected as the teacher data.
  • the design document F in the maintenance category the design document D in the same maintenance category as the design document F is selected as the teacher data.
  • the selection device learns using the teacher data having a high degree of similarity to the test data, thereby improving the accuracy of the tagging learning.
  • the system including the selection device can appropriately extract test items from the test data to which tags have been appropriately added in the test phase.
  • FIG. 5 is a schematic diagram illustrating a schematic configuration of the selection device of the present embodiment.
  • the selection device 10 is realized by a general-purpose computer such as a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15.
  • the input unit 11 is realized using an input device such as a keyboard and a mouse, and inputs various kinds of instruction information such as a start of processing to the control unit 15 in response to an input operation by an operator.
  • the output unit 12 is realized by a display device such as a liquid crystal display, a printing device such as a printer, and the like.
  • the communication control unit 13 is realized by an NIC (Network Interface Card) or the like, and controls communication between the external device and the control unit 15 via an electric communication line such as a LAN (Local Area Network) or the Internet.
  • NIC Network Interface Card
  • LAN Local Area Network
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk, and stores a batch created by a selection process described later. You.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the control unit 15 is realized using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. Thereby, as illustrated in FIG. 5, the control unit 15 functions as a calculation unit 15a, a selection unit 15b, an assignment unit 15c, and an extraction unit 15d. These functional units may be implemented individually or partially in different hardware. For example, the extraction unit 15d may be implemented in different hardware from the calculation unit 15a, the selection unit 15b, and the assignment unit 15c.
  • a CPU Central Processing Unit
  • the calculation unit 15a calculates the similarity between the teacher data candidate, which is a document to which a predetermined tag corresponding to the description content is added, and the test data, which is a document to which the tag is added.
  • tags include Agent, Input, Input ⁇ Condition, Condition, Output, Output ⁇ Condition, Check ⁇ Point, etc., which indicate requirements defined in the design document.
  • Agent indicates a target system.
  • Input indicates input information to the system.
  • Input @ condition indicates an input condition.
  • Condition indicates the condition of the system.
  • Output indicates output information from the system.
  • Output @ condition indicates an output condition.
  • Check @ point indicates a check location or a check item.
  • the calculation unit 15a calculates the similarity of the category between the teacher data candidate documents in a large number of different categories and the test data which is a document to which a tag is added in the test phase, by comparing the similarity between each teacher data candidate and the test data. Calculate as degrees.
  • the calculation unit 15a may calculate the similarity using the appearance frequency of a predetermined word appearing in the teacher data candidate and the test data.
  • FIGS. 6 and 7 are diagrams for explaining the processing of the calculation unit 15a.
  • the calculation unit 15a calculates, as a property of each document, a document vector representing the appearance frequency of a predetermined word in a vector format.
  • the document vector of each document includes the appearance frequency of predetermined seven words as an element, such as (appearance frequency of word ⁇ 1, appearance frequency of word ⁇ 2,..., Appearance frequency of word ⁇ 7). Is represented by a seven-dimensional vector.
  • the word ⁇ 1, the word ⁇ 2, the word ⁇ 4, the word ⁇ 5, and the word ⁇ 6 appear, and their appearance frequencies are 1, 3, 4, 3, 1 respectively. It has been shown.
  • the appearance frequency is represented by, for example, the number of appearances or the ratio of the number of appearances to the total number of all words.
  • the calculation unit 15a calculates, for example, the cosine similarity of the document vector as the similarity.
  • the cosine similarity is calculated using the inner product of the vectors, as shown in the following equation (1), and corresponds to the correlation coefficient between the two vectors.
  • the cosine similarity between V1 (1, 1) shown in FIG. 7 and V2 (-1, -1) whose angle with V1 is 180 degrees is calculated as -2. Further, the cosine similarity between V1 and V3 (-1, 1) whose angle with V1 is 90 degrees is calculated as 0. Further, the cosine similarity between V1 and V4 (0.5, 0.5) whose angle with V1 is 0 degree is calculated as 0.5.
  • the calculation unit 15a may calculate the similarity using the appearance frequency of a predetermined word for each tag assigned to the teacher data candidate. Here, it is considered that the word reflecting the property of the document has a different tendency for each part indicated by the tag of the document. Therefore, the calculating unit 15a calculates the similarity between the teacher data candidate and the test data using a word having a high degree of association with the tag.
  • the calculation unit 15a quantitatively evaluates the degree of association with the tag using the self mutual information PMI shown in the following equation (2).
  • the first term on the right side ( ⁇ logp (y)) is the information amount when an arbitrary word y appears in the document.
  • x) ⁇ is the amount of information when the prerequisite event x (within the tag) and the word y co-occur. This makes it possible to quantitatively evaluate the degree of association between the word and the tag.
  • the selecting unit 15b selects, as teacher data, teacher data candidates whose calculated similarity is equal to or greater than a predetermined threshold.
  • FIG. 8 is a diagram for explaining the processing of the calculation unit 15a and the selection unit 15b.
  • the calculation unit 15a calculates the similarity by comparing the appearance frequency of a predetermined word between the test data and each teacher data (candidate).
  • the selecting unit 15b sorts the similarities of the teacher data (candidates) in ascending order, and sorts the teacher data (candidates) having the similarity equal to or more than a predetermined threshold value. Select as teacher data.
  • the assigning unit 15c learns using the selected teacher data, and assigns a tag to the test data according to the learned result. Specifically, the assigning unit 15c assigns a tag to the test data according to the tagging tendency of the teacher data, using the learning result obtained in the learning phase and indicating the tendency of tagging the teacher data. . Thereby, an appropriate tag is given to the test data with high accuracy.
  • the extraction unit 15d extracts a test item from the test data to which the tag has been added.
  • the extraction unit 15d refers to a tag added to an important description portion indicating a requirement for developing a document by the adding unit 15c, and, for the portion indicated by the tag, statistical information on a test of the same or similar portion.
  • the test items are automatically extracted using. Thereby, the extracting unit 15d can automatically extract an appropriate test item from the test data described in the natural language.
  • FIG. 9 is a flowchart illustrating the selection processing procedure.
  • the flowchart in FIG. 9 is started, for example, at the timing when the user performs an operation input for instructing start.
  • the calculation unit 15a calculates the similarity between the test data and the teacher data candidate to which a predetermined tag corresponding to the description is added (step S1). For example, the calculation unit 15a calculates the similarity between the teacher data candidate and the test data by using the appearance frequency of a predetermined word appearing in the teacher data candidate and the test data. At that time, the calculation unit 15a calculates, for each tag assigned to the teacher data candidate, the similarity between the teacher data candidate and the test data using the appearance frequency of a word having a high degree of association with the tag. Is also good.
  • the selection unit 15b selects teacher data candidates whose calculated similarity is equal to or greater than a predetermined threshold as teacher data (step S2). Further, the assigning unit 15c assigns a tag to the test data according to the result of learning using the selected teacher data (step S3). That is, the assigning unit 15c assigns a tag to the test data using the learning result obtained in the learning phase and indicating the tendency of the tagging of the teacher data.
  • the extraction unit 15d extracts test items from the test data to which the tags are appropriately added, using the statistical information on the test of the same or similar part as the part indicated by the tag.
  • the calculation unit 15a includes the teacher data candidate that is a document to which a predetermined tag according to the description content is added and the test data that is a document to which the tag is added. Is calculated. Further, the selecting unit 15b selects, as teacher data, teacher data candidates whose calculated similarity is equal to or greater than a predetermined threshold. Further, the assigning unit 15c learns using the selected teacher data, and assigns a tag to the test data according to the learned result.
  • the selecting device 10 selects only similar teacher data candidates having the same category as the test data, for example, as the teacher data. Therefore, the selecting device 10 learns the tagging tendency of the teacher data similar to the test data, and diverges. It is possible to obtain a highly accurate learning result by suppressing it.
  • the selection device 10 can assign an appropriate tag to the test data with high accuracy according to the tendency of the tagging of the teacher data as the learning result. As described above, the selection device 10 learns tag assignment using appropriate teacher data, and can appropriately assign tags to test data described in a natural language.
  • the extraction unit 15d refers to the tag appropriately added to the test data, and uses the statistical information on the test of the same or similar part as the part indicated by the tag to accurately and appropriately determine the appropriate test item. Can be extracted. As described above, according to the selection device 10, the extraction unit 15d can automatically extract an appropriate test item from the test data described in the natural language.
  • the calculating unit 15a may calculate the similarity using the appearance frequency of a predetermined word appearing in the teacher data candidate and the test data. This makes it possible to select a document having similar properties to the test data as teacher data.
  • the calculation unit 15a may calculate the similarity using the appearance frequency of a predetermined word for each tag assigned to the teacher data candidate. As described above, by using the appearance frequency of a word having a different appearance tendency for each tag, the learning accuracy of tag assignment is improved, and tags can be assigned to test data more appropriately.
  • the selection device 10 can be implemented by installing a selection program for executing the above-described selection process on a desired computer as package software or online software.
  • the information processing apparatus can function as the selection apparatus 10.
  • the information processing device referred to here includes a desktop or notebook personal computer.
  • the information processing apparatus includes a mobile communication terminal such as a smartphone, a mobile phone, or a PHS (Personal Handyphone System), and a slate terminal such as a PDA (Personal Digital Assistants).
  • the function of the selection device 10 may be implemented in a cloud server.
  • FIG. 10 is a diagram illustrating an example of a computer that executes a selection program.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These components are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050.
  • the display 1061 is connected to the video adapter 1060, for example.
  • the hard disk drive 1031 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. Each piece of information described in the above embodiment is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the selection program is stored in the hard disk drive 1031 as, for example, a program module 1093 in which a command to be executed by the computer 1000 is described. Specifically, the program module 1093 in which each process executed by the selection device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • Data used for information processing by the selection program is stored as the program data 1094 in, for example, the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as necessary, and executes the above-described procedures.
  • the program module 1093 and the program data 1094 relating to the selection program are not limited to being stored in the hard disk drive 1031.
  • the program module 1093 and the program data 1094 are stored in a removable storage medium and read out by the CPU 1020 via the disk drive 1041 or the like. May be done.
  • the program module 1093 and the program data 1094 relating to the selection program are stored in another computer connected via a network such as a LAN or a WAN (Wide Area Network), and read out by the CPU 1020 via the network interface 1070. You may.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

算出部(15a)が、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出し、選定部(15b)が、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定し、付与部(15c)が、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。算出部(15a)は、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。算出部(15a)は、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて類似度を算出してもよい。

Description

選定装置および選定方法
 本発明は、選定装置および選定方法に関する。
 近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている(特許文献1参照)。この技術は、例えば、機械学習(CRF、Conditional Random Fields)の手法を用いて設計書の重要な記載部分にタグを付与し、タグが付与された部分から自動的に試験項目を抽出するものである。
特開2018-018373号公報
 しかしながら、従来の技術では、文書に適切にタグを付与することが困難な場合があった。例えば、カテゴリに関わらず可能な限り多数の自然言語の文書を教師データとして、文書へのタグ付与の学習が行われていた。そのため、試験項目を抽出する文書とは異なるカテゴリの文書を教師データとして機械学習を行うことにより、学習結果が発散する場合があった。したがって、学習結果を用いて自動抽出された試験項目と、実際の開発で抽出された試験項目とでは、多数の不一致が生じる場合があった。
 本発明は、上記に鑑みてなされたものであって、適切な教師データを用いて、文書に適切にタグを付与することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る選定装置は、記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出部と、算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定部と、選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与部と、を備えることを特徴とする。
 本発明によれば、適切な教師データを用いて、文書に適切にタグを付与することができる。
図1は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。 図2は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。 図3は、本実施形態の選定装置の処理概要を説明するための図である。 図4は、本実施形態の選定装置の処理概要を説明するための図である。 図5は、本実施形態の選定装置の概略構成を例示する模式図である。 図6は、算出部の処理を説明するための図である。 図7は、算出部の処理を説明するための図である。 図8は、算出部および選定部の処理を説明するための図である。 図9は、選定処理手順を示すフローチャートである。 図10は、選定プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[システムの処理]
 図1および図2は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。本実施形態の選定装置を含むシステムは、試験項目抽出処理を実行する。まず、図1に示すように、システムは、自然言語で書かれた設計書等の文書に、開発の要求条件等を示す重要な記載部分にタグを付与する。次に、システムは、このタグ付文書のタグで示される部分から、試験項目を自動的に抽出する(特許文献1参照)。
 ここで、システムは、学習フェーズでは、人手によりタグが付与された文書を教師データとして機械学習を行って、タグの付与を学習する。また、システムは、試験フェーズでは、試験項目を抽出する試験項目抽出処理の対象の文書である試験データに、学習フェーズで得られた学習結果を用いてタグを付与する。
 具体的には、図2(a)に示すように、システムは、学習フェーズでは、重要な記載部分にタグが付与されている教師データを入力情報として、教師データでのタグ付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、システムは、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。また、図2(b)に示すように、システムは、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験データに対してタグを付与する。
 ここで、図3および図4は、本実施形態の選定装置の処理概要を説明するための図である。上記の学習フェーズにおいて、例えば、試験データとは異なるカテゴリの文書を教師データとして機械学習が行われると、学習結果が発散したりして学習の精度が低下する場合がある。例えば、「呼処理プロセス」は、呼処理カテゴリの文書では、「呼処理プロセスは通常運用時に2プロセス同時に実行される。」というように、主語として記載されることが多い。一方、保守カテゴリの文書では、「保守者は保守画面から呼処理プロセスの運用個数を監視する。」というように、「呼処理プロセス」は目的語として記載されることが多い。このように、カテゴリが異なる文書では、記載の傾向が異なる場合がある。
 そこで、本実施形態の選定装置は、図3に示すように、試験フェーズに適切な学習結果を得るために、試験フェーズに用いる教師データに対し、不要な情報を除外する前処理を行う。具体的には、図4に示すように、選定装置は、後述する選定処理により、多数の教師データ候補から、試験データとの類似度が高いものを教師データとして選定する。
 図4に示す例では、呼処理カテゴリ、サービスカテゴリ、保守カテゴリ等のカテゴリの異なる教師データ候補の中から、試験データとの類似度が高いものとして、試験データと同一カテゴリの文書が選定されている。例えば、試験データが設計書Eの場合に、この設計書Eと同一の呼処理カテゴリの設計書A、Bが教師データとして選定される。一方、試験データが保守カテゴリの設計書Fの場合には、この設計書Fと同一の保守カテゴリの設計書Dが教師データとして選定される。
 このように、選定装置は、試験データとの類似度が高い教師データを用いて学習することにより、タグ付与の学習の精度が向上する。その結果、選定装置を含むシステムは、上記の試験フェーズで適切にタグが付与された試験データから、適切に試験項目を抽出することが可能となる。
[選定装置の構成]
 図5は、本実施形態の選定装置の概略構成を例示する模式図である。図5に例示するように、選定装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、後述する選定処理により作成されたバッチ等が記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
 制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図5に例示するように、算出部15a、選定部15b、付与部15cおよび抽出部15dとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、抽出部15dが、算出部15a、選定部15bおよび付与部15cとは異なるハードウェアに実装されてもよい。
 算出部15aは、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出する。
 ここで、文書の記載内容に応じたタグとして、設計書で定義される要件を示す、Agent、Input、Input condition、Condition、Output、Output condition、Check point等が例示される。
 Agentとは、ターゲットのシステムを示す。Inputとは、システムへの入力情報を示す。Input conditionとは、入力条件を示す。Conditionとは、システムの条件を示す。Outputとは、システムからの出力情報を示す。Output conditionとは、出力条件を示す。Check pointとは、チェック箇所やチェック事項を示す。
 そして、算出部15aは、例えば、多数のカテゴリの異なる教師データ候補の文書と、試験フェーズでタグを付与する文書である試験データとのカテゴリの類似度を、各教師データ候補と試験データの類似度として算出する。
 算出部15aは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。
 ここで、図6および図7は、算出部15aの処理を説明するための図である。図6に示すように、算出部15aは、各文書の性質として、所定の単語の出現頻度をベクトル形式で表す文書ベクトルを算出する。図6に示す例では、各文書の文書ベクトルは、(単語α1の出現頻度,単語α2の出現頻度,…,単語α7の出現頻度)のように、所定の7つの単語の出現頻度を要素とする7次元のベクトルで表されている。図6には、例えば、設計書Aには、単語α1、単語α2、単語α4、単語α5、単語α6が出現しており、その出現頻度がそれぞれ、1、3、4、3、1であることが示されている。なお、出現頻度は、例えば、出現回数や、全単語の総数に対する出現回数の割合等で表される。
 また、算出部15aは、類似度として、例えば、文書ベクトルのコサイン類似度を算出する。ここで、コサイン類似度は、次式(1)に示すように、ベクトルの内積を用いて算出され、2つのベクトルの相関係数に相当する。
Figure JPOXMLDOC01-appb-M000001
 例えば、図7に示すV1(1,1)と、V1との角度が180度であるV2(-1,-1)とのコサイン類似度は、-2と算出される。また、V1と、V1との角度が90度であるV3(-1,1)とのコサイン類似度は、0と算出される。また、V1と、V1との角度が0度であるV4(0.5,0.5)とのコサイン類似度は、0.5と算出される。
 算出部15aは、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて、類似度を算出してもよい。ここで、文書の性質を反映する単語は、文書のタグで示される部分ごとに異なる傾向を示すものと考えられる。そこで、算出部15aは、タグとの関連度合いが高い単語を用いて、教師データ候補と試験データとの類似度を算出する。
 具体的には、算出部15aは、次式(2)に示す自己相互情報量PMIを用いて、タグとの関連度合いを定量的に評価する。
Figure JPOXMLDOC01-appb-M000002
 上記式(2)において、右辺第1項(-logp(y))は、任意の単語yが文書中に出現する場合の情報量である。また、右辺第2項{-logP(y|x)}は、前提事象x(タグ内)と単語yとが共起する場合の情報量である。これにより、単語のタグとの関連度合いを定量的に評価することができる。
 選定部15bは、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する。ここで、図8は、算出部15aおよび選定部15bの処理を説明するための図である。図8(a)に示すように、算出部15aが、試験データと各教師データ(候補)との所定の単語の出現頻度を比較して、類似度を算出する。また、選定部15bは、図8(b)に示すように、例えば、教師データ(候補)ごとの類似度を昇順にソートして、類似度が所定の閾値以上の教師データ(候補)を、教師データとして選定する。
 付与部15cは、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。具体的には、付与部15cは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、教師データのタグ付与の傾向に従って、試験データに対してタグを付与する。これにより、試験データに高精度に適切なタグが付与される。
 抽出部15dは、タグが付与された試験データから、試験項目を抽出する。例えば、抽出部15dは、付与部15cによって文書の開発の要求条件等を示す重要な記載部分に付与されたタグを参照し、タグで示される部分について、同一または類似の部分の試験に関する統計情報を用いて、自動的に試験項目を抽出する。これにより、抽出部15dは、自然言語で記載された試験データから適切な試験項目を自動的に抽出できる。
[選定処理]
 次に、図9を参照して、本実施形態に係る選定装置10による選定処理について説明する。図9は、選定処理手順を示すフローチャートである。図9のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
 まず、算出部15aが、記載内容に応じた所定のタグが付与された教師データ候補と、試験データとの類似度を算出する(ステップS1)。例えば、算出部15aは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、教師データ候補と、試験データとの類似度を算出する。その際に、算出部15aは、教師データ候補に付与されたタグごとに、タグとの関連度合いの高い単語の出現頻度を用いて、教師データ候補と、試験データとの類似度を算出してもよい。
 次に、選定部15bが、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する(ステップS2)。また、付与部15cが、選定された教師データを用いて学習した結果に従って、試験データにタグを付与する(ステップS3)。すなわち、付与部15cは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験データに対してタグを付与する。
 これにより、一連の選定処理が終了し、試験データに適切にタグが付与される。その後、抽出部15dが、適切にタグが付与された試験データから、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、試験項目を抽出する。
 以上、説明したように、本実施形態の選定装置10において、算出部15aが、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出する。また、選定部15bが、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する。また、付与部15cが、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。
 これにより、選定装置10は、試験データと例えばカテゴリが同一等の類似する教師データ候補のみを教師データとして選定するので、試験データと類似する教師データについてのタグ付与の傾向を学習し、発散を抑制して高精度な学習結果を得ることができる。また、選定装置10は、この学習結果である教師データのタグ付与の傾向に従って、試験データに高精度に適切なタグを付与することができる。このように、選定装置10は、適切な教師データを用いてタグ付与を学習し、自然言語で記載された試験データに適切にタグを付与することが可能となる。
 また、その結果、抽出部15dは、試験データに適切に付与されたタグを参照し、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、高精度に適切な試験項目を抽出すること可能となる。このように、選定装置10によれば、抽出部15dが、自然言語で記載された試験データから適切な試験項目を自動的に抽出することが可能となる。
 また、算出部15aは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。これにより、試験データと性質が類似する文書を教師データとして選定することが可能となる。
 その際に、算出部15aは、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて類似度を算出してもよい。このように、タグごとに出現傾向が異なる単語の出現頻度を用いることにより、タグ付与の学習の精度が向上し、より適切に試験データにタグを付与することが可能となる。
[プログラム]
 上記実施形態に係る選定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、選定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の選定処理を実行する選定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の選定プログラムを情報処理装置に実行させることにより、情報処理装置を選定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、選定装置10の機能を、クラウドサーバに実装してもよい。
 図10は、選定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、選定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した選定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、選定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、選定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、選定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 選定装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 15 制御部
 15a 算出部
 15b 選定部
 15c 付与部
 15d 抽出部

Claims (4)

  1.  記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出部と、
     算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定部と、
     選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与部と、
     を備えることを特徴とする選定装置。
  2.  前記算出部は、前記教師データ候補および前記試験データに出現する所定の単語の出現頻度を用いて、前記類似度を算出することを特徴とする請求項1に記載の選定装置。
  3.  前記算出部は、前記教師データ候補に付与された前記タグごとの所定の単語の出現頻度を用いて、前記類似度を算出することを特徴とする請求項2に記載の選定装置。
  4.  選定装置で実行される選定方法であって、
     記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出工程と、
     算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定工程と、
     選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与工程と、
     を含んだことを特徴とする選定方法。
PCT/JP2019/033289 2018-09-19 2019-08-26 選定装置および選定方法 WO2020059432A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/273,428 US20220027673A1 (en) 2018-09-19 2019-08-26 Selecting device and selecting method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018174530A JP7247497B2 (ja) 2018-09-19 2018-09-19 選定装置および選定方法
JP2018-174530 2018-09-19

Publications (1)

Publication Number Publication Date
WO2020059432A1 true WO2020059432A1 (ja) 2020-03-26

Family

ID=69887180

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/033289 WO2020059432A1 (ja) 2018-09-19 2019-08-26 選定装置および選定方法

Country Status (3)

Country Link
US (1) US20220027673A1 (ja)
JP (1) JP7247497B2 (ja)
WO (1) WO2020059432A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124037A1 (en) * 2010-11-17 2012-05-17 Electronics And Telecommunications Research Institute Multimedia data searching method and apparatus and pattern recognition method
US20130254153A1 (en) * 2012-03-23 2013-09-26 Nuance Communications, Inc. Techniques for evaluation, building and/or retraining of a classification model
JP2014006680A (ja) * 2012-06-25 2014-01-16 Sony Corp ビデオ記録装置、情報処理システム、情報処理方法および記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
US10235623B2 (en) * 2016-02-12 2019-03-19 Adobe Inc. Accurate tag relevance prediction for image search
EP3352013A1 (en) * 2017-01-23 2018-07-25 ASML Netherlands B.V. Generating predicted data for control or monitoring of a production process
US11676075B2 (en) * 2020-05-06 2023-06-13 International Business Machines Corporation Label reduction in maintaining test sets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124037A1 (en) * 2010-11-17 2012-05-17 Electronics And Telecommunications Research Institute Multimedia data searching method and apparatus and pattern recognition method
US20130254153A1 (en) * 2012-03-23 2013-09-26 Nuance Communications, Inc. Techniques for evaluation, building and/or retraining of a classification model
JP2014006680A (ja) * 2012-06-25 2014-01-16 Sony Corp ビデオ記録装置、情報処理システム、情報処理方法および記録媒体

Also Published As

Publication number Publication date
JP2020046908A (ja) 2020-03-26
US20220027673A1 (en) 2022-01-27
JP7247497B2 (ja) 2023-03-29

Similar Documents

Publication Publication Date Title
US8958661B2 (en) Learning concept templates from web images to query personal image databases
US11216701B1 (en) Unsupervised representation learning for structured records
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
JP6676495B2 (ja) 抽出装置および抽出方法
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
WO2020095655A1 (ja) 選定装置および選定方法
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
EP3690772A1 (en) Method and system for skill matching for determining skill similarity
CN112801186A (zh) 一种验证图像生成方法、装置及设备
JP7173308B2 (ja) 検知装置、検知方法および検知プログラム
WO2020059432A1 (ja) 選定装置および選定方法
CN114492370B (zh) 网页识别方法、装置、电子设备和介质
CN111144345A (zh) 字符识别方法、装置、设备及存储介质
CN114882273B (zh) 应用于狭小空间的视觉识别方法、装置、设备和存储介质
CN110765917A (zh) 适用于人脸识别模型训练的主动学习方法、装置、终端、介质
JP2018163586A (ja) 学習プログラム、学習方法および学習装置
CN114494686A (zh) 文本图像矫正方法、装置、电子设备以及存储介质
CN113642642A (zh) 控件识别方法及装置
CN113962275A (zh) 样本评估
WO2021009886A1 (ja) 支援装置、支援方法および支援プログラム
WO2021009885A1 (ja) 教師データ生成装置、教師データ生成方法および教師データ生成プログラム
WO2022091422A1 (ja) 推定装置、推定方法、および、推定プログラム

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19861503

Country of ref document: EP

Kind code of ref document: A1