WO2020059432A1

WO2020059432A1 - 選定装置および選定方法

Info

Publication number: WO2020059432A1
Application number: PCT/JP2019/033289
Authority: WO
Inventors: 山田　剛史
Original assignee: 日本電信電話株式会社
Priority date: 2018-09-19
Filing date: 2019-08-26
Publication date: 2020-03-26
Also published as: JP2020046908A; US20220027673A1; JP7247497B2

Abstract

算出部（１５ａ）が、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出し、選定部（１５ｂ）が、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定し、付与部（１５ｃ）が、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。算出部（１５ａ）は、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。算出部（１５ａ）は、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて類似度を算出してもよい。

Description

選定装置および選定方法

　本発明は、選定装置および選定方法に関する。

　近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている（特許文献１参照）。この技術は、例えば、機械学習（ＣＲＦ、Conditional　Random　Fields）の手法を用いて設計書の重要な記載部分にタグを付与し、タグが付与された部分から自動的に試験項目を抽出するものである。

特開２０１８－０１８３７３号公報

　しかしながら、従来の技術では、文書に適切にタグを付与することが困難な場合があった。例えば、カテゴリに関わらず可能な限り多数の自然言語の文書を教師データとして、文書へのタグ付与の学習が行われていた。そのため、試験項目を抽出する文書とは異なるカテゴリの文書を教師データとして機械学習を行うことにより、学習結果が発散する場合があった。したがって、学習結果を用いて自動抽出された試験項目と、実際の開発で抽出された試験項目とでは、多数の不一致が生じる場合があった。

　本発明は、上記に鑑みてなされたものであって、適切な教師データを用いて、文書に適切にタグを付与することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る選定装置は、記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出部と、算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定部と、選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与部と、を備えることを特徴とする。

　本発明によれば、適切な教師データを用いて、文書に適切にタグを付与することができる。

図１は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。図２は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。図３は、本実施形態の選定装置の処理概要を説明するための図である。図４は、本実施形態の選定装置の処理概要を説明するための図である。図５は、本実施形態の選定装置の概略構成を例示する模式図である。図６は、算出部の処理を説明するための図である。図７は、算出部の処理を説明するための図である。図８は、算出部および選定部の処理を説明するための図である。図９は、選定処理手順を示すフローチャートである。図１０は、選定プログラムを実行するコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［システムの処理］
　図１および図２は、本実施形態の選定装置を含むシステムの処理概要を説明するための図である。本実施形態の選定装置を含むシステムは、試験項目抽出処理を実行する。まず、図１に示すように、システムは、自然言語で書かれた設計書等の文書に、開発の要求条件等を示す重要な記載部分にタグを付与する。次に、システムは、このタグ付文書のタグで示される部分から、試験項目を自動的に抽出する（特許文献１参照）。

　ここで、システムは、学習フェーズでは、人手によりタグが付与された文書を教師データとして機械学習を行って、タグの付与を学習する。また、システムは、試験フェーズでは、試験項目を抽出する試験項目抽出処理の対象の文書である試験データに、学習フェーズで得られた学習結果を用いてタグを付与する。

　具体的には、図２（ａ）に示すように、システムは、学習フェーズでは、重要な記載部分にタグが付与されている教師データを入力情報として、教師データでのタグ付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、システムは、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。また、図２（ｂ）に示すように、システムは、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験データに対してタグを付与する。

　ここで、図３および図４は、本実施形態の選定装置の処理概要を説明するための図である。上記の学習フェーズにおいて、例えば、試験データとは異なるカテゴリの文書を教師データとして機械学習が行われると、学習結果が発散したりして学習の精度が低下する場合がある。例えば、「呼処理プロセス」は、呼処理カテゴリの文書では、「呼処理プロセスは通常運用時に２プロセス同時に実行される。」というように、主語として記載されることが多い。一方、保守カテゴリの文書では、「保守者は保守画面から呼処理プロセスの運用個数を監視する。」というように、「呼処理プロセス」は目的語として記載されることが多い。このように、カテゴリが異なる文書では、記載の傾向が異なる場合がある。

　そこで、本実施形態の選定装置は、図３に示すように、試験フェーズに適切な学習結果を得るために、試験フェーズに用いる教師データに対し、不要な情報を除外する前処理を行う。具体的には、図４に示すように、選定装置は、後述する選定処理により、多数の教師データ候補から、試験データとの類似度が高いものを教師データとして選定する。

　図４に示す例では、呼処理カテゴリ、サービスカテゴリ、保守カテゴリ等のカテゴリの異なる教師データ候補の中から、試験データとの類似度が高いものとして、試験データと同一カテゴリの文書が選定されている。例えば、試験データが設計書Ｅの場合に、この設計書Ｅと同一の呼処理カテゴリの設計書Ａ、Ｂが教師データとして選定される。一方、試験データが保守カテゴリの設計書Ｆの場合には、この設計書Ｆと同一の保守カテゴリの設計書Ｄが教師データとして選定される。

　このように、選定装置は、試験データとの類似度が高い教師データを用いて学習することにより、タグ付与の学習の精度が向上する。その結果、選定装置を含むシステムは、上記の試験フェーズで適切にタグが付与された試験データから、適切に試験項目を抽出することが可能となる。

［選定装置の構成］
　図５は、本実施形態の選定装置の概略構成を例示する模式図である。図５に例示するように、選定装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した外部の装置と制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、後述する選定処理により作成されたバッチ等が記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図５に例示するように、算出部１５ａ、選定部１５ｂ、付与部１５ｃおよび抽出部１５ｄとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、抽出部１５ｄが、算出部１５ａ、選定部１５ｂおよび付与部１５ｃとは異なるハードウェアに実装されてもよい。

　算出部１５ａは、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出する。

　ここで、文書の記載内容に応じたタグとして、設計書で定義される要件を示す、Ａｇｅｎｔ、Ｉｎｐｕｔ、Ｉｎｐｕｔ　ｃｏｎｄｉｔｉｏｎ、Ｃｏｎｄｉｔｉｏｎ、Ｏｕｔｐｕｔ、Ｏｕｔｐｕｔ　ｃｏｎｄｉｔｉｏｎ、Ｃｈｅｃｋ　ｐｏｉｎｔ等が例示される。

　Ａｇｅｎｔとは、ターゲットのシステムを示す。Ｉｎｐｕｔとは、システムへの入力情報を示す。Ｉｎｐｕｔ　ｃｏｎｄｉｔｉｏｎとは、入力条件を示す。Ｃｏｎｄｉｔｉｏｎとは、システムの条件を示す。Ｏｕｔｐｕｔとは、システムからの出力情報を示す。Ｏｕｔｐｕｔ　ｃｏｎｄｉｔｉｏｎとは、出力条件を示す。Ｃｈｅｃｋ　ｐｏｉｎｔとは、チェック箇所やチェック事項を示す。

　そして、算出部１５ａは、例えば、多数のカテゴリの異なる教師データ候補の文書と、試験フェーズでタグを付与する文書である試験データとのカテゴリの類似度を、各教師データ候補と試験データの類似度として算出する。

　算出部１５ａは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。

　ここで、図６および図７は、算出部１５ａの処理を説明するための図である。図６に示すように、算出部１５ａは、各文書の性質として、所定の単語の出現頻度をベクトル形式で表す文書ベクトルを算出する。図６に示す例では、各文書の文書ベクトルは、（単語α１の出現頻度，単語α２の出現頻度，…，単語α７の出現頻度）のように、所定の７つの単語の出現頻度を要素とする７次元のベクトルで表されている。図６には、例えば、設計書Ａには、単語α１、単語α２、単語α４、単語α５、単語α６が出現しており、その出現頻度がそれぞれ、１、３、４、３、１であることが示されている。なお、出現頻度は、例えば、出現回数や、全単語の総数に対する出現回数の割合等で表される。

　また、算出部１５ａは、類似度として、例えば、文書ベクトルのコサイン類似度を算出する。ここで、コサイン類似度は、次式（１）に示すように、ベクトルの内積を用いて算出され、２つのベクトルの相関係数に相当する。

　例えば、図７に示すＶ１（１，１）と、Ｖ１との角度が１８０度であるＶ２（－１，－１）とのコサイン類似度は、－２と算出される。また、Ｖ１と、Ｖ１との角度が９０度であるＶ３（－１，１）とのコサイン類似度は、０と算出される。また、Ｖ１と、Ｖ１との角度が０度であるＶ４（０．５，０．５）とのコサイン類似度は、０．５と算出される。

　算出部１５ａは、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて、類似度を算出してもよい。ここで、文書の性質を反映する単語は、文書のタグで示される部分ごとに異なる傾向を示すものと考えられる。そこで、算出部１５ａは、タグとの関連度合いが高い単語を用いて、教師データ候補と試験データとの類似度を算出する。

　具体的には、算出部１５ａは、次式（２）に示す自己相互情報量ＰＭＩを用いて、タグとの関連度合いを定量的に評価する。

　上記式（２）において、右辺第１項（－ｌｏｇｐ（ｙ））は、任意の単語ｙが文書中に出現する場合の情報量である。また、右辺第２項｛－ｌｏｇＰ（ｙ｜ｘ）｝は、前提事象ｘ（タグ内）と単語ｙとが共起する場合の情報量である。これにより、単語のタグとの関連度合いを定量的に評価することができる。

　選定部１５ｂは、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する。ここで、図８は、算出部１５ａおよび選定部１５ｂの処理を説明するための図である。図８（ａ）に示すように、算出部１５ａが、試験データと各教師データ（候補）との所定の単語の出現頻度を比較して、類似度を算出する。また、選定部１５ｂは、図８（ｂ）に示すように、例えば、教師データ（候補）ごとの類似度を昇順にソートして、類似度が所定の閾値以上の教師データ（候補）を、教師データとして選定する。

　付与部１５ｃは、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。具体的には、付与部１５ｃは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、教師データのタグ付与の傾向に従って、試験データに対してタグを付与する。これにより、試験データに高精度に適切なタグが付与される。

　抽出部１５ｄは、タグが付与された試験データから、試験項目を抽出する。例えば、抽出部１５ｄは、付与部１５ｃによって文書の開発の要求条件等を示す重要な記載部分に付与されたタグを参照し、タグで示される部分について、同一または類似の部分の試験に関する統計情報を用いて、自動的に試験項目を抽出する。これにより、抽出部１５ｄは、自然言語で記載された試験データから適切な試験項目を自動的に抽出できる。

［選定処理］
　次に、図９を参照して、本実施形態に係る選定装置１０による選定処理について説明する。図９は、選定処理手順を示すフローチャートである。図９のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

　まず、算出部１５ａが、記載内容に応じた所定のタグが付与された教師データ候補と、試験データとの類似度を算出する（ステップＳ１）。例えば、算出部１５ａは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、教師データ候補と、試験データとの類似度を算出する。その際に、算出部１５ａは、教師データ候補に付与されたタグごとに、タグとの関連度合いの高い単語の出現頻度を用いて、教師データ候補と、試験データとの類似度を算出してもよい。

　次に、選定部１５ｂが、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する（ステップＳ２）。また、付与部１５ｃが、選定された教師データを用いて学習した結果に従って、試験データにタグを付与する（ステップＳ３）。すなわち、付与部１５ｃは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験データに対してタグを付与する。

　これにより、一連の選定処理が終了し、試験データに適切にタグが付与される。その後、抽出部１５ｄが、適切にタグが付与された試験データから、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、試験項目を抽出する。

　以上、説明したように、本実施形態の選定装置１０において、算出部１５ａが、記載内容に応じた所定のタグが付与された文書である教師データ候補と、タグを付与する文書である試験データとの類似度を算出する。また、選定部１５ｂが、算出された類似度が所定の閾値以上の教師データ候補を教師データとして選定する。また、付与部１５ｃが、選定された教師データを用いて学習し、学習した結果に従って試験データにタグを付与する。

　これにより、選定装置１０は、試験データと例えばカテゴリが同一等の類似する教師データ候補のみを教師データとして選定するので、試験データと類似する教師データについてのタグ付与の傾向を学習し、発散を抑制して高精度な学習結果を得ることができる。また、選定装置１０は、この学習結果である教師データのタグ付与の傾向に従って、試験データに高精度に適切なタグを付与することができる。このように、選定装置１０は、適切な教師データを用いてタグ付与を学習し、自然言語で記載された試験データに適切にタグを付与することが可能となる。

　また、その結果、抽出部１５ｄは、試験データに適切に付与されたタグを参照し、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、高精度に適切な試験項目を抽出すること可能となる。このように、選定装置１０によれば、抽出部１５ｄが、自然言語で記載された試験データから適切な試験項目を自動的に抽出することが可能となる。

　また、算出部１５ａは、教師データ候補および試験データに出現する所定の単語の出現頻度を用いて、類似度を算出してもよい。これにより、試験データと性質が類似する文書を教師データとして選定することが可能となる。

　その際に、算出部１５ａは、教師データ候補に付与されたタグごとの所定の単語の出現頻度を用いて類似度を算出してもよい。このように、タグごとに出現傾向が異なる単語の出現頻度を用いることにより、タグ付与の学習の精度が向上し、より適切に試験データにタグを付与することが可能となる。

［プログラム］
　上記実施形態に係る選定装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、選定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の選定処理を実行する選定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の選定プログラムを情報処理装置に実行させることにより、情報処理装置を選定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）などの移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistants）などのスレート端末などがその範疇に含まれる。また、選定装置１０の機能を、クラウドサーバに実装してもよい。

　図１０は、選定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、選定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した選定装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、選定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、選定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、選定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　選定装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１５　制御部
　１５ａ　算出部
　１５ｂ　選定部
　１５ｃ　付与部
　１５ｄ　抽出部

Claims

　記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出部と、
　算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定部と、
　選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与部と、
　を備えることを特徴とする選定装置。
　前記算出部は、前記教師データ候補および前記試験データに出現する所定の単語の出現頻度を用いて、前記類似度を算出することを特徴とする請求項１に記載の選定装置。
　前記算出部は、前記教師データ候補に付与された前記タグごとの所定の単語の出現頻度を用いて、前記類似度を算出することを特徴とする請求項２に記載の選定装置。
　選定装置で実行される選定方法であって、
　記載内容に応じた所定のタグが付与された文書である教師データ候補と、前記タグを付与する文書である試験データとの類似度を算出する算出工程と、
　算出された前記類似度が所定の閾値以上の前記教師データ候補を教師データとして選定する選定工程と、
　選定された前記教師データを用いて学習し、学習した結果に従って前記試験データに前記タグを付与する付与工程と、
　を含んだことを特徴とする選定方法。