WO2020031959A1 - 要約文算出装置、要約文算出方法、及びプログラム - Google Patents

要約文算出装置、要約文算出方法、及びプログラム Download PDF

Info

Publication number
WO2020031959A1
WO2020031959A1 PCT/JP2019/030728 JP2019030728W WO2020031959A1 WO 2020031959 A1 WO2020031959 A1 WO 2020031959A1 JP 2019030728 W JP2019030728 W JP 2019030728W WO 2020031959 A1 WO2020031959 A1 WO 2020031959A1
Authority
WO
WIPO (PCT)
Prior art keywords
summary sentence
sentence
sentences
calculation
addition
Prior art date
Application number
PCT/JP2019/030728
Other languages
English (en)
French (fr)
Inventor
暁 渡邉
光希 池内
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/264,132 priority Critical patent/US20210303774A1/en
Publication of WO2020031959A1 publication Critical patent/WO2020031959A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a technique for calculating a summary sentence from a set of sentences.
  • An example of an application field of the technology is a workflow visualization system that visualizes an action sequence from a work record document.
  • Non-Patent Document 1 Non-Patent Document 1
  • Patent Documents 1 to 3 There is a technology (Non-Patent Document 1, Patent Documents 1 to 3) for visualizing a failure response process in a form called a workflow in order to prevent recovery delay due to delay in response determination.
  • a failure handling process is analyzed from the document, and visualized in a graph called a workflow.
  • the visualization of the workflow consists of extracting a sentence or symbol sequence (action) indicating the same work or state, and visualizing the transition of the action.
  • a method of displaying only one of the sentences indicating the same action can be considered.
  • this method can miss important descriptions. Determination of a sentence indicating the same action is not always performed without mistake. If a sentence indicating an important action is mistakenly assumed to be the same as another action, either action is not displayed on the workflow in the single sentence display. Further, supplementary information may be described in the description of the action, and there is a possibility that valuable supplementary information may be hidden by selecting a random sentence. In a system operation, it is desirable that all necessary information be displayed, since a work omission may cause a trouble.
  • Non-Patent Document 2 Lin et al.'S optimization problem definition (Non-Patent Document 2) for selecting a combination of sentences having the least number of words and including a certain percentage or more of the words included in a given sentence set (Non-Patent Document 2)
  • a solution by the method (Non-Patent Document 3) has been proposed. The outline of this method is as follows.
  • this method is different from the method that is most frequently used in a multi-document summarization and restricts the upper limit of the number of words.
  • is not an objective function but a constraint so that the summarization sentence is within a certain number of words.
  • visualization of a workflow there is no specific limitation on the number of words, and it is an important constraint to cover necessary information.
  • the constraint condition is a cover function f S (V) indicating the completeness of the information of the document, and the threshold value of the constraint specified by the user is not the number of words but the lower limit r of the coverage.
  • a summary sentence excluding redundant sentences can be created.
  • V the word included in the sentence in S
  • adding a sentence s including the word to V results in f s (V ) Tends to be large.
  • words already included in V do not increase f s (V) even if they are newly added. Therefore, in order to increase f s (V) with a small number of words, the technique of Lin et al. Can create a summary sentence so as to avoid including the same word in the summary sentence.
  • the work record contains words different for each event, such as a device name and a device number, and thus the algorithm end determination based on the threshold r may not operate properly.
  • words different for each event such as a device name and a device number
  • the present invention has been made in view of the above points, and it is an object of the present invention to provide a technique for calculating a summary consisting of a minimum set of sentences from a set of sentences.
  • input means for inputting a set of sentences
  • Summary sentence calculation means for calculating a summary sentence set from the sentence set
  • the summary sentence calculating means When a predetermined sentence is selected from the sentence set and the predetermined sentence is added to a new summary sentence set, an increase in the coverage ratio of the summary sentence set after addition to the coverage ratio of the summary sentence set before addition
  • the summary sentence set before addition is output and the process is terminated, and when the amount of increase is equal to or more than the first threshold
  • a summary sentence calculation apparatus is characterized in that a process for converting a summary sentence set after addition to a new summary sentence set is repeatedly executed until the process is completed.
  • FIG. 5 is a diagram illustrating an example of a workflow generated by a workflow generation unit.
  • FIG. 14 is a diagram illustrating an example of a workflow in which an action is simply displayed by a summary sentence calculation unit.
  • It is a hardware block diagram of a summary sentence display device. It is a flowchart of a process of a summary sentence calculation part. It is a figure for explaining the example of the processing of a summary sentence calculation part.
  • FIG. 2 shows a functional configuration diagram of the summary sentence display device 100 according to the embodiment of the present invention.
  • the summary sentence display device 100 according to the present embodiment is a device that determines a sentence to be displayed at each node of a graph called an action in a workflow, and displays the workflow.
  • the summary sentence display device 100 includes a work record DB 110, a workflow generation unit 120, a summary sentence calculation unit 130, and an input / output interface 140.
  • the summary sentence display device 100 may be referred to as a summary sentence calculation device.
  • the summary sentence calculation unit 130 may be configured as one device, and the device may be referred to as the summary sentence calculation unit 130.
  • the work record DB 110 stores information on causes and work records in past failures.
  • the work record information is a set of work record sentences in which work contents are recorded.
  • the set of work record sentences is input from the input / output interface 140 and stored in the work record DB 110.
  • FIG. 3 shows an example of a set of sentences stored in the work record DB 110. As shown in FIG. 3, the same contents are recorded in different expressions in the document data.
  • the workflow generation unit 120 reads a set of work record sentences from the work record DB 110 based on designation of a work record for generating a workflow from the input / output interface 140, and performs an action and a Generate a graph with transitions between actions as a workflow.
  • a workflow is composed of an action and its transition, and the action is a set of sentences indicating the same operation or the like in the input work record.
  • the workflow generation unit 110 finds a sentence indicating the same action in a document by defining the similarity between sentences and finding a combination of sentences that maximizes the similarity. Then, by connecting the found actions according to the description order of the sentence in the document, the transition between the action and the next action is drawn, and the workflow is visualized.
  • FIG. 4 shows an example of a workflow generated based on the work record of FIG.
  • the summary sentence calculation unit 130 performs a summarization process on each action included in the workflow obtained by the workflow generation unit 120.
  • the summary sentence calculation unit 130 is provided with a set of all sentences indicating the same action as an input.
  • the summary sentence calculation unit 130 outputs a sentence or a set of sentences to be displayed at each node of the graph indicating the action. The output sentence or set of sentences does not become longer than the set of input sentences, and is displayed more simplified.
  • the summary sentence calculation unit 130 can comprehensively display information included in a given sentence set and display a sentence to be displayed by each action in the workflow, and hide a slight difference in words as not being exhaustive. It is calculated as the minimum necessary sentence. Then, the display sentence is presented to the user through the input / output interface 140.
  • FIG. 5 shows an example of a workflow using the summary sentence calculated by the summary sentence calculation unit 130 when the work record shown in FIG. 3 is used.
  • FIG. 5 shows an example of a workflow using the summary sentence calculated by the summary sentence calculation unit 130 when the work record shown in FIG. 3 is used.
  • the summary sentence calculation unit 130 calculates the summary sentence based on the summary sentence calculated by the summary sentence calculation unit 130 when the work record shown in FIG. 3 is used.
  • the sixth action touches on the arrangement of spare parts, which is supplementary information
  • two sentences are displayed without being summarized.
  • the display amount of each node indicating the action is reduced, and it is understood that the readability is higher than that of the workflow in FIG.
  • the above-described summary sentence display device 100 can be realized, for example, by causing a computer to execute a program describing the processing content described in the present embodiment.
  • the summary sentence display device 100 can be realized by executing a program corresponding to the processing executed by the summary sentence display device 100 using hardware resources such as a CPU and a memory built in the computer. It is.
  • the above-mentioned program can be recorded on a computer-readable recording medium (a portable memory or the like) and can be stored or distributed. Further, it is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 6 is a diagram illustrating an example of a hardware configuration of the computer according to the present embodiment.
  • the computer in FIG. 6 includes a drive device 150, an auxiliary storage device 152, a memory device 153, a CPU 154, an interface device 155, a display device 156, an input device 157, and the like, which are interconnected by a bus B.
  • the program for realizing the processing in the computer is provided by a recording medium 151 such as a CD-ROM or a memory card.
  • a recording medium 151 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 151 to the auxiliary storage device 152 via the drive device 150.
  • the program need not always be installed from the recording medium 151, and may be downloaded from another computer via a network.
  • the auxiliary storage device 152 stores installed programs and also stores necessary files and data.
  • the memory device 153 reads the program from the auxiliary storage device 152 and stores it when there is an instruction to start the program.
  • the CPU 154 implements functions related to the summary sentence display device 100 according to a program stored in the memory device 153.
  • the interface device 155 is used as an interface for connecting to a network.
  • the display device 156 displays a GUI (Graphical User Interface) or the like by a program.
  • the input device 157 includes a keyboard, a mouse, buttons, a touch panel, and the like, and is used to input various operation instructions.
  • V is a set of sentences to be input to the summary sentence calculation unit 130, and V ⁇ S is a subset in which one of the sentences is selected from S. Since V represents a set of sentences to be summarized (including the case where the number of sentences is one), this V may be referred to as a set of summary sentences. Further, of all the words included in S, the ratio of words included in any sentence of V is represented by f s (V). As already described, f S (V) is called a coverage because it represents how much the word of V can cover the word of S.
  • Summary calculation unit 130 is basically of the S, by selecting one by one the text to most increase f S (V) s *, in addition to V until f S (V) ⁇ r Go. However, when a new sentence s * is selected for V, the summary sentence calculation unit 130 calculates fs (V ⁇ ⁇ s * ⁇ ) ⁇ fs (V) and obtains fs (V ⁇ ⁇ s * ⁇ ) If ⁇ fs (V) ⁇ , the sentence s * is not added to V, the current V is output, and the processing is terminated.
  • is a threshold given in advance. That is, if the increase amount of the coverage is less than a certain threshold, the summary sentence calculation unit 130 outputs V at that time and ends the process.
  • the pseudo code indicating the processing procedure of the summary sentence calculation unit 130 is as follows. As described above,
  • represents the number of words included in the sentence s. Note that the processing contents indicated by the following codes (and processing procedures described later with reference to FIG. 7) are examples. If a method is used as a determination condition to determine how much the amount of information is increased by a newly added sentence, it is limited to the processing contents indicated by the following codes (and processing procedures described later with reference to FIG. 7). Do not mean. Let V ⁇ .
  • V V ⁇ s * ⁇ Return V as a solution.
  • the condition at if indicates that the amount of increase in the coverage when a new s * is added is less than the threshold. That is, when the coverage does not increase by a certain amount or more for a newly added sentence, it is considered that the information added to the sentence added to V before s has a large overlap, and the addition is not performed.
  • step 1 the summary sentence calculation unit 130 initializes V to an empty set.
  • the summary sentence calculation unit 130 determines whether or not the coverage is equal to or less than r. If the determination result is No, the process proceeds to S5 and outputs V as a solution. If the determination result is Yes, the process proceeds to S3.
  • summary calculation unit 130 "(f S (V ⁇ ⁇ s ⁇ ) - f S (V)) /
  • the summary sentence calculation unit 130 determines whether or not the increase in the coverage when the sentence s * is added is less than the threshold ⁇ . If the determination result is Yes, the process proceeds to S5 and outputs V as a solution. If the determination result is No, the process proceeds to S6.
  • the summary sentence calculation unit 130 sets V obtained by adding the sentence s * to V as a new V. After S6, the process is executed again from S2.
  • FIG. 8A As in the case of FIG. 1, a set of 50 sentences “port 1 exchange”, “port 2 exchange”,... Further, the lower limit r of the coverage is set to 0.7, and ⁇ is set to 0.02.
  • the summary sentence calculation unit 130 selects a sentence 1 (port01 exchange) as the sentence s *.
  • fs (V ⁇ ⁇ s * ⁇ )-fs (V) is 0.51, which does not satisfy the condition of “fs (V ⁇ ⁇ s * ⁇ )-fs (V) ⁇ ”.
  • fs (V ⁇ ⁇ s * ⁇ ) 0.51, satisfies "f S (V) ⁇ r".
  • the summary sentence calculation unit 130 selects sentence 2 (port02 exchange) as sentence s *.
  • summary sentence calculating means for calculating a summary sentence set from the set of sentences, wherein the summary sentence calculating means comprises: , When a predetermined sentence is selected from the sentence set and the predetermined sentence is added to a new summary sentence set, the coverage ratio of the summary sentence set after the addition and the coverage ratio of the summary sentence set before the addition Calculating the increase amount, and when the increase amount is less than the first threshold value, outputting the summary sentence before addition and terminating the processing; when the increase amount is equal to or more than the first threshold value,
  • a summary sentence calculation apparatus is characterized in that the process of converting the added summary sentence set into a new summary sentence set is repeatedly executed until the processing is completed.
  • the summary sentence calculation unit 130 is an example of an input unit and a summary sentence calculation unit
  • the summary sentence display device 100 is an example of a summary sentence calculation device.
  • the summary sentence calculating means outputs the added summary sentence set, for example, when the coverage rate of the added summary sentence set is greater than a second threshold, and ends the process.
  • the predetermined sentence is, for example, a sentence that maximizes the coverage ratio of the summary sentence set after the addition to the coverage ratio of the summary sentence set before the addition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

要約文算出装置において、文の集合を入力する入力手段と、前記文の集合から要約文集合を算出する要約文算出手段と、を備え、前記要約文算出手段は、前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する。

Description

要約文算出装置、要約文算出方法、及びプログラム
 本発明は、文の集合から要約文を算出する技術に関連するものである。当該技術の適用分野の例として、作業記録文書からアクション列を可視化する業務フロー可視化システムがある。
 大規模化・構成機器の多様化が進むITシステムにおいては、発生故障の種類の多様化と故障の複雑化が問題となっている。故障の多様化と複雑化は、発生した異常の原因の特定と対処の判断を困難にして、故障から復旧までの時間を長期化させる。
 対応判断の遅れによる復旧の遅延を防ぐために、故障対応のプロセスをワークフローと呼ばれる形式で可視化する技術(非特許文献1、特許文献1~3)がある。当該技術では、故障発生時に、過去に同じ故障原因が発生したときの作業を記録した文書をデータベースから取り出し、文書から故障対応のプロセスを解析し、ワークフローと呼ぶグラフで可視化する。ワークフローの可視化は、同一の作業や状態を示す文やシンボル列(アクション)の抽出と、アクションの遷移を可視化することからなる。
 各アクションの内容を表示する最も単純な方法は、同一アクションとみなされた文を、全て表示することである。しかし、この方法では入力に与えられたデータのアクションに該当する文の全てが表示される。例えば一つのアクションを示す文が十数個も出現すると、視認性を著しく低下させる。同じアクションを示す文である以上、冗長な記述を減らすことが求められる。
 すなわち、アクションの表示においては、可読性の観点で、必要最低限の文でアクションを記述することが求められる。
 必要最低限の文でアクションを記述するために、例えば同じアクションを示す文の内いずれか一つだけを表示する方法が考えられる。しかしながら、この方法では重要な記述が見逃される可能性がある。同一のアクションを示す文の判定は、ミスなく行われるとは限らない。仮に重要なアクションを示す文が誤って他のアクションと同一とみなされた場合、単一文の表示ではどちらかのアクションがワークフロー上に表示されなくなる。また、アクションの記述の中には補足情報が記載されていることもあり、ランダムな文の選択では、価値のある補足情報が非表示になる可能性もある。システムオペレーションにおいては作業漏れが障害を起こし得るため、必要な情報は残さず表示されることが望ましい。
 必要最低限の文でアクションを記述するために、従来の要約文算出手法を用いることが考えられる。従来の要約文算出手法として、与えられた文の集合に含まれる単語を一定割合以上含んだ、最も単語数の少ない文の組み合わせを選び出すLinらの最適化問題定義(非特許文献2)及び貪欲法によるその解法(非特許文献3)が提案されている。この手法の概要は下記のとおりである。
 入力となる文の集合をSとし、Sのうちいずれかの文を選択した部分集合をV⊆Sとする。更に、Sに含まれる全ての単語のうち、Vのいずれかの文に含まれる単語の割合をf(V)で表す。f(V)はVの単語だけでSの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。V=Sのときf(V)=1であり、V=Φのときf(V)=0である。Linらの手法を用いた要約文算出では、指定した閾値0≦r≦1よりもf(V)が大きいVの内、Vに含まれる文の単語数の合計が最も少ないVを求める。
 上記の問題を数式で表すと、次のようになる。
 min.Σs∈V|s|、subject to.f(V)≧r。
 上記の式において、|s|は文sに含まれる単語の数を表す。上記の最小化問題はNP困難であるが、非特許文献3の貪欲法に基づく解法では、精度が保証された近似解が得られる。この方法では、Sの内、f(V)を最も増加させる文v*を一つずつ選んで、f(V)≧rとなるまでVに追加していく。この方法の擬似コードを下記に示す。
 V=Φとする。
 While f(V)≦r:
 v*=argmaxs∈S(f(V∪{s})-f(V))/|s|
 V=V∪{v*}
 Vを解として返す。
 なお、この手法は複数文書要約で最も多く用いられる、単語数の上限を制約とした手法とは異なる。複数文書要約では、一定の単語数以下に要約文が収まるよう、Σs∈V|s|を目的関数でなく制約条件とした手法が多い。しかしながら、ワークフローの可視化においては単語数に特定の限定がなく、必要な情報を網羅していることが重要な制約となる。
 そのため、制約条件は文書の情報の網羅性を示すカバー関数f(V)であり、利用者によって指定される制約の閾値は、単語数ではなくカバー率の下限rで与えられる。
 Linらの手法により、冗長な文を除いた要約文が作成可能となる。上述したとおり、アクションの説明表示においては、同一アクションと判定された文の集合に含まれる情報全てを、冗長な記述を省きながら表示する必要がある。Linらの手法で、S中の文に多数含まれる単語があったとき、その単語を含む文sをVに追加すると、その単語を含まない文を追加した場合に比べて、f(V)は大きくなりやすい。加えて、既にVに含まれている単語は、新たに追加されてもf(V)を大きくしない。そのため、少ない単語数でf(V)を大きくするために、Linらの手法では、同一の単語を要約文に含むことを避けるように、要約文を作成することができる。
特開2016-53871号公報 特開2018-55327号公報 特開2017-228094号公報
Akio Watanabe, Keisuke Ishibashi, Tsuyoshi Toyono,  Keishiro Watanabe, Tatsuaki Kimura,  Yoichi Matsuo, Kohei Shiomoto and Ryoichi Kawahara ``Workflow Extraction for Service Operation Using Multiple Unstructured Trouble Tickets,'' IEICE Transactions on Information and Systems, E101-D, No.4, pp. 1030-1041, 2018. Hui Lin and Jeff Bilmes, "A Class of Submodular Functions for Document Summarization,'' In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 510-520. 2011 Laurence A. Wolsey, ``An analysis of the greedy algorithm for the submodular set covering problem,'' Combinatorica, Vol. 2, No. 4, pp. 385-393, 1982.
 従来技術であるLinらの手法に基づく貪欲法では、f(V)を最も増加させる文を一つずつ選択する処理を繰り返し、これまでに選択した文で全文の単語のどれだけをカバーしたかのみを文の選択基準にする。
 しかし、実際には、作業記録には装置名や装置番号のような、事象ごとに異なる単語が存在するために、閾値rによるアルゴリズム終了判定が適切に動作しない場合がある。そのような例を図1を参照して説明する。
 図1の(a)に示すように、"ポート1交換"、"ポート2交換"、…という、ポート番号のみが異なる文が50個集まった集合を考える。このとき、文集合全体に対して不変箇所の"交換"という単語のカバー率が全体の約半数、可変箇所であるポート番号ごとのカバー率が0.01であるため、カバー率の下限rを仮に0.7と設定すると、図1の(b)に示したように、殆ど同じ意味を示す文が20個選択されてしまう。
 このように作業記録では、装置名のような文ごとに異なる単語が、カバー率の多くを占めることがある。そのために従来技術では、カバー率を上昇させるために、僅かな単語の違いのみを持つ文も網羅するように要約を作成してしまい、冗長な記述が多く残る不十分な要約となる課題があった。
 本発明は上記の点に鑑みてなされたものであり、文の集合から、必要最低限の文の集合からなる要約を算出する技術を提供することを目的とする。
 開示の技術によれば、文の集合を入力する入力手段と、
 前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
 前記要約文算出手段は、
 前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
 ことを特徴とする要約文算出装置が提供される。
 開示の技術によれば、文の集合から、必要最低限の文の集合からなる要約を算出することが可能となる。
課題を説明するための図である。 実施の形態における要約文表示装置の機能構成図である。 作業記録DBに格納された情報の例を示す図である。 ワークフロー生成部により生成されるワークフローの例を示す図である。 要約文算出部によりアクションを簡易表示したワークフローの例を示す図である。 要約文表示装置のハードウェア構成図である。 要約文算出部の処理のフローチャートである。 要約文算出部の処理の具体例を説明するための図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 以下で説明する実施の形態では、本発明をワークフローの表示に適用する例を示しているが、本発明は、ワークフローの表示に限らずに、様々な技術分野に適用可能である。
 (装置の機能構成、全体動作)
 図2に、本発明の実施の形態における要約文表示装置100の機能構成図を示す。本実施の形態における要約文表示装置100は、ワークフローにおける、アクションと呼ばれるグラフの各ノードに表示する文を決定し、ワークフローを表示する装置である。
 図2に示すように、要約文表示装置100は、作業記録DB110、ワークフロー生成部120、要約文算出部130、及び入出力インタフェース140を有する。なお、要約文表示装置100を、要約文算出装置と称してもよい。また、要約文算出部130を1つの装置として構成してもよく、当該装置を要約文算出部130と称してもよい。
 作業記録DB110は、過去の故障における原因及び作業記録の情報を蓄積する。作業記録の情報は、作業内容を記録した作業記録文の集合である。当該作業記録文の集合は、入出力インタフェース140から入力され、作業記録DB110に格納される。作業記録DB110に格納される文の集合の例を図3に示す。図3に示されるように、当該文書データにおいては、同一の内容が異なる表現で記録されている。
 ワークフロー生成部120は、入出力インタフェース140からのワークフローを生成する作業記録の指定に基づき、作業記録DB110から作業記録の文の集合を読み出し、例えば非特許文献1に示す方法を用いて、アクションとアクション間の遷移を持つグラフをワークフローとして生成する。ワークフローはアクションとその遷移から構成され、アクションとは入力の作業記録における同一の動作等を示す文の集合である。
 より具体的には、ワークフロー生成部110は、文同士の類似度を定義し、類似度を最大化する文の組み合わせを見つけることで、文書中の同一アクションを示す文を発見する。そして、発見したアクションを、文書中の文の記述順序に従って繋ぐことで、アクションと次のアクションへの遷移を描き、ワークフローを可視化する。図3の作業記録に基づいて生成されたワークフローの例を図4に示す。
 要約文算出部130は、ワークフロー生成部120で得たワークフローに含まれる、それぞれのアクションに対して要約処理を行う。要約文算出部130へは、入力として、同一のアクションを示す文全ての集合が与えられる。また、要約文算出部130は、アクションを示すグラフの各ノードに表示する文又は文の集合を出力する。出力の文又は文の集合が、入力の文の集合より長くなることは無く、より簡約化されて表示される。
 すなわち、要約文算出部130は、ワークフローにおける各アクションで表示を行う文を、与えられた文集合に含まれる情報を網羅的に表示でき、かつ僅かな単語の違いは網羅不要として非表示とするような、必要最低限の文として算出する。そして表示文を、入出力インタフェース140を通じて利用者に提示する。
 図5に、図3で示した作業記録を用いた場合において、要約文算出部130により算出された要約文を用いたワークフローの例を示す。図5に示すとおり、殆どのアクションでは、記述内容が同一であるため、1文のみが表示されている。6つ目のアクションのみ、補足情報である予備部材の手配について触れていることから、要約されずに2文が表示されている。このように図5ではアクションを示す各ノードの表示量が削減され、図4のワークフローと比較して可読性が高いことがわかる。
 このように、同一アクションと判定された文に含まれる情報全てを、冗長な記述を省きながら表示することで、冗長なアクションの記述による視認性低下と、作業の表示漏れによるオペレーションミスの防止の2点を防ぐことができる。
 要約文算出部130におけるより詳細な処理内容については後述する。
 (ハードウェア構成例)
 上述した要約文表示装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
 すなわち、要約文表示装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、要約文表示装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図6は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図6のコンピュータは、それぞれバスBで相互に接続されているドライブ装置150、補助記憶装置152、メモリ装置153、CPU154、インタフェース装置155、表示装置156、及び入力装置157等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体151によって提供される。プログラムを記憶した記録媒体151がドライブ装置150にセットされると、プログラムが記録媒体151からドライブ装置150を介して補助記憶装置152にインストールされる。但し、プログラムのインストールは必ずしも記録媒体151より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置152は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置153は、プログラムの起動指示があった場合に、補助記憶装置152からプログラムを読み出して格納する。CPU154は、メモリ装置153に格納されたプログラムに従って、要約文表示装置100に係る機能を実現する。インタフェース装置155は、ネットワークに接続するためのインタフェースとして用いられる。表示装置156はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置157はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
 (要約文算出部130の処理の詳細)
 以下、本実施の形態における要約文算出部130の処理内容をより詳細に説明する。
 要約文算出部130において、Linらの手法(非特許文献2、3)を踏襲しつつ、新たに追加される文によって情報量(具体的にはカバー率)がどれだけ増加するかも判定条件に用いることとしている。具体的には下記のとおりである。
 要約文算出部130への入力となる文の集合をSとし、Sのうちいずれかの文を選択した部分集合をV⊆Sとする。このVは、要約となる文の集合(文の数が1つである場合を含む)を表すので、これを要約文集合と呼んでもよい。更に、Sに含まれる全ての単語のうち、Vのいずれかの文に含まれる単語の割合をf(V)で表す。既に説明したとおり、f(V)はVの単語だけでSの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。
 要約文算出部130は、基本的には、Sの内、f(V)を最も増加させる文s*を一つずつ選んで、f(V)≧rとなるまでVに追加していく。ただし、要約文算出部130は、Vに対して、新たに文s*を選択した際に、fs(V∪{s*})-fs(V)を計算し、fs(V∪{s*})-fs(V)<θであれば、文s*をVに追加せず、その時点のVを出力して処理を終了する。θは予め与えられる閾値である。すなわち、要約文算出部130は、カバー率の増加量が、ある閾値未満であれば、その時点のVを出力して処理を終了する。
 要約文算出部130の処理手順を示す疑似コードは下記のとおりである。既に説明したように、|s|は文sに含まれる単語の数を表す。なお、下記のコードに示される処理内容(及び図7を参照して後述する処理手順)は一例である。新たに追加される文によって情報量がどれだけ増加するかを判定条件に用いる方法であれば、下記のコードで示される処理内容(及び図7を参照して後述する処理手順)に限定されるわけではない。
V=Φとする。
While f(V)≦r:
 s*=argmaxs∈S(f(V∪{s})-f(V))/|s|
 if fs(V∪{s*})-fs(V)<θ:
 Vを解として返す。
 V=V∪{s*}
Vを解として返す。
 閾値rでの終了判定がカバー率の総量を用いるのに対し、上記のifでの条件は、新たにs*を追加したときのカバー率の増加量が閾値未満であることを示す。即ち、新規に追加される文でカバー率が一定以上上昇しない場合、sよりも前にVに追加した文と情報の重なりが大きいと考えて、追加を行わない。
 なお、従来の多くの文書要約では決められた文字数等条件に収まるよう文書を要約するため、情報量が所定の要件を満たすことに主眼をおいた本実施の形態における上記のような終了条件を使用する処理は、従来技術において類似したものがない。
 上記の擬似コードに基づいて要約文算出部130が実行する処理手順を図7のフローチャートを参照して説明する。図7のフローチャートの前提として、要約文算出部130にはSが既に入力されているとする。
 S1(ステップ1)において、要約文算出部130はVを空集合に初期化する。
 S2において、要約文算出部130は、カバー率がr以下であるか否かを判定し、判定結果がNoであればS5に進んでVを解として出力する。判定結果がYesであればS3に進む。
 S3において、要約文算出部130は、「(f(V∪{s})-f(V))/|s|」を最大化する文である文s*をSから選択する。
 S4において、要約文算出部130は、文s*を追加したときのカバー率の増加量が閾値θ未満であるか否かを判定する。判定結果がYesであればS5に進んでVを解として出力する。判定結果がNoであればS6に進む。
 S6において、要約文算出部130は、Vに文s*を追加したものを新たなVとする。S6の後、再びS2から処理が実行される。
 上述した要約文算出部130の処理の具体例を図8を参照して説明する。図8の(a)に示すように、図1の場合と同じく、"ポート1交換"、"ポート2交換"、…という、ポート番号のみが異なる文が50個集まった集合をSとする。また、カバー率の下限rを0.7とし、θを0.02とする。
 (b)に示すように、まず、要約文算出部130は、文s*として文1(port01交換)を選択する。このとき、fs(V∪{s*})-fs(V)は0.51であり、「fs(V∪{s*})-fs(V)<θ」の条件を満たさず、また、fs(V∪{s*})=0.51であり、「f(V)≦r」を満たす。
 よって、(c)に進み、要約文算出部130は、文s*として文2(port02交換)を選択する。このとき、fs(V∪{s*})-fs(V)は0.52-0.51=0.01であり、「fs(V∪{s*})-fs(V)<θ」の条件を満たす。よって、「f(V)≦r」を満たしていても、(d)に示すように、V(=port01交換)を出力して処理を終了する。
 このように、要約文算出部130の処理により、重なりの多い分の不要な表示を回避できる。
 (実施の形態の効果)
 本実施の形態により、従来技術のワークフローと比べて、各アクションの示す動作がより簡潔なワークフローを作成可能となる。そのため、迅速な故障対応が求められるシステム運用において、いち早く行うべき動作を把握し、迅速な対処が可能となる。
 (実施の形態のまとめ)
 以上説明したように、本実施の形態によれば、文の集合を入力する入力手段と、前記文の集合から要約文集合を算出する要約文算出手段と、を備え、前記要約文算出手段は、前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行することを特徴とする要約文算出装置が提供される。
 要約文算出部130は、入力手段及び要約文算出手段の例であり、要約文表示装置100は、要約文算出装置の例である。
 前記要約文算出手段は、例えば、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する。また、前記所定の文は、例えば、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 要約文表示装置
110 作業記録DB
120 ワークフロー生成部
130 要約文算出部
140 入出力インタフェース
150 ドライブ装置
151 記録媒体
152 補助記憶装置
153 メモリ装置
154 CPU
155 インターフェース装置
156 表示装置
157 入力装置

Claims (7)

  1.  文の集合を入力する入力手段と、
     前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
     前記要約文算出手段は、
     前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
     ことを特徴とする要約文算出装置。
  2.  前記要約文算出手段は、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
     ことを特徴とする請求項1に記載の要約文算出装置。
  3.  前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
     ことを特徴とする請求項1又は2に記載の要約文算出装置。
  4.  要約文算出装置が実行する要約文算出方法であって、
     文の集合を入力する入力ステップと、
     前記文の集合から要約文集合を算出する要約文算出ステップと、を備え、
     前記要約文算出ステップにおいて、前記要約文算出装置は、
     前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
     ことを特徴とする要約文算出方法。
  5.  前記要約文算出ステップにおいて、前記要約文算出装置は、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
     ことを特徴とする請求項4に記載の要約文算出方法。
  6.  前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
     ことを特徴とする請求項4又は5に記載の要約文算出方法。
  7.  コンピュータを、請求項1ないし3のうちいずれか1項に記載の要約文算出装置における各手段として機能させるためのプログラム。
PCT/JP2019/030728 2018-08-06 2019-08-05 要約文算出装置、要約文算出方法、及びプログラム WO2020031959A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/264,132 US20210303774A1 (en) 2018-08-06 2019-08-05 Summary sentence calculation apparatus, summary sentence calculation method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018147837A JP7035893B2 (ja) 2018-08-06 2018-08-06 要約文算出装置、要約文算出方法、及びプログラム
JP2018-147837 2018-08-06

Publications (1)

Publication Number Publication Date
WO2020031959A1 true WO2020031959A1 (ja) 2020-02-13

Family

ID=69413587

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/030728 WO2020031959A1 (ja) 2018-08-06 2019-08-05 要約文算出装置、要約文算出方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210303774A1 (ja)
JP (1) JP7035893B2 (ja)
WO (1) WO2020031959A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171330A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2013206433A (ja) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017174059A (ja) * 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
CN106844139A (zh) * 2016-12-19 2017-06-13 广州视源电子科技股份有限公司 一种日志文件分析方法及装置
US10949452B2 (en) * 2017-12-26 2021-03-16 Adobe Inc. Constructing content based on multi-sentence compression of source content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171330A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2013206433A (ja) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017174059A (ja) * 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US20210303774A1 (en) 2021-09-30
JP2020024512A (ja) 2020-02-13
JP7035893B2 (ja) 2022-03-15

Similar Documents

Publication Publication Date Title
US9250993B2 (en) Automatic generation of actionable recommendations from problem reports
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
US10073827B2 (en) Method and system to generate a process flow diagram
US10409848B2 (en) Text mining system, text mining method, and program
KR102636493B1 (ko) 의료 데이터 검증 방법, 장치 및 전자 기기
US8111922B2 (en) Bi-directional handwriting insertion and correction
JP2021099582A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5526057B2 (ja) データ分析支援装置およびプログラム
WO2020031959A1 (ja) 要約文算出装置、要約文算出方法、及びプログラム
US10257055B2 (en) Search for a ticket relevant to a current ticket
JP5482236B2 (ja) プログラムおよび情報処理装置
JP2012511759A (ja) ユーザ指定された語句入力学習
JP6790921B2 (ja) プログラム分析装置、プログラム分析方法及びプログラム分析プログラム
US9858113B2 (en) Creating execution flow by associating execution component information with task name
JP2020530629A (ja) データレコード内のフォーマットを動的に定義する技術
JP6589704B2 (ja) 文境界推定装置、方法およびプログラム
WO2021166231A1 (ja) シナリオ生成装置、シナリオ生成方法、及びコンピュータ読み取り可能な記録媒体
US20220138434A1 (en) Generation apparatus, generation method and program
US20130086085A1 (en) Computer product, analysis support method, analysis support apparatus, and system
JP2006031326A (ja) 情報処理装置及び情報処理方法及びプログラム
JP7216680B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019086934A (ja) 文書検索装置および方法
JP2014146076A (ja) 文字列抽出方法、文字列抽出装置、および文字列抽出プログラム
US20240078559A1 (en) System and method for suggesting and generating a customer service template
JP6884172B2 (ja) 計算機システム及び文書の評価方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19846834

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19846834

Country of ref document: EP

Kind code of ref document: A1