JP2009146397A - 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 - Google Patents
重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2009146397A JP2009146397A JP2008292621A JP2008292621A JP2009146397A JP 2009146397 A JP2009146397 A JP 2009146397A JP 2008292621 A JP2008292621 A JP 2008292621A JP 2008292621 A JP2008292621 A JP 2008292621A JP 2009146397 A JP2009146397 A JP 2009146397A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- document
- content keyword
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】不具合事例文書などの大量の文書の中から、例えば、原因や対策が記述された文のような重要な文を精度よく抽出できるようにする。
【解決手段】不具合事例の文書の内容を特定するコンテンツキーワード、例えば、部品を示すコンテンツキーワードおよび故障の状態を示すコンテンツキーワード、および、ユーザが重要であると考える箇所を特定するコンテキストキーワード、例えば、故障の原因や対策が記述される文脈で使用頻度が高いコンテキストキーワードを含む文を、重要な文として抽出するようにしている。
【選択図】図15
【解決手段】不具合事例の文書の内容を特定するコンテンツキーワード、例えば、部品を示すコンテンツキーワードおよび故障の状態を示すコンテンツキーワード、および、ユーザが重要であると考える箇所を特定するコンテキストキーワード、例えば、故障の原因や対策が記述される文脈で使用頻度が高いコンテキストキーワードを含む文を、重要な文として抽出するようにしている。
【選択図】図15
Description
本発明は、製品の不良やクレームなどの不具合事例の文書や保健指導の対話を記録したカウンセリング事例の文書などの大量の文書の中から重要な文を抽出するのに好適な技術に関する。
従来から、製品設計等に関する問題を故障モードに基づいて抽出し、設計段階で使用時に発生する問題を明らかにすることを目的とした手法であるFMEA(Failure Mode and Effects Analysis:故障モード影響解析)が知られている(例えば、特許文献1参照)。
かかるFMEAでは、一般に、予想される不良発生パターンを抽出し、各不良発生パターンを製品の構成要素、例えば、部品毎に区分し、その不良特有の現象や、影響、原因、対策などを記載した一覧表、いわゆるFMEAシートを作成し、故障や不具合を未然に防止するものである。
このFMEAシートの作成は、設計者の知識、経験に依存する場合が多く、このため、設計者の知識、経験の相違によってFMEAシートにばらつきが生じることになる。かかるばらつきを抑制するには、過去に生じた生産現場での不良や市場におけるクレームなどのトラブルについて事例を蓄積し、設計者が網羅的に参照して効率的に活用できるようにすることが望まれる。
かかるトラブル事例などの不具合事例は、一般に、報告書等の文書として存在する場合が多く、かかる不具合事例の文書を、効率的に活用するためには、検索や集計が行なえるように、不具合事例の文書を分類する必要がある。
不具合事例の文書の内、例えば、機種などの項目は、そのままデータベースに登録すれば、分類できるけれども、不具合の原因やその対策は、様々なフォーマットで自由に記述されている場合が多く、このため、不具合事例の文書の中身を確認して、原因や対策の記述箇所を抽出して、整理する必要があるが、不具合事例の文書が大量に存在する場合には、人手で大量の文書の中から原因や対策が記述された文を抽出して整理するのは困難である。
大量の文書データの中から知識を抽出する技術として、文書中の各文の構文構造を解析し構文木を構築する言語解析装置と、構文木の中から頻出するパターンを発見するパターン抽出装置とを有し、文書中に頻出する単語の構文的なパターンを抽出するものがある(特許文献2参照)。
特開2006−4219号公報
特許第3353829号
例えば、上述の原因や対策が記述された文書には、通常、その原因を究明するために行った調査過程のデータなども含まれており、上記特許文献2では、頻出パターンを抽出するものであるために、原因や対策とは直接関係しない調査過程の記述であっても、抽出してしまう場合があるという課題がある。
本発明は、上述のような点に鑑みて為されたものであって、不具合事例文書などの大量の文書の中からユーザが重要であると考える文、例えば、原因や対策が記述された文のような重要な文を精度よく抽出できるようにすることを目的とする。
(1)本発明の重要文抽出方法は、文書の中から重要な文を抽出する重要文抽出方法であって、前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成ステップと、前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定ステップと、決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出ステップとを含んでいる。
文書とは、過去に発生したトラブルに関連する不具合事例の文書、保健師と患者との保健指導の対話を記録したカウンセリング事例の文書、コールセンターの対話を記録した文書、あるいは、自由記述式のアンケートの回答文書などの各種の文書をいう。
コンテンツキーワードは、文書の内容を特定するキーワードであり、例えば、不具合事例の文書であれば、何についてのどのような不具合、例えば、どの部品のどのような故障状態であるかを特定するキーワードであり、より具体的には、部品を示すキーワードやその部品の故障状態を示すキーワードであるのが好ましい。
コンテンツキーワードは、不具合事例の文書やカウンセリング事例の文書といった文書の種類に応じて、複数のコンテンツキーワードを予めコンテンツキーワード辞書に準備しておき、重要文を抽出する対象の文書に応じて、前記複数のコンテンツキーワードの内から重要文を抽出するのに用いるコンテンツキーワードを決定する。
コンテキストキーワードは、文書中における重要な記述箇所を特定するキーワードであり、ユーザが重要であると考える記述箇所を特定するためのキーワードである。例えば、不具合事例の文書であって、ユーザが、不具合の原因や対策を重要であると考える場合には、不具合に対する原因や対策の記述箇所を特定するキーワードであり、原因や対策が記述されている文脈で使用される頻度が高いキーワードであるのが好ましい。
コンテンツキーワードおよびコンテキストキーワードは、いずれも助詞や助動詞といった機能語以外の一般的な意味を持つ名詞や動詞などの単語であって、形態素解析によって抽出できる単語であるのが好ましい。
コンテンツキーワードは、文書の内容を特定するものであるため、コンテンツキーワード辞書は、不具合事例の文書やカウンセリング事例の文書といった文書の種類に応じて作成する必要がある。対象とする文書が、例えば、不具合事例の文書であって、部品を示す単語やその部品の故障状態を示す単語を、コンテンツキーワードとして登録する場合に、部品や故障といった項目毎に分類されているFMEAシートなどが既に存在するときには、そのFMEAシートの部品や故障の項目の単語を流用してコンテンツキーワードを作成してもよい。
抽出される重要な文には、決定されたコンテンツキーワードおよびコンテキストキーワードを、それぞれ少なくとも1個含んでいればよい。また、抽出される重要な文が含むべきコンテンツキーワードおよびコンテキストキーワードの個数を、ユーザが指定できるようにしてもよい。
本発明の重要文抽出方法によると、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも2種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要でないと考える記述箇所は、たとえ頻出パターンであっても抽出されることがない。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因、対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
(2)本発明の重要文抽出方法の他の実施形態では、前記辞書作成ステップは、情報が項目別に分類された構造化済みデータを読み込むステップと、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する登録ステップとを含み、該登録ステップでは、前記構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録し、前記決定ステップは、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出するステップと、抽出した単語について、単語間の関連度を算出するステップと、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定するステップとを含み、コンテンツキーワードを決定する前記ステップでは、コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、コンテンツキーワードに決定する。
構造化済みデータとしては、対象とする文書が、例えば、不具合事例の文書の場合は、部品、故障などの項目毎に分類されたFMEAシートのデータなどを用いるのが好ましく、また、保健指導のカウンセリング事例の文書の場合は、食品、運動、カロリー量などの項目毎に分類された指導要綱のデータなどを用いるのが好ましい。
構造化済みデータ、例えば、FMEAシートでは、原因の項目や対策の項目では、部品や故障の項目とは異なり、単語ではなく、文で記述されている。
したがって、かかる項目の文に含まれている単語を、コンテンツキーワードとして登録するためには、形態素解析して単語を抽出し、コンテキストキーワード以外の単語であって、既に登録されているコンテンツキーワード以外の単語を、属性を付与してコンテンツキーワードとして登録すればよい。
構造化済みデータから選択した単語に付与する属性は、構造化済みデータの項目に対応した属性であるのが好ましい。
コンテンツキーワード辞書に単語を登録する際には、その単語の同義語および同義語内の代表語を付与して登録するのが好ましい。
形態素解析によって抽出した単語は、同義語の代表語に置換するのが好ましい。
前記「同じ単語」は、完全に一致する単語であってもよいし、同義語あるいは同義語の代表語であってもよい。
単語間の関連度は、単語の出現位置に基づく単語間の距離を用いて求めるようにしてもよい。
この実施形態によると、構造化済みデータを利用して効率的にコンテンツキーワード辞書を作成することができ、項目毎に分類されている構造化済みデータの所要の項目、例えば、FMEAシートであれば、部品の項目や故障の項目の単語を、そのままコンテンツキーワードとして登録することができる。
また、コンテンツキーワードとして、文書の内容を直接的に特定するキーワードのみではなく、文書の内容に関連するキーワードを登録することができる。
例えば、対象とする文書が不具合事例の文書であって、構造化済みデータがFMEAシートである場合には、文書の内容である不具合の内容を直接的に特定するFMEAシートの部品や故障の項目の単語のみならず、原因や対策の項目に記述されている文に含まれている不具合の原因や状態などに関連する単語もコンテンツキーワードとして登録することができる。これによって、不具合の内容に関連する単語を、コンテンツキーワードとして含む文、すなわち、不具合について、より具体的な情報を含む文を、重要な文として抽出することができる。
更に、この実施形態によると、読み込んだ文書に含まれるコンテンツキーワードと同じ単語について、他の単語との関連度を考慮して、重要な文を抽出するためのコンテンツキーワードとして決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
したがって、例えば、不具合事例の文書では、不具合の原因を調査するために行った調査結果のデータとして、例えば、多数のピン端子(ピン1〜ピン50)についての計測値の一覧といったデータが含まれる場合があるが、かかる場合に、「ピン」という単語が、高い頻度で出現しても、他の単語との関連度が低いために、抽出されることがなく、ユーザが、重要であると考えている、例えば、不具合の原因や対策が記述された文を精度よく抽出することができる。
また、属性毎に決定されたコンテンツキーワードを用いて、重要な文を抽出するので、精度の高い文の抽出が可能となる。
なお、本発明の他の実施形態として、単語間の関連度を算出することなく、出現頻度の高い単語を、重要な文を抽出するのに用いるコンテンツキーワードとして決定してもよい。この場合は、対象とする文書が、不具合事例の文書以外の文書であるのが好ましい。
(3)上記(2)の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
部品の故障の原因の記述箇所を特定する単語は、部品の故障の原因や対策が記述されている文脈で使用される頻度が高いキーワードであるのが好ましく、より具体的には、「原因」の記述箇所については、例えば、「原因」、「起因」、「判明」などの単語を用いることができ、「対策」の記述箇所については、例えば、「対策」、「実施」、「効果」、「防止」などの単語を用いることができる。
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
(4)上記(2)または(3)の実施形態では、前記文書に含まれる単語を補正する補正ステップを含み、前記補正ステップでは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正をするか否かを判定するようにしてもよい。
補正ステップにおける単語の補正は、対象とする文書に含まれる単語の表記上のゆらぎ、例えば、同義で表記の異なる同義語や意味が似通っている類義語などによる単語のゆらぎを補正するものである。特に、同義語や類義語を、代表語に置き換えて補正するのが好ましい。この代表語は、出現回数の多い単語としてもよいし、ユーザが定義してもよい。
補正すべき単語、例えば、同義語や類義語などは、構造化済みデータの項目の同一の項目に属する場合が多く、また、構造化済みデータの項目の特定の項目には、前記同義語や類義語などに関連して類似した内容が記述されている場合が多い。したがって、項目を考慮することなく、全体として見たときには、単語間の類似度が低いために、同義語や類義語とみなされない単語であっても、単語間の類似度を、項目毎に見ていくことによって、補正すべき単語である同義語や類義語などを精度よく見つけることができる。
この補正ステップは、文書の中から重要な文を抽出する前記抽出ステップに先立って行われるのが好ましい。
この実施形態によると、文書から抽出した単語を、構造化済みデータの項目毎に分類し、項目毎に、単語間の関連度に基づいて類似度を算出し、算出した類似度に基づいて、補正するか否かを判定する、すなわち、補正すべき同義語や類義語等の単語であるか否かを判定するので、項目を考慮することなく、同義語や類義語等を抽出する構成に比べて、精度よく同義語や類義語等の単語を抽出して補正することが可能となり、これによって、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
(5)上記(4)の実施形態では、前記補正ステップは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するステップと、単語毎に、単語間の関連度を算出して、関連度が高い単語を関連単語とするステップと、補正の候補となる単語を、候補単語として選択するステップと、選択した候補単語間の前記類似度を算出するステップと、算出した類似度に基づいて、補正するか否かを判定するステップと、補正するか否かの判定結果に基づいて、単語を補正するステップとを含み、前記候補単語を選択するステップでは、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、候補単語として選択し、前記類似度を算出するステップでは、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出してもよい。
関連単語とは、関連度が高い単語をいい、算出した関連度が閾値以上である単語を、関連単語とするのが好ましい。
この閾値は、固定値としてもよいし、予めユーザが設定してもよいし、あるいは、単語のゆらぎの補正結果に基づいて、調整できるようにしてもよい。
関連度は、単語毎に算出するので、単語毎に、関連度の高い関連単語が存在する可能性がある。
補正の候補となる単語である候補単語は、補正すべき単語、例えば、同義語や類義語の候補となる単語である。同義語や類義語などは、上述のように、構造化済みデータの項目の同一の項目に属する場合が多く、また、構造化済みデータの項目の特定の項目には、それら同義語や類義語などに関連して類似した内容が記述されている、すなわち、それら同義語や類義語などとの関連度が高い関連単語が出現する場合が多い。
そこで、候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を、選択することにより、補正すべき同義語や類義語などを、候補単語として精度よく選択することができる。
候補単語を選択するステップでは、全ての候補単語を選択してもよいが、候補単語の数が多いときには、全てを選択するのではなく、例えば、共通に含まれる同一の関連単語の数が、予め定めた数以上である候補単語を選択してもよいし、あるいは、関連度がより高い同一の関連単語を共通に含む候補単語を選択してもよい。
同一の関連単語は、同一の単語であるので、同一の項目に属することになる。
算出した類似度に基づいて、補正するか否かを判定するステップでは、算出した類似度が、閾値以上の類似度が高い候補単語であるか否かに応じて判定するのが好ましく、候補単語間の類似度が閾値以上で高いときには、同義語や類義語などの補正すべき単語であると判定し、候補単語間の類似度が閾値未満で低いときには、同義語や類義語などの補正すべき単語ではないと判定する。
この閾値も、固定値としてもよいし、予めユーザが設定してもよいし、あるいは、単語のゆらぎの補正結果に基づいて、調整できるようにしてもよい。
補正するか否かを判定するステップの後に、ユーザに、候補単語とその判定結果とを提示し、ユーザによる補正の可否の指示を受け付けるステップを加え、このユーザの指示と判定結果とに基づいて、単語を補正するようにしてもよい。
この実施形態によると、補正の候補となる候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を選択するので、同義語や類義語などの単語を、補正すべき候補単語として精度よく選択することができ、選択した候補単語間の類似度に基づいて、最終的に同義語や類義語などの単語であるか否かを判定して補正を行うことが可能となる。したがって、対象となる文書の単語のゆらぎを高い精度で補正して、重要な文を精度よく抽出することができる。
(6)上記(5)の実施形態では、前記補正ステップは、補正するか否かの判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習するステップを含み、前記類似度を算出するステップでは、学習した前記項目間の関連度合いに応じて、前記類似度を算出してもよい。
候補単語間の類似度が高い場合には、それら候補単語は、同義語や類義語などの補正すべき単語である可能性が高く、それら候補単語が属する同一の項目と、それら候補単語に共通する同一の関連単語が属する項目とは、項目間の関連度合いが高いことになる。この実施形態では、かかる項目間の関連度合いを学習して、類似度の算出に生かすので、候補単語間の類似度の算出の精度が向上し、文書の単語のゆらぎの補正の精度も向上する。
(7)本発明の重要文抽出装置は、文書の中から重要な文を抽出する重要文抽出装置であって、前記文書の中から前記重要な文を抽出する文抽出部と、 前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成部と、前記文書を読み込む文書読み込み部と、読み込んだ前記文書を形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出して単語リストを作成する単語リスト作成部と、前記単語リストの単語に基づいて、前記重要な文の抽出に用いるコンテンツキーワードを決定するコンテンツキーワード決定部とを備え、 前記文抽出部は、前記コンテンツキーワード決定部で決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出するものである。
抽出される重要な文には、決定されたコンテンツキーワードおよびコンテキストキーワードを、それぞれ少なくも1個含んでおればよく、また、ユーザが、含まれるコンテンツキーワードおよびコンテキストキーワードの個数を指定できるようにしてもよい。
本発明の重要文抽出装置によると、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも2種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要であると考える記述箇所以外の文が抽出されるのを防止することができる。
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因や対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
(8)本発明の重要文抽出装置の他の実施形態では、情報が項目別に分類された構造化済みデータを読み込むデータ読み込み部を備え、前記辞書作成部は、読み込まれた構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、前記コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録するものであり、前記コンテンツキーワード決定部は、前記単語リストの単語間の関連度を算出して、前記コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、重要な文の抽出に用いるコンテンツキーワードに決定するものである。
この実施形態によると、辞書作成部では、読み込んだ構造化済みデータを用いて、効率的にコンテンツキーワード辞書を作成することができ、項目毎に分類されている構造化済みデータの所要の項目、例えば、FMEAシートであれば、部品の項目や故障の項目の単語を、そのままコンテンツキーワードとして登録することができる。
また、コンテンツキーワードとして、文書の内容を直接的に特定するキーワードのみではなく、文書の内容に関連するキーワードを登録することができる。
更に、この実施形態によると、読み込んだ文書に含まれるコンテンツキーワードと同じ単語について、他の単語との関連度を考慮して、重要な文を抽出するためのコンテンツキーワードとして決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
(9)上記(8)の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
(10)上記(8)または(9)の実施形態では、前記文書に含まれる単語を補正する補正手段を備え、前記補正手段は、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正するか否かを判定するようにしてもよい。
この実施形態によると、文書から抽出した単語を、構造化済みデータの項目毎に分類し、項目毎に、単語間の関連度に基づいて類似度を算出し、算出した類似度に基づいて、補正すべき同義語や類義語等の単語であるか否かを判定するので、項目を考慮することなく、同義語や類義語等を選択する構成に比べて、精度よく同義語や類義語等の単語を選択して補正することが可能となり、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
(11)上記(10)の実施形態では、前記補正手段は、前記文書読み込み部で読み込んだ前記文書を形態素解析して抽出した単語を、前記構造化済みデータの項目毎に分類する単語分類部と、単語毎に、単語間の関連度を算出するとともに、補正の候補となる単語を、候補単語として選択し、選択した候補単語間の前記類似度を算出する類似度算出部と、算出した類似度に基づいて、補正を行うか否かを判定する判定部と、判定部の判定結果に基づいて、単語を補正する補正部とを備え、前記類似度算出部は、算出した関連度が高い単語を関連単語とする一方、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、前記候補単語として選択し、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出してもよい。
この実施形態によると、補正の候補となる候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を選択するので、同義語や類義語などの単語を、補正すべき候補単語として精度よく選択することができ、選択した候補単語間の類似度に基づいて、最終的に同義語や類義語などの単語であるか否かを判定して補正を行うことが可能となる。したがって、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
(12)上記(11)の実施形態では、前記補正手段は、前記判定部の判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習する学習部を備え、前記類似度算出部は、学習した前記項目間の関連度合いに応じて、前記類似度を算出してもよい。
この実施形態によると、項目間の関連度合いを学習して、類似度の算出に生かすことによって、候補単語間の類似度の算出の精度が向上し、対象する文書の単語のゆらぎの補正の精度も向上する。
(13)本発明の重要文抽出プログラムは、文書の中から重要な文を抽出する重要文抽出プログラムであって、前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する作成手順と、前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定手順と、決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出手順とをコンピュータに実行させるものであって、前記作成手順は、情報が項目別に分類された構造化済みデータを読み込む手順と、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する手順とを含み、前記決定手順は、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出する手順と、抽出した単語について、単語間の関連度を算出する手順と、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定する手順とを含むものである。
本発明の重要文抽出プログラムによると、当該プログラムを、コンピュータに実行させることにより、コンテンツキーワード辞書のコンテンツキーワードの内から、重要文の抽出に用いるコンテンツキーワードを決定し、決定したコンテンツキーワードおよびコンテキストキーワードを含む文を、重要な文として抽出するので、ユーザが重要であると考える箇所を特定するコンテキストキーワードが含まれていない文は、抽出されないことになる。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
また、コンテンツキーワード辞書の作成手順では、読み込んだ構造化済みデータを用いて、効率的にコンテンツキーワード辞書を作成することができる。
更に、他の単語との関連度を考慮して、コンテンツキーワードを決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
(14)上記(13)の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
(15)本発明の記録媒体は、上記(13)または(14)に記載のプログラムをコンピュータに読み取り可能に記録したものである。
ここで、記録媒体 としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
本発明の記録媒体によると、記録媒体に記録されているプログラムをコンピュータで読み取って実行させることにより、コンテンツキーワード辞書のコンテンツキーワードの内から、重要文の抽出に用いるコンテンツキーワードを決定し、決定したコンテンツキーワードおよびコンテキストキーワードを含む文を、重要な文として抽出するので、ユーザが重要であると考える箇所を特定するコンテキストキーワードが含まれていない文は、抽出されないことになる。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
本発明によれば、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも2種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要であると考える記述箇所以外の文が抽出されるのを防止することができる。
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因や対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
以下、図面によって本発明の実施形態について説明する。
(実施形態1)
図1は、本発明の一つの実施形態に係る重要文抽出装置を備えるシステムの構成を示すブロック図である。
(実施形態1)
図1は、本発明の一つの実施形態に係る重要文抽出装置を備えるシステムの構成を示すブロック図である。
この実施形態のシステムは、入力装置や表示装置などを有するコンピュータからなる重要文書抽出装置1と、後述の構造化済データが格納されたデータベース2と、予め作成されたコンテキストキーワード辞書3とを備えている。
重要文書抽出装置1を構成するコンピュータは、本発明に係るプログラムが格納されている記録媒体からプログラムを読み出して実行することにより、重要文を抽出する。
この実施形態では、重要文書抽出装置1は、過去の製造現場における製品の不良や市場におけるクレームおよびその原因や対策といった多数のトラブルに関連する不具合事例の文書4の中から原因や対策を自由に記述した重要文を抽出するものである。
データベース2に格納されている構造化済データとは、情報が項目別に分類され、各項目にラベル付けされた状態のデータをいい、この実施形態では、既に作成された過去のFEMAシートのデータである。このFMEAシートは、不具合事例の文書4で記述されている製品と同一の製品、あるいは、類似の製品について、作成されたFMEAシートであるのが好ましい。なお、FMEAシートが存在しない場合には、部品リストなどを用いて、ユーザが、作成すればよい。
コンテキストキーワード辞書3に格納されているコンテキストキーワードは、ユーザが、重要と考える記述箇所、この実施形態では、例えば、不具合の原因や対策の記述箇所を特定するために用いる単語であり、抽出対象の文書に応じた属性を用いてグループ分けされる。
ここで、単語とは、助詞や助動詞などの機能語以外の名詞や動詞などの一般的な意味をもつ内容語をいう。
この実施形態では、コンテキストキーワードは、原因や対策を記述する文脈で使用される頻度が高い単語であるのが好ましく、主に分野に依存しない単語である。
この実施形態では、ユーザである設計者が、重要であると考える原因や対策について記述されている文脈で使用される頻度の高い単語を、その属性と共にコンテキストキーワード辞書3に予め登録する。
具体的には、図2に示されるように、原因の文脈で使用されると考えられる「原因」、「起因」、「判明」、「判断」などの単語を、属性「原因」のグループの単語として、また、対策の文脈で使用されると考えられる「対策」、「実施」、「効果」、「防止」などの単語を、属性「対策」のグループの単語として、コンテキストキーワード辞書3に予め登録する。
このコンテキストキーワードの登録の際には、同義語および同義語内の代表語の属性を付与して登録してもよい。
なお、このコンテキストキーワード辞書3では、同一の単語が、異なる属性の単語として重複して登録されてもよい。
以上のようにして、コンテキストキーワード辞書3が予め作成されるとともに、構造化済データとして過去のFMEAシートのデータが格納されたデータベース2が予め準備される。
この実施形態の重要文抽出装置1は、データベース2から構造化済みデータであるFMEAシートのデータを読み込む構造化済みデータ読み込み部5と、読み込んだFMEAシートのデータおよびコンテキストキーワード辞書3を用いて、文書4の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書6を作成するコンテンツキーワード辞書作成部7と、不具合事例の文書4を読み込む文書読み込み部8と、読み込んだ文書および前記両辞書3,6を用いて、後述のように単語リストを作成する単語リスト作成部9と、単語リストとコンテンツキーワード辞書6を用いて、重要な文を抽出するのに用いるコンテンツキーワードを決定するコンテンツキーワード決定部10と、決定されたコンテンツキーワードおよびコンテキストキーワード辞書3のコンテキストキーワードを用いて、読み込んだ文書の中から重要な文を抽出する文抽出部11と、抽出した重要文12を、表示あるいは印字出力する文出力部13とを備えている。
図3は、重要文抽出装置1の処理動作の概略を示すフローチャートである。
先ず、コンテンツキーワード辞書6を作成する(ステップS1)。このコンテンツキーワード辞書6は、図1に示すように、構造化済データ読込み部5で読み込んだFMEAシートのデータと、コンテキストキーワード辞書3のコンテキストキーワードとを用いて、コンテンツキーワード辞書作成部7で図4に示される手順に従って作成される。
ここで、コンテンツキーワードは、抽出対象である不具合事例の文書4の内容を特定するために用いる単語であり、その不具合事例の文書4の記述対象、すなわち、何についてのどのような不具合であるかを示す単語であり、例えば、部品や状態などを示す単語である。このコンテンツキーワードは、文書に応じた属性を用いてグループ分けされ、或るグループに属する単語は、他のグループには属さない。
この実施形態では、図5に示されるようなFMEAシートの「部品」列、「故障」列の単語、および、「原因」列、「対策」列に記述されている文に基づいて、コンテンツキーワード辞書6を作成する。このFMEAシートのデータは、情報が項目別に分類され、各項目に、「部品」、「故障」、「原因」、「対策」といったラベル付けがされた状態の構造化済みデータである。
コンテンツキーワード辞書の作成では、図4に示すように、FMEAシートを読み込み(ステップS1−1)、FMEAシートの「部品」列の単語を、「部品」属性を付与してコンテンツキーワード辞書6に登録し(ステップS1−2)、FMEAシートの「故障」列の単語を、「状態」属性を付与してコンテンツキーワード辞書6に登録する(ステップS1−3)。
次に、FMEAシートの「原因」および「対策」列に記述されている文から形態素解析によって単語を抽出する(ステップS1−4)。抽出された単語の内、予め作成したコンテキストキーワード辞書3に登録されていない単語であって、コンテンツキーワード辞書6に登録されていない単語を、「関連語」属性を付与してコンテンツキーワード辞書6に登録する(ステップS1−5)。
コンテンツキーワードは、「コンデンサ」等の部品の一般名詞だけでなく、例えば、「C42」といった部品番号や「電コン」等の部品の略語を含んでもよい。
図6は、コンテンツキーワード辞書6に登録されるコンテンツキーワードの例を示すものである。
属性が「部品」であるコンテンツキーワードとして、例えば、「コンデンサ」、「C42」、「HIC」などの単語がコンテンツキーワード辞書6に登録され、属性が「状態」であるコンテンツキーワードとして、例えば、「クラック」、「オープン」、「ショート」、「異常」などの単語がコンテンツキーワード辞書6に登録され、属性が「関連語」であるコンテンツキーワードとして、例えば、「フィレット」、「波形」、「チャック」などの単語がコンテンツキーワード辞書6に登録されることになる。
以上のようにしてコンテンツキーワード辞書6を作成した後、図3に示すように、不具合事例の文書4を、文書読込み部8で読み込み(ステップS2)、単語リスト作成部9で、読込んだ文書、コンテキストキーワード辞書3およびコンテンツキーワード辞書6に基づいて、次のようにして単語リストを作成する(ステップS3)。
図7は、この単語リスト作成部9における単語リストの作成の手順を説明するための図である。
単語リスト作成部9では、読み込んだ不具合事例の文書4を、形態素解析して単語を抽出する(ステップS3−1)。次に、コンテンツキーワード辞書6を参照して、抽出した単語を、属性「部品」、「状態」、「関連語」、「未登録」によって分類し(ステップS3−2)、例えば、図8に示されるような属性で分類された単語リストを作成する。なお、「未登録」は、コンテンツキーワード辞書6に登録されていない単語である。
以上のようにして単語リストを作成した後、図3に示すように、原因や対策を記述した重要文の抽出に用いるコンテンツキーワードを、コンテンツキーワード決定部10で次のようにして決定する(ステップS4)。
この実施形態では、単語リストの属性「未登録」の単語以外の各単語について、その出現位置に基づいて単語間の距離を算出し、更に、単語間の距離に基づいて、2単語間の関連度をそれぞれ算出し、2単語間の関連度に基づいて、コンテンツキーワードを決定する。
図9は、属性「未登録」の単語以外の単語の一部について出現回数および出現位置を示すものである。出現回数は、読み込んだ不具合事例の一つの文書に出現する回数であり、出現位置は、前記一つの文書を形態素解析して助詞等を除いた単語の一次元配列における出現位置である。
かかる単語の出現位置に基づいて、最も近い出現位置との差分を、単語間の距離として算出する。
単語間の距離として、一方の単語を基準とした他方の単語までの距離と、他方の単語を基準とした一方の単語までの距離とをそれぞれ算出する。
図10は、単語間の距離の一例として、属性「部品」の単語「C42」と属性「状態」の単語「クラック」との距離を説明するための図である。
同図(a)は、「C42」および「クラック」の出現位置および「C42」を基準とした「クラック」までの距離を示し、同図(b)は、「C42」および「クラック」の出現位置および「クラック」を基準とした「C42」までの距離を示し、同図(c)は「C42」を基準とした「クラック」までの距離を昇順ソートした結果を示し、同図(d)は「クラック」を基準とした「C42」までの距離を昇順ソートした結果を示すものである。
同図(a)に示すように、例えば、出現位置「18」の「C42」については、最も近い「クラック」の出現位置「389」との差分「371」が単語間の距離となり、出現位置「22」の「C42」については、最も近い「クラック」の出現位置「389」との差分「367」が、単語間の距離となり、以下同様にして、各出現位置の「C42」について、最も近い「クラック」の出現位置との差分が単語間の距離として算出される。
同図(b)に示すように、例えば、出現位置「389」の「クラック」については、最も近い「C42」の出現位置「388」との差分「1」が単語間の距離となり、出現位置「431」の「クラック」については、最も近い「C42」の出現位置「430」との差分「1」が、単語間の距離となり、以下同様にして、各出現位置の「クラック」について、最も近い「C42」の出現位置との差分が単語間の距離として算出される。
このようにして算出される単語間の距離が、同図(c),(d)に示すように昇順にソートされる。
同様にして、属性「未登録」の単語以外の単語について、単語間の距離が算出される。
次に、単語間の距離に基づいて、2単語間の関連度を、次式に従って算出する。
単語Aを基準とした単語Bまでの距離の集合A→Bを、例えば、
A→B=[1,1,3,5]とし、
単語Bを基準とした単語Aまでの距離の集合B→Aを、例えば、
B→A=「1,2,4」とすると、
単語A,B間の関連度は、上記算出式(1)により、
(e1−1+e1−1+e1−3+e1−5)+(e1−1+e1−2+e1−4)
=3.5713
となる。
A→B=[1,1,3,5]とし、
単語Bを基準とした単語Aまでの距離の集合B→Aを、例えば、
B→A=「1,2,4」とすると、
単語A,B間の関連度は、上記算出式(1)により、
(e1−1+e1−1+e1−3+e1−5)+(e1−1+e1−2+e1−4)
=3.5713
となる。
この関連度の値が大きい程、関連度が高いものとなる。
図11は、単語間の距離およびそれに基づいて、上記算出式(1)によって算出される単語間の関連度の一部を示す図である。
この図11では、例えば、単語「C42」を基準とした単語「クラック」までの距離の集合C42→クラック、および、単語「クラック」を基準とした単語「C42」までの距離の集合クラック→C42に基づいて、上記算出式に従って算出される2単語C42−クラック間の関連度が、23.74であることを示している。
図11に示されるように、小さい距離が多い単語間ほど関連度が高いものとなる。
このようにして単語間の距離から2単語間の関連度を算出する。
なお、2単語間の関連度の算出については、この実施形態の手法に限らず、単語間の距離に基づく他の公知の手法を用いてもよい。
次に、2単語間の関連度に基づいて、重要文の抽出に用いるコンテンツキーワードを決定する。
このコンテンツキーワードの決定には、例えば、関連度が上位の単語の組から順に、「部品」、「状態」、「関連語」の各属性について、N個(Nは正の整数)ずつ選択してコンテンツキーワードとする方法、あるいは、単語間の関連度を、表示装置に表示し、ユーザが選択したものをコンテンツキーワードとする方法などがある。いずれの方法であっても、各属性から必ず1個以上の単語を選択してコンテンツキーワードとするのが好ましい。
例えば、図12に示すような単語間の関連度が得られた場合には、図13(a),(b),(c)に示すように、「部品」、「状態」および「関連語」の各属性について、関連度が高い上位から2個ずつ単語を選択してコンテンツキーワードとする。図13では、「部品」に属する単語として「C42」、「HIC」が選択され、「状態」に属する単語として「クラック」、「異常」が選択され、「関連語」に属する単語として「チャック」、「挿入」が選択されてコンテンツキーワードとして決定される。
コンテンツキーワードとして選択する個数、すなわち、上述のNは、例えば、単語リストの全単語中で各分類の占める割合を算出し、その割合に応じて、各分類から選ぶ個数を決定してもよい。あるいは、ユーザが、指定できるようにしてもよい。
また、図12に示すような単語間の関連度が得られた場合に、例えば、図14に示すように、単語間の関連度を、線の太さで表示し、ユーザが、選択した単語を、コンテンツキーワードとして決定してもよい。
この場合、閾値を指定することにより、関連度が閾値以上の単語のみを表示できるようにしてもよい。
また、ユーザが、単語の追加や削除を指示できるようにしてもよい。
このようにしてコンテンツキーワードが決定された後、図3に示すように、不具合事例の文書4から重要文を、文抽出部11で抽出し(ステップS5)、抽出した重要文を、文出力部13から出力する(ステップS6)。
文抽出部11では、不具合事例の文書4から、図15に示すように、「部品」、「状態」、「関連語」の各属性のコンテンツキーワードを少なくとも1個含むとともに、コンテキストキーワードを少なくとも1個含む文を、原因や対策を記述した重要文であるとして抽出する。
重要文が含むべきコンテンツキーワードおよびコンテキストキーワードの個数は、ユーザが任意に指定できるようにしてもよく、また、複数のコンテキストキーワードの内、重要文が含むべきコンテキストキーワードを指定できるようにしてもよい。
この実施形態では、コンテンツキーワードおよびコンテキストキーワードを含む文が、複数存在する場合には、コンテンツキーワードあるいはコンテキストキーワードをより多く含む文を、重要文であるとして抽出する。
更に、同数のコンテンツキーワードあるいはコンテキストキーワードが含まれている場合には、予めキーワードに優先度を付与しておき、上位のキーワードを含む文を抽出するようにしてもよい。
また、1文単位では、コンテンツキーワードおよびコンテキストキーワードを含む文が存在しない場合には、1番目の文と2番目の文、2番目の文と3番目の文、3番目の文と4番目の文、…といったように、連続する2文を単位として、コンテンツキーワードおよびコンテキストキーワードを含む2文を抽出し、更に、2文単位では、コンテンツキーワードおよびコンテキストキーワードを含む文が存在しない場合には、1番目の文と2番目の文と3番目の文、2番目の文と3番目の文と4番目の文、3番目の文と4番目の文と5番目の文、といったように連続する3文を単位として、コンテンツキーワードおよびコンテキストキーワードを含む3文を抽出し、同様に、抽出可能な文が見つかるまで、1単位当たりの文の数を増加させて抽出を行う。
(実施形態2)
図16は、本発明の他の実施形態に係る重要文抽出装置1aを備えるシステムの構成を示すブロック図であり、上述の図1に対応する部分には、同一の参照符号を付す。
図16は、本発明の他の実施形態に係る重要文抽出装置1aを備えるシステムの構成を示すブロック図であり、上述の図1に対応する部分には、同一の参照符号を付す。
上述の実施形態1では、不具合事例の文書4からコンテンツキーワードおよびコンテキストキーワードを用いて重要文を抽出したけれども、不具合事例の文書4には、例えば、同じ意味で表記の異なる単語である同義語や意味が似通った類義語などが含まれており、単語のゆらぎがある。
このため、重要文の抽出の精度を高めるには、抽出対象の文書から同義語等を見つけ、代表語に統一して単語のゆらぎを無くして文を正規化することが望まれる。
この実施形態では、対象とする文書4から同義語を見つけて代表語に統一して単語のゆらぎを補正するものであり、文書4から抽出した単語を、構造化文書であるFMEAシートの項目に分類し、項目毎に、単語間の類似度を後述のように算出し、算出した類似度に基づいて、同義語であるか否か、すなわち、補正の要否を判定し、同義語であると判定されたときには、同義語を代表語に置き換えて補正するようにしている。
FMEAシートの場合には、同義の二つの単語に対する共起単語が、FMEAシートの或る特定の項目に属していることが多い。したがって、或る特定の項目に対する類似度は高いが、項目を考慮しない全体に対する類似度は低い同義語が多数存在すると考えられる。したがって、項目を考慮しない全体では、類似度が低いために同義語として見つけることができない単語であっても、項目を考慮することによって、同義語として見つけて代表語に統一し、単語のゆらぎを補正することができる。
例えば、FMEAシートの同一の項目「故障」に出現する単語「ショート」と「短絡」とは、同じ現象を表す同義語である。このため、FMEAシートの項目「原因」には、類似した内容が記述されている可能性が高く、項目「原因」には、単語「ショート」に関連する単語および単語「短絡」に関連する単語が出現する可能性が高い。
図17は、単語「ショート」と関連度の高い単語、および、単語「短絡」と関連度の高い単語である関連単語の例を、FMEAシートの項目と共に示すものであり、関連度を、上述の図14と同様に線の太さで示している。
この図17に示すように、同義語である単語「ショート」、「短絡」について、FMEAシートの項目「原因」に属する関連度の高い単語である関連単語として「はんだ」および「不足」が共通して存在している。
このように、項目を考慮しない全体としては、例えば、単語「コンデンサ」と「トランジスタ」、「検査」と「工程」が共通していないために、類似度が低いと判定される可能性があるが、項目「原因」に着目すると、それぞれの単語「はんだ」、「不足」は、共通し、類似度が高いものとなる。
したがって、この実施形態では、関連度の高い関連単語の分布を項目別に見ていくことで、同義語かどうか、すなわち、補正すべき単語であるか否かを判定するものである。
このため、この実施形態は、図16に示すように、文書読込み部8で読込まれた不具合事例の文書4の単語の表記のゆらぎを補正する補正手段25を備えており、文抽出部11では、ゆらぎが補正された文書4から重要な文を抽出するようにしている。
補正手段25は、単語リスト作成部9で作成された単語リストの単語を、構造化済みデータであるFMEAシートの項目毎に分類する単語分類部20と、単語の類似度を後述のように算出する類似度算出部21と、算出された類似度に基づいて、同義語であるか否か、すなわち、補正を行うか否かを判定する判定部22と、判定結果に基づいて、読み込んだ不具合事例の文書4に含まれる同義語と判定された単語を、代表語に置き換えて単語のゆらぎを補正するゆらぎ補正部23とを備えており、その他の構成は、上述の実施形態1と同様である。なお、判定部22による判定結果は、コンテンツキーワード決定部10にも与えられる。
図18は、この実施形態の重要文抽出装置1aの処理動作の概略を示すフローチャートであり、上述の図3に対応する図である。なお、この図18では、上述の実施の形態1と同じ処理を行なうステップには、同一のステップ番号S1〜S3,S4〜S6を付している。
先ず、構造化済データ読込み部5で読み込んだFMEAシートのデータと、コンテキストキーワード辞書3のコンテキストキーワードとを用いて、コンテンツキーワード辞書作成部7でコンテンツキ−ワード辞書を作成する(ステップS1)。
すなわち、上述の図4に示すように、FMEAシートを読み込み(ステップS1−1)、FMEAシートの「部品」列の単語を、「部品」属性を付与してコンテンツキーワード辞書6に登録し(ステップS1−2)、FMEAシートの「故障」列の単語を、「状態」属性を付与してコンテンツキーワード辞書6に登録する(ステップS1−3)。
次に、FMEAシートの「原因」および「対策」列に記述されている文から形態素解析によって単語を抽出する(ステップS1−4)。抽出された単語の内、予め作成したコンテキストキーワード辞書3に登録されていない単語であって、コンテンツキーワード辞書6に登録されていない単語を、「関連語」属性を付与してコンテンツキーワード辞書6に登録する(ステップS1−5)。
コンテンツキーワード辞書6を作成した後、不具合事例の文書4を、文書読込み部8で読み込み(ステップS2)、単語リスト作成部9で、読込んだ文書、コンテキストキーワード辞書3およびコンテンツキーワード辞書6に基づいて、単語リストを作成する(ステップS3)。
単語リスト作成部9では、読み込んだ不具合事例の文書4を、形態素解析して単語を抽出し、抽出した単語を、属性「部品」、「状態」、「関連語」、「未登録」によって分類し(ステップS3−2)、例えば、上述の図8に示されるような分類別の単語リストを作成する。なお、「未登録」は、コンテンツキーワード辞書6に登録されていない単語である。以上の処理は、上述の実施形態1と同様である。
次に、図18に示すように、この実施形態では、単語リストの「未登録」以外の単語を、構造化済みデータであるFMEAシートの項目、すなわち、「部品」、「故障」、「原因」、「対策」のいずれの項目であったかによって項目毎に分類する(ステップS10)。このとき、項目が異なっていれば、同じ単語が含まれていてもよい。例えば、図19に示すように、「ショート」という単語は、「故障」および「原因」の二つに項目にそれぞれ分類される。
次に、単語の類似度を計算し、同義語であるかどうか、すなわち、補正を行うか否かを判断する(ステップS11)。
図20は、この類似度の算出処理を示すフローチャートである。
先ず、単語Wiと単語Wiを除く全ての単語との距離をそれぞれ算出する(ステップS11−1)。この単語間の距離の算出は、上述の実施形態1と同様であり、上述の図9に示される出現位置に基づいて単語間の距離を算出するものであり、上述の図10に示すように、単語の出現位置に基づいて、最も近い出現位置との差分を、単語間の距離として算出する。単語間の距離として、一方の単語を基準とした他方の単語までの距離と、他方の単語を基準とした一方の単語までの距離とをそれぞれ算出する。
次に、単語Wiと単語Wiを除く全ての単語との関連度を、算出した単語間の距離に基づいて、上述の関連度の算出式(1)に従ってそれぞれ算出する(ステップS11−2)。
次に、単語Wiとの関連度が閾値以上である関連度の高い単語を、関連単語としてすべて抽出する(ステップS11−4)。
図21は、単語Wiとして、単語「ショート」の例を示しており、この単語「ショート」と、それを除く全ての単語「コンデンサ」、「はんだ」、「検査」、「不足」、「挿入」、「HIC」‥‥との関連度をそれぞれ算出し、関連度が、閾値r以上の単語「コンデンサ」、「はんだ」、「検査」、「不足」を関連単語として抽出した例を示している。
以上の各ステップの処理を、すべての単語についてそれぞれ行い、すべての単語について、関連度が閾値r以上の関連度の高い関連単語をそれぞれ抽出する(ステップS11−4)。
この閾値rは、固定値としてもよいし、抽出された関連単語を表示装置に表示し、ユーザがそれを見て設定するようにしてもよいし、あるいは、ユーザは、後述のように、補正を行うか否かを最終的に判断するので、その判断結果に基づいて、調整できるようにしてもよい。
次に、単語Wiと関連度の高い関連単語と、単語Wiと同じ項目にある単語Wjと関連度の高い関連単語とを項目毎に比較する(ステップS11−5)。
例えば、単語Wiとして、上述の単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「検査」、「不足」と、単語「ショート」と同じ項目「故障」にある単語Wjを、例えば、単語「短絡」とし、この単語「短絡」と関連度の高い関連単語を項目毎に比較する。
すなわち、図22(a)に示すように、単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「不足」…と、単語「ショート」と同じ項目「故障」にある単語「短絡」と関連度の高い関連単語「トランジスタ」、「はんだ」、「不足」…を、項目「部品」について比較すると、関連単語として一致する同一の関連単語は存在しない。
一方、図22(b)に示すように、単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「不足」…と、単語「短絡」と関連度の高い関連単語「トランジスタ」、「はんだ」、「不足」…を、項目「原因」について比較すると、関連度の高い同一の関連単語「はんだ」および「不足」が、共通して存在する。
これを全ての項目、すなわち、「部品」、「原因」、「故障」、「対策」について確認し(ステップS11−6)、関連度の高い共通する同一の関連単語が閾値X個、例えば、1個以上存在する項目が一つ以上あるか否かを判断する(ステップS11−7)。この閾値X個は、1個としてもよいが、例えば、2個以上の値とすることにより、例えば、或る項目について、たまたま1個だけ同一の関連単語が共通して存在したような場合に、その影響を受けないようにすることができる。
共通する関連単語が、閾値X個以上あるときには、その共通の関連単語を有する単語を、補正すべき同義語の候補の単語である候補単語として選択し、その候補単語間の類似度を、次のようにして算出する(ステップS11−8)。
例えば、単語「ショート」と同じ項目「故障」に属する単語「短絡」とは、項目「原因」について、関連単語として、同一の関連単語「はんだ」および関連単語「不足」の2個の関連単語を共通に含んでいるので、単語「ショート」と単語「短絡」とは、補正すべき同義語の可能性が高い候補単語として選択され、候補単語「ショート」と「短絡」との類似度が算出される。
この類似度は、同じ項目の関連度の高い関連単語毎に関連度の違いを見ていくことで、次式に従って算出する。
ここで、rAnは、候補単語Aと共通の関連単語nとの間の関連度を示し、rBnは、候補単語Bと共通の関連単語nとの間の関連度を示す。また、pは、各候補単語にそれぞれ関連する関連単語に共通に含まれる同一の関連単語の個数に応じた重み係数である。この重み係数pは、共通に含まれる同一の関連単語の個数が多いときに、類似度の値が小さくなり過ぎないようにするものであり、共通に含まれる同一の関連単語の個数が多い程、大きな値とするものであり、例えば、共通に含まれる同一の関連単語の個数としてもよい。
例えば、図23に示すように、候補単語「ショート」と候補単語「短絡」との類似度を算出する場合には、同じ項目「原因」について共通する関連度の高い単語である関連単語「はんだ」の関連度「11.38」、「12.13」、および、関連単語「不足」の関連度「9.52」、「9.29」を用いて、次式のように算出される。
この類似度が、閾値Rより大きければ、補正すべき同義語の候補単語「ショート」と候補単語「短絡」とは、補正を行う必要のある同義語である判定するものである。
なお、「原因」以外の項目についても、関連度の高い関連単語が共通に閾値以上存在する場合には、項目毎に、類似度を算出し、いずれかの項目の類似度が閾値Rより大きければ同義語と判定する。
例えば、「部品」、「原因」、「対策」の3項目について、関連度の高い関連単語が共通に閾値以上存在する場合には、項目「部品」の単語だけを対象に「部品」に関する類似度を算出し、項目「原因」の単語だけを対象に「原因」に関する類似度を算出し、項目「対策」の単語だけを対象に「対策」に関する類似度を算出し、「部品」、「原因、「対策」の内、いずれかの類似度が閾値Rよりも大きければ同義語と判定する。
候補単語とその判定結果とは、例えば、表示装置に表示され、ユーザが、候補単語「ショート」と候補単語「短絡」とが同義語であるか否か、すなわち、補正の可否を最終的に判断する(ステップS11-10)。なお、ユーザの最終的な判断は、省略してもよい。
上記閾値Rは、固定値としてもよいし、ユーザによる同義語であるか否かの最終判断に基づいて、調整するようにしてもよい。
ステップS11-10において、同義語と判断されたときには、図18に示すように、読み込んだ不具合事例の文書4の同義語を代表語、例えば、同義語「ショート」、「短絡」を、出現回数が多い方の単語、例えば、「ショート」に置き換えて、文書4の単語のゆらぎを補正する(ステップS12)。
この文書4の単語のゆらぎの補正は、全ての候補単語についての補正の要否の判定が終了した後に行ってもよいし、一組の候補単語についての補正の要否の判定が終了する度に行ってもよい。
なお、上述のステップS11−7において、関連度の高い共通の単語が閾値X個以上存在する項目が一つ以上ないときには、補正すべき同義語の候補となる候補単語は存在しないとして、図18のステップS4に移る(ステップS11−11)。
以上のようにして文書のゆらぎを補正した後は、上述の実施の形態1と同様にして、コンテンツキーワード決定部10でコンテンツキーワードを決定する。
すなわち、上述の図18のステップS3で作成した単語リストの属性「未登録」の単語以外の各単語について、その出現位置に基づいて単語間の距離を算出し、更に、単語間の距離に基づいて、2単語間の関連度をそれぞれ算出し、関連度が上位の単語の組から順に、「部品」、「状態」、「関連語」の各分類について、N個(Nは正の整数)ずつ選択してコンテンツキーワードとする、あるいは、単語間の関連度を、表示装置に表示し、ユーザが選択したものをコンテンツキーワードとする。
その後、図24に示すように、ゆらぎが補正された不具合事例の文書4から、「部品」、「状態」、「関連語」の各属性のコンテンツキーワードを少なくとも1個含むとともに、コンテキストキーワードを少なくとも1個含む文を、原因や対策を記述した重要文であるとして抽出し(ステップS5)、抽出した重要文を、文出力部13から出力する(ステップS6)。
以上のように、この実施形態では、読み込んだ事例の文書4に含まれる単語について、FMEAシートの項目毎に分類し、同義語であるか否かを判定し、同義語であるときには、代表語に置き換えて単語のゆらぎを補正した後、重要文を抽出するので、重要文の抽出の精度が向上する。
また、この実施形態では、項目毎に類似度を算出し、同義語であるか否かを判定しているので、項目を考慮せずに全体として見たときには、類似度が低いために、同義語として選択されない単語についても、精度よく同義語として選択して、文書4に含まれる単語のゆらぎを補正することができる。
上述の実施形態では、単語リストの「未登録」の単語は、FMEAシートの項目に分類されないので、同義語か否かの判定の対象、すなわち、ゆらぎ補正の対象としなかったけれども、本発明の他の実施形態として、抽出した重要文を、構造化済みデータであるFMEAシートの「原因」や「対策」のデータとして登録し、次回のゆらぎの補正では、前回「未登録」とされた単語であっても、「原因」や「対策」の項目に分類されるようにし、ゆらぎ補正の対象としてもよい。
(実施形態3)
図25は、本発明の更に他の実施形態に係る重要文抽出装置1bを備えるシステムの構成を示すブロック図であり、上述の図16に対応する部分には、同一の参照符号を付す。
図25は、本発明の更に他の実施形態に係る重要文抽出装置1bを備えるシステムの構成を示すブロック図であり、上述の図16に対応する部分には、同一の参照符号を付す。
この実施形態では、文書読込み部8で読込まれた不具合事例の文書4の単語のゆらぎを補正する補正手段25bは、上述の実施形態2と同様に、単語リスト作成部9で作成された単語リストの単語を、構造化済みデータであるFMEAシートの項目毎に分類する単語分類部20と、単語の類似度を後述のように算出する類似度算出部21bと、算出された類似度に基づいて、同義語であるか否か、すなわち、補正を行うか否かを判定する判定部22と、判定結果に基づいて、読み込んだ不具合事例の文書4に含まれる同義語と判定された単語を、代表語に置き換えて単語のゆらぎを補正するゆらぎ補正部23とを備えるとともに、更に、関連項目学習部24および項目間重みデータを格納するデータベース26とを備えている。
この実施形態では、関連項目学習部24では、判定部22による判定結果に基づいて、項目間の関連度合いを学習して、データベース26の項目間重みデータを更新し、この更新した項目間重みデータを用いて類似度算出部21bで類似度を算出するようにしている。その他の構成は、上述の実施形態2と同様である。
図26は、この実施形態の重要文抽出装置1bの処理動作の概略を示すフローチャートであり、上述の図18に対応する図である。
単語リストを作成した後、単語を構造化済みデータであるFEMAシートの項目毎に分類する処理(ステップS10)までは、上述の実施の形態2と同様である。
この実施形態では、単語の類似度を次のようにして算出し、同義語が否かを判定する。
すなわち、この実施形態では、類似度を、次式によって算出する(ステップS11)。
この式におけるq(i,j)は、項目間の関連度合いに応じた重みであり、項目間重みデータから取得できるものであって、その初期値は、1である。
また、iは候補単語A,Bが属する項目であり、jは候補単語A,Bに共通する同一の関連単語nが属する項目である。
ステップS11の処理において、算出される類似度が、閾値Rよりも大きく、二つの候補単語が同義語と判定されたときには、その二つの候補単語が属する項目iと、それら候補単語とそれぞれ関連する関連単語に、共通に含まれる同一の関連単語が属する項目jとの項目間の関連度合いが高いとして、上記重みq(i,j)に対して、係数α(αは1未満)を乗じて項目間重みデータを更新する(ステップS13)。逆に、算出される類似度が、閾値R未満であって、二つの候補単語が、同義語と判定されなかったときには、その二つの候補単語が属する項目iと、それら候補単語とそれぞれ関連する関連単語に、共通に含まれ同一の関連単語jが属する項目との項目間の関連度合いが低いとして、上記重みq(i,j)に対して、係数β(βは1以上)の係数を乗じて項目間重みデータを更新する(ステップS13)。
このように項目間重みデータの重みq(i,j)は、学習によって順次更新され、更新された重みq(i,j)が、次の類似度の算出に用いられる。
このように、項目間の関連度合いが強いとみなされた場合には、次にその項目間の類似度を算出するときに、類似度が高くなるような値に更新し、項目間の関連度合いが強いとみなされなかった場合には、その項目間の類似度が低くなるような値に更新する。
例えば、図27に示すように、候補単語「ショート」と候補単語「短絡」との類似度を算出する場合には、同じ項目「原因」について共通する高い関連単語「はんだ」の関連度「11.38」、「12.13」および関連単語「不足」の関連度「9.52」、「9.29」を用いるとともに、「故障」と「原因」との項目間の重みq(故障,原因)を用いて、次式のように算出される。
重みq(故障,原因)の初期値は、「1」であり、算出される類似度が、閾値Rよりも大きいときには、候補単語「ショート」と候補単語「短絡」とを同義語と判定し、同時に、候補単語「ショート」と候補単語「短絡」が属する同一の項目「故障」と、それら候補単語に共通する同一の関連単語である「はんだ」および「不足」が属する項目「原因」との項目間の関連度合いが高いとして、上記重みq(故障,原因)に対して、係数α(αは1未満)を乗じて項目間重みデータを更新する。
この判定結果に基づいて、ユーザが、候補単語「ショート」と候補単語「短絡」とが同義語であるか否かを最終的に確認する。
同義語であると確認されたときには、読み込んだ不具合事例の文書4の同義語と判定された候補単語を、代表語に置き換えて、ゆらぎを補正する(ステップS12)。例えば、候補単語「ショート」、「短絡」を、代表語「ショート」に置き換えて、ゆらぎを補正する。
このように項目間の関連度合いを学習しつつ、同義語であるか否かを判定し、読み込んだ不具合事例の文書4のゆらぎを補正するので、より精度が高い重要文の抽出を効率よく行うことができる。
(実施形態4)
上述の実施形態1〜3では、不具合事例の文書4から部品の故障の原因や対策が記述された文を、重要文として抽出したけれども、本発明は、不具合事例の文書に限らず、他の事例の文書から重要と考える文を抽出することもできる。
上述の実施形態1〜3では、不具合事例の文書4から部品の故障の原因や対策が記述された文を、重要文として抽出したけれども、本発明は、不具合事例の文書に限らず、他の事例の文書から重要と考える文を抽出することもできる。
例えば、保健指導のカウンセリング事例における保健師と患者との対話を記録した文書から重要なヒアリング内容を記述したヒアリング文や指導内容を記述した指導文を抽出する用途に適用することもできる。
かかるカウンセリングにおいて、患者の状態を把握するために、例えば、患者がどのような食事や運動といった対象について、どの程度の分量を取っているかを知る必要があり、生活習慣病の予防には、食事や運動といった対象について、どの程度の分量に改善すべきかを指導する必要がある。
この場合、上述の実施形態のFEMAシートに相当する構造化済データとしては、図28に示される指導要綱および図29に示される過去のカウンセリング事例の文書を利用することができ、これらを用いてキーワードを決定することができる。
指導要綱には、上述の対象に相当する食事や運動の内容および分量に相当する食品のカロリー量や運動よる消費カロリー量が記載されている。
コンテキストキーワードとして、図30に示すように、患者の状態を聞き出している箇所を特定する、例えば、「普段」、「大体」、「最近」、「やる気」、「時間」といった単語を、属性「ヒアリング」を付与してコンテキストキーワード辞書に登録することができる。
また、コンテキストキーワードとして、患者に対して改善すべき点を指摘している箇所を特定する、例えば、「必要」、「目標」、「達成」、「頑張る」、「少しずつ」といった単語を、属性「指導」を付与してコンテキストキーワード辞書に登録することができる。
コンテンツキーワードは、抽出対象であるカウンセリング事例の文書の内容を特定するために用いる単語であり、その事例の文書の内容が、何(対象)を、どれだけ(分量)行うかといったことを示す単語である。
このコンテンツキーワードは、図31に示すように、指導要綱における食品の種類に対応する「肉類」、「野菜」といった単語や運動に対応する「運動」、「ジョギング」といった単語を、属性「対象」を付与してコンテンツキーワード辞書に登録し、指導要項における分量に対応する「カロリー」、「回数」、「杯」、「距離」、「歩数」といった単語を、属性「分量」を付与してコンテンツキーワード辞書に登録する。また、カウンセリング事例のヒアリング内容および指導内容の文から形態素解析によって単語を抽出し、コンテキストキーワード辞書に登録されていない単語を、属性「関連語」を付与してコンテンツキーワード辞書に登録する。
以後は、上述の実施形態1と同様にして、コンテンツキーワードを決定し、図32に示すように、抽出対象であるカウセリング事例の対話内容を記録した文書から、患者の現在の状態を聞きだしている文を重要なヒアリング文として抽出し、また、患者に対して改善を指導している文を重要な指導文として抽出する。
また、上述の実施の形態2,3と同様に、カウセリング事例の対話内容を記録した文書に含まれる単語の表記のゆらぎを補正してもよい。
本発明は、大量の文書から重要な文書を抽出するのに有用である。
1,1a,1b 重要文抽出装置
2 データベース
3 コンテキストキーワード辞書
4 事例文書
6 コンテンツキーワード辞書
7 コンテンツキーワード辞書作成部
10 コンテンツキーワード決定部
11 文抽出部
20 単語分類部
21,21b 類似度算出部
22 判定部
23 ゆらぎ補正部
24 関連項目学習部
25,25b 補正手段
2 データベース
3 コンテキストキーワード辞書
4 事例文書
6 コンテンツキーワード辞書
7 コンテンツキーワード辞書作成部
10 コンテンツキーワード決定部
11 文抽出部
20 単語分類部
21,21b 類似度算出部
22 判定部
23 ゆらぎ補正部
24 関連項目学習部
25,25b 補正手段
Claims (15)
- 文書の中から重要な文を抽出する重要文抽出方法であって、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成ステップと、
前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定ステップと、
決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出ステップとを含むことを特徴とする重要文抽出方法。 - 前記辞書作成ステップは、情報が項目別に分類された構造化済みデータを読み込むステップと、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する登録ステップとを含み、該登録ステップでは、前記構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録し、
前記決定ステップは、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出するステップと、抽出した単語について、単語間の関連度を算出するステップと、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定するステップとを含み、コンテンツキーワードを決定する前記ステップでは、コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、コンテンツキーワードに決定する請求項1に記載の重要文抽出方法。 - 前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項2に記載の重要文抽出方法。
- 前記文書に含まれる単語を補正する補正ステップを含み、
前記補正ステップでは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、 前記関連度に基づいて算出し、算出した類似度に基づいて、補正をするか否かを判定する請求項2または3に記載の重要文抽出方法。 - 前記補正ステップは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するステップと、単語毎に、単語間の関連度を算出して、関連度が高い単語を関連単語とするステップと、補正の候補となる単語を、候補単語として選択するステップと、選択した候補単語間の前記類似度を算出するステップと、算出した類似度に基づいて、補正するか否かを判定するステップと、補正するか否かの判定結果に基づいて、単語を補正するステップとを含み、
前記候補単語を選択するステップでは、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、候補単語として選択し、
前記類似度を算出するステップでは、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出する請求項4に記載の重要文抽出方法。 - 前記補正ステップは、補正するか否かの判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習するステップを含み、
前記類似度を算出するステップでは、学習した前記項目間の関連度合いに応じて、前記類似度を算出する請求項5に記載の重要文抽出方法。 - 文書の中から重要な文を抽出する重要文抽出装置であって、
前記文書の中から前記重要な文を抽出する文抽出部と、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成部と、
前記文書を読み込む文書読み込み部と、
読み込んだ前記文書を形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出して単語リストを作成する単語リスト作成部と、
前記単語リストの単語に基づいて、前記重要な文の抽出に用いるコンテンツキーワードを決定するコンテンツキーワード決定部とを備え、
前記文抽出部は、前記コンテンツキーワード決定部で決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出することを特徴とする重要文抽出装置。 - 情報が項目別に分類された構造化済みデータを読み込むデータ読み込み部を備え、
前記辞書作成部は、読み込まれた構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、前記コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録するものであり、
前記コンテンツキーワード決定部は、前記単語リストの単語間の関連度を算出して、前記コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、重要な文の抽出に用いるコンテンツキーワードに決定する請求項7に記載の重要文抽出装置。 - 前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項8に記載の重要文抽出装置。
- 前記文書に含まれる単語を補正する補正手段を備え、
前記補正手段は、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正するか否かを判定する請求項8または9に記載の重要文抽出装置。 - 前記補正手段は、前記文書読み込み部で読み込んだ前記文書を形態素解析して抽出した単語を、前記構造化済みデータの項目毎に分類する単語分類部と、単語毎に、単語間の関連度を算出するとともに、補正の候補となる単語を、候補単語として選択し、選択した候補単語間の前記類似度を算出する類似度算出部と、算出した類似度に基づいて、補正を行うか否かを判定する判定部と、判定部の判定結果に基づいて、単語を補正する補正部とを備え、
前記類似度算出部は、算出した関連度が高い単語を関連単語とする一方、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、前記候補単語として選択し、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出する請求項10に記載の重要文抽出装置。 - 前記補正手段は、前記判定部の判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習する学習部を備え、
前記類似度算出部は、学習した前記項目間の関連度合いに応じて、前記類似度を算出する請求項11に記載の重要抽出装置。 - 文書の中から重要な文を抽出する重要文抽出プログラムであって、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する作成手順と、
前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定手順と、
決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出手順とをコンピュータに実行させるものであって、
前記作成手順は、情報が項目別に分類された構造化済みデータを読み込む手順と、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する手順とを含み、
前記決定手順は、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出する手順と、抽出した単語について、単語間の関連度を算出する手順と、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定する手順とを含むことを特徴とする重要文抽出プログラム。 - 前記文書が、不具合事例の文書であり、前記構造化済みデータが、FMEA(Failure Mode and Effects Analysis:故障モード影響解析)シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項13に記載の重要文抽出プログラム。
- 前記請求項13または14に記載のプログラムをコンピュータに読み取り可能に記録したことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008292621A JP2009146397A (ja) | 2007-11-19 | 2008-11-14 | 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007298928 | 2007-11-19 | ||
JP2008292621A JP2009146397A (ja) | 2007-11-19 | 2008-11-14 | 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009146397A true JP2009146397A (ja) | 2009-07-02 |
Family
ID=40916882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008292621A Pending JP2009146397A (ja) | 2007-11-19 | 2008-11-14 | 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009146397A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011018124A (ja) * | 2009-07-07 | 2011-01-27 | Chugoku Electric Power Co Inc:The | 保守経歴管理システムおよび保守経歴管理方法 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
JP2014197300A (ja) * | 2013-03-29 | 2014-10-16 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
JP2016192142A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社図研プリサイト | 検索制御装置、検索制御方法、および、検索制御プログラム |
KR20160143503A (ko) | 2015-06-05 | 2016-12-14 | 주식회사 한국리서치 | 분석 대상에 대한 고객의 니즈를 분석하는 방법 및 장치 |
JP2018132882A (ja) * | 2017-02-14 | 2018-08-23 | 富士ゼロックス株式会社 | 設計支援システムおよびプログラム |
JP2020160869A (ja) * | 2019-03-27 | 2020-10-01 | 三菱ロジスネクスト株式会社 | 作業機械に対するサービスに係る文書作成システム |
WO2021090389A1 (ja) * | 2019-11-06 | 2021-05-14 | 三菱電機ビルテクノサービス株式会社 | ビル情報処理装置 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
KR20220083469A (ko) * | 2020-12-11 | 2022-06-20 | 오두환 | 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램 |
JP2023007228A (ja) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04357568A (ja) * | 1991-01-30 | 1992-12-10 | Mitsubishi Electric Corp | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
JP2001325284A (ja) * | 2000-05-12 | 2001-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 |
JP2002149670A (ja) * | 2000-11-08 | 2002-05-24 | Toshiba Corp | 情報分類方法および情報分類装置 |
JP2003203091A (ja) * | 2002-01-09 | 2003-07-18 | Seiko Epson Corp | 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体 |
JP2005332081A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書要約方法及び装置及びプログラム |
JP2006260402A (ja) * | 2005-03-18 | 2006-09-28 | Ricoh Co Ltd | 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体 |
JP2007102309A (ja) * | 2005-09-30 | 2007-04-19 | Mitsubishi Electric Corp | 自動分類装置 |
-
2008
- 2008-11-14 JP JP2008292621A patent/JP2009146397A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04357568A (ja) * | 1991-01-30 | 1992-12-10 | Mitsubishi Electric Corp | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
JP2001325284A (ja) * | 2000-05-12 | 2001-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 |
JP2002149670A (ja) * | 2000-11-08 | 2002-05-24 | Toshiba Corp | 情報分類方法および情報分類装置 |
JP2003203091A (ja) * | 2002-01-09 | 2003-07-18 | Seiko Epson Corp | 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体 |
JP2005332081A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書要約方法及び装置及びプログラム |
JP2006260402A (ja) * | 2005-03-18 | 2006-09-28 | Ricoh Co Ltd | 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体 |
JP2007102309A (ja) * | 2005-09-30 | 2007-04-19 | Mitsubishi Electric Corp | 自動分類装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011018124A (ja) * | 2009-07-07 | 2011-01-27 | Chugoku Electric Power Co Inc:The | 保守経歴管理システムおよび保守経歴管理方法 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
CN102411611B (zh) * | 2011-10-15 | 2013-01-02 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
JP2014197300A (ja) * | 2013-03-29 | 2014-10-16 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
JP2016192142A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社図研プリサイト | 検索制御装置、検索制御方法、および、検索制御プログラム |
KR102487672B1 (ko) * | 2015-06-05 | 2023-01-13 | 주식회사 한국리서치 | 분석 대상에 대한 고객의 니즈를 분석하는 방법 및 장치 |
KR20160143503A (ko) | 2015-06-05 | 2016-12-14 | 주식회사 한국리서치 | 분석 대상에 대한 고객의 니즈를 분석하는 방법 및 장치 |
JP2018132882A (ja) * | 2017-02-14 | 2018-08-23 | 富士ゼロックス株式会社 | 設計支援システムおよびプログラム |
JP2020160869A (ja) * | 2019-03-27 | 2020-10-01 | 三菱ロジスネクスト株式会社 | 作業機械に対するサービスに係る文書作成システム |
WO2021090389A1 (ja) * | 2019-11-06 | 2021-05-14 | 三菱電機ビルテクノサービス株式会社 | ビル情報処理装置 |
CN114730443A (zh) * | 2019-11-06 | 2022-07-08 | 三菱电机楼宇解决方案株式会社 | 楼宇信息处理装置 |
JP7160503B2 (ja) | 2019-11-06 | 2022-10-25 | 三菱電機ビルソリューションズ株式会社 | ビル情報処理装置 |
JPWO2021090389A1 (ja) * | 2019-11-06 | 2021-05-14 | ||
KR20220083469A (ko) * | 2020-12-11 | 2022-06-20 | 오두환 | 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램 |
KR102548362B1 (ko) * | 2020-12-11 | 2023-06-26 | 오두환 | 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램 |
JP2023007228A (ja) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
JP7278560B2 (ja) | 2021-07-01 | 2023-05-22 | 株式会社Pkutech | 情報処理装置、プログラム及び情報処理方法 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114328826B (zh) * | 2021-12-20 | 2024-06-11 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009146397A (ja) | 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体 | |
US9959776B1 (en) | System and method for automated scoring of texual responses to picture-based items | |
US7720675B2 (en) | Method and system for determining text coherence | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
US8341520B2 (en) | Method and system for spell checking | |
US9342592B2 (en) | Method for systematic mass normalization of titles | |
US8019761B2 (en) | Recording medium storing a design support program, design support method, and design support apparatus | |
US20060200342A1 (en) | System for processing sentiment-bearing text | |
WO2007075417A2 (en) | System and method for analyzing communications using multi-dimensional hierarchical structures | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
US20060200457A1 (en) | Extracting information from formatted sources | |
Dürlich et al. | EFLLex: A graded lexical resource for learners of English as a foreign language | |
Kauchak et al. | Text simplification tools: Using machine learning to discover features that identify difficult text | |
CN112352243A (zh) | 专家报告编辑器 | |
JP2006190229A (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
WO2021089129A1 (en) | Analysis and comparison of character-coded digital data, in particular for job matching | |
CN109902304A (zh) | 信息处理方法、装置、存储介质和电子设备 | |
CN101369285A (zh) | 一种中文搜索引擎中查询词的拼写校正方法 | |
US10854106B2 (en) | Targeted repetition and targeted reinforcement in a language learning system | |
US20070143310A1 (en) | System and method for analyzing communications using multi-dimensional hierarchical structures | |
JP5310196B2 (ja) | 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法 | |
KR20190094541A (ko) | 코멘트 기반의 광고 추천 장치 및 방법 | |
KR102467096B1 (ko) | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 | |
CN111931480B (zh) | 文本主要内容的确定方法、装置、存储介质及计算机设备 | |
CN113722421A (zh) | 一种合同审计方法和***,及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110719 |