JP7106999B2 - 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム - Google Patents

難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP7106999B2
JP7106999B2 JP2018108551A JP2018108551A JP7106999B2 JP 7106999 B2 JP7106999 B2 JP 7106999B2 JP 2018108551 A JP2018108551 A JP 2018108551A JP 2018108551 A JP2018108551 A JP 2018108551A JP 7106999 B2 JP7106999 B2 JP 7106999B2
Authority
JP
Japan
Prior art keywords
text
difficulty level
feature amount
difficulty
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018108551A
Other languages
English (en)
Other versions
JP2019212098A (ja
Inventor
早苗 藤田
正嗣 服部
哲生 小林
優子 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018108551A priority Critical patent/JP7106999B2/ja
Priority to PCT/JP2019/022053 priority patent/WO2019235446A1/ja
Priority to US15/734,540 priority patent/US20230342550A1/en
Publication of JP2019212098A publication Critical patent/JP2019212098A/ja
Application granted granted Critical
Publication of JP7106999B2 publication Critical patent/JP7106999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

特許法第30条第2項適用 平成30年1月19日 電子情報通信学会 技術研究報告 Vol.117 No.420 HCS2017-72 pp.35-40にて公開 平成30年3月5日 http://anlp.jp/proceedings/annual_meeting/2018/index.html http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/B7-4.pdf にて公開
本発明は、難易度推定装置、難易度推定モデル学習装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度推定装置、方法、及びプログラムに関する。
従来より、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値などを特徴量として絵本の難易度を推定する難易度推定装置が知られている(特許文献1)。
特開2016-152032号公報
幼児は成長が著しく、日齢、週齢、月齢単位で比較しても変化が大きい。しかしながら、上記特許文献1に記載の難易度推定装置では、推定の粒度が例えば1年齢単位など、難易度として設定できる粒度が粗い。より細かな粒度で、かつ、高精度に難易度を設定することが求められる。
本発明は、上記問題点を解決するために成されたものであり、テキストの難易度又は対象時期を所望の粒度で精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。
また、テキストの難易度又は対象時期を所望の粒度で精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る難易度推定装置は、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。
第2の発明に係る難易度推定装置は、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。
第3の発明に係る難易度推定装置は、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。
第4の発明に係る難易度推定装置は、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。
第5の発明に係る難易度推定装置は、予め求められた、1種類以上の基本語セットを用いて、入力されたテキストから、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。
第6の発明に係る難易度推定方法は、特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。
第7の発明に係る難易度推定方法は、特徴量抽出部が、語毎に予め求められた前記語の親密度を用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティを含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。
第8の発明に係る難易度推定方法は、特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。
第9の発明に係る難易度推定方法は、特徴量抽出部が、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。
第10の発明に係る難易度推定方法は、特徴量抽出部が、予め求められた、1種類以上の基本語セットを用いて、入力されたテキストから、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。
第11の発明に係る難易度推定モデル学習装置は、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。
第12の発明に係る難易度推定モデル学習装置は、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の親密度を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。
第13の発明に係る難易度推定モデル学習装置は、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。
第14の発明に係る難易度推定モデル学習装置は、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。
第15の発明に係る難易度推定モデル学習装置は、予め求められた、1種類以上の基本語セットを用いて、難易度又は対象時期が付与されたテキストの各々から、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。
第16の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。
第17の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の親密度を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。
第18の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。
第19の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。
第20の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、予め求められた、1種類以上の基本語セットを用いて、難易度又は対象時期が付与されたテキストの各々から、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。
第21の発明に係るプログラムは、コンピュータを、上記の発明に係る難易度推定装置の各部として機能させるためのプログラムである。
本発明の難易度推定装置、方法、及びプログラムによれば、入力されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度又はイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び/又は用言の割合、又は1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度又は対象時期を所望の粒度で精度よく推定することができる、という効果が得られる。
また、本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度又は対象時期が付与されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度又はイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び/又は用言の割合、又は1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度又は対象時期を所望の粒度で精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。
本発明の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。 語彙大系の分類の例を示す図である。 本発明の実施の形態に係る難易度推定装置の構成を示すブロック図である。 本発明の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、絵本のテキストの難易度を推定する装置に本発明を適用する場合を例に説明するが、対象は絵本に限らず、書籍、テキストデータ等であってもよい。
<本発明の実施の形態に係る難易度推定モデル学習装置の構成>
本発明の実施の形態に係る難易度推定モデル学習装置の構成について説明する。
図1に示すように、本発明の実施の形態に係る難易度推定モデル学習装置100は、CPUと、RAMと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定モデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、難易度及び解析結果が付与された絵本のテキストの各々を入力として受け付ける。
演算部20は、テキストデータベース8と、語データベース28と、特徴量抽出部30と、難易度推定モデル生成部32と、難易度推定モデル40とを含んで構成されている。
テキストデータベース8には、入力部10によって受け付けた、難易度及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとしてテキストデータベース8に格納されている。なお、テキストデータベース8に格納されている絵本は、本実施の形態においては、0~5才向けに限るものではなく、子供向けの「1冊1話」の本を対象とし、難易度(又は対象時期)が記載されているものであればよい。また、絵本1冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象時期の推定が可能である。また、絵本の情報を含むファイルは、XML、SQL、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。
また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、通常の形態素解析を行った結果である。また、形態素解析に加えて、係り受け解析や項構造解析を行った結果が、絵本のテキストに付与されていてもよい。なお、乳幼児向けの図鑑や絵本では「名詞」「擬音語」「擬態語」「感動詞」等の語のみが並んでいる場合もあるが、そのような場合には、形態素解析自体を行わなくてもよい。このとき、改行や空白を単語の区切りとすればよい。
語データベース28は、各語の獲得時期を格納した幼児語彙発達データベース(CVD)、各語の親密度、各用言が潜在的にとる項の数、各語の出現頻度、及び複数種類の基本語セットを記憶している。
ここで、幼児語彙発達データベース(CVD)について説明する。従来より、幼児にとってどのような語の獲得が難しいかを調べる研究が行われている。難しさを示す指標の一例として、語の獲得時期がある。非特許文献1では2700語について幼児の言語獲得時期(獲得日齢)の調査報告が行われており、その調査に基づきCVDが構築されている。この調査は、幼児の言語の獲得時期の調査報告として世界的にみても大規模なものである。
[非特許文献1]小林哲生,奥村優子,南泰浩,“語彙チェックリストアプリによる幼児語彙発達データ収集の試み”,電子情報通信学会技術研究報告,vol.115,no.418,HCS2015-59,pp.1-6,2016.
上記の非特許文献1にあるCVDは、0歳から4歳頃までの乳幼児(子ども)の保護者約1300名に、調査時点で自分の子どもが該当の語を理解できるか、発話できるかどうかをチェックリスト形式で解答してもらい、その情報をデータベース化したものであり、約2700語が収録されている。つまり、CVDは、2700語の語とその獲得時期(理解時期または発話時期)についての約1300名分のデータベースである。
本調査では、調査対象の子どもから得たデータを用いて推定した、50%の子どもが発話できるようになる日齢(以下、50%獲得日齢という)を用いる。ここで、理解できる日齢ではなく、発話できる日齢を用いたのは、発話されたかどうかの方が保護者にわかりやすく、信頼度が高いからである。
なお、CVDの値としては、発話日齢、理解日齢のいずれか、あるいは両方を利用すればよい。また、日齢ではなく月齢や週齢、年齢に換算して用いてもよい。
語の親密度については、各語について、CVDと同様に事前に各語がどの程度親しみのある語かを数値化するか、数値化したものを複数段階に量子化して各段階(クラス)ごとにIDを振るなどしてあらかじめ求めたものである。
なお、親密度は、被験者の方に、どの程度親密な語(親しみのある語)だと思うかを付けてもらい、その統計値等を用いることによって求めればよい。例えば、語の表記だけを提示して親密度を付与してもらう。あるいは、カバー率をあげるために、表記ゆれを吸収する(子供、子ども、こどもをすべて同一の単語として扱う)ことを考えて、語の音と表記の両方を提示して親密度を付与してもらうようにしてもよい。あるいは、語の表記だけ提示すること、音だけ提示すること、語の音と表記の両方を提示することを全て使って親密度を付与してもらうようにしてもよい。また同様に、イメージビリティ(あるいは、心像性、イメージしやすさ)などを数値化したスコアなどを特徴量として利用してもよい。
例えば、以下のような各語の親密度が語データベース28に記憶されている。
00000123, 子供, コドモ, 6.688, 6.375, 6.625
00000234, びっくり, ビックリ, 6.469, 6.312, 6.500
ただし、上記の各項目は、順に、ID, 表記, 読み, VA(表記と音を提示したときの親密度), A(音のみを提示したときの親密度), V(表記のみを提示したときの親密度)を表している。
動詞や動詞性名詞、事態性名詞、形容詞や形容動詞等(以下、用言)は、必要とする項(または格)あるいは、前提として要求される項が決まっている。例えば、動詞「渡す」であれば、「誰が」「誰に」「何を」といった項をとることが考えられる。これらの項は、文中で明示的に記載されていない場合でも、潜在的には存在している。これらの用言のとる項の数を、「用言が潜在的にとる項の数」と呼ぶこととする。各用言が潜在的にとる項の数としては、例えば、動詞「渡す」:3、動詞「読む」:2、動詞「始まる」:1、等を語データベース28に記憶させておく。また、対象テキスト中に、これらの項が明示的に出現するか省略されているか、出現する場合でも、異なる文中に出現するか、倒置になっているか(例えば、「渡した本」であれば、「本を渡す」の倒置であると考えられる)などの用言と項の位置関係も特徴量として利用することが考えられる。
語の出現頻度としては、ある語が絵本コーパスやCHILDESコーパス、対象とする子ども向けのコンテンツから作成されたコーパスにおいて出現する頻度である語頻度(以下、FREQと表す)又は、ある語が対象コーパス中で出現する文書の数である文書頻度(以下、DFと表す)を用いる。
また、基本語セットについては、以下に示す基本コーパスのうち少なくとも1種類以上を用いればよい。例えば、絵本コーパスやCHILDESコーパス中に出てくる語やこれらのコーパスにおいて高頻度に出現する語である高頻度語から作成される基本語セット、親密度が基準値(例えば6)以上の語から作成される基本語セット、学童期以上を対象とする場合、教科書や、子ども向け新聞等を用いて同様に作成される、各学年までの基本語セット、一般向け文書や、均衡コーパスなどから作成される基本語セットのうち、少なくとも1種類以上を用いればよい。また、例えば絵本コーパスでは乳幼児向けの絵本だけを用いて基本語セットを作成したり、教科書コーパスであれば低学年向けの教科書だけを用いることも考えられる。品詞ごとに基本語セットを用意してもよい。
ここで、絵本コーパスは、非特許文献2にある現在構築中の絵本データベースの各絵本の本文データから構成される絵本コーパスである。絵本データベースは、発達心理学における研究や、子供の興味や発達に応じた絵本の推薦を目的として構築しており、ベストセラーやロングセラー、専門家による推薦図書を含むよう選定されている。
[非特許文献2]:藤田早苗,服部正嗣,小林哲生,奥村優子,青山一生,“絵本検索システム「ぴたりえ」~子どもにぴったりの絵本を見つけます~”,言語処理学会「自然言語処理」,Vol.24, No.1, 2017.)
CHILDESコーパスは、幼児や幼児に向けた発話を書き起こしたコーパスである。
均衡コーパスは、国立国語研究所の現代日本語書き言葉均衡コーパス(以下、BCCWJという)である。このBCCWJは、現代日本語の書き言葉の全体像を把握するために構築したコーパスである。このBCCWJには、形態素解析の情報、文書構造に関するタグも付与されており、また、書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律 など、それぞれのジャンルに分かれたコーパスがある
特徴量抽出部30は、本実施の形態では、テキストデータベース8から取得した絵本のテキストの各々から、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項(あるいは格)の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/または用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合及び/又は当該基本語セットに含まれない語の割合、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出する。ここで、用言としては、動詞のみを用いたり、動詞と動詞性名詞だけを用いたりことも考えられる。
また、品詞ごとに基本語セットを用意した場合、例えば、品詞ごとの基本語セットの各々についての、当該テキストに含まれる当該品詞の語のうちの、当該基本語セットに含まれる語の割合、及び/又は、当該基本語セットに含まれない語の割合などを、特徴量として抽出してもよい。
なお、本実施の形態では、特徴量として、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言の項の数及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/又は用言の割合、1種類以上の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を抽出したが、これに限定されるものではない。これらの特徴量以外のテキストから得られる特徴量、例えば、テキストに含まれるひらがな、カタカナ、漢字の割合、一文に含まれる文字数の平均値、語数の平均値、文節数の平均値、述語数の平均値等の特徴量を含んで抽出してもよい。当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言の項の数及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/又は用言の割合、1種類以上の基本語セットの各々についての、当該テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合及び/又は当該基本語セットに含まれない語の割合のうちの少なくとも一つ含む特徴量を抽出するようにすればよい。また、これらの場合には、特徴量の抽出に必要なもののみが語データベース28に記憶されていればよい。
特徴量抽出部30が抽出する上述した各種の特徴量を、以下に具体的に説明する。
≪テキストに含まれる語の獲得時期≫
テキストに含まれる語の獲得時期については、語データベース28に記憶されているCVD中の語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語のCVD中の発話日齢の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。
例えば、CVD中の発話日齢の平均値、最高値の一方を使用する場合、両方を使用する場合には、以下の特徴量が抽出される。
テキスト「こどもたちは びっくりした。」の形態素解析結果の後ろに、CVDのIDを付与した場合には、以下のようになる。
こども 名詞, 普通名詞, 一般, *, *, *, コドモ, 子供, こども, コドモ, こども, コドモ, 和, *, *, *, * B-00000123
たち 接尾辞, 名詞的, 一般, *, *, *, タチ, 達, たち, タチ, たち, タチ, 和, *, *, *, *
は 助詞, 係助詞, *, *, *, *, ハ, は, は, ワ, は, ワ, 和, *, *, *, * B-00000345
空白, *, *, *, *, *, , , , , , , 記号, *, *, *, *
びっくり 名詞, 普通名詞, サ変可能, *, *, *, ビックリ, びっくり, びっくり, ビックリ, びっくり, ビックリ, 和, *, *, *, * 00000234
し 動詞, 非自立可能, *, *, サ行変格, 連用形-一般, スル, 為る, し, シ, する, スル, 和, *, *, *, * I-00000234
た 助動詞, *, *, *, 助動詞-タ, 終止形-一般, タ, た, た, タ, た, タ, 和, *, *, *, * B-00000456
。 補助記号, 句点, *, *, *, *, , 。, 。, , 。, , 記号, *, *, *, *
上記の例では、BIOタグと呼ばれる形式を用いている。BIOタグは、固有名詞付与でよく使われる形式であり、Bが始まり、Iは続き、Oはその他を表す。なお、上記の例では、Oは付与していないが、付与してもよい。
「びっくりする」は、形態素解析では「びっくり」と「する」になるが、CVDにはひとまとまりで収録されているため、「びっくり」がB、「する」がIで、まとめてCVDのID00000234の項目に対応する。
ただし、テキスト中に「する」が単独で出てきたときには、CVDのID00000234の項目に対応することはしない。なお、CVDでは、単独の動詞「する」については、自立可能な動詞として別のIDが振られており、テキスト中に「する」が単独で出てきたときには、自立可能な動詞の「する」のIDを対応させる。
また、上述のテキスト「こどもたちは びっくりした。」の例では、CVDの値は次のとおりとなる。
00000123,子ども,1,ひと,31.0855502360271,27.0035830656026
00000345,ハ,1,助詞・助動詞,27.4366201342289,26.7774242029008
1696,びっくりする,1,こころ,30.6868045540324,26.302268434856
1959,タ,1,助詞・助動詞,24.7624774749285,22.7216817167811
上記の値の各項目は、順に、ID,見出し語,区分け,カテゴリ,発話(50%獲得月齢),理解(50%獲得月齢)を表している。
「発話(50%獲得月齢)」を用いる場合、このテキストに出てくる語の「発話(50%獲得月齢)」の平均は、以下のように計算される。
(31.0855502360271+27.4366201342289+30.6868045540324+24.7624774749285)/4 = 28.492863099804225
また、このテキストに出てくる語の「発話(50%獲得月齢)」の最高値は、「こども」の「発話(50%獲得月齢)」の値である31.0855502360271となる。
テキスト毎に、難易度を推定する場合には、テキスト毎に、テキストに含まれる各語の獲得時期の平均値又は最高値を抽出する。なお、テキスト以外の単位(例えば、ページ・文・段落毎)で、難易度を推定したい場合には、推定したい単位に対応する箇所で、各語の獲得時期の平均値又は最高値を抽出すればよい。
また、各語の獲得時期の平均値及び最高値の両方を、特徴量として抽出してもよい。
子どもが早い時期に覚える語は比較的簡単な語で、大きくなってから覚える語は難しい語だと考えられる。そこで、上記のように語の獲得時期を特徴量として使うことで子どもがどのくらいの時期に覚える語が用いられているか(早い時期なのか、大きくなってから覚えるのか)という特徴を反映できる。また、平均値の利用により、テキストに出てくる語が平均的に覚えられる時期(つまり、早く覚える語が多い、少ないなど)を反映できる。また、最高値の利用により、もっとも遅く覚えられる語はいつ頃覚えられているのかという特徴を反映できる。
≪語に関するカテゴリ毎の、テキストに含まれる語の獲得時期≫
次に、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期を特徴量とする例について説明する。
テキスト中の語とCVDとのマッチングを取るときに、カテゴリ毎に行ってもよい。例えば、語に関するカテゴリとして、「動物」「乗り物」「家庭用品」「代名詞」「疑問詞」「動作を表す言葉」「状態を表す言葉」などと分けて、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期を、上記と同様に抽出する。上記と同様とは、具体的には、カテゴリ毎に、語データベース28に記憶されているCVD中の語のうちの当該カテゴリに属する語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語のCVD中の発話日齢の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。
なお、カテゴリの分け方として、CVDのカテゴリや、語彙大系(図2参照)や分類語彙表等のシソーラスの分類(リーフノード、中間ノード、利用ノードを各ノードに出てくる語の頻度を閾値にして決定する、等の分け方が考えられる)、EDR電子化辞書の概念辞書の分類(階層化された概念構造と、各学年に含まれる語が定義されている。インターネット<URL:http://www2.nict.go.jp/ipp/EDR/JPN/TG/Doc/EDR_J04a.pdf>参照)、を利用してもよい。また、世の中にある絵本の中での出現頻度等、コーパスの中での出現頻度と獲得時期の相関の高いカテゴリ(具体物の名前など)だけ利用してもよい。
これは、絵本に出てくる頻度が高い単語ほど、幼児が獲得する月齢が高い傾向にあること、カテゴリによって傾向に強弱があること、を発明者らが科学的に実証していることによる。例えば、乗り物や動物のカテゴリは、頻度が高いほど獲得時期が早くなる(非特許文献3参照)。
[非特許文献3] 藤田 早苗, 小林 哲生, 奥村 優子, 服部 正嗣, "幼児の語彙獲得と絵本コーパスの関係を探る",
言語処理学会第23回年次大会 (NLP-2017), pp. 899--902, 筑波, C6-2, 2017.3.
コーパスの中での出現頻度と獲得時期の相関の高いカテゴリでは、頻度が高いほど獲得時期が遅い、という傾向が強いが、頻度と獲得時期にほとんど相関がみられないカテゴリも存在する。相関が高いカテゴリだけを用いることで、語の難しさをよく反映していると考えられる語を特徴量として利用することができる。
また、複数種類のカテゴリの分け方を組み合わせて利用したりしてもよい。
例えば、対象テキストに出てくる「動物」カテゴリの語の獲得時期の平均値及び最大値、「擬音語・擬態語」カテゴリの語の獲得時期の平均値及び最大値を特徴量として抽出してもよい。
このようにカテゴリに分けて特徴量を抽出することにより、できるだけ他の条件(むずかしさに影響すると思われる、品詞、活用の有無など)を揃えることで、獲得時期を難しさの指標としての信頼性を高めることができる。
例えば、カテゴリ「動物」と、カテゴリ「擬音語・擬態語」とを分けずに特徴量として利用すると、「ねこ」<「ぺったん」<「ラッコ」<「さぶーん」の順で難しいことを表す特徴量が抽出される。
532,ネコ,1,動物,25.7693158612872,19.4885511769964
407,ぺったん,1,擬音語・擬態語,26.0364339727761,20.153005159889
555,ラッコ,1,動物,37.3564025311432,29.6474071490029
455,ざぶーん,1,擬音語・擬態語, 38.3374588300544, 34.3004374461354
一方、カテゴリ「動物」とカテゴリ「擬音語・擬態語」に分けて特徴量を抽出すると、以下の内容を表す特徴量が抽出される。
動物:「ねこ」<「ラッコ」
擬音語・擬態語:「ぺったん」<「さぶーん」
ここで、カテゴリ「擬音語・擬態語」は、頻度と獲得時期の相関がほとんどないカテゴリである。
このように、カテゴリに分けることで、カテゴリ内の条件をできるだけ揃えることができ、同じカテゴリの中での難しさを比較することができる。また、その中でも、信頼性の高いと考えられるカテゴリだけを特徴量として用いることもできる。
また、カテゴリごとに、テキストに含まれる各語の獲得時期の平均値及び最高値を特徴量として抽出すると共に、全カテゴリでの獲得時期の平均値の平均、及び最高値の平均を特徴量として抽出してもよい。
このように、カテゴリ毎に分けることにより、語やテキストの難易度と相関の高い語とそうでない語を分けたり、学習が難しいカテゴリの語と容易な語を分けることができる。
≪語に関するカテゴリ毎の、テキストに含まれる、当該カテゴリに属する語の割合≫
また、学習が難しいカテゴリの語の個数の全体に占める割合を、特徴量として抽出してもよい。
例えば、カテゴリ「動作」はカテゴリ「動物」に比べてカテゴリに属する語が難しく、同じ名詞でも、具体物である「動物」や「乗り物」の名前に比べると、「代名詞」や抽象物、上位概念は難しい語である。より難しいクラスの語の割合などを特徴量として抽出してもよい。また、同様に、「擬音語・擬態語」のカテゴリは簡単な覚えやすい語のカテゴリである。そのため、頻度と獲得時期の相関が低いカテゴリではあるが、これらのカテゴリの語の割合を特徴量として用いることも考えられる。これにより、簡単な語が出てくる特徴を反映することができる。
≪テキストに含まれる語の親密度≫
テキストに含まれる語の親密度については、語データベース28に記憶されている、親密度が付与されている語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語の親密度の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。
上記のテキスト「こどもたちは びっくりした。」の例の場合、あらかじめ語データベース28に記憶された親密度が付与された語に照らして、「こども」「びっくり」が一致する。
≪語に関するカテゴリ毎の、テキストに含まれる、語の親密度≫
また、本実施の形態では、テキスト中の語と親密度が付与されている語とのマッチングをとるときに、獲得時期と同様に、カテゴリ毎に行う。例えば、語に関するカテゴリとして、「動物」「乗り物」「家庭用品」「代名詞」「疑問詞」「動作を表す言葉」「状態を表す言葉」などと分けて、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度を、上記のように抽出する。
例えば、頻度と親密度の相関が高いカテゴリを用いる。こうしたカテゴリでは、頻度が高いほど親密度が低い傾向が強く、親密度の信頼度が高い部分を特徴量として利用することができる。
また、親密度が高い語はなじみがある語で、逆に低い語はなじみが少ない語であるため、テキストに出てくる語の親密度の値を特徴量として抽出することにより、難易度推定に寄与することができる。
また、本実施の形態では、獲得時期と語の親密度の両方を特徴量として抽出するため、特徴量の数が2倍となる(獲得時期の平均値と最低値又は最高値と、親密度の平均値と最低値又は最高値を用いるなど)。
≪語に関するカテゴリ毎の、テキストに含まれる、語の獲得時期と親密度とを統合値≫
なお、テキストに含まれる各語について、獲得時期と語の親密度を統合して1つの特徴量としてもよい。この場合には、以下の2つの統合方法があり得る。
1つ目の統合方法では、テキストに含まれる語について、当該語の獲得時期に応じて当該語の親密度を変更してから、獲得時期と語の親密度を統合する。例えば3歳までに獲得される語は、もともと付与されている親密度の値にかかわらず、予め定められた高い親密度を統合値とする。あるいは、3歳までに獲得される語の値、4歳までに獲得される語の値、…、というように段階的に予め定められた高い親密度を統合値とする。また、CVDに応じてより細かく定めた親密度を統合値としてもよいし、語の獲得時期と語の親密度をパラメータとして統合値を求める関数を予め定めておき、語の獲得時期と語の親密度を入力として関数により統合値を求めてもよい。7歳以上は大人で測った親密度を用い、7歳未満はこれらの方法で補正した統合値を用いるなどにより、大人で測った親密度を子ども用に補正することができる。
また、親密度は「わんわん」より「犬」の方が高いため、親密度だけを単体で使用すると、「犬」が出てくるテキストの方が「わんわん」が出てくるテキストより易しいという逆転現象が起こる問題がある。1つ目の統合方法では、3歳前後を閾値として初期に獲得する語の親密度を高く修正することでこの問題を解消できる。
2つ目の統合方法では、逆に、テキストに含まれる語について、当該語の親密度に応じて、当該語の獲得時期を変更した値を用いて、獲得時期と語の親密度を統合する。その場合、CVDに収録されていないが親密度が付与されている語に対し、親密度が低いほど高い獲得時期を与え、統合値を求める。
この統合方法では、子どもで測った獲得時期に、大人で測った親密度を摺り寄せることができる。
また、獲得時期と語の親密度を統合する際に、CVDに収録されていない語については、獲得時期を推定してから統合してもよい。語の獲得時期を推定する際には、例えば、コーパスでの語の出現頻度としてlog(DF)を用いて、幼児による語の獲得日齢とコーパスでの出現頻度との間の相関を表す回帰式を求めておき、CVDに収録されていない語について、この回帰式を用いて獲得日齢を推定する。
CVDと絵本コーパスやCHILDESコーパス(幼児や幼児に向けた発話を書き起こしたコーパス)中の語の頻度は、語彙獲得日齢と非常に相関が高い。そこで、語彙獲得日齢が未知の語でも、出現頻度から、獲得日齢を推定することができる。そうして推定した結果を、上述した、テキストに含まれる語の獲得時期、親密度、カテゴリ毎の語の獲得時期や親密度、獲得時期との統合値を特徴量として抽出する際に用いる。それにより、カバー率を高くし、未知語なので推定できない場合を減らすことができる。
なお、獲得日齢ではなく、獲得月齢を推定する場合でも、同様に回帰式を用いて推定すればよい。
また、CVDや単語親密度と同様に、イメージビリティ(心像性)(非特許文献: 日本語の語彙特性 第3期 https://www.sanseido‐publ.co.jp/publ/ep/RD/RD04.html)を用いることも考えられる。
イメージビリティとは単語の感覚的・運動覚的イメージの想起のしやすさのことである。例えば、「りんご」や「テニス」のイメージに比べ、「はやり」や「プラス」のイメージは想起しにくい。イメージビリティ語の方が、幼児にとってもイメージしやすく覚えやすいと考えられるため、これらの特徴量を用いることで、イメージしやすく覚えやすい語が多いかどうかといった特徴を反映すことができる。
≪テキストに含まれる用言の項の数及び用言の種類≫
当該テキストに含まれる用言の項の数については、例えば、テキストに含まれる動詞が自動詞か、他動詞かを特徴量として抽出する。
項を1つだけ取る自動詞より、2つ、3つ取る他動詞の方が難しいと仮定した特徴量である。全動詞の内、項を1つだけ取る自動詞の出現する割合、項を2つ以上とる他動詞の出現する割合を特徴量として抽出してもよい。あるいは、項を1つだけ取る自動詞の出現する割合、項を2つだけ取る他動詞の出現する割合、項を3つ以上とる他動詞の出現する割合、と細かく分けて特徴量としてもよい。
動詞「渡す」を含むテキストは、例えば、「AがBにCを渡す。」となるため、「渡す」の項は3つとなり、動詞「読む」を含むテキストは、例えば、「AがBを読む。」となるため、「読む」の項は2つとなり、動詞「始まる」を含むテキストは、例えば、「Aが始まる。」となるため、「始まる」の項は1つとなる。
日本語は、省略が多い言語であるため、あらかじめ、動詞ごとに潜在的にいくつの項をとる単語であるかを組にして語データベース28に記憶させておき、抽出された動詞ごとに記憶された「潜在的にいくつの項をとる単語であるか」の項数(必須格の項の数)を読みだして使用する。
また、割合の求め方としては、例えば、対象とするテキストの全ての動詞の中での、潜在的に3つの項をとる動詞の割合を算出すればよい。
また、細分化せずに、簡単に、自動詞の割合と、他動詞の割合とを特徴量として用いてもよい。
また、日本語は、省略が多い言語であるため、潜在的な動詞の項の数を明確に規定することが困難な語もあることから、潜在的な動詞の項の数を用いるのではなく、実際のテキストの中で出てきている、その動詞(や形容詞)の項の数を、特徴量として抽出してもよい。
例えば、テキスト「彼は本を彼女に渡した。」において、動詞「渡す」の項で出てきているのは、3つであるため、動詞の項の数を3つとする。一方、テキスト「本を彼女に渡した。」において、動詞「渡す」の項で出てきているのは、2つであるため、動詞の項の数を2つとする。
また、当該テキストに含まれる用言の種類については、例えば、助詞「が」「を」以外の助詞を取る動詞か否かを抽出する。
動詞分類として、「自動詞」か「他動詞」かなどの簡単な分類のほか、数十から数百の細かい分類が考えられる。例えば、語彙大系での動詞の分類では、約130タイプに分類されている。この分類の一部を以下の表1に示す。
Figure 0007106999000001
このように細かい分類を使うことも考えられるが、あまり細かくしすぎてもスパースになってしまうため、本実施の形態では、助詞「が」のみ又は助詞「が」「を」のみを取る動詞、それ以外の動詞の2種類に分けて、特徴量として抽出する。なお、助詞「が」のみを取る動詞、助詞「が」「を」のみを取る動詞、それ以外の動詞の3種類に分けて、特徴量として抽出してもよい。
項を複数取る動詞の方が難しい。すなわち、それだけその動詞が表せる事象が複雑になると考えられ、もっとも基本となるのが、すべての動詞、形容詞が取りうる「が」のみを取る動詞である(表面的な助詞では「は」になるときもある)。「を」を取る動詞がその次に多く、それ以外はかなり少なくなる。したがって、あまり出てこない助詞は難しいと考えると、「が」「を」以外の助詞をとる動詞は比較的難しいと仮定でき、これを特徴量として抽出することができる。
≪品詞の出現割合≫
当該テキストに含まれる品詞の出現割合については、例えば、活用する語の品詞である、「動詞」、「形容詞」、「形容動詞」をまとめた特定の品詞の出現割合を特徴量として抽出する。例えば、全単語数が、空白を除き7個であり、品詞「動詞」、「形容詞」、「形容動詞」をまとめた特定の品詞が3個であれば、特定の品詞の割合を、3/7とする。
活用する語は子どもが学習する時にも、学習が難しい、覚えにくい語と言われている。そこで、本実施の形態では、活用する語の品詞をまとめて、活用する語の品詞の割合を特徴量として利用すれば、品詞だけではばらけてしまう活用する語全体の割合を特徴量として抽出できる。
また、擬音語や擬態語になりやすい「副詞」「感動詞」をまとめた特定の品詞の出現割合を特徴量して抽出してもよい。
例えば、擬音語しか出てこないテキストでは、擬音語、といったくくりで特徴量に利用するためには、どの語が擬音語かという判断をするための辞書が必要になる。ただ、通常、擬音語は副詞と感動詞であるため、これらをまとめた品詞の割合を特徴量として使えば、擬音語かどうかの判断を入れることなく、簡便に特徴量として抽出することができる。
≪テキストに、繰り返しのある語をどの程度含むか≫
また、繰り返しのある語をどの程度含むか、については、例えば、「ワンワン」「ざあざあ」のような繰り返しのある語の割合を、特徴量として抽出する。
「ワンワン」「ざあざあ」のような繰り返しのある語は、幼児向けに良く使われる語を多く含んでおり、幼児にとっても覚えやすい語だとの研究結果がある。品詞で区別すると、同じ「ワンワン」でも文脈によって「名詞」か「感動詞」、「ざあざあ」なら「副詞」か「感動詞」といった風に異なる。本実施の形態では、このような繰り返しのある語を、品詞ではなく、幼児にとっての認識のしやすさ、という観点でまとめることにより、特徴量として使用することができる。
≪語に関するカテゴリ毎の、テキストに含まれる、当該カテゴリに属する名詞及び/または用言の割合≫
また、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞の割合については、例えば、動物や乗り物の名前などのようなカテゴリ「具体物」の名前なのか、カテゴリ「抽象物」か、を利用して、カテゴリ毎の名詞の割合を抽出する。
また、カテゴリの粒度は、「具体物」「抽象物」程度の粒度から、「動物」「乗り物」「食べ物」などの粒度など、様々な粒度が考えられ、「具体物」「抽象物」の2分類に限定するものではない。
また、あるカテゴリに一極集中しているか否か、というカテゴリの偏り具合を特徴量として抽出してもよい。
また、名詞だけでなく、動詞に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する用言の割合を、特徴量として抽出してもよい。
例えば、「動く」のようなカテゴリ「抽象」と、「走る」、「歩く」、「とびはねる」のようなカテゴリ「具体」のような分類で、カテゴリ毎の動詞の割合を抽出する。
また、上記表1に則り、2階層目「抽象的関係」「精神的関係」「物理的行動」「精神的行動」「その他」の分類で、カテゴリ毎の動詞の割合を抽出してもよいし、より細かく、「存在」「属性」「因果関係」…などの分類で、カテゴリ毎の動詞の割合を抽出してもよい。
具体性の高い語は学習が容易だといわれているため、上記のように、語の具体性を特徴量として入れることで、同じ品詞の語でも、簡単な語かどうかという特徴を反映することができる。
≪語彙の多様性≫
語彙の多様性については、例えば、テキスト全体に対する語の異なり数、又は語の異なり数/のべ語数を特徴量として抽出する。
語の異なり数/のべ語数は、同じ語が出てくれば低くなり、様々な語が出てくれば高くなる。また、対象年齢が高くなればなるほど(つまり、難しくなれば)、この比率が高くなるが、そうした特徴を反映することができる。
例えば、「お母さんが」「お母さんに」という箇所については、以下の2つの計算方法の何れかにより、語の異なり数/のべ語数を算出する。なお、学習時、推定時で統一されていれば、2つの計算方法のどちらでもよい。
1つ目の計算方法では、「お母さん/が」「お母さん/に」と形態素解析で分けて、「お母さん」「が」「お母さん」「に」の4Tokenで、のべ語数が4となり、「お母さん」「が」「に」の3Typeで、語の異なり数が3となり、語の異なり数/のべ語数は、3/4となる。
2つ目の計算方法では、「お/母/さん/が」「お/母/さん/に」と形態素解析で分けて、「お」「母」「さん」「が」「お」「母」「さん」「に」の8Tokenで、のべ語数が8となり、「お」「母」「さん」「が」「に」の5Typeで、語の異なり数が5となり、語の異なり数/のべ語数は、5/8となる。
ここで、一律ののべ語数で比較するために、例えば、100語に含まれる異なり語数の平均を用いるといったことが考えられる。
また、事前に複数のテキストから、30語、50語、70語、100語に語数を増やした時の、語の異なり数/のべ語数の推移を調査しておくことで、例えば50語しかないテキストの難易度を推定する場合でも、100語になった場合の語の異なり数/のべ語数を予測して、その予測値を使うことも可能である。
≪複数種類の基本語セットの各々についての、テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合又は当該基本語セットに含まれない語の割合≫
複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、基本語セットに含まれる語の割合又は基本語セットに含まれない語の割合については、例えば、CVDに収録されている語を基本語セットとし、その中に出現するか、しないか、を2値の特徴量として用いる。
これにより、基本語にない(一般に多くの子どもが小さいうちに覚える語ではない)語がどのくらい含まれるか、を特徴量として抽出することができる。例えば、(a)80%がCVDに含まれる語で構成されている(つまり3才頃までに覚える語)が、20% はそれ以外であるテキストや、(b) 100% CVDに含まれる語で構成されているテキストを区別できる。
本実施の形態では、絵本コーパスやCHILDESコーパス中に出てくる語や高頻度語から作成される基本語セット、親密度が基準値(例えば6)以上の語から作成される基本語セット、学童期以上を対象とする場合、教科書や、子ども向け教材や子ども向け新聞等を用いて同様に作成される、各学年までの基本語セット、一般向け文書や、均衡コーパスなどから作成される基本語セットのうち、少なくとも2種類以上を組み合わせて用いる。これにより、例えば、(c) 3年生までの基本語セットに90%の語が出現し、残り10%も、6年生までの基本語セットに含まれるテキスト、(d) 3年生までの基本語セットに90%の語が出現し、残り10%は中学生までの基本語セットに含まれるテキスト、等の区別を行なえる。
難易度推定モデル生成部32は、特徴量抽出部30により絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル40として記憶する。
難易度推定モデル生成部32は、具体的には、ランキングSVMにより難易度推定モデルを学習する。絵本の難易度をクラスとして、4>3、4>2、4>1、3>2、2>1のそれぞれのクラスの組み合わせを持つとする。そして、それぞれのクラスの組み合わせについて、絵本のテキストの各々から抽出された特徴量を用いて、クラスに属する絵本のペアすべてを比較し、ランキングSVMを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数(100 個など)特徴量の中から任意の特徴量を選び出し、1つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、特徴量の組み合わせが異なる複数(例えば100個)の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる特徴量の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。
<本発明の実施の形態に係る難易度推定装置の構成>
次に、本発明の実施の形態に係る難易度推定装置の構成について説明する。
図3に示すように、本発明の実施の形態に係る難易度推定装置200は、CPUと、RAMと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。
演算部20は、前処理部228と、語データベース229と、特徴量抽出部230と、難易度推定部232と、難易度推定モデル240とを含んで構成されている。
難易度推定モデル240には、難易度推定モデル40と同じものが記憶されている。
前処理部228は、通常の形態素解析を行い、解析結果を絵本のテキストに付与する。なお、前処理部228で形態素解析をするのではなく、予め形態素解析がされた絵本のテキストを入力部210で受け付けるようにしてもよい。
語データベース229は、語データベース28と同様に、各語の獲得時期を格納した幼児語彙発達データベース(CVD)、各語の親密度、各用言が潜在的にとる項の数、各語の出現頻度、及び複数種類の基本語セットを記憶している。
特徴量抽出部230は、前処理部228で解析結果が付与された絵本のテキストから、上記特徴量抽出部30と同様に、特徴量を抽出する。ここでは、難易度推定モデル240に記憶されている難易度推定モデルにおいて定義された、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項(あるいは格)の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出すればよい。
難易度推定部232は、特徴量抽出部230により抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル240とに基づいて、絵本のテキストの難易度を推定する。
難易度推定部232は、具体的には、絵本のテキストについて、絵本のテキストの特徴量と、難易度推定モデル240とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスiとクラスi + 1のいずれかに分ける場合、クラスiに含まれる絵本のスコアの最大値maxと、クラスi+1に含まれる絵本のスコアの最小値mini+1とする。最大値maxと最小値mini+1の中間値を閾値thとし、thよりスコアが小さければクラスi、 大きければクラスi+1と推定することで得られた難易度クラスを出力部250に出力する。なお、ランダムフォレストにより難易度推定モデルを学習した場合には、抽出した各特徴量に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均(あるいは多数決)することで、難易度クラスを推定する。なお、難易度クラスの推定が必要ない場合には、閾値を用いずに、スコアを出力すればよい。
<本発明の実施の形態に係る難易度推定モデル学習装置の作用>
次に、本発明の実施の形態に係る難易度推定モデル学習装置100の作用について説明する。入力部10において難易度及び解析結果が付与された絵本のテキストの各々の入力を受け付けてテキストデータベース8に格納すると、難易度推定モデル学習装置100は、図4に示す難易度推定モデル学習処理ルーチンを実行する。
まず、ステップS100では、テキストデータベース8に格納された絵本のテキストの各々を取得する。
次に、ステップS102では、処理対象とする絵本のテキストを選択する。
ステップS104では、ステップS100で選択した絵本のテキストから、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出する。
ステップS106では、全ての絵本のテキストから特徴量を抽出したかを判定し、抽出していなければステップS102へ戻って処理を繰り返し、抽出していればステップS108へ移行する。
そして、ステップS108では、ステップS104で絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル40として記憶して処理を終了する。
<本発明の実施の形態に係る難易度推定装置の作用>
次に、本発明の実施の形態に係る難易度推定装置200の作用について説明する。入力部210において絵本のテキストを受け付けると、難易度推定装置200は、図5に示す難易度推定処理ルーチンを実行する。
まず、ステップS200では、入力部210で受け付けた絵本のテキストを取得する。
次に、ステップS202では、ステップS200で取得した絵本のテキストを第1~第4の処理によって解析し、解析結果を付与する。
ステップS204では、ステップS202で解析結果が付与された絵本のテキストから、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び/又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を、特徴量として抽出する。
ステップS206では、ステップS204で抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル240とに基づいて、絵本のテキストの難易度を推定する。
そして、ステップS208では、ステップS206で推定された難易度を推定結果として出力部250に出力し処理を終了する。
以上説明したように、本発明の実施の形態に係る難易度推定装置によれば、入力されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度、前記テキストに含まれる語のイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び/又は用言の割合、及び複数種類の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度を所望の粒度で精度よく推定することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。
また、上述した実施の形態における難易度推定装置では、絵本のテキストの難易度を推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。
また、上述した実施の形態における難易度推定モデル学習装置では、難易度が付与された絵本を用いて難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、対象時期が付与された絵本を用いて絵本の対象時期を推定するための難易度推定モデルを学習するようにしてもよい。また、難易度推定装置では、対象時期を推定するための難易度推定モデルを用いて、絵本の対象時期を推定するようにしてもよい。ここで、対象時期は、例えば、対象年齢、対象月齢、対象週齢、対象日齢、あるいは、半年単位(例えば、2才、2才半、3才、3才半、…)、あるいは言語発達の程度に合わせる(「初語が出たら」「2語文が出たら」「3語文以上がでたら」など。)ことが考えられる。
また、難易度推定を2段階で行うようにしてもよい。上記の実施の形態の難易度推定では、例えば、対象時期が、「0才・1才・2才・3才・4才・5才・6才以上」の何れであるかを一度に推定するが、対象時期が、「0~2才」と「3才以上」の何れであるかを1段目の難易度推定で推定し、1段目の推定結果が「0~2才」である場合に、当該テキストに含まれる語の獲得時期、及び語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期の少なくとも一方を特徴量として用いて、対象時期が、「0才・1才・2才」の何れであるかを推定するようにしてもよい。
具体的には、以下の2つの構成例のいずれかを用いればよい。
1つ目の構成例では、1段目の難易度推定と、2段目の難易度推定との双方で、上述したランキング学習を行う。
まず、1段目の難易度推定では、「0~2才」と「3才以上」の何れであるかを、上記難易度推定部232と同様に、ランキング学習を用いて推定し、その後、「0~2才」と「3才以上」のそれぞれで、同様にランキング学習を用いて、対象時期を推定する。
あるいは、1段目の難易度推定は、クラス分類を用いて、「0~2才」と「3才以上」の何れであるかを推定してもよいし、回帰学習を用いて推定してもよい。1段目の難易度推定で使う特徴量は、上記特許文献1と同様の特徴量、あるいは、上記特許文献1と同様の特徴量及び上記の実施の形態で説明した特徴量を合わせたものとしてもよい。
また、2段目の難易度推定において、「0才・1才・2才」の何れであるかを推定する際に用いる特徴量と、「3才・4才・5才・6才以上」の何れであるかを推定する際に用いる特徴量とが異なっていてもよい。
例えば、「0才・1才・2才」の何れであるかを推定する際に用いる特徴量を、テキストに含まれる語の獲得時期とし、「3才・4才・5才・6才以上」の何れであるかを推定する際に用いる特徴量を、親密度としてもよい。
2つ目の構成例では、1段目の難易度推定で、学習器を使わないで対象時期を推定し、2段目の難易度推定で、上記難易度推定部232と同様に、ランキング学習を用いて推定する。
例えば、1段目の難易度推定で「0~2才」と「3才以上」の何れであるかを推定する際に、出現する語の異なり数が基準値以下であること、語数、文字数、文数、などが基準値以下であること、基本語セットに出現する語の割合が基準値(例えば90%)以上であること、および基本語セットと擬音語・擬態語を合わせたセットに出現する語の割合が基準値以上であることの少なくとも1つを条件として、「0~2才」であると推定し、2段目の難易度推定で、上記難易度推定部232と同様に、ランキング学習を用いて推定する。
あるいは、1段目の難易度推定で「0~2才」と「3才以上」の何れであるかを推定する際に、当該テキストに含まれる語の獲得時期、及び語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期の少なくとも一方を特徴量として用いてもよい。例えば、テキストに含まれる語の獲得時期の平均値に一致する年齢を対象年齢として推定したり、テキストに含まれる語の獲得時期の最高値に一致する年齢を対象年齢として推定したりしてもよい。
これにより、「0~2才」と「3才以上」とで、語数があまりに違うことにより推定精度が低下することを避け、「0~2才」と「3才以上」の何れであるか、先に推定することで、語数の違いの影響を受けずに精度良く推定することができる。また、CVDの収録語は、0~3才頃までに覚える語になるため、「0~2才」までなら、そもそもカバー率が高く、CVDとの一致だけで難易度推定をすることができる。
また、1段目の難易度推定で、「0~2才」と「3才以上」の何れであるかを推定する場合を例に説明したが、これに限定されるものではなく、「0~2才」の中で、「3才以上」の中で、それぞれさらに細かくクラス分けして推定してもよい。
また、「発話し始めの時期」「語彙爆発の時期」「2語文の話し始めの時期」の平均月齢を閾値として、クラス分けして、1段目の難易度推定に用いてもよい。例えば、「発話し始めの時期」が10月齢であり、「語彙爆発の時期」が20月齢であり、「2語文の話し始めの時期」が24月齢である。
また、3段階以上の複数段階で、難易度推定を行うようにしてもよい。
また、CVDに収録されていない語については、獲得時期を推定して利用する場合を例に説明したが、これに限定されるものではない。例えば、CVDに収録されていない語については、無視するか、収録されていないという情報(例えばNULL)を付与して、難易度推定には用いないようにしてもよい。
また、上述した実施の形態では、絵本のテキストは「1冊1話の本」を対象としたが、特徴量として、語の異なり数に関する数を利用しない場合、「1冊1話の本」でなくても対象としてもよい。
また、上述した実施の形態では、ランキングSVMやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法(ニューラルネットワーク、k近傍法、ベイズ分類等)を用いて難易度推定モデルを学習してもよい。
8 テキストデータベース
10、210 入力部
20、220 演算部
28,229 語データベース
30、230 特徴量抽出部
32 難易度推定モデル生成部
40、240 難易度推定モデル
100 難易度推定モデル学習装置
200 難易度推定装置
228 前処理部
232 難易度推定部
250 出力部

Claims (35)

  1. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定装置。
  2. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の割合を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定装置。
  3. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記特徴量抽出部は、前記入力されたテキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定装置。
  4. 入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定装置。
  5. 入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定装置。
  6. 語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含む難易度推定装置。
  7. 入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
  8. 語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティを含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
  9. 前記特徴量抽出部は、
    語毎に予め求められた前記語の親密度又はイメージビリティ、及び語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティ、及び語の獲得時期を含む前記特徴量を抽出する請求項1~請求項の何れか1項記載の難易度推定装置。
  10. 入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
  11. 予め求められた、1種類以上の基本語セットを用いて、入力されたテキストから、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
    を含み、
    前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
  12. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定方法。
  13. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定方法。
  14. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記入力されたテキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定方法。
  15. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
  16. 特徴量抽出部が、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
  17. 特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定方法。
  18. 特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定方法。
  19. 特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
  20. 特徴量抽出部が、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する
    難易度推定方法。
  21. 特徴量抽出部が、予め求められた、1種類以上の基本語セットを用いて、入力されたテキストから、前記1種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び/又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
    前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
  22. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含み、
    前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習装置。
  23. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含み、
    前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習装置。
  24. 語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含み、
    前記特徴量抽出部は、前記テキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定モデル学習装置。
  25. 難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含み、
    前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定モデル学習装置。
  26. 難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含み、
    前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定モデル学習装置。
  27. 語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
    を含む難易度推定モデル学習装置。
  28. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習方法。
  29. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
    前記カテゴリは、幼児語彙発達データベース(CVD)、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習方法。
  30. 特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記テキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定モデル学習方法。
  31. 特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定モデル学習方法。
  32. 特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
    前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定モデル学習方法。
  33. 特徴量抽出部が、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び/又は用言の割合を含む特徴量を抽出し、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する
    難易度推定モデル学習方法。
  34. コンピュータを、請求項1~請求項1の何れか1項に記載の難易度推定装置の各部として機能させるためのプログラム。
  35. コンピュータを、請求項22~請求項27の何れか1項に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。
JP2018108551A 2018-06-06 2018-06-06 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム Active JP7106999B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018108551A JP7106999B2 (ja) 2018-06-06 2018-06-06 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
PCT/JP2019/022053 WO2019235446A1 (ja) 2018-06-06 2019-06-03 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
US15/734,540 US20230342550A1 (en) 2018-06-06 2019-06-03 Degree of difficulty estimating device, and degree of difficulty estimating model learning device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018108551A JP7106999B2 (ja) 2018-06-06 2018-06-06 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019212098A JP2019212098A (ja) 2019-12-12
JP7106999B2 true JP7106999B2 (ja) 2022-07-27

Family

ID=68769892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018108551A Active JP7106999B2 (ja) 2018-06-06 2018-06-06 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230342550A1 (ja)
JP (1) JP7106999B2 (ja)
WO (1) WO2019235446A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10806393B2 (en) 2019-01-29 2020-10-20 Fuji Xerox Co., Ltd. System and method for detection of cognitive and speech impairment based on temporal visual facial feature
US20230205992A1 (en) * 2020-06-16 2023-06-29 Nippon Telegraph And Telephone Corporation Proofreading support apparatus, proofreading support method and proofreading support program
CN117611924B (zh) * 2024-01-17 2024-04-09 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222400A (ja) 1999-01-29 2000-08-11 Casio Comput Co Ltd 文章出力装置、及びプログラムが記憶された記憶媒体
JP2016152032A (ja) 2015-02-19 2016-08-22 日本電信電話株式会社 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
JP2017151849A (ja) 2016-02-26 2017-08-31 日本電信電話株式会社 外れ値箇所抽出装置、方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147428A1 (ja) * 2011-04-27 2012-11-01 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222400A (ja) 1999-01-29 2000-08-11 Casio Comput Co Ltd 文章出力装置、及びプログラムが記憶された記憶媒体
JP2016152032A (ja) 2015-02-19 2016-08-22 日本電信電話株式会社 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
JP2017151849A (ja) 2016-02-26 2017-08-31 日本電信電話株式会社 外れ値箇所抽出装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中山祐輝 他2名,ユーザーレビューと目次を用いた学術本の難易度推定手法の提案と推薦システムへの応用,教育システム情報学会誌,日本,教育システム情報学会,2013年01月01日,Vol.30 No.1,54-64頁,ISSN 1341-4135
藤田早苗 他3名,幼児への発話における語の出現頻度と語彙獲得の関係を探る,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年01月19日,Vol.117 No.420,35-40頁,ISSN 0913-5685,HCS2017-72

Also Published As

Publication number Publication date
WO2019235446A1 (ja) 2019-12-12
US20230342550A1 (en) 2023-10-26
JP2019212098A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
CN106156204A (zh) 文本标签的提取方法和装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
JP7106999B2 (ja) 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
Mykowiecka et al. Testing word embeddings for Polish
Kurdi Text complexity classification based on linguistic information: application to intelligent tutoring of ESL
Turney et al. The natural selection of words: Finding the features of fitness
Bulté et al. Automating lexical simplification in Dutch
Campesato Natural language processing fundamentals for developers
Theijssen et al. On the difficulty of making concreteness concrete
WO2016067396A1 (ja) 文の並び替え方法および計算機
Zhang et al. Positive, negative, or mixed? Mining blogs for opinions
Keune Explaining register and sociolinguistic variation in the lexicon: Corpus studies on Dutch
Lindemann et al. Building corpus-based frequency lemma lists
Jiang et al. ChouBERT: Pre-training french language model for crowdsensing with tweets in phytosanitary context
Kerkvliet et al. Who mentions whom? recognizing political actors in proceedings
Alexander et al. Lexis
Nothman Learning named entity recognition from Wikipedia
Akter et al. Extracting RDF triples from raw text
Stanković et al. Towards automatic definition extraction for Serbian
Kumar et al. A comparative analysis of sarcasm detection
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Smywiński-Pohl et al. Application of character-level language models in the domain of polish statutory law
Kurdi Content-Dependent Versus Content-Independent Features for Gender and Age Range Identification in Different Types of Texts
Copestake Natural Language Processing: Part II Overview of Natural Language Processing (L90): Part III/ACS
Farzindar et al. Linguistic Pre-processing of Social Media Texts

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R150 Certificate of patent or registration of utility model

Ref document number: 7106999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150