JP7106999B2

JP7106999B2 - 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム

Info

Publication number: JP7106999B2
Application number: JP2018108551A
Authority: JP
Inventors: 早苗藤田; 正嗣服部; 哲生小林; 優子奥村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2022-07-27
Anticipated expiration: 2038-06-06
Also published as: WO2019235446A1; US20230342550A1; JP2019212098A

Description

特許法第３０条第２項適用平成３０年１月１９日電子情報通信学会技術研究報告Ｖｏｌ．１１７Ｎｏ．４２０ＨＣＳ２０１７－７２ｐｐ．３５－４０にて公開平成３０年３月５日ｈｔｔｐ：／／ａｎｌｐ．ｊｐ／ｐｒｏｃｅｅｄｉｎｇｓ／ａｎｎｕａｌ＿ｍｅｅｔｉｎｇ／２０１８／ｉｎｄｅｘ．ｈｔｍｌｈｔｔｐ：／／ａｎｌｐ．ｊｐ／ｐｒｏｃｅｅｄｉｎｇｓ／ａｎｎｕａｌ＿ｍｅｅｔｉｎｇ／２０１８／ｐｄｆ＿ｄｉｒ／Ｂ７－４．ｐｄｆにて公開

本発明は、難易度推定装置、難易度推定モデル学習装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度推定装置、方法、及びプログラムに関する。

従来より、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値などを特徴量として絵本の難易度を推定する難易度推定装置が知られている（特許文献１）。

特開２０１６－１５２０３２号公報

幼児は成長が著しく、日齢、週齢、月齢単位で比較しても変化が大きい。しかしながら、上記特許文献１に記載の難易度推定装置では、推定の粒度が例えば１年齢単位など、難易度として設定できる粒度が粗い。より細かな粒度で、かつ、高精度に難易度を設定することが求められる。

本発明は、上記問題点を解決するために成されたものであり、テキストの難易度又は対象時期を所望の粒度で精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。
また、テキストの難易度又は対象時期を所望の粒度で精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る難易度推定装置は、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。

第２の発明に係る難易度推定装置は、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。

第３の発明に係る難易度推定装置は、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。

第４の発明に係る難易度推定装置は、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。

第５の発明に係る難易度推定装置は、予め求められた、１種類以上の基本語セットを用いて、入力されたテキストから、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、を含んで構成されている。

第６の発明に係る難易度推定方法は、特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。

第７の発明に係る難易度推定方法は、特徴量抽出部が、語毎に予め求められた前記語の親密度を用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティを含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。

第８の発明に係る難易度推定方法は、特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。

第９の発明に係る難易度推定方法は、特徴量抽出部が、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。

第１０の発明に係る難易度推定方法は、特徴量抽出部が、予め求められた、１種類以上の基本語セットを用いて、入力されたテキストから、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する。

第１１の発明に係る難易度推定モデル学習装置は、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。

第１２の発明に係る難易度推定モデル学習装置は、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の親密度を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。

第１３の発明に係る難易度推定モデル学習装置は、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。

第１４の発明に係る難易度推定モデル学習装置は、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。

第１５の発明に係る難易度推定モデル学習装置は、予め求められた、１種類以上の基本語セットを用いて、難易度又は対象時期が付与されたテキストの各々から、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、を含んで構成されている。

第１６の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。

第１７の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の親密度を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。

第１８の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。

第１９の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。

第２０の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、予め求められた、１種類以上の基本語セットを用いて、難易度又は対象時期が付与されたテキストの各々から、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する。

第２１の発明に係るプログラムは、コンピュータを、上記の発明に係る難易度推定装置の各部として機能させるためのプログラムである。

本発明の難易度推定装置、方法、及びプログラムによれば、入力されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度又はイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び／又は用言の割合、又は１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度又は対象時期を所望の粒度で精度よく推定することができる、という効果が得られる。

また、本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度又は対象時期が付与されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度又はイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び／又は用言の割合、又は１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度又は対象時期を所望の粒度で精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。

本発明の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。語彙大系の分類の例を示す図である。本発明の実施の形態に係る難易度推定装置の構成を示すブロック図である。本発明の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、絵本のテキストの難易度を推定する装置に本発明を適用する場合を例に説明するが、対象は絵本に限らず、書籍、テキストデータ等であってもよい。

＜本発明の実施の形態に係る難易度推定モデル学習装置の構成＞
本発明の実施の形態に係る難易度推定モデル学習装置の構成について説明する。

図１に示すように、本発明の実施の形態に係る難易度推定モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定モデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、難易度及び解析結果が付与された絵本のテキストの各々を入力として受け付ける。

演算部２０は、テキストデータベース８と、語データベース２８と、特徴量抽出部３０と、難易度推定モデル生成部３２と、難易度推定モデル４０とを含んで構成されている。

テキストデータベース８には、入力部１０によって受け付けた、難易度及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとしてテキストデータベース８に格納されている。なお、テキストデータベース８に格納されている絵本は、本実施の形態においては、０～５才向けに限るものではなく、子供向けの「１冊１話」の本を対象とし、難易度（又は対象時期）が記載されているものであればよい。また、絵本１冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象時期の推定が可能である。また、絵本の情報を含むファイルは、ＸＭＬ、ＳＱＬ、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。

また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、通常の形態素解析を行った結果である。また、形態素解析に加えて、係り受け解析や項構造解析を行った結果が、絵本のテキストに付与されていてもよい。なお、乳幼児向けの図鑑や絵本では「名詞」「擬音語」「擬態語」「感動詞」等の語のみが並んでいる場合もあるが、そのような場合には、形態素解析自体を行わなくてもよい。このとき、改行や空白を単語の区切りとすればよい。

語データベース２８は、各語の獲得時期を格納した幼児語彙発達データベース（ＣＶＤ）、各語の親密度、各用言が潜在的にとる項の数、各語の出現頻度、及び複数種類の基本語セットを記憶している。

ここで、幼児語彙発達データベース（ＣＶＤ）について説明する。従来より、幼児にとってどのような語の獲得が難しいかを調べる研究が行われている。難しさを示す指標の一例として、語の獲得時期がある。非特許文献１では２７００語について幼児の言語獲得時期（獲得日齢）の調査報告が行われており、その調査に基づきＣＶＤが構築されている。この調査は、幼児の言語の獲得時期の調査報告として世界的にみても大規模なものである。

[非特許文献１]小林哲生，奥村優子，南泰浩，“語彙チェックリストアプリによる幼児語彙発達データ収集の試み”，電子情報通信学会技術研究報告，vol.115，no.418，HCS2015-59，pp.1-6，2016．

上記の非特許文献１にあるＣＶＤは、０歳から４歳頃までの乳幼児（子ども）の保護者約１３００名に、調査時点で自分の子どもが該当の語を理解できるか、発話できるかどうかをチェックリスト形式で解答してもらい、その情報をデータベース化したものであり、約２７００語が収録されている。つまり、ＣＶＤは、２７００語の語とその獲得時期（理解時期または発話時期）についての約１３００名分のデータベースである。

本調査では、調査対象の子どもから得たデータを用いて推定した、５０％の子どもが発話できるようになる日齢（以下、５０％獲得日齢という)を用いる。ここで、理解できる日齢ではなく、発話できる日齢を用いたのは、発話されたかどうかの方が保護者にわかりやすく、信頼度が高いからである。

なお、ＣＶＤの値としては、発話日齢、理解日齢のいずれか、あるいは両方を利用すればよい。また、日齢ではなく月齢や週齢、年齢に換算して用いてもよい。

語の親密度については、各語について、ＣＶＤと同様に事前に各語がどの程度親しみのある語かを数値化するか、数値化したものを複数段階に量子化して各段階（クラス）ごとにＩＤを振るなどしてあらかじめ求めたものである。

なお、親密度は、被験者の方に、どの程度親密な語（親しみのある語）だと思うかを付けてもらい、その統計値等を用いることによって求めればよい。例えば、語の表記だけを提示して親密度を付与してもらう。あるいは、カバー率をあげるために、表記ゆれを吸収する（子供、子ども、こどもをすべて同一の単語として扱う）ことを考えて、語の音と表記の両方を提示して親密度を付与してもらうようにしてもよい。あるいは、語の表記だけ提示すること、音だけ提示すること、語の音と表記の両方を提示することを全て使って親密度を付与してもらうようにしてもよい。また同様に、イメージビリティ（あるいは、心像性、イメージしやすさ）などを数値化したスコアなどを特徴量として利用してもよい。

例えば、以下のような各語の親密度が語データベース２８に記憶されている。

00000123, 子供, コドモ, 6.688, 6.375, 6.625
00000234, びっくり, ビックリ, 6.469, 6.312, 6.500

ただし、上記の各項目は、順に、ＩＤ, 表記, 読み, ＶＡ(表記と音を提示したときの親密度), Ａ（音のみを提示したときの親密度）, Ｖ（表記のみを提示したときの親密度）を表している。

動詞や動詞性名詞、事態性名詞、形容詞や形容動詞等（以下、用言）は、必要とする項（または格）あるいは、前提として要求される項が決まっている。例えば、動詞「渡す」であれば、「誰が」「誰に」「何を」といった項をとることが考えられる。これらの項は、文中で明示的に記載されていない場合でも、潜在的には存在している。これらの用言のとる項の数を、「用言が潜在的にとる項の数」と呼ぶこととする。各用言が潜在的にとる項の数としては、例えば、動詞「渡す」：３、動詞「読む」：２、動詞「始まる」：１、等を語データベース２８に記憶させておく。また、対象テキスト中に、これらの項が明示的に出現するか省略されているか、出現する場合でも、異なる文中に出現するか、倒置になっているか（例えば、「渡した本」であれば、「本を渡す」の倒置であると考えられる）などの用言と項の位置関係も特徴量として利用することが考えられる。

語の出現頻度としては、ある語が絵本コーパスやＣＨＩＬＤＥＳコーパス、対象とする子ども向けのコンテンツから作成されたコーパスにおいて出現する頻度である語頻度（以下、FREQと表す）又は、ある語が対象コーパス中で出現する文書の数である文書頻度（以下、DFと表す）を用いる。

また、基本語セットについては、以下に示す基本コーパスのうち少なくとも１種類以上を用いればよい。例えば、絵本コーパスやＣＨＩＬＤＥＳコーパス中に出てくる語やこれらのコーパスにおいて高頻度に出現する語である高頻度語から作成される基本語セット、親密度が基準値（例えば６）以上の語から作成される基本語セット、学童期以上を対象とする場合、教科書や、子ども向け新聞等を用いて同様に作成される、各学年までの基本語セット、一般向け文書や、均衡コーパスなどから作成される基本語セットのうち、少なくとも１種類以上を用いればよい。また、例えば絵本コーパスでは乳幼児向けの絵本だけを用いて基本語セットを作成したり、教科書コーパスであれば低学年向けの教科書だけを用いることも考えられる。品詞ごとに基本語セットを用意してもよい。

ここで、絵本コーパスは、非特許文献２にある現在構築中の絵本データベースの各絵本の本文データから構成される絵本コーパスである。絵本データベースは、発達心理学における研究や、子供の興味や発達に応じた絵本の推薦を目的として構築しており、ベストセラーやロングセラー、専門家による推薦図書を含むよう選定されている。

[非特許文献２]：藤田早苗，服部正嗣，小林哲生，奥村優子，青山一生，“絵本検索システム「ぴたりえ」～子どもにぴったりの絵本を見つけます～”，言語処理学会「自然言語処理」，Vol.24, No.1, 2017．）

ＣＨＩＬＤＥＳコーパスは、幼児や幼児に向けた発話を書き起こしたコーパスである。
均衡コーパスは、国立国語研究所の現代日本語書き言葉均衡コーパス（以下、ＢＣＣＷＪという）である。このＢＣＣＷＪは、現代日本語の書き言葉の全体像を把握するために構築したコーパスである。このＢＣＣＷＪには、形態素解析の情報、文書構造に関するタグも付与されており、また、書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律など、それぞれのジャンルに分かれたコーパスがある

特徴量抽出部３０は、本実施の形態では、テキストデータベース８から取得した絵本のテキストの各々から、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項（あるいは格）の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／または用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合及び／又は当該基本語セットに含まれない語の割合、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出する。ここで、用言としては、動詞のみを用いたり、動詞と動詞性名詞だけを用いたりことも考えられる。
また、品詞ごとに基本語セットを用意した場合、例えば、品詞ごとの基本語セットの各々についての、当該テキストに含まれる当該品詞の語のうちの、当該基本語セットに含まれる語の割合、及び／又は、当該基本語セットに含まれない語の割合などを、特徴量として抽出してもよい。

なお、本実施の形態では、特徴量として、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言の項の数及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／又は用言の割合、１種類以上の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を抽出したが、これに限定されるものではない。これらの特徴量以外のテキストから得られる特徴量、例えば、テキストに含まれるひらがな、カタカナ、漢字の割合、一文に含まれる文字数の平均値、語数の平均値、文節数の平均値、述語数の平均値等の特徴量を含んで抽出してもよい。当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言の項の数及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／又は用言の割合、１種類以上の基本語セットの各々についての、当該テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合及び／又は当該基本語セットに含まれない語の割合のうちの少なくとも一つ含む特徴量を抽出するようにすればよい。また、これらの場合には、特徴量の抽出に必要なもののみが語データベース２８に記憶されていればよい。

特徴量抽出部３０が抽出する上述した各種の特徴量を、以下に具体的に説明する。

≪テキストに含まれる語の獲得時期≫
テキストに含まれる語の獲得時期については、語データベース２８に記憶されているＣＶＤ中の語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語のＣＶＤ中の発話日齢の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。

例えば、ＣＶＤ中の発話日齢の平均値、最高値の一方を使用する場合、両方を使用する場合には、以下の特徴量が抽出される。

テキスト「こどもたちはびっくりした。」の形態素解析結果の後ろに、ＣＶＤのＩＤを付与した場合には、以下のようになる。

こども名詞, 普通名詞, 一般, *, *, *, コドモ, 子供, こども, コドモ, こども, コドモ, 和, *, *, *, * B-00000123
たち接尾辞, 名詞的, 一般, *, *, *, タチ, 達, たち, タチ, たち, タチ, 和, *, *, *, *
は助詞, 係助詞, *, *, *, *, ハ, は, は, ワ, は, ワ, 和, *, *, *, * B-00000345
空白, *, *, *, *, *, , , , , , , 記号, *, *, *, *
びっくり名詞, 普通名詞, サ変可能, *, *, *, ビックリ, びっくり, びっくり, ビックリ, びっくり, ビックリ, 和, *, *, *, * 00000234
し動詞, 非自立可能, *, *, サ行変格, 連用形-一般, スル, 為る, し, シ, する, スル, 和, *, *, *, * I-00000234
た助動詞, *, *, *, 助動詞-タ, 終止形-一般, タ, た, た, タ, た, タ, 和, *, *, *, * B-00000456
。補助記号, 句点, *, *, *, *, , 。, 。, , 。, , 記号, *, *, *, *

上記の例では、ＢＩＯタグと呼ばれる形式を用いている。ＢＩＯタグは、固有名詞付与でよく使われる形式であり、Ｂが始まり、Ｉは続き、Ｏはその他を表す。なお、上記の例では、Ｏは付与していないが、付与してもよい。

「びっくりする」は、形態素解析では「びっくり」と「する」になるが、ＣＶＤにはひとまとまりで収録されているため、「びっくり」がＢ、「する」がＩで、まとめてＣＶＤのＩＤ00000234の項目に対応する。

ただし、テキスト中に「する」が単独で出てきたときには、ＣＶＤのＩＤ00000234の項目に対応することはしない。なお、ＣＶＤでは、単独の動詞「する」については、自立可能な動詞として別のＩＤが振られており、テキスト中に「する」が単独で出てきたときには、自立可能な動詞の「する」のＩＤを対応させる。

また、上述のテキスト「こどもたちはびっくりした。」の例では、ＣＶＤの値は次のとおりとなる。

00000123,子ども,1,ひと,31.0855502360271,27.0035830656026
00000345,ハ,1,助詞・助動詞,27.4366201342289,26.7774242029008
1696,びっくりする,1,こころ,30.6868045540324,26.302268434856
1959,タ,1,助詞・助動詞,24.7624774749285,22.7216817167811

上記の値の各項目は、順に、ＩＤ,見出し語,区分け,カテゴリ,発話(50％獲得月齢),理解(50%獲得月齢)を表している。

「発話(50％獲得月齢)」を用いる場合、このテキストに出てくる語の「発話(50％獲得月齢)」の平均は、以下のように計算される。

(31.0855502360271+27.4366201342289+30.6868045540324+24.7624774749285)/4 = 28.492863099804225

また、このテキストに出てくる語の「発話(50％獲得月齢)」の最高値は、「こども」の「発話(50％獲得月齢)」の値である31.0855502360271となる。

テキスト毎に、難易度を推定する場合には、テキスト毎に、テキストに含まれる各語の獲得時期の平均値又は最高値を抽出する。なお、テキスト以外の単位（例えば、ページ・文・段落毎）で、難易度を推定したい場合には、推定したい単位に対応する箇所で、各語の獲得時期の平均値又は最高値を抽出すればよい。

また、各語の獲得時期の平均値及び最高値の両方を、特徴量として抽出してもよい。

子どもが早い時期に覚える語は比較的簡単な語で、大きくなってから覚える語は難しい語だと考えられる。そこで、上記のように語の獲得時期を特徴量として使うことで子どもがどのくらいの時期に覚える語が用いられているか（早い時期なのか、大きくなってから覚えるのか）という特徴を反映できる。また、平均値の利用により、テキストに出てくる語が平均的に覚えられる時期（つまり、早く覚える語が多い、少ないなど）を反映できる。また、最高値の利用により、もっとも遅く覚えられる語はいつ頃覚えられているのかという特徴を反映できる。

≪語に関するカテゴリ毎の、テキストに含まれる語の獲得時期≫
次に、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期を特徴量とする例について説明する。
テキスト中の語とＣＶＤとのマッチングを取るときに、カテゴリ毎に行ってもよい。例えば、語に関するカテゴリとして、「動物」「乗り物」「家庭用品」「代名詞」「疑問詞」「動作を表す言葉」「状態を表す言葉」などと分けて、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期を、上記と同様に抽出する。上記と同様とは、具体的には、カテゴリ毎に、語データベース２８に記憶されているＣＶＤ中の語のうちの当該カテゴリに属する語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語のＣＶＤ中の発話日齢の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。

なお、カテゴリの分け方として、ＣＶＤのカテゴリや、語彙大系（図２参照）や分類語彙表等のシソーラスの分類（リーフノード、中間ノード、利用ノードを各ノードに出てくる語の頻度を閾値にして決定する、等の分け方が考えられる）、ＥＤＲ電子化辞書の概念辞書の分類(階層化された概念構造と、各学年に含まれる語が定義されている。インターネット＜URL：http://www2.nict.go.jp/ipp/EDR/JPN/TG/Doc/EDR_J04a.pdf＞参照）、を利用してもよい。また、世の中にある絵本の中での出現頻度等、コーパスの中での出現頻度と獲得時期の相関の高いカテゴリ（具体物の名前など）だけ利用してもよい。

これは、絵本に出てくる頻度が高い単語ほど、幼児が獲得する月齢が高い傾向にあること、カテゴリによって傾向に強弱があること、を発明者らが科学的に実証していることによる。例えば、乗り物や動物のカテゴリは、頻度が高いほど獲得時期が早くなる（非特許文献３参照）。

[非特許文献３] 藤田早苗, 小林哲生, 奥村優子, 服部正嗣, "幼児の語彙獲得と絵本コーパスの関係を探る",
言語処理学会第23回年次大会 (NLP-2017), pp. 899--902, 筑波, C6-2, 2017.3.

コーパスの中での出現頻度と獲得時期の相関の高いカテゴリでは、頻度が高いほど獲得時期が遅い、という傾向が強いが、頻度と獲得時期にほとんど相関がみられないカテゴリも存在する。相関が高いカテゴリだけを用いることで、語の難しさをよく反映していると考えられる語を特徴量として利用することができる。

また、複数種類のカテゴリの分け方を組み合わせて利用したりしてもよい。

例えば、対象テキストに出てくる「動物」カテゴリの語の獲得時期の平均値及び最大値、「擬音語・擬態語」カテゴリの語の獲得時期の平均値及び最大値を特徴量として抽出してもよい。

このようにカテゴリに分けて特徴量を抽出することにより、できるだけ他の条件（むずかしさに影響すると思われる、品詞、活用の有無など）を揃えることで、獲得時期を難しさの指標としての信頼性を高めることができる。

例えば、カテゴリ「動物」と、カテゴリ「擬音語・擬態語」とを分けずに特徴量として利用すると、「ねこ」＜「ぺったん」＜「ラッコ」＜「さぶーん」の順で難しいことを表す特徴量が抽出される。

532,ネコ,1,動物,25.7693158612872,19.4885511769964
407,ぺったん,1,擬音語・擬態語,26.0364339727761,20.153005159889
555,ラッコ,1,動物,37.3564025311432,29.6474071490029
455,ざぶーん,1,擬音語・擬態語, 38.3374588300544, 34.3004374461354

一方、カテゴリ「動物」とカテゴリ「擬音語・擬態語」に分けて特徴量を抽出すると、以下の内容を表す特徴量が抽出される。

動物：「ねこ」＜「ラッコ」
擬音語・擬態語：「ぺったん」＜「さぶーん」

ここで、カテゴリ「擬音語・擬態語」は、頻度と獲得時期の相関がほとんどないカテゴリである。

このように、カテゴリに分けることで、カテゴリ内の条件をできるだけ揃えることができ、同じカテゴリの中での難しさを比較することができる。また、その中でも、信頼性の高いと考えられるカテゴリだけを特徴量として用いることもできる。

また、カテゴリごとに、テキストに含まれる各語の獲得時期の平均値及び最高値を特徴量として抽出すると共に、全カテゴリでの獲得時期の平均値の平均、及び最高値の平均を特徴量として抽出してもよい。

このように、カテゴリ毎に分けることにより、語やテキストの難易度と相関の高い語とそうでない語を分けたり、学習が難しいカテゴリの語と容易な語を分けることができる。

≪語に関するカテゴリ毎の、テキストに含まれる、当該カテゴリに属する語の割合≫
また、学習が難しいカテゴリの語の個数の全体に占める割合を、特徴量として抽出してもよい。

例えば、カテゴリ「動作」はカテゴリ「動物」に比べてカテゴリに属する語が難しく、同じ名詞でも、具体物である「動物」や「乗り物」の名前に比べると、「代名詞」や抽象物、上位概念は難しい語である。より難しいクラスの語の割合などを特徴量として抽出してもよい。また、同様に、「擬音語・擬態語」のカテゴリは簡単な覚えやすい語のカテゴリである。そのため、頻度と獲得時期の相関が低いカテゴリではあるが、これらのカテゴリの語の割合を特徴量として用いることも考えられる。これにより、簡単な語が出てくる特徴を反映することができる。

≪テキストに含まれる語の親密度≫
テキストに含まれる語の親密度については、語データベース２８に記憶されている、親密度が付与されている語と、対象テキスト中に出てくる語をマッチングし、対象テキスト中に出てくる語の親密度の平均値、最高値、のいずれか、あるいは両方を、特徴量として抽出する。

上記のテキスト「こどもたちはびっくりした。」の例の場合、あらかじめ語データベース２８に記憶された親密度が付与された語に照らして、「こども」「びっくり」が一致する。

≪語に関するカテゴリ毎の、テキストに含まれる、語の親密度≫
また、本実施の形態では、テキスト中の語と親密度が付与されている語とのマッチングをとるときに、獲得時期と同様に、カテゴリ毎に行う。例えば、語に関するカテゴリとして、「動物」「乗り物」「家庭用品」「代名詞」「疑問詞」「動作を表す言葉」「状態を表す言葉」などと分けて、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度を、上記のように抽出する。

例えば、頻度と親密度の相関が高いカテゴリを用いる。こうしたカテゴリでは、頻度が高いほど親密度が低い傾向が強く、親密度の信頼度が高い部分を特徴量として利用することができる。

また、親密度が高い語はなじみがある語で、逆に低い語はなじみが少ない語であるため、テキストに出てくる語の親密度の値を特徴量として抽出することにより、難易度推定に寄与することができる。

また、本実施の形態では、獲得時期と語の親密度の両方を特徴量として抽出するため、特徴量の数が２倍となる（獲得時期の平均値と最低値又は最高値と、親密度の平均値と最低値又は最高値を用いるなど）。

≪語に関するカテゴリ毎の、テキストに含まれる、語の獲得時期と親密度とを統合値≫
なお、テキストに含まれる各語について、獲得時期と語の親密度を統合して１つの特徴量としてもよい。この場合には、以下の２つの統合方法があり得る。

１つ目の統合方法では、テキストに含まれる語について、当該語の獲得時期に応じて当該語の親密度を変更してから、獲得時期と語の親密度を統合する。例えば３歳までに獲得される語は、もともと付与されている親密度の値にかかわらず、予め定められた高い親密度を統合値とする。あるいは、３歳までに獲得される語の値、４歳までに獲得される語の値、…、というように段階的に予め定められた高い親密度を統合値とする。また、ＣＶＤに応じてより細かく定めた親密度を統合値としてもよいし、語の獲得時期と語の親密度をパラメータとして統合値を求める関数を予め定めておき、語の獲得時期と語の親密度を入力として関数により統合値を求めてもよい。７歳以上は大人で測った親密度を用い、７歳未満はこれらの方法で補正した統合値を用いるなどにより、大人で測った親密度を子ども用に補正することができる。

また、親密度は「わんわん」より「犬」の方が高いため、親密度だけを単体で使用すると、「犬」が出てくるテキストの方が「わんわん」が出てくるテキストより易しいという逆転現象が起こる問題がある。１つ目の統合方法では、３歳前後を閾値として初期に獲得する語の親密度を高く修正することでこの問題を解消できる。

２つ目の統合方法では、逆に、テキストに含まれる語について、当該語の親密度に応じて、当該語の獲得時期を変更した値を用いて、獲得時期と語の親密度を統合する。その場合、ＣＶＤに収録されていないが親密度が付与されている語に対し、親密度が低いほど高い獲得時期を与え、統合値を求める。

この統合方法では、子どもで測った獲得時期に、大人で測った親密度を摺り寄せることができる。

また、獲得時期と語の親密度を統合する際に、ＣＶＤに収録されていない語については、獲得時期を推定してから統合してもよい。語の獲得時期を推定する際には、例えば、コーパスでの語の出現頻度としてｌｏｇ（ＤＦ）を用いて、幼児による語の獲得日齢とコーパスでの出現頻度との間の相関を表す回帰式を求めておき、ＣＶＤに収録されていない語について、この回帰式を用いて獲得日齢を推定する。

ＣＶＤと絵本コーパスやＣＨＩＬＤＥＳコーパス（幼児や幼児に向けた発話を書き起こしたコーパス）中の語の頻度は、語彙獲得日齢と非常に相関が高い。そこで、語彙獲得日齢が未知の語でも、出現頻度から、獲得日齢を推定することができる。そうして推定した結果を、上述した、テキストに含まれる語の獲得時期、親密度、カテゴリ毎の語の獲得時期や親密度、獲得時期との統合値を特徴量として抽出する際に用いる。それにより、カバー率を高くし、未知語なので推定できない場合を減らすことができる。

なお、獲得日齢ではなく、獲得月齢を推定する場合でも、同様に回帰式を用いて推定すればよい。

また、CVDや単語親密度と同様に、イメージビリティ（心像性）(非特許文献: 日本語の語彙特性第3期 https://www.sanseido‐publ.co.jp/publ/ep/RD/RD04.html)を用いることも考えられる。
イメージビリティとは単語の感覚的・運動覚的イメージの想起のしやすさのことである。例えば、「りんご」や「テニス」のイメージに比べ、「はやり」や「プラス」のイメージは想起しにくい。イメージビリティ語の方が、幼児にとってもイメージしやすく覚えやすいと考えられるため、これらの特徴量を用いることで、イメージしやすく覚えやすい語が多いかどうかといった特徴を反映すことができる。

≪テキストに含まれる用言の項の数及び用言の種類≫
当該テキストに含まれる用言の項の数については、例えば、テキストに含まれる動詞が自動詞か、他動詞かを特徴量として抽出する。

項を１つだけ取る自動詞より、２つ、３つ取る他動詞の方が難しいと仮定した特徴量である。全動詞の内、項を１つだけ取る自動詞の出現する割合、項を２つ以上とる他動詞の出現する割合を特徴量として抽出してもよい。あるいは、項を１つだけ取る自動詞の出現する割合、項を２つだけ取る他動詞の出現する割合、項を３つ以上とる他動詞の出現する割合、と細かく分けて特徴量としてもよい。

動詞「渡す」を含むテキストは、例えば、「ＡがＢにＣを渡す。」となるため、「渡す」の項は３つとなり、動詞「読む」を含むテキストは、例えば、「ＡがＢを読む。」となるため、「読む」の項は２つとなり、動詞「始まる」を含むテキストは、例えば、「Ａが始まる。」となるため、「始まる」の項は１つとなる。

日本語は、省略が多い言語であるため、あらかじめ、動詞ごとに潜在的にいくつの項をとる単語であるかを組にして語データベース２８に記憶させておき、抽出された動詞ごとに記憶された「潜在的にいくつの項をとる単語であるか」の項数(必須格の項の数)を読みだして使用する。

また、割合の求め方としては、例えば、対象とするテキストの全ての動詞の中での、潜在的に３つの項をとる動詞の割合を算出すればよい。

また、細分化せずに、簡単に、自動詞の割合と、他動詞の割合とを特徴量として用いてもよい。

また、日本語は、省略が多い言語であるため、潜在的な動詞の項の数を明確に規定することが困難な語もあることから、潜在的な動詞の項の数を用いるのではなく、実際のテキストの中で出てきている、その動詞（や形容詞）の項の数を、特徴量として抽出してもよい。

例えば、テキスト「彼は本を彼女に渡した。」において、動詞「渡す」の項で出てきているのは、３つであるため、動詞の項の数を３つとする。一方、テキスト「本を彼女に渡した。」において、動詞「渡す」の項で出てきているのは、２つであるため、動詞の項の数を２つとする。

また、当該テキストに含まれる用言の種類については、例えば、助詞「が」「を」以外の助詞を取る動詞か否かを抽出する。

動詞分類として、「自動詞」か「他動詞」かなどの簡単な分類のほか、数十から数百の細かい分類が考えられる。例えば、語彙大系での動詞の分類では、約１３０タイプに分類されている。この分類の一部を以下の表１に示す。

このように細かい分類を使うことも考えられるが、あまり細かくしすぎてもスパースになってしまうため、本実施の形態では、助詞「が」のみ又は助詞「が」「を」のみを取る動詞、それ以外の動詞の２種類に分けて、特徴量として抽出する。なお、助詞「が」のみを取る動詞、助詞「が」「を」のみを取る動詞、それ以外の動詞の３種類に分けて、特徴量として抽出してもよい。

項を複数取る動詞の方が難しい。すなわち、それだけその動詞が表せる事象が複雑になると考えられ、もっとも基本となるのが、すべての動詞、形容詞が取りうる「が」のみを取る動詞である（表面的な助詞では「は」になるときもある）。「を」を取る動詞がその次に多く、それ以外はかなり少なくなる。したがって、あまり出てこない助詞は難しいと考えると、「が」「を」以外の助詞をとる動詞は比較的難しいと仮定でき、これを特徴量として抽出することができる。

≪品詞の出現割合≫
当該テキストに含まれる品詞の出現割合については、例えば、活用する語の品詞である、「動詞」、「形容詞」、「形容動詞」をまとめた特定の品詞の出現割合を特徴量として抽出する。例えば、全単語数が、空白を除き７個であり、品詞「動詞」、「形容詞」、「形容動詞」をまとめた特定の品詞が３個であれば、特定の品詞の割合を、３／７とする。

活用する語は子どもが学習する時にも、学習が難しい、覚えにくい語と言われている。そこで、本実施の形態では、活用する語の品詞をまとめて、活用する語の品詞の割合を特徴量として利用すれば、品詞だけではばらけてしまう活用する語全体の割合を特徴量として抽出できる。

また、擬音語や擬態語になりやすい「副詞」「感動詞」をまとめた特定の品詞の出現割合を特徴量して抽出してもよい。

例えば、擬音語しか出てこないテキストでは、擬音語、といったくくりで特徴量に利用するためには、どの語が擬音語かという判断をするための辞書が必要になる。ただ、通常、擬音語は副詞と感動詞であるため、これらをまとめた品詞の割合を特徴量として使えば、擬音語かどうかの判断を入れることなく、簡便に特徴量として抽出することができる。

≪テキストに、繰り返しのある語をどの程度含むか≫
また、繰り返しのある語をどの程度含むか、については、例えば、「ワンワン」「ざあざあ」のような繰り返しのある語の割合を、特徴量として抽出する。

「ワンワン」「ざあざあ」のような繰り返しのある語は、幼児向けに良く使われる語を多く含んでおり、幼児にとっても覚えやすい語だとの研究結果がある。品詞で区別すると、同じ「ワンワン」でも文脈によって「名詞」か「感動詞」、「ざあざあ」なら「副詞」か「感動詞」といった風に異なる。本実施の形態では、このような繰り返しのある語を、品詞ではなく、幼児にとっての認識のしやすさ、という観点でまとめることにより、特徴量として使用することができる。

≪語に関するカテゴリ毎の、テキストに含まれる、当該カテゴリに属する名詞及び／または用言の割合≫
また、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞の割合については、例えば、動物や乗り物の名前などのようなカテゴリ「具体物」の名前なのか、カテゴリ「抽象物」か、を利用して、カテゴリ毎の名詞の割合を抽出する。

また、カテゴリの粒度は、「具体物」「抽象物」程度の粒度から、「動物」「乗り物」「食べ物」などの粒度など、様々な粒度が考えられ、「具体物」「抽象物」の２分類に限定するものではない。

また、あるカテゴリに一極集中しているか否か、というカテゴリの偏り具合を特徴量として抽出してもよい。

また、名詞だけでなく、動詞に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する用言の割合を、特徴量として抽出してもよい。

例えば、「動く」のようなカテゴリ「抽象」と、「走る」、「歩く」、「とびはねる」のようなカテゴリ「具体」のような分類で、カテゴリ毎の動詞の割合を抽出する。

また、上記表１に則り、２階層目「抽象的関係」「精神的関係」「物理的行動」「精神的行動」「その他」の分類で、カテゴリ毎の動詞の割合を抽出してもよいし、より細かく、「存在」「属性」「因果関係」…などの分類で、カテゴリ毎の動詞の割合を抽出してもよい。

具体性の高い語は学習が容易だといわれているため、上記のように、語の具体性を特徴量として入れることで、同じ品詞の語でも、簡単な語かどうかという特徴を反映することができる。

≪語彙の多様性≫
語彙の多様性については、例えば、テキスト全体に対する語の異なり数、又は語の異なり数／のべ語数を特徴量として抽出する。

語の異なり数／のべ語数は、同じ語が出てくれば低くなり、様々な語が出てくれば高くなる。また、対象年齢が高くなればなるほど（つまり、難しくなれば）、この比率が高くなるが、そうした特徴を反映することができる。

例えば、「お母さんが」「お母さんに」という箇所については、以下の２つの計算方法の何れかにより、語の異なり数／のべ語数を算出する。なお、学習時、推定時で統一されていれば、２つの計算方法のどちらでもよい。

１つ目の計算方法では、「お母さん/が」「お母さん/に」と形態素解析で分けて、「お母さん」「が」「お母さん」「に」の４Tokenで、のべ語数が４となり、「お母さん」「が」「に」の３Typeで、語の異なり数が３となり、語の異なり数／のべ語数は、３／４となる。

２つ目の計算方法では、「お/母/さん/が」「お/母/さん/に」と形態素解析で分けて、「お」「母」「さん」「が」「お」「母」「さん」「に」の８Tokenで、のべ語数が８となり、「お」「母」「さん」「が」「に」の５Typeで、語の異なり数が５となり、語の異なり数／のべ語数は、５／８となる。

ここで、一律ののべ語数で比較するために、例えば、100語に含まれる異なり語数の平均を用いるといったことが考えられる。

また、事前に複数のテキストから、30語、50語、70語、100語に語数を増やした時の、語の異なり数／のべ語数の推移を調査しておくことで、例えば50語しかないテキストの難易度を推定する場合でも、100語になった場合の語の異なり数／のべ語数を予測して、その予測値を使うことも可能である。

≪複数種類の基本語セットの各々についての、テキストに含まれる語のうちの、当該基本語セットに含まれる語の割合又は当該基本語セットに含まれない語の割合≫
複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、基本語セットに含まれる語の割合又は基本語セットに含まれない語の割合については、例えば、ＣＶＤに収録されている語を基本語セットとし、その中に出現するか、しないか、を２値の特徴量として用いる。

これにより、基本語にない（一般に多くの子どもが小さいうちに覚える語ではない）語がどのくらい含まれるか、を特徴量として抽出することができる。例えば、(a)80%がCVDに含まれる語で構成されている(つまり3才頃までに覚える語)が、20% はそれ以外であるテキストや、(b) 100% CVDに含まれる語で構成されているテキストを区別できる。

本実施の形態では、絵本コーパスやＣＨＩＬＤＥＳコーパス中に出てくる語や高頻度語から作成される基本語セット、親密度が基準値（例えば６）以上の語から作成される基本語セット、学童期以上を対象とする場合、教科書や、子ども向け教材や子ども向け新聞等を用いて同様に作成される、各学年までの基本語セット、一般向け文書や、均衡コーパスなどから作成される基本語セットのうち、少なくとも２種類以上を組み合わせて用いる。これにより、例えば、(c) 3年生までの基本語セットに90％の語が出現し、残り10%も、6年生までの基本語セットに含まれるテキスト、(d) 3年生までの基本語セットに90％の語が出現し、残り10%は中学生までの基本語セットに含まれるテキスト、等の区別を行なえる。

難易度推定モデル生成部３２は、特徴量抽出部３０により絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル４０として記憶する。

難易度推定モデル生成部３２は、具体的には、ランキングＳＶＭにより難易度推定モデルを学習する。絵本の難易度をクラスとして、４＞３、４＞２、４＞１、３＞２、２＞１のそれぞれのクラスの組み合わせを持つとする。そして、それぞれのクラスの組み合わせについて、絵本のテキストの各々から抽出された特徴量を用いて、クラスに属する絵本のペアすべてを比較し、ランキングＳＶＭを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数（１００個など）特徴量の中から任意の特徴量を選び出し、１つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、特徴量の組み合わせが異なる複数（例えば１００個）の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる特徴量の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。

＜本発明の実施の形態に係る難易度推定装置の構成＞
次に、本発明の実施の形態に係る難易度推定装置の構成について説明する。

図３に示すように、本発明の実施の形態に係る難易度推定装置２００は、ＣＰＵと、ＲＡＭと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定装置２００は、機能的には図３に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。

演算部２０は、前処理部２２８と、語データベース２２９と、特徴量抽出部２３０と、難易度推定部２３２と、難易度推定モデル２４０とを含んで構成されている。

難易度推定モデル２４０には、難易度推定モデル４０と同じものが記憶されている。

前処理部２２８は、通常の形態素解析を行い、解析結果を絵本のテキストに付与する。なお、前処理部２２８で形態素解析をするのではなく、予め形態素解析がされた絵本のテキストを入力部２１０で受け付けるようにしてもよい。

語データベース２２９は、語データベース２８と同様に、各語の獲得時期を格納した幼児語彙発達データベース（ＣＶＤ）、各語の親密度、各用言が潜在的にとる項の数、各語の出現頻度、及び複数種類の基本語セットを記憶している。

特徴量抽出部２３０は、前処理部２２８で解析結果が付与された絵本のテキストから、上記特徴量抽出部３０と同様に、特徴量を抽出する。ここでは、難易度推定モデル２４０に記憶されている難易度推定モデルにおいて定義された、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項（あるいは格）の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出すればよい。

難易度推定部２３２は、特徴量抽出部２３０により抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル２４０とに基づいて、絵本のテキストの難易度を推定する。

難易度推定部２３２は、具体的には、絵本のテキストについて、絵本のテキストの特徴量と、難易度推定モデル２４０とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスｉとクラスｉ＋１のいずれかに分ける場合、クラスｉに含まれる絵本のスコアの最大値ｍａｘ_ｉと、クラスｉ＋１に含まれる絵本のスコアの最小値ｍｉｎ_ｉ＋１とする。最大値ｍａｘ_ｉと最小値ｍｉｎ_ｉ＋１の中間値を閾値ｔｈとし、ｔｈよりスコアが小さければクラスｉ、大きければクラスｉ＋１と推定することで得られた難易度クラスを出力部２５０に出力する。なお、ランダムフォレストにより難易度推定モデルを学習した場合には、抽出した各特徴量に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均（あるいは多数決）することで、難易度クラスを推定する。なお、難易度クラスの推定が必要ない場合には、閾値を用いずに、スコアを出力すればよい。

＜本発明の実施の形態に係る難易度推定モデル学習装置の作用＞
次に、本発明の実施の形態に係る難易度推定モデル学習装置１００の作用について説明する。入力部１０において難易度及び解析結果が付与された絵本のテキストの各々の入力を受け付けてテキストデータベース８に格納すると、難易度推定モデル学習装置１００は、図４に示す難易度推定モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、テキストデータベース８に格納された絵本のテキストの各々を取得する。

次に、ステップＳ１０２では、処理対象とする絵本のテキストを選択する。

ステップＳ１０４では、ステップＳ１００で選択した絵本のテキストから、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を特徴量として抽出する。

ステップＳ１０６では、全ての絵本のテキストから特徴量を抽出したかを判定し、抽出していなければステップＳ１０２へ戻って処理を繰り返し、抽出していればステップＳ１０８へ移行する。

そして、ステップＳ１０８では、ステップＳ１０４で絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル４０として記憶して処理を終了する。

＜本発明の実施の形態に係る難易度推定装置の作用＞
次に、本発明の実施の形態に係る難易度推定装置２００の作用について説明する。入力部２１０において絵本のテキストを受け付けると、難易度推定装置２００は、図５に示す難易度推定処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０で受け付けた絵本のテキストを取得する。

次に、ステップＳ２０２では、ステップＳ２００で取得した絵本のテキストを第１～第４の処理によって解析し、解析結果を付与する。

ステップＳ２０４では、ステップＳ２０２で解析結果が付与された絵本のテキストから、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する語の割合、当該テキストに含まれる語の親密度、当該テキストに含まれる語のイメージビリティ、語に関するカテゴリ毎の、当該テキストに含まれる語の親密度、語に関するカテゴリ毎の、当該テキストに含まれる語のイメージビリティ、当該テキストに含まれる用言が潜在的にとる項の数や、テキスト中で明示的に出現している項の数、テキスト中で出現している項と用言の位置関係、及び用言の種類、語に関するカテゴリ毎の、当該テキストに含まれる、当該カテゴリに属する名詞及び／又は用言の割合、複数種類の基本語セットの各々についての、当該テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量、品詞の出現割合、繰り返しのある語をどの程度含むか、及び語彙の多様性を、特徴量として抽出する。

ステップＳ２０６では、ステップＳ２０４で抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル２４０とに基づいて、絵本のテキストの難易度を推定する。

そして、ステップＳ２０８では、ステップＳ２０６で推定された難易度を推定結果として出力部２５０に出力し処理を終了する。

以上説明したように、本発明の実施の形態に係る難易度推定装置によれば、入力されたテキストから、前記テキストに含まれる語の獲得時期、前記テキストに含まれる語の親密度、前記テキストに含まれる語のイメージビリティ、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上、語に関するカテゴリ毎の、前記カテゴリに属する名詞及び／又は用言の割合、及び複数種類の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合、を含む特徴量を抽出することにより、テキストの難易度を所望の粒度で精度よく推定することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。

また、上述した実施の形態における難易度推定装置では、絵本のテキストの難易度を推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。

また、上述した実施の形態における難易度推定モデル学習装置では、難易度が付与された絵本を用いて難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、対象時期が付与された絵本を用いて絵本の対象時期を推定するための難易度推定モデルを学習するようにしてもよい。また、難易度推定装置では、対象時期を推定するための難易度推定モデルを用いて、絵本の対象時期を推定するようにしてもよい。ここで、対象時期は、例えば、対象年齢、対象月齢、対象週齢、対象日齢、あるいは、半年単位（例えば、2才、2才半、3才、3才半、…）、あるいは言語発達の程度に合わせる（「初語が出たら」「2語文が出たら」「3語文以上がでたら」など。）ことが考えられる。

また、難易度推定を２段階で行うようにしてもよい。上記の実施の形態の難易度推定では、例えば、対象時期が、「0才・1才・2才・3才・4才・5才・6才以上」の何れであるかを一度に推定するが、対象時期が、「0～2才」と「3才以上」の何れであるかを１段目の難易度推定で推定し、１段目の推定結果が「0～2才」である場合に、当該テキストに含まれる語の獲得時期、及び語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期の少なくとも一方を特徴量として用いて、対象時期が、「0才・1才・2才」の何れであるかを推定するようにしてもよい。

具体的には、以下の２つの構成例のいずれかを用いればよい。

１つ目の構成例では、１段目の難易度推定と、２段目の難易度推定との双方で、上述したランキング学習を行う。

まず、１段目の難易度推定では、「0～2才」と「3才以上」の何れであるかを、上記難易度推定部２３２と同様に、ランキング学習を用いて推定し、その後、「0～2才」と「3才以上」のそれぞれで、同様にランキング学習を用いて、対象時期を推定する。

あるいは、１段目の難易度推定は、クラス分類を用いて、「0～2才」と「3才以上」の何れであるかを推定してもよいし、回帰学習を用いて推定してもよい。１段目の難易度推定で使う特徴量は、上記特許文献１と同様の特徴量、あるいは、上記特許文献１と同様の特徴量及び上記の実施の形態で説明した特徴量を合わせたものとしてもよい。

また、２段目の難易度推定において、「0才・1才・2才」の何れであるかを推定する際に用いる特徴量と、「3才・4才・5才・6才以上」の何れであるかを推定する際に用いる特徴量とが異なっていてもよい。

例えば、「0才・1才・2才」の何れであるかを推定する際に用いる特徴量を、テキストに含まれる語の獲得時期とし、「3才・4才・5才・6才以上」の何れであるかを推定する際に用いる特徴量を、親密度としてもよい。

２つ目の構成例では、１段目の難易度推定で、学習器を使わないで対象時期を推定し、２段目の難易度推定で、上記難易度推定部２３２と同様に、ランキング学習を用いて推定する。

例えば、１段目の難易度推定で「0～2才」と「3才以上」の何れであるかを推定する際に、出現する語の異なり数が基準値以下であること、語数、文字数、文数、などが基準値以下であること、基本語セットに出現する語の割合が基準値（例えば90%）以上であること、および基本語セットと擬音語・擬態語を合わせたセットに出現する語の割合が基準値以上であることの少なくとも１つを条件として、「0～2才」であると推定し、２段目の難易度推定で、上記難易度推定部２３２と同様に、ランキング学習を用いて推定する。

あるいは、１段目の難易度推定で「0～2才」と「3才以上」の何れであるかを推定する際に、当該テキストに含まれる語の獲得時期、及び語に関するカテゴリ毎の、当該テキストに含まれる語の獲得時期の少なくとも一方を特徴量として用いてもよい。例えば、テキストに含まれる語の獲得時期の平均値に一致する年齢を対象年齢として推定したり、テキストに含まれる語の獲得時期の最高値に一致する年齢を対象年齢として推定したりしてもよい。

これにより、「0～2才」と「3才以上」とで、語数があまりに違うことにより推定精度が低下することを避け、「0～2才」と「3才以上」の何れであるか、先に推定することで、語数の違いの影響を受けずに精度良く推定することができる。また、ＣＶＤの収録語は、０～３才頃までに覚える語になるため、「0～2才」までなら、そもそもカバー率が高く、ＣＶＤとの一致だけで難易度推定をすることができる。

また、１段目の難易度推定で、「0～2才」と「3才以上」の何れであるかを推定する場合を例に説明したが、これに限定されるものではなく、「0～2才」の中で、「3才以上」の中で、それぞれさらに細かくクラス分けして推定してもよい。

また、「発話し始めの時期」「語彙爆発の時期」「２語文の話し始めの時期」の平均月齢を閾値として、クラス分けして、１段目の難易度推定に用いてもよい。例えば、「発話し始めの時期」が１０月齢であり、「語彙爆発の時期」が２０月齢であり、「２語文の話し始めの時期」が２４月齢である。
また、３段階以上の複数段階で、難易度推定を行うようにしてもよい。

また、ＣＶＤに収録されていない語については、獲得時期を推定して利用する場合を例に説明したが、これに限定されるものではない。例えば、ＣＶＤに収録されていない語については、無視するか、収録されていないという情報（例えばＮＵＬＬ）を付与して、難易度推定には用いないようにしてもよい。

また、上述した実施の形態では、絵本のテキストは「１冊１話の本」を対象としたが、特徴量として、語の異なり数に関する数を利用しない場合、「１冊１話の本」でなくても対象としてもよい。

また、上述した実施の形態では、ランキングＳＶＭやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法（ニューラルネットワーク、ｋ近傍法、ベイズ分類等）を用いて難易度推定モデルを学習してもよい。

８テキストデータベース
１０、２１０入力部
２０、２２０演算部
２８，２２９語データベース
３０、２３０特徴量抽出部
３２難易度推定モデル生成部
４０、２４０難易度推定モデル
１００難易度推定モデル学習装置
２００難易度推定装置
２２８前処理部
２３２難易度推定部
２５０出力部

Claims

語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定装置。
語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の割合を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定装置。
語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記特徴量抽出部は、前記入力されたテキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定装置。
入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定装置。
入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定装置。
語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含む難易度推定装置。
入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティを含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
前記特徴量抽出部は、
語毎に予め求められた前記語の親密度又はイメージビリティ、及び語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の親密度又はイメージビリティ、及び語の獲得時期を含む前記特徴量を抽出する請求項１～請求項８の何れか１項記載の難易度推定装置。
入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
予め求められた、１種類以上の基本語セットを用いて、入力されたテキストから、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する難易度推定部と、
を含み、
前記難易度推定部は、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定装置。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定方法。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定方法。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記入力されたテキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定方法。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
特徴量抽出部が、語毎に予め求められた前記語の親密度又はイメージビリティを用いて、入力されたテキストから、前記テキストに含まれる語の親密度を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定方法。
特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定方法。
特徴量抽出部が、入力されたテキストから、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
特徴量抽出部が、語に関するカテゴリ毎に、入力されたテキストから、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定する
難易度推定方法。
特徴量抽出部が、予め求められた、１種類以上の基本語セットを用いて、入力されたテキストから、前記１種類以上の基本語セットの各々についての、前記テキストに含まれる語のうちの、前記基本語セットに含まれる語の割合及び／又は前記基本語セットに含まれない語の割合を含む特徴量を抽出し、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象時期を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象時期を推定することを含み、
前記難易度推定部が前記テキストの難易度又は対象時期を推定することでは、難易度又は対象時期に関するクラスの何れであるかを推定し、前記推定されたクラス内で、前記テキストの難易度又は対象時期を推定する難易度推定方法。
語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含み、
前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習装置。
語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含み、
前記特徴量抽出部は、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習装置。
語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含み、
前記特徴量抽出部は、前記テキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定モデル学習装置。
難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含み、
前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定モデル学習装置。
難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含み、
前記特徴量抽出部は、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定モデル学習装置。
語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する難易度推定モデル生成部と、
を含む難易度推定モデル学習装置。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習方法。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
前記特徴量抽出部が特徴量を抽出することでは、語に関するカテゴリ毎に、前記テキストに含まれる、前記カテゴリに属する語の獲得時期を含む前記特徴量を抽出し、
前記カテゴリは、幼児語彙発達データベース（ＣＶＤ）、シソーラスの分類、又は概念辞書の分類に応じたものである難易度推定モデル学習方法。
特徴量抽出部が、語毎に予め求められた、前記語を幼児が獲得する獲得時期を用いて、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる語の獲得時期を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記テキストに含まれる語のうち、前記獲得時期が求められていない語について、語毎に予め求められた、前記語の出現頻度を用いて、前記語を幼児が獲得する獲得時期を推定し、推定された前記獲得時期を更に用いて、入力されたテキストから、前記テキストに含まれる語の獲得時期を含む特徴量を抽出する難易度推定モデル学習方法。
特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が自動詞であるか、他動詞であるかを抽出する難易度推定モデル学習方法。
特徴量抽出部が、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる用言の項の数、及び用言の種類の少なくとも一つ以上を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習することを含み、
前記特徴量抽出部が特徴量を抽出することでは、前記用言の種類として、前記テキストに含まれる動詞が、助詞「が」及び助詞「を」とは異なる助詞を取る動詞であるか否かを抽出する難易度推定モデル学習方法。
特徴量抽出部が、語に関するカテゴリ毎に、難易度又は対象時期が付与されたテキストの各々から、前記テキストに含まれる、前記カテゴリに属する名詞及び／又は用言の割合を含む特徴量を抽出し、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量と、前記テキストの各々に付与された難易度又は対象時期とに基づいて、前記テキストの難易度又は対象時期を推定するための難易度推定モデルを学習する
難易度推定モデル学習方法。
コンピュータを、請求項１～請求項１１の何れか１項に記載の難易度推定装置の各部として機能させるためのプログラム。
コンピュータを、請求項２２～請求項２７の何れか１項に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。