JP6508676B2 - 顔文字抽出装置、方法及びプログラム - Google Patents
顔文字抽出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6508676B2 JP6508676B2 JP2015053642A JP2015053642A JP6508676B2 JP 6508676 B2 JP6508676 B2 JP 6508676B2 JP 2015053642 A JP2015053642 A JP 2015053642A JP 2015053642 A JP2015053642 A JP 2015053642A JP 6508676 B2 JP6508676 B2 JP 6508676B2
- Authority
- JP
- Japan
- Prior art keywords
- emoticon
- noise
- dictionary
- characters
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 50
- 238000000034 method Methods 0.000 title claims description 21
- 230000008451 emotion Effects 0.000 description 76
- 230000002996 emotional effect Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 241000522620 Scorpio Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000009490 scorpio Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
顔文字抽出装置10は、元テキストから顔文字を抽出するための装置であり、元テキストから顔文字と見なせる部分とノイズと見なせる部分を切り出し、切り出した顔文字とパターン化したノイズのパターンをそれぞれ保存する。そのため、以下の処理を行う。
(2)未知語として判定された文字列をノイズ候補若しくは顔文字候補とする。
(3)未知語と判定された文字列を既知情報である顔文字辞書41、ノイズパターン12(後述)、コーパス52と照合する。このとき、未知語、すなわち顔文字候補とノイズ候補を対象に、未知語内の文字の区切り位置の違いによる各パターンの発生確率を計算し、その発生確率を最大にする区切りを判別する。
(4)そして照合の結果抽出された顔文字は後続処理のため一時保存し、ノイズはノイズパターン12に登録する。ただし、ノイズは文字列をそのまま保存するのではなく、正規表現に変換して保存する。
(5)語句の一般的な使用方法の経年変化を見るために、利用するコーパス52は定期的に更新されるものとする。
感情情報付加装置20は、顔文字が含まれている文章から感情語を抽出し、その感情語の感情情報を顔文字の感情情報とするための装置であり、以下の処理を行う。
(2)感情語の抽出は、文を基本単位として行う。文が句点で区切られている場合は、句点若しくは句点相当の文字で区切られている単位を処理単位として感情語を抽出する。この処理単位を本発明では文節とする。
(3)顔文字を含む文若しくは文節の前後に位置する文若しくは文節の感情語を抽出する。
(4)抽出された感情語が感情語辞書42に登録されており、かつ、登録されている感情情報の内容が同じ場合、感情語辞書42に登録された内容をその感情語の感情情報とする。
(5)感情語が感情語辞書42に登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録する。
(6)感情語が感情語辞書42に登録されていなかった場合は新規登録する。
(7)そして、その文若しくは文節に含まれているすべての感情語の感情情報の集合を、当該顔文字の感情情報として付加する。
(8)このとき、当該顔文字を含んだ文若しくは文節と、上記ステップで処理した文若しくは文節との距離情報を重みとして当該顔文字の感情情報に付加する。
顔文字情報更新装置30は、感情情報データベース40に対して最新の解析結果を常に反映させるための装置である。前記感情情報付加装置の出力結果に、顔文字が使われる状況を付加し、顔文字辞書41に登録する。そのため、以下の処理を行う。
(2)顔文字が顔文字辞書41に登録されていなかった場合、及び顔文字が顔文字辞書41に登録されているが感情情報の内容が異なる場合には、新たな顔文字情報としてタイムスタンプをつけて登録する。
図2は、本発明の実施形態に係る顔文字感情情報抽出システムの機能構成を示す図である。以下では概要で示した機能を機能構成図で説明する。図示するように、本システムは、データベース(DB)として、顔文字辞書41と、感情語辞書42と、ノイズパターン12(ノイズパターン・データベース)とを備える。また、外部のデータベースとして、日本語辞書51と、コーパス52と、外部データ53とに接続されている。また、処理部として、顔文字抽出部11、感情情報抽出部21、感情情報付加部22、使用状況解析部31、辞書更新部32、外部データ登録部60とから構成される。その他、管理者端末70を構成に含めてもよい。ただし、このような構成だけに限定されるものではない。以下、上記の処理部を中心にして順に説明する。
図3は、本発明の実施形態に係る感情情報データベース40(感情語辞書42及び顔文字辞書41)のデータ構造の一例を示す図である。感情情報データベース40は、感情語辞書42と顔文字辞書41で構成される。感情情報データベース40は、「構造化意味情報」で表現したデータベースである。「構造化意味情報」とは、Word Vector(キーワードとキーワードの文書内での出現頻度を要素とする行列)で表現されたBag-of-words(文書中の語からキーワードの集合を作り、文書における発生頻度を特徴量として付加したもの)で表現できるような形式を意味する。
以下、顔文字抽出部11の処理についてさらに詳しく説明する。既に述べたように、既存の方式では、元データのノイズ除去と顔文字の抽出とを逐次実行している。この方式の問題点として、顔文字の識別精度、若しくはノイズの識別精度のどちらか一方あるいは双方が悪くなる可能性がある。したがって、本システムの顔文字抽出部11では、ノイズ除去と顔文字の抽出を並行実行することにより、顔文字の抽出の精度を上げると共に、ノイズ要素検出の精度向上を図っている。具体的には、テキストから未知語を抽出し、未知語を対象として顔文字と見なせる部分と、ノイズと見なせる部分を判別し、保存する。
図6は、図5のフローを実施した具体例1を示す図である。この例では、元テキストの“- 金土とストレスが少ないから爽快な気分(^ω^)////”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
図7は、図5のフローを実施した具体例2を示す図である。この例では、元テキストの“- 7位 蟹座 苦手な人に関わっていると、前に進めなくなりそう。心を広く持ってサラっと受け流すのも、ストレスを溜めないコツです。 ■ラベンダーつまようじ ┐(-。-;)┌ヤレヤレ”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
図8は、顔文字感情情報抽出システム100の全体の処理の流れをまとめた具体例を示す図である。この例では、元テキストの“楽しいもんはやめられないもんね●コンサートはストレス発散にもなるしな(^ω^)////”という文について、(1)顔文字とノイズの抽出、(2)感情情報の抽出と付加、及び文脈による重み係数付加、(3)顔文字情報の更新(使用状況キーワード付加)の実行例を示したものである。
10 顔文字抽出装置
11 顔文字抽出部
12 ノイズパターン
20 感情情報付加装置
21 感情情報抽出部
22 感情情報付加部
30 顔文字情報更新装置
31 使用状況解析部
32 辞書更新部
40 感情情報データベース
41 顔文字辞書
42 感情語辞書
50 外部データベース
51 日本語辞書
52 コーパス
53 外部データ
60 外部データ登録部
70 管理者端末
100 顔文字感情情報抽出システム
Claims (4)
- 文書に含まれる顔文字を抽出する顔文字抽出装置であって、
入力されたテキストの半角文字を全角文字に変換する手段と、
前記全角文字に変換されたテキストの文を、日本語辞書と構文解析器によって構文解析し、前記日本語辞書にない未知語を顔文字候補及びノイズ候補として抽出する手段と、
前記未知語が複数の文字から構成される場合、前記未知語の中の文字の区切り位置の違いによる文字列全てを、既に顔文字辞書に登録されている顔文字パターン及びノイズパターン・データベースに登録されているノイズパターンと照合する手段と、
前記照合の結果、前記区切り位置の違いによる文字列パターンの発生確率を計算する手段と、
前記発生確率を最大にする区切りを決定し、前記決定された区切りに基づいて、顔文字とノイズを弁別し、前記顔文字を顔文字情報として前記顔文字辞書に登録し、前記ノイズを前記ノイズパターン・データベースに登録する手段と、
を備えることを特徴とする顔文字抽出装置。 - 前記顔文字は、識別コードが付された図形を含むことを特徴とする請求項1に記載の顔文字抽出装置。
- 文書に含まれる顔文字を抽出する方法であって、
入力されたテキストの半角文字を全角文字に変換するステップと、
前記全角文字に変換されたテキストの文を、日本語辞書と構文解析器によって構文解析し、前記日本語辞書にない未知語を顔文字候補及びノイズ候補として抽出するステップと、
前記未知語が複数の文字から構成される場合、前記未知語の中の文字の区切り位置の違いによる文字列全てを、既に顔文字辞書に登録されている顔文字パターン及びノイズパターン・データベースに登録されているノイズパターンと照合するステップと、
前記照合の結果、前記区切り位置の違いによる文字列パターンの発生確率を計算するステップと、
前記発生確率を最大にする区切りを決定し、前記決定された区切りに基づいて、顔文字とノイズを弁別し、前記顔文字を顔文字情報として前記顔文字辞書に登録するステップと、
前記ノイズを前記ノイズパターン・データベースに登録するステップと、
を含むことを特徴とする方法。 - 文書に含まれる顔文字を抽出するプログラムであって、
入力されたテキストの半角文字を全角文字に変換するステップと、
前記全角文字に変換されたテキストの文を、日本語辞書と構文解析器によって構文解析し、前記日本語辞書にない未知語を顔文字候補及びノイズ候補として抽出するステップと、
前記未知語が複数の文字から構成される場合、前記未知語の中の文字の区切り位置の違いによる文字列全てを、既に顔文字辞書に登録されている顔文字パターン及びノイズパターン・データベースに登録されているノイズパターンと照合するステップと、
前記照合の結果、前記区切り位置の違いによる文字列パターンの発生確率を計算するステップと、
前記発生確率を最大にする区切りを決定し、前記決定された区切りに基づいて、顔文字とノイズを弁別し、前記顔文字を顔文字情報として前記顔文字辞書に登録するステップと、
前記ノイズを前記ノイズパターン・データベースに登録するステップと、
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053642A JP6508676B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053642A JP6508676B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173743A JP2016173743A (ja) | 2016-09-29 |
JP6508676B2 true JP6508676B2 (ja) | 2019-05-08 |
Family
ID=57008902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015053642A Active JP6508676B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6508676B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6763967B2 (ja) * | 2016-11-30 | 2020-09-30 | 株式会社日立製作所 | データ変換装置とデータ変換方法 |
JP2021039595A (ja) * | 2019-09-04 | 2021-03-11 | 本田技研工業株式会社 | データ処理装置及びデータ処理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6442768A (en) * | 1987-08-10 | 1989-02-15 | Hitachi Ltd | Method for processing unregistered word |
JPH11175522A (ja) * | 1997-12-17 | 1999-07-02 | Oki Electric Ind Co Ltd | 自然言語処理方法及び装置 |
JP2002268665A (ja) * | 2001-03-13 | 2002-09-20 | Oki Electric Ind Co Ltd | テキスト音声合成装置 |
JP6055267B2 (ja) * | 2012-10-19 | 2016-12-27 | 株式会社フュートレック | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
-
2015
- 2015-03-17 JP JP2015053642A patent/JP6508676B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016173743A (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
Daud et al. | Urdu language processing: a survey | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
US8538745B2 (en) | Creating a terms dictionary with named entities or terminologies included in text data | |
JP6466952B2 (ja) | 文章生成システム | |
US8285541B2 (en) | System and method for handling multiple languages in text | |
US20120290288A1 (en) | Parsing of text using linguistic and non-linguistic list properties | |
KR20110083623A (ko) | 음역을 위한 기계 학습 | |
US11386269B2 (en) | Fault-tolerant information extraction | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
JP2008152522A (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
Sibarani et al. | A study of parsing process on natural language processing in bahasa Indonesia | |
Dey et al. | Studying the effects of noisy text on text mining applications | |
JP6600849B2 (ja) | 顔文字感情情報抽出システム、方法及びプログラム | |
López et al. | Experiments on sentence boundary detection in user-generated web content | |
JP6508676B2 (ja) | 顔文字抽出装置、方法及びプログラム | |
JP2019083040A (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
Arikan et al. | Detecting clitics related orthographic errors in Turkish | |
Geyken et al. | On-the-fly Generation of Dictionary Articles for the DWDS Website | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
Oudah et al. | Person name recognition using the hybrid approach | |
Chiu et al. | Chinese spell checking based on noisy channel model | |
Hellwig | Morphological disambiguation of classical Sanskrit | |
Faaß et al. | Part-of-Speech tagging of Northern Sotho: Disambiguating polysemous function words | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6508676 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |