JP2009266110A - 情報処理装置、姓名識別方法、情報処理システム、およびプログラム - Google Patents
情報処理装置、姓名識別方法、情報処理システム、およびプログラム Download PDFInfo
- Publication number
- JP2009266110A JP2009266110A JP2008117538A JP2008117538A JP2009266110A JP 2009266110 A JP2009266110 A JP 2009266110A JP 2008117538 A JP2008117538 A JP 2008117538A JP 2008117538 A JP2008117538 A JP 2008117538A JP 2009266110 A JP2009266110 A JP 2009266110A
- Authority
- JP
- Japan
- Prior art keywords
- name
- morpheme
- character string
- last name
- last
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置100は、マルチバイト文字列を、登録する字体に正規化する漢字正規化部114と、正規化後の文字列を形態素トークンに分割し、かつ形態素トークンに割当てられた属性識別子を取得する形態素解析部116と、形態素トークンと、属性識別子と、形態素トークン間の属性識別子から接続識別子を生成し、文化圏についての重付けを与える文化圏重付け値を生成して姓名候補リストとして登録する姓名候補作成部118と、形態素トークン、接続識別子、および文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、姓名の先頭から末尾までの距離の尺度を与える姓名距離を使用して姓名候補とするスコア計算部120と、姓名候補が含む形態素トークンの姓および名に対応するシングルバイト文字列を出力する。
【選択図】図1
Description
Name Analytics(GNA)システムが開示されている。
Claims (13)
- マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理装置であって、前記情報処理装置は、
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成して、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を含む情報処理装置。 - 前記漢字正規化部に対して異字体に対応する登録漢字を対応付けて提供する漢字辞書と、
前記形態素解析部に対して前記姓名を構成するための形態素トークンおよび属性識別値を提供し、前記姓名の属する文化圏に対応付けて形態素トークンおよび前記属性識別子を登録する形態素辞書と、
前記スコア計算部に対して、前記形態素トークンおよび前記接続識別子について割当てたスコア値を提供するためのスコア・テーブルと、
前記形態素トークンの前記姓に対応するシングルバイト文字列および前記名に対応するシングルバイト文字列を登録する変換辞書と
を含む請求項1に記載の情報処理装置。 - 前記変換辞書は、前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを含み、前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項2に記載の情報処理装置。
- 前記姓名候補作成部は、姓および名を与える前記形態素トークンが帰属される前記文化圏および前記形態素トークンが国字であるか否かの判断を使用して前記文字列が含む前記姓名が属する文化圏を示す文化圏識別子を生成する、請求項1に記載の情報処理装置。
- 前記表記変換部は、異なる文化圏ごとに最尤の前記姓および前記名についてのシングルバイト文字列を出力する、請求項1に記載の情報処理装置。
- マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理装置が実行する姓名識別方法であって、前記姓名識別方法は、
漢字辞書を参照して前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化するステップと、
形態素辞書を参照して、漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得し、形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成して、前記形態素トークンと、前記接続識別子と、前記文化圏重付け値とを姓名候補リストに記述するステップと、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を使用して、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするステップと、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力するステップと
を含む姓名識別方法。 - 前記シングルバイト文字列を出力するステップは、
前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを参照するステップと、
前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項6に記載の姓名識別方法。 - 前記文化圏重付け値を生成するステップは、姓および名を与える前記形態素トークンが帰属される前記文化圏および前記形態素トークンが国字であるか否かにより、前記文字列が含む前記姓名が属する文化圏を示す文化圏識別子を生成するステップを含む、請求項6に記載の姓名識別方法。
- 姓名識別を実行するための情報処理システムであって、前記情報処理システムは、
ネットワークに接続され、前記ネットワークを介して姓名識別要求および姓名を含むマルチバイト文字列を受領する姓名識別サーバと、
前記姓名識別サーバが受領した前記文字列から変換されたシングルバイト文字列に対応するシングルバイト文字列を検索し、検索された前記シングルバイト文字列に対応付けられたマルチバイト文字の姓および名を前記姓名識別サーバに返すデータベース・サーバとを含み、
前記姓名識別サーバは、
前記文字列を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成し、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と、
前記表記変換部の出力を受領して前記データベース・サーバに照会を発行する氏名識別部と、
前記データベース・サーバの照会結果をマルチバイト文字列の姓名として受領して姓と名とを分離して表示させる処理を実行する出力処理部と
を含む、情報処理システム。 - 前記データベース・サーバは、前記シングルバイト文字列に対して前記マルチバイト文字列を対応させるための姓名識別子を登録するテーブルと、
前記姓名に対応付けられた情報を管理する情報テーブルと
を含み、前記テーブルから前記姓および前記名を検索し、前記情報テーブルから関連する前記情報を検索し、検索結果として前記姓名検索サーバに渡す、請求項9に記載の情報処理システム。 - マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理方法を実行するためのコンピュータ実行可能なプログラムであって、前記プログラムは、情報処理装置に対し、
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成し、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を実現する、コンピュータ実行可能なプログラム。 - 前記表記変換部は、前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを含み、前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項12に記載のプログラム。
- 前記姓名候補作成部は、姓および名を与える前記形態素トークンが帰属される前記文化圏および前記形態素トークンが国字であるか否かの判断を使用して前記文字列が含む前記姓名が属する文化圏を示す文化圏識別子を生成し、
前記表記変換部は、異なる文化圏ごとに最尤の前記姓および前記名についてのシングルバイト文字列を出力する、請求項12に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117538A JP5466376B2 (ja) | 2008-04-28 | 2008-04-28 | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117538A JP5466376B2 (ja) | 2008-04-28 | 2008-04-28 | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009266110A true JP2009266110A (ja) | 2009-11-12 |
JP5466376B2 JP5466376B2 (ja) | 2014-04-09 |
Family
ID=41391846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008117538A Expired - Fee Related JP5466376B2 (ja) | 2008-04-28 | 2008-04-28 | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466376B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008784A (ja) * | 2009-06-24 | 2011-01-13 | Nhn Corp | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
JP2014517428A (ja) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | 検索クエリのソース言語を検出すること |
JP7200474B2 (ja) | 2017-09-14 | 2023-01-10 | 日本電気株式会社 | 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03196198A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH0675956A (ja) * | 1992-05-06 | 1994-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 日本文同形語解析方式 |
JP2004021707A (ja) * | 2002-06-18 | 2004-01-22 | Frost International Corporation | 住所及び氏名のローマ字への変換システム |
JP2004102856A (ja) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | 形態素列処理装置および方法 |
-
2008
- 2008-04-28 JP JP2008117538A patent/JP5466376B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03196198A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH0675956A (ja) * | 1992-05-06 | 1994-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 日本文同形語解析方式 |
JP2004021707A (ja) * | 2002-06-18 | 2004-01-22 | Frost International Corporation | 住所及び氏名のローマ字への変換システム |
JP2004102856A (ja) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | 形態素列処理装置および方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008784A (ja) * | 2009-06-24 | 2011-01-13 | Nhn Corp | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
JP2014517428A (ja) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | 検索クエリのソース言語を検出すること |
JP7200474B2 (ja) | 2017-09-14 | 2023-01-10 | 日本電気株式会社 | 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5466376B2 (ja) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812300B2 (en) | Identifying related names | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
US20180293302A1 (en) | Natural question generation from query data using natural language processing system | |
JP2009205397A (ja) | 検索エンジン、検索システム、検索方法およびプログラム | |
CN105550206B (zh) | 结构化查询语句的版本控制方法及装置 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
Xu et al. | Using SVM to extract acronyms from text | |
JP5466376B2 (ja) | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム | |
JP2011028379A (ja) | データ構造変換プログラムおよびデータ構造変換装置 | |
US10678870B2 (en) | System and method for search discovery | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP5132430B2 (ja) | 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム | |
JP2022002034A (ja) | 抽出方法、抽出プログラム、及び、抽出装置 | |
JP2001014326A (ja) | 構造指定による類似文書の検索装置及び検索方法 | |
JP5348964B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、およびプログラム | |
JP2008197700A (ja) | 文書管理システムおよび文書管理方法 | |
CN112015888B (zh) | 摘要信息提取方法和摘要信息提取*** | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 | |
JP5412137B2 (ja) | 機械学習装置及び方法 | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
JP2001034630A (ja) | 文書ベース検索システム、およびその方法 | |
JP6954108B2 (ja) | 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130723 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130729 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |