TWI588668B - Foreign language production support facilities and methods - Google Patents

Foreign language production support facilities and methods Download PDF

Info

Publication number
TWI588668B
TWI588668B TW104134199A TW104134199A TWI588668B TW I588668 B TWI588668 B TW I588668B TW 104134199 A TW104134199 A TW 104134199A TW 104134199 A TW104134199 A TW 104134199A TW I588668 B TWI588668 B TW I588668B
Authority
TW
Taiwan
Prior art keywords
language
search query
input
foreign language
analysis
Prior art date
Application number
TW104134199A
Other languages
English (en)
Other versions
TW201636873A (zh
Inventor
Guowei Zu
Toshiyuki Kano
Original Assignee
Toshiba Kk
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Kk, Toshiba Solutions Corp filed Critical Toshiba Kk
Publication of TW201636873A publication Critical patent/TW201636873A/zh
Application granted granted Critical
Publication of TWI588668B publication Critical patent/TWI588668B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

外國語文作成支援裝置及方法
本發明之實施形態,係有關於外國語文作成支援裝置及方法。
在境外開發等之開發現場中,經常會有作成外國語文之要求。當讓外國語之文法知識並不充足的撰寫者來作成外國語文的情況時,通常會有以下之2種狀況。第1種,係為先作成撰寫者之本國語文,再基於此來作成所期望之外國語文的狀況,第2種,係為先讓撰寫者作成在文法上而言並不完備的外國語文,再基於此來作成所期望之外國語文的情況。不論是在何種狀況下,為了減輕撰寫者的負擔並有效率地作成外國語文,均係對於支援外國語文之作成的方法有所需求。
作為此種外國語文作成支援方法,例如,使用有機械翻譯、字彙表、對譯例文資料庫或者是類似度的手法係為周知。
於此,使用有機械翻譯之手法,係將以撰寫者之本國語來作了輸入的本國語文藉由機械翻譯來翻譯為外國語, 藉由此,而成為能夠產生外國語文。
使用有字彙表之手法,係當並不知悉外國語之字彙的情況時,藉由對於本國語之字彙表進行檢索並輸出譯文,而成為能夠得到外國語之字彙。
使用有對譯例文資料庫之手法,係輸入本國語之字彙,來對於使用有對譯辭典以及類似詞辭典的對譯例文資料庫進行檢索,而成為能夠將所對應之譯文以及包含有譯文之例文作輸出。
使用有類似度之手法,係對於輸入文與檢索對象之例文之間的字彙之類似度作比較,而成為能夠將類似度為高之例文輸出。
然而,先前技術之外國語文作成支援方法,不論是採用何種之手法,均有著撰寫者之負擔係為大的問題。
例如,使用有機械翻譯之手法,由於機械翻譯之結果並非絕對會成為撰寫者所想像的文章,因此,直到作成所期望之外國語文為止,係有著需要進行大量之修正操作的可能性。
使用有字彙表之手法,係並無法根據所得到的外國語字彙來作成外國語文,或者是為了作成外國語文所造成的負擔係為大。
使用有對譯例文資料庫之手法,係會連使用有並未預 想到的文法表現之例文都會被檢索出來,在過濾出使用有所預想的文法表現之例文的作業中係會造成負擔。又,使用有對譯例文資料庫之手法,在像是輸入在文法上並非為完備的外國語文而作成完備之外國語文一般之情況中,係並無法作適用。
使用有類似度之手法,由於係根據字彙間之類似度來對於例文進行檢索,因此,係會產生包含有並未預想到的例文之可能性,在過濾出所預想之例文的作業中係會造成負擔。
亦即是,在先前技術之外國語文作成支援方法中,於作成撰寫者所預想的外國語文時之負擔係為大的問題。
本發明所欲解決之課題,係在於提供一種能夠減輕在作成外國語之文章時的負擔之外國語文作成支援裝置以及方法。
實施形態之外國語文作成支援裝置,係對於外國語之第1文章之作成作支援,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章。
前述外國語文作成支援裝置,係具備有記憶手段、和輸入手段、和語言解析實施手段、和文法特徵抽出手段、和檢索查詢作成手段、以及輸出手段。
前述記憶手段,係記憶例文集和例文語料庫(corpus),該例文集,係包含有例文之組,該例文之組,係包含 有與前述外國語之例部的預備前述外國語之例文相對應的本國語之例文,該例文語料庫,係包含有與前述本國語之例文相對應的索引。
前述輸入手段,係受理輸入文的輸入,該輸入文,係為與前述第1文章相對應之本國語的第2文章。
前述語言解析實施手段,係對於受理了前述輸入之輸入文,而實施包含有形態要素解析以及構文解析之語言解析。
前述文法特徵抽出手段,係基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵。
前述檢索查詢產生手段,係基於前述所抽出的文法特徵,而產生檢索查詢。
前述輸出手段,係基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出例文之組,該例文之組,係包含有與符合於前述檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。
若依據上述構成之外國語文作成支援裝置,則係能夠減輕在作成外國語之文章時的負擔。
1‧‧‧外國語文作成支援裝置
10‧‧‧電腦
20‧‧‧外部記憶裝置
21‧‧‧程式
31‧‧‧文法特徵資訊記憶部
31a‧‧‧文法特徵資訊
31b‧‧‧文法特徵資訊
32‧‧‧例文語料庫記憶部
32a‧‧‧例文語料庫
33‧‧‧輸入部
34‧‧‧語言解析部
35‧‧‧文法特徵抽出部
36‧‧‧檢索查詢產生部
37‧‧‧例文檢索部
38‧‧‧輸出部
39‧‧‧意義屬性資訊記憶部
39a‧‧‧意義屬性資訊
40‧‧‧意義屬性解析部
[圖1]對於第1實施形態之外國語文作成支援裝置的硬體構成作展示之區塊圖。
[圖2]對於在該實施形態中之外國語文作成支援裝置的構成例作展示之區塊圖。
[圖3]對於在該實施形態中之文法特徵資訊的其中一例作展示之示意圖。
[圖4]對於在該實施形態中之文法特徵資訊的其中一例作展示之示意圖。
[圖5]對於在該實施形態中之例文語料庫的其中一例作展示之示意圖。
[圖6]用以對於在該實施形態中之動作作說明之流程圖。
[圖7]對於在該實施形態中之形態要素解析結果的其中一例作展示之示意圖。
[圖8]對於在該實施形態中之構文解析結果的其中一例作展示之示意圖。
[圖9]對於在該實施形態中之文法特徵的其中一例作展示之示意圖。
[圖10]對於在該實施形態中之檢索查詢的其中一例作展示之示意圖。
[圖11]對於在該實施形態中之輸出文的其中一例作展示之示意圖。
[圖12]對於在該實施形態中之形態要素解析結果的其中一例作展示之示意圖。
[圖13]對於在該實施形態中之文法特徵的其中一例作展示之示意圖。
[圖14]對於在該實施形態中之檢索查詢的其中一例作展示之示意圖。
[圖15]對於在該實施形態中之輸出文的其中一例作展示之示意圖。
[圖16]對於第2實施形態之外國語文作成支援裝置的構成例作展示之示意圖。
[圖17]對於在該實施形態中之意義屬性資訊的其中一例作展示之示意圖。
[圖18]對於在該實施形態中之例文語料庫的其中一例作展示之示意圖。
[圖19]用以對於在該實施形態中之動作作說明之流程圖。
[圖20]對於在該實施形態中之形態要素解析結果的其中一例作展示之示意圖。
[圖21]對於在該實施形態中之文法特徵的其中一例作展示之示意圖。
[圖22]對於在該實施形態中之檢索查詢的其中一例作展示之示意圖。
[圖23]對於在該實施形態中之檢索查詢的其中一例作展示之示意圖。
[圖24]對於在該實施形態中之輸出文的其中一例作展示之示意圖。
以下,參考圖面,針對數個實施形態作說明。另外,各實施形態之外國語文作成支援裝置,係可作為獨立運作 之使用者終端來實施,亦可作為在客戶端伺服器系統中之伺服器裝置來實施。又,各實施形態之外國語文作成支援裝置,係亦可在私有雲端或者是公共雲端等之雲端運算系統中,作為在低負載時所選擇的複數台之處理實行裝置的各者而實施之。
(第1實施形態)
圖1,係為對於第1實施形態之外國語文作成支援裝置的硬體構成之其中一例作展示之示意圖。此外國語文作成支援裝置1,係具備有電腦10、和外部記憶裝置20。電腦10,例如係被與硬碟(HDD:Hard Disk Drive)一般之外部記憶裝置20作連接。外部記憶裝置20,係記憶藉由電腦10所實行的程式21。
第1實施形態之外國語文作成支援裝置1,係具備有對於身為由至少包含有獨立詞之複數的文節所成之文章之外國語的第1文章之作成作支援的功能。另外,作為各實施形態之外國語文作成支援裝置1的使用者,例如係將雖然並未具備並不使用例文地來作成在文法上而言為完備之外國語文之作文能力但是卻具備有選擇適當之例文並作成在文法上而言為完備之外國語文之作文能力者,想定為主要的使用者。但是,各實施形態之外國語文作成支援裝置1,係並不被限定於該主要的使用者,而係成為可對於具備有能夠作成不完備的外國語文之程度的作文能力之任意之使用者作適用。
外國語文作成支援裝置1,具體而言,係如同圖2中所示一般,具備有文法特徵資訊記憶部31、和例文語料庫記憶部32、和輸入部33、和語言解析部34、和文法特徵抽出部35、和檢索查詢產生部36、和例文檢索部37、以及輸出部38。各部31~38,係設為藉由讓電腦10實行被記憶在外部記憶裝置20中之程式(外國語文作成支援程式)21來實現者。程式21,係成為能夠以預先被記憶在電腦可讀取之記憶媒體中的形態來作發佈。又,程式21,例如係亦可經由網路來下載至電腦10處。又,文法特徵資訊記憶部31以及例文語料庫記憶部32,例如係被安裝在外部記憶裝置20內,但是係亦可寫入至電腦10之記憶體(未圖示)中來作安裝。
文法特徵資訊記憶部31,係為能夠進行讀出/寫入之記憶體,並如同圖3以及圖4中所示一般,預先記憶有對於標題字彙而將品詞、文法屬性、文法形態、同義語以及自他動詞對等的文法特徵附加有關連之文法特徵資訊31a、31b。文法特徵資訊31a,係為相對於中文之文法特徵資訊的其中一例,文法特徵資訊31b,係為相對於日文之文法特徵資訊的其中一例。另外,文法特徵資訊記憶部31,係並不被限定於中文和日文,而亦可記憶有對於任意之語言種類的文法特徵資訊。又,文法特徵資訊記憶部31,係因應於從文法特徵抽出部35以及檢索查詢產生部36而來的讀出,而將被指定了的語言種類之文法特徵資訊31a、31b送訊至文法特徵抽出部35以及檢索查詢產生 部36處。
於此,標題字彙,係為包含有動詞或形容詞等之用言和助詞或助動詞等之機能語的字彙之總稱。品詞,係為代表標題字彙之品詞的資訊。文法屬性,係為代表標題字彙之文法用法的資訊,例如,當標題字彙之品詞係為動詞的情況時,係代表其是身為自動詞或者是他動詞。又,文法屬性,當標題字彙之品詞係為機能語的情況時,係代表該機能語所被作使用之文型(使役型、被動型或假定型等)。文法形態,係為代表當標題字彙發揮文法用途的情況時之典型性的文法之格式的資訊。又,同義語,係為代表具備有與標題字彙之意義相同或者是類似之意義的字彙之資訊。自他動詞對,係為代表當標題字彙之文法屬性乃身為自動詞或他動詞的情況時,相對於標題字彙之動詞而成對的他動詞或自動詞之資訊。
例如,如同圖4中所示一般,當標題字彙為「増 」的情況時,在品詞中係記憶有「動詞」,在文法屬性中係記憶有「自動詞」,在文法形態中,係作為「増 」所被典型性地使用的用法,而記憶有例如「名詞--増」一般之資訊。又,在同義語中,係記憶有具備與「増」類似之意義的「増加」,在自他動詞對中,係作為與「増」相對應之他動詞,而記憶有「増」。
另外,文法特徵資訊31a、31b,係亦可包含有所記憶的語言種類所特有之項目。例如,當注目於中文和日文 的情況時,在文法特徵資訊31b中所包含之自他動詞對的項目,係為在日文中所特有之項目。
例文語料庫記憶部32,係為能夠進行讀出/寫入之記憶體,並如同圖5中所示一般,記憶有例文語料庫32a。例文語料庫32a,係包含有:包含中文之例文以及與該例文相對應之日文之例文的例文集、和與該中文以及日文之例文相對應的索引。例文語料庫32a,係亦可包含有:包含與任意數量之語言種類相對應的對譯例文之組之例文集、和與該例文之組的語言種類之各者分別相對應之索引。作為索引,例如,係成為能夠使用代表例文之文法形態的資訊。作為代表例文之文法形態的資訊,例如,係成為能夠使用將例文之對象字彙、和例文之助詞、和例文之對象字彙以及助詞以外之字彙的文法用語(品詞、文法功用等)作組合而代表例文的構成之資訊。
作為此種索引,當對象字彙為動詞的情況時,例如,係成為能夠使用基於例文之形態要素解析結果來將在例文中所包含之體言置換為品詞的資訊。若是作補充說明,則作為該作了置換的資訊,係成為能夠使用代替例文之具體性的體言(具體性的名詞、代名詞等)而記述了該體言之品詞(名詞、名詞節或代名詞等)之資訊。另外,基於例文之形態要素解析結果所得之資訊,係亦可將被統整於例文內之名詞節中的部分,作為1個的名詞節來作表現。
又,作為索引,當對象字彙為動詞的情況時,例如,係成為能夠使用基於例文之構文解析結果來將在例文中所 包含之體言置換為文法功用的資訊。若是作補充說明,則作為該作了置換的資訊,係成為能夠使用代替例文之具體性的體言(具體性的名詞、代名詞等)而記述了該體言之文法功用(目的詞、對象詞等)之資訊。另外,基於例文之構文解析結果所得之資訊,係亦可將被統整於例文內之名詞節中的部分,作為1個的文法功用來作表現。
例文語料庫記憶部32,係因應於從例文檢索部37而來之讀出,而將例文語料庫32a送訊至例文檢索部37處。
輸入部33,例如係因應於對於鍵盤或滑鼠(未圖示)等之使用者的操作,而受理從該使用者而來之指示或文書的輸入。例如,輸入部33,係具備有受理身為與第1文章相對應之本國語的第2文章之輸入文之輸入或者是受理身為外國語之第3文章的輸入文之輸入的功能。另外,外國語之第3文章,例如係為由使用者所指定了的成為評價對象之文章。另外,外國語之第3文章,係可為在文法上而言為完備之文章,亦可為在文法上而言為不完備之文章。又,輸入部33,係更進而受理針對受理了輸入之輸入文而從輸出部38所輸出之文章(以下,稱作輸出文)的語言種類作指定之輸入。輸入部33,係將輸入文、和輸出文之語言種類,送訊至語言解析部34處。又,輸入部33,係將輸出文之語言種類,送訊至例文檢索部37處。
於此,輸入文,係由至少包含有獨立詞(例如,名詞 或動詞等)之複數之文節所構成。另外,在構成該輸入文之文節中,係亦可除了獨立詞以外而更進而包含有附屬語(例如,助詞或助動詞等)。又,輸入文之語言種類,係可為對於使用者而言之本國語,亦可為外國語。另外,在以下之說明中,係列舉出例如在外國語文作成支援裝置1中係預先設定有對於使用者而言之本國語的情況為例,來作說明。然而,該本國語之語言種類的設定,係亦可構成為可任意作變更。
語言解析部34,係具備有對於藉由輸入部33而受理了輸入之輸入文,而實施包含有形態要素解析以及構文解析之語言解析的語言解析實施功能。具體而言,例如,語言解析部34,係從輸入部33,而受訊輸入文、和輸出文之語言種類,並判定該輸入文之語言種類。語言解析部34,係基於所判定了的輸入文之語言種類,來對於該輸入文而實施語言解析。語言解析部34,當所判定出的輸入文之語言種類係為本國語的情況時,係對於輸入文,而實施包含有形態要素解析以及構文解析之語言解析,當所判定出的輸入文之語言種類係為外國語的情況時,則係對於輸入文而實施包含有形態要素解析之語言解析。語言解析部34,係將語言解析結果送訊至文法特徵抽出部35處。
另外,語言解析部34,在進行語言種類之判定時,係亦可對於在輸入文中所使用的文字種類作解析。作為基於文字種類所進行的語言種類之判定方法之例,係可列舉出將主要包含有英文之英文字母的文章之語言種類判定為 英語之方法、或者是將包含有片假名或平假名之文章的語言種類判定為日文之方法等。又,係可列舉出將全部為由漢字所構成的文章之語言種類判定為中文之方法。另外,語言種類之判定方法,係並不被限定於上述之方法,而可適用任意之判定方法,此些之判定方法,係亦可預先被設定在語言解析部34中。
另外,語言解析部34,當實施了形態要素解析的情況時,係得到形態要素解析結果。具體而言,語言解析部34,係將輸入文在每一字彙處作區隔,並藉由附加與各字彙相對應之品詞,來得到在輸入文中之具體性的文章之組合方法。
又,語言解析部34,當實施了構文解析的情況時,係得到構文解析結果。具體而言,語言解析部34,係得到代表構成輸入文之文節間的聯繫關係之文章的構造。在被包含於構文解析結果中之文節間之聯繫關係中,例如,係包含有作為主語、目的語等之文法功用而哪一個詞彙為相當於主格以及目的格等之格、等等之資訊;以及作為機能語之功用而哪一個詞彙為與哪一個詞彙相互關連等之資訊。另外,構文解析結果,係亦可藉由將文章之構造以節點以及弧所構成的樹構造(構文樹)來作表現。於此,節點,係代表構成文章之各文節,而亦可在構文樹中以橢圓形來作表現。在節點中,係附記有藉由該節點所表示的文節之表層文字列、和該文節之獨立詞或語幹的品詞。又,弧,係代表構成文章之各文節之間的聯繫關係,而亦可藉 由將節點間作連結的箭頭來作表現。在弧中,係附記有藉由該弧所代表的文節間之聯繫關係之種類。
另外,在以下之說明中,弧之起點側的節點,係亦可記載為「母節點」或者是「聯繫目標之節點」,弧之終點側的節點,係亦可記載為「子節點」或者是「聯繫源頭之節點」。
文法特徵抽出部35,係具備有基於藉由語言解析部34所實施了的語言解析之結果來抽出輸入文之文法特徵的文法特徵抽出功能。具體而言,例如,文法特徵抽出部35,係從語言解析部34受訊語言解析結果,並從文法特徵資訊記憶部31而讀出文法特徵資訊31a、31b。文法特徵抽出部35,係基於該語言解析之結果,來一面參照所讀出的文法特徵資訊31a、31b,一面抽出輸入文之文法特徵。文法特徵抽出部35,係將所抽出的輸入文之文法特徵,送訊至檢索查詢產生部36處。
另外,所抽出的輸入文之文法特徵,係包含有語言種類、主動詞、文型、機能語、文章構成等之資訊。文章構成,係包含有作為形態要素解析結果之具體性的文章之組合方式、以及作為構文解析結果之文節間的聯繫關係。另外,當所受訊了的語言解析結果並不包含構文解析結果的情況時,文節間之聯繫關係,係並不被包含在文章構成中。
檢索查詢產生部36,係具備有基於藉由文法特徵抽出部35所抽出的文法特徵,而產生檢索查詢之檢索查詢 產生功能。具體而言,例如,檢索查詢產生部36,係從文法特徵抽出部35而受訊輸入文之文法特徵,並從文法特徵資訊記憶部31而讀出文法特徵資訊31a、31b。檢索查詢產生部36,係基於該輸入文之文法特徵,來一面參照所讀出的文法特徵資訊31a、31b,一面產生輸入文之檢索查詢。檢索查詢產生部36,係亦可將被包含在輸入文之文法特徵中的文章構成,作為檢索查詢。檢索查詢產生部36,係將所產生的檢索查詢送訊至例文檢索部37處。
又,檢索查詢產生部36,係亦可基於文法特徵,而作成檢索查詢,並藉由將所作成了的檢索查詢擴張,而產生最終性之檢索查詢。(亦可將檢索查詢之檢索範圍擴張。)將該檢索查詢擴張一事,係亦可包含有對於該檢索查詢,而適用體言抽象化、同義語擴張、助詞擴張或者是自他動詞擴張之至少其中一者的操作。
於此,所謂體言抽象化,係指對於檢索查詢內之體言,來代替使用所輸入了的具體性之言詞一事而使用像是品詞(名詞、代名詞等)或文法功用(目的語、對象語等)之類的抽象性之概念。又,檢索查詢產生部36,係亦可將被統整於檢索查詢內之名詞節中的部分,作為1個的名詞節來作處理。藉由此,檢索查詢產生部36,係能夠將檢索查詢內之具體性的體言擴張為以上位概念來作了抽象化者。
又,所謂同義語擴張,係指以對於檢索查詢內之主動 詞以及機能語等而亦對於具有相同或類似之意義的同義語同時進行檢索的方式,來將該同義語包含在檢索查詢內。藉由此,檢索查詢產生部36,係能夠將檢索查詢內之具體性的語句擴張為包含有同義語之一群的語句。
又,助詞擴張,係指以對於檢索查詢內之助詞而亦對於其他之助詞同時進行檢索的方式,來將該其他之助詞包含在檢索查詢內。藉由此,檢索查詢產生部36,係能夠將檢索查詢內之助詞擴張為包含有其他之助詞之一群的助詞。
又,自他動詞擴張,係指以對於檢索查詢內之自動詞或他動詞而亦對於所對應的他動詞或自動詞同時進行檢索的方式,來將該所對應的他動詞或自動詞包含在檢索查詢內。藉由此,檢索查詢產生部36,係能夠將檢索查詢內之自動詞或他動詞擴張為與該動詞成對之他動詞或自動詞之一群的動詞。
另外,檢索查詢產生部36,係亦可對應於輸入文之語言種類,來選擇是否要適用此些之任意的擴張項目。例如,當作為外國語文而輸入了日文的情況時,該日文之輸入文,係會有身為對於自動詞以及他動詞作了誤用或者是對於助詞作了誤用的日文之可能性。故而,對於該日文之輸入文,檢索查詢產生部36,係亦可作為所產生了的檢索查詢之檢索範圍的擴張項目,而特別是適用自他動詞擴張以及助詞擴張。另外,對於中文之輸入文,檢索查詢產生部36,係亦可並不適用自他動詞擴張以及助詞擴張。
例文檢索部37,係從檢索查詢產生部36而受訊所產生了的檢索查詢,並從輸入部33而受訊輸出文之輸出語言種類,且從例文語料庫記憶部32而讀出例文語料庫32a。例文檢索部37,係基於該檢索查詢以及輸出語言種類,來對於例文語料庫32a內之索引進行檢索,並抽出例文之組,而送訊至輸出部38處,該例文之組,係為與符合於檢索查詢之索引相對應的例文、和與該例文相對應的輸出語言種類之例文,此兩者之組。另外,當輸入文之語言種類和輸出文之語言種類係為相同的情況時,被抽出的例文係亦可僅為單一語言。
又,例文檢索部37,係亦可除了該例文之組以外,更進而抽出與該例文之組相對應的索引,並送訊至輸出部38處。又,例文檢索部37,當判定索引是否與檢索查詢相符合時,係亦可計算出索引和檢索查詢之間的類似度,該類似度之計算方法,係亦可使用既存之統計性的手法。於此情況,例文檢索部37,係亦可將該類似度,與例文之組一同地送訊至輸出部38處。
又,例文檢索部37,當在例文語料庫32a內並不存在有索引的情況時,係亦可將該例文語料庫32a內之例文分別送訊至語言解析部34、文法特徵抽出部35以及檢索查詢產生部36處,並使該些實施語言解析,並抽出文法特徵,並產生檢索查詢。例文檢索部37,係亦可從檢索查詢產生部36而受訊相對於例文語料庫32a內之各例文的檢索查詢,並將該相對於各例文之檢索查詢作為索引來 利用。又,例文檢索部37,為了在後續之利用中使用該索引,係亦能夠將該索引以包含在例文語料庫32a內的形態來記憶在例文語料庫記憶部32中。
輸出部38,係從例文檢索部37而受訊與符合於檢索查詢之索引相對應的例文或者是例文之組、並作為檢索結果而對於使用者作輸出。於此,作為由輸出部38所致之檢索結果的輸出形態,例如係成為能夠適宜使用顯示輸出於液晶顯示器上的形態等。另外,輸出部38,係亦可從例文檢索部37而受訊索引和檢索查詢之間的類似度。輸出部38,在輸出檢索結果時,係亦能夠以讓使用者容易作確認的方式,來因應於所受訊了的檢索之類似度而對於例文作排序,且亦能夠以容易辨識出與檢索查詢相符合之文字列的方式,來將該文字列以著色或者是標記下線來作明示。此種例文檢索部37以及輸出部38,當輸入文為本國語之文章的情況時,係構成基於所產生了的檢索查詢來對於索引進行檢索並輸出例文之組的輸出手段,該例文之組,係包含有與符合於檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。又,例文檢索部37以及輸出部38,當輸入文為外國語之文章的情況時,係構成基於所產生了的檢索查詢來對於索引進行檢索並輸出與符合於檢索查詢之索引相對應的外國語之例文的輸出手段。後者之輸出手段,係亦可更進而輸出與符合於檢索查詢之索引相對應的外國語之例文相對應的本國語之例文。
接著,使用圖6之流程圖,對於如同上述一般所構成之外國語文作成支援裝置1之動作作說明。另外,在以下之說明中,外國語文作成支援裝置1,係想定為作為本國語而設定有中文,並將日文作為輸出文來輸出的情況。另外,為了將說明簡化,假設作為外國語之資訊,係僅記憶有日文。亦即是,文法特徵資訊記憶部31,假設係為預先記憶有文法特徵資訊31a、31b者。
首先,針對作為輸入文而輸入了本國語的情況時之動作作說明。於此,作為其中一例,針對輸入了(輸入文A)「讓不懂日語的人讀日語教科書」之在文法上而言為完備的本國語文的情況作說明。
首先,例文語料庫記憶部32,係記憶例文語料庫32a(ST1)。
接著,輸入部33,係受理輸入文A和輸出文之語言種類「日文」的輸入(ST2),並將輸入文A和輸出文之語言種類「日文」送訊至語言解析部34處。
語言解析部34,係受訊輸入文A、和輸出文之語言種類「日文」,並判定該輸入文A之語言種類(ST3)。語言解析部34,係基於輸入文A乃全部為由漢字所構成等的理由,而判定輸入文A係為中文。
語言解析部34,係實施輸入文A之語言解析(ST4~ST6)。
具體而言,語言解析部34,係對於輸入文A實施形態要素解析(ST4),並得到形態要素解析結果。語言解 析部34,具體而言,係如同圖7(a)中所示一般,將輸入文A如同「讓/不懂/日語的/人/讀/日語教科書。」
一般地而以語句單位作分割,並如同圖7(b)中所示一般,對於各語句賦予品詞。
語言解析部34,係判定輸入文A和輸出文之語言種類是否為相同(ST5)。語言解析部34,係判定輸入文A和輸出文之語言種類並非為相同(ST5,NO),並對於輸入文A,而基於所得到的形態要素解析結果來實施構文解析(ST6)。
語言解析部34,具體而言,係如同圖8中所示一般,作為輸入文A之構造,而得到由節點101、102、105、107以及109和弧103、104、106以及108所成的構文樹。作為一例,針對節點101、102以及弧103之關係作說明。
節點101,係代表文節「(讓)讀」(日文翻譯:「読」),並代表「讀」之品詞係為主動詞,而在文節「(讓)讀」中所包含的「讓」係身為代表使役文型之機能語。又,節點102,係代表文節「日語教科書」,並代表「日語教科書」之品詞係為名詞。
又,對於弧103,係賦予有「目的語」,而代表節點101和節點102,係將節點101作為母節點並將節點102作為子節點而附加有聯繫關係。亦即是,弧103,係代表節點102乃身為節點101之目的語。
語言解析部34,係將所得到的包含有形態要素解析結果以及構文解析結果之語言解析結果送訊至文法特徵抽出部35處。
文法特徵抽出部35,係受訊語言解析結果,並從文法特徵資訊記憶部31而讀出文法特徵資訊31a。文法特徵抽出部35,係基於語言解析結果以及文法特徵資訊31a,而抽出輸入文A之文法特徵(ST7)。
文法特徵抽出部35,具體而言,係如同圖9中所示一般,作為輸入文A之文法特徵,而抽出其係為使用有機能語「讓」的主動詞「讀」之「使役文」。
又,文法特徵抽出部35,係得到包含有作為輸入文A之形態要素解析結果之具體性的文之組合方式以及作為構文解析結果之文節間的聯繫關係之文章構成。文法特徵抽出部35,係將所抽出的輸入文A之文法特徵,送訊至檢索查詢產生部36處。
檢索查詢產生部36,係受訊輸入文A之文法特徵,並從文法特徵資訊記憶部31而讀出文法特徵資訊31a。檢索查詢產生部36,係基於輸入文A之文法特徵以及文法特徵資訊31a,而產生檢索查詢(ST8)。檢索查詢產生部36,具體而言,係將輸入文A之文法特徵內的文構成,作為檢索查詢來使用。
又,檢索查詢產生部36,係基於文法特徵資訊31a,而如同圖10中所示一般,將所產生了的檢索查詢擴張。具體而言,檢索查詢產生部36,係作為所產生了的檢索 查詢之檢索範圍,而適用體言抽象化以及同義語擴張。
亦即是,文法特徵抽出部35,係對於檢索查詢適用體言擴張化,並將「不懂日語的人」(日文翻譯:日本語人)統整為1個的名詞節,並將檢索範圍擴張至「對象語」。又,文法特徵抽出部35,係對於檢索查詢適用同義語擴張,而藉由在檢索查詢中包含有身為主動詞「讀」之同義語的「閱讀」以及身為機能語「讓」之同義語的「叫」、「令」、「使」,來擴張檢索範圍。
檢索查詢產生部36,係將所產生的檢索查詢送訊至例文檢索部37處。
例文檢索部37,係受訊檢索查詢,並作為輸出文之輸出語言種類而從輸入部33受訊「日文」,且從例文語料庫記憶部32而讀出例文語料庫32a。例文檢索部37,係基於檢索查詢以及輸出語言種類,來對於例文語料庫32a內之索引進行檢索,並取得與符合於檢索查詢之索引相對應的中文之例文、以及與此中文之例文相對應的日文之例文,此兩者之組(ST9)。例文檢索部37,具體而言,係參考例文語料庫32a內之中文索引,而將符合於檢索查詢之以下的中文例文1~3抽出。
(中文例文1):「讓你的智能手機讀你的喜怒哀樂。」
(中文例文2):「叫孩子們讀英語。」
(中文例文3):「讓學生們閱讀這本書。」
例文檢索部37,係更進而抽出與所抽出了的中文例 文1~3相對應之日文例文1~3,並分別取得此些之例文之組,而送訊至輸出部38處。
輸出部38,係受訊所取得了的例文之組(ST10)。輸出部38,係如同圖11中所示一般,藉由作為例文之組而將輸出文A-1~A-3輸出,而提示給使用者。另外,輸出部38,係亦可針對所取得了的例文之組,而將與檢索查詢相符合之文字列,以著色或下線來作明示。
藉由此,外國語文作成支援裝置1,係能夠基於受理了輸入的本國語之輸入文A,而輸出與其之文法特徵相類似的例文。使用者,係能夠參考輸出文,而作為用以作成正確的外國語文之參考。具體而言,使用者,係參考輸出文A-1、A-2之「読」的動詞之使用方法等,而能夠作成「日本語日本語教科書 。」之日文。又,使用者,係參考輸出文A-3之「読」的動詞之使用方法等,而能夠作成「日本語日本語教科書。」之日文。
接著,針對作為輸入文而輸入了外國語的情況時之動作作說明。於此,作為其中一例,針對被輸入有(輸入文B)「管理者。」之在文法上而言並不完備的外國語文的情況作說明。
首先,例文語料庫記憶部32,係記憶例文語料庫32a(ST1)。
接著,輸入部33,係受理輸入文B和輸出文之語言 種類「日文」的輸入(ST2),並將輸入文B和輸出文之語言種類「日文」送訊至語言解析部34處。
語言解析部34,係受訊輸入文B、和輸出文之語言種類「日文」,並判定該輸入文B之語言種類(ST3)。語言解析部34,係考慮到在輸入文B中係具備有「 」等之平假名以及片假名等之理由,而判定輸入文B係為日文。
語言解析部34,係實施輸入文B之語言解析(ST4~ST5)。
具體而言,語言解析部34,係對於輸入文B實施形態要素解析(ST4),並得到形態要素解析結果。語言解析部34,具體而言,係如同圖12(a)中所示一般,將輸入文B如同「管理者////増/。」
一般地而以語句單位作分割,並如同圖12(b)中所示一般,對於各語句賦予品詞。
語言解析部34,係判定輸入文B和輸出文之語言種類是否為相同(ST5)。語言解析部34,係判定輸入文B和輸出文之語言種類係為相同(ST5,YES),並對於輸入文B,而基於所得到的形態要素解析結果,來並不實施構文解析地而將包含有所得到的形態要素解析結果之語言解析結果送訊至文法特徵抽出部35處。
文法特徵抽出部35,係受訊語言解析結果,並從文法特徵資訊記憶部31而讀出文法特徵資訊31b。文法特 徵抽出部35,係基於語言解析結果以及文法特徵資訊31b,而抽出輸入文B之文法特徵(ST7)。
文法特徵抽出部35,具體而言,係如同圖13中所示一般,作為輸入文B之文法特徵,而抽出其係為作為機能語而使用有「」和「」,並且主動詞為「増」之「過去型」之文章的「日文」。又,文法特徵抽出部35,係抽出包含有作為輸入文B之形態要素解析結果之具體性的文章之組合方式但是並未包含作為構文解析結果之文節間的聯繫關係之文構成。文法特徵抽出部35,係將所抽出的輸入文B之文法特徵,送訊至檢索查詢產生部36處。
檢索查詢產生部36,係受訊輸入文B之文法特徵,並從文法特徵資訊記憶部31而讀出文法特徵資訊31b。檢索查詢產生部36,係基於輸入文B之文法特徵以及文法特徵資訊31b,而產生檢索查詢(ST8)。檢索查詢產生部36,具體而言,係將輸入文B之文法特徵內的文章構成,作為檢索查詢來使用。
又,檢索查詢產生部36,係基於文法特徵資訊31b,而如同圖14中所示一般,將所產生了的檢索查詢擴張。具體而言,檢索查詢產生部36,係作為所產生了的檢索查詢之檢索範圍,而適用體言抽象化、助詞擴張以及自他動詞擴張。亦即是,文法特徵抽出部35,係對於檢索查詢適用體言擴張化,並將「管理者」以及「」之檢索範圍擴張至「名詞節」。又,文法特徵抽出部35,係 對於檢索查詢適用助詞擴張,並藉由相對於助詞「」以及助詞「」而使助詞「」被包含在檢索查詢中,來擴張檢索範圍。又,文法特徵抽出部35,係對於檢索查詢適用自他動詞擴張,並藉由使與身為自動詞之「増」成對的身為他動詞之「増」被包含在檢索查詢中,來擴張檢索範圍。
檢索查詢產生部36,係將所產生的檢索查詢送訊至例文檢索部37處。
例文檢索部37,係受訊檢索查詢,並從例文語料庫記憶部32而讀出例文語料庫32a。例文檢索部37,係基於檢索查詢,來對於例文語料庫32a內之索引進行檢索,並取得與符合於檢索查詢之索引相對應的日文之例文、以及與此日文之例文相對應的中文之例文,此兩者之組(ST9)。例文檢索部37,具體而言,係參考例文語料庫32a內之日文索引,而將符合於檢索查詢之以下的日文例文1~3抽出。
(日文例文1):「会社社員給料 。」
(日文例文2):「企業採用数理由。」
(日文例文3):「最近。」
例文檢索部37,係更進而抽出與所抽出了的日文例文1~3相對應之中文例文1~3,並分別取得此些之例文之組,而送訊至輸出部38處。另外,例文檢索部37,當輸入文B之語言種類和輸出文之語言種類係為相同的情況 時,係亦可僅取得日文例文1~3,並送訊至輸出部38處。
輸出部38,係從例文檢索部37而受訊所取得了的例文之組(ST10)。輸出部38,係如同圖15中所示一般,作為例文之組而將輸出文B-1~B-3對於使用者輸出。另外,輸出部38,係亦可針對所取得了的例文之組,而將與檢索查詢相符合之文字列,以著色或下線來作明示。
藉由此,外國語文作成支援裝置1,係能夠基於所輸入的外國語之輸入文B,而輸出與其之文法特徵相類似的例文,使用者,係能夠參考輸出文,而作為用以作成正確的外國語文之參考。具體而言,使用者,係能夠藉由將「管理者。」之在文法上而言並不完備的外國語文輸入,來得到輸出文B-1、B-2,並參考輸出文B-1、B-2,而作成「管理者。」之日語之文章。
如同上述一般,若依據本實施形態,則係對於本國語之輸入文而實施語言解析,並基於語言解析之結果,來抽出輸入文之文法特徵,並基於該所抽出了的文法特徵,來產生檢索查詢。又,係基於該所產生了的檢索查詢,來對於索引進行檢索,並輸出例文之組,該例文之組,係包含有與符合於檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。藉由此,係能夠減輕在作成外國語之文章時的負擔。
若是作補充說明,則藉由基於本國語之輸入文的文法 特徵來輸出本國語之例文與外國語之例文之組的構成,係能夠對於在作成外國語文上有所困難的使用者,而對於外國語文之作成作支援。
又,在身為外國語之輸入文的情況時,同樣的,係實施輸入文之語言解析,並基於語言解析之結果,來抽出輸入文之文法特徵,並基於該所抽出了的文法特徵,來產生檢索查詢。又,係基於該所產生了的檢索查詢,來對於索引進行檢索,並輸出與符合於檢索查詢之索引相對應的外國語之例文。故而,於此情況,亦能夠減輕在作成外國語之文章時的負擔。
若是作補充說明,則藉由基於外國語之輸入文的文法特徵來輸出外國語之例文的構成,係能夠對於有能力作成在文法上並不完備之外國語文的使用者,而提示文法特徵為與自身所作成的外國語文相類似的外國語之例文。藉由此,當使用者所輸入之外國語之文章的文法為並不完備的情況時,使用者係能夠參考所被提示的外國語之例文,來作成在文法上而言為正確之外國語文。又,就算是當使用者所輸入之外國語之文章在結果而言係為正確的情況時,亦同樣的,係能夠參考所被提示的外國語之例文,來確認到自身所作成的外國語之文章在文法上而言係為正確。故而,係能夠減輕在作成外國語之文章時的負擔。
又,當使用者輸入了外國語文的情況時,藉由採用更進而輸出與外國語之例文相對應的本國語之例文的構成,由於係能夠對於有能力作成在文法上並不完備之外國語文 的使用者,而更進而提示與外國語之例文相對應的本國語之對譯例文,因此係能夠更進一步減輕在作成外國語之文章時的負擔。
又,藉由基於文法特徵而將所作成的檢索查詢擴張並產生最終性之檢索查詢,係能夠以良好效率來將與自身所作成的外國語之文章的文法特徵相類似之例文抽出。具體而言,係可適用體言抽象化、同義語擴張、助詞擴張以及自他動詞擴張等。故而,係能夠減輕在作成外國語之文章時的負擔。
(第2實施形態)
圖16,係為對於第2實施形態之外國語文作成支援裝置的硬體構成之其中一例作展示之示意圖。以下,針對與圖1相同之部分,係附加相同的元件符號,並省略其之詳細說明,而主要針對相異之部分作敘述。
第2實施形態,係為第1實施形態之變形例,並成為能夠輸出更為適當之例文的構成。具體而言,此外國語文作成支援裝置1,係除了第1實施形態之構成以外,更進而具備有意義屬性資訊記憶部39以及意義屬性解析部40。
於此,意義屬性資訊記憶部39,係為能夠進行讀出/寫入之記憶體,並如同圖17中所示一般,預先記憶有將標題字彙和該標題字彙之意義屬性附加有關連之意義屬性資訊39a。意義屬性資訊39a,係為代表相對於日文之 標題字彙的意義屬性之資訊之其中一例。另外,意義屬性資訊記憶部39,係並不被限定於日文,而亦可記憶有對於任意之語言種類的標題字彙之意義屬性資訊39a。又,意義屬性資訊記憶部39,係因應於從意義屬性解析部40而來的讀出,而將被指定了的語言種類之意義屬性資訊39a送訊至意義屬性解析部40處。
於此,所謂意義屬性,係為將字彙基於語句之意義來作分類者。意義屬性,例如係亦可為與字彙之上位概念和下位概念附加有關連之分類。例如,作為「蘋果」之意義屬性,係可列舉出身為「蘋果」之上位概念的「水果」,作為「星期一」之意義屬性,係可列舉出身為「星期一」之上位概念的「時間」。又,意義屬性,係亦可被分類成複數之階層等級而被設定。例如,作為「管理者」之意義屬性,係亦可如同「名詞:主體:人」一般地來分類成3個的階層等級而設定之。意義屬性之階層等級,係亦能夠以若是等級的數值越大則係被限定於越下位之概念的方式,來構成之。於此情況,「管理者」之意義屬性,在階層等級1處係為「名詞」,在被限定於更下位之概念的階層等級2處係為「主體」,在被限定於更下位之概念的階層等級3處係成為「人」。於上述之例中,係亦可任意採用除了「水果」或「時間」、「名詞:主體:人」以外的意義屬性以及分類之方法。如此這般,意義屬性資訊39a內之意義屬性,係可針對各標題字彙之每一者而任意設定之。
另外,作為被定義意義屬性之對象,主要係想定為名詞、代名詞以及形容動詞之語幹等的體言,但是,係並不被限定於體言,亦可對於包含有形容詞、動詞等之用言的獨立詞而定義之。
意義屬性解析部40,係具備有基於藉由語言解析部34所實施了的語言解析之結果來實施輸入文之意義屬性解析的意義屬性解析實施功能。具體而言,意義屬性解析部40,係從語言解析部34受訊語言解析結果,並從意義屬性資訊記憶部39而讀出意義屬性資訊39a。意義屬性解析部40,係基於語言解析結果,而一面參考意義屬性資訊39a,一面對於在輸入文中所被使用之獨立詞賦予意義屬性,並取得意義屬性解析結果。另外,意義屬性解析部40,係亦可將該所被作賦予之意義屬性分類成1或複數之階層等級。於此情況,意義屬性解析之結果,係在各階層等級之每一者中而分別包含有輸入文之獨立詞的意義屬性。意義屬性解析部40,係將所取得的意義屬性解析之結果送訊至文法特徵抽出部35處。
例文語料庫記憶部32,係如同圖18中所示一般,記憶對於索引而更進一步賦予了意義屬性之例文語料庫32b。
語言解析部34,係將語言解析結果送訊至意義屬性解析部40處。
文法特徵抽出部35,係具備有基於藉由意義屬性解析部40所實施了的意義屬性解析之結果來抽出輸入文之 文法特徵的抽出功能。具體而言,文法特徵抽出部35,係從意義屬性解析部40受訊意義屬性解析結果,並從文法特徵資訊記憶部31而讀出文法特徵資訊31a、31b。文法特徵抽出部35,係基於意義屬性解析結果,來一面參照所讀出的文法特徵資訊31a、31b,一面抽出輸入文之文法特徵。被抽出的文法特徵,係包含有除了基於語言解析結果所得到的資訊之外亦被賦予有意義屬性的文章構成。該被賦予了的意義屬性,係亦可被分類成複數之階層等級。於此情況,文法特徵抽出部35,係抽出包含有各階層等級之每一者的意義屬性之文法特徵。文法特徵抽出部35,係將所抽出的輸入文之文法特徵,送訊至檢索查詢產生部36處。
檢索查詢產生部36,係從文法特徵抽出部35,而受訊包含有除了基於語言解析結果所得到的資訊之外亦被賦予有意義屬性的文章構成之文法特徵,並基於該文法特徵,而產生檢索查詢。另外,檢索查詢產生部36,當意義屬性係被分類成複數之階層等級的情況時,係亦可對於適用在檢索查詢中之意義屬性的階層等級作選擇,並產生檢索查詢。又,檢索查詢產生部36,當意義屬性係針對體言而被作賦予的情況時,係亦可代替在檢索查詢產生中適用體言抽象化,而賦予意義屬性。另外,所被選擇意義屬性之階層等級,係可對於檢索查詢產生部36而預先作設定,亦可依據使用者之要求而適宜作變更。檢索查詢產生部36,係將所產生的檢索查詢送訊至例文檢索部37 處。
例文檢索部37,係從檢索查詢產生部36而受訊檢索查詢,並從輸入部33而受訊輸出文之語言種類,且從例文語料庫記憶部32而讀出包含被賦予有意義屬性之索引的例文語料庫32b。例文檢索部37,係基於該檢索查詢,來對於例文語料庫32b內之索引進行檢索,並抽出與符合於檢索查詢之索引相對應的例文,而送訊至輸出部38處。另外,例文檢索部37,係亦可將被分類至與在檢索查詢中所被選擇之意義屬性的階層等級相同或者是該意義屬性之下位概念的階層等級中之索引作為檢索對象,並實施檢索。亦即是,若是所選擇了的意義屬性之階層等級越大,則檢索範圍係亦可被作限定。
另外,例文檢索部37,當在例文語料庫32b內並不存在有索引的情況時,係亦可將該例文語料庫32b內之例文分別送訊至語言解析部34、意義屬性解析部40、文法特徵抽出部35以及檢索查詢產生部36處,並使該些實施語言解析,並實施意義屬性解析,並抽出文法特徵,並產生檢索查詢。例文檢索部37,係亦可從檢索查詢產生部36而受訊相對於例文語料庫32b內之各例文的檢索查詢,並將該相對於各例文之檢索查詢作為索引來利用。又,例文檢索部37,為了在後續之利用中使用該索引,係亦能夠將該索引以包含在例文語料庫32b內的形態來記憶在例文語料庫記憶部32中。
接著,使用圖19之流程圖,對於如同上述一般所構 成之外國語文作成支援裝置1之動作作說明。另外,在以下之說明中,外國語文作成支援裝置1,係與第1實施形態相同的,想定為作為本國語而設定有中文,並將日文作為輸出文來輸出的情況。另外,為了更易於理解,假設作為外國語之資訊,係僅記憶有日文。亦即是,文法特徵資訊記憶部31,假設係為預先記憶有文法特徵資訊31a、31b者。
又,針對作為輸入文而輸入了外國語的情況時之動作作說明。於此,作為其中一例,針對被輸入了(輸入文B)「管理者。」之在文法上而言並不完備的外國語文之情況作說明。
步驟ST1~步驟ST5,係與第1實施形態相同的而實行。
語言解析部34,係判定輸入文B和輸出文之語言種類係為相同(ST5,YES),並對於輸入文B,而基於所得到的形態要素解析結果,來並不實施構文解析地而將包含有所得到的形態要素解析結果之語言解析結果送訊至意義屬性解析部40處。
意義屬性解析部40,係受訊語言解析結果,並從意義屬性資訊記憶部39而讀出意義屬性資訊39a。意義屬性解析部40,係基於語言解析結果,而對於輸入文B實施意義屬性解析(ST7’),並得到意義屬性解析結果。意義屬性解析部40,具體而言,係對於如同圖20(a)中所示一般之輸入文B內的獨立詞,而如同圖20(b)中所示 一般地,基於意義屬性資訊39a而賦予意義屬性。
意義屬性解析部40,係將意義屬性解析結果送訊至文法特徵抽出部35處。
文法特徵抽出部35,係受訊意義屬性解析結果,並從文法特徵資訊記憶部31而讀出文法特徵資訊31b。文法特徵抽出部35,係基於意義屬性解析結果以及文法特徵資訊31b,而抽出輸入文B之文法特徵(ST7)。文法特徵抽出部35,具體而言,係如同圖21中所示一般,作為文法特徵之文章構成,而得到包含有輸入文B之語言解析結果並且亦包含有意義屬性解析結果之文章構成。文法特徵抽出部35,係將所抽出的輸入文B之文法特徵,送訊至檢索查詢產生部36處。
檢索查詢產生部36,係受訊輸入文B之文法特徵,並從文法特徵資訊記憶部31而讀出文法特徵資訊31b。檢索查詢產生部36,係基於輸入文B之文法特徵以及文法特徵資訊31b,而產生檢索查詢(ST8)。檢索查詢產生部36,具體而言,係將輸入文B之文法特徵內的文章構成,作為檢索查詢來使用。
又,檢索查詢產生部36,係基於文法特徵資訊31b,而將所產生的檢索查詢擴張,當意義屬性係被分類成複數之階層等級的情況時,係對於適用在檢索查詢中之意義屬性的階層等級作選擇,並產生檢索查詢。檢索查詢產生部36,具體而言,係如同圖22中所示一般,當意義屬性之階層等級係被設定為"2"的情況時,係作為相對於「管理 者」之意義屬性,而適用「名詞:主體」,並產生檢索查詢。又,檢索查詢產生部36,係如同圖23中所示一般,當意義屬性之階層等級係被設定為3的情況時,係作為相對於「管理者」之意義屬性,而適用「名詞:主體:人」,並產生檢索查詢。另外,在以下之說明中,假設意義屬性之階層等級係被設定為"2"。
檢索查詢產生部36,係將所產生的檢索查詢送訊至例文檢索部37處。
例文檢索部37,係受訊檢索查詢,並從例文語料庫記憶部32而讀出例文語料庫32b。例文檢索部37,係基於檢索查詢,來對於例文語料庫32b內之索引進行檢索,並取得與符合於檢索查詢之索引相對應的日文之例文、以及此日文之例文(ST9)。於此,例文檢索部37,係將與所被選擇之意義屬性的階層等級相同或者是該意義屬性之下位概念的階層等級之索引作為檢索對象。例文檢索部37,具體而言,當階層等級被選擇為"2"的情況時,係參考例文語料庫32b內之日文索引,而將符合於輸入文B之檢索查詢之以下的日文例文1、2抽出。
(日文例文1):「会社社員給料 。」
(日文例文2):「企業採用数理由。」
另外,例文檢索部37,當階層等級被選擇為"3"的情況時,係僅將上述之日文例文中的日文例文1抽出。
例文檢索部37,係亦可更進而抽出與所抽出了的日 文例文1、2相對應之中文例文1、2,並分別取得此些之例文之組,而送訊至輸出部38處。另外,例文檢索部37,當輸入文B之語言種類和輸出文之語言種類係為相同的情況時,係亦可僅取得日文例文1、2,並送訊至輸出部38處。
輸出部38,係從例文檢索部37而受訊所取得了的例文之組(ST10)。輸出部38,係如同圖24中所示一般,作為例文之組而將輸出文B-1、B-2對於使用者輸出。另外,輸出部38,係亦可針對所取得了的例文之組,而將與檢索查詢相符合之文字列,以著色或下線來作明示。
藉由此,外國語文作成支援裝置1,係能夠基於所輸入的外國語之輸入文B,而輸出與其之文法特徵相類似的例文中之對於意義屬性更進一步作了限定的例文。藉由此,使用者,係能夠更有效率地參考例文,而作為用以作成正確的外國語文之參考。具體而言,外國語文作成支援裝置1,係能夠將雖然文法特徵係為類似但是被賦予有與在輸入文B中之階層等級2的意義屬性「主體」相異的意義屬性「抽象」之例文「最近。」除外。故而,使用者,係能夠僅參考輸出文B-1、B-2,而作成「管理者。」之日文之文章。
如同上述一般,若依據第2實施形態,則係能夠減輕在作成外國語之文章時的負擔。若是作補充說明,則係基於語言解析結果,而更進而實施意義屬性解析,並基於所得到的意義屬性解析結果,來抽出文法特徵。藉由此,係 能夠將雖然在文法特徵上係為類似但是卻由於意義屬性為相異而並非與輸入文相互類似的例文除外。故而,係能夠更進一步減輕在作成外國語之文章時的負擔。
又,藉由意義屬性解析所被賦予之意義屬性,係將輸入文之獨立詞的意義屬性分類成複數之階層等級,並對於該意義屬性的階層等級作選擇,而產生檢索查詢。藉由此,藉由對於意義屬性之階層等級作變更,由於係能夠對於所輸出的例文之檢索範圍作調整,因此係能夠進行由適當之檢索範圍所致的例文檢索。故而,係能夠更進一步減輕在作成外國語之文章時的負擔。
另外,在上述之實施形態中所記載的手法,係作為能夠使電腦實行之程式,而能夠儲存在磁碟(FLOPPY(註冊商標)DISK、HARD DISK等)、光碟(CD-ROM、DVD等)、光磁碟(MO)、半導體記憶體等之記憶媒體中並作發佈。
又,作為此記憶媒體,只要是能夠記憶程式並且能夠被電腦所讀取之記憶媒體,則不論其之記憶形式係為何種形態均可。
又,亦能夠基於從記憶媒體而被安裝至電腦中的程式之指示,來讓在電腦上動作的OS(作業系統)或者是資料庫管理軟體、網路軟體等之MW(中介軟體)等,實行用以實現上述實施形態之各處理的一部分。
進而,在實施形態中之記憶媒體,係並不被限定於與電腦相互獨立之媒體,而亦包含有將藉由LAN或網際網 路等所傳輸而來之程式下載並作記憶或者是作暫時記憶的記憶媒體。
又,在實施形態中之記憶媒體,係並不被限定於1個,就算是當從複數之媒體而實行上述之實施形態中之處理的情況時,亦係被包含在本發明之記憶媒體中,媒體構成係可為任意之構成。
另外,在實施形態中之電腦,係為基於被記憶在記憶媒體中之程式來實行在上述之實施形態中之各處理者,而可為個人電腦等之單一裝置或者是將複數之裝置作了網路連接的系統等之任意之構成。
又,在實施形態中之所謂電腦,係並不被限定於個人電腦,而亦包含有被包含於資訊處理機器中之演算處理裝置、微電腦等,而為能夠藉由程式來實現本發明之功能的機器、裝置之總稱。
另外,雖係針對本發明之實施形態作了說明,但是,此實施形態,係僅為作為例子而提示者,而並非為對於本發明之範圍作限定者。此實施形態,係可藉由其他之各種形態來實施,在不脫離發明之要旨的範圍內,係可作各種之省略、置換、變更。此實施形態及其變形,係被包含在發明之範圍以及要旨中,並且同樣係被包含於申請專利範圍中所記載之發明及其均等範圍內。
31‧‧‧文法特徵資訊記憶部
32‧‧‧例文語料庫記憶部
33‧‧‧輸入部
34‧‧‧語言解析部
35‧‧‧文法特徵抽出部
36‧‧‧檢索查詢產生部
37‧‧‧例文檢索部
38‧‧‧輸出部

Claims (11)

  1. 一種外國語文作成支援裝置,係為對於外國語之第1文章之作成作支援的外國語文作成支援裝置,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該外國語文作成支援裝置,其特徵為,係具備有:記憶手段,係記憶例文集和例文語料庫(corpus),該例文集,係包含有例文之組,該例文之組,係包含有前述外國語之例文以及與前述外國語之例文相對應的本國語之例文,該例文語料庫,係包含有與前述本國語之例文相對應的索引;和輸入手段,係受理輸入文的輸入,該輸入文,係為與前述第1文章相對應之本國語的第2文章;和語言解析實施手段,係對於受理了前述輸入之輸入文,而實施包含有形態要素解析以及構文解析之語言解析;和文法特徵抽出手段,係基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和檢索查詢(Query)產生手段,係基於前述所抽出的文法特徵,而產生檢索查詢;和輸出手段,係基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出例文之組,該例文之組,係包含有與符合於前述檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。
  2. 一種外國語文作成支援裝置,係為對於外國語之第 1文章之作成作支援的外國語文作成支援裝置,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該外國語文作成支援裝置,其特徵為,係具備有:記憶手段,係記憶例文集和例文語料庫(corpus),該例文集,係包含有前述外國語之例文,該例文語料庫,係包含有與前述外國語之例文相對應的索引;和輸入手段,係受理輸入文的輸入,該輸入文,係為外國語之第3文章;和語言解析實施手段,係對於受理了前述輸入之輸入文,而實施包含有形態要素解析之語言解析;和文法特徵抽出手段,係基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和檢索查詢(Query)產生手段,係基於前述所抽出的文法特徵,而產生檢索查詢;和輸出手段,係基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出與符合於前述檢索查詢之索引相對應的外國語之例文。
  3. 如申請專利範圍第2項所記載之外國語文作成支援裝置,其中,前述記憶手段,係記憶例文語料庫,該例文語料庫,係包含有例文集,該例文集,係更進而包含有與前述外國語之例文相對應的本國語之例文,前述輸出手段,係更進而輸出對應於與符合於前述檢索查詢之索引相對應的外國語之例文之本國語之例文。
  4. 如申請專利範圍第1項或第2項所記載之外國語文作成支援裝置,其中,前述檢索查詢產生手段,係基於前述文法特徵,而作成檢索查詢,並藉由將前述所作成了的檢索查詢擴張,而產生最終性之檢索查詢。
  5. 如申請專利範圍第4項所記載之外國語文作成支援裝置,其中,將前述檢索查詢擴張一事,係包含有對於該檢索查詢,而適用體言抽象化、同義語擴張、助詞擴張或者是自他動詞擴張之至少其中一者的操作。
  6. 如申請專利範圍第1項或第2項所記載之外國語文作成支援裝置,其中,前述文法特徵抽出手段,係更進而具備有:意義屬性解析部,係基於前述所實施了的語言解析之結果,來實施前述輸入文之意義屬性解析;和抽出部,係基於前述所實施了的意義屬性解析之結果,來抽出前述輸入文之文法特徵。
  7. 如申請專利範圍第6項所記載之外國語文作成支援裝置,其中,前述意義屬性解析之結果,係在各階層等級的每一者中而包含有前述輸入文之獨立詞的意義屬性,前述抽出部,係將包含有各前述階層等級之每一者的意義屬性之文法特徵抽出,前述檢索查詢產生手段,係對於適用在前述檢索查詢中之意義屬性的階層等級作選擇,並產生前述檢索查詢。
  8. 一種外國語文作成支援方法,係為在對於外國語之 第1文章之作成作支援的外國語文作成支援裝置中之外國語文作成支援方法,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該外國語文作成支援方法,其特徵為,係具備有:記憶工程,係記憶例文集和例文語料庫(corpus),該例文集,係包含有例文之組,該例文之組,係包含有前述外國語之例文以及與前述外國語之例文相對應的本國語之例文,該例文語料庫,係包含有與前述本國語之例文相對應的索引;和輸入工程,係受理輸入文的輸入,該輸入文,係為與前述第1文章相對應之本國語的第2文章;和語言解析實施工程,係對於受理了前述輸入之輸入文,而實施包含有形態要素解析以及構文解析之語言解析;和文法特徵抽出工程,係基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和檢索查詢(Query)產生工程,係基於前述所抽出的文法特徵,而產生檢索查詢;和輸出工程,係基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出例文之組,該例文之組,係包含有與符合於前述檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。
  9. 一種外國語文作成支援方法,係為在對於外國語之第1文章之作成作支援的外國語文作成支援裝置中之外國 語文作成支援方法,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該外國語文作成支援方法,其特徵為,係具備有:記憶工程,係記憶例文集和例文語料庫(corpus),該例文集,係包含有前述外國語之例文,該例文語料庫,係包含有與前述外國語之例文相對應的索引;和輸入工程,係受理輸入文的輸入,該輸入文,係為外國語之第3文章;和語言解析實施工程,係對於受理了前述輸入之輸入文,而實施包含有形態要素解析之語言解析;和文法特徵抽出工程,係基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和檢索查詢(Query)產生工程,係基於前述所抽出的文法特徵,而產生檢索查詢;和輸出工程,係基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出與符合於前述檢索查詢之索引相對應的外國語之例文。
  10. 一種電腦可讀取之記憶媒體,係為記憶有程式之非暫時性的電腦可讀取之記憶媒體,該程式,係藉由對於外國語之第1文章之作成作支援的外國語文作成支援裝置而被實行,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該電腦可讀取之記憶媒體,其特徵為:前述程式,係具備有: 第1程式碼,係用以記憶例文集和例文語料庫(corpus),該例文集,係包含有例文之組,該例文之組,係包含有前述外國語之例文以及與前述外國語之例文相對應的本國語之例文,該例文語料庫,係包含有與前述本國語之例文相對應的索引;和第2程式碼,係用以受理輸入文的輸入,該輸入文,係為與前述第1文章相對應之本國語的第2文章;和第3程式碼,係用以對於受理了前述輸入之輸入文,而實施包含有形態要素解析以及構文解析之語言解析;和第4程式碼,係用以基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和第5程式碼,係用以基於前述所抽出的文法特徵,而產生檢索查詢;和第6程式碼,係用以基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出例文之組,該例文之組,係包含有與符合於前述檢索查詢之索引相對應的本國語之例文以及與此本國語之例文相對應的外國語之例文。
  11. 一種電腦可讀取之記憶媒體,係為記憶有程式之非暫時性的電腦可讀取之記憶媒體,該程式,係藉由對於外國語之第1文章之作成作支援的外國語文作成支援裝置而被實行,該第1文章,係為由至少包含有獨立詞之複數的文節所成之文章,該電腦可讀取之記憶媒體,其特徵為:前述程式,係具備有: 第1程式碼,係用以記憶例文集和例文語料庫(corpus),該例文集,係包含有前述外國語之例文,該例文語料庫,係包含有與前述外國語之例文相對應的索引;和第2程式碼,係用以受理輸入文的輸入,該輸入文,係為外國語之第3文章;和第3程式碼,係用以對於受理了前述輸入之輸入文,而實施包含有形態要素解析之語言解析;和第4程式碼,係用以基於前述所實施了的語言解析之結果,來抽出前述輸入文之文法特徵;和第5程式碼,係用以基於前述所抽出的文法特徵,而產生檢索查詢;和第6程式碼,係用以基於前述所產生了的檢索查詢,來對於前述索引進行檢索,並輸出與符合於前述檢索查詢之索引相對應的外國語之例文。
TW104134199A 2014-11-04 2015-10-19 Foreign language production support facilities and methods TWI588668B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014224518A JP6466138B2 (ja) 2014-11-04 2014-11-04 外国語文作成支援装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
TW201636873A TW201636873A (zh) 2016-10-16
TWI588668B true TWI588668B (zh) 2017-06-21

Family

ID=55852848

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104134199A TWI588668B (zh) 2014-11-04 2015-10-19 Foreign language production support facilities and methods

Country Status (4)

Country Link
US (1) US10394961B2 (zh)
JP (1) JP6466138B2 (zh)
CN (1) CN105573990B (zh)
TW (1) TWI588668B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
US10346548B1 (en) * 2016-09-26 2019-07-09 Lilt, Inc. Apparatus and method for prefix-constrained decoding in a neural machine translation system
JP7106999B2 (ja) * 2018-06-06 2022-07-27 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
TWI666558B (zh) * 2018-11-20 2019-07-21 財團法人資訊工業策進會 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
DE112019006523T5 (de) * 2019-01-31 2021-09-23 Mitsubishi Electric Corporation Satzstrukturvektorisierungsvorrichtung, satzstrukturvektorisierungsverfahren und satzstrukturvektorisierungsprogramm
KR102339487B1 (ko) * 2019-08-23 2021-12-15 울산대학교 산학협력단 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016977B1 (en) * 1999-11-05 2006-03-21 International Business Machines Corporation Method and system for multilingual web server
US7212964B1 (en) * 2000-12-08 2007-05-01 At&T Corp. Language-understanding systems employing machine translation components
US7239998B2 (en) * 2001-01-10 2007-07-03 Microsoft Corporation Performing machine translation using a unified language model and translation model
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US7493602B2 (en) * 2005-05-02 2009-02-17 International Business Machines Corporation Methods and arrangements for unified program analysis
TWI385538B (zh) * 2008-07-18 2013-02-11 Inventec Corp 單詞擷取翻譯系統及其方法
TWI427976B (zh) * 2010-09-21 2014-02-21 Inventec Corp 提供多種語言同時進行翻譯轉換的即時通訊系統及其方法
TWI456414B (zh) * 2007-08-29 2014-10-11 Microsoft Corp 用於自動術語翻譯之一致確認之方法及系統
TWI457868B (zh) * 2008-03-12 2014-10-21 Univ Nat Kaohsiung 1St Univ Sc 機器翻譯譯文之自動修飾方法

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190972A (ja) * 1989-01-19 1990-07-26 Sharp Corp 用例検索システム
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JPH08501166A (ja) * 1992-09-04 1996-02-06 キャタピラー インコーポレイテッド 総合オーサリング及び翻訳システム
JPH06110929A (ja) * 1992-09-28 1994-04-22 Toshiba Corp データ検索装置
JPH07141382A (ja) 1993-11-19 1995-06-02 Sharp Corp 外国語文書作成支援装置
JPH10105555A (ja) * 1996-09-26 1998-04-24 Sharp Corp 対訳例文検索装置
JP2000516749A (ja) * 1997-06-26 2000-12-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 語構成源テキストを語構成目標テキストに翻訳する機械構成の方法及び装置
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
JP2000259627A (ja) 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US7389220B2 (en) * 2000-10-20 2008-06-17 Microsoft Corporation Correcting incomplete negation errors in French language text
JP2003006191A (ja) 2001-06-27 2003-01-10 Ricoh Co Ltd 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
AU2002316581A1 (en) * 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US7058567B2 (en) * 2001-10-10 2006-06-06 Xerox Corporation Natural language parser
JP2003228578A (ja) * 2002-02-01 2003-08-15 Canon Inc 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
JP4177070B2 (ja) * 2002-10-09 2008-11-05 富士通株式会社 文書検索装置
EP1560158A1 (en) * 2002-10-18 2005-08-03 Japan Science and Technology Agency Learning/thinking machine and learning/thinking method based on structured knowledge, computer system, and information generation method
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7949514B2 (en) * 2007-04-20 2011-05-24 Xerox Corporation Method for building parallel corpora
JP2007317140A (ja) * 2006-05-29 2007-12-06 Fuji Xerox Co Ltd 文一致度分析装置および方法、ならびに言語変換装置および方法
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP4417967B2 (ja) * 2007-02-22 2010-02-17 株式会社東芝 用例データベース及び用例検索システム
JP4971844B2 (ja) * 2007-03-16 2012-07-11 日本放送協会 用例データベース作成装置及び用例データベース作成プログラム、並びに、翻訳装置及び翻訳プログラム
JP5280642B2 (ja) * 2007-04-23 2013-09-04 株式会社船井電機新応用技術研究所 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
TWI496012B (zh) * 2007-11-26 2015-08-11 Warren Daniel Child 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
JP5043735B2 (ja) * 2008-03-28 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報分類システム、情報処理装置、情報分類方法およびプログラム
US8594992B2 (en) * 2008-06-09 2013-11-26 National Research Council Of Canada Method and system for using alignment means in matching translation
US8812304B2 (en) * 2008-08-12 2014-08-19 Abbyy Infopoisk Llc Method and system for downloading additional search results into electronic dictionaries
JP2010267019A (ja) * 2009-05-13 2010-11-25 Internatl Business Mach Corp <Ibm> 文書作成を支援する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US20100306203A1 (en) * 2009-06-02 2010-12-02 Index Logic, Llc Systematic presentation of the contents of one or more documents
US7969254B2 (en) * 2009-08-07 2011-06-28 National Instruments Corporation I/Q impairment calibration using a spectrum analyzer
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译***
US8484016B2 (en) * 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
US9026425B2 (en) * 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
JP6204923B2 (ja) * 2012-11-06 2017-09-27 株式会社テレコグニックス アセスメント装置、アセスメントシステム、アセスメント方法、及びプログラム
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
JP6096489B2 (ja) 2012-11-30 2017-03-15 株式会社東芝 外国語文章作成支援装置、方法、及びプログラム
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
JP6018932B2 (ja) * 2013-01-23 2016-11-02 株式会社エヌ・ティ・ティ・データ 用例検索装置、用例検索方法、および用例検索プログラム
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US20140358519A1 (en) * 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
JP2015022590A (ja) * 2013-07-19 2015-02-02 株式会社東芝 文字入力装置、文字入力方法、及び文字入力プログラム
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9652453B2 (en) * 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US9367541B1 (en) * 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016977B1 (en) * 1999-11-05 2006-03-21 International Business Machines Corporation Method and system for multilingual web server
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US7212964B1 (en) * 2000-12-08 2007-05-01 At&T Corp. Language-understanding systems employing machine translation components
US7239998B2 (en) * 2001-01-10 2007-07-03 Microsoft Corporation Performing machine translation using a unified language model and translation model
US7493602B2 (en) * 2005-05-02 2009-02-17 International Business Machines Corporation Methods and arrangements for unified program analysis
TWI456414B (zh) * 2007-08-29 2014-10-11 Microsoft Corp 用於自動術語翻譯之一致確認之方法及系統
TWI457868B (zh) * 2008-03-12 2014-10-21 Univ Nat Kaohsiung 1St Univ Sc 機器翻譯譯文之自動修飾方法
TWI385538B (zh) * 2008-07-18 2013-02-11 Inventec Corp 單詞擷取翻譯系統及其方法
TWI427976B (zh) * 2010-09-21 2014-02-21 Inventec Corp 提供多種語言同時進行翻譯轉換的即時通訊系統及其方法

Also Published As

Publication number Publication date
US20160124943A1 (en) 2016-05-05
CN105573990A (zh) 2016-05-11
JP6466138B2 (ja) 2019-02-06
CN105573990B (zh) 2019-09-27
US10394961B2 (en) 2019-08-27
TW201636873A (zh) 2016-10-16
JP2016091269A (ja) 2016-05-23

Similar Documents

Publication Publication Date Title
TWI588668B (zh) Foreign language production support facilities and methods
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译***
US8731901B2 (en) Context aware back-transliteration and translation of names and common phrases using web resources
De Melo Lexvo. org: Language-related information for the linguistic linked data cloud
US7630880B2 (en) Japanese virtual dictionary
Cotterell et al. An algerian arabic-french code-switched corpus
KR20130018205A (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN105183761A (zh) 敏感词替换方法和装置
Sezer TS corpus project: An online Turkish dictionary and TS DIY corpus
Şeker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
Tursun et al. Noisy Uyghur text normalization
Freihat et al. Towards an optimal solution to lemmatization in Arabic
Abdurakhmonova et al. Uzbek electronic corpus as a tool for linguistic analysis
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
Attia et al. Gwu-hasp: Hybrid arabic spelling and punctuation corrector
Randhawa et al. Study of spell checking techniques and available spell checkers in regional languages: a survey
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
Kaur et al. Toward normalizing Romanized Gurumukhi text from social media
Bouziane et al. Annotating Arabic Texts with Linked Data
Monahan et al. Lorify: A Knowledge Base from Scratch.
JP6203083B2 (ja) 未知語抽出装置及び未知語抽出方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees