JPH08249333A - Line dividing device for translation original text - Google Patents

Line dividing device for translation original text

Info

Publication number
JPH08249333A
JPH08249333A JP7051305A JP5130595A JPH08249333A JP H08249333 A JPH08249333 A JP H08249333A JP 7051305 A JP7051305 A JP 7051305A JP 5130595 A JP5130595 A JP 5130595A JP H08249333 A JPH08249333 A JP H08249333A
Authority
JP
Japan
Prior art keywords
line
format
read
lines
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7051305A
Other languages
Japanese (ja)
Inventor
Shunichi Yamada
俊一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7051305A priority Critical patent/JPH08249333A/en
Publication of JPH08249333A publication Critical patent/JPH08249333A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE: To provide a device which performs a line dividing processing for machine translation even when a format of itemization, ruled lines, etc., is set in the translation original text. CONSTITUTION: This device has an original text read means 12 which reads out all the lines forming the translation original text 10 ' in order, a format analyzing means 14 which judges whether or not a format is set for the read lines and discriminates the kind of the set format, an identical format setting area segmentation means 16 which segments lines which are successive in the read order and of the same kind of format, a 1st line writing means 18 which removes the format part from the segmented line range, retrieves a carriage return symbol or line end symbol from the head to the tail of all-line connection according to the kind of format, and writes characters up to each retrieved carriage return symbol or line end symbol as a single line, and a 2nd line writing means 20 which retrieves a line end symbol from the head to the tail of a line where no format is set, writes characters up to each line end symbol as a single line in order, and connect a following read line to the rest line part of the writing to form a new read line.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、機械翻訳にとって適切
な単位(行)へその原文を分割する装置に関するもので
ある。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device for dividing an original sentence into units (lines) suitable for machine translation.

【0002】機械翻訳の成功率は翻訳原文の行分割が適
切に行われたか否かで大きく変動し、このため、翻訳原
文の行分割の際にはあらゆる条件を考慮しながらその原
文内容を詳細に解析することが必要となる。
The success rate of machine translation varies greatly depending on whether or not the line segmentation of the translated original sentence is properly performed. Therefore, when the line segmentation of the translated original sentence is performed, the content of the original sentence is detailed while considering all conditions. It is necessary to analyze it.

【0003】[0003]

【従来の技術】図8では機械翻訳の手順がフローチャー
トを用いて説明されており、最初に翻訳原文の行分割が
行われ(ステップ800)、その処理で得られた原文に
対して省略語の挿入など、機械翻訳に適した文体にする
ための編集が施される(ステップ802)。
2. Description of the Related Art In FIG. 8, a procedure of machine translation is explained by using a flow chart. First, a line of a translated original sentence is divided (step 800), and an abbreviation is added to the original sentence obtained by the process. Editing such as insertion is performed to make the style suitable for machine translation (step 802).

【0004】省略語が編集作業により挿入された原文は
翻訳エンジンに引き渡されて翻訳され(ステップ80
4)、翻訳エンジンの出力した訳文内の不適切な部分が
編集作業で修正される(ステップ806)。
The original sentence in which the abbreviation is inserted by the editing work is delivered to the translation engine and translated (step 80).
4), an inappropriate portion in the translated text output by the translation engine is corrected by editing work (step 806).

【0005】図9では行分割の処理内容がフローチャー
トを用いて説明されており、最初に、疑似改行記号など
の無意味な記号をスキップしながら翻訳原文(ワードプ
ロセッサなどを用いて作成される)から1行を読み込む
(ステップ900)。
In FIG. 9, the processing contents of line division are explained using a flow chart. First, the translation original sentence (created by using a word processor) is skipped while skipping meaningless symbols such as pseudo line feed symbols. One line is read (step 900).

【0006】次に、読込行から行終端記号を検索し(ス
テップ904)、その位置までを1行として書き出し
(ステップ906)、読込行の終端に達したか否かを判
断する(ステップ908)。
Next, the line end symbol is searched from the read line (step 904), the position up to that position is written as one line (step 906), and it is determined whether the end of the read line has been reached (step 908). .

【0007】読込行の終端へ達していない場合(ステッ
プ908でNO)には、次の行終端記号を検索し(ステ
ップ904)、その行終端記号の位置までを1行として
書き出し(ステップ906)、読込行の終端に達したか
否かを再び判断する(ステップ908)。
When the end of the read line has not been reached (NO in step 908), the next line terminator is searched (step 904), and the position up to the line terminator is written as one line (step 906). , It is again judged whether or not the end of the read line has been reached (step 908).

【0008】読込行の終端へ達した場合(ステップ90
8でYES)には、翻訳原文の終端へ達したか否かを判
断し(ステップ910)、翻訳原文の終端へ達していな
い場合(ステップ910でNO)には、翻訳原文から次
の行を読み込む(ステップ900)。
When the end of the read line is reached (step 90)
If YES in step 8), it is determined whether or not the end of the translated original sentence has been reached (step 910). If the end of the translated original sentence has not been reached (NO in step 910), the next line from the translated original sentence is deleted. Read (step 900).

【0009】図10では行分割処理の作用が説明されて
おり、同図から理解されるように、翻訳原文から疑似改
行の記号が取り除かれ、行終端記号の1つとして取り扱
われるピリオド文字を区切りとしてピリオド文字+改行
記号までの1行が2行に分割される。
The operation of the line division processing is described in FIG. 10, and as can be understood from the figure, the pseudo-newline symbol is removed from the translated original sentence to separate the period characters treated as one of the line terminators. As one line up to the period character + line feed symbol is divided into two lines.

【0010】[0010]

【発明が解決しようとする課題】図11には具体的な翻
訳原文が、また図12にはその適切な翻訳結果が各々示
されている。
FIG. 11 shows a specific translated original sentence, and FIG. 12 shows an appropriate translation result.

【0011】図11において先頭となる行の”The
server iscomposed by the
following daemons:”は”:”を行
終端記号としてこの行をそのまま書き出すことで、正し
い翻訳結果が得られる(図12参照)。
In FIG. 11, the first line "The
server is composed by the
A correct translation result can be obtained by directly writing out this line using ":" as a line terminator for following daemons: "(see FIG. 12).

【0012】しかしながら、 1) English to Japanese tr
anslationserver daemon 2) Japanese to English tr
anslationserver daemon 3) Dictionary maintenance
serverdaemon の箇条書が行われた行部分については、それらの末尾に
行終端記号が付されていないので、正確な行分割処理が
行われず、その結果正しい翻訳結果が得られない。
However, 1) English to Japan tr
translation server daemon 2) Japanese to English tr
translation server daemon 3) Dictionary maintenance
Since the line terminator is not added to the end of the line parts for which the serverdaemon clause is made, accurate line division processing is not performed, and as a result, a correct translation result cannot be obtained.

【0013】さらに、 Key Function C−p Move cursor vertically up C−n Move cursor vertically down C−a Move cursor to beginning of current line C−e Move cursor to end of current line SPACE Fire の行部分は、罫線で囲まれており、各末尾に行終端記号
が付されていないので、正確な行分割処理が行われず、
正しい翻訳結果が得られない。
[0013] Further, the Key Function C-p Move cursor vertical re-curving line C-n is a C-a Move current vertical line C-n. Since it is enclosed and there is no line terminator at each end, accurate line splitting is not performed,
The correct translation result cannot be obtained.

【0014】そして、 Choose which directory yo
u want toinstall the serv
er.The server willbe inst
alled in a sub−directoryn
amed FSUNsrvr under the c
hosendirectory. For examp
le,if you havechosen /op
t,then server will beinst
alled in /opt/FSUNsrvr. の行部分についても、同部分の全体が疑似罫線(コメン
ト記号)で囲まれており、全ての行末尾に行終端記号が
付されていないので、正確な行分割処理が行われず、正
しい翻訳結果が得られない。
Then, choose while directory yo
u want to install the serv
er. The server willbe inst
alled in a sub-directorin
amed FSUNsrvr under der the c
housedirector. For examp
le, if you havechosen / op
t, then server will beinst
alled in / opt / FSUNsrvr. As for the line part of, the whole part is surrounded by pseudo ruled lines (comment marks) and no line terminator is added at the end of all lines, so correct line division processing is not performed and the correct translation result is obtained. Can't get

【0015】このため、行終端記号を挿入したり罫線を
削除する原文編集作業(図8_ステップ808)が機械
翻訳の前に行われ、したがって従来においては、正しい
翻訳文を得るまでに長時間を要していた。
For this reason, the original sentence editing operation (FIG. 8_step 808) of inserting the line terminator and deleting the ruled line is performed before the machine translation. Therefore, conventionally, it takes a long time to obtain a correct translated sentence. I needed it.

【0016】本発明は上記従来の事情に鑑みてなされた
ものであり、箇条書,罫線などの書式が翻訳原文に設定
されていた場合であっても機械翻訳に最適な行分割の処
理を行える装置の提供を目的とする。
The present invention has been made in view of the above-mentioned conventional circumstances, and is an apparatus capable of performing line division processing optimal for machine translation even when formats such as bullets and ruled lines are set in the translation source text. For the purpose of providing.

【0017】[0017]

【課題を解決するための手段】図1において、翻訳原文
10を形成する行の全てを順に読み出す原文行読出手段
12と、読み出された行に書式が設定されているか否か
を判断し、設定されている書式の種別を判別する書式解
析手段14と、読み出しの順序上で連続しかつ書式の種
別が同一な行を切り出す同一書式設定領域切出手段16
と、切り出された行範囲より書式部分を取り除き、全行
連結の先頭から後尾へ向かい書式の種別に応じて改行記
号または行終端記号を検索し、検索した各改行記号また
は行終端記号までを単一行として順に書き出す第1の行
書出手段18と、書式が設定されていない行の先頭から
後尾へ向かい行終端記号を検索して各行終端記号までを
単一行として順に書き出し、書出残りの行部分に後続の
読出行を連結して新たな読出行とする第2の行書出手段
20と、を有する。
In FIG. 1, an original sentence line reading means 12 for sequentially reading all the lines forming a translated original sentence 10 and a judgment is made as to whether or not a format has been set for the read lines, The format analysis means 14 for discriminating the type of the set format, and the same format setting area cutting means 16 for cutting out the lines which are continuous in the reading order and have the same format type
Then, remove the format part from the cut line range, search from the beginning of all line concatenation to the end and search for a line feed symbol or line termination symbol according to the type of format, and search for each line feed symbol or line termination symbol searched. A first line writing means 18 for writing in sequence as one line, and a line terminator is searched for from the beginning of the unformatted line to the end of the line, and each line terminator is sequentially written out as a single line. And a second line writing means 20 for connecting a subsequent read line to a new read line.

【0018】[0018]

【作用】例えば図10に示された翻訳原文の場合、書式
が設定されていないので、本発明にかかる装置は従来と
同様な行分割を行う。
For example, in the case of the translated original text shown in FIG. 10, since the format is not set, the apparatus according to the present invention performs line division similar to the conventional one.

【0019】すなわち、疑似改行記号までを単一行とし
て逐次読出を行い、最初の読出行においては途中で行終
端記号のピリオドが検出されることから、その位置まで
を1行として書き出し、これ以降の行部分に2行目を連
結し、連結したものを新たな読出行とする。
That is, the lines up to the pseudo-newline symbol are read as a single line, and the period of the line terminator is detected in the middle of the first read line. Therefore, the line up to that position is written as one line, and the subsequent lines are written. The second line is connected to the line portion, and the connected line is used as a new read line.

【0020】同読出行には行終端記号が存在していない
ので、3行目を連結すると、行終端にピリオドが検索さ
れ、したがって、1行目のピリオド以降から3行目の終
端までが1行として書き出される。
Since there is no line terminator in the read line, when the third line is concatenated, a period is searched for at the line end. Therefore, from the period after the first line to the end of the third line is 1 Written as a line.

【0021】なお、以後の行についても同様な処理が行
われ、疑似改行などの無意味な記号は行読出時にスキッ
プしても良く、書出時または書出後においてそれらを削
除しても良い。
The same processing is performed for the subsequent lines, meaningless symbols such as pseudo line feed may be skipped at the time of reading the line, or may be deleted at the time of writing or after writing. .

【0022】図11に示された翻訳原文の場合、先頭行
の”The server iscomposed b
y the following daemons:”
には書式が設定されておらず、したがって、”:”を行
終端記号とすることでこの行はそのまま書き出される
(図12参照)。
In the case of the translated original text shown in FIG. 11, the first line "The server is composed b"
y the following daemons: ”
Has no format set, so this line is written as is by using ":" as the line terminator (see FIG. 12).

【0023】次の 1) English to Japanese tr
anslationserver daemon については、行先頭がインデントされており、行先頭に
項番”1)”が付されていることから、書式が設定され
ていること及びその書式が箇条書のものであることが認
識される。
[1] The following 1) English to Japan tr
Regarding the "answerserver daemon", the line head is indented, and the item number "1)" is added to the head of the line. Therefore, it is recognized that the format is set and that the format is a clause. It

【0024】書式が設定されているので、3行目の 2) Japanese to English tr
anslationserver daemon が読み込まれる。
Since the format is set, 2) Japanese to English tr on the 3rd line
The translation server daemon is loaded.

【0025】さらに、3行目にも同一の書式が設定され
ているので、4行目の 3) Dictionary maintenance
serverdaemon も読み込まれ、4行目にも同一の書式が設定されている
ことから、5行目の罫線行が読み込まれる。
Furthermore, since the same format is set in the third line, 3) Dictionary maintenance in the fourth line
Since the serverdaemon is also read and the same format is set for the fourth line, the fifth ruled line is read.

【0026】この5行目には書式が設定されているもの
の、その種別が異なるので、 1) English to Japanese tr
anslationserver daemon 2) Japanese to English tr
anslationserver daemon 3) Dictionary maintenance
serverdaemon が同一書式の設定されている領域として切り出される。
Although the format is set in the fifth line, the type is different, so 1) English to Japanese tr
translation server daemon 2) Japanese to English tr
translation server daemon 3) Dictionary maintenance
The serverdaemon is cut out as an area having the same format.

【0027】本発明においては、文分割処理の際に文書
の書式が考慮される。すなわち、箇条書の場合には行末
にピリオドなどの行終端記号がなくても、改行記号が行
末の区切りとされ、”1) English to J
apanese translation serve
r daemon”,” 2) Japaneseto
English translation serv
er daemon”,” 3) Dictionar
y maintenance serverdaemo
n”が各々1行として順に書き出される。
In the present invention, the document format is taken into consideration during the sentence division processing. That is, in the case of a bullet point, even if there is no line terminator such as a period at the end of a line, the line feed symbol is used as a delimiter at the end of the line, and "1) English to J"
apanese translation service
r daemon ”,” 2) Japaneseto
English translation serv
er daemon ”,” 3) Dictionar
y maintenance serverdaemo
n ″ is written out as one line each.

【0028】なお、書式に関する情報は別に保存し、翻
訳結果に反映させることが好ましい。
It is preferable that the information regarding the format is separately stored and reflected in the translation result.

【0029】次の5行目から13行目までは罫線で囲ま
れた領域であること、そして行末に不自然な余白がある
ことや行終端記号とみなせる文字が含まれないことが認
識され、改行記号を文末とするのが適切と判断される。
このため、罫線を除去し、かつ改行記号までを1行とし
た形で、 Key Function C−p Move cursor vertically up C−n Move cursor vertically down C−a Move cursor to beginning of current line C−e Move cursor to end of current line SPACE Fire が順に書き出される。
It is recognized that the following 5th to 13th lines are areas surrounded by ruled lines, that there is an unnatural margin at the end of the line, and that no character that can be regarded as a line terminator is included. It is considered appropriate to end the sentence with a line feed symbol.
For this reason, the ruled line is removed, and the line up to the line feed symbol is defined as one line. Key Function C-p moving cursor vertically C-n Move cursor vertically moving c-a moving curbing The cursor to end of current line SPACE Fire is written in order.

【0030】そして14行目から20行目までは、疑似
罫線で囲まれたコメント領域と認識される。この領域に
おいては、行末に不自然な余白がなく、また行終端末記
号とみなせるピリオドが存在する。このため、 ”Choose which directory y
ou want toinstall the ser
ver. The server willbe in
stalled in a sub−director
ynamed FSUNsrvr under the
chosendirectory. For exa
mple,if you havechosen /o
pt,then server will beins
talled in /opt/FSUNsrvr.” のように各行が順に連結した形とされ(実際に連結する
必要はない)、先頭より行終端記号のピリオド”.”が
逐次検索され、そのピリオド”.”を区切りとして”C
hoose which directory you
want toinstall the serve
r.”,”The serverwill be in
stalled in a sub−director
ynamed FSUNsrvr under the
chosendirectory.”,”For e
xample,if you havechosen
/opt, then server will be
installed in /opt/FSUNsrv
r.”が各々1行として順に書き出される。
The 14th to 20th lines are recognized as comment areas surrounded by pseudo ruled lines. In this area, there is no unnatural space at the end of the line, and there is a period that can be regarded as a line terminator. Therefore, "Choose while directory y"
ou want to install the ser
ver. The server willbe in
installed in a sub-director
named FSUNsrvr under the
chosendirectory. For exa
mple, if you havechosen / o
pt, then server will beans
talled in / opt / FSUNsrvr. Each line is connected in order like “” (it is not necessary to actually connect), and the period of the line terminator from the beginning ”. “Sequentially searched for that period”. "C as a delimiter"
hose while directory you
want to install the serve
r. "," The serverwill be in
installed in a sub-director
named FSUNsrvr under the
chosendirectory. "," For e
xsample, if you havechosen
/ Opt, then server will be
installed in / opt / FSUNsrv
r. ”Are written in order as one line each.

【0031】以上のように、翻訳原文中の書式設定部分
を考慮した行分割が行われるので、より正確に一文を切
り出すことができるようになり、行終端記号の挿入,罫
線削除などの原文編集作業を機械翻訳の前に行うことが
不要となる。
As described above, since line division is performed in consideration of the format setting part in the translated original sentence, one sentence can be cut out more accurately, and original sentence editing such as insertion of line terminator and ruled line deletion is performed. There is no need to do work before machine translation.

【0032】[0032]

【実施例】図2において、複数のワードプロセッサ20
0,端末コンピュータ202がホストコンピュータ20
4とネットワーク接続されており、ワードプロセッサ2
00の操作で翻訳原文が入力される。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT Referring to FIG.
0, the terminal computer 202 is the host computer 20
4 and networked, word processor 2
The original translation is input by the operation of 00.

【0033】これらの翻訳原文はホストコンピュータ2
06に引き渡され、ハードディスク208に格納され
る。そして、翻訳原文はホストコンピュータ204によ
り機械翻訳され、翻訳文は再びハードディスクに格納さ
れる。
These translated original texts are provided by the host computer 2.
06, and is stored in the hard disk 208. The translated original text is machine translated by the host computer 204, and the translated text is stored again in the hard disk.

【0034】この翻訳処理は端末コンピュータ202の
要求に応じて行われる。ただし、行分割処理には2つの
モードが用意されており、ユーザは端末コンピュータ2
02を操作していずれかのモードを指定する。
This translation process is performed in response to a request from the terminal computer 202. However, two modes are prepared for the line division processing, and the user can use the terminal computer 2
Operate 02 to specify one of the modes.

【0035】図3では第1の行分割モードが説明されて
おり、書式判別処理300は翻訳原文10からその各行
を順に読み出し、読出行に書式が設定されているか否か
を判断し、設定されている書式の種別を判別し、読み出
した行に書式が設定されてない場合には、デフォルト処
理302_0を起動し、同デフォルト処理302_にこ
の行を引き渡す。
In FIG. 3, the first line division mode is explained. The format discrimination processing 300 reads each line from the translated original sentence 10 in order, judges whether or not the read line has a format, and sets it. If the format of the read line is not set, the default process 302_0 is activated and this line is handed over to the default process 302_.

【0036】デフォルト処理302_0は引き渡された
行の先頭から後尾へ向かい行終端記号を検索し、各行終
端記号までを1行として順にファイル304(変換後の
翻訳原文)へ書き出し、書出残りの行部分に後続の読出
行を連結して新たな読出行とする。
The default process 302_0 searches for the line terminator from the head of the delivered line to the tail, writes each line terminator as one line in order to the file 304 (translated original text after conversion), and writes the remaining lines. The subsequent read row is connected to the part to form a new read row.

【0037】また読み出した行に書式が設定されていた
場合、書式判別処理300は読み出しの順序上で連続し
かつ書式の種別が同一な行を切り出し、判別した書式の
種別に対応した処理302_1,302_2・・・また
は302_nを起動し、切り出した行範囲を同処理30
2_1,302_2・・・または302_nに引き渡
す。
When a format is set in the read line, the format discrimination processing 300 cuts out rows that are continuous in the reading order and have the same format type, and the processing 302_1 corresponding to the determined format type. 302_2 ... Or 302_n is started, and the cut-out line range is processed 30
2_1, 302_2 ... or 302_n.

【0038】起動された処理302_1,302_2・
・・または302_nは引き渡された行範囲より書式部
分を取り除き、全行連結の先頭から後尾へ向かい書式の
種別に応じて改行記号または行終端記号を検索し、検索
した各改行記号または行終端記号までを1行としてファ
イル304へ順に書き出す。
Started processes 302_1, 302_2 ・
.. or 302_n removes the format part from the passed line range, searches from the beginning to the end of all line concatenations for line feed symbols or line termination symbols according to the type of format, and retrieves each line feed symbol or line termination symbol Are sequentially written to the file 304 as one line.

【0039】図4では第1の行分割モードにおける処理
手順がフローチャートを用いて説明されており、翻訳原
文10の終端となるまで、その翻訳原文10の各行が順
に読み出される(ステップ400,402)。
In FIG. 4, the processing procedure in the first line division mode is described using a flowchart, and each line of the translated original sentence 10 is sequentially read until the end of the translated original sentence 10 (steps 400, 402). .

【0040】書式判別処理300は行の読み出し毎に書
式が同読出行で設定されているか否かを判断し(ステッ
プ404)、書式が設定されていない場合には(ステッ
プ404でNO)、デフォルト処理302_0を起動
し、読出行をこれに引き渡す(ステップ406:2回目
以降はデフォルト処理302を起動せず、単に読出行を
引き渡す)。
Each time the line is read, the format discrimination processing 300 determines whether or not the format is set in the read row (step 404). If the format is not set (NO in step 404), the default is set. The process 302_0 is activated and the read line is delivered to it (step 406: the default process 302 is not activated after the second time, and the read line is simply delivered).

【0041】図10に示された翻訳原文の場合は、疑似
改行記号までが1行として読み出され、その際に書式が
同読出行に設定されていないことが確認され、デフォル
ト処理302_0が起動され、この読出行が同デフォル
ト処理302_0へ引き渡される。
In the case of the translated original text shown in FIG. 10, the line up to the pseudo-newline symbol is read as one line, it is confirmed that the format is not set in the read line, and the default process 302_0 is activated. Then, this read row is delivered to the default process 302_0.

【0042】デフォルト処理302_0は、最初の読出
行の途中で行終端記号のピリオドを検出し、その位置ま
でを1行としてファイル304へ書き出し、これ以降の
読出行部分を保持する。
The default process 302_0 detects the period of the line terminator in the middle of the first read line, writes up to that position as one line in the file 304, and retains the read line portions thereafter.

【0043】次回に図10の2行目が引き渡されると、
保持中の内容にこの2行目を連結し、連結したものを新
たな読出行とする。その新たな読出行には行終端記号が
存在していないので、これを保持し、図10の3行目が
引き渡されると、保持内容にこの3行目を連結し、連結
したものを新たな読出行とする。
Next time the second line in FIG. 10 is delivered,
The second line is connected to the contents being held, and the connected line becomes a new read line. Since the line terminator does not exist in the new read line, it is held, and when the third line of FIG. 10 is handed over, the third line is connected to the held contents and the concatenated one is newly added. Read out.

【0044】3行目が引き渡された際には、行終端で文
終端のピリオドを検出するので、図10の1行目におけ
るピリオド以降から3行目の終端までを1行としてファ
イル304へ書き出す。
When the third line is handed over, the period at the end of the sentence is detected at the end of the line, so the lines from the period after the first line in FIG. 10 to the end of the third line are written to the file 304 as one line. .

【0045】図10の以後の行についても同様な処理が
行われ、行読込時にファイル終端やエラーが検出された
ときには、保持していた内容をファイル304へ書き出
して処理を終了する。
Similar processing is performed for the subsequent lines in FIG. 10. When the end of the file or an error is detected when reading the line, the held contents are written to the file 304 and the process ends.

【0046】また図11に示された翻訳原文の場合で、
先頭の”The serveris composed
by the following daemon
s:”が読み出されたときには、これに書式が設定され
てこと、及び最後の”:”が行終端記号であることを書
式判別処理300が確認し、デフォルト処理302_0
はその読出行をファイル304へ書き出す。
In the case of the translated original sentence shown in FIG. 11,
"The server composed" at the top
by the following daemon
When s: "is read, the format discrimination processing 300 confirms that the format is set in this and that the last": "is the line terminator, and the default processing 302_0
Writes the read line to the file 304.

【0047】ここで、翻訳原文10から読み出した行に
書式が設定されていた場合(ステップ404でYE
S)、その読出行を保存してから次の行を直ちに読み出
し(ステップ406)、新たな読出行に同一の書式が設
定されているか否かを判断する(ステップ408)。
Here, when the format is set in the line read from the translated original sentence 10 (YE in step 404).
S) Then, after saving the read line, the next line is immediately read (step 406) and it is judged whether or not the same format is set in the new read line (step 408).

【0048】同一の書式が設定されていたときにはその
読出行を保存してからさらに次の行を読み出し、この行
読出は書式が不一致となるまで(書式が設定されていな
いものも含む)、連続して行う(ステップ406,40
8)。
When the same format has been set, the read line is saved and the next line is read, and this line read is continued until the formats do not match (including the format not set). (Steps 406 and 40)
8).

【0049】そして、読み出した行の書式が保存中の読
出行と異なるとき(ステップ408でNO)には、保存
中の読出行について設定されていた書式と対応の処理3
02_1,302_2・・・または302_nを起動
し、保存中の読出行の全てを同処理302_1,302
_2・・・または302_nに引き渡す(ステップ41
0)。
When the format of the read line is different from the stored read line (NO in step 408), the process 3 corresponding to the set format of the stored read line is performed.
02_1, 302_2 ... Or 302_n is started, and all the read lines being saved are processed in the same process 302_1, 302
_2 ... or 302_n (step 41
0).

【0050】起動された処理302_1,302_2・
・・または302_nは引き渡された各読出行より書式
設定の部分を除去してから、例えば以下のように、全行
連結の後尾へ向かい書式の種別に応じて改行記号または
行終端記号を検索し、検索した各改行記号または行終端
記号までを1行としてファイル304へ書き出す。
Started processes 302_1, 302_2 ・
.. or 302.sub .-- n removes the formatting part from each delivered read line and then searches for a line feed or line terminator depending on the type of format, such as , The retrieved line feed symbols or line termination symbols are written as one line in the file 304.

【0051】図11における2行目の 1) English to Japanese tr
anslationserver daemon を読み出した際に、書式判別処理300は、行先頭がイ
ンデントされており、行先頭に項番”1)”が付されて
いることから、書式が設定されていること及びその書式
が箇条書のものであることを認識し、このため、3行目
の 2) Japanese to English tr
anslationserver daemon を読み込む。
The second line in FIG. 11: 1) English to Japanese tr
When the conversion server daemon is read out, the format discrimination processing 300 indicates that the line has been indented at the beginning of the line and the item number “1)” has been added to the beginning of the line. Recognizing that it is a bulleted article, for this reason, the second line 2) Japanese to English tr
Load the translation server daemon.

【0052】さらに、3行目にも同一の書式が設定され
ているので、4行目の 3) Dictionary maintenance
serverdaemon も読み込み、4行目にも同一の書式が設定されているこ
とから、5行目の罫線行も読み込む。
Furthermore, since the same format is set in the third line, 3) Dictionary maintenance in the fourth line
The serverdaemon is also read, and the same format is set for the fourth line, so the fifth ruled line is also read.

【0053】その5行目には箇条書とは異なる表形式の
ものの書式が設定されているので、書式判別処理300
は 1) English to Japanese tr
anslationserver daemon 2) Japanese to English tr
anslationserver daemon 3) Dictionary maintenance
serverdaemon の3行を処理302_1,302_2・・・または30
2_n(箇条書きの原文部分に関する行分割を実行する
もの)に引き渡す。
On the fifth line, the format of the table format different from the itemized list is set, so the format discrimination processing 300
1) English to Japan tr
translation server daemon 2) Japanese to English tr
translation server daemon 3) Dictionary maintenance
Process three lines of serverdaemon 302_1, 302_2 ... Or 30
2_n (which executes line division for the original sentence of the bullet).

【0054】この処理302_1,302_2・・・ま
たは302_nは引き渡された3行の末尾に付された改
行記号を行末の区切りとして認識し、それら3行の”
1)English to Japanese tra
nslationserver daemon”,”
2) Japanese toEnglish tra
nslation server daemon”,”
3) Dictionary maintenance
serverdaemon”を各々1行として、ファ
イル304へ順に書き出す(図5_ステップ508,5
10)。
This process 302_1, 302_2 ... Or 302_n recognizes the line feed symbol added to the end of the delivered three lines as a line end delimiter, and
1) English to Japan tra
nslationserver daemon ","
2) Japan to English tra
nslation server daemon ","
3) Dictionary maintenance
"serverdaemon" as one line each, and sequentially writes to the file 304 (FIG. 5_steps 508, 5
10).

【0055】書式部分は書出出力から取り除き(図5_
ステップ500,502,504,506)、別ファイ
ルに保存し(同一ファイルへ保存しても良い)、翻訳結
果に反映させる(図12参照)。
The format part is removed from the export output (Fig. 5_).
(Steps 500, 502, 504, 506), save in another file (may save in the same file), and reflect in the translation result (see FIG. 12).

【0056】図11における2行目〜4行目を引き渡す
と、書式判別処理300は最後に読み出した5行目を先
頭の読込行としてから(ステップ412)、後続の6行
目〜14行目までを連続して読み込む(ステップ40
6)。
When the second to fourth lines in FIG. 11 are delivered, the format discrimination processing 300 sets the last read fifth line as the first read line (step 412), and then the subsequent sixth to fourteenth lines. Are read continuously (Step 40
6).

【0057】書式判別処理300は罫線で囲まれ、行末
に不自然な余白がある領域の行分割を実行する別の処理
302_1,302_2・・・または302_nを起動
し、14行目を残して5行目〜13行目を引き渡す(ス
テップ410)。
In the format discrimination processing 300, another processing 302_1, 302_2 ... Or 302_n for executing line division of an area surrounded by ruled lines and having an unnatural margin at the end of the line is started, and the 14th line is left. The lines 13 to 13 are delivered (step 410).

【0058】5行目〜13行目が引き渡された処理30
2_1,302_2・・・または302_nは、罫線を
除去し、 Key Function C−p Move cursor vertically up C−n Move cursor vertically down C−a Move cursor to beginning of current line C−e Move cursor to end of current line SPACE Fire の後尾に付された改行記号までを1行とし、それらをフ
ァイル304へ順に書き出す(図5参照)。
Process 30 in which the 5th to 13th lines are passed
2_1, 302_2, ... The line up to the line feed symbol added to the tail of line SPACE Fire is regarded as one line, and these are sequentially written to the file 304 (see FIG. 5).

【0059】そして書式判別処理300は最後の14行
目を先頭の読込行としてから(ステップ412)、後続
の15行目〜20行目まで(ファイル終端とならない場
合は、さらに次の21行目またはそれ以降まで)を、連
続して読み込む(ステップ406)。
In the format discrimination processing 300, the last 14th line is set as the first read line (step 412), and the subsequent 15th to 20th lines (if the end of the file is not reached, the next 21st line is further read). (Or after that) is read continuously (step 406).

【0060】これら14行目〜20行目は疑似罫線で囲
まれたコメント領域の行分割を行う他の処理302_
1,302_2・・・または302_nに引き渡され、
その処処理302_1,302_2・・・または302
_nは、コメント文が罫線で囲まれており、行末に不自
然な余白がないので、 ”Choose which directory y
ou want toinstall the ser
ver. The server willbe in
stalled in a sub−director
ynamed FSUNsrvr under the
chosendirectory. For exa
mple,if you havechosen /o
pt, then server will bein
stalled in /opt/FSUNsrv
r.” のように各行が順に連結した形とし(実際に連結する必
要はない)、先頭より行終端記号のピリオド”.”を逐
次検索し、そのピリオド”.”で行を区切り、” Choose which directory yo
u want toinstall the serv
er.”,” The serverwill be
installed in asub−directo
ry named FSUNsrvr underth
e chosen directory.”,”For
example, if you have cho
sen /opt,then server will
be installed in /opt/FSU
Nsrvr. ”を各々1行としてファイル304へ順
に書き出す。
These 14th to 20th lines are other processing 302_ for dividing the comment area surrounded by pseudo ruled lines into lines.
1,302_2 ... or 302_n,
Processing 302_1, 302_2 ... Or 302
In _n, the comment sentence is surrounded by ruled lines, and there is no unnatural margin at the end of the line. Therefore, “choose while directory y
ou want to install the ser
ver. The server willbe in
installed in a sub-director
named FSUNsrvr under the
chosendirectory. For exa
mple, if you havechosen / o
pt, then server will bein
stalled in / opt / FSUNsrv
r. As in ", each line is connected in order (it is not necessary to actually connect), and the period of the line terminator from the beginning". "Sequential search for the period". "Separate lines with" Choose while directory directory yo
u want to install the serv
er. "," The serverwill be
installed in assub-directo
ry named FSUNsrvrunderth
e choosen directory. "," For
example, if you have cho
sen / opt, then server server will
be installed in / opt / FSU
Nsrvr. , “1” each as one line and sequentially written to the file 304.

【0061】図6では第2の行分割モードが説明されて
おり、規則選択処理600は翻訳原文10から行を読み
出し、読み出した行の書式をデータベース602からサ
ーチし、該当の規則604_0,604_1,604_
2・・・または604_nをデータベース602から抽
出し、読み出した行と抽出した規則604_0,604
_1,604_2・・・または604_n規則とを行分
割実行処理606に引き渡す。
In FIG. 6, the second line division mode is described. The rule selection processing 600 reads a line from the translated original sentence 10, searches the format of the read line from the database 602, and then the corresponding rule 604_0, 604_1, 604_
2 ... or 604_n is extracted from the database 602, the read row and the extracted rule 604_0, 604
-1, 604_2 ... Or 604_n rule is passed to the line division execution processing 606.

【0062】これらの規則604_0,604_1,6
04_2・・・または604_nが引き渡されると、行
分割実行処理606は図3の処理302_0,302_
1,302_2・・・または302_nに相当した内容
の処理を行い、処理結果をファイル304へ書き出す。
These rules 604_0, 604_1, 6
04_2 ... Or 604_n is passed, the line division execution processing 606 is the processing 302_0, 302_ of FIG.
1, 302_2 ... Or 302_n is processed, and the processing result is written to the file 304.

【0063】図7においては第2の行分割モードにおけ
る処理手順が説明されており、規則選択処理60は翻訳
原文10から読み出した行に書式が設定されていない場
合、デフォルト規則604_0をデータベース602か
ら抽出し、読出行とともに行分割実行処理606へ引き
渡す(ステップ402,700,702)。
In FIG. 7, the processing procedure in the second line division mode is described. In the rule selection processing 60, when the line read from the translated original sentence 10 is not formatted, the default rule 604_0 is read from the database 602. The data is extracted and delivered to the line division execution processing 606 together with the read line (steps 402, 700, 702).

【0064】行分割実行処理606はデフォルト規則6
04_0に従いデフォルト処理302_0と同様な内容
の処理を行い、その処理で得られた行をファイル304
へ書き出す。
The line division execution processing 606 is the default rule 6
In accordance with 04_0, the same processing as the default processing 302_0 is performed, and the line obtained by the processing is stored in the file 304
Write to.

【0065】また翻訳原文10から読み出した行に書式
が設定されていた場合、書式が異なるものとなるまで行
の読出を継続し(ステップ700,406、408)、
読出行の全て(最終行は除く)とこれらの行で設定され
ていた書式に対応した規則604_1,604_2・・
・または604_nを行分割実行処理606へ引き渡
し、残りの最終行部分が生じたときにはこれを先頭読出
の行とする(ステップ704,412)。
If the line read from the translated original sentence 10 has a format, the line is continuously read until the format becomes different (steps 700, 406, 408).
All the read lines (excluding the last line) and the rules 604_1, 604_2 corresponding to the format set in these lines.
Or 604_n is passed to the line division execution processing 606, and when the remaining final line portion occurs, this is set as the line of the first read (steps 704 and 412).

【0066】行分割実行処理606は規則604_1,
604_2・・・または604_nに従い処理302_
1,302_2・・・または302_nと同様な処理を
行い、その処理で得られた行をファイル304へ書き出
す。
The line division execution processing 606 is rule 604_1,
604_2 ... or processing 302_ according to 604_n
The same process as 1, 302_2 ... Or 302_n is performed, and the line obtained by the process is written to the file 304.

【0067】この第2の行分割モードによれば、ユーザ
またはシステムの管理者がデータベース602を操作し
て行分割の処理内容を自由に変更したり追加することが
可能となる。
According to the second line division mode, the user or system administrator can operate the database 602 to freely change or add the line division processing contents.

【0068】以上説明したように本実施例によれば、翻
訳原文に箇条書,表,コメントなどが挿入されていて
も、これらの書式設定部分を考慮した行分割が行われる
ので、行終端記号を挿入したり罫線を削除する翻訳原文
の編集作業を機械翻訳の前に行うことがほぼ不要とな
る。
As described above, according to the present embodiment, even if items such as bullets, tables, and comments are inserted in the translated original sentence, line division is performed in consideration of these formatting parts. It becomes almost unnecessary to edit the translation source text that inserts or deletes ruled lines before machine translation.

【0069】したがって、正しい翻訳文をきわめて容易
に、より効率良く得ることが可能となる。その結果、多
くの表が挿入された翻訳原文の場合、正しい翻訳結果を
得るまでに要する時間が約半分に短縮される。しかも、
追加のプログラム量がわずかであることから(数百
行)、ユーザに多大な費用負担を強いることがない。
Therefore, it is possible to obtain a correct translated sentence very easily and efficiently. As a result, in the case of a translation source text in which many tables are inserted, the time required to obtain a correct translation result is reduced to about half. Moreover,
Since the amount of additional programs is small (several hundred lines), it does not impose a large cost on the user.

【0070】[0070]

【発明の効果】以上説明したように本発明によれば、翻
訳原文中の書式設定部分を考慮した行分割が行われるの
で、ユーザの編集作業量を大幅に削減して機械翻訳の効
率を著しく高めることが可能となる。
As described above, according to the present invention, the line division is performed in consideration of the format setting portion in the translation original sentence, so that the editing work amount of the user is significantly reduced and the efficiency of machine translation is significantly improved. It is possible to raise it.

【図面の簡単な説明】[Brief description of drawings]

【図1】発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the invention.

【図2】実施例の構成説明図である。FIG. 2 is a diagram illustrating the configuration of an embodiment.

【図3】第1行分割モードの説明図である。FIG. 3 is an explanatory diagram of a first row division mode.

【図4】第1行分割モードの処理手順を説明するフロー
チャートである。
FIG. 4 is a flowchart illustrating a processing procedure in a first line division mode.

【図5】行分割実行時の処理手順を説明するフローチャ
ートである。
FIG. 5 is a flowchart illustrating a processing procedure when executing line division.

【図6】第2行分割モードの説明図である。FIG. 6 is an explanatory diagram of a second row division mode.

【図7】第1行分割モードの処理手順を説明するフロー
チャートである。
FIG. 7 is a flowchart illustrating a processing procedure in a first line division mode.

【図8】翻訳の作業手順を説明するフローチャートであ
る。
FIG. 8 is a flowchart illustrating a translation work procedure.

【図9】行分割処理の内容を説明するフローチャートで
ある。
FIG. 9 is a flowchart illustrating the contents of line division processing.

【図10】行分割処理の作用説明図である。FIG. 10 is an operation explanatory view of line division processing.

【図11】具体的な原文の内容説明図である。FIG. 11 is a specific content description diagram of an original sentence.

【図12】具体的な原文翻訳結果の説明図である。FIG. 12 is an explanatory diagram of a specific original text translation result.

【符号の説明】[Explanation of symbols]

10 翻訳原文 200 ワードプロセッサ 202 端末コンピュータ 206 ホストコンピュータ 208 ハードディスク 300 書式判別処理 302_1,302_2・・・302_n 行分割及び
行書出の処理 304 行分割結果が格納されるファイル 600 規則選択処理 602 データベース 604_0,604_1,604_2・・・604_n
行分割の規則 606 行分割実行処理
10 translation original text 200 word processor 202 terminal computer 206 host computer 208 hard disk 300 format discrimination processing 302_1, 302_2 ... 302_n line division and line writing processing 304 file in which the result of line division is stored 600 rule selection processing 602 database 604_0, 604_1, 604_2 ... 604_n
Line breaking rule 606 Line breaking execution process

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 翻訳原文を形成する行の全てを順に読み
出す原文行読出手段と、 読み出された行に書式が設定されているか否かを判断
し、設定されている書式の種別を判別する書式解析手段
と、 読み出しの順序上で連続しかつ書式の種別が同一な行を
切り出す同一書式設定領域切出手段と、 切り出された行範囲より書式部分を取り除き、全行連結
の先頭から後尾へ向かい書式の種別に応じて改行記号ま
たは行終端記号を検索し、検索した各改行記号または行
終端記号までを単一行として順に書き出す第1の行書出
手段と、 書式が設定されていない読出行の先頭から後尾へ向かい
行終端記号を検索して各行終端記号までを単一行として
順に書き出し、書出残りの行部分に後続の読出行を連結
して新たな読出行とする第2の行書出手段と、 を有する、 ことを特徴とした翻訳原文の行分割装置。
1. An original sentence line reading means for sequentially reading all the lines forming a translated original sentence, and determining whether or not a format is set in the read line, and determining the type of the set format. Format parsing means, the same formatting area that cuts out the lines that are continuous in the reading order and have the same format type, and the cutting means that cuts out the format part from the cut-out line range and starts from the beginning to the end of all line concatenation. The first line writing means that searches for a line feed symbol or line terminator according to the type of opposite format and sequentially writes each line feed symbol or line terminator searched as a single line, and the read line that is not formatted A second line writing means for searching the line terminators from the beginning to the tail, writing out up to each line terminator as a single line in sequence, and concatenating the subsequent read line to the remaining line portion for writing as a new read line. And have That, the line dividing apparatus of the translation original sentence was characterized in that.
JP7051305A 1995-03-10 1995-03-10 Line dividing device for translation original text Withdrawn JPH08249333A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7051305A JPH08249333A (en) 1995-03-10 1995-03-10 Line dividing device for translation original text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7051305A JPH08249333A (en) 1995-03-10 1995-03-10 Line dividing device for translation original text

Publications (1)

Publication Number Publication Date
JPH08249333A true JPH08249333A (en) 1996-09-27

Family

ID=12883216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7051305A Withdrawn JPH08249333A (en) 1995-03-10 1995-03-10 Line dividing device for translation original text

Country Status (1)

Country Link
JP (1) JPH08249333A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067112A (en) * 2008-09-12 2010-03-25 Toshiba Corp Mechanical translation system and mechanical translation program
WO2012023450A1 (en) * 2010-08-19 2012-02-23 日本電気株式会社 Text processing system, text processing method, and text processing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067112A (en) * 2008-09-12 2010-03-25 Toshiba Corp Mechanical translation system and mechanical translation program
WO2012023450A1 (en) * 2010-08-19 2012-02-23 日本電気株式会社 Text processing system, text processing method, and text processing program

Similar Documents

Publication Publication Date Title
JPH1153384A (en) Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JP2001343994A (en) Voice recognition error detector and storage medium
JPS6170660A (en) Polysemy displaying and selecting means of machine translation system
JPH067385B2 (en) Automatic keyword extraction method
JPH08249333A (en) Line dividing device for translation original text
JPS60164863A (en) Word processor
JPH0877196A (en) Extracting device for document information
JPH06309365A (en) Document processor
JPH0883280A (en) Document processor
JPH03233670A (en) Text data conversion system
US20040205666A1 (en) System and method for anticipated file editing
JPH06290209A (en) Sentence segmentation device
JP3747957B2 (en) Connection table editing device
JP2969751B2 (en) Character recognition processing method
JP3466761B2 (en) Document processing apparatus and control method thereof
JP3099792B2 (en) Word delimiter, word delimiter processing method, and word delimiter processing program recording medium
JP4007661B2 (en) Natural language statistical database system
JP2003108181A (en) Method, device, and method for shaping read-aloud text
JPH07219946A (en) Document preparing device
JP3792060B2 (en) Line feed evaluation method and line feed evaluation processing apparatus
JP3548263B2 (en) Document registration method and document search method
JPH11282842A (en) Japanese analysis device and computer readable recording medium recording japanese analysis program
JPH1040248A (en) Document processor and document management method
CN114065708A (en) Method and device for processing document information, computer storage medium and terminal
JPH08190570A (en) Comparison and verification system for document data

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020604