CN1181618C - 数据压缩/解压设备/方法 - Google Patents

数据压缩/解压设备/方法 Download PDF

Info

Publication number
CN1181618C
CN1181618C CNB981056881A CN98105688A CN1181618C CN 1181618 C CN1181618 C CN 1181618C CN B981056881 A CNB981056881 A CN B981056881A CN 98105688 A CN98105688 A CN 98105688A CN 1181618 C CN1181618 C CN 1181618C
Authority
CN
China
Prior art keywords
information
text data
converted
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB981056881A
Other languages
English (en)
Other versions
CN1194504A (zh
Inventor
矢作裕纪
森原隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1194504A publication Critical patent/CN1194504A/zh
Application granted granted Critical
Publication of CN1181618C publication Critical patent/CN1181618C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种数据压缩/解压设备适合于将包含多字节字符的数据压缩,包括一个同音异义字典,其中互相对应地存放着汉字单词,汉字字符读法和同音异义判别信息。此数据压缩/解压设备将包含于陈述句数据中的汉字单词转换为语音数据,然后压缩此语音数据以输出压缩的语音数据。该语音数据是将由标志汉字单词读法字符数的字符数判别信息,它的读法,和它的同音异义判别信息所组成的信息去替代汉字单词所得数据。

Description

数据压缩/解压设备/方法
技术领域
本发明一般涉及用于将包含由众多字节表示的字符的文本数据压缩/解压的设备和方法。更具体地,本发明的目的是能够将日文文本数据压缩/解压的设备/方法。
背景技术
最近的几年来,随着电子邮件和类似信件的盛行,由个人计算机处理和存储的电子文本的数量迅速增加。例如,有许多用户每天处理几百封至一千封电子邮件。一年之内存储多于几百兆字节文本数据的情况并不少见。
在这种情况下,通过去除冗余信息而压缩数据量,有可能缩短数据传送时间,及还能减少数据存储容量。曾建议和使用了不同数据压缩方法。目前有一些可用的压缩方法将不同类型的数据压缩,其范围包括字符码,向量信息和图像。在这些压缩方法中使用所谓“通用编码”法。
现在简单地阐述归入“通用编码”法的数个编码方法。应注意在下面的描述中数据的单个单元表示为“字符”,众多互相连结的“字符”表示为“串”,这些都沿袭信息理论中所用名称。
首先,现归纳一下算术编码法。有两种算术编码,也即二进制算术编码及涉及多于三个值的多值算术编码。在多值算术编码中,等于0或更大及小于1的数线(此后表示如〔0,1))的值根据组成待编码数据的每个字符的出现概率(出现频率)顺序地变窄。接着,当所有字符都处理完后,标示变窄范围内一点的数值作为编码被输出。
例如,在一种情况下五个待编码字符为a,b,c,d,e及这五个字符的出现概率分别为0.2,0.1,0.05,0.15,0.5。对于每个字符分配一个范围,它的宽度对应于它们的出现概率(见图24)。
然后,在待编码串为“abe”的情况下,如图25中原理性地阐述的,首先对于字符“a”,将范围〔0,1)变窄为另一范围〔0,0.2)。随后根据有关字符的出现概率将此范围划分为不同范围,以及根据“b”的范围计算而得的范围〔0.04,0.06)被选为另一串“ab”的范围。此外,对应于有关字符的出现概率,此范围〔0.04,0.06)划分为不同范围,接着根据下一个字符“e”的范围计算而得的另一个范围〔0.05,0.06)被选为串“abe”的范围。此后,当位于此最后范围内的一个任意点(例如一个较低极限点)的位置由二进制数表示时,小数点之后的位串被作为编码结果被输出。
应注意算术编码法根据对应于出现概率(出现频率)而划分范围的方法进一步分为静态编码***,半自适应编码***及自适应编码***。在静态编码***中,根据预设的有关字符的出现频率而不是实际出现频率划分范围。在半自适应编码***中,根据通过开始时扫描全部字符而获得的出现频率划分范围。在自适应编码***中,每当字符出现时即重新计算出现频率,从而重新设置范围。此算术编码***在例如由Prentice-Hall,Inc.1990年出版的由Bell,T.C.Cleary,J.G,和Witten,I.H.编写的“文本压缩”中有描述。
另一方面,此技术领域中还知道称为“倾斜编码法”的另一种通用编码法。在倾斜编码法中每当一个字符编码时执行一个重新安排编码树(也即带有树结构的编码表)的过程,以便为具有较高出现频率的字符分配一个较短的编码。在例如刊登于1988年8月出版的Commun.ACM第31卷第8期第996至1007页上由Jones,Douglas W.编写的“倾斜树数据压缩的应用”中对倾斜编码法有更详细的描述。
还知道一个称为混和倾斜编码法的另一种编码法。混和倾斜编码法就是在倾斜编码法中采用一种称为混和模型的统计学模型。
在混和倾斜编码法中,为每个上下文准备一个编码树。如图26中原理性阐述的,一个上下文等于紧靠在待编码字符(“C”)之前的串(“ab”)。在混和倾斜编码法(混和模型)中,用作上下文阶数的字符数是对应于图27中所示上下文树中出现的上下文程度而进行控制的。也即,一般而言,当将具有字符间强相关关系的数据编码时,所用上下文的阶数较高,则压缩率也可较高。另一方面,当将具有字符间弱相关关系的数据编码时,使用较高阶数的上下文有时不但不会改善而且会使压缩比变坏。为避免此问题,采用混和模型技术。在混和模型中,如此地根据输入数据改变有关上下文的阶数以便当一定上下文容易出现时即增加此上下文阶数,而当另一个上下文不容易出现时其阶数即低。
由于以上描述的相应的编码方法是在使用字母的文化领域中开发的,因此当使用相应的编码方法压缩数据时一个字节作为一个字符处理。其结果是,当句子中包含的字母由2个字节表示时会出现问题,例如日文,与英文文本比较,当用相应技术压缩日文时,即无法得到如此高的压缩率。
换言之,在2字节字符中,只有2字节数据的组合才有意义,而在组成一个2字节字符的每个字符之间没有相关关系。其结果是,将2字节字符以1字节为单元进行处理的常规压缩方法无法得到较高压缩比,因为从信息理论的观点看,它在减少信息源(2字节数据被分为1字节)后将数据压缩。
另外一个问题是难于使用上下文得到高压缩率。换言之,由于普通文本中使用了上千种中文字符,因此当基本上相同长度的文本用相同的上下文阶数进行压缩时,与英文文本比较,将有大量日文文本的上下文出现。实际上,当8千字节日文文本和8千字节英文文本两者都被压缩时,4字节上下文的总数如下。在英文文本中出现约3,000种上下文,而在日文文本中出现约5,000种上下文。还有,待压缩的日文文本有可能具有相当小的容量(约为数张A-4尺寸的纸),例如电子邮件。其结果是,当日文文本被压缩时,在收集到足够的与相应上下文有关的统计学信息之前,有时过程已结束。这导致日文文本压缩比的降低。
发明内容
因此,本发明的目的是提供一种数据压缩设备,一种数据压缩方法和一种程序记录媒体,它们适用于将其字符由多个字节表示的语言例如日文的文本数据压缩。
本发明另一个目的是提供一种数据解压设备,一种数据解压方法和一种程序记录媒体,它们能将由上面描述的数据压缩设备/方法压缩的数据解压。
在根据本发明第一方面的数据压缩设备中,语音文本数据产生单元产生一个语音文本数据。此语音文本数据为在待压缩初始文本数据中所包含的每个字符信息由语音字符信息所替代这样的数据,该语音字符信息标示着对应于此字符码的一个字符发音时所产生声音。接着由语音文本数据产生单元所形成的语音文本数据由一个压缩单元压缩。
如前所描述的,在根据第一方面的数据压缩设备中,初始文本数据被转换为由具有较初始文本数据种类少的这类语音字符信息所表示的语音文本数据,然后被压缩。其结果是,与用于直接压缩初始文本数据的常规数据压缩设备相比较,如采用此种数据压缩设备,则可在较高压缩率下实现数据压缩。
应注意当由此种数据压缩设备压缩的数据被解压时,采用由以下单元组成的解压设备:一个用于将压缩文本数据解压的解压单元;及一个用于将由解压单元恢复的语音字符信息转换为与它们相对应的字符信息从而产生与压缩文本数据相对应的初始文本数据的初始文本数据产生单元。
一个根据本发明第二方面的数据压缩设备包括一个语音字符信息存储单元,一个检索/读取单元,一个语音文本数据产生单元,一个中间码文本表形成单元,及一个压缩单元。
在语音字符信息存储单元中,语音字符信息标志由众多待转换字符信息组成的一个字发音时所产生声音并被存储,众多待转换的字信息由一个或多个字符信息构成。检索/读取单元自初始文本数据中检索存入语音字符信息存储单元中的待转换字信息,然后读取对应于自语音字符信息存储单元中检索出的待转换的字信息的语音字符信息。
语音文本数据产生单元用包含由检索/读取单元读取的语音字符信息的待转换的字替代信息来替代由检索/读取单元检索的初始文本数据中待转换的字信息,从而产生语音文本数据。中间码表形成单元形成一个中间码表,用于使一个中间码适用于由语音文本数据产生单元产生的语音文本数据中使用的一个信息单元。中间码文本数据产生单元通过转换相应的信息单元而产生中间码文本数据,并使用由中间码表形成单元产生的中间码表将语音文本数据构成为相应的中间码。压缩单元将由中间码文本数据产生单元产生的中间码文本数据压缩。
也即,在本发明第二方面的数据压缩设备中,初始文本数据中的待转换字首先由语音字符信息所替代,以便有可能产生语音文本数据,其中的所用字符种类少于初始文本数据的种类。此后将新码(中间码)分配给语音文本数据中包含的每个信息单元(字符),然后使用此中间码将语音文本数据转换为中间码文本数据。接着将此中间码数据压缩。其结果是,根据此数据压缩设备,难于由语音字符信息表示的类似于包括符号的字符的文本数据可用较高压缩比压缩。
一个用于将由此第二方面的数据压缩设备压缩的数据解压的数据解压设备由一个语音字符信息存储单元,一个解压单元,一个语音文本数据产生单元和一个初始文本数据产生单元组成。在语音字符信息存储单元中存放的语音字符信息标志着当由众多待转换的字信息所标志的字发音时所产生声音,待转换字信息由一个或多个字符信息构成。解压单元将压缩文本数据解压以输出中间码文本数据。语音文本数据产生单元使用适用于与压缩文本数据相关的中间码表中的中间码的信息去替代由解压单元输出的中间码文本数据中包含的每个中间码,从而产生语音文本数据。
初始文本数据产生单元产生等于压缩文本数据的初始内容的初始文本数据,其方式为:包含于由语音文本数据产生单元产生的语音文本数据中的待转换的字替代信息被检索出来,及根据待转换的字替代信息中所包含的语音字符信息用存放于语音字符信息存储单元中的待转换字信息去替代检索的待转换字替代信息。
当形成第二方面的数据压缩设备时,有可能利用中间码表形成单元形成一个中间码表,用于对语音文本数据中使用的每个信息单元分配一个具有最少位数的中间码,同时该最少位数能够表示这些信息单元。
另外,有可能利用语音文本数据产生单元使用夹在起始位置判别信息和末尾位置判别信息之间的替代信息去替代预选种类的字符信息以产生语音文本数据,这标志着该字符信息等于预选种类的字符信息。在此情况下,有可能利用中间码表形成单元形成一个中间码表,因为中间码并不对应于语音文本数据中起始位置判别信息和末尾位置判别信息两者的随后信息,以及有可能使用一个不将语音文本数据中起始位置判别信息和末尾位置判别信息的随后信息转换为中间码的单元作为中间码数据产生单元。
当数据压缩设备以此方式安排时,例如一个类似于中国式读法的1个汉字字符的预定种类的字符信息不被转换为语音字符信息,也不转换为中间码。
此外,当语音文本数据中使用的一种信息单元超过能由预定位数表示的信息量“N”时,有可能利用中间码表形成单元选择“N-1”项信息单元,从而在语音文本数据中使用的信息单元中间分配中间码;同时形成一个中间码表,其中预定位数的其内容彼此不同的中间码与所选“N-1”项信息单元和起始位置判别信息有关。在此情况下,有可能利用中间码数据产生单元产生中间码文本数据,对于包含于语音文本数据内的通过中间码表与中间码相关的信息而言,此信息转换为相应的中间码,以及对于没有分配中间码的未分配信息而言,该未分配信息由未分配替代信息所替代,该未分配信息也能够识别末尾位置以便具有一个与起始位置判别信息有关的中间码。
还可能利用语音字符信息存储单元存放语音字符信息和同音异义判别信息两者,后者用于在待转换为相同语音字符信息的字之间进行判别。在此情况下,检索/读取单元安排为将对应于检索的待转换字的语音字符信息和同音异义判别信息读出。语音文本数据产生单元如下安排:用包含由检索/读取单元读出的语音字符信息和同音异义判别信息两者的待转换字替代信息去替代初始文本数据内的待转换字信息。此外,中间码表形成单元如此安排以便形成针对除同音异义判别信息外的信息单元的中间码表。
根据本发明第三方面的数据压缩设备由一个语音字符信息存储单元,一个检索/读取单元和一个语音文本数据产生单元组成。
在语音字符信息存储单元中存放着语音字符信息,字等于由待转换字信息所标示的单字符字或多字符字发音时所产生声音。检索/读取单元自初始文本数据中检索存放于语音字符信息存储单元中的待转换字信息,并自语音字符信息存储单元之中读取对应于检索的待转换字信息的语音字符信息。语音文本数据产生单元用包含由检索/读取单元读取的语音字符信息的待转换字替代信息去替代由检索/读取单元检索的初始文本数据内的待转换字信息以产生语音文本数据。压缩单元将由语音文本数据产生单元产生的语音文本数据压缩。
根据此第三方面的数据压缩设备,由初始文本数据转换成的语音文本数据由具有比初始文本数据种类少的这类语音字符信息所表示。其结果是,与直接将初始文本数据压缩的情形相比较,可以实现高压缩比下的数据压缩。
当将由根据本发明第三方面的数据压缩设备压缩的数据解压时,所采用的数据解压设备由一个语音字符信息存储单元,一个解压单元,和一个初始文本数据产生单元所组成。在语音字符信息存储单元中存放的语音字符信息等于由待转换字信息所标示的单字符字或多字符字发音时所产生声音。解压单元将压缩文本数据解压以输出语音字符信息数据。初始文本数据产生单元产生等于压缩文本数据的初始内容的初始文本数据,过程如下:检索出包含在由解压单元产生的语音文本数据中的待转换字替代信息,及根据待转换字替代信息中的语音字符信息用存放于语音字符信息存储单元中的待转换字信息去替代检索的待转换字替代信息。
在根据本发明相应方面的数据压缩设备中,任何类型的语音字符信息都可使用。例如,可以使用标示字母的信息和用于表示Hangul韩文字符字母的一个母音和一个子音的信息。还可以使用其它用于标示国际音标和中国大陆使用的中文拼音***或在台湾使用的注音字母的信息。
附图说明
参照附图可以获得对本发明原理的更全面的了解,附图中相同参考数字标示相同特征,其中:
图1是用于显示根据本发明第一实施例的数据压缩/解压设备的功能框图;
图2是用于解释在根据第一实施例的数据压缩/解压设备中使用的同音异义字典的解释图;
图3是用于描述根据第一实施例的数据压缩/解压设备中使用的语音转换单元的顺序操作的流程图;
图4是用于解释根据第一实施例的数据压缩/解压设备中使用的语音转换单元的操作的解释图;
图5是用于解释根据第一实施例的数据压缩/解压设备中使用的语音转换单元的操作的解释图;
图6表示根据第一实施例的数据压缩/解压设备中使用的语音转回单元的顺序操作;
图7是用于显示根据本发明第二实施例的数据压缩/解压设备的功能框图;
图8是用于解释根据第二实施例的数据压缩/解压设备中使用的语音转换单元的顺序操作的流程图;
图9是用于描述根据第二实施例的数据压缩/解压设备中使用的语音转换单元的顺序操作的流程图;
图10是用于解释根据第二实施例的数据压缩/解压设备中使用的语音转换单元的操作的解释图;
图11是用于解释为何根据第二实施例的数据压缩/解压设备能以高压缩率进行压缩的原因的解释图;
图12表示根据第二实施例的数据压缩/解压设备中使用的语音转回单元的顺序操作;
图13是用于显示根据本发明第三实施例的数据压缩/解压设备的功能框图;
图14是用于描述根据第三实施例的数据压缩/解压设备中使用的语音转换单元的顺序操作的流程图;
图15是用于解释根据第三实施例的数据压缩/解压设备中使用的语音转换单元所执行的语音转换处理操作的流程图;
图16是用于解释当位长未指定时根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的顺序操作的流程图;
图17是用于描述当位长未指定时根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的顺序操作的流程图;
图18是用于解释根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的操作的解释图;
图19是用于解释根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的操作的解释图;
图20是用于描述当指定位长时根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的顺序操作的流程图;
图21是用于描述当指定位长时根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的顺序操作的流程图;
图22是用于解释根据第三实施例的数据压缩/解压设备中使用的中间码转换单元的操作的解释图;
图23是用于表示根据第三实施例的数据压缩/解压设备中使用的中间码转回单元的顺序操作的流程图;
图24表示算术编码操作中字符,出现概率和范围之间的对应关系;
图25是用于解释算术编码操作中的编码顺序操作的解释图;
图26是上下文的解释图;以及
图27原理性地表示用于获得上下文的树结构的例子。
具体实施方式
现将参照附图更详细地描述本发明的不同实施例。
<第一实施例模式>
根据本发明第一实施例模式的数据压缩/解压设备是一种用于将日文文本压缩/解压的设备,以及可根据压缩/解压程序操作计算机以实现此设备的功能。
首先参照图1中标示的功能框图概括地描述根据第一实施例的数据压缩/解压设备。如此图所表示,根据第一实施例的数据压缩/解压设备配备有一个存储单元11,一个语音转换单元12,一个无损压缩单元13,一个无损解压单元14和一个语音转回单元15。
存储单元11内存放着对应于待压缩数据(否则即为解压的数据)的陈述句(HEIBUN)数据和还有对应于陈述句数据的压缩结果的压缩数据。应注意,其中使用移位JIS(日本工业标准代码)码的数据作为陈述句数据存入存储单元11。
当压缩数据时语音转换单元12和无损压缩单元13两者都发挥作用。语音转换单元12包含一个日文分析字典16和一个同音异义字典17。日文分析字典16是这样的字典,用于自由汉字字符和非汉字字符(平假名字符,片假名字符,符号)两者组成的陈述句数据中提取一个单字的汉字单词和汉字字符(中国式读法和日本式读法)两者。同音异义字典17是这样的字典,它用来存放的同音异义判别信息用于自汉字单词(或汉字字符)的读法(平假名串)中标识一个汉字单词(或汉字字符)。换言之,如图2中所阐述的,参照众多具有相同读法的汉字单词,同音异义字典17中存放着具有不同内容的同音异义判别信息(0,1,…)。应注意,在此第一实施例中其数字值由二进制数所表示的1字节信息用作同音异义判别信息。
语音转换单元12使用日文分析字典16和同音异义字典17将存放于存储单元11中的陈述句数据转换,并将对应于转换结果的语音数据提供给无损压缩单元13。语音转换单元12可以在将陈述句数据转换为语音数据时用由字符数判别信息,读法和同音异义判别信息所组成的信息替代包含在此陈述句数据中的一个汉字字符或一个汉字单词(以后将解释)。此字符数判别信息标志此读法(平假名字符串)的字符数。无损压缩单元13对语音数据实行信息无损压缩操作,然后将压缩结果(压缩数据)存入存储单元11。在此第一实施例中,作为例子,无损压缩单元13执行混和倾斜编码操作,其中上下文的最大阶数等于“2”。
当将数据解压时无损解压单元14和语音转回单元15发挥作用。无损解压单元14具有功能,可将自无损压缩单元13输出的压缩数据解压。无损解压单元14将存放于存储单元11中的压缩数据解压,并将解压结果(语音数据)提供给语音转回单元15。语音转回单元15拥有一个同音异义字典18,其内容等同于同音异义字典17的内容。语音转回单元15使用它的字典将语音数据转换,然后将对应于转换结果的陈述句数据存入存储单元11。
现更详细地描述根据第一实施例的数据压缩/解压设备的操作。首先解释压缩数据时的操作。
图3表示压缩数据时语音转换单元12的顺序操作。如图3流程图中所标示的,在数据压缩操作期间,语音转换单元12首先自存放于存储单元11中应予压缩的陈述句数据中获取1字节数据(步S101)。然后判断此数据对应于1字节字符(控制码,字母,数字,半长度片假名字符)还是2字节字符的第一字节(步S102)。
在所获取数据对应于2字节字符的第一字节的情况下(步S102:2字节字符),语音转换单元12自陈述句数据中获取随后的1字节数据(步S103)。其次语音转换单元12判断由所获取2字节数据表示的字符是否对应于一个汉字字符(步S104)。在此字符不等于汉字字符的情况下(步S104:非汉字字符),也即此字符对应于一个平假名字符,一个片假名字符和一个符号(水平规则单元等)的情况,语音转换单元12将获取的数据输出至无损压缩单元13(步S105)。在于步101处获取的数据等于1字节字符的情况下(S102:1字节字符),语音转换单元12将获取的数据输出至无损压缩单元13(步S105)。然后当所输出数据不等于“EOF(文件的结尾)”时(步S114:否),处理操作退回至步S101,并在该处对陈述句数据中包含的其余数据执行以上描述的处理操作。
为解释简单起见,标志1字节字符的1字节数据和标志2字节字符的2字节数据两者都表示为单元信息。
在由获取的2字节数据构成的单元信息所标志的字符对应于一个汉字字符的情况下(步S104:汉字字符),语音转换单元12自陈述句数据中获取下一个单元信息(步S106)。也即,在自陈述句数据中获取下一个1字节数据同时此1字节数据等于一个1字节字符的情况下,此数据被认为是“单元信息”。还有,当此1字节数据等于2字节字符的第一字节时,语音转换单元12再获取1字节数据,然后将这2字节数据识别为“单元信息”。
此后,语音转换单元12判断新获取的单元信息表示汉字字符,非汉字字符还是1字节字符(步S107)。当此新获取的单元信息标示汉字字符时(S107:汉字字符),处理操作回至步S106,在该处语音转换单元12自陈述句数据中获取下一个单元信息。
在于步S106处新获取的单元信息表示非汉字字符或者1字节字符的情况下(步S107:其它),语音转换单元12判断获取的汉字字符的总数是否等于“1”(步S108)。当获取的汉字字符总数等于“1”时(步S108:是),语音转换单元12判断此汉字字符是否为中国式读法汉字字符(步S109)。应注意语音转换单元12使用在步S106和S107的循环中最后获取的单元信息(例如带词尾的假名)执行步S109处规定的判断操作。
当获取的汉字字符是一个字符同时不等于中国式读法汉字字符时(步S109:否),及当获取的汉字字符是2个或更多字符时(步S108:否),语音转换单元12使用获取的汉字字符,或获取的汉字字符串和它们的读法(平假名字符串)自同音异义字典17中检索同音异义判别信息(步S110)。其次语音转换单元12将对应于所读字符数的字符数判别信息,读法,还有检索的同音异义判别信息按此顺序输出至无损单元13中(步S111)。应注意字符数判别信息对应于与数字值有关的1字节数据。对于对应于有关数字值的字符数判别信息而言,将码00-7F,A1-DF分配用于1字节字符及将81-9F,EO-EF(十六进制码)分配用于2字节字符的第一字节。
例如,当获取的汉字字符串是“製品”时,它的意思是“产品”,如图4中所阐述的,语音转换单元12输出1字节字符数判别信息,用于标明对应于“製品”读法的“せいひ h”的字符数“4”,还输出总共8字节以标明“せいひ h”和1字节同音异义判别信息(0×00,同音异义判别字典17的内容显示图3中),这在步S111完成。
在输出同音异义判别信息后,语音转换单元12将在步S106和S107的循环中最后获取的单元信息输出至无损压缩单元13(步S112)。然后当输出的单元信息不等于“EOF”时(步S114:否),重新自步S101开始执行处理操作。
在获取的汉字字符对应于中国式读法汉字字符的情况下(步S109:是),语音转换单元12将两项先前获取的单元信息(汉字字符,和非汉字字符,或1字节字符)输出至无损压缩单元13(步S113),接着处理操作进至下一步S114。为何对于一个字符的中国式读法汉字字符实行另一个处理操作的原因如下:也即在中国式读法汉字字符中存在着大量同音异义词。下列事实具有一定概率:有一些同音异义词不能由1个字节表示(参看SANSEIDO出版商出版的“SHIN MEIKAI KANWA JITEN”1987年第三卷;其中列出362个“こう”的同音异义词)。在这种情况下,当中国式读法的一个字符以类似于其它汉字字符的方式处理时,将有许多种同音异义判别信息。因此转换为它们的读法不太重要。
当语音转换单元12重复这一处理操作并因而输出“EOF”时(步S114:是),待压缩的陈述句数据的处理操作即完成。
虽在流程图中未示出,但应理解当处理操作实际上转移至步S108的“否”侧时,语音转换单元12将获取的汉字字符串分解为汉字单词(另一方案是汉字字符),该汉字单词(汉字字符)具有的如此长度从而在同音异义字典中有同音异义判别信息的定义,然后语音转换单元12对于每个分解的汉字单词执行对应于步S110和S111中所规定处理操作的操作。也即,当由存放于同音异义字典17中的两个汉字单词组成的汉字字符串被包含于陈述句数据中时,语音转换单元12输出如下数据:将字符数判别信息和同音异义判别信息加于第一汉字单词之前/后以构成此汉字字符串;然后输出如下数据:将字符数判别信息和同音异义判别信息加于它的第二汉字单词之前/后。随后语音转换单元12在此汉字字符串之后的位置上输出除汉字字符以外的字符。接着,当自陈述句数据中获取的单元信息标志汉字字符以外的字符时,语音转换单元12直接输出此单元信息。因此例如,日文句子“半導體製品の壳リ上げは好調です(“半导体产品很好销售”)可由语音转换单元12转换为图5中所原理性阐述的数据(语音数据)。
在根据第一实施例的数据压缩/解压设备中,由语音转换单元12输出的这类语音数据被无损压缩单元13压缩。然后,无损压缩单元13的压缩结果作为压缩数据存入存储单元11,因而完成数据压缩操作。换言之,在此数据压缩/解压设备中,压缩的陈述句数据可被解压以恢复为初始情况(以后再解释解压顺序),此外该陈述句数据可转换为语音数据,该语音数据中所用字符种类比陈述句中的种类少。然后可压缩该语音数据。其结果是,根据此数据压缩/解压设备,压缩操作期间可用比直接压缩陈述句的情况更高的效率获取统计学信息。因此可实现更高压缩率下的数据压缩。
其次描述根据第一实施例的数据压缩/解压设备的数据解压操作。
无损解压单元14自存储单元11中读取指定为待解压的压缩数据,并将此压缩数据的解压结果也即由语音转换单元12根据一定陈述句数据产生的语音数据提供给语音转回单元15。
自上面描述的语音转换单元12的操作显而易见,2字节字符,1字节字符,字符数判别信息和同音异义判别信息都包含于语音数据中(见图5)。对于它们中间的同音异义判别信息而言,由于此判别信息对应于其中由二进制数表示数字值的1字节信息,所以此同音异义判别信息无法与1字节字符和类似信息区别开。然而,可与1字节字符还有2字节字符的第一字节区别开的字符数判别信息的位置在此同音异义判别信息之前。还有,同音异义判别信息出现于字符数判别信息所在的位置上,及在由它的内容所确定的位置上。
语音转回单元15根据图6中所示流程图自语音数据中恢复陈述句数据。
首先,语音转回单元15自无损解压单元14中获取1字节数据(步S201)。然后此语音转回单元15判断此1字节数据对应于1字节字符,2字节字符的第一字节,还是字符数判别信息(步S202)。
当获取的数据标志1字节字符时(步S202:1字节字符),语音转回单元15直接将此数据输出至存储单元11(步S203)。然后当输出的数据不等于“EOF”时(步S210:否),解压操作退回至步S201以便自无损解压单元14中获取下一个1字节数据。当获取的数据等于2字节字符的第一字节时(步S202:2字节字符),语音转回单元15再获取1字节数据,然后将此2字节数据输出至存储单元11(步S204)。此后处理操作退回至步S201。
在获取的数据是字符数判别信息的情况下(步S202:字符数判别信息),语音转回单元15根据此字符数判别信息的内容识别随后的平假名字符串的字符数(步S205)。然后语音转回单元15自无损解压单元14中获取由所识别字符数所组成的数据(字符数×2字节数据;“读法”),还有下一个1字节数据(同音异义判别信息)(步S206和S207)。随后语音转回单元15使用获取的读法和获取的同音异义判别信息自同音异义字典18中检索出一个汉字字符或一个汉字单词(步S208)。检索的汉字字符或检索的汉字单词随后输出至存储单元11,接着处理操作退回至先前的步S201。
对于自无损解压单元14中获取的每个数据而言,语音转回单元15重复地执行上面描述的操作。当语音转回单元15输出“EOF”时(步S210:是),此处理操作即完成。
<修改的第一实施例模式>
根据第一实施例的数据压缩/解压设备,陈述句数据中包含的汉字字符或汉字单词被由字符数判别信息,读法和同音异义判别信息组成的数据所代替,从而产生具有此替代模式的语音数据。自以上描述明显看出,此数据压缩/解压设备可用另一个可替代的方式构成:产生语音数据的格式可以是在字符数判别信息之后按此顺序加上同音异义判别信息和读法两者。
再者,当准备好起始位置判别信息和末尾位置判别信息两者而不是众多字符数判别信息时,可如下安排数据压缩/解压设备:当数据压缩期间输出汉字字符读法时,在此汉字字符读法之前/后加上起始位置判别信息和末尾位置判别信息。在此情况下,同音异义判别信息放置于紧接起始位置判别信息之后,或紧接末尾位置判别信息之后。也可将数据压缩/解压设备如此安排以将起始位置判别信息与末尾位置判别信息之间的读法退回入汉字字符,从而将数据解压。
在上面解释的第一实施例数据压缩/解压设备中,当处理由一个字符组成的中国式读法汉字字符时,将此汉字字符码直接输出。另一替代方案中将此数据压缩/解压设备如此安排以将初始地具有中国式读法的一个汉字字符也转换为具有日本式读法的汉字字符的读法。
虽然第一实施例的数据压缩/解压设备是针对移位JIS码的,此设备也可针对其它码***例如JIS和EUC。此外,第一实施例的上面解释的技术不但可用于日文,也可用于其它需要多字节字符定义的语言。
<第二实施例模式>
在第一实施例的数据压缩/解压设备中,陈述句数据中包含的汉字单词转换为语音数据,该语音数据的格式是此汉字单词由包含此汉字单词读法的数据所替代,在此转换以后数据被压缩。与它相反,当产生语音数据时根据本发明第二实施例的数据压缩/解压设备用除汉字单词以外的数据替代具有其它格式的数据。此外,在根据第二实施例的数据压缩/解压设备中,用于替代汉字单词的这类数据包含此汉字单词的半长度读法(也即有关由半长度片假名字符串表示的读法的信息,JIS和移位JIS码中的1字节码,EUC(扩散UNIX代码)码中的2字节码)。
图7是用于标示根据第二实施例的数据压缩/解压设备的功能框图。自此图可见,根据第二实施例的数据压缩/解压设备的基本配置类似于根据第一实施例的数据压缩/解压设备的配置。应理解第二实施例的数据压缩/解压设备中使用的语音转换单元12′只包含一个同音异义字典17′。此同音异义字典17′不同于上面解释过的同音异义字典17,它存放着汉字字符或汉字单词,半长度读法(即有关由半长度片假名字符串所表示的读法的信息),和同音异义判别信息之间的对应关系。语音转回单元15′中提供的同音异义字典18′也具有与上面描述的同音异义字典17′相同的内容。
当实行数据压缩时语音转换单元12′根据图8中所示流程图中规定的顺序操作自陈述句数据中产生语音数据。
首先,语音转换单元12′自待压缩陈述句数据中获取具有单个单元信息的数据(步S301)。然后,当此数据对应于1字节字符时(步S302:1字节字符),语音转换单元12′判断由此数据表示的字符是否等于半长度片假名字符(步S303)。在此字符不等于半长度片假名字符的情况下(步S303:否),也即等于控制字符和罗马字母的情况下,语音转换单元12′将此数据直接输出至无损压缩单元13(步S309)。然后当此数据不等于“EOF”时(步S310:否),处理操作退回至步S301,在该处对下一个组成陈述句数据的数据开始处理操作。
在获取的1字节字符等于半长度片假名字符时(步S303:是),语音转换单元12′获取下一个单元信息(1字节或2字节字符)(步S304)。当由获取的单元信息表示的一个字符等于半长度片假名字符时(步S305:是),处理操作退回至步S304。另一方面,当此字符不等于半长度片假名字符时(步S305:否),处理操作进至步S306。换言之,语音转换单元12′执行由步S304和步S305形成的循环,以使此语音转换单元12′获取有关半长度片假名字符是连续的串行字符串和有关来自陈述句数据的下一个字符的单元信息。
此后语音转换单元12′顺序地输出半长度片假名字符起始位置判别信息,半长度片假名字符串和末尾位置判别信息(步S306)。应注意半长度片假名字符起始位置判别信息和末尾位置判别信息是1字节信息,其内容被设置以便可与1字节字符,2字节字符和字符数判别信息区别开。当数据被解压时(下面将详细解释),位于这些位置判别信息之间的数据可确定为将作为半长度片假名字符输出的数据(即直接地输出)。
其次,语音转换单元12′判断在最后执行的步S304处获取的单元信息所标示的字符是否对应于1字节字符或2字节字符(步S308)。然后,当此字符等于1字节字符时(步S308:1字节字符),处理操作进至步S309。在此步处,不等于此半长度片假名字符的1字节字符被输出至无损压缩单元13。
另一方面,当最后获取的单元信息等于2字节字符时(步S308:2字节字符),或当在步S301处获取的单元信息所表示的字符等于2字节字符时(步S302:2字节字符),如图9所示,语音转换单元12′判断此2字节字符对应于平假名字符,汉字字符,片假名字符还是符号(水平规则单元)(步S320)。具体地说,语音转换单元12′判断相应的半长度片假名字符是否等于现有字符(平假名字符,标点等)。然后,如相应的半字长片假名字符等于现有字符(步S320:平假名字符),则对应于此2字节字符(即待处理的字符)的半长度片假名字符码被输出(步S321),同时处理操作退回至图8的步S301。
另一方面,当相应的片假名字符等于不存在的字符时(步S320:片假名字符,汉字字符等),语音转换单元12′重复地自陈述句数据中获取单元信息,直至它获取到一个具有与待处理字符不同种类的字符(步S322和S323)。换言之,当待处理字符等于片假名字符时,语音转换单元12′重复地获取单元信息,直至片假名字符以外的任何字符(汉字字符,平假名字符,1字节字符)出现。当待处理字符等于汉字字符时,语音转换单元12′重复地获取单元信息,直至汉字字符以外的任何字符出现。还有,当待处理字符等于符号或类似信息时,语言转换单元12′重复地获取单元信息,直至汉字字符或片假名字符出现。
然后,当能获取到标示具有不同种类字符的单元信息时(步S323:否),如获取的字符种类是汉字字符(步S324:否),则语音转换单元12′自同音异义字典17′中检索对应于获取的汉字字符串(或汉字字符)的半长度读法和同音异义判别信息(步S325)。随后,语音转换单元12′将半长度读法的对应于字符数(字节数)的字符数判别信息,半长度读法和检索的同音异义判别信息按此顺序输出至无损压缩单元13(步S326)。然后处理操作退回至图8的步S302,在该处开始处理最后获取的单元信息。
在字符种类等于片假名字符的情况下(步S324:是),产生对应于获取的片假名字符串信息的半长度片假名字符串信息(步S327)。然后将全长度片假名字符起始位置判别信息,半长度片假名字符串信息和末尾位置判别信息按此顺序输出至无损压缩单元13(步S328)。然后处理操作退回至步S302,在该处开始处理最后获取的字符。应注意,全长度片假名字符起始位置判别信息等于1字节信息,其内容被如此设置以便可与1字节字符,2字节字符,字符数判别信息,半长度片假名字符起始位置判别信息和末尾位置判别信息区别开。当恢复数据时,位于全长度片假名字符起始位置判别信息和末尾位置判别信息之间的数据被转换为全长度片假名字符,后者被确定为待输出数据。
还有,当字符种类等于符号时(步S324:符号),语音转换单元12′将与获取的符号(串)有关的单元信息(串)直接输出至无损压缩单元13,然后处理操作退回至图8的步S320,在该处开始处理最后获取的单元信息。
语音转换单元12′重复地完成这一处理操作,及当输出“EOF”时(步S310:是),对于待处理陈述句数据的处理操作即完成。
如前面所描述的,语音转换单元12′用半长度片假名字符代替陈述句数据中包含的平假名字符,并且还根据由字符数判别信息和半长度片假名字符串和同音异义判别信息所表示的读法所构成的这类信息替代汉字单词。此外,语音转换单元12′根据由全长度片假名字符起始位置判别信息,和具有与它的全长度片假名字符串相同值的半长度片假名字符串和末尾位置判别信息所组成的这类信息去替代全长度片假名字符串。然后此语音转换单元12′根据由半长度片假名字符起始位置判别信息,具有与它的全长度片假名字符串相同值的半长度片假名字符串和末尾位置判别信息所组成的这类信息去替代半长度片假名字符串。
如图10中所阐述的,一句不包含符号的句子,例如,“デ-タをメモりに保存すゐよ…”由语音转换单元12′转换为只包含1字节字符和几种等于1字节信息的判别信息的语音数据。
接着,由于这一语音数据是由无损压缩单元13所压缩的,与将陈述句数据直接压缩的情况相比较,根据此实施例的数据压缩/解压设备可以更有效地压缩陈述句数据。具体地讲,如图11中原理性的阐述的,在用于直接将陈述句数据压缩的常规数据压缩/解压设备中,由于一个字符等于2个字节,当一定2字节字符(图11中的“と”)的第一字节是所感兴趣的字符时,只有位于此2字节字符前的一个字符被作为一个上下文处理。相反地,由于此第二实施例的数据压缩/解压设备中1个字符等于1个字节,当一定字符(“ト”)是所感兴趣的字符时,位于此字符前的两个字符被作为一个上下文处理。因此,根据第二实施例模式的数据压缩/解压设备,可用较高压缩率压缩数据。
现简单描述根据第二实施例模式的数据压缩/解压设备中将数据解压恢复的操作。
如图12中所示,当解压数据时,语音转回单元15′首先获取自无损解压单元14输出的1字节数据(步S401)。随后语音转回单元15′判断此获取的1字节数据对应于字符数判别信息,全长度片假名字符起始位置判别信息,半长度片假名字符起始位置判别信息,用于标志半长度片假名字符的数据,还是用于标志汉字字符(符号)的数据(步S402)。
然后,当此数据等于字符数判别信息时(步S402:字符数判别信息),语音转回单元15′自此字符数判别信息中识别一个字符数(字节数)(步S403),并自无损解压单元14中获取等于识别的字符数的数据(半长度读法)(步S404)。此后语音转回单元15′获取下一个1字节数据,即同音异义判别信息(步S405)。随后语音转回单元15′使用获取的半长度读法和获取的同音异义判别信息自同音异义字典17′中检索用于标明汉字字符或汉字字符串的信息(步S406),然后将检索的汉字字符(串)信息输出至存储单元(步S407)。此后处理操作退回至步S401,在该处开始相关剩余数据的处理操作。
在步S402处,当语音转回单元15′检测出在步S401处获取的数据或对应于全长度片假名字符起始位置判别信息或对应于半长度片假名字符起始位置判别信息时,语音转回单元15′重复地自无损解压单元14中获取数据,直至获取到末尾位置判别信息(步S410)。然后,当获取到末尾位置判别信息时,语音转回单元15’完成步S410的处理。当执行的处理操作检测到全长度片假名字符起始位置判别信息时(步S411:是),在步S410处获取的与半长度片假名字符(串)相关的数据(除末尾位置判别信息之外)被转换为与全长度片假名字符(串)有关的数据,后者被输出至存储单元11(步S413)。然后处理操作退回至步S401。另一方面,当执行的处理操作检测到半长度片假名字符起始位置判别信息时(步S411:否),与获取的半长度片假名字符(串)相关的数据(除末尾位置判别信息以外)被直接输出至存储单元11(步S412),同时处理操作退回至步S401。
当在步S401处获取的数据等于1字节字符或2字节字符的第一字节时(步S402:其它),语音转回单元15′在步S415处执行以下处理操作。也即,对于半长度片假名数据而言,输出相应的平假名字符码。对于2字节字符的第一字节而言,进一步自无损解压单元14中获取另一个1字节数据,同时输出这些2字节数据。对于另一个1字节字符而言,获取的数据被直接输出至存储单元11。
语音转回单元15′重复地完成这一处理操作,当输出“EOF”时(步S417:是),图12中所示处理操作即完成。
<修改的第二实施例模式>
根据第二实施例的数据压缩/解压设备可用类似于第一实施例的数据压缩/解压设备的方式加以修改。换言之,当准备起始位置判别信息和末尾位置判别信息而不是准备众多字符数判别信息时,该设备可如下安排:在数据压缩期间当输出汉字字符的半长度读法时,在此半长度读法之前/后加上起始位置判别信息和末尾位置判别信息。另一方面,此设备可用于其它码***的文本压缩/解压。
虽然第二实施例的数据压缩/解压设备将2字节字符转换为半长度片假名字符,但也可将数据压缩/解压设备作另外安排以将2字节字符转换为罗马字义母。也即,此数据压缩/解压设备可安排为输出标志“SEIZOU”的这类数据而不是标志“セイゾウ”的数据。
在将数据压缩/解压技术用于只由2字节表意文组成的语言时,例如1字节码分配给国际音标,用于标示Hangul字母的母音和子音的信息,和用于标示中文字母(中国大陆的拼音或台湾的注音),可将此表意文的声音转换为由国际音标和类似信息所表示的码从而处理有关表意文数据。
<第三实施例模式>
图13是用于显示本发明第三实施例的数据压缩/解压设备的功能框图。现参照此图概括一下第三实施例的数据压缩/解压设备的操作。
如图13所示,第三实施例的数据压缩/解压设备配备有一个用于存放陈述句数据和压缩数据的存储单元21。此设备还配备有一个语音转换单元22,一个中间码转换单元23,一个临时存储单元24和一个压缩数据时用作功能块的无损压缩单元25。此设备还配备有一个无损解压单元26,一个中间码转回设备27和一个语音转回设备28。
语音转换单元22中包含的日文分析字典16和同音异义字典17与第一实施例的语音转换单元12所拥有的字典相同。语音转换单元22使用这些字典16和17将陈述句数据中包含的汉字字符转换为“它们的读法”,从而产生其顺序与第一实施例的语音转换单元12的语音数据基本上相同的语音数据。应注意语音转换单元22还产生一个对应于一列字符的字符表及当产生语音数据时在语音数据中使用的判别信息。
中间码转换单元23使用由语音转换单元22在临时存储单元24中产生的语音数据和字符表形成一个中间码对照表。此中间码对照表用于为一个字符或在语音数据中使用的判别信息分配一个新码(中间码)。然后中间码转换单元23使用此中间码表将语音数据转换为对应于包含中间码的数据的中间码数据。应理解,准备了一种不指定中间码位数的模式(位长不指定模式)和另一种指定中间码位数的模式(位长指定模式)作为操作模式,及当设备运行于位长指定模式中时,在数据压缩操作之前就将指定中间码位长的信息给予中间码转换单元23。
无损压缩单元25在无损条件下将中间码对照表和由中间码转换单元23给出的中间码数据进行压缩,并将这些压缩结果作为压缩数据存入存储单元21。
无损解压单元26具有以下功能:将由无损压缩单元25压缩的数据解压,及根据待解压的压缩数据将中间码对照表和中间码数据解压,然后输出解压的中间码对照表和解压的中间码数据。中间码转回单元27使用自无损解压单元26给出的中间码对照表将随后提供的中间码数据中包含的中间码还原为初始信息(语音数据)。语音转回单元28使用具有与同音异义字典17相同内容的同音异义字典18将语音数据中包含的“读法”还原为汉字字符。其结果是,此语音转回单元28在存储单元21内产生等于由无损解压单元26所处理的压缩数据的初始信息的陈述句数据。
现详细描述根据第三实施例的数据压缩/解压设备中的有关电路部分的操作。现参照图14的流程图解释语音转换单元22的操作。
如图14中所示,当开始压缩数据时,语音转换单元22首先将变量K设置为“0”(步S500)。变量K是存储的由语音转换单元22所输出的同音异义判别信息的最大值,下面将解释变量K的用途。
其次,语音转换单元22自被指定待压缩的陈述句数据中获取一个字符的数据(步S501)。随后语音转换单元22判断由此数据标志的字符种类。当此字符对应于非汉字字符时(步S502:非汉字字符),语言转换单元22将获取的数据输出到临时存储单元24。当此数据对应于非登记数据也即未在字符表中登记的数据时,语音转换单元22将此数据登记入字符表中(步S503)。然后,在输出的数据不等于“EOF”的情况下(步S511:否),处理操作退回至步S501,在该处开始处理陈述句数据中包含的下一个1字符数据。
当在步S501处读取的数据对应于标志汉字字符的数据时(步S502:汉字字符),语音转换单元22重复地自陈述句数据中获取数据,直至获取到非汉字字符(步S504和S505)。当获取到非汉字字符数据时(步S505:非汉字字符),语音转换单元22的处理操作进至步S506。
在步S506处,语音转换单元22判断在此非汉字字符数据之前获取的数据是否对应于中国式读法的1个汉字字符的数据。然后,当此数据对应于中国式读法的1个汉字字符的数据时(步S506:是),起始位置判别信息,中国式读法汉字字符数据和末尾位置判别信息被输出到临时存储单元24中(步S507)。应注意,起始位置判别信息和末尾位置判别信息两者都是1字节信息,它们的内容如此设置以便可与1字节字符和2字节字符的第一字节区别开。在此实施例中,相同信息用作起始位置判别信息和末尾位置判别信息。
执行步S507之后,语音转换单元22将最后获取的数据(非汉字字符数据)输出到临时存储单元24(步S508)。随后,当在步S507处输出的起始位置判别信息对应于未在字符表中登记的未登记数据时,此数据(起始位置判别信息)被登记在字符表中。此外,当在步S508处输出的数据对应于未登记数据时,将此数据登记入此数据字符表中(步S509)。也即,当语音转换单元22首次执行步S509时,将起始位置判别信息登记入字符表中。当跟随末尾位置判别信息之后的数据对应于未登记数据时,也登记此数据。然后,当语音转换单元22在第二次处理操作后执行步S509时,由于起始位置判别信息已登记,因此只当跟随末尾位置判别信息之后的数据对应于未登记数据时才将数据登记入字符表中。
接着,当在步S508处输出的数据不等于“EOF”时(步S511:否),语音转换单元22的处理操作退回至步S501。
另一方面,当在非汉字字符数据之前获取的数据不等于一个中国式读法字符数据时(步S506:否),语音转换单元22执行语言转换过程(步S510)。
图15显示语音转换过程的流程图。如图15的此流程图中所示,当完成语音转换过程时,语音转换单元22首先将由在非汉字字符数据之前获取的数据所标志的一个汉字字符串或一个汉字字符转换为一个片假名字符串(读法)(步S601)。其次,语音转换单元22自同音异义字典17中获取与它的读法有关的同音异义判别信息和汉字字符串(汉字字符)(步S602)。然后语音转换单元22将标志读法字符数的字符数判别信息,读法和同音异义判别信息按此顺序输出至临时存储单元24(步S603),并还将最后获取的数据(非汉字字符)输出至临时存储单元24(步S604)。
此后,当在步S603和S604处输出的数据中出现除同音异义判别信息以外的未登记数据时,语音转换单元22将此(这些)数据登记入字符表中(步S605)。当同音异义判别信息值超过变量“K”时,此值设置为“K”(步S606),因此完成语音转换过程(进至图14的步S511)。
接着,当检测到输出“EOF”时(步S511:是),语音转换单元22结束图14中所示的处理操作。
如前所描述的,语音转换单元22在临时存储单元24中产生语音数据,后者的格式与第一实施例的语音转换单元12所输出语音数据的格式基本相同。还有,语音转换单元22所产生的字符表等于此语音数据中所包含的字符数判别信息,起始位置判别信息,1字节字符和2字节字符的列表。语音转换单元22还将语音数据中包含的同音异义判别信息的最大值存入变量“K”,然后完成图中所示处理操作。
当完成语音转换单元22的处理操作后,中间码转换单元23开始操作。如前所描述的,中间码转换单元23拥有两个模式。在这种情况下,首先参照图16和图17中所示流程图描述位长不指定模式的操作。
当由语音转换单元22产生语音数据的操作完成后,如图16的流程图中所示,中间码转换单元23获取一个用二进制数据表示K值时所需最小位数“M”和存放于字符表内的字符种类数“n”(步S701)。其次,中间码转换单元23计算能够满足2L-1<n≤2L的L值(步S702)。当计算的值“L”小于“M”时(步S703:是),将L值设为M(步S704),同时处理操作进至步S705。另一方面,当计算的L值大于M时(步S703:否),处理操作进至下一步S705而不更新L值。
在步S705处,中间码转换单元23将具有L位的二进制数也即L位中间码分配给包含于字符表中的“n”种信息中的每一种(字符数判别信息,2字节字符),从而产生一个中间码对照表。随后中间码转换单元23将标志此形成的中间码对照表内容的数据提供给无损压缩单元25(步S706)。
此后,中间码转换单元23自存放于临时存储单元24内的语音数据中获取一个单元信息的数据(步S711)。也即,在此步处在中间码转换单元23获取到1字节数据而此数据等于2字节字符的第一字节的情况下,此中间码转换单元23再获取1字节数据。另一方面,当获取的数据等于1字节字符,字符数判别信息,或起始位置判别信息时,不再获取数据,于是在步S711处规定的处理操作即完成。
当在步S711处获取的数据等于起始位置差别信息时(步S712:起始位置判别信息),中间码转换单元23将存放于中间码对照表中的对应于起始位置判别信息的中间码(今后称为“起始位置判别信息的中间码”)提供给无损压缩单元25。其次,语言数据中跟随于此起始位置判别信息之后的3字节数据,也即标志中国式读法汉字字符的数据(2字节)和末尾位置判别信息(1字节)被直接提供给无损压缩单元25(步S714)。此后中间码转换单元23的处理操作退回至步S711,在该处开始处理包含于语音数据中的下一个数据。
当获取的数据对应于字符数判别信息时(步S712:字符数判别信息),中间码转换单元23自此字符数判别信息中识别读法的字符数,同时还将存放在中间码对照表中的对应于此字符数判别信息的中间码提供给无损压缩单元25(步S715)。其次,获取带有识别的字符数的数据并将对应于有关数据的中间码提供给无损压缩单元25(步S716)。然后中间码转换单元23自语音数据中获取下一个1字节数据,即同音异义判别信息,然后将此同音异义判别信息改变为L位信息,后者被提供给无损压缩单元25(步S717)。换言之,在L>8的情况下,中间码转换单元23向无损压缩单元25提供这样的L位信息,其中“L-8”项的“0”加至同音异义判别信息的高位侧。在L<8的情况下,中间码转换单元23向无损压缩单元25提供这样的L位信息,其中自同音异义判别信息的高位侧中删去“8-L”项的“0”。显示,在L=8的情况下,此码转换单元23即直接地将同音异义判别信息提供给无损压缩单元25。此后中间码转换单元23的处理操作退回至步S711。
在获取的数据对应于1字节字符或2字节字符的情况下(步S712:其它),中间码转换单元23将对应于此数据的中间码提供给无损压缩单元25(步S718)。然后当提供的数据不等于“EOF”时(步S719:否),处理操作退回至步S711,在该处开始下一个数据的处理操作。相反地,当提供的数据等于“EOF”时(步S719:是),即完成处理操作。
如前面所描述的,在位长不指定模式中,中间码转单元23获取语音数据中包含的1字节字符,除一个中国式读法汉字字符以外的2字节字符,字符数判别信息,和能够标志起始位置判别信息的最小位数“L”。与此同时,当计算的“L”小于同音异义判别信息所需位数“M”时,用M的值更新L的值。接着语音数据中包含的除一个中国式读法汉字字符和同音异义判别信息以外的每项信息转换为L位中间码。同音异义判别信息的表示格式也转换为L位。对于一个中国式读法汉字字符不实行转换操作,但计算的L直接用作中间码数据的单元。
例如,如图18中所原理性阐述的,陈述句数据中出现汉字单词“製品”,它的意义是“产品”,语音数据中包含10个字节信息,由字符数判别信息,其读音为“seihin”的“せいh”的中国式读法,和同音异义判别信息所组成。如图中所示,中间码转换单元23将此信息转换为由六项L位数据组成的信息(也即,5项中间码和1项L位同音异义判别信息)。
还有,如图19中所原理性阐述的,陈述句数据中出现的句子“その間”包含一个中国式读法汉字字符“間”,这类信息由标志“その”的4字节信息,起始位置判别信息,标志“間”的2字节信息和末尾位置判别信息所组成。如图19中所阐述的,中间码转换单元23将此信息转换为3项L位中间码,标志“間”的2字节信息和1字节末尾位置判别信息。
随后描述位长指定模式中的中间码转换单元23的操作。在此位长指定模式中,中间码转换单元23根据图20和图21的流程图将语音数据转换为中间码数据。
如图20中所示,中间码转换单元23首先以与位长不指定模式类似的方式计算最小位数“M”和字符种类数“n”(步S801)。此最小位数M需用于表示一个用二进制数表示同音异义判别信息最大值时的“K”。字符种类数“n”存放于字符表中。其次中间码转换单元23判断指定位长L′是否大于最小位数M。在L′<M的情况下(步S802:是),中间码转换单元23将L′值设为M(步S803),然后它的处理操作进至步S804。另一方面,如不是L′<M(步S802:否),则处理操作进至步S804而不将L′值更新。
在步S804处,中间码转换单元23判断能否满足2L′≥n条件(步S804)。在能够满足2L′≥n的情况下(步S804:是),也即所有存放于字符表中的信息的“n”种类都能由L′位数据表示的情况下,中间码转换单元23将L′位中间码分配给包含于字符表中的“n”种信息中的每一种(字符数判别信息,2字节字符等),以便形成一个中间码对照表(步S805)
另一方面,当无法满足2L′≥n条件时(步S804:否),也即无法用L′位数据表示存放于字符表内的“n”种信息时,中间码转换单元23自字符表中删去nexc(=n-2L′)种字符(步S806)。此时中间码转换单元删除平假名字符以外的字符(符号)以使字符数判别信息,起始位置判别信息和平假名字符保留在字符表内。接着中间码转换单元23将L′位中间码分配给包含于字符表中的2L′种信息中的每一种以便产生一个中间码对照表(步S807)。
在形成中间码对照表后,中间码转换单元23将标志所形成中间码对照表内容的数据提供给无损压缩单元(步S808)。为将语音数据转换为中间码数据,开始执行图21中所示处理操作。
在图21中所示步S811至步S817中,中间码转换单元23分别执行与步711至步717(图17)相同的处理操作。因此略去这些步骤中规定的操作。
另一方面,在位长不指定模式中,除中国式读法一个汉字字符外,中间码被分配给语音数据中包含的相应的2字节字符和相应的1字节字符。因此,当自语音数据中获取的数据或等于1字节字符或等于2字节字符时,有中间码对应于此数据。
相反,在位长指定模式中,并不准备有对应于包含在语音数据中的若干字符的中间码。结果是,当处理操作转移至步S812的“其它”侧时,中间码转换单元23判断在步S811处获取的数据是否等于没有分配中间码的这类数据(此后称之为“例外字符数据”)(步S820)。当获取的数据不等于例外字符数据时(步S820:否),中间码转换单元23将对应于此数据的中间码提供给无损压缩单元25(步S821)。其次,中间码转换单元23判断输出的数据是否等于“EOF”。如输出的数据不等于“EOF”(步S835:否),则处理操作退回至步S811,在该处开始下一个数据的处理操作。
另一方面,当获取的数据等于例外字符数据时(步S820:是),中间码转换单元23重复地自语音数据中获取数据,直至除例外字符数据以外的数据出现时止(步S823)。然后将起始位置判别信息,除最后获取的数据以外的数据(除例外字符数据以外的数据),和末尾位置判别信息这些信息的中间码都提供给无损压缩单元25(步S824)。为使中间码转换单元23处理除最后获取的例外字符数据以外的这些数据,它的处理操作退回至步S812。
换言之,在位长指定模式中,当语音数据中有一个未曾分配中间码的字符时,中间码转换单元23向无损压缩单元25提供下列信息:在此字符之前/后加上起始位置判别信息和末尾位置判别信息的中间码。另外,在众多这类字符互相耦合的情况下,在此字符串之前/后加上起始位置判别信息和末尾位置判别信息后的中间码这类信息被提供给无损压缩单元25。
例如,假定语音数据中有标志“αβγは”这类字符串的信息,同时在步S806处自字符表中删去与“α”“β”“γ”有关的信息。在此情况下,如图22中所原理性阐述的,中间码转换单元23向无损压缩单元25提供由起始位置判别信息,“αβγ”和末尾位置判别信息的L(=L′)位中间码及对应于“は”的中间码组成的这类信息。
在根据第三实施例的数据压缩/解压设备中,自语音数据中产生的中间码对照表和中间码数据两者由无损压缩单元25所压缩,压缩的顺序操作如此安排以使陈述句数据压缩操作能够完成。
最后,描述第三实施例的数据压缩/解压设备的数据解压操作。当有指令要求将一定压缩数据(压缩的数据)解压时,无损解压单元26将与用于构成此压缩数据的中间码对照表有关的压缩数据解压。随后无损解压单元26将与中间码数据有关的压缩数据解压。
响应于此解压操作,中间码转回单元27执行一个在图23流程图中规定的处理操作。也即,中间码转回单元27首先自无损解压单元26中获取中间码对照表,然后识别中间码的位数“L”(步S901)。随后自无损解压单元26中获取L位数据(中间码)(步S902)。然后自中间码对照表中读出对应于获取的中间码的信息(步S903)。
此后,当所读信息等于起始位置判别信息时(步S904:起始位置判别信息),中间码转回单元27自无损解压单元26中获取下一个1字节数据或2字节数据(步S905)。接着,如获取的数据不等于末尾位置判别信息(步S906:否),则中间码转回单元27直接将此数据(也即不包括末尾位置判别信息)输出至语音转回单元28(步S907),同时它的处理操作退回至步S905。另一方面,当获取的数据等于末尾位置判别信息时(步S906:是),中间码转回单元27的处理操作退回至步S902而不输出此数据,以使此中间码转回单元27重新以L位为单位开始获取数据。
当自中间码对照表中读取的数据等于字符数判别信息时(步S904:字符数判别信息),中间码转回单元27识别有关连续字符读法的字符数量并将读取的数据转换为1字节字符数判别信息及将它输出至语音转回单元28(步S908)。其次,自无损解压单元26中获取等于所识别字符数量的中间码,并根据中间码对照表输出对应于有关的获取的中间码的数据(步S909)。
此后,中间码转回单元27获取L位数据,即同音异义判别信息,将此同音异义判别信息转换为1字节信息,并将此1字节信息输出至语音转回单元28(步S910)。然后处理操作退回至步S902,在该处重新开始获取L位数据的操作。
在自中间码对照表中所读数据既不等于起始位置判别信息又不等于字符数判别信息的情况下(步S904:其它),中间码转回单元27将此数据输出至语音转回单元28(步S911)。然后当此输出的数据不等于“EOF”时(步S912:否),处理操作退回至步S902处。相反地,当此数据等于“EOF”时(步S912:是),图23中所示处理操作即结束。
如前所描述的,当出现起始位置判别信息的中间码时,中间码转回单元27识别出出现的在末尾位置判别信息之前的数据等于字节单元数据(中国式读法1个汉字字符或例外字符数据)。对于夹在起始位置判别信息中间码与末尾位置判别信息中间码之间的数据而言,此数据被直接地输出至语音转回单元28。此时中间码转回单元27并不输出起始位置判别信息和末尾位置判别信息。还有,对于无法独立地与中间码区别的这类同音异义判别信息而言,根据字符数据判别信息的中间码位置确定它的位置,同时此信息退回至1字节数据。
因此,自语音转换单元22所输出的语音数据中删除所有起始位置判别信息和末尾位置判别信息后的语音数据被提供给语音转回单元28。因此,语音转回单元28如此安排可用与第一实施例的语音转回单元15完全相同的顺序将语音数据转换为陈述句数据。

Claims (32)

1.一种用于将初始文本数据压缩的数据压缩设备,所述初始文本数据所包含的字符信息中单个字符由多字节信息表示,数据压缩设备包括:
用于产生语音文本数据的语音转换单元(12),所述语音文本数据为包含在待压缩的初始文本数据中的每个字符信息由代码字符的种类小于初始文本数据的种类的语音字符信息所替代而得数据;以及
用于将由所述语音转换单元(12)产生的语音文本数据压缩的压缩单元。
2.如权利要求1中所要求的数据压缩设备,其中进一步包括:用于存放语音字符信息的语音字符信息存储单元,其中对于由一个或多个字符信息组成的多个待转换字信息,代码字符的种类小于初始文本数据的种类;
用于自所述初始文本数据中检索存放于所述语音字符信息存储单元中的待转换字信息及还用于自所述语音字符信息存储单元中读取对应于检索的待转换字信息的语音字符信息的检索/读取单元;
所述语音转换单元(12)通过用包含由所述检索/读取单元读取的语音字符信息的待转换字替代信息去替代由所述检索/读取单元检索的所述初始文本数据中待转换字信息以便产生语音文本数据。
3.根据权利要求2所述的的数据压缩设备,其中进一步包括:
用于形成中间码表的中间码表形成单元,所述中间码表用于将一个中间码与由所述语音转换单元(12)产生的语音文本数据中使用的一个信息单元相适配;
通过使用由所述中间码产生单元产生的中间码表将组成所述语音文本数据的各信息单元转换为相应的中间码从而产生中间码文本数据的中间码文本数据产生单元;以及
所述压缩单元,压缩由所述中间码文本数据产生单元产生的中间码文本数据。
4.如权利要求3中所要求的数据压缩设备,其中:
所述中间码表形成单元形成一个中间码表,用于将具有最小位数的中间码分配给所述语音文本数据中使用的每个信息单元,及所述最小位数能够表示这些信息单元。
5.如权利要求3中所要求的数据压缩设备,其中:
所述语音转换单元(12)通过用夹于起始位置判别信息与末尾位置判别信息之间的替代信息去替代预选种类的字符信息从而产生语音文本数据,这标志所述字符信息等于预选种类的字符信息;
所述中间码表形成单元形成一个中间码表,其中中间码不对应于所述语音文本数据内的所述起始位置判别信息和所述末尾位置判别信息两者的随后信息;以及
所述中间码文本数据产生单元不将所述语音文本数据内的所述起始位置判别信息和所述末尾位置判别信息两者的随后信息转换为中间码。
6.如权利要求3中所要求的数据压缩设备,其中:
当所述语音文本数据中所用信息单元种类超过能用预定位数表示信息的数量“N”时,所述中间码表形成单元选择“N-1”项信息单元从而为所述语音文本数据中所用信息单元分配中间码;同时还形成一个中间码表,所述预定位数的其内容互不相同的中间码通过所述中间码表与所述选出的“N-1”项信息单元和所述起始位置判别信息两者相适配;以及
所述中间码文本数据产生单元在产生中间码文本数据时考虑到包含于所述语音文本数据内、中间码通过所述中间码表与其相关的信息;及考虑到未分配到中间码的未分配信息,所述未分配信息由未分配替代信息所替代,所述未分配替代信息等于包含未分配信息、具有与所述起始位置判别信息相关的中间码并能识别末尾位置的这类信息。
7.如权利要求3中所要求的数据压缩设备,其中:
所述语音字符信息存储单元中存放着语音字符信息和同音异义判别信息,相对于所述多个待转换字所述同音异义判别信息用于区别其它适用相同同音异义判别字符信息的待转换字;
所述检索/读取单元读出对应于检索的待转换字的语音字符信息和同音异义判别信息;
所述语音转换单元(12)用包含由所述检索/读取单元读取的语音字符信息和同音异义判别信息的待转换字替代信息去替代所述初始文本数据中的待转换字信息;以及
所述中间码表形成单元形成用于除所述同音异义判别信息以外信息单元的中间码表。
8.如权利要求3中所要求的数据压缩设备,其中:
所述语音字符信息存储单元中存放着语音字符信息和同音异义判别信息,相对于所述从多待转换字所述同音异义判别信息用于区别其它适用相同同音异义判别字符信息的待转换字;
所述检索/读取单元读出对应于检索的待转换字的语音字符信息和同音异义判别信息;以及
所述语音转换单元(12)用包含由所述检索/读取单元读取的语音字符信息和同音异义判别信息的待转换字替代信息去替代所述初始文本数据中的待转换字信息;所述待转换字替代信息在特定位置上包含同音异义判别信息。
9.如权利要求3中所要求的数据压缩设备,其中:
所述语音转换单元(12)将标志由所述检索/读取单元读取的语音字符信息长度的数字值差别信息加至所述待转换字替代信息的首部。
10.如权利要求3中所要求的数据压缩设备,其中:
所述语音转换单元(12)通过用夹于标志待转换字信息的起始和末尾的语音字符信息起始位置判别信息和语音字符信息末尾位置判别信息之间的这类待转换字替代信息去替代所述待转换字信息从而产生语音文本数据。
11.一种数据解压设备,包括:
用于将压缩文本数据解压的解压单元;以及
通过将由所述解压单元恢复的代码字符的种类小于初始文本数据的种类的语音字符信息转换为与它对应的字符信息而产生用于组成所述压缩文本数据初始内容的数据的初始文本数据的语音回转单元。
12.如权利要求11中所要求的数据解压设备,其中进一步包括:
用于存放语音字符信息的语音字符信息存储单元,其中对于由一个或多个字符信息组成的待转换字信息,代码字符的种类小于初始文本数据的种类;
所述解压单元将压缩文本数据解压以输出中间码文本数据;
通过用适配于和所述压缩文本数据有关的中间码表中的中间码的信息去替代由所述解压单元输出的中间码文本数据中所包含的每个中间码从而产生语音文本数据的语音转换单元(12);以及
所述语音回转单元,通过检索由所述语音转换单元(12)产生的语音文本数据中所包含的待转换字替代信息而产生等于所述压缩文本数据初始内容的初始文本数据,及所述检索的待转换字替代信息根据所述待转换字替代信息中所包含的所述语音字符信息由存放于所述语音字符信息存储单元中的待转换字信息所替代。
13.如权利要求12中所要求的数据解压设备,其中:
对于夹于末尾位置判别信息和对应于由所述解压单元输出的起始位置判别信息的一个中间码之间的信息而言,所述语音转换单元(12)直接将所述信息用作语音文本数据的单元而不使用所述中间码表执行替代操作。
14.如权利要求13中所要求的数据解压设备,其中:
所述中间码是这样的码表,其中预选位数的其内容互不相同的中间码与“N-1”项信息单元和起始位置判别信息相适配;以及
对于自与所述解压单元输出的中间码文本数据中包含的所述起始位置判别信息相适配的中间码开始的未分配替代信息而言,所述语音转换单元(12)输出这样的信息,其中自此未分配替代信息中取消加上的用于将所述中间码与它的末尾位置相区别的另一个信息。
15.如权利要求12中所要求的数据解压设备,其中:
所述语音字符信息存储单元中存放着语音字符信息和同音异义判别信息,相对于所述多个待转换字所述同音异义判别信息用于区别其它适用相同同音异义判别字符信息的待转换字;以及
语音回转单元如此操作以便检索由所述语音转换单元(12)产生的语音文本数据中包含的待转换字替代信息,以及根据所述待转换字替代信息中包含的所述语音字符信息,用存放于所述语音字符信息存储单元中的待转换字信息,去替代所述检索的待转换字替代信息。
16.如权利要求12中所要求的数据解压设备,其中:
所述语音字符信息存储单元在其中存放着语音字符信息和同音异义判别信息,所述同音异义判别信息相对于所述多个待转换字信息中的每一个用于将待转换字与具有相同语音字符信息的另一个待转换字区别开;以及
通过检索由所述解压单元产生的语音文本数据中包含的待转换字替代信息而产生等于所述压缩文本数据初始内容的初始文本数据的语音回转单元,及所述检索的待转换字替代信息根据所述待转换字替代信息中所包含的所述语音字符信息由存放于所述语音字符信息存储单元中的待转换字信息所替代。
17.如权利要求12中所要求的数据解压设备,其中:
当所述待转换字替代信息被检索时,所述语音回转单元对自用于标志语音字符信息长度的数字值判别信息开始的这类信息进行检索。
18.如权利要求12中所要求的数据解压设备,其中:
当所述待转换字替代信息被检索时,所述语音回转单元检索夹在语音信息起始位置判别信息与语音信息末尾位置判别信息之间的信息。
19.如权利要求11中所要求的数据解压设备,其中进一步包括:
用于存放语音字符信息的语音字符信息存储单元,其中对于由一个或多个字符信息组成的待转换字信息,代码字符的种类小于初始文本数据的种类;
所述解压单元将压缩文本数据解压以输出语音文本数据;以及
所述语音回转单元通过检索由所述解压单元产生的语音文本数据中所包含的待转换字替代信息而产生等于所述压缩文本数据初始内容的初始文本数据,及所述检索的待转换字替代信息根据所述待转换字替代信息中所包含的所述语音字符信息由存放于所述语音字符信息存储单元中的待转换字信息所替代。
20.一种用于将初始文本数据压缩的数据压缩方法,所述初始文本数据中所包含的字符信息中单个字符由多字节信息表示,所述数据压缩方法包括:
用于产生语音文本数据的语音转换步骤,其中待压缩初始文本数据中包含的每一个字符信息根据所述初始文本数据由代码字符的种类小于初始文本数据的种类的语音字符信息所替代;以及
用于将由所述语音转换步骤所产生的语音文本数据压缩的压缩步骤。
21.如权利要求20中所要求的数据压缩方法,其中进一步包括:
检索/读取步骤,用于在用于存放语音字符信息的字典中检索待转换字信息,对于由一个或多个字符信息组成的一个待转换字信息而言,代码字符的种类小于初始文本数据的种类,所述检索/读取步骤还用于自所述字典中读取对应于检索的待转换字信息的语音字符信息;
所述语音转换步骤使用包含由所述检索/读取步骤读取的语音字符信息的待转换字替代信息去替代由所述检索/读取步骤检索的所述初始文本数据中的待转换字信息从而产生语音文本数据;
用于形成中间码表的中间码表形成步骤,所述中间码表用于使一个中间码与由所述语音转换步骤产生的语音文本数据中使用的每个信息单元相适配;
通过使用由所述中间码表形成步骤产生的中间码表将组成所述语音文本数据的各信息单元转换为对应的中间码从而产生中间码文本数据的中间码文本数据产生步骤;以及
所述压缩步骤将由所述中间码文本数据产生步骤产生的中间码文本数据压缩。
22.如权利要求21中所要求的数据压缩方法,其中:
所述中间码表形成步骤是一个用于形成中间码表的步骤,所述中间码表用于将一具有最小位数的中间码分配给每个在所述语音文本数据中使用的信息单元,及所述最小位数能够表示这些信息单元。
23.如权利要求22中所要求的数据压缩方法,其中:
当所述语音文本数据中使用的信息单元种类超过能由预定位数表示的信息数“N”时,所述中间码表形成步骤用于选择“N-1”项信息单元从而在所述语音文本数据中使用的信息单元中间分配中间码;以及还用于形成中间码表,通过所述中间码表使所述预定位数的其内容互不相同的中间码与所述选择的“N-1”项信息单元还有与所述起始位置判别信息相关;以及
所述中间码文本数据产生步骤是用于产生中间码文本数据的步骤,它的产生方式是通过所述中间码表使中间码与所述语音文本数据中包含的信息相关;及对于没有分配中间码的这类未分配信息而言,所述未分配信息由未分配替代信息所替代,所述未分配替代信息包含未分配信息和具有与所述起始位置判别信息相关的中间码,同时还能识别末尾位置。
24.如权利要求21中所要求的数据压缩方法,其中:
所述检索/读取步骤是相对于所述多个待转换字中的每一个字而言一个用于自存放着语音字符信息和同音异义判别信息的字典中读取对应于待转换字的语音字符信息和同音异义判别信息的步骤,所述同音异义判别信息用于将另一个具有相同语音字符信息的待转换字区别开;以及
所述语音转换步骤是一个使用包含由所述检索/读取步骤读取的语音字符信息和同音异义判别信息的待转换字替代信息去替代所述初始文本数据中的待转换字信息的步骤。
25.如权利要求21中所要求的数据压缩方法,其中:
所述语音转换步骤将标志由所述检索/读取步骤所读取语音字符信息长度的数字值判别信息加至所述待转换字替代信息首部。
26.如权利要求20中所要求的数据压缩方法,其中进一步包括:
使用其中存放语音字符信息的字典自待压缩初始文本数据中检索待转换字信息的检索/读取步骤,对于由一个或多个字符信息组成的待转换字信息而言,代码字符的种类小于初始文本数据的种类;所述字信息存放于所述字典内;及所述检索/读取步骤还用于自所述字典中读取对应于检索的待转换字信息的语音字符信息;
使用包含由所述检索/读取步骤读取的语音字符信息的待转换字替代信息去替代由所述检索/读取步骤检索的所述初始文本数据中的待转换字信息从而产生语音文本数据的语音转换步骤;以及
用于将由所述语音转换步骤产生的语音文本数据压缩的压缩步骤。
27.一种数据解压方法,包括:
一个用于将压缩文本数据解压的解压步骤;以及
一个将由所述解压步骤恢复、代码字符的种类小于初始文本数据的种类的语音字符信息转换为与它对应的字符信息从而产生用于组成所述压缩文本数据初始内容的数据的初始文本数据产生步骤。
28.如权利要求27中所要求的数据解压方法,其中:
所述解压步骤用于将压缩文本数据解压以输出语音文本数据;以及
所述初始文本数据产生步骤通过检索由所述解压步骤产生的语音文本数据中所包含待转换字替代信息而产生等于所述压缩文本数据初始内容的初始文本数据,对于由一个或多个字符信息组成的待转换信息而言,使用字典存放代码字符的种类小于初始文本数据的种类的语音字符信息,及所述检索的待转换字替代信息由对应于在所述待转换字替代信息中包含的所述语音字符信息的待转换字信息所替代。
29.如权利要求28所述的数据解压方法,其中:
所述解压步骤用于将压缩文本数据解压以输出中间码文本数据;
所述语音转换步骤使用适配于与所述压缩文本数据相关的中间码表的信息去替代由所述解压步骤输出的中间码文本数据中所包含的每个中间码从而产生语音文本数据;以及
通过检索由所述语音转换步骤产生的语音文本数据中所包含的待转换字替代信息而产生等于所述压缩文本数据初始内容的初始文本数据产生步骤,对于由一个或多个字符信息组成的待转换字信息而言,使用字典存放代码字符的种类小于初始文本数据的种类的语音字符信息,及所述检索的待转换字替代信息由对应于在所述待转换字替代信息中包含的所述语音字符信息的待转换字信息所替代。
30.如权利要求29中所要求的数据解压方法,其中:
所述中间码表是这样的码表,其中预选位数的其内容互不相同的中间码与“N-1”项信息单元和起始位置判别信息相适配;以及
对于自与所述解压步骤输出的中间码文本数据中包含的所述起始位置判别信息相适配的中间码开始的未分配替代信息而言,所述语音转换步骤输出这样的信息,其中自此未分配替代信息中取消加上的用于将所述中间码与它的末尾位置相区别的另一个信息。
31.如权利要求29中所要求的数据解压方法,其中:
所述初始文本数据产生步骤使用相应的待转换字信息去替代包含由所述解压步骤产生的所述语音文本数据中的语音字符信息和同音异义判别信息的待转换字替代信息,对于所述多个待转换字信息中的每一个而言,使用字典在其中存放语音字符信息和同音异义判别信息,所述同音异义判别信息用于将待转换字与另一个具有相同语音字符信息的待转换字区别开。
32.如权利要求29中所要求的数据解压方法,其中:
所述初始文本数据产生步骤检索夹于起始位置判别信息和末尾位置判别信息之间的信息从而检索所述待转换字替代信息。
CNB981056881A 1997-03-26 1998-03-23 数据压缩/解压设备/方法 Expired - Fee Related CN1181618C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7395997 1997-03-26
JP073959/97 1997-03-26
JP073959/1997 1997-03-26

Publications (2)

Publication Number Publication Date
CN1194504A CN1194504A (zh) 1998-09-30
CN1181618C true CN1181618C (zh) 2004-12-22

Family

ID=13533136

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB981056881A Expired - Fee Related CN1181618C (zh) 1997-03-26 1998-03-23 数据压缩/解压设备/方法

Country Status (3)

Country Link
US (1) US6094634A (zh)
KR (1) KR100490240B1 (zh)
CN (1) CN1181618C (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム
US6624761B2 (en) 1998-12-11 2003-09-23 Realtime Data, Llc Content independent data compression method and system
JP3696745B2 (ja) 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6604158B1 (en) 1999-03-11 2003-08-05 Realtime Data, Llc System and methods for accelerated data storage and retrieval
US6601104B1 (en) 1999-03-11 2003-07-29 Realtime Data Llc System and methods for accelerated data storage and retrieval
CN1288663C (zh) * 1999-05-28 2006-12-06 松下电器产业株式会社 把数据记录在半导体存储卡上的记录装置以及重放装置
JP3794882B2 (ja) * 1999-10-28 2006-07-12 富士通株式会社 情報処理装置
DE60039989D1 (de) 1999-12-28 2008-10-02 Matsushita Electric Ind Co Ltd Informationsaufzeichnungsmedium und zugangseinrichtung
US20010047473A1 (en) 2000-02-03 2001-11-29 Realtime Data, Llc Systems and methods for computer initialization
US9143546B2 (en) * 2000-10-03 2015-09-22 Realtime Data Llc System and method for data feed acceleration and encryption
US7417568B2 (en) 2000-10-03 2008-08-26 Realtime Data Llc System and method for data feed acceleration and encryption
US8692695B2 (en) 2000-10-03 2014-04-08 Realtime Data, Llc Methods for encoding and decoding data
US7054953B1 (en) * 2000-11-07 2006-05-30 Ui Evolution, Inc. Method and apparatus for sending and receiving a data structure in a constituting element occurrence frequency based compressed form
US7386046B2 (en) 2001-02-13 2008-06-10 Realtime Data Llc Bandwidth sensitive data compression and decompression
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
WO2005033909A2 (en) * 2003-10-08 2005-04-14 Any Language Communications Inc. Relationship analysis system and method for semantic disambiguation of natural language
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US7657421B2 (en) 2006-06-28 2010-02-02 International Business Machines Corporation System and method for identifying and defining idioms
CN102033859B (zh) * 2009-09-28 2013-04-10 佳能株式会社 词典压缩和词处理方法及***、文语转换***、电子设备
WO2013037069A1 (en) * 2011-09-15 2013-03-21 Libre Communications Inc. Method, apparatus and computer program product for video compression
CN105573276B (zh) * 2015-12-25 2019-03-05 华北电力科学研究院有限责任公司 一种现场总线信息传输方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5357546A (en) * 1992-07-31 1994-10-18 International Business Machines Corporation Multimode and multiple character string run length encoding method and apparatus
WO1994017518A1 (en) * 1993-01-21 1994-08-04 Apple Computer, Inc. Text-to-speech system using vector quantization based speech encoding/decoding
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
JP3499671B2 (ja) * 1996-02-09 2004-02-23 富士通株式会社 データ圧縮装置及びデータ復元装置

Also Published As

Publication number Publication date
US6094634A (en) 2000-07-25
KR100490240B1 (ko) 2005-09-30
CN1194504A (zh) 1998-09-30
KR19980080230A (ko) 1998-11-25

Similar Documents

Publication Publication Date Title
CN1181618C (zh) 数据压缩/解压设备/方法
CN1168216C (zh) 文档管理设备,数据压缩方法和数据解压缩方法
CN1113305C (zh) 语言处理装置和方法
CN1161701C (zh) 语言识别装置和语言识别方法
CN100338570C (zh) 用于数据的并行右移位合并的方法和装置
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
CN1703692A (zh) 创建和使用紧凑语言数据的***和方法
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1117160A (zh) 产生未知字母之字模的方法与***
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法***
CN1097883A (zh) 字典检索装置
CN1040276A (zh) 简繁字根汉字输入技术及其键盘
CN1266246A (zh) 输入字符串的设备和方法
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
CN1095560C (zh) 修改汉字转换结果的***
JP4852313B2 (ja) ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
CN114528944B (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN101667099A (zh) 一种连笔键盘文字输入的方法和设备
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体
CN102033859B (zh) 词典压缩和词处理方法及***、文语转换***、电子设备
JP2006086906A (ja) 電子透かしの埋め込み方法および抽出方法
CN114218895B (zh) 对uof文档进行转换的方法
JP2005087069A (ja) 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置
JP4329493B2 (ja) 辞書データ圧縮装置、電子辞書装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20041222

Termination date: 20140323