CN1380620A - 图书索引自动编排方法 - Google Patents
图书索引自动编排方法 Download PDFInfo
- Publication number
- CN1380620A CN1380620A CN 01144430 CN01144430A CN1380620A CN 1380620 A CN1380620 A CN 1380620A CN 01144430 CN01144430 CN 01144430 CN 01144430 A CN01144430 A CN 01144430A CN 1380620 A CN1380620 A CN 1380620A
- Authority
- CN
- China
- Prior art keywords
- file
- index
- coding
- entry
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种图书索引自动编排方法,是将需做索引的字或词条在文稿正文中进行标记,并提取出来生成目录文件B,同时也生成相对应的页码文件C;从库文件A中查找到目录文件B中每个文字的对应编码,与B文件组合生成编码文件D;编码文件D与页码文件C对应联结后生成一个前期文件E,根据编码对前期文件E进行排序生成排序文件F;最后提取排序文件F中的字或词条以及相对应的页码,生成索引文件G。本发明可以根据多种编码形式,生成多种索引文件。索引文件的生成快速、准确、完全自动化,大大地方便了索引的编辑工作。
Description
一、技术领域
本发明涉及一种图书索引的编排方法,特别是一种对文稿进行处理后直接获得索引文件的方法。
二、背景技术
在图书编辑特别是工具书、字典、词典类图书的编辑工作中,索引的编排是一项繁琐的工程。到目前为止,还没有见到一种从编辑的图书中自动提取词条编排索引的方法,现行的索引编排仍然是采取手工撷取的方法,即人工从编辑文稿中收集索引条目及所处页码,编辑成索引文件。如果随后编辑文稿需要发生文字增删,词目顺序前后调整改变,就会导致整个索引字、词条及其对应页码的变化,需要重新编辑索引文件;而且手工编排索引文件过程中也比较容易出现缺漏或丢失某些词条的现象,造成索引文件错误。因此,手工操作编排索引文件的方法不但费时、费力,而且编排不准确,出错率高。
三、发明内容
本发明的目的是克服手工编排索引方法的不足,提供一种能够快速、自动编排索引文件的方法。
本发明图书索引自动编排方法,由下述步骤组成:
1)建立一个包含有文字及其相对应的编码的库文件A。
在库文件A包括有简体中文、繁体中文、西文等文字,以及每个文字相对应的汉字音序编码,汉字笔划编码、西文编码等编码。
2)对编辑文稿正文中需要做索引的字或词条进行标记。
对索引的字或词条进行标记的工作可以在编辑文稿正文或者正文排版的过程中进行,例如将索引的字或词条排为5号字,或者黑体字等,就是一种标记。
3)将所有标记的字或词条从文稿正文中提取出来,生成目录文件B。
4)同时针对所标记的字或词条在文稿正文中所处的页码位置,产生一个对应的页码锁定标记,生成页码文件C。
该页码文件C中的每个页码与目录文件B中提取的字或词条呈一一对应关系。如果文稿正文发生变化,字或词条所处的页码改变,则页码文件C中的对应页码也会自动改变,随时与文稿正文保持一致。
5)依次搜寻目录文件B中每个字或词条在库文件A中对应的编码,文件B与对应编码组合生成编码文件D。
该编码文件D中实际上包含了目录文件B中的所有内容并且增加了目录文件B中所有文字在库文件A中搜寻到的对应编码。编码文件D的生成过程为:打开目录文件B,逐条逐字地从库文件A中寻找对应编码,即针对每一个词条,逐字从库文件A中寻找该文字相对应的编码,并且将寻找到的该词条中每个文字的编码依次排列后存贮在该词条之后,形成词条的编码,再编辑下一词条的编码,最终生成编码文件D。如果词条中的某一文字在库文件A中没有收录,即没有该文字对应的编码,则自动赋予该文字一个指定的编码,例如“60”,该指定的编码在与其余任何编码进行排序时一定是会排到最后。
6)将编码文件D与页码文件C对应联结,生成索引的前期文件E。
前期文件E中包含有需要索引的每个字或词条,该字或词条的编码或组合编码,以及该字或词条在文稿正文中所处的页码三项内容。
7)根据字或词条相对应的编码,按照规定的编码排列顺序,对前期文件E进行重新排序,生成排序文件F。
根据不同的编码,规定不同的排列顺序,例如音序编码规定的排列顺序为按照英文字母顺序和数字顺序排列,笔划排列顺序为先排数字,再排小写英文字母,最后排大写英文字母的顺序。
8)提取排序文件F中的字或词条,以及相对应的页码,生成索引文件G。
根据需要,可以根据不同的编码,最终生成不同的索引文件。例如根据汉字音序编码生成汉字音序索引,根据汉字笔划编码生成汉字笔划索引,根据西文编码生成西文索引,或者结合西文和某一中文编码生成中西文结合索引等等。
其中,汉字音序编码是将该汉字的汉语拼音与音调组合在一起生成音序编码。汉语拼音对应的编码即为汉语拼音本身,音调对应的编码为:
对应编码 1 2 3 4
例如:安的音序编码为an1,备的音序编码为bei4,陪的间音序编码为pei2。
汉字笔划编码由笔划数编码和笔划顺序编码组合生成,其中笔划数编码是每个汉字的实际笔划数,当汉字的笔划数为1-9时,编码对应为1-9,当汉字的笔划数为两位数时,用小写英文字母代替数字编码,如10→a,11→b,12→c,依次类推。小写英文字母用完后,接着以大写英文字母编码。笔划顺序相对应的编码为:
笔划顺序 编码
一 1 1
中 4 2512
说 9 454325135
编 c 551451325122
“中学生”的笔划编码为42512844335551531121。
西文编码即为西文本身,同时有大小写之区分。
本发明利用计算机对编辑文稿正文自动进行索引文件的编排,解决了传统手工编排索引文件操作繁琐、费工费时的不足,编排方法具有相当的灵活性、随意性和随机性,生成的索引文件全面,准确,索引文件的生成方便、快捷,大大方便了索引的编辑工作。
本发明的索引文件是根据文稿正文的内容产生的,如果文稿正文的内容进行了某些增删,调序等变化,索引文件的字、词条及对应页码也会自动进行调整,始终保持索引与文稿正文的一致性,不仅文稿正文的调整对索引文件不产生任何影响,而且生成的索引文件准确、完整,不会有遗漏现象。
本发明可以根据需要,随机灵活地生成多种形式的索引文件,以满足不同的要求。
四、附图说明
图1是本发明中生成目录文件B的流程图;
图2是本发明中由目录文件B生成索引文件G的流程图。
五、具体实施方式
实施例1
图1是目录文件B的生成流程图。首先确定一篇已经将索引词条进行标记的文稿文件T1,接着初始化一个存储空间M1,用于存放从T1中提取的词条N1。先测试T1是否结束,如图结论为“否”,初始化N1,开始查找标记的起始位置,并定义为P1,接着查找标记的终止位置,并定义为P2,将P1、P2之间的内容定义为N1,从T1中提取出来,存贮于M1中,如此进行循环,直至对文稿文件T1操作结束时,生成目录文件B。如果查找起始位置或终止位置时结论为“否”,则直接生成目录文件B。
在生成目录文件B时,对文稿文件T1编辑排版同时生成一个页码文件C,页码文件C中的页码与目录文件B中的词条一一对应。
图2是由目录文件B生成索引文件G的流程图。首先打开库文件A和目录文件B,并测试目录文件B是否结束,如果结论为“否”,则分别初始化存贮空间C1、H1和B1,接着测试指针是否指向目录文件B当前词条的词尾,如果结论为“否”,将当前词条的当前文字存入H1,从库文件A中查找H1,并将H1对应的编码赋予B1,赋予C1=C1+B1,接着查找下一文字的编码,继续上述操作直至该词条所有文字查找结束。如果结论为“是”,将C1存放于目录文件B中相应词条的后面。从目录文件B中提取下一词条再进行上述循环。如果库文件A中没有目录文件B中某一文字的编码,则自动赋予C1=C1+“60”,再继续循环操作。查找完所有词条的所有文字的编码后,生成一个编码文件D。该编码文件D含有从文稿中提取的字或词条生成的目录文件B及其对应的编码。
打开页码文件C,联结编码文件D和页码文件C,生成一个前期文件E。
按照编码根据排序方法(如音序、笔划序、西文序等)对前期文件E进行排序,生成排序文件F,再提取排序文件F中的词条和页码,生成最终的索引文件G,最后,依据编辑格式要求,对索引文件G进行格式编辑,最终形成索引文件。
实施例2
实施例2给出一个具体的词条编排实例。
例如,从文稿正文中提取到词条“安”、“备”、“到”、“按”、“陪”生成目录文件B,同时根据上述词条在文稿正文中的页码位置生成一个页码文件C,具体为“1”、“2”、“3、”“4”、“5”。从含有音序编码的库文件A中查找到词条相对应的编码分别为“an1”、“bei4”、“dao4”、“an4”、“pei2”,把上述编码逐一放在目录文件B相应词条后,形成一个编码文件D如下:
安 an1
备 bei4
到 dao4
按 an4
陪 pei2
再将编码文件D与页码文件C组合,生成一个前期文件E如下:
安 an1 1
备 bei4 2
到 dao4 3
按 an4 4
陪 pei2 5
根据音序排列顺序,对前期文件E排序,生成如下的排序文件F:
安 an1 1
按 an4 4
备 bei4 2
到 dao4 3
陪 pei2 5
提取排序文件F中的词条和页码,最后生成音序索引文件G:
安 1
按 4
备 2
到 3
陪 5
实施例3
从文稿正文中提取到词条“中学生学习报”、“中学生”、“中学生学习园地”和“中学生学习园”,同时得到其相应页码为“17”“36”“49”“5”,从汉字笔划编码库文件中查找并组合成上述词条的笔划编码,与词条及页码一起形成前期文件:
中学生学习报 4251284433555153112184433555135171215345 17
中学生 42512844335551531121 36
中学生学习园地 425128443355515311218443355513541725113516121525 49
中学生学习园 42512844335551531121844335551354172511351 5
排序文件为:
中学生 42512844335551531121 36
中学生学习报 4251284433555153112184433555135171215345 17
中学生学习园 42512844335551531121844335551354172511351 5
中学生学习园地 425128443355515311218443355513541725113516121525 49
最后的汉字笔划索引文件为:
中学生 36
中学生学习报 17
中学生学习园 5
中学生学习园地 49
本发明中,还可以根据页码编排索引文件,或者根据西文顺序、中西文结合顺序、音序顺序与笔划顺序相结合等方案实施多种索引文件的编排。
Claims (8)
1、一种图书索引自动编排方法,其特征是由下述步骤组成:
1)建立一个包含有文字及其相对应的编码的库文件A;
2)对编辑文稿正文中需要做索引的字或词条进行标记;
3)将所有标记的字或词条从文稿正文中提取出来,生成目录文件B;
4)同时针对所标记的字或词条在文稿正文中所处的页码位置,产生一个对应的页码锁定标记,生成页码文件C;
5)依次搜寻目录文件B中每个字或词条在库文件A中对应的编码,与B文件组合生成编码文件D;
6)将编码文件D与页码文件C对应联结,生成索引的前期文件E;
7)根据字或词条相对应的编码,按照规定的编码排列顺序,对前期文件E进行重新排序,生成排序文件F;
8)提取排序文件F中的字或词条,以及相对应的页码,生成索引文件G;
2、根据权利要求1所述的图书索引自动编排方法,其特征是库文件A中的文字包括有简体中文、繁体中文和西文。
3、根据权利要求1所述的图书索引自动编排方法,其特征是库文件A中的文字相对应的编码包括有汉字音序编码,汉字笔划编码、西文编码中的一种或几种。
6、根据权利要求1或3所述的图书索引自动编排方法,其特征是所述的西文编码即为西文本身。
7、根据权利要求1所述的图书索引自动编排方法,其特征是所述的词条的编码是将词条中每个文字的编码依次排列形成词条的编码。
8、根据权利要求1所述的图书索引自动编排方法,其特征是生成的索引文件可以是汉字音序索引、汉字笔划索引、汉字音序、笔划结合索引、西文索引、中西文结合索引中的一种或几种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01144430 CN1380620A (zh) | 2001-12-18 | 2001-12-18 | 图书索引自动编排方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01144430 CN1380620A (zh) | 2001-12-18 | 2001-12-18 | 图书索引自动编排方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1380620A true CN1380620A (zh) | 2002-11-20 |
Family
ID=4677573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01144430 Pending CN1380620A (zh) | 2001-12-18 | 2001-12-18 | 图书索引自动编排方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1380620A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN103810199A (zh) * | 2012-11-12 | 2014-05-21 | 北大方正集团有限公司 | 一种目录的制作方法及装置 |
CN103927339A (zh) * | 2014-03-27 | 2014-07-16 | 北大方正集团有限公司 | 知识重组***和知识重组方法 |
CN108205578A (zh) * | 2016-12-20 | 2018-06-26 | 北大方正集团有限公司 | 索引生成方法及装置 |
CN112380814A (zh) * | 2020-11-04 | 2021-02-19 | 福建亿榕信息技术有限公司 | 一种基于国产操作***的信息稿件自动组合编刊方法 |
CN117633143A (zh) * | 2023-11-29 | 2024-03-01 | 雅昌文化(集团)有限公司 | 一种中文词条多条件复合的排序方法 |
-
2001
- 2001-12-18 CN CN 01144430 patent/CN1380620A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810199A (zh) * | 2012-11-12 | 2014-05-21 | 北大方正集团有限公司 | 一种目录的制作方法及装置 |
CN103810199B (zh) * | 2012-11-12 | 2017-07-14 | 北大方正集团有限公司 | 一种目录的制作方法及装置 |
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN103729402B (zh) * | 2013-11-22 | 2017-01-18 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN103927339A (zh) * | 2014-03-27 | 2014-07-16 | 北大方正集团有限公司 | 知识重组***和知识重组方法 |
CN103927339B (zh) * | 2014-03-27 | 2017-10-31 | 北大方正集团有限公司 | 知识重组***和知识重组方法 |
CN108205578A (zh) * | 2016-12-20 | 2018-06-26 | 北大方正集团有限公司 | 索引生成方法及装置 |
CN112380814A (zh) * | 2020-11-04 | 2021-02-19 | 福建亿榕信息技术有限公司 | 一种基于国产操作***的信息稿件自动组合编刊方法 |
CN112380814B (zh) * | 2020-11-04 | 2022-08-19 | 福建亿榕信息技术有限公司 | 一种基于国产操作***的信息稿件自动组合编刊方法 |
CN117633143A (zh) * | 2023-11-29 | 2024-03-01 | 雅昌文化(集团)有限公司 | 一种中文词条多条件复合的排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入*** | |
CN1258132C (zh) | 用于进行字母符号输入的小键盘布局 | |
CN1095560C (zh) | 修改汉字转换结果的*** | |
CN1434365A (zh) | 中文字形输入装置及中文字形输入法 | |
CN1380620A (zh) | 图书索引自动编排方法 | |
CN1136496C (zh) | 简化拼音-触摸屏鼠标式汉字输入方法 | |
CN1119739C (zh) | 五笔数码键盘汉字电脑输入法及其键盘 | |
CN1302415C (zh) | 一种英汉翻译机器的实现方法 | |
CN1731389A (zh) | 盲汉对照编辑排版***及编辑排版方法 | |
CN100339808C (zh) | U码汉字输入法 | |
CN1136497C (zh) | 部件-触摸屏鼠标式汉字输入方法 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN1052200A (zh) | 音形义字词兼容编码系列及键盘 | |
CN1246758C (zh) | 计算机四角码汉字输入法及其键盘 | |
CN1142474C (zh) | 字典码汉字输入法 | |
CN1103181A (zh) | 多键并击式高速汉字输入方法及键盘装置 | |
CN1056007C (zh) | 一种以汉字音角特征为信息元的计算机汉字输入方法 | |
CN1059969C (zh) | “音调形”汉字编码输入方法 | |
CN1288185A (zh) | 音形字理码汉字输入方法 | |
CN1104673C (zh) | 计算机汉字字根笔画分段输入方法 | |
CN1207648C (zh) | 五三码及其键盘 | |
CN1100288C (zh) | 四笔序音计算机汉字键盘输入方法 | |
CN1038888A (zh) | 音形义兼容与汉拼字联词编码系列及键盘 | |
CN1114066A (zh) | 意群输入、编辑和字词语码 | |
CN1081773A (zh) | “多声递推联想”汉语词字编码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |