CN108108447B - 电子缩略书生成方法、电子设备及计算机存储介质 - Google Patents
电子缩略书生成方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN108108447B CN108108447B CN201711447391.1A CN201711447391A CN108108447B CN 108108447 B CN108108447 B CN 108108447B CN 201711447391 A CN201711447391 A CN 201711447391A CN 108108447 B CN108108447 B CN 108108447B
- Authority
- CN
- China
- Prior art keywords
- target
- abbreviation
- level
- candidate
- chapters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电子缩略书生成方法、电子设备及计算机存储介质。其中方法包括:确定电子书中包含的各词语,以及各词语的词性;依据用户操作确定目标缩略规则;采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。实现了在不影响原文理解、原文信息量以及阅读通顺程度或影响甚微的情况下,通过自动对词语进行删减的缩略书生成方式,无需后期人工的介入,节省人工成本的投入,提高缩略书的生成效率;同时能够使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书,根据用于的选择随时随地的生成符合用户需求的电子缩略书供用户阅读,提高用户的阅读体验。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种电子缩略书生成方法、电子设备及计算机存储介质。
背景技术
随着现代人生活节奏的加快,越来越多的人们无法花费大量时间对几十万字的电子书进行通读,而选择用较短的时间对书籍提炼后的有价值的信息进行阅读。
目前,对于电子书内容的提炼包括两种方式:其一是,通过视频或音频录制的方式,由主讲人用较短的时间来讲完一本书中的内容,例如十分钟;其二为,通过文字的形式,将电子书浓缩成用户仅用半小时或一小时等不等的时间来完成阅读的缩略书籍,例如知乎的一小时阅读项目、芝士阅读和拿铁阅读等。
然而,现有技术都是通过后期人为的方式去总结、概括和提炼书籍中的内容,导致书籍被提炼后的内容融合了提炼者的思想,主观性较强,影响用户本人对书籍内容的理解。此外,由于人工提炼的方式时间消耗较大,人工成本较高,因此通常对于一本书籍提炼后的缩略书只有一个版本,无法使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书进行阅读,降低了用户的阅读体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子缩略书生成方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种电子缩略书生成方法,用于向用户提供符合用户需求的电子缩略书,该方法包括:确定电子书中包含的各词语,以及各词语的词性;依据用户操作确定目标缩略规则;采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;依据用户操作确定目标缩略规则;采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;依据用户操作确定目标缩略规则;采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
根据本发明的电子缩略书生成方法、电子设备及计算机存储介质,提供了一种电子缩略书的自动生成方式,可以根据电子书中各词语及其词性,采用指定的目标缩略规则,自动地对电子书中包含的各词语作删减处理得到缩略书。实现了在不影响原文理解、原文信息量以及阅读通顺程度或影响甚微的情况下,通过自动对词语进行删减的缩略书生成方式,无需后期人工的介入,节省人工成本的投入,提高缩略书的生成效率;同时能够使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书,根据用于的选择随时随地的生成符合用户需求的电子缩略书供用户阅读,提高用户的阅读体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的电子缩略书生成方法的流程图;
图2示出了本发明实施例二提供的电子缩略书生成方法的流程图;
图3示出了本发明实施例三提供的确定目标缩略规则所适用的电子书内容的流程图;
图4示出了根据本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的电子缩略书生成方法的流程图,用于根据用户需求自动生成电子缩略书。如图1所示,该方法包括以下步骤:
步骤S101,确定电子书中包含的各词语,以及各词语的词性。
在本发明中,电子书是指从已植入或下载数字化文字、图片、声音、影像等讯息内容的集存储和显示终端于一体的阅读器中可以查阅到的将文字、图片、声音、影像等讯息内容数字化的出版物。在本实施例中,电子书主要是指以文字或图片的形式来显示某书籍对应的数字化的出版物。由于电子书是纸质书籍对应的数字化的出版物,以及网络出版或发布的数字化的书籍等文字表现形式,因此电子书主要由数以万计的词语组合而成。相应的,电子缩略书生成的首要步骤是对电子书中的内容进行分词处理,将完整的电子书内容拆分成数以万计的独立存在的词语,进而得到电子书中的所有词语,并对各个词语进行词性的分析。
具体的,词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。现代汉语的词的词性分类包括两类,即实词和虚词。实词是指词语中含有实际意义的词,能够单独充当句子成分,即有词汇意义和语法意义的词。虚词泛指没有完整意义的词汇,但是是有语法意义或功能的词,且必须依附于实词或语句才可以表示语法意义,但不能单独成句和不能单独作语法成分。其中,实词进一步包括:名词、动词、形容词、区别词、代词、数词和量词共七种实词词性,虚词进一步包括:副词、介词、连词、助词、语气词、拟声词和叹词共七种虚词词性。而不同种类的词性又可能存在进一步的分类,例如副词是指在句子中表示行为或状态特征的词,用以修饰动词、形容词、其他副词或全句,表示时间、地点、程度、方式等概念,因此副词可分为:程度副词、范围副词、时间/频率副词、肯定副词、否定副词、情态/方式副词、语气副词、地点副词等。
在本步骤中,可以采用词性标注的方法对电子书中的各个词语进行词性的识别和标注。词性标注,又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词的具体词性的过程。例如,可以采用隐马尔科夫模型来训练词性标注模型,实现自动识别并标注电子书中各个词语的词性。
示例性的,对于一个完整的句子“教授正在教授自然语言处理课程”,确定其中的各词语以及各词语的词性。首先对该句子进行分词处理,可以得到分词结果为:“教授”、“正在”、“教授”、“自然语言”、“处理”和“课程”共六个词语。其次对分词结果进行词性标注,可以得到标注结果为:第一个“教授”一词为名词,“正在”一词为副词,第二个“教授”一词为动词,“自然语言”一词为名词,“处理”一词为名词,“课程”一词为名词。
步骤S102,依据用户操作确定目标缩略规则。
在本发明中,用户可以根据自己的时间安排以及篇幅喜好等需求对电子书界面进行操作,例如篇幅长度为原文的比例值、篇幅缩减级别、缩减范围、指定某部分内容的具体缩减程度以及指定全文或部分内容恢复原文等操作。用户可以通过在界面的指定对话框中手动输入参数来设定删减程度,也可以通过拖动界面上的数轴例如比例轴来调整删减程度,以此来结合用户的具体需求对电子书的展现形式进行具体的限定。
在本步骤中,依据电子书中各词语的词性,可以判断各词语在文中的重要程度。根据各词语的重要程度,对书籍中不重要的词语进行剔除,达到缩短书籍字数的目的。其中不重要的词语是指剔除后不影响原文理解或原文理解影响不大、剔除后不影响阅读通顺程度或通顺程度影响不大、剔除后不损失原文信息量或信息量损失不大的词语。此外,对于不同篇幅长度的缩略书,选择剔除的词语的种类和数量也会不同。理论上,篇幅长度越短的缩略书剔除的字词种类和数量越多,原文语义的损失也相对越大。在着眼于文字层面的数量缩减时,这种语义损失是不可避免的。因此,在对电子书进行缩减时,应该根据用户的需求,在原版电子书还原度以及缩略书对应的用户阅读时间之间做好权衡,以在完成篇幅缩减的情况下,提供给用户尽可能符合原文含义的电子缩略书。
具体的,不同词性的词语被剔除后,原文语义损失的程度是不同的。例如,形容词被剔除的影响就要小于代词被踢除的影响,而代词被踢除的影响又要小于连词被踢除的影响。因此,可以对不同的缩略程度以及各词语的词性制定不同的词语删减规则,以此来明确对电子书全文或者部分目标内容的目标缩略规则。
示例性的,对电子书制作不同篇幅长度版本的缩略书。例如篇幅长度为原文长度的90%、70%、60%和40%四个级别的缩略书,按照对该书籍通常的阅读时间长度计算,假设读完原文需要大约10个小时的时间,则对应缩略书的阅读时间大约为9个小时、7个小时、6个小时以及4个小时。用户在阅读该书籍的电子书时,应用程序(Application,APP)通过选择界面显示四个级别的选项,并给出每个级别对应的阅读时长和文字数量,供用户参考和选择。假设对于篇幅长度为原文长度的90%的缩略书的生成方式,由于保留的篇幅长度较长,因此只将对全文影响最小的词性对应的词语删除即可,例如可以制定只删除电子书中的形容词,以明确对于篇幅长度为原文长度的90%的缩略书的缩略规则。
步骤S103,采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
在本步骤中,根据上述步骤中对电子书的分词结果、各词语的词性以及确定的目标缩略规则,即可按照缩略规则完成对电子书中包含的各词语作删减处理得到缩略书。
具体地,可以采用指定的缩略规则对全文进行统一的删减处理;也可以在全文进行过一次删减处理后的删减结果中,对指定的段落或章节进行二次删减处理。由于通常一本书的开头章节和结尾章节在情节上比较重要,因此为了减少删减处理对电子书带来的影响,尽量不对开头章节和结尾章节做过多删减。其中,在避开开头的前数个章节和结尾的数个章节后,可以对其间的所有章节中随机选取连续数个章节进行二次删减处理,避免在全文中缩减程度频繁变换而影响电子书阅读的流畅性。此外,可以根据全网用户发表想法、批注、留言和分享的次数等信息进行统计,确定该书籍的热门章节,并将这些章节作为重点章节尽量多保留其原有信息,不做进一步的二次删减处理。因此,可以从避开热门章节的非热门章节中选择数个章节进行二次删减处理。虽然这种做法并不能保证择的数个章节是连续的,但为尽量保留关键信息做出让步,允许对非连续的数个不包含关键信息的章节进行二次删减处理。值得注意的是,一次删减处理和二次删减处理最好选择相邻缩略程度的缩略规则,以免缩略程度差距太大而使用户感到某些章节内容相对详实,某些章节内容过于省略,影响用户的阅读感受。
根据本实施例提供的电子缩略书生成方法,可以用于根据用户需求自动生成电子缩略书。首先根据电子书中的内容,确定电子书中的所有词语及各词语的词性;其次根据用户的需求,确定对电子书中各词语进行删减的目标缩略规则;最后采用指定的目标缩略规则,以电子书中的所有词语及各词语的词性,自动地对电子书中包含的各词语作相应的删减处理,以获得符合用户需求的电子缩略书。利用本实施例的电子缩略书生成方法,可以用于根据用户需求自动生成电子缩略书,向用户提供符合用户需求的电子缩略书。实现了在不影响原文理解、原文信息量以及阅读通顺程度或影响甚微的情况下,通过自动对词语进行删减的缩略书生成方式,无需后期人工的介入,节省人工成本的投入,提高缩略书的生成效率;同时能够使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书,根据用于的选择随时随地的生成符合用户需求的电子缩略书供用户阅读,提高用户的阅读体验。
实施例二
图2示出了本发明实施例二提供的电子缩略书生成方法的流程图。本实施例应用于根据用户需求自动生成电子缩略书的场景,如图2所示,该方法包括:
步骤S201,对所述电子书进行分词得到所述电子书中包含的各词语。
在本步骤中,分词是指将一个汉字序列切分成一个一个单独的词语。即将完整的电子书内容拆分成数以万计的独立存在的词语,进而得到电子书中的所有词语,并对各个词语进行分析。示例性的,对于一个完整的句子“教授正在教授自然语言处理课程”,对其进行分词处理,可以得到分词结果为:“教授”、“正在”、“教授”、“自然语言”、“处理”和“课程”共六个词语。其中虽然包含字面上完全相同的词语,但其具体含义可能完全不同,因此有必要对分词结果中各个词语进行词性的分析。
步骤S202,依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
在本步骤中,词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,即确定每个词语的具体词性的过程。本实施例可以采用隐马尔科夫模型,在语料库、词性集和词性词频统计的基础上,对词性标注模型进行训练。其中,可以通过搜集大量文章和书籍来自建语料库,也可以采用前人总结的语料库,例如2014年***切分语料库;词性集的选取可以选择例如《ICTPOS3.0汉语词性标记集》或者《现代汉语语料库加工规范——词语切分与词性标注》等词性集,可以直接采用各个词性集,也可以对各词性集进行总结和补充得到更为完善的词性集;可以通过对单词词性频次词典获得核心词典词频。最终,利用训练好的词性标注模型对电子书中包含的各词语进行词性标注。
示例性的,在上述示例中,对于一个完整的句子“教授正在教授自然语言处理课程”进行分词处理,得到分词结果为:“教授”、“正在”、“教授”、“自然语言”、“处理”和“课程”共六个词语。利用基于隐马尔科夫模型训练生成的词性标注模型对分词结果中的各个词语进行词性标注,可以得到例如“教授/nnt,正在/d,教授/v,自然语言/gm,处理/vn,课程/n”的词性标注结果。根据词性集中对各类型词语的标注,能够确定第一个“教授”一词为职务职称即名词,“正在”一词为副词,第二个“教授”一词为动词,“自然语言”一词为数学相关词汇即名词,“处理”一词为名动词即名词,“课程”一词为名词。
步骤S203,依据用户操作确定目标缩略等级。
在本发明中,可以为电子书的缩略制定不同的等级,以便用户直观地选择符合自身需求的缩略程度对应的缩略等级。本实施例为电子书的缩略可以制定四个候选缩略等级,其中第一候选缩略等级的缩减程度最低,第四候选缩略等级的缩减程度最高。例如,由第一候选缩略等级至第四候选缩略等级,分别为将电子书的篇幅长度缩减至为原文篇幅长度的90%左右、70%左右、50%至60%区间以及20%至30%区间范围,根据各缩略等级对应的缩略程度,供用户进行粗略的选择。并根据用户的操作确定用户所选的候选缩略等级为目标缩略等级。
可选的,获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
在本步骤中,由于为了用户可以直观地选择缩略程度,为用户预先制定了多个候选缩略等级。因此,用户可以直接选择数个候选缩略等级中的至少一个作为目标缩略等级,为电子书进行与该目标缩略等级一致的删减处理。例如在上述示例中,当用户选择第四候选缩略等级为目标缩略等级时,则将电子书删减为篇幅长度为原文长度的20%至30%。也可以选择多个候选缩略等级作为目标缩略等级,例如在上述示例中,当用户选择第三候选缩略等级和第四候选缩略等级为目标缩略等级时,可以采用第三候选缩略等级对全文进行第一次的删减处理,采用第四候选缩略等级对部分文字内容进行第二次的删减处理,进而可以得到篇幅长度为原文长度的介于30%至50%的电子缩略书。
可选的,获取用户设置的目标保留比例值;从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
除此之外,在本步骤中,用户还可以自己设置具体数值的删减程度,但此删减程度不一定与预先制定的候选缩略等级完全一致,也许是介于两个候选缩略等级之间。因此,可以为用户提供一定的保留比例范围,例如保留比例的范围介于原文比例至对全部原文使用第四级缩略规则的保留比例之间,例如在上述示例中,保留比例范围可以为20%—100%。因此,在该区间内用户可自由设定保留比例,APP在获取到用户设置的目标保留比例值,随后从保留比例值大于目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。采用第一目标缩略等级所关联的第一目标缩略规则对全书作第一次删减处理,采用第二目标缩略等级所关联的第二目标缩略规则对选择部分内容作第二次删减处理。
优选的,所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
在本步骤中,为了避免缩略程度相距太大而使用户感到某些章节内容相对详实,某些章节内容过于省略,文字的跳跃感太强而影响用户的阅读感受,因此第一次删减处理所对应的缩略等级和第二次删减处理所对应的缩略等级最好是相邻的候选缩略等级。
优选的,依据用户输入的数字确定用户设置的目标保留比例值;或者,依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
在本步骤中,用户可以通过在界面的指定对话框中手动输入参数来设置目标保留比例值,也可以通过拖动界面上的比例轴来调整目标保留比例值,以此来结合用户的具体需求对电子书的缩略形式进行具体的限定。
步骤S204,依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则。
在本发明中,根据词语的词性,为每个候选缩略等级制定了具体的缩略规则并关联起来。可选的,若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
在本步骤中,候选缩略等级越高,则电子书的缩减程度越大,要删除的词语的词性也就越多。但是,为了保留电子书中的关键信息,对于某些词性的词语的删除过程,该类词性的下一级细化类别中的一些词语不能够被删除。优选的,在删除所述电子书中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。最终,将剩余字词按照先后顺序进行连接,同时可以去掉不必要的标点符号,获得对应级别的缩略书。
步骤S205,依据用户操作确定所述目标缩略规则适用的章节和/或段落。
在本步骤中,用户可以为全文设置统一的缩略规则;也可以为指定的章节和/或段落设置不同的缩略规则,而某些章节和/或段落不进行缩略;还可以无需用户的指定,自动地为部分章节和/或段落设置不同的缩略规则。从而确定各个目标缩略规则适用的各个章节和/或段落,只要保证整本电子书经缩略后能够达到或近似达到用户设定的保留比例即可。通过对原文中不同对象内容(比如章节、段落)选择使用或不使用缩略规则以及使用哪个级别的缩略规则,由此进一步细化缩略书篇幅长度的选择粒度。
优选的,对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
在本步骤中,对于目录来说,保留原文不做任何删减处理。原因在于:一方面,由于目录中的信息比较重要,对于用户来说具有指导阅读的作用,删减后易导致用户不能快速找到自己所要阅读的章节和/或段落;另一方面,目录相对于全文来说字数较少,即使删减后对全文缩略的贡献不大。因此对电子书中除目录以外的其他部分所包含的各词语作删减处理。
步骤S206,针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
在本步骤中,明确了电子书中的各个词语、各个词语的词性、候选缩略等级、候选缩略等级关联的缩略规则以及用户操作所指定的缩略章节和/或段落,即可按照对应的关系对目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
下面以一个示例进行说明:
对于一段语句:“啊!纷纷扬扬的雪天漫步,看晶莹的雪花,一片,两片,三片,落在人们的肩上。簌簌的踩着雪花,看着它将要融化,心中很不舍。”其中,原文总共包括58个字符。
对该语句进行分词处理,并对分词结果中的各个词语进行词性标注,得到处理结果为:啊(叹词)!纷纷扬扬的(形容词)雪天(名词)漫步(动词),看(动词)晶莹的(形容词)雪花(名词),一(数词)片(量词),两(数词)片(量词),三(数词)片(量词),落(动词)在(介词)人们(名词)的(助词)肩(名词)上(介词)。簌簌的(拟声词)踩(动词)着(动词)雪花(名词),看(动词)着(助词)它(代词)将要(时间副词)融化(动词),心(名词)中(介词)很(副词)不(否定副词)舍(动词)。
在分词和词性标注处理后,对该段语句进行缩略处理:
当选择第一候选缩略等级时,则删除语句中词性属于形容词的词语,该语句的缩略结果为:啊!雪天漫步,看雪花,一片,两片,三片,落在人们的肩上。簌簌的踩着雪花,看着它将要融化,心中很不舍。其中,经第一候选缩略等级缩略后总共剩余50个字符,缩略后的语句占原文篇幅长度的86%。
当选择第二候选缩略等级时,则删除语句中词性属于形容词、数词、量词和代词的词语,该语句的缩略结果为:啊!雪天漫步,看雪花,落在人们的肩上。簌簌的踩着雪花,看着将要融化,心中很不舍。其中,经第二候选缩略等级缩略后总共剩余40个字符,缩略后的语句占原文篇幅长度的68%。
当选择第三候选缩略等级时,则删除语句中词性属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语,该语句的缩略结果为:雪天漫步,看雪花,落人们肩。踩雪花,看将要融化,心不舍。其中,由于“将要”为时间副词,“不”为否定副词,故不对其进行删除。其中,经第三候选缩略等级缩略后总共剩余28个字符,缩略后的语句占原文篇幅长度的48%。
当选择第四候选缩略等级时,则针对每一句子,删除该句子中除主谓宾语以外的其他词语,该语句的缩略结果为:看雪花落肩。踩雪花将要融化,不舍。同理不删除“将要”和“不”。其中,经第四候选缩略等级缩略后总共剩余17个字符,缩略后的语句占原文篇幅长度的29%。
步骤S207,对删减的文字做灰暗处理,对剩余的文字做高亮处理。
在本步骤中,对于进行了删减处理后的缩略书,在展示方式上,可以仅显示缩略后的内容,对缩略书进行直观地展示;也可以在显示全文的基础上,对删减的文字做灰暗处理,对剩余的文字做高亮处理,使用户在能够看到缩略前后对比的同时,直观地感受到缩略后浓缩的内容。
步骤S208,获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置。
在本步骤中,考虑到用户在阅读缩略后的内容时,可能会觉得某些位置上的内容经缩略后影响对原文理解,因此本发明可以提供给用户上报还原请求的机会,用户可以针对具体的想要还原的内容上报还原请求。具体的,该还原请求可以按照打标注的方式来实现,即在想要还原的内容上进行标注,用户进行标注的缩略书位置即为用户期望待还原的位置,该位置所包含的缩略内容即为待还原的内容。当用户完成具***置上的标注后,即视为用户上报了还原请求。当获取到用户上报的还原请求后,将用户的标注信息上传到网络侧,对全网络的所有用户中同样对此书籍的缩略书在该位置的标注信息进行统计。
步骤S209,若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
在本步骤中,由于用户的标注即代表用户的还原请求,因此可以对全网络中,阅读同样书籍的缩略书的用户以及其中对同样待还原位置进行标注的用户进行统计。例如,可以根据全网数据,统计全网络中阅读同样书籍的缩略书的用户总量以及其中对同样待还原位置进行标注的用户数量。当多数用户都对同样缩略书的同样待还原位置处进行了标注,可以理解为,对同样待还原位置进行标注的用户数量与阅读同样书籍的缩略书的用户总量的比值超过一定的阈值,例如50%,则判断该待还原位置上的缩略内容有必要进行还原,进而将位于该待还原位置前后被删除的文字添加到缩略书中,达到字面还原的目的。
根据本实施例提供的电子缩略书生成方法,可以用于根据用户需求自动生成电子缩略书。首先根据电子书中的内容,对电子书进行分词处理;其次采用基于隐马尔科夫模型训练生成的词性标注模型对分词结果中各个词语进行词性标注;然后根据用户的需求,确定电子书的缩略等级及其关联的缩略规则,依据各词语的词性,采用指定的目标缩略规则对电子书中指定内容的各词语进行删减处理,并以灰暗的方式显示删减的文字,以高亮的方式显示保留的文字,以获得符合用户需求的电子缩略书;最后还可以根据用户阅读过程中的需求,支持用户以打标注的方式对缩略书进行还原。利用本实施例的电子缩略书生成方法,可以用于根据用户需求自动生成电子缩略书,向用户提供符合用户需求的电子缩略书。实现了在不影响原文理解、原文信息量以及阅读通顺程度或影响甚微的情况下,通过自动对词语进行删减的缩略书生成方式,无需人工的介入,节省人工成本的投入,提高缩略书的生成效率;同时能够使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书,根据用于的选择随时随地的生成符合用户需求的电子缩略书供用户阅读,提高用户的阅读体验。
实施例三
图3示出了本发明实施例三提供的确定目标缩略规则所适用的电子书内容的流程图,本实施例应用于确定目标缩略规则所适用的电子书内容的场景。如图3所示,该方法包括以下步骤:
步骤S301,获取用户设置的目标保留比例值。
步骤S302,从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
步骤S303,采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理。
步骤S304,从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
在本步骤中,当用户设置的保留比例值为介于某两个候选缩略等级对应的比例值之间时,选择保留比例值大于该保留比例值的候选缩略等级为第一目标缩略等级,并采用第一目标缩略等级关联的第一目标缩略规则对全文进行删减处理;选择保留比例值小于该保留比例值的候选缩略等级为第二目标缩略等级,并采用第二目标缩略等级关联的第二目标缩略规则对选择的N个章节进行删减处理。例如,当用户设置的保留比例为介于第二候选缩略等级和第三候选缩略等级对应的保留比例之间的某个比例值时,APP可以对全书做第二候选缩略等级关联的第二级缩略规则的删减处理,之后选择N个章节做第三候选缩略等级关联的第三级缩略规则的删减处理。
优选的,从所述电子书中选择的章节数量N通过如下公式确定:N=N总×(b1-b3)/(b2-b1),其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
在本步骤中,依据各个候选缩略等级对应的保留比例值,对N进行了限定。示例性的,假设第一候选缩略等级至第四候选缩略等级保留比例值依次为90%、70%、50%和30%,当用户设置保留比例值为65%时,N的取值为N=N总×(b1-65%)/(b2-b1),其中,b1可以选择保留比例值大于用户设置的保留比例值65%即可,例如可以选择第一候选缩略等级对应的保留比例值90%,也可以选择第二候选缩略等级对应的保留比例值70%;b2可以选择保留比例值小于用户设置的保留比例值65%即可,例如可以选择第三候选缩略等级对应的保留比例值50%,也可以选择第四候选缩略等级对应的保留比例值30%。优选的,选择相邻的候选缩略等级的效果较佳,因此本实施例选择第二候选缩略等级对应的保留比例值70%为b1,选择第三候选缩略等级对应的保留比例值50%为b2。
假设整本电子书共有96个章节,每个章节包括x个字。这里假设每个章节的字数近似相等。那么采用第二候选缩略等级对全文进行缩略后保留下的文字数量b1×96×x,若按照用户设定比例对全文进行缩略后保留下来的文字数量为65%×96×x,两者之差为b1×96×x-65%×96×x,即若采用第二候选缩略等级关联的缩略规则,则距离用户设置的保留比例值而言,还需要进一步删减b1×96×x-65%×96×x个字,即(b1-65%)×96×x个字。同理,(b2-b1)×96×x为采用第三候选缩略等级关联的第三缩略规则对全文进行缩略相对于采用第二候选缩略等级关联的第二缩略规则对全文进行缩略时能够总共多删减的文字数量。因此,[(b1-65%)×96×x]/[(b2-b1)×96×x]为还需删减的字数占总共多删减字数的比例,即(b1-65%)/(b2-b1)。在此基础上再乘以N总,即得到上述N值。若N值不为整数,向上或向下取整即可。
在本步骤中,在确定N后,还需进一步确定对哪几个章节作进一步缩略。在一种实现方式中,优选的,将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;从所述候选章节中选择N个章节。由于考虑到一本书的开头章节和结尾章节分别为故事做了铺垫和总结,在情节上都比较重要,因此尽量不对电子书的开头和结尾做过多删减,可以避开开头的数个章节以及结尾的数个章节,而从中间的章节中选择N章。
具体的,可以通过多种方式来实现对需要进行第二次删减处理的N个章节的选取,本实施例在此以两种较典型的方式进行说明:方式一,随机选取连续的N个章节;方式二,从非热门章节中选取N个章节。
方式一,从各所述候选章节中随机选择一个章节作为起始章节;以所述起始章节为起点,连续选择N个章节。此种方式的好处在于,可以避免由于全文中缩略等级的频繁变换,导致在阅读各个章节的过程中,影响用户阅读的流畅性。但需注意的是,在选择起始章节的时需要保证该起始章节之后、结尾章节之前至少有N-1个连续章节可供选择,对此,一种实现方式包括:
在确定章节数N后,计算起始章节的选择范围为闭区间:[(a+1),(N总-b-N)]。其中,a为开头章节数,b为结尾章节数。例如,全书总共96章,开头3章和结尾2章不做选择,且需要对4个连续章节采用第二候选缩略等级进行缩略,则起始章节的选择范围为闭区间[4,90],在该范围内可以随机选择起始章节。
在另一种实现方式中,在确定起始章节位置时可以不考虑保证之后需要有连续N-1章供选择,即可以在[(a+1),(N总-b)]的闭区间里随机选择起始章节。在确定起始章节后,首先从该章节后继续选择N-1章,如果不够N-1章,则在章节向后取满后再向前取剩余章节。或者也可以取消向后选取章节的操作,从该起始章节开始向前选择N-1章,完成N章的选取。
方式二,依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;从选择的非热门章节中选择N个章节。具体的,可以根据全网用户发表想法、批注、留言和分享的次数等信息进行统计,确定该书籍的热门章节,并将这些章节作为重点章节尽量多保留其原有信息,不做进一步的二次删减处理。因此,可以从避开热门章节的非热门章节中选择数个章节进行二次删减处理。虽然这种做法并不能保证择的数个章节是连续的,但为尽量保留关键信息做出让步,允许对非连续的数个不包含关键信息的章节进行二次删减处理。
步骤S305,若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
在本发明中,快速阅读指令是指用户在正常的阅读当中,如果根据已读内容对应的情节发展,可以预期自身能对下一个章节进行快速阅读,即在缩略内容的基础上也能够进行完整的阅读,还可以节省阅读的时间,则当读到下一个章节时设置缩略阅读模式,APP接收到用户下达的快速阅读指令后,仅对下一个章节进行用户选择的保留比例值的删减处理。此快速阅读指令可以在用户正常阅读原版电子书的过程中进行设置,也可以在阅读缩略书的过程中进行设置。
上述步骤S301至步骤S304的实现原理与具体执行过程可参见图2对应的实施例中的步骤S203至步骤S206的描述,在此不再赘述。
根据本实施例提供的电子缩略书生成方法,可以用于确定目标缩略规则所适用的电子书内容。首先获取用户设置的目标保留比例值;其次从保留比例值大于目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,采用第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;并从保留比例值小于目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级,采用第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。其中,最好从电子书中除开头章节和结尾章节以外的其他候选章节中,随机选择N个连续的章节或从非热门章节中选取N个章节;N由用户设定的目标保留比例值相关的各个候选缩略等级对应的保留比例值来确定。利用本实施例的电子缩略书生成方法,可以用于确定目标缩略规则所适用的电子书内容,向用户提供符合用户需求的电子缩略书。实现了在不影响原文理解、原文信息量以及阅读通顺程度或影响甚微的情况下,根据用户的操作,自动地对词语进行删减的缩略书生成方式,无需人工的全程介入,节省人工成本的投入,提高缩略书的生成效率;同时能够使不同的用户根据不同场景下的时间安排,细粒度的选择篇幅长度合适的缩略书,根据用于的选择随时随地的生成符合用户需求的电子缩略书供用户阅读,提高用户的阅读体验。
实施例四
本发明实施例四还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电子缩略书生成方法。
可执行指令具体可以用于使得处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
依据用户操作确定目标缩略规则;
采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
依据用户操作确定目标缩略等级;
依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
获取用户设置的目标保留比例值;
从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
依据用户输入的数字确定用户设置的目标保留比例值;或者,
依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
在一种可选的方式中,所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;
从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;
从所述候选章节中选择N个章节。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
从各所述候选章节中随机选择一个章节作为起始章节;
以所述起始章节为起点,连续选择N个章节。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;
从选择的非热门章节中选择N个章节。
在一种可选的方式中,从所述电子书中选择的章节数量N通过如下公式确定:
N=N总×(b1-b3)/(b2-b1)
其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;
若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;
若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;
若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
在删除所述电子中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
依据用户操作确定所述目标缩略规则适用的章节和/或段落;
针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
对删减的文字做灰暗处理,对剩余的文字做高亮处理。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
实施例五
图4示出了根据本发明实施例五提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述电子书推荐方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
依据用户操作确定目标缩略规则;
采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据用户操作确定目标缩略等级;
依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
获取用户设置的目标保留比例值;
从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据用户输入的数字确定用户设置的目标保留比例值;或者,
依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
在一种可选的方式中:所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;
从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;
从所述候选章节中选择N个章节。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
从各所述候选章节中随机选择一个章节作为起始章节;
以所述起始章节为起点,连续选择N个章节。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;
从选择的非热门章节中选择N个章节。
在一种可选的方式中:从所述电子书中选择的章节数量N通过如下公式确定:
N=N总×(b1-b3)/(b2-b1)
其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;
若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;
若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;
若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
在删除所述电子中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据用户操作确定所述目标缩略规则适用的章节和/或段落;
针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
对删减的文字做灰暗处理,对剩余的文字做高亮处理。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (54)
1.一种电子缩略书生成方法,包括:
确定电子书中包含的各词语,以及各词语的词性;
依据用户操作确定目标缩略等级;
依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则;其中,所述目标缩略规则由用户选择的符合自身需求的缩略程度对应的目标缩略等级确定,所述候选缩略等级的缩略程度确定了所需删减的词语的词性,候选缩略等级越高,所需删减的词语的词性越多;其中,所述用户操作包括以下至少一项:设定篇幅长度缩略为原文的比例值、设定篇幅缩减级别、设定缩减范围、设定指定部分内容的缩减程度;
采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
2.根据权利要求1所述的方法,其中,确定电子书中包含的各词语,以及各词语的词性,包括:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
3.根据权利要求1所述的方法,其中,依据用户操作确定目标缩略等级,包括:
获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
4.根据权利要求1所述的方法,其中,依据用户操作确定目标缩略等级,包括:
获取用户设置的目标保留比例值;
从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
5.根据权利要求4所述的方法,其中,获取用户设置的目标保留比例值,包括:
依据用户输入的数字确定用户设置的目标保留比例值;或者,
依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
6.根据权利要求4所述的方法,其中,所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
7.根据权利要求4所述的方法,其中,采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书,包括:
采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;
从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
8.根据权利要求7所述的方法,其中,从所述电子书中选择N个章节,包括:
将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;
从所述候选章节中选择N个章节。
9.根据权利要求8所述的方法,其中,从所述候选章节中选择N个章节,包括:
从各所述候选章节中随机选择一个章节作为起始章节;
以所述起始章节为起点,连续选择N个章节。
10.根据权利要求8所述的方法,其中,从所述候选章节中选择N个章节,包括:
依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;
从选择的非热门章节中选择N个章节。
11.根据权利要求7-10中任一项所述的方法,其中,从所述电子书中选择的章节数量N通过如下公式确定:
N=N总×(b1-b3)/(b2-b1)
其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
12.根据权利要求1所述的方法,其中,依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则,包括:
若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;
若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;
若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;
若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
13.根据权利要求12所述的方法,其中,包括:
在删除所述电子书中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。
14.根据权利要求1所述的方法,其中,采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书,包括:
依据用户操作确定所述目标缩略规则适用的章节和/或段落;
针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
15.根据权利要求1所述的方法,其中,对所述电子书中包含的各词语作删减处理得到缩略书,包括:
对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
16.根据权利要求1所述的方法,还包括:
若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
17.根据权利要求1所述的方法,其中,对所述电子书中包含的各词语作删减处理得到缩略书之后,还包括:
对删减的文字做灰暗处理,对剩余的文字做高亮处理。
18.根据权利要求1所述的方法,其中,对所述电子书中包含的各词语作删减处理得到缩略书之后,还包括:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
19.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
依据用户操作确定目标缩略等级;
依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则;其中,所述目标缩略规则由用户选择的符合自身需求的缩略程度对应的目标缩略等级确定,所述候选缩略等级的缩略程度确定了所需删减的词语的词性,候选缩略等级越高,所需删减的词语的词性越多;其中,所述用户操作包括以下至少一项:设定篇幅长度缩略为原文的比例值、设定篇幅缩减级别、设定缩减范围、设定指定部分内容的缩减程度;
采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
20.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
21.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
22.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
获取用户设置的目标保留比例值;
从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
23.根据权利要求22所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
依据用户输入的数字确定用户设置的目标保留比例值;或者,
依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
24.根据权利要求22所述的电子设备,所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
25.根据权利要求22所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;
从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
26.根据权利要求25所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;
从所述候选章节中选择N个章节。
27.根据权利要求26所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
从各所述候选章节中随机选择一个章节作为起始章节;
以所述起始章节为起点,连续选择N个章节。
28.根据权利要求26所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;
从选择的非热门章节中选择N个章节。
29.根据权利要求25-28中任一项所述的电子设备,从所述电子书中选择的章节数量N通过如下公式确定:
N=N总×(b1-b3)/(b2-b1)
其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
30.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;
若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;
若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;
若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
31.根据权利要求30所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
在删除所述电子书中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。
32.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
依据用户操作确定所述目标缩略规则适用的章节和/或段落;
针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
33.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
34.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
35.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
对删减的文字做灰暗处理,对剩余的文字做高亮处理。
36.根据权利要求19所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
37.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
依据用户操作确定目标缩略等级;
依据预先确定的候选缩略等级与候选缩略规则之间的关联关系确定所述目标缩略等级所关联的目标缩略规则;其中,所述目标缩略规则由用户选择的符合自身需求的缩略程度对应的目标缩略等级确定,所述候选缩略等级的缩略程度确定了所需删减的词语的词性,候选缩略等级越高,所需删减的词语的词性越多;其中,所述用户操作包括以下至少一项:设定篇幅长度缩略为原文的比例值、设定篇幅缩减级别、设定缩减范围、设定指定部分内容的缩减程度;
采用所述目标缩略规则,依据所述电子书中包含的各词语的词性,对所述电子书中包含的各词语作删减处理得到缩略书。
38.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
39.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
获取用户从预设的至少一个候选缩略等级中选择的目标缩略等级。
40.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
获取用户设置的目标保留比例值;
从保留比例值大于所述目标保留比例值的候选缩略等级中选择一个作为第一目标缩略等级,从保留比例值小于所述目标保留比例值的候选缩略等级中选择一个作为第二目标缩略等级。
41.根据权利要求40所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
依据用户输入的数字确定用户设置的目标保留比例值;或者,
依据用户对比例轴的拖动操作,确定用户设置的目标保留比例值。
42.根据权利要求40所述的计算机存储介质,所述第一目标缩略等级与所述第二目标缩略等级为相邻的候选缩略等级。
43.根据权利要求40所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
采用所述第一目标缩略等级所关联的第一目标缩略规则对全书作删减处理;
从所述电子书中选择N个章节,采用所述第二目标缩略等级所关联的第二目标缩略规则对选择的N个章节作删减处理。
44.根据权利要求43所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
将所述电子书中除开头章节和结尾章节以外的其他章节作为候选章节;
从所述候选章节中选择N个章节。
45.根据权利要求44所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
从各所述候选章节中随机选择一个章节作为起始章节;
以所述起始章节为起点,连续选择N个章节。
46.根据权利要求44所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
依据用户对各所述候选章节的阅读行为,从各所述候选章节中选择非热门章节;
从选择的非热门章节中选择N个章节。
47.根据权利要求43-46中任一项所述的计算机存储介质,从所述电子书中选择的章节数量N通过如下公式确定:
N=N总×(b1-b3)/(b2-b1)
其中,N总是所述电子书的总章节数,b1是所述第一目标缩略等级的保留比例值,b2是所述第二目标缩略等级的保留比例值,b3是所述目标保留比例值。
48.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
若所述目标缩略等级是第一候选缩略等级,则确定所述目标缩略规则是删除属于形容词的词语;
若所述目标缩略等级是第二候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词和代词的词语;
若所述目标缩略等级是第三候选缩略等级,则确定所述目标缩略规则是删除属于形容词、数词、量词、代词、副词、介词、助词、叹词和拟声词的词语;
若所述目标缩略等级是第四候选缩略等级,则针对所述电子书中的每一句子,删除该句子中除主谓宾语以外的其他词语。
49.根据权利要求48所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
在删除所述电子书中属于副词的词语过程中,保留属于否定副词、时间副词或频率副词的词语。
50.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
依据用户操作确定所述目标缩略规则适用的章节和/或段落;
针对每一所述目标缩略规则,依据所述电子书中包含的各词语的词性,对该目标缩略规则适用的章节和/或段落中包含的各词语作删减处理。
51.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
对所述电子书中除目录以外的其他部分所包含的各词语作删减处理。
52.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
若接收到用户对下一章的快速阅读指令,则对下一章所包含的词语作缩略处理。
53.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
对删减的文字做灰暗处理,对剩余的文字做高亮处理。
54.根据权利要求37所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711447391.1A CN108108447B (zh) | 2017-12-27 | 2017-12-27 | 电子缩略书生成方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711447391.1A CN108108447B (zh) | 2017-12-27 | 2017-12-27 | 电子缩略书生成方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108447A CN108108447A (zh) | 2018-06-01 |
CN108108447B true CN108108447B (zh) | 2020-12-08 |
Family
ID=62213914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711447391.1A Active CN108108447B (zh) | 2017-12-27 | 2017-12-27 | 电子缩略书生成方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108447B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826850B (zh) * | 2019-09-24 | 2022-09-30 | 深圳市一德文化科技有限公司 | 基于信息处理的智慧校园图书馆管理方法及其*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
-
2017
- 2017-12-27 CN CN201711447391.1A patent/CN108108447B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108108447A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8768852B2 (en) | Determining phrases related to other phrases | |
US11822868B2 (en) | Augmenting text with multimedia assets | |
Scott | The genitive case in Dutch and German: A study of morphosyntactic change in codified languages | |
CN107644010A (zh) | 一种文本相似度计算方法及装置 | |
CN110895586B (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
JP4861375B2 (ja) | 文書処理装置、文書処理プログラムおよび記録媒体 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN110321561A (zh) | 一种关键词提取方法和装置 | |
KR102414391B1 (ko) | 과거이력 기반 실시간 문서작성 추천 시스템 | |
CN108108447B (zh) | 电子缩略书生成方法、电子设备及计算机存储介质 | |
CN113886568A (zh) | 一种文本摘要的生成方法及装置 | |
US8706643B1 (en) | Generating and suggesting phrases | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
US8706644B1 (en) | Mining phrases for association with a user | |
JP2007079736A (ja) | データ編集装置、データ編集方法およびデータ編集プログラム | |
CN111435405A (zh) | 一种文章关键句自动标注方法及装置 | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
US20230004720A1 (en) | Logos Communication Platform | |
CN112883729B (zh) | 文本创作的词汇推荐方法、装置及服务器 | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
JP2002297635A (ja) | 要約文作成システム及びその方法 | |
JP2022061934A (ja) | サーバおよびデータ割り当て方法 | |
Sethi | Design of lightweight stemmer for Odia derivational suffixes | |
CN108268436B (zh) | 一种幻灯片美化匹配的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220622 Address after: 518054-13098, 13th floor, main tower of marine center, No. 59, Linhai Avenue, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong Patentee after: Shenzhen ZhangYue Animation Technology Co.,Ltd. Address before: 100023 2029e, 2nd floor, East Sihui building, 1008-b, Huihe South Street, Sihui East, Chaoyang District, Beijing Patentee before: ZHANGYUE TECHNOLOGY Co.,Ltd. |