CN108197103A - 电子缩略书生成方法、电子设备及计算机存储介质 - Google Patents

电子缩略书生成方法、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN108197103A
CN108197103A CN201711451156.1A CN201711451156A CN108197103A CN 108197103 A CN108197103 A CN 108197103A CN 201711451156 A CN201711451156 A CN 201711451156A CN 108197103 A CN108197103 A CN 108197103A
Authority
CN
China
Prior art keywords
word
book
speech
breviary
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711451156.1A
Other languages
English (en)
Other versions
CN108197103B (zh
Inventor
郑志伟
韩飞
陈继良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhangyue Animation Technology Co ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201711451156.1A priority Critical patent/CN108197103B/zh
Publication of CN108197103A publication Critical patent/CN108197103A/zh
Application granted granted Critical
Publication of CN108197103B publication Critical patent/CN108197103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电子缩略书生成方法、电子设备及计算机存储介质,用于生成缩略版的电子书。其中方法包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。由此可见,本发明方案考虑到了人工生成缩略电子书的效率及电子书内容的会受到编辑者主观意识的影响,而提出一种通过自然语言处理技术从词性的角度对电子书内容进行删减的电子缩略书生成方式,提高了电子缩略书生成效率,降低人工成本,使电子书的内容保持客观性。

Description

电子缩略书生成方法、电子设备及计算机存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种电子缩略书生成方法、电子设备及计算机存储介质。
背景技术
目前,随着现代人生活节奏加快,人们越来越希望能够在较短的时间内获取尽可能多的有价值的信息,对电子书中的内容进行提炼则是一种有效的实现方式。
提炼电子书内容的方式主要有两种,包括录制视频、音频,由主讲人用十分钟讲完一本书,和以文字形式将电子书浓缩成半小时、一小时不等的缩略书籍,供用户阅读。但是,由人工阅读书籍全部内容,进行内容概括总结,编辑出一本缩略版书籍的产出效率较低(例如拿铁阅读一周才推出一两本短书),耗时较长,不能满足用户的阅读需求;而且人力成本很高,会增加电子缩略书出版平台投入成本。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子缩略书生成方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种电子缩略书生成方法,用于提炼电子书内容,生成电子缩略书,该方法包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。
根据本发明的电子缩略书生成方法、电子设备及计算机存储介质,提供了一种高效且客观的电子缩略书生成方式,由于这种方式是通过自然语言处理技术从词性的角度对电子书内容进行删减,无需人工操作,因此,可以提高生成电子缩略书的效率,降低人工成本,提炼的电子书内容不会受编辑者的主观意识影响,也不会对故事的结构、框架、情节、事件等做整体的丢弃。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的电子缩略书生成方法的流程图;
图2示出了本发明实施例二提供的电子缩略书生成方法的流程图;
图3示出了本发明实施例三提供的电子缩略书生成方法的流程图;
图4示出了根据本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的电子缩略书生成方法的流程图,用于提炼电子书内容,生成电子缩略书。如图1所示,该方法包括以下步骤:
步骤S101,确定电子书中包含的各词语,以及各词语的词性。
具体的,本发明主要是从词性的角度对电子书书籍中不重要的字词进行剔除,从而达到缩短电子书籍字数的目的,其中,不重要的字词是指在剔除后不影响原文理解或对原文理解影响不大、剔除后不影响阅读通顺程度或通顺程度影响不大、剔除后不损失原文信息量或信息量损失不大的字词。采用的是自然语言处理技术,由机器自动执行,即可获得缩减后的短书。特别是对于小说类型的书籍,相比于重点着眼于通过滤掉书籍的主线脉络、故事情节、事件背景、人物对话等信息,提炼总结书籍中的观点、结论或思维方式的人工提取方式,仅在字词层面对书籍内容进行的缩略处理,不对故事的结构、框架、情节、事件等做整体的丢弃,可以在缩短书籍的基础上对书籍内容做原汁原味的保留,可以还原阅读本身的意义;此外,还可以使书籍的内容能够得到客观的表达。这是因为不同的人或平台对事物的认知会有不同的立场、观点和认知能力,导致人工提取的电子缩略书会存在不同程度的意识导向(例如影评中经常出现对同一主人公正反派的不同定论),这种导向可能是错误的,在少数情况下也可能是别有用心的,无法对书籍中的观点和立场进行客观表达。
因此,在获取电子书原文内容后,首先在本步骤中确定电子书中包含的各词语,以及各词语的词性。
具体的,在中文字词的词性分类中包括实词和虚词两类,其中,实词又进一步包括:名词、动词、形容词、数词、量词、代词;虚词进一步包括:副词、介词、连词、助词、叹词、拟声词。不同种类的词性又可能存在进一步的分类,例如副词可以包括:程度副词、范围副词、时间/频率副词、肯定副词、否定副词、情态/方式副词、语气副词、地点副词等。
可选的,通过分词工具对电子书进行分词,得到所述电子书中包含的各词语;依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。其中,分词工具可以是StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、paoding、imdict等现有分词工具中一种,特别是imdict的分词原理是基于隐马尔可夫模型。隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。通常,分词工具的处理速度在几十万字每秒,一些分词工具的处理速度还能够达到百万字每秒以上,文字处理效率高。词性标注模型也是基于隐马尔可夫模型,以大量的词汇作为学习样本,通过机器学习过程训练而得到的一个模型,在本发明中用于将电子书中包含的各词语进行词性标注。
步骤S102,从所述电子书中删除属于目标类型词性的词语。
本发明中,由于目录中的信息比较重要,缩略后会影响理解,而且目录字数不多,缩略贡献不大,因此,从电子书中删除属于目标类型词性的词语是指从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
本步骤中,可以预先按照删除后语义损失程度的大小对待删除的各类型词性进行分类,并按照损失程度对各类型词性进行排序,或者说可以预先确定损失程度与类型词性之间的关联关系。进而可以依据缩略书的目标损失程度,以及损失程度与类型词性之间的关联关系确定目标类型词性,如若目标损失程度最小,则可以将删除后对语义影响程度最小的形容词作为目标类型词性。本步骤中,也可以直接获取用户输入的至少一种目标类型词性,并从电子数据中删除属于目标类型词性的词语。
步骤S103,顺序连接剩余的词语得到缩略书。
具体的,当删除了电子书中的目标类型的词语时,将电子书中的剩余词语顺序连接,即可得到缩略书,进而保存,以供用户阅读。
可选的,将电子书中的词语按照词性以及各词性删除后对语义的影响程度分为三类,也即词性类型的删除顺序,第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。不同类型中不同词性的词语,删除的规则不同。
可选的,在所述顺序连接剩余的词语得到缩略书之前,所述方法进一步包括:依据所述电子书的剩余字数确定是否满足缩略书生成条件;若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
首先,对第一类型词性的词语进行删除,然后依据电子书的剩余字数确定是否满足缩略书生成条件。若是,则执行步骤S103,否则,确定新的目标类型词性,将第二类型词性的词语作为目标类型词语进行删除。当删除了第二类型词性的词语删除后,依据此时的电子书的剩余字数确定是否满足缩略书生成条件,若是,则执行步骤S103,否则,确定新的目标类型词性,将第三类型词性中的副词、介词、助词、叹词和拟声词作为目标类型词依次删除,直到满足电子书生成条件为止。
具体的,缩略书的生成条件包括:当电子书的剩余字数小于预设的字数阈值,确定满足缩略书生成条件;还包括依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度,若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。其中,字数阈值及时间长度阈值可以是由用户根据自己的阅读习惯以及阅读该电子书时期望用时而设定的阈值。
当满足其中一个条件时,即可确认满足缩略书生成条件,进而执行步骤S103。若这两个条件均不满足,则确定新的目标类型词性,对电子书做进一步的删除。
根据本实施例提供的电子缩略书生成方法,可以用于生成电子缩略书,首先确定电子书中包含的各词语,以及各词语的词性,按照删除后对语义影响的程度对词语进行分类,从影响最小的类型的词语开始删除,当删除了目标类型词语后判断剩余字数是否满足缩略书生成条件,满足则顺序连接剩余词语得到电子书,不满足则继续删除词语,直到满足电子缩略书的生成条件。利用本实施例的方法,可以在从词性的角度通过自然语言处理技术对电子书内容进行删减,无需人工对电子书内容进行编辑,该电子缩略书生成方法考虑到了人工生成缩略电子书的效率低及电子书内容的会受到编辑者主观意识的影响,可以提高了电子缩略书生成效率,降低人工成本,使电子书的内容不受编辑者的主观意识影响,使书籍中的观点和立场能够客观表达,不对故事的结构、框架、情节、事件等做整体的丢弃。
实施例二
图2示出了本发明实施例二提供的电子缩略书生成方法的流程图。本实施例应用于在删除了第三类型词性的词语后满足生成电子缩略书条件的场景,如图2所示,该方法包括:
步骤S201,确定电子书中包含的各词语,以及各词语的词性。
步骤S202,从所述电子书中删除属于第一类型词性的词语。
具体的,形容词多作为前置定语使用,相对于其他词性的词语,在删除后对语义的影响是最小的,因此,将形容词作为第一类型词性的词语最先删除。
具体删除方式为:针对所述电子书中包含的每一词性为形容词的词语,删除该词语;若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
其中,特定字是指在形容词性的词语后的“的”字,形容词之前的程度副词包括“很”、“非常”、“特别”等词语。为保证阅读通顺,需要将形容词前后的特定字和程度副词一并删掉。示例性的,假设电子书中的内容有一句为“这是一个非常美丽的花瓶”,通过分词及此次能够标注可确定,该语句中有形容词“美丽”一词,经判断该形容词前有“非常”程度副词,且该形容词后有特定字“的”,那么就将程度副词、特定字和形容词一并删除,在本步骤后,“这是一个非常美丽的花瓶”被缩略为“这是一个花瓶”。
当删除了电子书中所有的形容词之后,不满足生成电子缩略书的条件,则将第二类型词性的词语确定为目标类型词语继续删除。
步骤S203,从所述电子书中删除属于第二类型词性的词语。
在本发明中,第二类型词性词语包括数词、量词和代词中的至少一个。
可选的,针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;若该词语属于序数词,则删除该序数词。
具体的,数词包括基数词(如一、十等)和序数词(如第一、第二等),当数词确定为基数词时,若基数词后面连接有量词(如个、条、块等),则将量词与基数词一并删除,示例性的:“他给了我一个花瓶”中“一”是基数词,“个”是基数词后的量词,删除后的结果为“他给了我花瓶”;若基数词后没有量词,则保留该基数词不删除,举例说明,例如成语“略知一二”,在第二类词性词语删除时会保留“一二”不做删除。当确定数词为序数词时,则仅对序数词进行删除。此外,***数据也当做数词进行删除。
可选的,针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。
具体的,量词的删除即只有在其前面相邻位置存在数词的情况下删除,单独存在的量词不做删除,例如“每个”、“多条”等。示例性的,“每个民族都有自己的饮食传统”一句中,量词“个”前为“每”字,没有数词,那么则保留量词“个”不做删除。
可选的,针对所述电子书中包含的每一词性为代词的词语,删除该词语;若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
具体的,代词包括“你、我、他、你们、我们、他们”等,如果代词后面相邻有特定字“的”,则一并删除。示例性的,“我的玩具在那里”一句中,代词“我”后面相邻的字为特定字“的”,那么就将“我”和“的”一并删除,结果为“玩具在那里”。
当将第二类型词性的词语中的数词、量词和代词删除后,经判断仍不符合电子缩略书的生成条件,则将第三类型词性的词语确定为目标类型词语,以进一步对电子书进行缩略。
步骤S204,从所述电子书中删除属于第三类型词性的词语。
具体的,第三类型词性的词语包括副词、介词、助词、叹词、拟声词。其中,副词包括时间副词、频率副词、地点副词、方式副词、程度副词、疑问副词、连接副词、关系副词、表顺序的副词。
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
进一步的,针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;若是,则保留该词语;否则,删除该词语。这是因为,将否定副词删掉可能会导致句子意思发生反转,影响理解;时间/频率副词涉及已完成、正在进行或将要去做等时态问题,若删除,对语义理解的影响较大。
示例性的,“我不认为这么做会伤害她”一句中,“不”为否定副词,不做删除处理;“他肯定知道这件事的原委”一句中“肯定”为肯定副词,可以删除;“我将要去那里上班”一句中“将要”是时间副词,不做删除;“我忽然意识到”一句中“忽然”是情态/方式副词,是可删除的;“反正这件事只有你我知道”一句中“反正”一词为语气副词,是可删除的。
步骤S205,顺序连接剩余的词语得到缩略书。
在依次删除了三个类型的词性的词语后,经判断剩余数字满足了生成电子缩略书的条件,则将剩余数字顺序连接的到缩略书,保存以供用户阅读。
进一步的,若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。其中,句子中除主谓宾以外的词语可以是在句子中充当定语、状语、补语成分的词语。
根据本实施例提供的方法,可以用于生成电子缩略书,在获取了待删减内容的电子书后,确定电子书中包含的各词语,以及各词语的词性,先删除词性为形容词的第一类词性的词语,在不满足电子缩略书生成条件时删除包含有数词、量词和代词的第二类型词性词语,删除后仍不满足电子缩略书生成条件时删除包含副词、介词、助词、叹词、拟声词在内的第三类型词性的词语,当删除了第三类型词性的词语后经判断满足生成电子缩略书的条件时,则将剩余的词语顺序连接组成电子缩略书。通过此种方式得到的电子缩略书从词性角度,依据删除后对语义的影响程度,从对语义影响最小的词语开始删除,能够最大限度的保留原电子书的内容,不对故事的结构、框架、情节、事件等做整体的丢弃,使原文的思想得到客观的表达,且无需依靠人工提炼电子书内容,能够提高生成电子书的效率。
实施例三
图3示出了本发明实施例三提供的方法的流程图,本实施例在上述实施例的基础上进一步优化,可应用于词语删除影响原文理解的的场景。如图3所示,该方法包括以下步骤:
步骤S301,确定电子书中包含的各词语,以及各词语的词性。
步骤S302,从所述电子书中删除属于目标类型词性的词语。
步骤S303,依据所述电子书的剩余字数确定是否满足缩略书生成条件。若满足,则执行步骤S305;若不满足,则执行步骤S304。
步骤S304,确定新的目标类型词性,然后返回执行步骤S302,直到满足缩略书生成条件。
步骤S305,顺序连接剩余的词语得到缩略书。
步骤S306,获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置。
具体的,用户在阅读电子缩略书的过程中,可以对其不理解的位置进行批注,阅读应用会将该批注信息上传到网络中,网络端在获取到还原请求信息后会对请求信息进行统计。
步骤S307,若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
其中,预设的还原条件可以是电子书中某一位置处,还原请求的数量,也可以是在一定长度的文字内容内,批注有还原请求的位置的数量。当统计结果满足预设的还原条件时,则将待还原位置前后被删除的文字添加到缩略书中,使语义表达完整。
可选的,对删减的文字做灰暗处理,对剩余的文字做高亮处理。在本步骤中,对于进行了删减处理后的缩略书,在展示方式上,可以在显示全文的基础上,对删减的文字做灰暗处理,对剩余的文字做高亮处理,使用户在能够看到缩略前后对比的同时,直观地感受到缩略后浓缩的内容。
根据本实施例提供的方法,可以用于生成电子缩略书,特别是在缩略电子书中某一位置处语义表达不清楚的场景,在该场景中,用户的还原请求是判断是否将内容还原的主要因素。具体实施时,获取并统计用户端上报的还原请求,当统计结果确定某一待还原位置满足预设的还原条件时将位于该待还原位置前后被删除的文字添加到所述缩略书中,达到字面还原的目的。这样可以使用户在阅读电子缩略书的过程中,根据用户的需求完善电子缩略书的内容,提升用户体验。
实施例四
本发明实施例四还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电子缩略书生成方法。
可执行指令具体可以用于使得处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
序连接剩余的词语得到缩略书。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
在一种可选的方式中,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为形容词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;
若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
在一种可选的方式中,所述可执行指令进一步使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;
若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;
若该词语属于序数词,则删除该序数词。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为代词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;
若是,则保留该词语;否则,删除该词语。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数小于预设的字数阈值,则确定满足缩略书生成条件。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
在一种可选的方式中,所述可执行指令还使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
实施例五
图4示出了根据本发明实施例五提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述电子书推荐方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
在一种可选的方式中:所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
针对所述电子书中包含的每一词性为形容词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;
若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;
若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;
若该词语属于序数词,则删除该序数词。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
针对所述电子书中包含的每一词性为代词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;
若是,则保留该词语;否则,删除该词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
若所述电子书的剩余字数小于预设的字数阈值,则确定满足缩略书生成条件。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
在一种可选的方式中,程序410具体还可以用于使得处理器402执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
进一步的,本发明还公开了一下内容:
a1.一种电子缩略书生成方法,包括:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
a2.根据a1所述的方法,其中,在所述顺序连接剩余的词语得到缩略书之前,所述方法进一步包括:依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
a3.根据a1所述的方法,其中,确定电子书中包含的各词语,以及各词语的词性,包括:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
a4.根据a2所述的方法,其中,确定新的目标类型词性,包括:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
a5.根据a4所述的方法,其中,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
a6.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一词性为形容词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;
若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
a7.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;
若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;
若该词语属于序数词,则删除该序数词。
a8.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。
a9.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一词性为代词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
a10.根据a5所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
a11.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;
若是,则保留该词语;否则,删除该词语。
a12.根据a2所述的方法,其中,依据所述电子书的剩余字数确定是否满足缩略书生成条件,包括:
若所述电子书的剩余字数小于预设的字数阈值,则确定满足缩略书生成条件。
a13.根据a2所述的方法,其中,依据所述电子书的剩余字数确定是否满足缩略书生成条件,包括:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
a14.根据a2所述的方法,其中,还包括:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
a15.根据a1所述的方法,其中,从所述电子书中删除目标类型词性的词语,包括:
从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
a16.根据a1所述的方法,其中,顺序连接剩余的词语得到缩略书之后,还包括:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
b1.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
b2.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
b3.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
b4.根据b2所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
b5.根据b4所述的电子设备,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
b6.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为形容词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;
若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
b7.根据b1所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;
若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;
若该词语属于序数词,则删除该序数词。
b8.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。
b9.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为代词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
b10.根据b5所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
b11.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;
若是,则保留该词语;否则,删除该词语。
b12.根据b2所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数小于预设的字数阈值,则确定满足缩略书生成条件。
b13.根据b2所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
b14.根据b2所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
b15.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
b16.根据b1所述的电子设备,所述可执行指令还使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
c1.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
c2.根据c1所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
c3.根据c1所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
c4.根据c2所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
c5.根据c4任一项所述的计算机存储介质,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
c6.根据c1任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为形容词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除;
若位于该词语之前相邻位置处的词语属于程度副词,则将位于该词语之前相邻位置处的程度副词一并删除。
c7.根据c1任一项所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为数词的词语,确定该词语属于基数词还是序数词;
若该词语属于基数词且位于该词语之后相邻位置处的词语属于量词,则删除该基数词以及位于该基数词之后相邻位置处的量词;若该词语属于基数词且位于该词语之后相邻位置处的词语不属于量词,则保留该基数词;
若该词语属于序数词,则删除该序数词。
c8.根据c1所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为量词的词语,若位于该词语之前相邻位置处的词语属于数词,则将该词语以及位于该词语之前相邻位置处的数词一并删除;否则,保留该词语。
c9.根据c1任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为代词的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
c10.根据c5任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一属于所述第三类型词性的词语,删除该词语;
若位于该词语之后相邻位置处的字是特定字,则将位于该词语之后相邻位置处的特定字一并删除。
c11.根据c1任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
针对所述电子书中包含的每一词性为副词的词语,确定该词语是否属于否定副词、时间副词或频率副词;
若是,则保留该词语;否则,删除该词语。
c12.根据c2任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数小于预设的字数阈值,则确定满足缩略书生成条件。
c13.根据c2任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
c14.根据c2任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
c15.根据c1任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。
c16.根据c1任一项所述的计算机存储介质,所述可执行指令还使所述处理器执行以下操作:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种电子缩略书生成方法,包括:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
2.根据权利要求1所述的方法,其中,在所述顺序连接剩余的词语得到缩略书之前,所述方法进一步包括:依据所述电子书的剩余字数确定是否满足缩略书生成条件;
若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。
3.根据权利要求1所述的方法,其中,确定电子书中包含的各词语,以及各词语的词性,包括:
对所述电子书进行分词得到所述电子书中包含的各词语;
依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。
4.根据权利要求2所述的方法,其中,确定新的目标类型词性,包括:
按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。
5.根据权利要求4所述的方法,其中,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。
6.根据权利要求2所述的方法,其中,依据所述电子书的剩余字数确定是否满足缩略书生成条件,包括:
依据所述电子书的剩余字数和用户的平均阅读速度,确定剩余内容的阅读时间长度;
若剩余内容的阅读时间长度小于预设的时间长度阈值,则确定满足缩略书生成条件。
7.根据权利要求2所述的方法,其中,还包括:
若所述电子书的剩余字数不满足所述缩略书生成条件,且没有新的目标类型词性,则针对电子书原文中的每一句子,删除该句子中除主谓宾以外的词语。
8.根据权利要求1所述的方法,其中,顺序连接剩余的词语得到缩略书之后,还包括:
获取并统计用户端上报的还原请求,其中所述还原请求中包含用户在阅读所述缩略书过程中标注的待还原位置;
若依据统计结果确定任一待还原位置满足预设的还原条件,则将位于该待还原位置前后被删除的文字添加到所述缩略书中。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
确定电子书中包含的各词语,以及各词语的词性;
从所述电子书中删除属于目标类型词性的词语;
顺序连接剩余的词语得到缩略书。
CN201711451156.1A 2017-12-27 2017-12-27 电子缩略书生成方法、电子设备及计算机存储介质 Active CN108197103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711451156.1A CN108197103B (zh) 2017-12-27 2017-12-27 电子缩略书生成方法、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711451156.1A CN108197103B (zh) 2017-12-27 2017-12-27 电子缩略书生成方法、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN108197103A true CN108197103A (zh) 2018-06-22
CN108197103B CN108197103B (zh) 2019-05-17

Family

ID=62584735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711451156.1A Active CN108197103B (zh) 2017-12-27 2017-12-27 电子缩略书生成方法、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN108197103B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880690A (zh) * 2012-09-18 2013-01-16 北京汉仪科印信息技术有限公司 一种精简电子书字库的方法及电子书处理装置
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法
CN106776572A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称识别方法
CN107481115A (zh) * 2017-08-18 2017-12-15 北京微影时代科技有限公司 一种在线购票方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN102880690A (zh) * 2012-09-18 2013-01-16 北京汉仪科印信息技术有限公司 一种精简电子书字库的方法及电子书处理装置
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法
CN106776572A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称识别方法
CN107481115A (zh) * 2017-08-18 2017-12-15 北京微影时代科技有限公司 一种在线购票方法及装置

Also Published As

Publication number Publication date
CN108197103B (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
US9685193B2 (en) Dynamic character substitution for web conferencing based on sentiment
US10572590B2 (en) Cognitive matching of narrative data
US10397157B2 (en) Message management in a social networking environment
US10593325B2 (en) System and/or method for interactive natural semantic digitization of enterprise process models
JP2019511036A (ja) 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
US20170060826A1 (en) Automatic Sentence And Clause Level Topic Extraction And Text Summarization
CN101656799A (zh) 自动会话***以及会话情节编辑装置
WO2019102411A1 (en) Structuring incoherent nodes by superimposing on a base knowledge graph
US20180226073A1 (en) Context-based cognitive speech to text engine
WO2021223618A1 (zh) 基于focalgan的短文本自动生成方法、装置、设备及存储介质
Baur et al. eXplainable cooperative machine learning with NOVA
Xiao et al. Meta4meaning: Automatic Metaphor Interpretation Using Corpus-Derived Word Associations.
JP2022533690A (ja) 映画成功指数の予測
US20190295199A1 (en) Intelligent legal simulator
CN113641807B (zh) 对话推荐模型的训练方法、装置、设备和存储介质
US11416539B2 (en) Media selection based on content topic and sentiment
US20170046336A1 (en) Multicultural communication management
EP4187463A1 (en) An artificial intelligence powered digital meeting assistant
US20160365091A1 (en) Analysis of Professional-Client Interactions
JP2021140228A (ja) 広告文自動作成システム
Lindén et al. Donate speech
US10380708B1 (en) Natural language based content analysis
Dale Navigating the text generation revolution: Traditional data-to-text NLG companies and the rise of ChatGPT
CN114375447A (zh) 计算***中的语言语句处理
CN108197103B (zh) 电子缩略书生成方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220630

Address after: 518054-13098, 13th floor, main tower of marine center, No. 59, Linhai Avenue, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong

Patentee after: Shenzhen ZhangYue Animation Technology Co.,Ltd.

Address before: 100023 2029e, 2nd floor, East Sihui building, 1008-b, Huihe South Street, Sihui East, Chaoyang District, Beijing

Patentee before: ZHANGYUE TECHNOLOGY Co.,Ltd.