CN117540747B

CN117540747B - 一种基于人工智能的图书出版智慧选题***

Info

Publication number: CN117540747B
Application number: CN202410028055.7A
Authority: CN
Inventors: 马驰; 宋宁; 赵小萱; 谢天
Original assignee: National New Bibliography Magazine Co ltd
Current assignee: National New Bibliography Magazine Co ltd
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-04-16
Anticipated expiration: 2044-01-09
Also published as: CN117540747A

Abstract

本发明涉及文本处理技术领域，具体涉及一种基于人工智能的图书出版智慧选题***，所述***包括：数据采集模块：获取各月的热点评论数据作为各月的文档集合；数据处理模块：选取文档集合中的实体词；根据文档集合中的实体词筛选得到候选词；根据候选词自身特征得到图书出版选题自身重要性；采用PageRank算法对各候选词进行迭代得到图书出版选题重要性；根据各候选词的选题重要性变化序列得到图书出版选题指数；选题推荐模块：根据候选词以及用户输入选题要求中的各实体词之间的相关性关系得到候选词的语义匹配选题指数序列，将序列中前r个候选词作为给用户选题推荐的关键词。本发明提高了用户选题需求的关键词推荐精准性。

Description

一种基于人工智能的图书出版智慧选题***

技术领域

本申请涉及文本处理技术领域，具体涉及一种基于人工智能的图书出版智慧选题***。

背景技术

随着互联网和数字化技术的发展，大量文本数据被生成和存储，传统的图书选题方式面临着海量信息的挑战。基于人工智能的图书出版智慧选题***能够从庞大的数据中提取出有价值的信息，帮助编辑人员快速准确的进行选题。而且人工智能技术可以分析读者的行为喜好，了解他们的阅读兴趣和偏好，从而选题时候能够更贴切读者的需求，提供符合市场需求的图书，提高销量和读者满意度。

由于智慧选题***通常需要能够理解和分析大量的文本数据，因此采用自然语言处理技术能够起到很好的效果。在进行智慧选题时，通常需要涉及文本分类、实体识别、情感分析等技术帮助编辑人员更好的理解并处理大量的文本数据。文本数据通常具有高度的多样性和复杂性，来自不同的领域、不同的获取源，且还可能存在噪声和错误。常规方法可以通过主题词提取相关的算法根据词频等信息获取热点话题，并根据热点进行图书出版选题推荐。以此方法获取的关键词虽然是当前讨论的热点话题，但是，该热点话题可能包含负面情绪、没有更细粒度的实时性或可书写内容不够丰富等问题，不符合图书出版话题应该具备的性质。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于人工智能的图书出版智慧选题***，所采用的技术方案具体如下：

本发明提出了基于一种基于人工智能的图书出版智慧选题***，所述***包括：

数据采集模块：获取各月内的热点评论数据作为各月的文档集合；

数据处理模块：选取文档集合中的实体词并标注对应的词性；根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数；根据文档集合中的候选词以及对应的共现次数构建无向图；根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性；

采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性；根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列；根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数；

选题推荐模块：根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数，其中，采用文档集合中的实体词选取方法获取用户输入选题要求中的各实体词；

将候选词按照语义匹配选题指数从大到小进行排序得到选题序列，将选题序列中前r个候选词输出作为给用户选题推荐的关键词。

优选的，所述选取文档集合中的实体词并标注对应的词性，包括：

采用BERT-BiLSTM-CRF模型识别文档集合中的实体词；

采用隐马尔可夫模型对各实体词进行词性标注得到各实体词的词性，所述词性包括但不限于：名词、动词、形容词。

优选的，所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数，包括：

采用频率-逆文档频率获取文档集合中前N个词作为候选词，其中，N为预设候选词数量；

将出现在同一个句子中的两个候选词作为一个共现关系，统计候选词在文档集合中出现共现关系的次数作为共现次数。

优选的，所述根据文档集合中的候选词以及对应的共现次数构建无向图，包括：

将文档集合中的候选词作为无向图的节点，将节点之间的共现次数作为连线的边权重。

优选的，所述根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性，包括：

对于文档集合中各候选词，获取候选词的长度、出现频率；获取候选词的表达丰富度；

将长度与出现频率的比值结果乘以表达丰富度得到候选词的图书出版选题自身重要性。

优选的，所述获取候选词的表达丰富度，包括：

对候选词划分一个邻域窗口，所述邻域窗口包含当前候选词以及当前候选词前、后各u个候选词；

统计邻域窗口内所有候选词的词性出现的种类数，将所述种类数作为候选词的表达丰富度。

优选的，所述采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性，包括：

对于与当前候选词存在共现关系的各候选词，获取候选词与当前候选词在同一个句子中出现的共现次数；

计算所述共现次数与候选词的图书出版选题重要性的乘积，计算所有存在共现关系的候选词的所述乘积的和值；

将所述和值与当前候选词的图书出版选题自身重要性之和作为当前候选词的图书出版选题重要性；

采用PageRank算法对各候选词的图书出版选题重要性进行迭代计算，直到满足停止条件，得到迭代后的各候选词的图书出版选题重要性。

优选的，所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列，包括：

将所有文档集合中的候选词组成总候选词集合；

对于总候选词集合中各候选词，将候选词在各月的图书出版选题重要性组成候选词的选题重要性变化序列。

优选的，所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数，包括：

对于候选词的选题重要性变化序列中各元素，计算元素所在的月份与所在月份的图书出版选题重要性的乘积；

将所有元素的所述乘积的均值作为候选词的图书出版选题指数。

优选的，所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数，包括：

采用BERT语言模型对用户输入选题要求中的各实体词以及总候选词集合中的各候选词进行转换得到对应的语义向量；

对于用户输入选题要求中的各实体词，获取实体词与候选词的语义向量的余弦值；

计算所述余弦值与候选词的图书出版选题指数的乘积，将用户输入选题要求中所有实体词的所述乘积的和值作为候选词的语义匹配选题指数。

本发明至少具有如下有益效果：

本发明通过对过去12个月份的数据进行分析，得到基于用户描述的图书出版选题关键词；其中主要通过计算每个词的热度确定热点词作为图书选题***的候选词，并根据候选词的词性分布分别计算其每个月的热度情况，然后通过对过去12个月的整体表现进行分析，计算每个候选词的图书出版选题指数，最后根据用户输入描述计算最终的语义匹配选题指数，并输出分数最高的6个词作为此次图书选题的关键词。本发明在进行图书选题时不仅考虑到关键词的热度，还根据语义以及其词性分布等情况为用户提供可书写性更强，更符合用户需求的关键词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于人工智能的图书出版智慧选题***的流程图；

图2为用户选题关键词推荐过程。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于人工智能的图书出版智慧选题***，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于人工智能的图书出版智慧选题***的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于人工智能的图书出版智慧选题***的流程图，该***包括：数据采集模块101、数据处理模块102、选题推荐模块103。

数据采集模块101，在进行选题时，了解目标读者的群体是非常重要的，针对不同受众群体需要选取不同领域的数据进行分析，得到不同的热门话题。例如，若读者是科技爱好者，那么科技创新、人工智能等相关的话题可能更具吸引力。接下来，本实施例以科技领域受众为例，并在多个领域内采用同样的方法进行分析。

为了分析科技爱好者受众的喜好，本实施例从科技社区极客公园、V2EX、知乎、新浪微博、IT之家等科技媒体和新闻网站等平台，通过获取相关网站的数据使用权限得到相关领域12个月以内的新闻报道、文章以及热点评论，每个月对数据进行更新，使数据具备实时性。

然后，对数据进行预处理，具体如下：1）通常获取的数据往往包含许多噪声，因此本实施例采用Python中的Pandas、NumPy和SciPy库先去掉数据中的HTML标签、表情符号、特殊符号和无关字符等。2）接下来对于中文文本数据还需要对其进行分词处理，这里采用jieba分词工具对所有的数据进行分词，其中输入为一句文本数据，输出为经过分词处理之后以空格分开的词序列，jieba分词工具为公知技术，本实施例不再赘述。3）为了分析数据中存在的热点信息，通常会以不同词的频率作为参考依据之一，因此为了避免干扰，需要将数据中没有实际意义的词进行去停用词处理，本实施例根据哈工大停用词表将数据中的高频出现却没有实际意义的词剔除，以免对后续分析造成干扰。

数据处理模块102，在使用人工智能技术对过去12个月的历史数据进行分析，寻找热点话题为图书出版智慧选题提供技术支撑时，由于文本数据是非常庞大和复杂的，且数据是实时变化的，热点的持续时间也是有所不同的，故我们需要对数据进行更细致的分析和预测。

为了分析热点的实时上升情况，我们将上述经过步骤一预处理的12个月的科技创新领域的文本，按照距离目前月份的远近顺序分为12个文档集合，每个文档集合包括一个月份内所有的文档。

分别针对每个文档集合进行分析，得到每个文档集合的关键词以及关键词的热度。具体如下：

在进行图书出版选题时通常会将实体词作为选题对象，例如“人工智能与机器学习”，针对每个文档集合采用BERT-BiLSTM-CRF模型进行命名实体识别，将所有的实体作为图书出版选题的待选取对象。同时采用隐马尔可夫模型对词语进行词性标注，获取每个词的词性，这些词性包括“名词”、“动词”、“形容词”、“副词”、“介词”等。其中，BERT-BiLSTM-CRF模型与隐马尔可夫模型均为公知技术，本实施例不再赘述。

这里结合TextRank算法思想分析并计算每个实体词的图书出版选题重要性。

可供图书出版的热点词汇一定包含在高频词中，为了方便后续计算我们先通过频率-逆文档频率（TF-IDF）算法获取所有实体词中分数最高的前N个词作为当前月份的候选词，频率-逆文档频率（TF-IDF）算法为公知技术，本实施例不再赘述。本实施例对N取经验值200，实施者可自行设定，因此本实施例对各文档集合中的分数最高的前两百个词进行保留。

然后通过统计的方法计算这些词之间的共现情况，即当两个候选词出现在当月的热点评论数据中的同一个句子时，便将这两个候选词分别记为出现一次共现。最后，再通过为这些词赋予不同的权重获取最终的图书出版选题重要性，图书出版选题重要性本实施例通过结合TextRank算法思想分析并选取。

TextRank算法主要包括文本预处理、构建图结构、计算节点重要性、排序节点等步骤。

其中，文本预处理是指对原始文本进行分词、去停用词、词性标注等操作，该步骤已在上述步骤中处理完成；构建图结构是指基于预处理的各文档集合分别构建一个无向图，本实施例为了考虑计算的复杂性以及选出符合图书出版场景的关键词，故取上述由频率-逆文档频率计算的前N个实体词作为节点，其中节点即为各文档集合中的候选词，图中边的权重则表示候选词之间的共现次数；计算节点重要性时需要使用迭代算法计算每个候选词的重要性得分，其重要性得分是基于与当前节点相连节点的图书出版选题重要性和图书出版选题自身重要性计算，迭代到图书出版选题重要性收敛为止；排序节点即根据图书出版选题重要性得分从大到小进行排序。

在计算图书出版选题重要性之前，需要根据候选词的具体分布情况确定其图书出版选题自身重要性/>，图书出版选题自身重要性代表着候选词自身具备成为图书出版选题关键词的可能性。

由于在图书出版选题过程中，我们不仅要关注关键词的热度，还要注重关键词是否具有很强的可书写性，该类关键词一般要具备以下特性，即该关键词为当下热点话题、具有较强的专业性和特殊性以突出图书的价值、具有较强的吸引力和表达力且易于理解和表达。具体计算如下：

，

其中，表示第i个候选词的图书出版选题自身重要性；/>表示第i个候选词的出现频率；/>表示第i个候选词的长度；/>表示第i个候选词的表达丰富度，表达丰富度的获取方法为：通过为每个候选词划分一个邻域窗口，即取其前、后各3个候选词，根据上述词性标注的结果，记录该候选词邻域内不同词性的种类数/>。

当该候选词出现频率越高时，表明该词越可能是热点话题，应该有更高的图书出版选题自身重要性，反之，表明该词的热度较低，具有更低的图书出版选题自身重要性；当该词的长度较长时表明该词可能存在描述繁琐不易于理解等特点，不适合作为图书出版选题的关键词，因此应该具备更低的图书出版选题自身重要性，反之，该词应该具备更高的图书出版选题自身重要性；同时，当该词的周围词语表达丰富度较高时，则表明该词周围的词性分布比较完整均匀，能够更好的表达观点、展示话题内容，能够有较强的扩展性，便于图书的书写和表达，因此应该具备更高的图书出版选题自身重要性，反之，该词可能表达比较单一，没有较强的可书写性，因此应该具备更低的图书出版选题自身重要性。

在计算图书出版选题重要性时，每个候选词的重要性由当前词自身的重要程度和与当前词存在共现关系的词的重要性决定。也就是当前词与拥有更高图书出版选题重要性的词存在共现关系时，则当前词也应该拥有更高的图书出版选题重要性。

因此这是一个不断迭代的过程，具体迭代方式采用PageRank算法，将无向图输入到PageRank算法中，对无向图中的各节点的候选词进行迭代计算，直到算法收敛到最优结果，从而得到算法的输出为各候选词的图书出版选题重要性，PageRank算法为公知技术，本实施例不再赘述。对于候选词的图书出版选题重要性的具体计算方式如下：

，

其中，表示第i个候选词的图书出版选题重要性；/>表示第i个候选词的图书出版选题自身重要性；N表示与第i个候选词存在共现关系的候选词个数；/>表示与第i个候选词存在共现关系的第j个候选词的图书出版选题重要性；/>表示与第i个候选词与第j个候选词在同一个句子中出现的共现次数。

当第i个候选词的图书出版选题自身重要性越大时，说明该候选词越可能是图书出版选题的关键词，则该候选词的图书出版选题重要性也应该越大，反之，说明该候选词越不可能是图书出版选题的关键词，则该候选词的图书出版选题重要性也应该越小；当与之存在共现关系候选词的图书出版选题重要性越大，与之存在共现次数越多时，说明当前候选词被更重要的候选词相关联，因此当前候选词也应该拥有更高的图书出版选题重要性，反之，说明当前候选词被一个不太重要的候选词相关联，因此当前候选词的图书出版选题重要性应该较低。

根据不同月份每个候选词的图书出版选题重要性，分析热点词的变化情况，并为最终选出图书出版选题关键词提供依据。

在对图书出版进行选题时选择热度高的话题确实可以吸引更多的读者，但这种热度可能是短暂的。如果选择的话题只是暂时的热点，那么图书的销量也可能只是短期内的高峰。因此，应该更倾向于选择热度持续较久的词，通常热度越高持续时间越长的词往往具备着更高的书写价值。

由上述步骤可以得到过去12个月中每个月文档集合的频率-逆文档频率，且可以计算出前200个候选词的图书出版选题重要性，并将12个月的所有候选词组成图书出版选题的总候选词集合，其中每个候选词代表一个可供图书出版选择的关键词。

并为每个候选词构建其选题重要性变化序列，序列中每个元素分别是12月中该候选词的图书出版选题重要性，对于当前词没有被作为节点的月份将其图书出版选题重要性置为“0”。并以此为依据计算总候选词集合中每个候选词的图书出版选题指数，具体计算如下：

，

其中，表示总候选词集合中第i个候选词的图书出版选题指数；/>表示选取数据的月份，本实施例取值为12，即选取过去12个月的数据为依据，实施者可根据实际情况自行设定；/>表示过去12个月中的第j个月，月份越大表示距离目前时间越近，即其图书出版选题重要性应该具有更高的权重；/>表示总候选词集合中第i个候选词在第j个月份中的图书出版选题重要性。

其中，距离目前时间越近的图书出版选题重要性的权重也越大，图书出版选题指数越大，则更应该作为图书出版选题的关键词，反之，其图书出版选题重要性越小，图书出版选题指数越小，则更不应该作为图书出版选题的关键词；且所有月份的平均图书出版选题重要性越大，表示其热度持续越久，则更应该作为图书出版选题的关键词，反之，表示其热度持续越短，则更不应该作为图书出版选题的关键词。

至此，本实施例获得了总候选词集合中每个词的图书出版选题指数。

选题推荐模块103，根据用户输入选题要求，采用命名实体识别模型BERT-BiLSTM-CRF找出其中的实体，并通过BERT语言模型将其用户提出的实体词以及总候选词集合中所有的候选词转换为其对应的语义向量，其中，BERT语言模型为公知技术，本实施例不再赘述。将用户输入的实体词与候选词中每个实体词的语义向量进行匹配并根据其图书出版选题指数确定每个候选词相对于用户的语义匹配选题指数，具体如下：

，

其中，表示总候选词集合中第i个候选词的语义匹配选题指数；/>表示用户输入选题要求中的实体词个数；/>表示用户输入选题要求中第i个实体词的图书出版选题指数；/>表示用户输入选题要求中第j个实体词的语义向量；/>表示总候选词集合中第i个候选词的语义向量。

当其语义向量越接近时表明该词越符合用户的需求，反之，表明该词越不符合用户的需求。

将总候选词集合中各候选词的语义匹配选题指数按照从大到小的顺序进行排序得到选题序列，选择选题序列中分数最高的前r个词作为此次选题的关键词，输出给用户查看。其中，本实施例对r取经验值6，实施者可根据实际情况自行设定。其中，用户选题关键词推荐过程如图2所示。

至此，完成图书出版智慧选题的选取。

综上所述，本发明实施例通过对过去12个月份的数据进行分析，得到基于用户描述的图书出版选题关键词；其中主要通过计算每个词的热度确定热点词作为图书选题***的候选词，并根据候选词的词性分布分别计算其每个月的热度情况，然后通过对过去12个月的整体表现进行分析，计算每个候选词的图书出版选题指数，最后根据用户输入描述计算最终的语义匹配选题指数，并输出分数最高的6个词作为此次图书选题的关键词。本发明实施例在进行图书选题时不仅考虑到关键词的热度，还根据语义以及其词性分布等情况为用户提供可书写性更强，更符合用户需求的关键词。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的图书出版智慧选题***，其特征在于，所述***包括：

数据处理模块：选取文档集合中的实体词并标注对应的词性；根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数；以文档集合中的候选词作为无向图的节点，以节点之间的共现次数作为连线的权重构建无向图；将文档集合中候选词的长度与出现频率的比值结果乘以表达丰富度得到各候选词的图书出版选题自身重要性；

将候选词按照语义匹配选题指数从大到小进行排序得到选题序列，将选题序列中前r个候选词输出作为给用户选题推荐的关键词；

所述表达丰富度的获取方法，包括：

对候选词划分一个邻域窗口，所述邻域窗口包含当前候选词以及当前候选词前、后各u个候选词

2.如权利要求1所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述选取文档集合中的实体词并标注对应的词性，包括：

采用BERT-BiLSTM-CRF模型识别文档集合中的实体词；

3.如权利要求2所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数，包括：

4.如权利要求1所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性，包括：

5.如权利要求4所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列，包括：

将所有文档集合中的候选词组成总候选词集合；

6.如权利要求5所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数，包括：

，

其中，表示总候选词集合中第i个候选词的图书出版选题指数；/>表示选取数据的月份；/>表示过去12个月中的第j个月，月份越大表示距离目前时间越近，即其图书出版选题重要性应该具有更高的权重；/>表示总候选词集合中第i个候选词在第j个月份中的图书出版选题重要性。

7.如权利要求1所述的一种基于人工智能的图书出版智慧选题***，其特征在于，所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数，包括：