CN117540747B - 一种基于人工智能的图书出版智慧选题*** - Google Patents

一种基于人工智能的图书出版智慧选题*** Download PDF

Info

Publication number
CN117540747B
CN117540747B CN202410028055.7A CN202410028055A CN117540747B CN 117540747 B CN117540747 B CN 117540747B CN 202410028055 A CN202410028055 A CN 202410028055A CN 117540747 B CN117540747 B CN 117540747B
Authority
CN
China
Prior art keywords
topic
candidate
book publishing
words
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410028055.7A
Other languages
English (en)
Other versions
CN117540747A (zh
Inventor
马驰
宋宁
赵小萱
谢天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National New Bibliography Magazine Co ltd
Original Assignee
National New Bibliography Magazine Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National New Bibliography Magazine Co ltd filed Critical National New Bibliography Magazine Co ltd
Priority to CN202410028055.7A priority Critical patent/CN117540747B/zh
Publication of CN117540747A publication Critical patent/CN117540747A/zh
Application granted granted Critical
Publication of CN117540747B publication Critical patent/CN117540747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本处理技术领域,具体涉及一种基于人工智能的图书出版智慧选题***,所述***包括:数据采集模块:获取各月的热点评论数据作为各月的文档集合;数据处理模块:选取文档集合中的实体词;根据文档集合中的实体词筛选得到候选词;根据候选词自身特征得到图书出版选题自身重要性;采用PageRank算法对各候选词进行迭代得到图书出版选题重要性;根据各候选词的选题重要性变化序列得到图书出版选题指数;选题推荐模块:根据候选词以及用户输入选题要求中的各实体词之间的相关性关系得到候选词的语义匹配选题指数序列,将序列中前r个候选词作为给用户选题推荐的关键词。本发明提高了用户选题需求的关键词推荐精准性。

Description

一种基于人工智能的图书出版智慧选题***
技术领域
本申请涉及文本处理技术领域,具体涉及一种基于人工智能的图书出版智慧选题***。
背景技术
随着互联网和数字化技术的发展,大量文本数据被生成和存储,传统的图书选题方式面临着海量信息的挑战。基于人工智能的图书出版智慧选题***能够从庞大的数据中提取出有价值的信息,帮助编辑人员快速准确的进行选题。而且人工智能技术可以分析读者的行为喜好,了解他们的阅读兴趣和偏好,从而选题时候能够更贴切读者的需求,提供符合市场需求的图书,提高销量和读者满意度。
由于智慧选题***通常需要能够理解和分析大量的文本数据,因此采用自然语言处理技术能够起到很好的效果。在进行智慧选题时,通常需要涉及文本分类、实体识别、情感分析等技术帮助编辑人员更好的理解并处理大量的文本数据。文本数据通常具有高度的多样性和复杂性,来自不同的领域、不同的获取源,且还可能存在噪声和错误。常规方法可以通过主题词提取相关的算法根据词频等信息获取热点话题,并根据热点进行图书出版选题推荐。以此方法获取的关键词虽然是当前讨论的热点话题,但是,该热点话题可能包含负面情绪、没有更细粒度的实时性或可书写内容不够丰富等问题,不符合图书出版话题应该具备的性质。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于人工智能的图书出版智慧选题***,所采用的技术方案具体如下:
本发明提出了基于一种基于人工智能的图书出版智慧选题***,所述***包括:
数据采集模块:获取各月内的热点评论数据作为各月的文档集合;
数据处理模块:选取文档集合中的实体词并标注对应的词性;根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数;根据文档集合中的候选词以及对应的共现次数构建无向图;根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性;
采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性;根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列;根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数;
选题推荐模块:根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,其中,采用文档集合中的实体词选取方法获取用户输入选题要求中的各实体词;
将候选词按照语义匹配选题指数从大到小进行排序得到选题序列,将选题序列中前r个候选词输出作为给用户选题推荐的关键词。
优选的,所述选取文档集合中的实体词并标注对应的词性,包括:
采用BERT-BiLSTM-CRF模型识别文档集合中的实体词;
采用隐马尔可夫模型对各实体词进行词性标注得到各实体词的词性,所述词性包括但不限于:名词、动词、形容词。
优选的,所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数,包括:
采用频率-逆文档频率获取文档集合中前N个词作为候选词,其中,N为预设候选词数量;
将出现在同一个句子中的两个候选词作为一个共现关系,统计候选词在文档集合中出现共现关系的次数作为共现次数。
优选的,所述根据文档集合中的候选词以及对应的共现次数构建无向图,包括:
将文档集合中的候选词作为无向图的节点,将节点之间的共现次数作为连线的边权重。
优选的,所述根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性,包括:
对于文档集合中各候选词,获取候选词的长度、出现频率;获取候选词的表达丰富度;
将长度与出现频率的比值结果乘以表达丰富度得到候选词的图书出版选题自身重要性。
优选的,所述获取候选词的表达丰富度,包括:
对候选词划分一个邻域窗口,所述邻域窗口包含当前候选词以及当前候选词前、后各u个候选词;
统计邻域窗口内所有候选词的词性出现的种类数,将所述种类数作为候选词的表达丰富度。
优选的,所述采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性,包括:
对于与当前候选词存在共现关系的各候选词,获取候选词与当前候选词在同一个句子中出现的共现次数;
计算所述共现次数与候选词的图书出版选题重要性的乘积,计算所有存在共现关系的候选词的所述乘积的和值;
将所述和值与当前候选词的图书出版选题自身重要性之和作为当前候选词的图书出版选题重要性;
采用PageRank算法对各候选词的图书出版选题重要性进行迭代计算,直到满足停止条件,得到迭代后的各候选词的图书出版选题重要性。
优选的,所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列,包括:
将所有文档集合中的候选词组成总候选词集合;
对于总候选词集合中各候选词,将候选词在各月的图书出版选题重要性组成候选词的选题重要性变化序列。
优选的,所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数,包括:
对于候选词的选题重要性变化序列中各元素,计算元素所在的月份与所在月份的图书出版选题重要性的乘积;
将所有元素的所述乘积的均值作为候选词的图书出版选题指数。
优选的,所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,包括:
采用BERT语言模型对用户输入选题要求中的各实体词以及总候选词集合中的各候选词进行转换得到对应的语义向量;
对于用户输入选题要求中的各实体词,获取实体词与候选词的语义向量的余弦值;
计算所述余弦值与候选词的图书出版选题指数的乘积,将用户输入选题要求中所有实体词的所述乘积的和值作为候选词的语义匹配选题指数。
本发明至少具有如下有益效果:
本发明通过对过去12个月份的数据进行分析,得到基于用户描述的图书出版选题关键词;其中主要通过计算每个词的热度确定热点词作为图书选题***的候选词,并根据候选词的词性分布分别计算其每个月的热度情况,然后通过对过去12个月的整体表现进行分析,计算每个候选词的图书出版选题指数,最后根据用户输入描述计算最终的语义匹配选题指数,并输出分数最高的6个词作为此次图书选题的关键词。本发明在进行图书选题时不仅考虑到关键词的热度,还根据语义以及其词性分布等情况为用户提供可书写性更强,更符合用户需求的关键词。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的图书出版智慧选题***的流程图;
图2为用户选题关键词推荐过程。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的图书出版智慧选题***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于人工智能的图书出版智慧选题***的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的图书出版智慧选题***的流程图,该***包括:数据采集模块101、数据处理模块102、选题推荐模块103。
数据采集模块101,在进行选题时,了解目标读者的群体是非常重要的,针对不同受众群体需要选取不同领域的数据进行分析,得到不同的热门话题。例如,若读者是科技爱好者,那么科技创新、人工智能等相关的话题可能更具吸引力。接下来,本实施例以科技领域受众为例,并在多个领域内采用同样的方法进行分析。
为了分析科技爱好者受众的喜好,本实施例从科技社区极客公园、V2EX、知乎、新浪微博、IT之家等科技媒体和新闻网站等平台,通过获取相关网站的数据使用权限得到相关领域12个月以内的新闻报道、文章以及热点评论,每个月对数据进行更新,使数据具备实时性。
然后,对数据进行预处理,具体如下:1)通常获取的数据往往包含许多噪声,因此本实施例采用Python中的Pandas、NumPy和SciPy库先去掉数据中的HTML标签、表情符号、特殊符号和无关字符等。2)接下来对于中文文本数据还需要对其进行分词处理,这里采用jieba分词工具对所有的数据进行分词,其中输入为一句文本数据,输出为经过分词处理之后以空格分开的词序列,jieba分词工具为公知技术,本实施例不再赘述。3)为了分析数据中存在的热点信息,通常会以不同词的频率作为参考依据之一,因此为了避免干扰,需要将数据中没有实际意义的词进行去停用词处理,本实施例根据哈工大停用词表将数据中的高频出现却没有实际意义的词剔除,以免对后续分析造成干扰。
数据处理模块102,在使用人工智能技术对过去12个月的历史数据进行分析,寻找热点话题为图书出版智慧选题提供技术支撑时,由于文本数据是非常庞大和复杂的,且数据是实时变化的,热点的持续时间也是有所不同的,故我们需要对数据进行更细致的分析和预测。
为了分析热点的实时上升情况,我们将上述经过步骤一预处理的12个月的科技创新领域的文本,按照距离目前月份的远近顺序分为12个文档集合,每个文档集合包括一个月份内所有的文档。
分别针对每个文档集合进行分析,得到每个文档集合的关键词以及关键词的热度。具体如下:
在进行图书出版选题时通常会将实体词作为选题对象,例如“人工智能与机器学习”,针对每个文档集合采用BERT-BiLSTM-CRF模型进行命名实体识别,将所有的实体作为图书出版选题的待选取对象。同时采用隐马尔可夫模型对词语进行词性标注,获取每个词的词性,这些词性包括“名词”、“动词”、“形容词”、“副词”、“介词”等。其中,BERT-BiLSTM-CRF模型与隐马尔可夫模型均为公知技术,本实施例不再赘述。
这里结合TextRank算法思想分析并计算每个实体词的图书出版选题重要性
可供图书出版的热点词汇一定包含在高频词中,为了方便后续计算我们先通过频率-逆文档频率(TF-IDF)算法获取所有实体词中分数最高的前N个词作为当前月份的候选词,频率-逆文档频率(TF-IDF)算法为公知技术,本实施例不再赘述。本实施例对N取经验值200,实施者可自行设定,因此本实施例对各文档集合中的分数最高的前两百个词进行保留。
然后通过统计的方法计算这些词之间的共现情况,即当两个候选词出现在当月的热点评论数据中的同一个句子时,便将这两个候选词分别记为出现一次共现。最后,再通过为这些词赋予不同的权重获取最终的图书出版选题重要性,图书出版选题重要性本实施例通过结合TextRank算法思想分析并选取。
TextRank算法主要包括文本预处理、构建图结构、计算节点重要性、排序节点等步骤。
其中,文本预处理是指对原始文本进行分词、去停用词、词性标注等操作,该步骤已在上述步骤中处理完成;构建图结构是指基于预处理的各文档集合分别构建一个无向图,本实施例为了考虑计算的复杂性以及选出符合图书出版场景的关键词,故取上述由频率-逆文档频率计算的前N个实体词作为节点,其中节点即为各文档集合中的候选词,图中边的权重则表示候选词之间的共现次数;计算节点重要性时需要使用迭代算法计算每个候选词的重要性得分,其重要性得分是基于与当前节点相连节点的图书出版选题重要性和图书出版选题自身重要性计算,迭代到图书出版选题重要性收敛为止;排序节点即根据图书出版选题重要性得分从大到小进行排序。
在计算图书出版选题重要性之前,需要根据候选词的具体分布情况确定其图书出版选题自身重要性/>,图书出版选题自身重要性代表着候选词自身具备成为图书出版选题关键词的可能性。
由于在图书出版选题过程中,我们不仅要关注关键词的热度,还要注重关键词是否具有很强的可书写性,该类关键词一般要具备以下特性,即该关键词为当下热点话题、具有较强的专业性和特殊性以突出图书的价值、具有较强的吸引力和表达力且易于理解和表达。具体计算如下:
其中,表示第i个候选词的图书出版选题自身重要性;/>表示第i个候选词的出现频率;/>表示第i个候选词的长度;/>表示第i个候选词的表达丰富度,表达丰富度的获取方法为:通过为每个候选词划分一个邻域窗口,即取其前、后各3个候选词,根据上述词性标注的结果,记录该候选词邻域内不同词性的种类数/>
当该候选词出现频率越高时,表明该词越可能是热点话题,应该有更高的图书出版选题自身重要性,反之,表明该词的热度较低,具有更低的图书出版选题自身重要性;当该词的长度较长时表明该词可能存在描述繁琐不易于理解等特点,不适合作为图书出版选题的关键词,因此应该具备更低的图书出版选题自身重要性,反之,该词应该具备更高的图书出版选题自身重要性;同时,当该词的周围词语表达丰富度较高时,则表明该词周围的词性分布比较完整均匀,能够更好的表达观点、展示话题内容,能够有较强的扩展性,便于图书的书写和表达,因此应该具备更高的图书出版选题自身重要性,反之,该词可能表达比较单一,没有较强的可书写性,因此应该具备更低的图书出版选题自身重要性。
在计算图书出版选题重要性时,每个候选词的重要性由当前词自身的重要程度和与当前词存在共现关系的词的重要性决定。也就是当前词与拥有更高图书出版选题重要性的词存在共现关系时,则当前词也应该拥有更高的图书出版选题重要性。
因此这是一个不断迭代的过程,具体迭代方式采用PageRank算法,将无向图输入到PageRank算法中,对无向图中的各节点的候选词进行迭代计算,直到算法收敛到最优结果,从而得到算法的输出为各候选词的图书出版选题重要性,PageRank算法为公知技术,本实施例不再赘述。对于候选词的图书出版选题重要性的具体计算方式如下:
其中,表示第i个候选词的图书出版选题重要性;/>表示第i个候选词的图书出版选题自身重要性;N表示与第i个候选词存在共现关系的候选词个数;/>表示与第i个候选词存在共现关系的第j个候选词的图书出版选题重要性;/>表示与第i个候选词与第j个候选词在同一个句子中出现的共现次数。
当第i个候选词的图书出版选题自身重要性越大时,说明该候选词越可能是图书出版选题的关键词,则该候选词的图书出版选题重要性也应该越大,反之,说明该候选词越不可能是图书出版选题的关键词,则该候选词的图书出版选题重要性也应该越小;当与之存在共现关系候选词的图书出版选题重要性越大,与之存在共现次数越多时,说明当前候选词被更重要的候选词相关联,因此当前候选词也应该拥有更高的图书出版选题重要性,反之,说明当前候选词被一个不太重要的候选词相关联,因此当前候选词的图书出版选题重要性应该较低。
根据不同月份每个候选词的图书出版选题重要性,分析热点词的变化情况,并为最终选出图书出版选题关键词提供依据。
在对图书出版进行选题时选择热度高的话题确实可以吸引更多的读者,但这种热度可能是短暂的。如果选择的话题只是暂时的热点,那么图书的销量也可能只是短期内的高峰。因此,应该更倾向于选择热度持续较久的词,通常热度越高持续时间越长的词往往具备着更高的书写价值。
由上述步骤可以得到过去12个月中每个月文档集合的频率-逆文档频率,且可以计算出前200个候选词的图书出版选题重要性,并将12个月的所有候选词组成图书出版选题的总候选词集合,其中每个候选词代表一个可供图书出版选择的关键词。
并为每个候选词构建其选题重要性变化序列,序列中每个元素分别是12月中该候选词的图书出版选题重要性,对于当前词没有被作为节点的月份将其图书出版选题重要性置为“0”。并以此为依据计算总候选词集合中每个候选词的图书出版选题指数,具体计算如下:
其中,表示总候选词集合中第i个候选词的图书出版选题指数;/>表示选取数据的月份,本实施例取值为12,即选取过去12个月的数据为依据,实施者可根据实际情况自行设定;/>表示过去12个月中的第j个月,月份越大表示距离目前时间越近,即其图书出版选题重要性应该具有更高的权重;/>表示总候选词集合中第i个候选词在第j个月份中的图书出版选题重要性。
其中,距离目前时间越近的图书出版选题重要性的权重也越大,图书出版选题指数越大,则更应该作为图书出版选题的关键词,反之,其图书出版选题重要性越小,图书出版选题指数越小,则更不应该作为图书出版选题的关键词;且所有月份的平均图书出版选题重要性越大,表示其热度持续越久,则更应该作为图书出版选题的关键词,反之,表示其热度持续越短,则更不应该作为图书出版选题的关键词。
至此,本实施例获得了总候选词集合中每个词的图书出版选题指数
选题推荐模块103,根据用户输入选题要求,采用命名实体识别模型BERT-BiLSTM-CRF找出其中的实体,并通过BERT语言模型将其用户提出的实体词以及总候选词集合中所有的候选词转换为其对应的语义向量,其中,BERT语言模型为公知技术,本实施例不再赘述。将用户输入的实体词与候选词中每个实体词的语义向量进行匹配并根据其图书出版选题指数确定每个候选词相对于用户的语义匹配选题指数,具体如下:
其中,表示总候选词集合中第i个候选词的语义匹配选题指数;/>表示用户输入选题要求中的实体词个数;/>表示用户输入选题要求中第i个实体词的图书出版选题指数;/>表示用户输入选题要求中第j个实体词的语义向量;/>表示总候选词集合中第i个候选词的语义向量。
当其语义向量越接近时表明该词越符合用户的需求,反之,表明该词越不符合用户的需求。
将总候选词集合中各候选词的语义匹配选题指数按照从大到小的顺序进行排序得到选题序列,选择选题序列中分数最高的前r个词作为此次选题的关键词,输出给用户查看。其中,本实施例对r取经验值6,实施者可根据实际情况自行设定。其中,用户选题关键词推荐过程如图2所示。
至此,完成图书出版智慧选题的选取。
综上所述,本发明实施例通过对过去12个月份的数据进行分析,得到基于用户描述的图书出版选题关键词;其中主要通过计算每个词的热度确定热点词作为图书选题***的候选词,并根据候选词的词性分布分别计算其每个月的热度情况,然后通过对过去12个月的整体表现进行分析,计算每个候选词的图书出版选题指数,最后根据用户输入描述计算最终的语义匹配选题指数,并输出分数最高的6个词作为此次图书选题的关键词。本发明实施例在进行图书选题时不仅考虑到关键词的热度,还根据语义以及其词性分布等情况为用户提供可书写性更强,更符合用户需求的关键词。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于人工智能的图书出版智慧选题***,其特征在于,所述***包括:
数据采集模块:获取各月内的热点评论数据作为各月的文档集合;
数据处理模块:选取文档集合中的实体词并标注对应的词性;根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数;以文档集合中的候选词作为无向图的节点,以节点之间的共现次数作为连线的权重构建无向图;将文档集合中候选词的长度与出现频率的比值结果乘以表达丰富度得到各候选词的图书出版选题自身重要性;
采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性;根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列;根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数;
选题推荐模块:根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,其中,采用文档集合中的实体词选取方法获取用户输入选题要求中的各实体词;
将候选词按照语义匹配选题指数从大到小进行排序得到选题序列,将选题序列中前r个候选词输出作为给用户选题推荐的关键词;
所述表达丰富度的获取方法,包括:
对候选词划分一个邻域窗口,所述邻域窗口包含当前候选词以及当前候选词前、后各u个候选词
统计邻域窗口内所有候选词的词性出现的种类数,将所述种类数作为候选词的表达丰富度。
2.如权利要求1所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述选取文档集合中的实体词并标注对应的词性,包括:
采用BERT-BiLSTM-CRF模型识别文档集合中的实体词;
采用隐马尔可夫模型对各实体词进行词性标注得到各实体词的词性,所述词性包括但不限于:名词、动词、形容词。
3.如权利要求2所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数,包括:
采用频率-逆文档频率获取文档集合中前N个词作为候选词,其中,N为预设候选词数量;
将出现在同一个句子中的两个候选词作为一个共现关系,统计候选词在文档集合中出现共现关系的次数作为共现次数。
4.如权利要求1所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性,包括:
对于与当前候选词存在共现关系的各候选词,获取候选词与当前候选词在同一个句子中出现的共现次数;
计算所述共现次数与候选词的图书出版选题重要性的乘积,计算所有存在共现关系的候选词的所述乘积的和值;
将所述和值与当前候选词的图书出版选题自身重要性之和作为当前候选词的图书出版选题重要性;
采用PageRank算法对各候选词的图书出版选题重要性进行迭代计算,直到满足停止条件,得到迭代后的各候选词的图书出版选题重要性。
5.如权利要求4所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列,包括:
将所有文档集合中的候选词组成总候选词集合;
对于总候选词集合中各候选词,将候选词在各月的图书出版选题重要性组成候选词的选题重要性变化序列。
6.如权利要求5所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数,包括:
其中,表示总候选词集合中第i个候选词的图书出版选题指数;/>表示选取数据的月份;/>表示过去12个月中的第j个月,月份越大表示距离目前时间越近,即其图书出版选题重要性应该具有更高的权重;/>表示总候选词集合中第i个候选词在第j个月份中的图书出版选题重要性。
7.如权利要求1所述的一种基于人工智能的图书出版智慧选题***,其特征在于,所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,包括:
采用BERT语言模型对用户输入选题要求中的各实体词以及总候选词集合中的各候选词进行转换得到对应的语义向量;
对于用户输入选题要求中的各实体词,获取实体词与候选词的语义向量的余弦值;
计算所述余弦值与候选词的图书出版选题指数的乘积,将用户输入选题要求中所有实体词的所述乘积的和值作为候选词的语义匹配选题指数。
CN202410028055.7A 2024-01-09 2024-01-09 一种基于人工智能的图书出版智慧选题*** Active CN117540747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410028055.7A CN117540747B (zh) 2024-01-09 2024-01-09 一种基于人工智能的图书出版智慧选题***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410028055.7A CN117540747B (zh) 2024-01-09 2024-01-09 一种基于人工智能的图书出版智慧选题***

Publications (2)

Publication Number Publication Date
CN117540747A CN117540747A (zh) 2024-02-09
CN117540747B true CN117540747B (zh) 2024-04-16

Family

ID=89788429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410028055.7A Active CN117540747B (zh) 2024-01-09 2024-01-09 一种基于人工智能的图书出版智慧选题***

Country Status (1)

Country Link
CN (1) CN117540747B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム
CN105183718A (zh) * 2015-09-25 2015-12-23 苏州天梯卓越传媒有限公司 一种用于出版行业的热点选题获取方法及其***
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN109902230A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种新闻数据的处理方法及装置
CN115186050A (zh) * 2022-09-08 2022-10-14 粤港澳大湾区数字经济研究院(福田) 基于自然语言处理的选题推荐方法、***及相关设备
CN117333037A (zh) * 2023-10-16 2024-01-02 山东出版数字融合产业研究院有限公司 一种面向出版大数据的产业大脑构建方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454612B2 (en) * 2013-08-29 2016-09-27 Fujitsu Limited Item selection in curation learning
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム
CN105183718A (zh) * 2015-09-25 2015-12-23 苏州天梯卓越传媒有限公司 一种用于出版行业的热点选题获取方法及其***
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN109902230A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种新闻数据的处理方法及装置
CN115186050A (zh) * 2022-09-08 2022-10-14 粤港澳大湾区数字经济研究院(福田) 基于自然语言处理的选题推荐方法、***及相关设备
CN117333037A (zh) * 2023-10-16 2024-01-02 山东出版数字融合产业研究院有限公司 一种面向出版大数据的产业大脑构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
社交网络中基于影响力的紧密子图发现算法;简兴明;游进国;梁月明;贾连印;;小型微型计算机***;20180615(第06期);224-230 *
误加权评分对比法在优化图书选题中的应用;张曼玲;情报科学;20010325(第03期);85-87 *

Also Published As

Publication number Publication date
CN117540747A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN110232149B (zh) 一种热点事件检测方法和***
US10515125B1 (en) Structured text segment indexing techniques
Millstein Natural language processing with python: natural language processing using NLTK
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法
VeeraSekharReddy et al. An attention based bi-LSTM DenseNet model for named entity recognition in english texts
Tungthamthiti et al. Recognition of sarcasm in microblogging based on sentiment analysis and coherence identification
CN112711666B (zh) 期货标签抽取方法及装置
Vīksna et al. Sentiment analysis in Latvian and Russian: A survey
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***
Patel et al. An automatic text summarization: A systematic review
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
CN117540747B (zh) 一种基于人工智能的图书出版智慧选题***
CN113111653B (zh) 一种基于Word2Vec和句法依存树的文本特征构造方法
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
Mir et al. Movie aspects identification model for aspect based sentiment analysis
CN111563361A (zh) 文本标签的提取方法及装置、存储介质
Handayani et al. Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method
Sobkowicz et al. Reading book by the cover—book genre detection using short descriptions
Pandi et al. Reputation based online product recommendations
CN117474703B (zh) 基于社交网络的话题智能推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant