CN102646114A - 一种基于突破点的新闻话题时间线摘要生成方法 - Google Patents
一种基于突破点的新闻话题时间线摘要生成方法 Download PDFInfo
- Publication number
- CN102646114A CN102646114A CN201210037970XA CN201210037970A CN102646114A CN 102646114 A CN102646114 A CN 102646114A CN 201210037970X A CN201210037970X A CN 201210037970XA CN 201210037970 A CN201210037970 A CN 201210037970A CN 102646114 A CN102646114 A CN 102646114A
- Authority
- CN
- China
- Prior art keywords
- topic
- news
- theme
- time slice
- breakthrough point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种自动、高效率地挖掘出目标新闻话题发展过程中的重要时刻及所发生的重大事件、从而极大地帮助了读者了解一个新闻话题的演变过程的基于突破点的新闻话题时间线摘要生成方法,包括以下步骤:(1)根据用户输入的话题关键词从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理;(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;(3)利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模;(4)抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;(5)输出目标话题的时间线摘要。
Description
技术领域
本发明涉及计算机应用技术的技术领域,具体地涉及一种基于突破点的新闻话题时间线摘要生成方法。
背景技术
在当今信息***时代,人们可以从互联网上免费阅读、下载关于一个新闻话题的各类新闻报道。由于网络上关于一个新闻话题(尤其是热点新闻话题)的相关新闻文章数量非常多,导致读者很难从众多相关的新闻报道中高效、省时地了解目标新闻话题的发展趋势和演变过程。
新闻话题时间线摘要生成问题的难点包括如何从一个新闻话题相关的新闻报道中确定该话题发展过程中的重要时间点(即突破点),以及如何根据一个突破点的相关新闻生成时间线摘要。下面分别说明现有技术中的方法:
a)突破点挖掘的相关工作
目前已知的方法包括四种,分别如下:
1.基于新闻数量
该方法首先统计每个时间点上目标话题的相关新闻数量,然后将新闻话题数量最多的若干时间点作为该话题发展过程中的突破点。使用该方法获得一个话题的所有突破点中,有很多突破点并非该话题的重要时间点。由于新闻报道具有“突发性-多样性”的特点,因此新闻报道多的时间点并不一定就是该话题的重要时间点。
2.基于事件监测
该方法首先从各时间点上的新闻文章中依次检测出一系列与目标话题相关的新闻事件,然后将每个新闻事件发生的时间点作为目标话题的突破点。
由于一个新闻话题的大部分相关事件都不是该话题发展、演变过程中的重大事件,因此使用该方法获得一个话题的所有突破点中,有很多突破点并非该话题的重要时间点。
3.基于情感倾向波动
该方法首先从每个时间点上的相关文章中抽取出人们在本时间点对目标话题的情感倾向及强度,然后通过分析人们在各时间点上对目标话题的情感倾向及强度波动的情况,挖掘出目标话题的突破点。
该方法由于依赖人们对目标话题的情感变化趋势,因此不适用于分析新闻报道这种主要描述事实、主观性很弱的文章体裁。
4.基于文档相关度
该方法由Google公司开发,并曾经被用于Google News Time line(谷歌新闻时间线)网络服务。由于该方法的实现细节从未公开,且Google News Timeb line服务已经于2011年7月份被Google公司永久性关闭,因此可以认为该算法已经不再使用。
b)突破点摘要生成的相关工作
目前已知的方法包括三种,分别如下:
1.基于神经网络
该方法将摘要生成过程用一个自组织神经网络建模,将所有摘要候选句作为神经网络的输入,通过不断迭代计算神经网络的边权重,最终输出本突破点摘要的句子子集。
2.基于图结构
该方法首先将突破点当天发表的新闻文章中的所有句子置于一张无向有权图中,结点表示句子,边表示两个句子间的相似度,边的权重为相似度大小。然后通过随机游走方式从图中选出信息量最大、冗余度最小的句子集合作为该突破点的摘要。
3.基于优化算法
该方法将摘要生成过程建模为一个线性优化问题,其中每个变量代表一个摘要候选句,优化受限条件为句子冗余限制,优化目标为摘要所包含的最大信息量。通过迭代优化的方式计算出优化目标收敛时突破点摘要所包含的句子集合。
上述三种方法在生成突破点摘要时均未考虑突破点当天发生的相关重大事件,而是仅仅考虑选出那些信息量大且冗余度小的句子,因此无法保证生成的摘要与突破点本身密切相关。
综合以上所列相关工作,基于突破点的新闻话题时间线摘要生成方法的一般流程如图1所示。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动、高效率地挖掘出目标新闻话题发展过程中的重要时刻及所发生的重大事件、从而极大地帮助了读者了解一个新闻话题的演变过程的基于突破点的新闻话题时间线摘要生成方法。
本发明的技术方案是:这种基于突破点的新闻话题时间线摘要生成方法,包括以下步骤:
(1)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括:字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;
(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;
(3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的强度,最后通过分析各主题在时间线上的强度波动模式,挖掘出目标话题的突破点;
(4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;
(5)输出目标话题的时间线摘要。
本方法采用“分而治之”的策略,通过划分时间片段、并行地在各片段内挖掘突破点并生成摘要,使得整个时间线摘要生成方案较之普通的、在整个话题时间周期上挖掘突破点的方案更为高效、快速;本方法以话题波动模式为依据、而非以新生事件为依据挖掘突破点,由于大部分话题相关的新生事件都不是该话题的重要事件,因此本方法挖掘突破点的准确率要远高于普通的、以新生事件为依据挖掘突破点的方法。
附图说明
图1是现有技术的基于突破点的新闻话题时间线摘要生成方法的流程图;
图2是根据本发明的基于突破点的新闻话题时间线摘要生成方法的流程图;
图3是本发明的步骤(2)的流程图;
图4是本发明的步骤(3)的流程图;
图5是本发明的步骤(4)的流程图。
具体实施方式
下面对本发明的技术方案做进一步的详细描述。
如图2所示,这种基于突破点的新闻话题时间线摘要生成方法,包括以下步骤:
(1)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括:字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;
(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;
(3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的强度,最后通过分析各主题在时间线上的强度波动模式,挖掘出目标话题的突破点;
(4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;
(5)输出目标话题的时间线摘要。
本方法采用“分而治之”的策略,通过划分时间片段、并行地在各片段内挖掘突破点并生成摘要,使得整个时间线摘要生成方案较之普通的、在整个话题时间周期上挖掘突破点的方案更为高效、快速;本方法以话题波动模式为依据、而非以新生事件为依据挖掘突破点,由于大部分话题相关的新生事件都不是该话题的重要事件,因此本方法挖掘突破点的准确率要远高于普通的、以新生事件为依据挖掘突破点的方法。
优选地,如图3所示,步骤(2)包括以下分步骤:
(2.1)将目标话题的整个时间周期切分为多个指定长度的时间片段;
(2.2)分别统计每个时间片段内的新闻文章数量和新增信息量,新增信息量为本时间片段单词分布与前一时间片段单词分布的库贝克-莱布勒Kullback-Leibler散度值,然后将新闻数乘以新增信息量作为本时间片段的修正新闻数量;
(2.3)利用动态规划法将各时间片段的修正新闻数量划分到若干个桶中,要求所有桶的最大扩散度最小,一个桶的扩散度指该桶内修正新闻数量的最大值与最小值之差,然后计算每个桶内修正新闻数量的平均值,作为该桶内各时间片段的期望新闻数量;
(2.4)构建话题活跃度隐马尔科夫模型,其中可观值为各时间片段内的新闻数量,隐藏值为各时间片段对应的话题活跃度层次,发射概率为泊松分布,转移概率由鲍姆-威赫Baum-Welch算法获得,然后利用维特比Viterbi算法计算并输出各时间片段的话题活跃度层次。
优选地,如图4所示,步骤(3)包括以下分步骤:
(3.1)利用话题活跃度隐马尔科夫模型从每个话题活跃的时间片段对应的新闻文章中挖掘出各个主题;
(3.2)构建主题转换隐马尔科夫模型,其中可观值为本时间片段内各文档中的单词组成的单词序列,隐藏值为每个单词对应的主题构成的主题转换序列,发射概率为话题模型中的话题产生单词的概率分布,转移概率由Baum-Welch算法获得,然后利用Viterbi算法计算本时间片段内的主题转换序列;
(3.3)将每日一个主题产生的单词数与该日单词总数之比作为该主题在当天的强度值,由此计算每日所有主题的强度值组成的强度向量;
(3.4)将每日主题的强度向量与后一日主题的强度向量的詹森-香农Jensen-Shannon散度值作为该日的主题强度波动值,如果该日的主题强度波动值大于前一日和后一日的主题强度波动值,则判定该日为目标话题的突破点;对于一个时间片段内最早和最晚的那几天,如果该日强度最大的主题的强度值大于本时间片段内各日的主题最大强度值的平均值,则判定该日为目标话题的突破点;然后输出各时间片段的目标话题突破点。
优选地,如图5所示,步骤(4)包括以下分步骤:
(4.1)对于每个突破点,从当天发表的每篇新闻文章中抽取摘要候选句,摘要候选句包括新闻标题句和新闻正文首句;
(4.2)从各新闻候选句中抽取出信息词,信息词包括名词、动词、形容词和副词;
(4.3)利用各句的信息词集将所有候选句聚类为多个类别,其中距离度量采用杰哈德Jaccard相似度公式;
(4.4)从每个类别中抽取出一个代表句,代表句的信息词数量在该类别各句中为最多;
(4.5)依次考察每一个代表句的信息词集与该突破点主导主题的单词集的Jaccard距离,并按此距离从小到大对所有代表句子排序,然后按此排名先后顺序依次将各代表句加入到本突破点的摘要中,直到该摘要的长度超过了预定的最大长度,其中摘要的长度是所包含代表句的单词总数,预定的最大长度是一个突破点摘要可以包含的最多单词数,主导主题单词为该突破点强度值最大的主题下概率最大的单词集合,然后按时序排列各突破点摘要并输出。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (4)
1.一种基于突破点的新闻话题时间线摘要生成方法,其特征在于:包括以下步骤:
(1)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括:字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;
(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;
(3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的强度,最后通过分析各主题在时间线上的强度波动模式,挖掘出目标话题的突破点,突破点是一个具体的日期,即时间点;
(4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;
(5)输出目标话题的时间线摘要,时间线指按时间先后顺序组织的多个突破点。
2.根据权利要求1所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于:步骤(2)包括以下分步骤:
(2.1)将目标话题的整个时间周期切分为多个指定长度的时间片段;
(2.2)分别统计每个时间片段内的新闻文章数量和新增信息量,新增信息量为本时间片段单词分布与前一时间片段单词分布的库贝克-莱布勒Kullback-Leibler散度值,然后将新闻数乘以新增信息量作为本时间片段的修正新闻数量;
(2.3)利用动态规划法将各时间片段的修正新闻数量划分到若干个桶中,要求所有桶的最大扩散度最小,一个桶的扩散度指该桶内修正新闻数量的最大值与最小值之差,然后计算每个桶内修正新闻数量的平均值,作为该桶内各时间片段的期望新闻数量;
(2.4)构建话题活跃度隐马尔科夫模型,其中可观值为各时间片段内的新闻数量,隐藏值为各时间片段对应的话题活跃度层次,发射概率为泊松分布,转移概率由鲍姆-威赫Baum-Welch算法获得,然后利用维特比Viterbi算法计算并输出各时间片段的话题活跃度层次。
3.根据权利要求2所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于:步骤(3)包括以下分步骤:
(3.1)利用话题活跃度隐马尔科夫模型从每个话题活跃的时间片段对应的新闻文章中挖掘出各个主题;
(3.2)构建主题转换隐马尔科夫模型,其中可观值为本时间片段内各文档中的单词组成的单词序列,隐藏值为每个单词对应的主题构成的主题转换序列,发射概率为话题模型中的话题产生单词的概率分布,转移概率由Baum-Welch算法获得,然后利用Viterbi算法计算本时间片段内的主题转换序列;
(3.3)将每日一个主题产生的单词数与该日单词总数之比作为该主题在当天的强度值,由此计算每日所有主题的强度值组成的强度向量;
(3.4)将每日主题的强度向量与后一日主题的强度向量的詹森-香农Jensen-Shannon散度值作为该日的主题强度波动值,如果该日的主题强度波动值大于前一日和后一日的主题强度波动值,则判定该日为目标话题的突破点;对于一个时间片段内最早和最晚的那几天,如果该日强度最大的主题的强度值大于本时间片段内各日的主题最大强度值的平均值,则判定该日为目标话题的突破点;然后输出各时间片段的目标话题突破点。
4.根据权利要求3所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于:步骤(4)包括以下分步骤:
(4.1)对于每个突破点,从当天发表的每篇新闻文章中抽取摘要候选句,摘要候选句包括新闻标题句和新闻正文首句;
(4.2)从各新闻候选句中抽取出信息词,信息词包括名词、动词、形容词和副词;
(4.3)利用各句的信息词集将所有候选句聚类为多个类别,其中距离度量采用杰哈德Jaccard相似度公式;
(4.4)从每个类别中抽取出一个代表句,代表句的信息词数量在该类别各句中为最多;
(4.5)依次考察每一个代表句的信息词集与该突破点主导主题的单词集的Jaccard距离,并按此距离从小到大对所有代表句子排序,然后按此排名先后顺序依次将各代表句加入到本突破点的摘要中,直到该摘要的长度超过了预定的最大长度,其中摘要的长度是所包含代表句的单词总数,预定的最大长度是一个突破点摘要可以包含的最多单词数,主导主题单词为该突破点强度值最大的主题下概率最大的单词集合,然后按时序排列各突破点摘要并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210037970XA CN102646114A (zh) | 2012-02-17 | 2012-02-17 | 一种基于突破点的新闻话题时间线摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210037970XA CN102646114A (zh) | 2012-02-17 | 2012-02-17 | 一种基于突破点的新闻话题时间线摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102646114A true CN102646114A (zh) | 2012-08-22 |
Family
ID=46658933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210037970XA Pending CN102646114A (zh) | 2012-02-17 | 2012-02-17 | 一种基于突破点的新闻话题时间线摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102646114A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
CN103500163A (zh) * | 2013-07-24 | 2014-01-08 | 百度在线网络技术(北京)有限公司 | 识别事件关键进展的方法和设备 |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN104484346A (zh) * | 2014-11-28 | 2015-04-01 | 浙江大学 | 一种基于混合距离依赖中餐馆过程的层次化主题建模方法 |
CN105787121A (zh) * | 2016-03-25 | 2016-07-20 | 大连理工大学 | 一种基于多故事线的微博事件摘要提取方法 |
CN106484724A (zh) * | 2015-08-31 | 2017-03-08 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN107656997A (zh) * | 2017-09-20 | 2018-02-02 | 广东欧珀移动通信有限公司 | 自然语言处理方法、装置、存储介质及终端设备 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108399241A (zh) * | 2018-02-28 | 2018-08-14 | 福州大学 | 一种基于多类特征融合的新兴热点话题检测*** |
CN108701133A (zh) * | 2016-11-30 | 2018-10-23 | 微软技术许可有限责任公司 | 提供推荐内容 |
CN108694183A (zh) * | 2017-04-06 | 2018-10-23 | 北京国双科技有限公司 | 一种检索方法及装置 |
WO2018223718A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 突发话题检测方法、装置、设备及介质 |
US10162870B2 (en) | 2015-09-30 | 2018-12-25 | International Business Machines Corporation | Historical summary visualizer for news events |
CN109408782A (zh) * | 2018-10-18 | 2019-03-01 | 中南大学 | 基于kl距离相似性度量的研究热点演变行为检测方法 |
CN109522481A (zh) * | 2018-11-07 | 2019-03-26 | 中山大学 | 一种基于马尔可夫模型的可拓展用户视野的推荐方法 |
CN111475732A (zh) * | 2020-04-13 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 一种信息处理方法和装置 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
CN112612944A (zh) * | 2020-12-07 | 2021-04-06 | 深圳价值在线信息科技股份有限公司 | 一种案例信息管理方法、终端设备及*** |
CN113254632A (zh) * | 2021-04-22 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于事件检测技术的时间线摘要自动生成方法 |
CN113918708A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市迪博企业风险管理技术有限公司 | 一种摘要抽取方法 |
-
2012
- 2012-02-17 CN CN201210037970XA patent/CN102646114A/zh active Pending
Non-Patent Citations (1)
Title |
---|
PO HU ETC.: "Generating Breakpoint-based Timeline Overview for News Topic Retrospection", 《ICDM 2011 11TH IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN103116644B (zh) * | 2013-02-26 | 2016-04-13 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
CN103473263B (zh) * | 2013-07-18 | 2017-02-08 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
CN103500163B (zh) * | 2013-07-24 | 2016-12-28 | 百度在线网络技术(北京)有限公司 | 识别事件关键进展的方法和设备 |
CN103500163A (zh) * | 2013-07-24 | 2014-01-08 | 百度在线网络技术(北京)有限公司 | 识别事件关键进展的方法和设备 |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN104182504B (zh) * | 2014-08-18 | 2017-06-06 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN104484346A (zh) * | 2014-11-28 | 2015-04-01 | 浙江大学 | 一种基于混合距离依赖中餐馆过程的层次化主题建模方法 |
CN104484346B (zh) * | 2014-11-28 | 2018-02-09 | 浙江大学 | 一种基于混合距离依赖中餐馆过程的层次化主题建模方法 |
CN106484724A (zh) * | 2015-08-31 | 2017-03-08 | 富士通株式会社 | 信息处理装置和信息处理方法 |
US10162870B2 (en) | 2015-09-30 | 2018-12-25 | International Business Machines Corporation | Historical summary visualizer for news events |
CN105787121A (zh) * | 2016-03-25 | 2016-07-20 | 大连理工大学 | 一种基于多故事线的微博事件摘要提取方法 |
CN105787121B (zh) * | 2016-03-25 | 2018-08-14 | 大连理工大学 | 一种基于多故事线的微博事件摘要提取方法 |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN107273346B (zh) * | 2016-03-30 | 2024-06-11 | 微软技术许可有限责任公司 | 从文本中对热门见解的可扩展挖掘 |
CN108701133A (zh) * | 2016-11-30 | 2018-10-23 | 微软技术许可有限责任公司 | 提供推荐内容 |
US11494450B2 (en) | 2016-11-30 | 2022-11-08 | Microsoft Technology Licensing, Llc | Providing recommended contents |
CN108694183A (zh) * | 2017-04-06 | 2018-10-23 | 北京国双科技有限公司 | 一种检索方法及装置 |
WO2018223718A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 突发话题检测方法、装置、设备及介质 |
CN107688652B (zh) * | 2017-08-31 | 2020-12-29 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN107656997A (zh) * | 2017-09-20 | 2018-02-02 | 广东欧珀移动通信有限公司 | 自然语言处理方法、装置、存储介质及终端设备 |
CN107656997B (zh) * | 2017-09-20 | 2021-01-15 | Oppo广东移动通信有限公司 | 自然语言处理方法、装置、存储介质及终端设备 |
CN108399241B (zh) * | 2018-02-28 | 2021-08-31 | 福州大学 | 一种基于多类特征融合的新兴热点话题检测*** |
CN108399241A (zh) * | 2018-02-28 | 2018-08-14 | 福州大学 | 一种基于多类特征融合的新兴热点话题检测*** |
CN109408782A (zh) * | 2018-10-18 | 2019-03-01 | 中南大学 | 基于kl距离相似性度量的研究热点演变行为检测方法 |
CN109522481A (zh) * | 2018-11-07 | 2019-03-26 | 中山大学 | 一种基于马尔可夫模型的可拓展用户视野的推荐方法 |
CN111475732A (zh) * | 2020-04-13 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 一种信息处理方法和装置 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
CN111581967B (zh) * | 2020-05-06 | 2023-08-11 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
CN112612944A (zh) * | 2020-12-07 | 2021-04-06 | 深圳价值在线信息科技股份有限公司 | 一种案例信息管理方法、终端设备及*** |
CN112612944B (zh) * | 2020-12-07 | 2024-05-31 | 深圳价值在线信息科技股份有限公司 | 一种案例信息管理方法、终端设备及*** |
CN113254632A (zh) * | 2021-04-22 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于事件检测技术的时间线摘要自动生成方法 |
CN113254632B (zh) * | 2021-04-22 | 2022-07-22 | 国家计算机网络与信息安全管理中心 | 基于事件检测技术的时间线摘要自动生成方法 |
CN113918708A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市迪博企业风险管理技术有限公司 | 一种摘要抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102646114A (zh) | 一种基于突破点的新闻话题时间线摘要生成方法 | |
US11487945B2 (en) | Predictive similarity scoring subsystem in a natural language understanding (NLU) framework | |
US10713441B2 (en) | Hybrid learning system for natural language intent extraction from a dialog utterance | |
Cao et al. | Knowledge-enriched event causality identification via latent structure induction networks | |
US11520992B2 (en) | Hybrid learning system for natural language understanding | |
CN103150382B (zh) | 基于开放知识库的短文本语义概念自动化扩展方法及*** | |
US20140214399A1 (en) | Translating natural language descriptions to programs in a domain-specific language for spreadsheets | |
CN108563734A (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
Lamela Seijas et al. | Towards property-based testing of restful web services | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
Vo | Se4exsum: An integrated semantic-aware neural approach with graph convolutional network for extractive text summarization | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN110555199B (zh) | 基于热点素材的文章生成方法、装置、设备及存储介质 | |
CN102982063A (zh) | 一种基于关系关键词扩展的元组精化的控制方法 | |
CN104572111B (zh) | 一种基于相关主题模型的程序理解和特征定位方法 | |
Basile et al. | Entity linking for tweets | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN115455155B (zh) | 一种政务文本的主题信息提取方法及存储介质 | |
Fang et al. | Adaptive Code Completion with Meta-learning | |
Long et al. | Deep Neural Network with Embedding Fusion for Chinese Named Entity Recognition | |
CN115408353A (zh) | 一种日志数据处理方法及装置 | |
Wang et al. | CACV-tree: A New Computational Approach for Sentence Similarity Modeling | |
Cohn et al. | Ranking Content based on Semantic Dimensions: A Multi-objective Approach | |
Ma et al. | A Profiling and Query Platform for Research Management Based on Knowledge Graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120822 |