CN103164473A - 文件群集的自动摘要判断方法 - Google Patents

文件群集的自动摘要判断方法 Download PDF

Info

Publication number
CN103164473A
CN103164473A CN2011104240710A CN201110424071A CN103164473A CN 103164473 A CN103164473 A CN 103164473A CN 2011104240710 A CN2011104240710 A CN 2011104240710A CN 201110424071 A CN201110424071 A CN 201110424071A CN 103164473 A CN103164473 A CN 103164473A
Authority
CN
China
Prior art keywords
file
threshold value
clip text
value
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104240710A
Other languages
English (en)
Inventor
蔡弘扬
高子腾
薛格闵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Esobi Inc
Original Assignee
Esobi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Esobi Inc filed Critical Esobi Inc
Priority to CN2011104240710A priority Critical patent/CN103164473A/zh
Publication of CN103164473A publication Critical patent/CN103164473A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文件群集的自动摘要判断方法,其建置一数据库将使用者预载的每一个包含有多笔子文件摘要内容及主文内容的文件群集包装储存成对应的文件群集历程记录文件,每一个文件群集历程记录文件中记录有该文件群集中每一个子文件的原始摘要内容及主文内容,并设有多个可供分析的判断数值,当使用者欲浏览某文件群集内容时,通过该数据库中对应于该文件群集的文件群集历程记录文件中所记录的内容和数值,进行是否需要对该文件群集中的所有子文件产出更贴近主文重点的新摘要内容的判断。

Description

文件群集的自动摘要判断方法
技术领域
本发明涉及一种文件的摘要处理方法,特别涉及一种文件群集的自动摘要判断方法。
背景技术
计算机及因特网的快速发展,造成因特网信息量的快速爆增。一般而言,使用者大都是通过特定的入口网站观看所喜爱的内文。所谓的文件泛指的是网页中的文章、新闻或信息,亦可称的为数字文件,由于目前数字科技的普遍运用,近年来文件的产生极为快速,数量非常庞大,而且为达到即时的更新页面中的各项文件的版面的目的,大多数的文件提供者(例如入口网站)都会提供文件内容的摘要处理与显示,藉以提供使用者可以同时观看更多数量的文件。
现有的文件摘要处理是将文件中的主文内容进行部分的摘录。诚如前文所提到,入口网站每一天所接收到的文件数量是非常庞大的。若使用人工进行摘要处理的话,对于厂商不啻为一项沉重的负担。因此文件提供者多会采用自动摘要的处理,其处理方式是将主文中的标题或前几个字直接取出,将其当成该篇文件的摘要并显示于首页中,也就是说现有的摘要处理方法虽然可以提高同一页面中的文章显示数量,但是大部分为求处理快速,仅仅撷取主文部分文字作为该篇文件的摘要,而未做摘要内容是否符合贴近主文重点或摘要内容是否充足丰富的判断,于是造成使用者在浏览该篇摘要时,常难以理解该篇文件的真正内容,不符合现代使用者浏览重点式摘要的需求。
发明内容
有鉴于上述问题,本发明的主要目的在于揭露一种文件群集的自动摘要判断方法,以期能在使用者浏览选定的文件群集(该文件群集即为一网站的页面内容或该网站的一个频道页面内容),先判断该文件群集中所夹带的所有子文件的原始摘要内容是否充足且贴近主文重点,经由本发明的多个判断步骤分析是否需就该文件群集的内容(其中所有的子文件)产出更贴近主文重点的摘要重组内容(较佳的摘要内容),以求能更符合使用者浏览重点式摘要的需求。
为达成上述目的,本发明的主要技术手段包含下列步骤:(A)建立一数据库,将使用者预载的每一个包含有多笔子文件摘要内容及主文内容的文件群集包装储存成对应的文件群集历程记录文件,每一个该文件群集历程记录文件中记录有该些子文件的该摘要内容及该主文内容,并设置有一文件累计数值、一摘要化累计次数值及一摘要化成功次数值;(B)针对使用者欲浏览的该文件群集,于该数据库中取出对应的该文件群集历程记录文件;再针对该文件群集历程记录文件中的每一笔子文件的摘要内容,配合一文件累计数值、一摘要化累计次数值及一摘要化成功次数值,进行下列主要的回圈式判断步骤,直至文件群集历程记录文件中所有的子文件的摘要内容都被处理过为止,(C)针对其中该文件累计数值判断是否大于一第一门槛值;(D)计算该摘要化累计次数值及该摘要化成功次数值以产生一摘要化成功率数值;(E)判断该摘要化成功率数值是否大于一第二门槛值;(F)判断该笔子文件的摘要内容长度是否大于一第三门槛值;(G)针对该笔子文件的主文内容进行一摘要化处理,产出一新摘要内容;(J)输出新摘要内容。
其中,文件累计数值、摘要化累计次数值及摘要化成功次数值会随着数据库中文件群集历程记录文件的建置和上述判断步骤的执行过程中而不断变化,由上述判断步骤(其中步骤(H)至步骤(I)是为更新该文件群集记录文件的动作,故未列于前述步骤中,有关本发明详细步骤细节将于实施方式中搭配实施例阐述),得以于使用者浏览选定的文件群集内容前,先行判断是否需就该文件群集内容中的所有子文件的摘要内容进行摘要处理的动作,以产出更贴近主文重点的新摘要内容,提供使用者较佳的摘要浏览需要。
本发明还可延伸设置更多的数值及增加更细微的判断步骤进行交叉比对,藉以检查并输出最佳化的摘要结果供使用者浏览,如于步骤(G)中还包含:(G1)比对新摘要内容长度与该笔子文件的(原始)摘要内容长度,若新摘要内容长度小于该笔子文件的(原始)摘要内容长度,则表示该笔子文件的(原始)摘要内容较丰富,便直接选择输出该笔子文件的(原始)摘要内容;(G2)若新摘要内容长度大于该笔子文件的摘要内容长度,则代表经上述步骤所产出的新摘要内容较丰富,而进行步骤(J)输出更符合使用者浏览需求的新摘要内容。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1本发明一较佳实施例的方框执行程序示意图。
图2本发明一较佳实施例的文件群集历程记录文件的示意图。
图3一新闻网页对照解说示意图。
图4本发明一较佳实施例的详细步骤流程图。
图5该较佳实施例的一新增步骤示意图。
图6该较佳实施例的另一新增步骤示意图。
图7本发明另一较佳实施例的详细步骤流程图。
图8该较佳实施例的一新增步骤示意图。
其中,附图标记
20使用者预载的文件群集
21文件群集A
211子文件A1
2111摘要内容
212子文件A2
2121摘要内容
22文件群集B
30数据库
S10~S17步骤说明
S20~S29步骤说明
S50~S59步骤说明
具体实施方式
有关本发明的特征与实施例,以下兹配合附图与较佳实施例的详细说明清楚呈现如下。
本发明以下所揭露的实施例,可以通过一般具有数字化数据处理能力的电子设备实施,例如计算机及智能型手机,这里所称的计算机包含但不限于个人计算机(Personal Computer)或是笔记型计算机(Note Book Computer),通过软体的途径执行下文中所揭露的方法来加以实现。
图1主要阐述了本发明的一个较佳实施例的方框执行程序示意图,如图中所示,其主要执行程序以下步骤:
步骤S10:建立数据库,产出对应于预载文件群集内容的文件群集记录文件;
步骤S11:针对使用者选择,取出对应的文件群集记录文件(内容及数值);
步骤S12:针对其中数值判断第一门槛值;
步骤S13:针对其中数值计算摘要化成功率;
步骤S14:针对摘要化成功率判断第二门槛值;
步骤S15:针对其中内容判断第三门槛值;
步骤S16:针对其中内容进行摘要化处理,产出新摘要内容;
步骤S17:更新文件群集历程记录文件(内容及数值),并输出该新摘要内容。
由上述步骤主要可得知,本发明是通过建置文件群集记录文件,并通过其中所记录的内容及数值,分别经过步骤S12至S15至少三个门槛值的严谨判断,若判断均成立后,才会进行步骤S16摘要化处理的动作产出一新摘要内容,并于步骤S17输出该新摘要内容于显示端。由于文件群集记录文件记录了对应的文件群集内容和建置了多个可供分析的判断数值,于上述步骤中还可加入更多的交叉比对动作,增加更多的门槛值进行更严谨的判断步骤,而得到更贴近使用者需要的摘要内容。此种于使用者浏览文件群集内容的前,针对文件群集内容中的所有子文件的摘要判断流程,实为业界独创的方式。
其中于步骤S10中(请同时参考图2),先建立一数据库30,将使用者预载的多个文件群集(文件群集A、文件群集B)中所夹带的每一个子文件的摘要内容及主文内容抓取出来包装储存成对应的文件群集历程记录文件(文件群集记录文件CA、文件群集记录文件CB),也就是说有多少个文件群集就形成多少个对应的文件群集历程记录文件,其中文件群集A中夹带有数笔子文件(以下以第一笔子文件A1做概括解说),该文件群集历程记录文件CA将文件群集A中夹带的子文件A1的摘要内容A11及主文内容A12抓取出来储存为对应的摘要内容CA11及主文内容CA12,并设置一文件累计数值CA2、一摘要化累计次数值CA3及一摘要化成功次数值CA4。
其中所述的文件群集A是为一网站的页面内容或该网站的一个频道页面内容,其可能包括新闻频道(News channel)、运动频道(Sport channel)、科技频道(Technology Channel)或财经频道(Economics channel)等各式类型相近的网站页面内容或频道页面内容,每一个页面内容中,都会有大量的文章显示数量,请同时参考图3,图3是以一新闻网页对照解说,其中每一个单独的页面(21、22),即为一个单独的文件群集A、文件群集B,其中该文件群集A(21)中,即放置有多个经节录出来的当日新闻文章(211即子文件A1、212即子文件A2)以供点阅浏览,但由于网页空间有限的原因,所以该些新闻文章均仅撷取主文部分文字(有的附加图片)作为该篇文件的摘要内容(即子文件A1的摘要内容2111、子文件A2的摘要内容2121),并显示于页面上供点阅浏览,如图中所示,该摘要内容(2111、2121)是根据主文内容所产生的部分内容(其内容可能为文字或文字加上图片,如图所示该摘要内容2111、2121即为文字加上图片),而关于如何抓取网页纯文字及图片内容的技术,为本领域技术人员所熟知且非本案的重点,故不在此重复赘述。
以下搭配图4所示的详细步骤流程图,做更详细的步骤解说。步骤S20是先建立一个数据库,将使用者于网路上预载好的每一个文件群集包装储存成对应的文件群集历程记录文件,每一个文件群集如前述都夹带着多笔的子文件摘要内容及主文内容,本发明通过前述抓取网页纯文字及图片内容的技术,将文件群集中每一笔子文件的原始摘要内容及主文内容抓取出来,并一一记录在对应的文件群集历程记录文件中,文件群集历程记录文件中同时设置有可供分析的文件累计数值、摘要化累计次数值及摘要化成功次数值(有关步骤S20的成型方式,请参考前述和图2所示),设置文件累计数值、摘要化累计次数值及摘要化成功次数值的用意是在做为进行后续步骤或下次使用时,判断逻辑上的参考之用
其中,文件累计数值、摘要化累计次数值及摘要化成功次数值一开始都先设为0,该些数值将随着后续步骤的执行而累积变化,本发明的步骤是一次取出文件群集历程记录文件中的一笔子文件的摘要内容做判断,所以当取出一笔子文件的摘要内容时,文件累计数值就加1,一直累加下去,其记录该份文件群集历程记录文件中处理过子文件数量,避免文件群集历程记录文件中累积处理过的子文件数量太少,而进行后续步骤浪费记忆体运算资源,或者因累积处理过的子文件数量太少而造成执行后续步骤时产生错误的判断,故文件累计数值限定需达到预定数量,如后续步骤S22中需与第一门槛值做比对,大于预设的第一门槛值才会进行后续的步骤。
而摘要化累计次数值及摘要化成功次数值,则随着步骤的执行而记录着产生新摘要内容的次数和新摘要内容覆盖取代该笔子文件(原始)摘要内容的次数(将详细说明如后)。
另外该数据库是持续累积记录内容及数值,在使用者更新预载的文件群集后,会把同一个来源的文件群集的新内容,再抓取出来置入之前已经建置好的对应的文件群集历程记录文件中累积记录,并更新该份文件群集历程记录文件中的文件累计数值,若是上次没建置到的新来源的文件群集,便会再产生一个对应的新的文件群集记录文件。这样的数据库建置及应用方式,对于使用者下次选定欲浏览的文件群集时,由于文件群集历程记录文件不断的累积内容及更新判断数值(文件累计数值、摘要化累计次数值及摘要化成功次数),对于进行后续步骤S21至步骤S29会得到一次比一次快速的判断结果,并输出最贴近主文重点的较佳摘要化内容供使用者浏览。以下为方便说明,先将文件累计数值预设为199(即代表该文件群集历程记录文件中处理过了199笔子文件的摘要内容及主文内容),并将摘要化累计次数值预设为150、摘要化成功次数值设为120。
当数据库建置好之后,接下来便可于步骤S21中,在使用者选定欲浏览的文件群集前,先于数据库中取出对应于该文件群集的文件群集历程记录文件出来,并进行步骤S22,先取出该文件群集历程记录文件中记录的其中一笔子文件的(原始)摘要内容(第200笔子文件),因为又取出了一笔子文件的(原始)摘要内容,所以先更新文件累计数值将之累加1使之数值成为200,接着判断文件群集历程记录文件中设置的文件累计数值是否大于第一门槛值,于本实施例中,将该第一门槛值设定为100,代表该文件群集历程记录文件中至少要累积有100篇子文件内容(摘要内容和主文内容),才进行步骤S23继续判断,若小于第一门槛值就直接跳至步骤S29输出该笔子文件的摘要内容。于本实施例中,文件累计数值200大于第一门槛值数值100,所以继续进行步骤S23。
于步骤S23中,计算该文件累计数值及该摘要化成功次数值,产生一摘要化成功率数值,于本实施例中通过下列方式计算出该摘要化成功率数值,其计算方式可以与文件群集历程记录文件中设置的判断数值做多种组合计算,当不应限定以何种方式计算出摘要化成功率数值,于此仅举下例说明之。
摘要化成功率数值=摘要化成功次数值(数值:120)/摘要化累计次数值(数值:150)
得到摘要化成功率数值为0.8,接着进行步骤S24。
于步骤S24中,预设一个第二门槛值为0.5,用以跟步骤S23中计算出来的摘要化成功率数值做判断,若该摘要化成功率大于第二门槛值,则进行下一步骤S25继续判断,若小于第二门槛值就直接跳至步骤S29输出该笔子文件的(原始)摘要内容。于本实施例中,于步骤S23中计算出来的摘要化成功率数值0.6大于第二门槛值0.5,所以进行步骤S25继续判断。
于步骤S25中,预设一个第三门槛值为100,用以跟该笔子文件的(原始)摘要内容长度做判断,用意是判断该笔子文件的(原始)摘要内容长度是否够长,若大于第三门槛值,则判定该笔子文件(原始)摘要内容就足够充足了,不需要再进行后续判断步骤,直接跳至步骤S29输出该笔子文件的(原始)摘要内容。以下为方便步骤说明,设定该笔子文件的(原始)摘要内容为50,于本实施例中,该笔子文件的(原始)摘要内容(数值50)小于第三门槛值100,所以继续进行步骤S26。
经由前面种种步骤判断至此,于步骤S26中即对该子文件的主文内容进行一摘要化处理,以产出一新摘要内容。至于所述摘要化处理产生新摘要内容的方式,是通过特别的演算法将该笔子文件的主文内容中的文字字元和图片抓取出来,进行演算法计算后(例如与标题做比对或计算段落权重、文章最大区块等等方式)而将文字字元和图片重组成一个新的摘要内容,关于该演算法的技术,为本领域技术人员所熟知且非本案的重点,故不在此重复赘述。当产出一新摘要内容之后,即将该摘要化累计次数值累加1,代表产出了一次新摘要内容,然后继续进行步骤S27,将产出的该笔新摘要内容更新至该份文件群集历程记录文件中取代该笔子文件的(原始)摘要内容(于此步骤中,该笔子文件原来的旧摘要内容已被新摘要内容覆盖并储存于该文件群集历程记录文件中),及进行步骤S28更新该文件群集历程记录文件中的摘要化成功次数值将之数值累加1,代表摘要判断又成功了1笔(以供后续步骤或下次使用文件群集历程记录文件时判断逻辑上的参考),然后继续进行步骤S29。
于步骤S29中,便直接将文件群集历程记录文件中的该笔子文件的摘要内容输出于显示端供使用者浏览,完成文件群集历程记录文件中该笔子文件的摘要判断流程,并重复步骤S22,取出下一笔子文件的(原始)摘要内容继续进行步骤S22至步骤S29的判断流程,直至该文件群集历程记录文件中所有的子文件(原始)摘要内容都被处理过为止。
而于本实施例中,可于文件群集历程记录文件中加入新的数值产生新的组合判断或更进一步的比对,如图5,本实施例的一新增步骤示意图,于步骤S22中,当文件累计数值(数值:200)大于第一门槛值(数值:100)之后,再多增加一个步骤S221的判断,进一步判断摘要化累计数值是否也大于一第四门槛值,如此通过判断文件累计数值及摘要化累计数值是否均达预定数量的双重判断,更可达到严谨的比对,避免无谓的进行后续步骤而浪费记忆体运算资源,或因累积处理过的子文件数量太少而造成执行后续步骤时产生错误的判断。于本实施例中,摘要化累计数值150,大于第四门槛值20,所以可以再继续进行步骤S23。
再如图6,本实施例的另一新增步骤示意图,于步骤S26针对该子文件的主文内容进行一摘要化处理,以产出一新摘要内容之后,增加一个步骤S261的步骤,进一步比对该新摘要内容长度与该子文件的(原始)摘要内容长度,判断新摘要内容与(原始)摘要内容两者哪一个内容长度比较长(即摘要内容较丰富),若产出的新摘要内容长度比较长,则进行步骤S57进行更新该笔子文件摘要的动作,若经比对后,该笔子文件的(原始)摘要内容比新产出的新摘要内容长度还长,则直接跳至步骤S59输出原来的摘要内容,经过步骤S561的判断,可选出最适合的摘要内容,并减少程序的误判。于本实施例中,假设于步骤S26中所产出的新摘要内容长度为60,而本实施例于上述步骤S25中已经预设该笔子文件的(原始)摘要内容为50,于是经过步骤S261的比对判断后,该新摘要内容长度大于该笔子文件的(原始)摘要内容长度,所以进行步骤S27的将产出的该笔新摘要内容更新至该份文件群集历程记录文件中取代该笔子文件的(原始)摘要内容的动作,而若新摘要内容长度小于该笔子文件的(原始)摘要内容长度的话,则判定该笔子文件的(原始)摘要内容较丰富,所以直接进行步骤S29输出该笔子文件的(原始)摘要内容。
图7显示另一完整的较佳实施例,即将前述新增的判断步骤都加入(即图中步骤S521及步骤S561),使的成为一个较完整的判断流程,其判断方式于前述都以充分阐述,所以不在此重复赘述。而为了使本发明的判断流程更加详尽及令输出结果更为优良及减少误判的可能性,请参考图8,于本实施例中还于步骤S53计算出该笔子文件的摘要成功率之后,于步骤S54判断该摘要化成功率是否大于预设的第二门槛值的判断步骤中,加入了更详细的一个败部复活判断流程(该摘要化成功率若小于第二门槛值,在直接进行步骤S59直接输出该笔子文件的原始摘要内容之前,先进行摘要化成功率不高的子文件有败部复活空间的进一步判断),以提高该笔子文件的摘要化成功率及增加该份文件群集历程记录文件的摘要化成功次数。
该判断步骤包含:(步骤S541)判断该摘要化成功率数值是否大于一第二门槛值,若该摘要化成功率数值大于该第二门槛值,则进行步骤S55;若该摘要化成功率数值小于该第二门槛值,则进行下列(败部复活)步骤:
(步骤S542)计算该摘要化累计次数值及该文件累计数值,产生一摘要化频率数值;
(步骤S543)判断该摘要化频率数值是否大于一第五门槛值,若该摘要化频率数值大于该第五门槛值,则进行步骤S59;
(步骤S544)若该摘要化频率数值小于该第五门槛值,则更新该N值,并判断该N值是否等于一第六门槛值,若该N值不等于该第六门槛值,则进行步骤S59步骤;
若该N值等于该第六门槛值,则将该N值归零并进行步骤S55。
以下为方便清楚解说,先假设于步骤S53计算出来的该笔子文件的摘要成功率为0.4(有关如何计算摘要成功率,已于前述实施例中完整揭露),而第二门槛值预设为0.5,另外摘要化累计次数值预设为18,文件累计数值预设为200。于步骤S541中,摘要化成功率数值0.4小于第二门槛值0.5,于是进行步骤S542。于步骤S542中,计算摘要化累计次数值及该文件累计数值,产生一摘要化频率数值,本实施例通过下列方式计算出该摘要化频率数值,其计算方式可以与文件群集历程记录文件中设置的判断数值做多种组合计算,当不应限定以何种方式计算出摘要化频率数值,于此仅举下例说明之。
摘要化频率数值=摘要化累计次数值(数值:18)/文件累计数值(数值:200)
得到摘要化频率数值为0.09,接着进行步骤S543。
于步骤S543中预设一第五门槛值为0.1,用以跟步骤S542中计算出来的摘要化频率数值做判断,若该摘要化频率数值小于第五门槛值,则进行下一步骤S544继续判断,若大于第五门槛值就直接跳至步骤S59输出该笔子文件的(原始)摘要内容。于本实施例中,于步骤S542中计算出来的摘要化频率数值0.09小于第五门槛值0.1,所以进行步骤S544继续判断。
于S544中设置有一计数值N,该计数值N是累积记录于步骤S541中摘要化成功率低于第二门槛值而进入S542败部复活判断程序的子文件数量,一开始设为0,每当处理一笔子文件就累加1,用以与一预设的第六门槛值做比对,用意在当处理的子文件达到预设的数量(第六门槛值)时,便将该笔子文件的摘要内容进行后续步骤S55的判断而不是直接将该笔子文件的摘要内容输出,藉以得到随机筛选的目的,提高本发明针对文件群集历程记录文件中的子文件摘要内容做判断处理的数量,也能减少因为步骤S53中计算出来的该笔子文件摘要化成功率太低而未做后续判断步骤的误判结果产生。于本步骤中,该第六门槛值可设为4~6中的任一个数值,并用以和计数值N做判断,以得到当计数值N累积到第4笔、第5笔或第6笔子文件时,即将该笔摘要化成功率太低的子文件的摘要内容进行后续步骤S55的进一步判断,此即达到随机筛选及前述所谓败部复活的用意。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (14)

1.一种文件群集的自动摘要判断方法,其特征在于,包括下列步骤:
(A)建立一数据库,将使用者预载的每一个包含有多笔子文件摘要内容及主文内容的文件群集包装储存成对应的文件群集历程记录文件,每一个该文件群集历程记录文件中记录有该些子文件的该摘要内容及该主文内容,并设置有一文件累计数值、一摘要化累计次数值及一摘要化成功次数值;
(B)针对使用者欲浏览的文件群集,于该数据库中取出对应的该文件群集历程记录文件;
(C)取出其中一笔子文件的该摘要内容,更新该文件累计数值并判断该文件累计数值是否大于一第一门槛值,若该文件累计数值小于该第一门槛值,则进行(F)步骤;
(D)若该文件累计数值大于该第一门槛值,则计算该摘要化累计次数值及该摘要化成功次数值,产生一摘要化成功率数值;
(E)判断该摘要化成功率数值是否大于一第二门槛值,若该摘要化成功率数值小于该第二门槛值,则进行(J)步骤;
(F)判断该摘要内容长度是否大于一第三门槛值,若该摘要内容长度大于该第三门槛值则进行(J)步骤;
(G)若该摘要内容长度小于该第三门槛值,对该子文件的该主文内容进行一摘要化处理,产出一新摘要内容并更新该摘要化累计次数值;
(H)将该新摘要内容更新至该文件群集历程记录文件中取代该笔子文件的摘要内容;
(I)更新该摘要化成功次数值;
(J)输出该摘要内容于显示端;
重复步骤(C)至步骤(K)步骤,直至该文件群集历程记录文件中所有的子文件摘要内容都被处理过为止。
2.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该文件群集为一网站或该网站的一频道内容。
3.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该文件群集历程记录文件中还设置有一计数值N。
4.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,于步骤(C)还包含:
(C1)判断该摘要化累计次数值是否大于一第四门槛值,若该摘要化累计次数值小于该第四门槛值则进行(F)步骤;以及
(C2)若该摘要化累计次数值大于该第四门槛值则进行(D)步骤。
5.根据权利要求4所述的文件群集的自动摘要判断方法,其特征在于,该第四门槛值为20。
6.根据权利要求1或3所述的文件群集的自动摘要判断方法,其特征在于,该步骤(E)包含:
(E1)判断该摘要化成功率数值是否大于一第二门槛值,若该摘要化成功率数值大于该第二门槛值,则进行(F)步骤;
(E2)若该摘要化成功率数值小于该第二门槛值,则进行下列步骤:
(E21)计算该摘要化累计次数值及该文件累计数值,产生一摘要化频率数值;
(E22)判断该摘要化频率数值是否大于一第五门槛值,若该摘要化频率数值大于该第五门槛值,则进行(J)步骤;
(E23)若该摘要化频率数值小于该第五门槛值,则更新该计数值N,并判断该计数值N是否等于一第六门槛值,若该计数值N不等于该第六门槛值,则进行(J)步骤;
(E24)若该计数值N等于该第六门槛值,则将该计数值N归零并进行(F)步骤。
7.根据权利要求6所述的文件群集的自动摘要判断方法,其特征在于,该第二门槛值为0.5。
8.根据权利要求6所述的文件群集的自动摘要判断方法,其特征在于,该第五门槛值为0.1。
9.根据权利要求6所述的文件群集的自动摘要判断方法,其特征在于,该第六门槛值为4~6。
10.根据权利要求1或3所述的文件群集的自动摘要判断方法,其特征在于,于步骤(G)还包含:
(G1)比对该新摘要内容长度与该子文件的该摘要内容长度,若该新摘要内容长度小于该子文件的该摘要内容长度,则进行(J)步骤;以及
(G2)若该新摘要内容长度大于该子文件的该摘要内容长度,则进行(H)步骤。
11.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该摘要内容由文字、图片所组成。
12.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该新摘要内容由新摘要文字、新摘要图片所组成。
13.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该第一门槛值为100。
14.根据权利要求1所述的文件群集的自动摘要判断方法,其特征在于,该第三门槛值为100。
CN2011104240710A 2011-12-08 2011-12-08 文件群集的自动摘要判断方法 Pending CN103164473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104240710A CN103164473A (zh) 2011-12-08 2011-12-08 文件群集的自动摘要判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104240710A CN103164473A (zh) 2011-12-08 2011-12-08 文件群集的自动摘要判断方法

Publications (1)

Publication Number Publication Date
CN103164473A true CN103164473A (zh) 2013-06-19

Family

ID=48587567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104240710A Pending CN103164473A (zh) 2011-12-08 2011-12-08 文件群集的自动摘要判断方法

Country Status (1)

Country Link
CN (1) CN103164473A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Similar Documents

Publication Publication Date Title
WO2021027362A1 (zh) 基于数据分析的信息推送方法、装置、计算机设备及存储介质
CN101286150B (zh) 生成更新参数的方法和装置、展示相关关键词的方法和装置
US8175980B2 (en) Hot video prediction system based on user interests social network
CN102236674B (zh) 一种索引页更新方法及装置
CN102073699A (zh) 用于基于用户行为来改善搜索结果的方法、装置和设备
CN102890683B (zh) 信息提供方法及装置
CN106708929B (zh) 视频节目的搜索方法和装置
CN103797480B (zh) 提取方法、提取程序、提取装置、以及提取***
CN101599089A (zh) 视频服务网站内容更新信息的自动搜索与抽取***及方法
CN103970748A (zh) 一种相关关键词推荐方法和装置
CN110287409B (zh) 一种网页类型识别方法及装置
CN111552884B (zh) 用于内容推荐的方法和设备
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN103729356A (zh) 网页地址提示方法及装置
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN107562924A (zh) 基于列存储和键值存储的人群画像方法及***
CN104050183A (zh) 浏览器输入框的内容匹配结果提示方法及装置
US8515976B2 (en) Bit string data sorting apparatus, sorting method, and program
CN103631796A (zh) 网址分类管理方法及电子装置
TWI453609B (zh) Automatic summary judgment method for file cluster
CN103164473A (zh) 文件群集的自动摘要判断方法
Jamshidi et al. A multi-criteria ranking algorithm based on the VIKOR method for meta-search engines
CN108228802A (zh) 一种输入联想的推荐方法及装置
CN110826310B (zh) 一种应用内容质量分析方法及应用内容质量分析装置
CN113569132A (zh) 一种信息检索展示方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130619