CN109165382B - 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 - Google Patents

一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 Download PDF

Info

Publication number
CN109165382B
CN109165382B CN201810878021.1A CN201810878021A CN109165382B CN 109165382 B CN109165382 B CN 109165382B CN 201810878021 A CN201810878021 A CN 201810878021A CN 109165382 B CN109165382 B CN 109165382B
Authority
CN
China
Prior art keywords
word
defect
vector
similarity
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810878021.1A
Other languages
English (en)
Other versions
CN109165382A (zh
Inventor
万夕里
张�杰
管昕洁
白光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201810878021.1A priority Critical patent/CN109165382B/zh
Publication of CN109165382A publication Critical patent/CN109165382A/zh
Application granted granted Critical
Publication of CN109165382B publication Critical patent/CN109165382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法。本发明首先计算缺陷报告的加权词向量,得到相似度Sim1和Sim2;然后计算缺陷报告的LSI向量,得到相似度Sim3和Sim4;计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5;计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。本发明利用TF‑IDF方法为单个词的词向量增加权重,特别适用于短文本,表示了缺陷报告中各个词的重要程度。同时利用潜在语义索引方法计算缺陷报告的相似度。二者结合能够很好地分析缺陷报告之间的相似度,明显提高向开发者推荐相似的缺陷报告的准确性,加快软件缺陷的修复。

Description

一种加权词向量和潜在语义分析结合的相似缺陷报告推荐 方法
技术领域
本发明涉及一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,属于计算机软件工程领域。
背景技术
在软件开发和维护的过程中,为了保证软件***的质量,开发者通常会允许用户或者测试人员提交所遇到的软件缺陷。很多开源项目都会采用缺陷追踪***来记录用户或测试人员提交的缺陷。如果软件***比较复杂,则用户提交的缺陷报告也会比较多,如开源项目Eclipse每天报告的缺陷高达300个。如此多的缺陷报告必然会产生大量重复的缺陷报告。为了加快缺陷的修复速度,保证***的稳定性和安全性,同时也为了减少开发者的工作量,在大量缺陷报告中找出重复的缺陷报告就变得非常重要。
传统的方法主要采用信息检索的方法来查找相似的缺陷报告,如基于余弦相似度来计算缺陷报告的相似度。但这些方法都存在着准确度比较低的缺点,效果比较差。
词向量技术是自然语言处理中的对语言模型和特征学***均词向量表示缺陷报告。但由于在缺陷报告中,无论是缺陷报告的标题还是具体的描述,长度都较短,直接采用词向量不能够很好地表示缺陷报告的标题的具体描述。
TF-IDF也称为词频-逆文件频率,是信息检索中常用的技术。TF-IDF被用来表示一个词语对于文档或者是语料库的重要程度。TF-IDF的原理是词语的重要性与该词文档中出现的次数成正比,与该词在语料库中出现的次数成反比。通过使用TF-IDF作为权重,能够很好地表示在该词在报告中的重要程度。
LSI全称潜在语义索义,也称为潜在语义分析,是自然语言处理中常用的一种技术。LSI能够根据字词所在的环境分析字词的隐藏含义。其基本原理是利用奇异值分解将文档原始向量进行降维处理,所以LSI是一种基于向量空间模型的语义分析方法。LSI通过使用低维向量,有效地降低的数据的复杂程度,同时降低了数据中的噪声。
发明内容
本发明所要解决的技术问题是针对当前相似软件缺陷报告推荐的准确度比较低的情况,提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,具体包括以下步骤:
步骤一、分别计算每个缺陷报告的加权词向量,然后根据所述加权词向量计算缺陷报告的标题相似度Sim1和描述相似度Sim2
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的标题相似度Sim3和描述相似度Sim4
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤一所述的具体步骤包括:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重;
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量;
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量;
步骤1.4、分别计算缺陷报告之间的标题相似度Sim1和描述相似度Sim2
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.1所述的计算得到词w在所述缺陷报告中的权重的具体步骤包括:
词w的权重weight(w)=TF(w,d)*IDF(w);TF(w,d)表示词频,标题和描述的词频分别由下式得到:
Figure BDA0001753780370000021
Figure BDA0001753780370000022
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
Figure BDA0001753780370000023
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.2所述的得到每个词的词向量的具体步骤包括:
由skip-gram模型的目标函数得到词向量v:
Figure BDA0001753780370000031
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词
w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
Figure BDA0001753780370000032
其中,
Figure BDA0001753780370000033
向量vw为由词w转化而来的词向量,所述词向量长度为a。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.3所述的具体步骤包括:
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题加权词向量vt和描述加权词向量vc
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.4所述的由加权词向量得到两个缺陷报告之间的相似度Sim1,Sim2的步骤具体包括:
Figure BDA0001753780370000034
Figure BDA0001753780370000035
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤二所述的具体步骤包括:
步骤2.1、由步骤一中缺陷报告的加权词向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
Figure BDA0001753780370000041
Figure BDA0001753780370000042
其中,v′t1和v′c1分别为来自其中一个缺陷报告的标题LSI向量和描述LSI向量;v′t2和v′c2分别为来自其中另一个缺陷报告的标题LSI向量和描述LSI向量。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤三所述产品和组件之间的相似度Sim5来自:
Figure BDA0001753780370000043
其中,set1和set2分别是产品和组件的集合。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤四所述的总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,所述由词转化来的向量的固定长度为400。
本发明采用以上技术方案与现有技术相比,具有以下的优点:
1.同时采用skip-gram模型的词向量和LSI向量表示缺陷报告中的文本。skip-gram模型的词向量使向量表示能够挖掘词的上下文之间的信息。LSI向量能够分析词语的潜在语义,但无法分析词语的上下文。将两种方法结合使用,能够进行互补,充分挖掘缺陷报告中文本的含义。
2.针对软件缺陷报告中的文本多为短文本的情况,为文本的词向量引入权重。由于短文本的长度较小,无用词语在短文本中所占的比重相对于在长文本中所占的比重较大,对文本表示的精确性影响也较大。为短文本中的词向量引入权重,能够提高重要的词语在表示短文本时的比重,降低无用词语所占的比重,从而提高词向量表示短文本的准确性。
3.借助缺陷报告中的产品和组件信息计算相似度。由于在软件缺陷报告中,相似的缺陷报告基本上会出现在相同的产品和组件中。所以在计算相似度时,通过计算两份缺陷报告中涉及到的产品和组件信息的重合程度,提高相似度计算的准确性。
附图说明
图1是本发明整体的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明针对当前相似软件缺陷报告推荐算法的缺陷,提出了将加权词向量和信息检索中的潜在语义索引方法相合的推荐算法。针对缺陷报告中以短文本为主的事实对传统词向量进行优化,更好地表示了缺陷报告中的短文本,同时提高推荐算法的准确性。
首先需要对软件缺陷报告进行处理。通常情况下,在***缺陷追踪***中缺陷报告涉及到的信息比较复杂,不仅仅包括标题、具体描述、产品及组件,所以需要将缺陷报告中这四个部分的内容提取出来。由于本发明中的推荐算法是基于词语的,所以在相关内容提取完成后,需要对标题和具体描述进行分词处理。同时,由于缺陷报告中的特殊符号和数字对相似度的计算没有作用,所以需要去除报告中的数字以及符号。如果涉及到英语单词,需要对英语单词的形式进行处理,如将大写字母转化为小写字母、单词转换为基本形式。此时完成软件缺陷告的处理。
完成数据清洗后,计算查询缺陷报告和所有候选缺陷报告之间的相似度。计算相似度的步骤如图1所示。具体包括以下步骤:
步骤一、计算加权词向量,并且根据加权词向量计算缺陷报告的相似度,具体步骤如下:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重:
weight(w)=TF(w,d)*IDF(w);
其中,TF(w,d)表示词频,标题和描述的词频分别由下式得到:
Figure BDA0001753780370000051
Figure BDA0001753780370000052
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
Figure BDA0001753780370000061
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量:
由skip-gram模型的目标函数得到词向量v:
Figure BDA0001753780370000062
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词
w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
Figure BDA0001753780370000063
其中,
Figure BDA0001753780370000064
向量vw为由词w转化而来的词向量,所述词向量长度为一定值。在词
向量中,每一个词都会被转化为一个固定长度a的向量vi.本实施例中,长度a取400。
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量:
在步骤1.1和步骤1.2中,计算的是缺陷报告标题或者描述中单个词的词向量,所述单个词的向量集合用于准确地表示完整的标题和描述。
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题词向量vt和描述词向量vd
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
步骤1.4、分别计算缺陷报告之间的标题加权相似度Sim1和描述加权相似度Sim2
Figure BDA0001753780370000065
Figure BDA0001753780370000071
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若所述向量的长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的相似度:
步骤2.1、由步骤一中词的TF-IDF值组成的向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
Figure BDA0001753780370000072
Figure BDA0001753780370000073
其中,v′t1和v′c1分别为来自其中一个缺陷报告的标题LSI向量值和描述LSI向量值;v′t2和v′c2分别为来自其中另一个缺陷报告的标题LSI向量值和描述LSI向量值。
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5
Figure BDA0001753780370000074
其中,set1和set2分别是产品和组件的集合。由上式可以看出,若两者都相同,则Sim5取值为1。若两者都不相同则Sim5为0;产品和组件其中一个相同则Sim5为0.5。
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;
总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。在选择时,选取相似度最高的前5个缺陷报告作为相似的报告。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,具体包括以下步骤:
步骤一、分别计算每个缺陷报告的加权词向量,然后根据所述加权词向量计算缺陷报告的标题相似度Sim1和描述相似度Sim2
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的标题相似度Sim3和描述相似度Sim4
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5;所述产品和组件之间的相似度Sim5来自:
Figure FDA0003725653870000011
其中,set1和set2分别是产品和组件的集合;
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;所述的总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。
2.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤一所述的具体步骤包括:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重;
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量;
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量;
步骤1.4、分别计算缺陷报告之间的标题相似度Sim1和描述相似度Sim2
3.如权利要求2所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.1计算得到词w在所述缺陷报告中的权重的具体步骤包括:
词w的权重weight(w)=TF(w,d)*IDF(w);TF(w,d)表示词频,标题和描述的词频分别由下式得到:
Figure FDA0003725653870000012
Figure FDA0003725653870000013
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
Figure FDA0003725653870000021
4.如权利要求2所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.2所述的得到每个词的词向量的具体步骤包括:
由skip-gram模型的目标函数得到词向量v:
Figure FDA0003725653870000022
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
Figure FDA0003725653870000023
其中,
Figure FDA0003725653870000024
向量vw为由词w转化而来的词向量,所述词向量长度为a。
5.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.3的具体步骤包括:
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题加权词向量vt和描述加权词向量vc
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
6.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.4由加权词向量得到两个缺陷报告之间的标题相似度Sim1,描述相似度Sim2的步骤具体包括:
Figure FDA0003725653870000025
Figure FDA0003725653870000026
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
7.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤二所述的具体步骤包括:
步骤2.1、由步骤一中缺陷报告的加权词向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
Figure FDA0003725653870000031
Figure FDA0003725653870000032
其中,v't1和v'c1分别为来自其中一个缺陷报告的标题LSI向量和描述LSI向量;v't2和v'c2分别为来自其中另一个缺陷报告的标题LSI向量和描述LSI向量。
8.如权利要求4所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,由词w转化而来的词向量vw的固定长度为400。
CN201810878021.1A 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 Active CN109165382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810878021.1A CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810878021.1A CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Publications (2)

Publication Number Publication Date
CN109165382A CN109165382A (zh) 2019-01-08
CN109165382B true CN109165382B (zh) 2022-08-23

Family

ID=64898863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810878021.1A Active CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Country Status (1)

Country Link
CN (1) CN109165382B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399458B (zh) * 2019-07-04 2023-05-26 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN111309865B (zh) * 2020-02-12 2024-03-22 扬州大学 相似缺陷报告推荐方法、***、计算机设备和存储介质
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN112699018B (zh) * 2020-10-23 2023-06-20 西安交通大学 基于软件缺陷关联分析的软件缺陷定位方法
CN114462399A (zh) * 2020-11-09 2022-05-10 中核核电运行管理有限公司 一种核电厂质量缺陷报告与状态报告的精确匹配方法
CN113220565B (zh) * 2021-04-26 2022-05-27 广东拓思软件科学园有限公司 一种众包测试报告的处理方法及装置
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和***
CN107957929A (zh) * 2017-11-20 2018-04-24 南京大学 一种基于主题模型的软件缺陷报告修复人员分配方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533094B2 (en) * 2004-11-23 2009-05-12 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
US8341095B2 (en) * 2009-01-12 2012-12-25 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US8813039B2 (en) * 2010-04-14 2014-08-19 International Business Machines Corporation Method and system for software defect reporting
US20110321007A1 (en) * 2010-06-29 2011-12-29 International Business Machines Corporation Targeting code sections for correcting computer program product defects using records of a defect tracking system
CN103970666B (zh) * 2014-05-29 2017-02-22 重庆大学 一种软件重复缺陷报告检测的方法
CN105159822B (zh) * 2015-08-12 2017-08-29 南京航空航天大学 一种基于文本词性和程序调用关系的软件缺陷定位方法
CN107832781B (zh) * 2017-10-18 2021-09-14 扬州大学 一种面向多源数据的软件缺陷表示学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和***
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN107957929A (zh) * 2017-11-20 2018-04-24 南京大学 一种基于主题模型的软件缺陷报告修复人员分配方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Context-based weighting for vector space model to evaluate the relation between concept and context in information storage and retrieval system;Dharmendra Sharma等;《2015 International Conference on Computer, Communication and Control (IC4)》;20160111;全文 *
Decomposition of term-document matrix representation for clustering analysis;Jianxiong Yang等;《2011 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE 2011)》;20110901;全文 *
基于weight-pooling词向量的上下文广告推荐算法;杨长春等;《计算机应用与软件》;20161215(第12期);全文 *
基于Word2Vec的中文短文本分类问题研究;汪静等;《计算机***应用》;20180312;第27卷(第5期);全文 *

Also Published As

Publication number Publication date
CN109165382A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US10430255B2 (en) Application program interface mashup generation
Zhou et al. An unsupervised framework of exploring events on twitter: Filtering, extraction and categorization
US9753916B2 (en) Automatic generation of a speech by processing raw claims to a set of arguments
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US8321418B2 (en) Information processor, method of processing information, and program
US20130339344A1 (en) Web-scale entity relationship extraction
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US10242002B2 (en) Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
Shahi et al. Automatic analysis of corporate sustainability reports and intelligent scoring
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
Lacerra et al. Alasca: an automated approach for large-scale lexical substitution
Li et al. Words analysis of online Chinese news headlines about trending events: a complex network perspective
US10191786B2 (en) Application program interface mashup generation
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Madatov et al. Dataset of Karakalpak language stop words
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
Tank et al. Abstractive text summarization using adversarial learning and deep neural network
Kim et al. Bat4RCT: A suite of benchmark data and baseline methods for text classification of randomized controlled trials
Bhagat et al. TEXT SUMMARIZATION ON YOUTUBE VIDEOS IN EDUCATIONAL DOMAIN
Kannan et al. A word embedding model for topic recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant