JP2022073981A

JP2022073981A - ソースコード取得

Info

Publication number: JP2022073981A
Application number: JP2021156668A
Authority: JP
Inventors: バーラミ・メフディ; Mehdi Bahrami; ムケルジー・マニーシャ; Mukherjee Manisha; チェン・ウェイ－ペン; Wei-Peng Chen
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-10-30
Filing date: 2021-09-27
Publication date: 2022-05-17
Also published as: US11651014B2; US20220138240A1

Abstract

【課題】検索クエリに応答してユーザにソースコードを効果的に提供する。【解決手段】一方法が、訓練コードを取得するステップと、訓練コードから特徴を抽出するステップを含み得る。訓練コードの抽出された特徴は、ディープニューラルネットワークにより自然言語コードベクトルにマッピングされ得る。ソースコード提案を要求する自然言語検索クエリを受信することができ、自然言語検索クエリは、ディープニューラルネットワークにより自然言語検索ベクトルにマッピングされ得る。当該方法は、訓練コードの抽出された特徴を自然言語コードベクトルにマッピングするのと同じ又は類似の方法で自然言語検索クエリを自然言語検索ベクトルにマッピングするステップを含んでもよく、自然言語検索ベクトルは、自然言語コードベクトルと比較され得る。自然言語検索クエリに応答するソースコードが、自然言語検索ベクトルと自然言語コードベクトルと間の比較に基づいて提案され得る。【選択図】図１

Description

本開示は、一般にソースコードの取得に関する。

ソースコードの実装を利用するタスクを達成することに関心のあるユーザは、タスクを達成するためにソフトウェアプログラムを効果的に書く方法を理解していないことがあり、タスクを完了するために使用できるソースコードを検索したい場合がある。しかしながら、そのようなソースコードの検索は、現在のアプローチを用いると効果的でない可能性がある。

ディープラーニングは、機械学習のサブセットであり、ディープニューラルネットワークは、従来の機械学習モデルの出力より複雑な出力をもたらし得る入力データセットから情報を抽出するために、複数の処理層を使用することがある。ディープラーニングの多層の態様は、ディープラーニングモデルが入力データセットの異なる特性を漸進的に分析することを可能にし、人間の意思決定により類似した高レベルの抽象的な出力を結果としてもたらし得る。

本開示において請求される主題事項は、何らかの欠点を解決し又は上記のような環境においてのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示に記載されるいくつかの実施形態が実施され得る１つの例示的な技術分野を示すためにのみ提供される。

一実施形態の態様によれば、一方法が、１つ以上の訓練コードサーバから訓練コードを取得するステップを含み得る。訓練コードの特徴、例えば、コードスニペット、ソフトウェアドキュメンテーション、及びコードコメントなどが、訓練コードから抽出され、コードデータセットに記憶され得る。訓練コードの抽出された特徴は、ディープニューラルネットワークにより自然言語コードベクトルにマッピングされ得る。自然言語検索クエリを受信することができ、自然言語検索クエリはソースコード提案を要求している。当該方法は、自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成するステップを含んでもよい。自然言語検索クエリは、ディープニューラルネットワークにより自然言語検索ベクトルにマッピングされ得る。当該方法は、訓練コードの抽出された特徴を自然言語コードベクトルにマッピングするのと同じ又は類似の方法で自然言語検索クエリを自然言語検索ベクトルにマッピングするステップを含んでもよく、自然言語検索ベクトルは、自然言語コードベクトルと比較され得る。当該方法は、自然言語検索ベクトルと自然言語コードベクトルとの間のコサイン類似度を使用して、自然言語検索ベクトルと自然言語コードベクトルとの間の関連性を決定するステップを含んでもよい。自然言語検索クエリに応答するソースコードが、自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて提案され得る。

実施形態の目的及び利点は、少なくとも特許請求の範囲において特に指し示された要素、特徴、及び組み合わせにより実現され、達成される。前述の一般的な説明及び以下の詳細な説明の双方が説明的であり、請求される発明を限定するものではないことが理解されるべきである。

添付の図面を通じてさらなる特定性及び詳細と共に例示的な実施形態について記載し、説明する。
提案ソースコードを用いた自然言語検索クエリへの応答に関する一例示的なシステムを表す図である。提案ソースコードを用いて自然言語検索クエリに応答する一例示的な方法のフローチャートである。訓練コードを取得し、訓練コードから特徴を抽出する一例示的な方法のフローチャートである。訓練コードからの抽出された特徴に基づいてコードサマリを予測する一例示的な方法のフローチャートである。自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成し、自然言語検索セクションの各々に基づいて提案ソースコードを返す一例示的な方法のフローチャートである。一例示的なコンピューティングシステムを示す。

本開示に記載される実施形態は、検索クエリに応答してユーザにソースコードを効果的に提供することに関し得る。いくつかの状況において、ユーザは、ソースコードを書くことや見つけることに精通しておらず、あるいは熟練していない場合がある。さらに又は代わりに、ユーザは、提案された解決策を実装し又はコードを書くことが困難な場合があり、エラーなしに動作することが知られているソースコードを検索したい場合がある。さらに又は代わりに、ユーザは、ユーザにより書かれたソースコードを改善する方法についてのアイデアを得るためにソースコードを検索したい場合がある。コード検索は、ユーザがユーザの問題に応答するソースコードを見つけることを可能にし得る。いくつかのコード検索システムでは、ユーザは、自然言語検索フレーズを入力することができ、コード検索システムは、周知の情報取り出し方法及びシステムに基づいてソースコードを発見し、取り出すことができる。

コード検索の情報取り出し方法は、コード検索を行うユーザに最も対応し役立つソースコードを発見し又は取り出すものでない可能性がある。ユーザにより生成された自然言語検索フレーズの高レベルの意図と、ソースコードにおいて自然言語の単語及びフレーズが使用される低レベルの実装及びコンテキストとの間に、ミスマッチが存在する可能性がある。プログラミング言語と自然言語は、構文構造、同義語、又は単語定義さえも共有しない可能性があり、高レベルの抽象化においてのみ意味的に関連する可能性がある。結果的に、周知の情報取り出し方法に依存するコード検索の結果は、ユーザ生成の検索クエリに最も関連するソースコードを提示しない可能性がある。

本開示は、とりわけ、自然言語検索クエリに応答するコード検索結果の精度及び関連性を改善することに向けられ得る。例えば、ディープニューラルネットワークが、潜在的なソースコード結果と自然言語検索クエリとの間のベクトル比較を容易にすることができる。特に、以下でさらに詳細に説明するように、ディープニューラルネットワークを含むコード解析システムが、訓練コードを取得するように構成されてもよく、コード解析システムは、上記訓練コードから、訓練コードの様々な特徴を抽出し、抽出された特徴及び訓練コードを１つ以上のコードデータセットに記憶することができる。コード解析システムは、訓練コードの抽出された特徴を自然言語コードベクトルにマッピングすることができる。さらに、自然言語検索クエリは、自然言語検索ベクトルにマッピングすることができ、自然言語コードベクトルと比較することができる。コード解析システムは、次いで、自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて、自然言語検索クエリに関連する提案ソースコードを返すことができる。

本開示の特定の実施形態は、ソフトウェアコード生成及び／又は検索システムの従前の反復を越える改善を提供し得る。例えば、ソフトウェア開発は、コンピューティングシステムがコード検索クエリに対してより対応及び関連するコード検索結果を提供することができるようにコンピュータシステムを構成することにより改善され得る。別の例として、ソフトウェア開発は、コンピュータシステムが同じ検索クエリに応答する２つ以上のコード検索結果を組み合わせることができ、より効果的なソフトウェア統合を結果としてもたらすようにコンピュータシステムを構成することにより改善され得る。例えば、自然言語の検索ベクトル及びコードベクトルの比較は、より役立つ結果を生じるために、より焦点を合わせた比較を容易にし得る。別の例として、計算及びネットワークリソースは、繰り返されるものとして保持されてもよく、役立つ結果を試行し発見するための反復的検索は、最初のインスタンスでより役立つ結果が提供されるとき回避され、あるいは低減され得る。

本開示の実施形態は、添付の図面を参照して説明される。

図１は、本開示の１つ以上の実施形態による、提案ソースコードを用いた自然言語検索クエリへの応答に関する一例示的なシステム１００を表す図である。システム１００は、コード解析システム１１０を含むことができ、コード解析システム１１０は、ディープニューラルネットワーク１１５をさらに含む。コード解析システム１１０は、訓練コードサーバ１２０から訓練コードを取得することができ、コード解析システム１１０は、自然言語検索クエリ１４０を受信することができる。コード解析システム１１０は、複数の自然言語検索クエリ１４０を受信してもよく、自然言語検索クエリ１４０は、１以上のユーザ１３０により送信されてもよい。コード解析システム１１０は、提案ソースコード１５０を用いて自然言語検索クエリ１４０に応答することができる。例えば、コード解析システム１１０は、提案ソースコード１５０をユーザ１３０に返すことにより、自然言語検索クエリ１４０に応答してもよい。提案ソースコード１５０は、訓練コードサーバ１２０から取得された訓練コードを使用して識別することができる。「ユーザ１３０」が参照されるが、ユーザ１３０はコード解析システム１１０と通信及び対話するために電子デバイスを使用していることが理解されるであろう。

コード解析システム１１０は、ディープニューラルネットワーク１１５を含むことができ、ディープニューラルネットワーク１１５は、訓練コードサーバ１２０から取得される訓練コードを受信することができる。いくつかの実施形態において、ディープニューラルネットワーク１１５は、訓練コードサーバ１２０から取得された訓練コードを解析し、訓練コードの特徴を抽出することができる。さらに又は代わりに、ディープニューラルネットワーク１１５は、訓練コードから抽出された特徴を自然言語コードベクトルにマッピングすることができる。さらに又は代わりに、ディープニューラルネットワーク１１５は、自然言語検索クエリを自然言語検索ベクトルにマッピングすることができる。さらに又は代わりに、ディープニューラルネットワーク１１５は、自然言語検索ベクトルを自然言語コードベクトルと比較し、自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて自然言語検索クエリに応答するソースコードを提案することができる。いくつかの実施形態において、ディープニューラルネットワーク１１５は、多層パーセプトロン（multi-layer perceptron、ＭＬＰ）ネットワーク、長短期記憶（long short-term memory、ＬＳＴＭ）ネットワーク、又は平均確率的勾配降下重みドロップ長短期記憶（average-stochastic gradient descent weight-dropped long short-term memory、ＡＷＤ－ＬＳＴＭ）ネットワークのうち少なくとも１つを含んでもよい。ディープニューラルネットワーク１１５により実行される様々な動作の例は、図２～図６でより詳細に説明され得る。

自然言語検索クエリ１４０は、実装すべきソースコードを利用するタスクを実行することに関連する任意の適切な検索クエリであってよい。例えば、自然言語検索クエリ１４０は、フレーズ「線をプロットする」を含んでもよい。この例示的な実施形態において、自然言語検索クエリ１４０は、ユーザ１３０が、ユーザが線をプロットすることを可能にするソースコードを検索していることを表し得る。いくつかの実施形態において、自然言語検索クエリ１４０は、２つ以上の自然言語検索セクション（search sections）を含み得る。例えば、自然言語検索クエリ１４０は、「私がＸの件名を有する電子メールを受信したとき、私の電話にＳＭＳを送信する」というフレーズを含んでもよい。この例示的な実施形態において、自然言語検索クエリ１４０は、「ＳＭＳを送信する」に関する第１の自然言語検索セクションと、「私がＸの件名を有する電子メールを受信したとき」に関する第２の自然言語検索セクションとを含み得る。

提案ソースコード１５０は、自然言語検索クエリ１４０に応答する任意の適切なソースコードであってよい。コード解析システム１１０は、自然言語検索クエリ１４０と訓練コードサーバ１２０から取得された訓練コードとの間の類似度に基づいて、取得された訓練コードから提案ソースコード１５０を出力することができる。いくつかの実施形態において、自然言語検索クエリ１４０が複数の自然言語検索セクションを含む場合、提案ソースコード１５０は、複数の自然言語検索セクションそれぞれに応答する複数のソースコードを含んでもよい（例えば、第１の及び第２のソースコードが、それぞれの第１及び第２の自然言語クエリに対応し得る）。さらに又は代わりに、提案ソースコード１５０は、複数のセクションに対応する単一のソースコードを含んでもよい。

本開示の範囲から逸脱することなく、システム１００に対して修正、追加、又は省略がなされ得る。例えば、記載される方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、システム１００は、任意の数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈内で実施されてもよい。

図２は、本開示に記載される少なくとも１つの実施形態による、提案ソースコードを用いて自然言語検索クエリに応答する一例示的な方法２００のフローチャートである。方法２００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、コード解析システム１１０、訓練コードサーバ１２０、及び／又はユーザ１３０は、方法２００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法２００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法２００はブロック２１０で開始でき、ブロック２１０において、訓練コードが取得され得る。例えば、訓練コードは、１つ以上の訓練コードサーバ（訓練コードサーバ１２０など）から、コード解析システム（コード解析システム１１０など）により取得することができる。訓練コードには、オープンソースプロジェクト（例えば、ＧＩＴＨＵＢプロジェクト、ＳＯＵＲＣＥＦＯＲＧＥプロジェクト、ＧＩＴＬＡＢプロジェクトなど）、ｉｆ－ｔｈｉｓ－ｔｈｅｎ－ｔｈａｔ（ＩＦＴＴＴ）レシピ、専有ソフトウェアなどを含む任意の数のソースからのコードを含むことができる。訓練コード内の不必要な情報は、よりパース可能及び検索可能な訓練コードを提供するために除去され得る。訓練コード内の不必要な情報には、無関係な改行、空白、「／」記号、「＞」記号などを含んでもよい。取得された訓練コードから不必要な情報を除去することは、訓練コード内のパース（parsing）及び／又は検索を容易にすることができ、これは、前に捕捉されていない特徴の抽出を可能にし得る。前に捕捉されていない特徴には、図４を参照してより詳細に説明されるように、テストケース検証情報又はパースされたソースコード自体を含んでもよい。いくつかの実施形態において、訓練コードは、取得される訓練コードが人気がある（popular）と考えられるものであるようにフィルタリングされてもよい。コードが人気があるか否かを決定する一例が、図３を参照してより詳細に説明され得る。

ブロック２２０において、訓練コードの特徴が抽出され得る。訓練コードの抽出された特徴は、区別可能な機能を実行するコードスニペットを含んでもよい。例えば、「ユーザがＸの件名を有する電子メールを受信したとき、ＳＭＳを送信する」というタスクを実行する訓練コードは、ＳＭＳを送信するという区別可能な機能を実行するコードのスニペットと、ユーザが電子メールを受信したことを確認するという区別可能な機能を実行するコードのスニペットと、電子メールがＸの件名を有することを確認するという区別可能な機能を実行するコードのスニペットを含み得る。これら及び他の実施形態において、訓練コードの抽出された特徴は、訓練コードに関連づけられたドキュメンテーション、ソースコード内のコメント、又は訓練コードが実行環境で実行されるときのテストケースログをさらに含んでもよい。例えば、あるソースコード内のコメントが、このソースコードに関連する特徴として抽出され、記憶されてもよい。別の例として、あるソースコードがクラウドベースのプラットフォーム（例えば、ＡＭＡＺＯＮ（登録商標）ＷＥＢＳＥＲＶＩＣＥＳ（ＡＷＳ）、ＭＩＣＲＯＳＯＦＴ（登録商標）ＡＺＵＲＥなど）上で成功裏に実行できるかどうかが、このソースコードに関連する特徴として記憶されてもよい（例えば、このソースコードの実行がＡＷＳ上で失敗する場合、「ＡＷＳ上で実行不可能」を特徴として記憶する）。訓練コードの抽出された特徴は、ブロック２３０において１つ以上のコードデータセットに記憶され得る。

ブロック２４０において、抽出された特徴の各々が自然言語コードベクトルにマッピングされ得る。いくつかの実施形態において、ディープニューラルネットワーク１１５などのディープニューラルネットワークは、抽出された特徴の各々を自然言語コードベクトルにマッピングすることができる。抽出された特徴の各々を自然言語コードベクトルにマッピングすることは、訓練コードの抽出された特徴及び自然言語検索クエリを統一ベクトル空間（unified vector space）に埋め込むために、共同埋め込み（joint embedding）又はマルチモーダル埋め込み（multi-modal embedding）を使用することを含んでもよい。例えば、訓練コードの抽出された特徴Ｘの、統一ベクトル空間Ｖへの共同埋め込みは、以下の式で表され得る。

ここで、

は、訓練コードの抽出された特徴Ｘをｄ次元ベクトル空間Ｖにマッピングする埋め込み関数である。ブロック２４０でマッピングされた自然言語コードベクトルは、検索インデックスに記憶されてもよい。自然言語コードベクトルを検索インデックスに記憶することは、より速いベクトル比較のための、自然言語コードベクトルのより効率的な再呼び出しを容易にすることができる。いくつかの実施形態において、ブロック２４０を完了すると、コード解析システムは、コード解析システムへのクエリを受信及び処理するように構成され、訓練され、準備されてもよい。

ブロック２５０において、自然言語検索クエリが受信され得る。いくつかの実施形態において、自然言語検索クエリは、例示的なシステム１００のユーザ１３０などのユーザから受信することができる。これら及び他の実施形態において、自然言語検索クエリは、コンピューティングシステムから受信してもよい。いくつかの実施形態において、自然言語検索クエリは、自然言語検索クエリを構成する２つ以上の自然言語検索セクションを含んでもよい。

ブロック２６０において、自然言語検索クエリが自然言語検索ベクトルにマッピングされ得る。いくつかの実施形態において、ディープニューラルネットワーク１１５などのディープニューラルネットワークは、自然言語検索クエリを自然言語検索ベクトルにマッピングすることができる。これら及び他の実施形態において、自然言語検索クエリは、提案ソースコードに対する２つ以上の要求を含んでもよい。自然言語検索クエリを自然言語検索ベクトルにマッピングすることは、例えば、クエリから不必要なテキストを除去し、クエリをトークン化することにより、ベクトル化のために自然言語検索クエリを準備することを含んでもよい。自然言語検索クエリをトークン化することは、自然言語検索クエリを個々の単語に分割することを含んでもよい。例えば、「線をプロットする（plot a line）」という自然言語検索クエリは、３つの個々の単語「plot」、「a」、及び「line」にトークン化され得る。自然言語検索クエリを自然言語検索ベクトルにマッピングすることは、自然言語検索クエリを自然言語コードベクトルと同じベクトル空間に埋め込むために、共同埋め込み又はマルチモーダル埋め込みを使用することを含んでもよい。例えば、自然言語検索クエリＹの、自然言語コードベクトルＸを含む同じ統一ベクトル空間への共同埋め込みは、以下の式で表され得る。

ここで、

は、自然言語検索クエリＹを、自然言語コードベクトルＶを含む同じベクトル空間にマッピングする埋め込み関数であり、それにより、自然言語検索ベクトルと自然言語コードベクトルは、ベクトル空間の近傍領域（Ｖ_Ｘ,Ｖ_Ｙ）を占有する。

ブロック２７０において、自然言語検索ベクトルが自然言語コードベクトルと比較され得る。自然言語検索ベクトルと自然言語コードベクトルとの間の比較は、自然言語検索ベクトルと自然言語コードベクトルとの間の類似度合いを決定することができる。例えば、そのような比較は、以下の関係に従って実行され得る。

ここで、Ｊ（Ｖ_Ｘ,Ｖ_Ｙ）は、Ｖ_ＸとＶ_Ｙとの間の類似度のスコアを提供する類似度尺度であってよい。自然言語検索ベクトルは、ブロック２４０で検索インデックスに記憶された自然言語コードベクトルと比較されてもよい（例えば、反復的に比較され得る）。いくつかの実施形態において、自然言語検索ベクトルと自然言語コードベクトルとの間の比較は、自然言語検索ベクトルと自然言語コードベクトルの各々との間のコサイン類似度（cosine similarity）に基づいてもよく、それにより、Ｊ（Ｖ_Ｘ,Ｖ_Ｙ）は、自然言語検索ベクトルと自然言語コードベクトルとの間のコサイン類似度を決定する埋め込み関数を表す。

ブロック２８０において、自然言語検索クエリに応答する提案ソースコードが、ブロック２７０で実行された自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて返され得る。提案ソースコードは、ブロック２３０で１つ以上のコードデータセットに記憶された訓練コードの抽出された特徴に関連づけられたソースコードでもよい。これら及び他の実施形態において、提案ソースコードは、ブロック２７０で自然言語検索ベクトルに最も類似していることが判明し又は閾値スコアを上回る類似度スコアを有することが判明した自然言語コードベクトルに関連づけられたソースコードでもよい。いくつかの実施形態において、ソースコードの複数の提案が、クエリに応答するコードとして提供されてもよい。これら及び他の実施形態において、このような応答は、ソースコードの提案の相対スコアを含んでも又はそうでなくてもよく、それにより、ユーザは、最も高いスコア付けのソースコードを選択することができ、あるいは、異なる応答ソースコードを閲覧し、自身のプロジェクトに適合するものを選択してもよい。

本開示の範囲から逸脱することなく、方法２００に対して修正、追加、又は省略がなされ得る。例えば、記載される方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、方法２００は、任意の数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈内で実施されてもよい。

図３は、訓練コードを取得し、訓練コードから特徴を抽出する一例示的な方法３００のフローチャートである。いくつかの実施形態において、方法３００は、方法２００でブロック２１０、２２０、及び／又は２３０に記載されるステップのより詳細な説明を提供し得る。いくつかの実施形態において、方法３００は、方法２００でブロック２１０、２２０、及び／又は２３０に記載されるステップを置き換えることができる。方法３００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、コード解析システム１１０、訓練コードサーバ１２０、及び／又はユーザ１３０は、方法３００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法３００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法３００はブロック３１０で開始でき、ブロック３１０において、訓練データが発見及び取得される。訓練コードは、様々なソースから発見されてもよい。例えば、ブロック３１２において、ＩＦＴＴＴコードを記憶することが知られている１つ以上のウェブサイト又はリポジトリ上でＩＦＴＴＴレシピが発見され得る。別の例として、ブロック３１４において、ＧＩＴＨＵＢプロジェクト、ＳＯＵＲＣＥＦＯＲＧＥプロジェクトなどのオープンソースプロジェクト又はリポジトリが検索され得る。これら及び他の実施形態において、訓練コードは、他の任意のソースから、例えば、ＳＴＡＣＫＯＶＥＲＦＬＯＷ及び他の公に利用可能なソースコードリポジトリから、公に利用可能でない専有ソフトウェアから、又は他の任意のソースから発見されてもよい。ブロック３１６において、ブロック３１２及び３１４で発見されたソースコードが訓練コードとして使用され得る。ブロック３１６で実行される訓練コード獲得ステップは、方法２００のブロック２１０で実行される訓練コード獲得方法ステップと同じ又は類似のステップでもよい。

ブロック３２０において、ブロック３１０で発見及び取得された訓練コードの人気（popularity）が決定され得る。例えば、結果の数量をフィルタリングする一アプローチとして、人気を使用し、訓練コードとして使用されるソースコードプロジェクトの数を低減してもよい。例えば、ブロック３１０で取得された訓練コードの数量が多すぎ、コード解析システム（コード解析システム１１０など）又はディープニューラルネットワーク（ディープニューラルネットワーク１１５など）を訓練するのに性能問題を引き起こす可能性があり、取得された訓練コードをフィルタリングする手順は、有益であり得る。別の例として、ブロック３１０で取得された訓練コードの品質が一貫しておらず、コード解析システム又はディープニューラルネットワークを訓練するのに精度問題を引き起こす可能性がある。これら及び他の実施形態において、訓練コードの人気は、取得された訓練コードをフィルタリングするためのメトリックとして機能することができる。訓練コードの人気は、訓練コードに関連づけられた様々なメトリックに基づいて決定される人気格付けでもよい。例えば、公に利用可能なＧＩＴＨＵＢプロジェクトは、星数、フォーク数、ウォッチリスト数、コミット数、プルリクエスト数などを有し得る。さらに又は代わりに、キーワード（例えば、「機能する」、「素晴らしい」、「満足」など）を有する最小レビュー数又は任意の他のメトリックを使用して、ソースコードの人気のあるソースを決定してもよい。

訓練コードの人気格付けを決定した後、訓練コードは、人気格付けに基づいてソートされてもよい。人気格付けによりソートされた訓練コードの一部が、フィルタリングされた訓練コードとして選択されてもよい。いくつかの実施形態において、ソートされた訓練コードの閾値パーセンテージが、フィルタリングされた訓練コードとして選択されてもよい（例えば、それらの人気格付けの観点でソートされた訓練コードの上位２０％が、フィルタリングされた訓練コードとして選択されてもよい）。いくつかの実施形態において、ソートされた訓練コードの閾値絶対数が、フィルタリングされた訓練コードとして選択されてもよい（例えば、それらの人気格付けの観点でソートされた訓練コードの上位１００個が、フィルタリングされた訓練コードとして選択されてもよい）。いくつかの実施形態において、人気格付けは、訓練コードをフィルタリングするための人気閾値として選択されてもよい（例えば、１０を上回る人気格付けを有する全てのソートされた訓練コードが、フィルタリングされた訓練コードとして選択されてもよい）。これら及び他の実施形態において、閾値パーセンテージ、絶対数、又は人気値は、統計的評価アプローチに基づいて決定されてもよい（例えば、フィルタリングされた訓練コードが各抽出された特徴について少なくとも１０個のソースコードを含むように、未知の閾値Ｘが決定されてもよい）。さらに又は代わりに、様々な閾値が特徴ごとに作用してもよい（例えば、各抽出された特徴に関連づけられた１０個の最も人気のあるソースコードが取得されてもよい）。

ブロック３３０において、フィルタリングされた訓練コードの特徴が抽出され得る。ブロック３３０における特徴抽出は、方法２００のブロック２２０での特徴抽出に関連して説明したものと同じプロセス又は類似のプロセスにより、ブロック３３２で訓練コードの特徴を抽出することを含んでもよい。ブロック３３０における特徴抽出は、訓練コードをテスト及び実行することに基づいて、ブロック３３４で訓練コードの特徴を抽出することをさらに含んでもよい。ブロック３３０における特徴抽出は、特定の実行環境で訓練コードをテストすることに基づいて、ブロック３３６で訓練コードの特徴を抽出することをさらに含んでもよい。いくつかの実施形態において、ブロック３３４及び／又は３３６における特徴抽出ステップは省略されてもよい。

ブロック３３４において、取得された訓練コードの特徴は、取得された訓練コードをテストすることにより抽出することができる。取得された訓練コードをテストすることは、訓練コードのドキュメンテーション又はコメントにおいて提供されるサンプルテストケースに基づいてもよい。取得された訓練コードをテストすることは、取得された訓練コードをパース及び検証することをさらに含んでもよい。取得された訓練コードをパース及び検証することは、取得された訓練コードの構文を解析して、取得された訓練コードが文法的に正しい（例えば、実行されたときに構文エラーを生じない）ことを保証することを含んでもよい。取得された訓練コードをパース及び検証することは、抽出に関して前に捕捉されていない特徴、例えば、構文エラーメッセージなどを提供することができる。これら及び他の実施形態において、パースされた訓練コード自体が、取得された訓練コードの１つ以上の特徴として抽出されてもよい。

ブロック３３６において、取得された訓練コードの特徴は、取得された訓練コードを特定の実行環境でテストすることにより抽出することができる。取得された訓練コードの実行環境には、特定のオペレーティングシステム、ローカルの内部環境、クラウドベースのプラットフォームなどを含んでもよい。取得された訓練コードをテストできる実行環境は、取得された訓練コードのドキュメンテーションから決定されてもよい。例えば、訓練コードとして取得されたＰＹＴＨＯＮのソースコードは、ＴＯＸ、ＰＹＴＨＯＮ固有のテストコマンドラインツールからのドキュメンテーションを含むことがあり、ソースコードがＰＹＴＨＯＮの様々なバージョンに準拠し得ることを示す（例えば、コードがＰｙｔｈｏｎ３．５及びＰｙｔｈｏｎ３．６に準拠していることを示す）。取得された訓練コードを特定の実行環境でテストすることは、エラーメッセージ、依存関係問題、例外イベントの存在などの、訓練コードの静的解析では捕捉されないさらなる特徴の抽出を可能にし得る。

ブロック３４０において、ブロック３３０で抽出された特徴が１つ以上のコードデータセットに記憶され得る。１つ以上のコードデータセットにおける抽出された特徴の記憶は、方法２００のブロック２３０に記載される抽出された特徴の記憶と同じプロセス又は類似のプロセスで達成することができる。特徴が抽出されたソースコードは、抽出された特徴と共に１つ以上のコードデータセットに記憶することができる。

本開示の範囲から逸脱することなく、方法３００に対して修正、追加、又は省略がなされ得る。例えば、記載される方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、方法３００は、任意の数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈内で実施されてもよい。

図４は、訓練コードから抽出された特徴に基づいてコードサマリを予測及び生成する一例示的な方法４００のフローチャートである。いくつかの実施形態において、方法４００は、方法２００でブロック２２０、２３０、及び／又は２４０に、又は方法３００でブロック３３０に記載されるステップのより詳細な説明を提供し得る。これら及び他の実施形態において、ブロック４１０における訓練コードから特徴を抽出することは、方法２００のブロック２２０又は方法３００のブロック３３０において訓練コードから特徴を抽出することと同じプロセス又は類似のプロセスで実行されてもよい。これら及び他の実施形態において、ブロック４１０における訓練コードから特徴を抽出することは、さらに、方法３００のブロック３３４においてテストケース検証から特徴を抽出すること、又は方法３００のブロック３３６において実行環境で実行されるテストケースから特徴を抽出することと同じプロセス又は類似のプロセスを含んでもよい。方法４００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、コード解析システム１１０、訓練コードサーバ１２０、及び／又はユーザ１３０は、方法４００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法４００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法４００はブロック４１０で開始でき、ブロック４１０において、訓練コードの特徴が抽出され得る。ブロック４１０における訓練コード特徴の抽出は、方法２００のブロック２２０において訓練コードから特徴を抽出するのと同じプロセス又は類似のプロセスで実行されてもよい。これら及び他の実施形態において、ブロック４１０における訓練コードから特徴を抽出することは、さらに、テストケース検証及び特定の実行環境におけるテストケース検証に関連して取得された訓練コードの特徴を抽出することを含んでもよい。これら及び他の実施形態において、テストケース検証及び特定の実行環境におけるテストケース検証は、方法３００のブロック３３４においてテストケース検証から特徴を抽出すること、又は方法３００のブロック３３６において実行環境で実行されたテストケースから特徴を抽出することと同じプロセス又は類似のプロセスを含んでもよい。

ブロック４２０において、ブロック４１０で抽出された特徴に基づいてコードサマリが予測され、生成され得る。コードサマリ予測及び生成は、コード解析システム１１０又はディープニューラルネットワーク１１５などのコード解析システムにより容易にすることができる。コードサマリは、取得された訓練コードから抽出された特徴の自然言語記述、抽出された特徴に関連づけられたソースコード、又は特徴が抽出されたソースコードを含むことができる。コードサマリは、訓練コードから抽出された特徴、抽出された特徴に関連づけられたソースコード、又は特徴が抽出されたソースコードに基づいて予測され、生成され得る。いくつかの実施形態において、あるソースコードのコードサマリは、このソースコードからの１つ以上のコードスニペットに基づいて予測及び生成されてもよく、１つ以上のコードスニペットは、このソースコードに記載された動作の実行順序を示す。

ブロック４３０において、予測及び生成されたコードサマリに基づいて自然言語コードベクトルがマッピングされ得る。コードサマリは、サマリが予測及び生成されたソースコードとペアにされて、コード‐サマリペアを形成することができる。コード‐サマリペアは、自然言語コードベクトルとしてベクトル空間にマッピングすることができ、それにより、同じ又は類似の概念を記述するコード‐サマリペアに対応する２つ以上の自然言語コードベクトルは、ベクトル空間内で近隣点（close neighbors）であり得る。これら及び他の実施形態において、異なる又は類似していない概念を記述するコード‐サマリペアに対応する２つ以上の自然言語コードベクトルは、ベクトル空間内で互いからさらに離れ得る。類似度スコアを使用して、２つ以上の自然言語コードベクトルが近隣点である（したがって、２つ以上の自然言語コードベクトルに対応する２つ以上のコード‐サマリペアが同じ又は類似の概念を記述している）かどうかを判定することができる。例えば、２つ以上の自然言語コードベクトル間のコサイン類似度を計算して、２つ以上のコード‐サマリペア間の類似度合いを決定してもよい。コード‐サマリペア及びそれらの対応する自然言語コードベクトルは、方法２００のブロック２４０に関連して前述した検索インデックスなどの検索インデックスに配置されてもよい。検索インデックスにおける自然言語コードベクトルの記憶は、より速いベクトル比較のための、自然言語コードベクトルのより効率的な再呼び出しを容易にし得る。いくつかの実施形態において、ブロック４３０を完了すると、コード解析システムは、コード解析システムへのクエリを受信及び処理するように構成され、訓練され、準備されてもよい。

コード解析システムは、システム１００のディープニューラルネットワーク１１５などのディープニューラルネットワークを使用することにより、コード解析システムに向けられたクエリを受信及び処理するように構成され、訓練され、準備され得る。ディープニューラルネットワークは、１つ以上のディープラーニングモデルを生成することができ、ディープラーニングモデルは、取得された訓練コード、取得された訓練コードの抽出された特徴、及び取得された訓練コードの生成されたコードサマリなどの入力に基づいて自然言語コードベクトルを出力するように教示され得る。ディープラーニングモデルは、ＭＬＰモデル、ＬＳＴＭモデル、及び／又は類似のモデルを含んでもよい。いくつかの実施形態において、複数の異なるディープラーニングモデルが使用されてもよく、同じ入力に応答したディープラーニングモデルの各々からの出力された自然言語コードベクトルは、連結された自然言語コードベクトルに連結されてもよい。同じ入力に応答した複数の異なるディープラーニングモデルからの出力された自然言語コードベクトルの連結は、任意の出力された自然言語コードベクトルが単独で捕捉し得るよりも、取得された訓練コード、取得された訓練コードの抽出された特徴、及び／又は取得された訓練コードの生成されたコードサマリに関するより概念的な情報を捕捉することができる。例えば、ディープニューラルネットワークは、ＭＬＰモデル及びＬＳＴＭモデルなどの２つのディープラーニングモデルを含んでもよく、ディープニューラルネットワークは、入力としてあるソースコードを受け取ることができる。ＭＬＰモデルは、入力として受け取ったこのソースコードに関連する第１の自然言語コードベクトルを出力することができ、ＬＳＴＭモデルは、入力として受け取ったこの同じソースコードに関連する第２の自然言語コードベクトルを出力することができる。第１の自然言語コードベクトルは、第２の自然言語コードベクトルと連結されて、入力として受け取った上記ソースコードに関連する連結された自然言語コードベクトルを生成することができる。

１つ以上の連結された自然言語コードベクトルは、コード解析システムに向けられたクエリを受信及び処理するディープニューラルネットワークを構成、訓練、及び／又は準備するために、ディープニューラルネットワークにより解析され、処理され得る。１つ以上の連結された自然言語コードベクトルは、ディープニューラルネットワークの高密度層（dense layer）を通され得る。ディープニューラルネットワークの高密度層は、１つ以上の連結された自然言語コードベクトルを解析して、連結された自然言語コードベクトルと、連結された自然言語コードベクトルが計算されたソースコードとの間の関係を決定することができる。いくつかの実施形態において、１つ以上の連結された自然言語コードベクトルは、ディープニューラルネットワークの２つ以上の高密度層を順次通されてもよい。これら及び他の実施形態において、各高密度層の間にバッチ正規化ステップが生じてもよい。バッチ正規化ステップは、各高密度層への入力を標準化することができる。

本開示の範囲から逸脱することなく、方法４００に対して修正、追加、又は省略がなされ得る。例えば、記載される方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、方法４００は、任意の数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈内で実施されてもよい。

図５は、自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成し、自然言語検索セクションの各々に応答する提案ソースコードを返す一例示的な方法５００のフローチャートである。いくつかの実施形態において、方法５００は、方法２００でブロック２５０、２６０、２７０、及び／又は２８０に記載されるステップのより詳細な説明を提供し得る。いくつかの実施形態において、方法５００は、方法２００でブロック２５０、２６０、２７０、及び／又は２８０に記載されるステップを置き換えることができる。個別のブロックで示されているが、方法５００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法５００はブロック５１０で開始でき、ブロック５１０において、自然言語検索クエリが受信され、２つ以上の自然言語検索セクションに分離される。ブロック５１２における自然言語検索クエリを受信することは、方法２００のブロック２５０において自然言語検索クエリを受信するのと同じ又は類似のプロセスで達成することができる。システム１００に関連して説明されたコード解析システム１１０又はディープニューラルネットワーク１１５などのコード解析システムは、ブロック５１２で受信した自然言語検索クエリが、各タスクを達成するために区別可能なソースコードを利用する２つ以上のタスクを含むかどうかを判定することができる。

自然言語検索クエリが、各タスクを達成するために区別可能なソースコードを利用する２つ以上のタスクを含むと判定すると、自然言語検索クエリは、２つ以上の自然言語検索セクションに分離することができ、例えば、ブロック５１４において第１の自然言語検索セクションを決定し、ブロック５１６において第２の自然言語検索セクションを決定する。これら及び他の実施形態において、各自然言語検索セクションは、少なくとも１つのソースコードにより実装されてもよい。所与の自然言語検索セクションが、対応するタスクを達成するために複数のソースコードを利用する場合、この所与の自然言語検索セクションは、２つ以上の自然言語検索セクションにさらに分割されてもよい。

ブロック５２０において、第１の自然言語検索セクションが第１の自然言語検索ベクトルにマッピングされ得る。第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることは、方法２００のブロック２６０において自然言語検索ベクトルをマッピングするのと同じ又は類似のプロセスで達成することができる。ブロック５２２において、第２の自然言語検索が、ブロック５２０において第１の自然言語検索セクションを第１の自然言語検索セクションにマッピングするのと同じプロセス又は類似のプロセスで、第２の自然言語検索ベクトルにマッピングされ得る。

ブロック５３０において、第１の自然言語検索ベクトルが自然言語コードベクトルと比較され得る。第１の自然言語検索ベクトルと自然言語コードベクトルとの間の比較は、方法２００のブロック２７０において自然言語検索ベクトルと自然言語コードベクトルとを比較するのと同じプロセス又は類似のプロセスにより達成することができる。ブロック５３２において、第２の自然言語検索ベクトルが、ブロック５３０において第１の自然言語検索ベクトルを自然言語コードベクトルと比較するのと同じプロセス又は類似のプロセスで、自然言語コードベクトルと比較され得る。

ブロック５４０において、第１の自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて、第１の提案ソースコードが返され得る。ブロック５４２において、第２の自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいて、第２の提案ソースコードが返され得る。ブロック５４０及び５４２それぞれにおける第１及び第２の自然言語検索ベクトルと自然言語コードベクトルとの間の比較に応答したソースコードの提案は、方法２００のブロック２８０において自然言語検索ベクトルと自然言語コードベクトルとの間の比較に基づいてソースコードを提案するのと同じプロセス又は類似のプロセスにより達成することができる。

これら及び他の実施形態において、２つ以上のソースコードが第１の自然言語検索ベクトルと自然言語コードベクトルとの間の比較に応答する場合、ブロック５４０の第１のソースコードとして２つ以上の提案ソースコードが返されてもよい。さらに又は代わりに、２つ以上のソースコードが第２の自然言語検索ベクトルと自然言語コードベクトルとの間の比較に応答する場合、ブロック５４２の第２のソースコードとして２つ以上の提案ソースコードが返されてもよい。これら及び他の実施形態において、第１の提案ソースコードは、第１の自然言語検索セクションに応答するソースコードとして提示されてもよく、第２の提案ソースコードは、第２の自然言語検索セクションに応答するソースコードとして提示されてもよい。さらに又は代わりに、第１の提案ソースコード及び第２の提案ソースコードは、自然言語検索クエリに応答するソースコードとして一緒に提示されてもよい。

本開示の範囲から逸脱することなく、方法５００に対して修正、追加、又は省略がなされ得る。例えば、記載される方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、方法５００は、任意の数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈内で実施されてもよい。

図６は、本開示に記載される少なくとも１つの実施形態による、一例示的なコンピューティングシステム６００を示す。コンピューティングシステム６００は、プロセッサ６１０、メモリ６２０、データ記憶装置６３０、及び／又は通信ユニット６４０を含んでもよく、これらは全て通信上結合され得る。コード解析システム１１０、訓練コードサーバ１２０、及び／又は自然言語検索クエリ１４０を含む図１のシステム１００のいずれか又は全てが、コンピューティングシステム６００と矛盾しないコンピューティングシステムとして実装されてもよい。

一般に、プロセッサ６１０は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用若しくは汎用コンピュータ、コンピューティングエンティティ、又は処理デバイスを含んでもよく、任意の適用可能なコンピュータ読取可能記憶媒体に記憶された命令を実行するように構成されてもよい。例えば、プロセッサ６１０は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム命令を解釈及び／又は実行するよう及び／又はデータを処理するように構成された任意の他のデジタル若しくはアナログ回路を含んでもよい。

図６において単一のプロセッサとして示されているが、プロセッサ６１０は、本開示に記載の任意の数の動作を個々又は集合的に実行するように構成された、任意の数のネットワーク又は物理位置にわたり分散された任意の数のプロセッサを含んでもよい。いくつかの実施形態において、プロセッサ６１０は、メモリ６２０、データ記憶装置６３０、又はメモリ６２０及びデータ記憶装置６３０に記憶されたプログラム命令を解釈及び／又は実行し、かつ／あるいはデータを処理してもよい。いくつかの実施形態において、プロセッサ６１０は、データ記憶装置６３０からプログラム命令を取り出し、プログラム命令をメモリ６２０にロードしてもよい。

プログラム命令がメモリ６２０にロードされた後、プロセッサ６１０は、プログラム命令、例えば、図２、図３、図４、及び図５それぞれの方法２００、３００、４００、及び／又は５００のうち任意のものを実行する命令などを実行することができる。例えば、プロセッサ６１０は、訓練コードを取得すること、訓練コードから特徴を抽出すること、及び／又は抽出された特徴を自然言語コードベクトルにマッピングすることに関する命令を取得してもよい。

メモリ６２０及びデータ記憶装置６３０は、記憶されたコンピュータ実行可能命令又はデータ構造を搬送し又は有するコンピュータ読取可能記憶媒体又は１つ以上のコンピュータ読取可能記憶媒体を含むことができる。そのようなコンピュータ読取可能記憶媒体は、プロセッサ６１０などの汎用又は専用コンピュータによりアクセスされ得る任意の利用可能な媒体でもよい。例えば、メモリ６２０及び／又はデータ記憶装置６３０は、取得された訓練コード（図２のブロック２１０で取得された訓練コードなど）を記憶してもよい。いくつかの実施形態において、コンピューティングシステム６００は、メモリ６２０及びデータ記憶装置６３０のいずれかを含んでもよく、あるいは含まなくてもよい。

限定でなく例として、そのようなコンピュータ読取可能記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、コンパクトディスク読取専用メモリ（ＣＤ‐ＲＯＭ）若しくは他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、ソリッドステートメモリデバイス）、又はコンピュータ実行可能命令又はデータ構造の形式で所望のプログラムコードを搬送又は記憶するために使用でき、かつ汎用又は専用コンピュータによりアクセスできる任意の他の記憶媒体を含む、非一時的なコンピュータ読取可能記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ読取可能記憶媒体の範囲内に含まれてもよい。コンピュータ実行可能命令は、例えば、プロセッサ６１０に特定の動作又は動作のグループを実行させるように構成された命令及びデータを含んでもよい。

通信ユニット６４０は、ネットワークを介して情報を送信又は受信するように構成された任意のコンポーネント、デバイス、システム、又はこれらの組み合わせを含んでもよい。いくつかの実施形態において、通信ユニット６４０は、他の場所、同じ場所における他のデバイス、又はさらには同じシステム内の他のコンポーネントと通信してもよい。例えば、通信ユニット６４０は、モデム、ネットワークカード（無線又は有線）、光通信装置、赤外線通信装置、無線通信装置（アンテナなど）、及び／又はチップセット（Ｂｌｕｅｔｏｏｔｈ（登録商標）装置、８０２．６装置（メトロポリタンエリアネットワーク（ＭＡＮ）など）、ＷｉＦｉ装置、ＷｉＭａｘ（登録商標）装置、セルラー通信設備等）などを含んでもよい。通信ユニット６４０は、ネットワーク及び／又は本開示に記載される任意の他のデバイス又はシステムとの間でデータが交換されることを可能にし得る。例えば、通信ユニット６４０は、システム６００が、コンピューティングデバイス及び／又は他のネットワークなどの他のシステムと通信することを可能にし得る。

当業者は本開示を検討した後、本開示の範囲から逸脱することなくシステム６００に対して修正、追加、又は省略がなされ得ることを認識し得る。例えば、システム６００は、明示的に例示及び記載されたものより多くの又は少ないコンポーネントを含んでもよい。

前述の開示は、開示された正確な形式又は特定の分野の使用に本開示を限定することは意図されない。したがって、本明細書に明示的に記載されているか又は暗に示されているかにかかわらず、本開示に対する様々な代替実施形態及び／又は修正が本開示に照らして可能なことが企図される。このように本開示の実施形態を説明したが、本開示の範囲から逸脱することなく形式及び詳細において変更がなされ得ることが認識され得る。したがって、本開示は、特許請求の範囲によってのみ限定される。

いくつかの実施形態において、本明細書に記載される異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセスとして（例えば、別個のスレッドとして）実現されてもよい。本明細書に記載されるシステム及びプロセスのいくつかは、一般に、（汎用ハードウェアに記憶され、及び／又は汎用ハードウェアにより実行される）ソフトウェアで実現されるものとして記載されるが、特定のハードウェア実装、又はソフトウェアと特定のハードウェア実装との組み合わせもまた可能であり、企図される。

本開示において、特に別記の特許請求の範囲（例えば、別記の特許請求の範囲の本文）において用いられる用語は、一般に「開放的」な用語として意図されている（例えば、用語「含んでいる」は、「含んでいるがこれに限定されない」と解釈されるべきである）。

さらに、特定数の導入された請求項記載が意図されている場合、そのような意図は請求項に明示的に記載され、そのような記載がない場合、そのような意図は存在しない。例えば、理解の助けとして、以下の別記の特許請求の範囲は、請求項記載を導入するために、導入フレーズ「少なくとも１つの」及び「１つ以上の」の使用を含むことがある。しかしながら、そのようなフレーズの使用は、不定冠詞「一の」（“a”又は“an”）による請求項記載の導入が、同じ請求項が導入フレーズ「１つ以上の」又は「少なくとも１つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を１つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない（例えば、「一の」（“a”及び／又は“an”）は「少なくとも１つの」又は「１つ以上の」を意味するよう解釈されるべきである）。請求項記載を導入するために用いられる定冠詞の使用についても同様である。

さらに、特定数の導入された請求項記載が明確に記載されている場合であっても、当業者は、そのような記載は少なくとも記載された数を意味するよう解釈されるべきであることを認識するであろう（例えば、他の修飾語を伴わない「２つの記載」というただそれだけの記載は、少なくとも２つの記載、又は２つ以上の記載を意味する）。さらに、「Ａ、Ｂ、及びＣ等のうち少なくとも１つ」又は「Ａ、Ｂ、及びＣ等のうち１つ以上」と類似の規定が用いられている例において、一般に、そのような構造は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢ共に、Ａ及びＣ共に、Ｂ及びＣ共に、又はＡ、Ｂ、及びＣ共に等を含むことが意図される。

さらに、明細書においてか、特許請求の範囲においてか、又は図面においてかにかかわらず、２つ以上の代替的な用語に先行するいかなる分離的なワード又はフレーズも、用語のうち１つ、用語のうちいずれか、又は用語の双方を含む可能性を考慮するよう理解されるべきである。例えば、フレーズ「Ａ又はＢ」は、「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むよう理解されるべきである。

本開示に記載される全ての例及び条件付き言語は、本開示及び発明者が当該技術分野を促進するために寄与した概念を理解する際に読者を助けるための教育的目的が意図され、このように具体的に記載された例及び条件に限定されないものとみなされるべきである。本開示の実施形態が詳細に説明されたが、本開示の主旨及び範囲から逸脱することなく様々な変更、置換、及び改変をこれに行える。

上記の実施形態につき以下の付記を残しておく。
（付記１）
訓練コードを取得するステップと、
前記訓練コードから特徴を抽出するステップと、
前記抽出された特徴をコードデータセットに記憶するステップと、
ディープニューラルネットワークにより、前記訓練コードからの前記抽出された特徴を自然言語コードベクトルにマッピングするステップと、
ソースコード提案のための自然言語検索クエリを受信するステップと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングするステップと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較するステップと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答するステップと、
を含む方法。
（付記２）
テストケース特徴を生成するステップと、前記テストケース特徴を前記コードデータセットに記憶するステップと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、付記１に記載の方法。
（付記３）
前記訓練コードから特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、又はテストケースログのうち少なくとも１つを抽出することを含む、付記１に記載の方法。
（付記４）
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、付記１に記載の方法。
（付記５）
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成するステップであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、ステップ
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、付記１に記載の方法。
（付記６）
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することは、前記自然言語検索ベクトルと前記自然言語コードベクトルとの間のコサイン類似度に基づく、付記１に記載の方法。
（付記７）
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
付記１に記載の方法。
（付記８）
実行されることに応答してシステムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体であって、前記動作は、
訓練コードを取得することと、
前記訓練コードから特徴を抽出することと、
前記抽出された特徴をコードデータセットに記憶することと、
ディープニューラルネットワークにより、前記訓練コードからの前記抽出された特徴を自然言語コードベクトルにマッピングすることと、
ソースコード提案のための自然言語検索クエリを受信することと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングすることと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答することと、
を含む、１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記９）
テストケース特徴を生成することと、前記テストケース特徴を前記コードデータセットに記憶することと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１０）
前記訓練コードから特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、及びテストケースログのうち少なくとも１つを抽出することを含む、付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１１）
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１２）
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成することであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、こと
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１３）
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することは、前記自然言語検索ベクトルと前記自然言語コードベクトルとの間のコサイン類似度に基づく、付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１４）
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
付記８に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１５）
システムであって、
１つ以上のプロセッサと、
実行されることに応答して当該システムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体と、を含み、前記動作は、
訓練コードを取得することと、
前記訓練コードにおける特徴を抽出することと、
前記抽出された特徴をコードデータセットに記憶することと、
ディープニューラルネットワークにより、前記訓練コードにおける前記抽出された特徴を自然言語コードベクトルにマッピングすることと、
ソースコード提案のための自然言語検索クエリを受信することと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングすることと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答することと、
を含む、システム。
（付記１６）
テストケース特徴を生成することと、前記テストケース特徴を前記コードデータセットに記憶することと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、付記１５に記載のシステム。
（付記１７）
前記訓練コードにおける特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、及びテストケースログのうち少なくとも１つを抽出することを含む、付記１５に記載のシステム。
（付記１８）
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、付記１５に記載のシステム。
（付記１９）
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成することであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、こと
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、付記１８に記載のシステム。
（付記２０）
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
付記１５に記載のシステム。

Claims

訓練コードを取得するステップと、
前記訓練コードから特徴を抽出するステップと、
前記抽出された特徴をコードデータセットに記憶するステップと、
ディープニューラルネットワークにより、前記訓練コードからの前記抽出された特徴を自然言語コードベクトルにマッピングするステップと、
ソースコード提案のための自然言語検索クエリを受信するステップと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングするステップと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較するステップと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答するステップと、
を含む方法。
テストケース特徴を生成するステップと、前記テストケース特徴を前記コードデータセットに記憶するステップと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、請求項１に記載の方法。
前記訓練コードから特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、又はテストケースログのうち少なくとも１つを抽出することを含む、請求項１に記載の方法。
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、請求項１に記載の方法。
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成するステップであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、ステップ
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、請求項１に記載の方法。
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することは、前記自然言語検索ベクトルと前記自然言語コードベクトルとの間のコサイン類似度に基づく、請求項１に記載の方法。
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
請求項１に記載の方法。
システムに動作を実行させるコンピュータプログラムであって、前記動作は、
訓練コードを取得することと、
前記訓練コードから特徴を抽出することと、
前記抽出された特徴をコードデータセットに記憶することと、
ディープニューラルネットワークにより、前記訓練コードからの前記抽出された特徴を自然言語コードベクトルにマッピングすることと、
ソースコード提案のための自然言語検索クエリを受信することと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングすることと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答することと、
を含む、コンピュータプログラム。
テストケース特徴を生成することと、前記テストケース特徴を前記コードデータセットに記憶することと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、請求項８に記載のコンピュータプログラム。
前記訓練コードから特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、及びテストケースログのうち少なくとも１つを抽出することを含む、請求項８に記載のコンピュータプログラム。
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、請求項８に記載のコンピュータプログラム。
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成することであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、こと
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、請求項８に記載のコンピュータプログラム。
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することは、前記自然言語検索ベクトルと前記自然言語コードベクトルとの間のコサイン類似度に基づく、請求項８に記載のコンピュータプログラム。
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
請求項８に記載のコンピュータプログラム。
システムであって、
１つ以上のプロセッサと、
実行されることに応答して当該システムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体と、を含み、前記動作は、
訓練コードを取得することと、
前記訓練コードにおける特徴を抽出することと、
前記抽出された特徴をコードデータセットに記憶することと、
ディープニューラルネットワークにより、前記訓練コードにおける前記抽出された特徴を自然言語コードベクトルにマッピングすることと、
ソースコード提案のための自然言語検索クエリを受信することと、
前記ディープニューラルネットワークにより、前記自然言語検索クエリを自然言語検索ベクトルにマッピングすることと、
前記自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記自然言語検索ベクトルを自然言語コードベクトルと比較することに基づいてソースコードを用いて前記自然言語検索クエリに応答することと、
を含む、システム。
テストケース特徴を生成することと、前記テストケース特徴を前記コードデータセットに記憶することと、をさらに含み、前記テストケース特徴を生成することは、
前記取得された訓練コードをパースすることと、
前記パースされた訓練コードに基づいて前記パースされた訓練コードのためのテスト実行環境を決定することと、
前記テスト実行環境に基づいて前記パースされた訓練コードの実行を検証することと、
前記パースされた訓練コードのテストケース特徴を生成することであり、前記テストケース特徴は、前記テスト実行環境で前記パースされた訓練コードが実行可能かどうかを示す、ことと、
を含む、請求項１５に記載のシステム。
前記訓練コードにおける特徴を抽出することは、前記訓練コードからコードスニペット、ソフトウェアドキュメンテーション、コードコメント、及びテストケースログのうち少なくとも１つを抽出することを含む、請求項１５に記載のシステム。
前記ディープニューラルネットワークは、多層パーセプトロン（ＭＬＰ）ネットワーク、長短期記憶（ＬＳＴＭ）ネットワーク、及び平均確率的勾配降下重みドロップ長短期記憶（ＡＷＤＬＳＴＭ）ネットワークのうち少なくとも１つを含む、請求項１５に記載のシステム。
前記ディープニューラルネットワークにより前記抽出された特徴のためのコードサマリを生成することであり、前記コードサマリは、前記抽出された特徴の自然言語記述を含む、こと
をさらに含み、
前記抽出された特徴を前記自然言語コードベクトルにマッピングすることは、前記生成されたコードサマリに基づく、請求項１８に記載のシステム。
前記自然言語検索クエリを前記自然言語検索ベクトルにマッピングすることは、
前記自然言語検索クエリを第１の自然言語検索セクション及び第２の自然言語検索セクションに編成することと、
前記第１の自然言語検索セクションを第１の自然言語検索ベクトルにマッピングすることと、
前記第２の自然言語検索セクションを第２の自然言語検索ベクトルにマッピングすることと、を含み、
前記自然言語検索ベクトルと前記自然言語コードベクトルとを比較することは、
前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、
前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することと、を含み、
前記ソースコードは、さらに、前記第１の自然言語検索ベクトルを前記自然言語コードベクトルと、及び前記第２の自然言語検索ベクトルを前記自然言語コードベクトルと比較することに基づく、
請求項１５に記載のシステム。