CN110058987A - 用于对计算***进行追踪的方法、设备和计算机可读介质 - Google Patents

用于对计算***进行追踪的方法、设备和计算机可读介质 Download PDF

Info

Publication number
CN110058987A
CN110058987A CN201810050770.5A CN201810050770A CN110058987A CN 110058987 A CN110058987 A CN 110058987A CN 201810050770 A CN201810050770 A CN 201810050770A CN 110058987 A CN110058987 A CN 110058987A
Authority
CN
China
Prior art keywords
request
tracking data
client
task
calculation server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810050770.5A
Other languages
English (en)
Other versions
CN110058987B (zh
Inventor
应治
赵军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201810050770.5A priority Critical patent/CN110058987B/zh
Priority to US16/240,244 priority patent/US10824537B2/en
Publication of CN110058987A publication Critical patent/CN110058987A/zh
Application granted granted Critical
Publication of CN110058987B publication Critical patent/CN110058987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3068Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/541Interprogram communication via adapters, e.g. between incompatible applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/503Resource availability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例涉及用于对计算***进行追踪的方法、设备和计算机可读介质。根据一些实施例,从为一个任务请求专用处理资源的请求中提取追踪数据,请求由客户端上执行的应用发起,追踪数据包括用以执行任务的参数、应用的标识符和从发起请求开始经过的时间。将追踪数据存储在易失性存储器内,以便将追踪数据发送到数据库服务器。使托管专用处理资源的计算服务器处理请求。通过这种方式,可以对云计算***进行追踪,而不是仅对单机任务进行追踪。

Description

用于对计算***进行追踪的方法、设备和计算机可读介质
技术领域
本公开的实施例总体涉及包括专用处理资源的计算***,并且更具体地,涉及对计算***进行追踪的方法、设备以及计算机可读介质。
背景技术
客户端上的应用可以被设计用于利用处理和存储资源等计算资源来完成各种处理或分析任务。随着诸如机器学习、深度学习、数据挖掘等任务的需求和复杂度不断增加,需要大量和/或可变的计算资源来满足相应应用的运行。这可以通过具有多个专用处理资源的机器或***来实现,其中应用可以被调度到该机器或***的一个或多个专用处理资源上运行。例如,已经开发了基于云的计算***,该计算***包括具有一个或多个专用处理资源的机器。不同客户端可以根据需要来租赁该***的计算资源(例如,专用处理资源)用以运行各自的应用。
然而,目前的一些技术方案仅对单机版的专用处理资源进行追踪和监控,而不适用于上述计算***。因此,需要一种对上述计算***进行追踪和监控的技术方案。
发明内容
本公开的实施例提供了追踪计算***的方法、设备和相应的计算机可读介质。
根据本公开的第一方面,提供了一种用于对计算***进行追踪的方法。该方法包括:从为一个任务请求专用处理资源的请求中提取追踪数据,请求由客户端上执行的应用发起,追踪数据包括用以执行任务的参数、应用的标识符和从发起请求开始经过的时间;将追踪数据存储在易失性存储器内,以便将追踪数据发送到数据库服务器;以及使托管专用处理资源的计算服务器处理请求。
根据本公开的第二方面,提供了一种用于对计算***进行追踪的设备。该设备包括:至少一个处理器;易失性存储器;以及与至少一个处理器耦合的存储器,存储器具有存储于其中的指令,指令在被至少一个处理器执行时使得第一设备执行动作,动作包括:从为一个任务请求专用处理资源的请求中提取追踪数据,请求由客户端上执行的应用发起,追踪数据包括用以执行任务的参数、应用的标识符和从发起请求开始经过的时间;将追踪数据存储在易失性存储器内,以便将追踪数据发送到数据库服务器;以及使托管专用处理资源的计算服务器处理请求。
根据本公开的第三方面,提供了一种计算机可读介质。该计算机可读介质上存储有机器可执行指令,当机器可执行指令在被至少一个处理器执行时,使得至少一个处理器实现根据第一方面的方法。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了可以在其中实现本公开的某些实施例的***的示意框图;
图2示出了根据本公开的某些实施例的用于追踪的分布式架构的示意框图;
图3示出了根据本公开的某些实施例的用于追踪计算***的方法的流程图;
图4示出了根据本公开的某些实施例的计算***的一部分的示意框图;以及
图5示出了一个可以用来实施本公开的实施例的设备500的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。
如上所述,专用处理资源可以在客户端本地或者可以由远程机器或***提供。在一些示例中,可以部署基于云的计算***,其中包括具有一个或多个专用处理资源的多个机器。该计算***的专用处理资源可以由不同客户端根据需要来使用,以将相应的应用调度到可用的专用处理资源上运行。
图1示出了本公开的实施例可以在其中被实现的示例计算***100的示意图。在该计算***100中部署了用于应用运行的多个服务器包括服务器110-1、服务器110-2、...、服务器110-N(以下统称称为服务器110,其中N为大于1的自然数)。计算***100还包括专用处理资源160-1、专用处理资源160-2、...、专用处理资源160-M(以下统称为专用处理资源160,其中M为大于1的自然数)。每个服务器110上具有一个或多个专用处理资源160。
在图1的示例中,服务器110-1具有专用处理资源160-1,服务器110-2具有专用处理资源160-2,并且服务器110-N具有专用处理资源160-N。专用处理资源160的示例可以包括但不限于图形专用处理资源(GPU)、现场可编程门阵列(FPGA)等。为便于讨论,某些实施例将以GPU作为专用处理资源的示例进行描述。除了专用处理资源160之外,服务器110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理单元(未示出)。
图1还示出了多个客户端120-1、120-2...120-N等(以下统称或单独称为客户端120,其中N为大于1的自然数),分别具有要运行的应用150-1、150-2、...、150-N(以下统称为应用150,其中N为大于1的自然数)。应用150可以是机器上可运行的任何应用,该应用可以被设计为执行相应数据处理或分析等任务。作为示例,应用150可以执行与高性能计算(HPC)、机器学习(ML)或深度学习(DL)以及人工智能(AI)等相关的数据处理或分析任务。为了能够快速高效运行这些应用和/或为了保留本地处理资源,客户端120可以请求服务器110的专用处理资源160来运行这些应用150。在这样的实现中,客户端120可以通过互连网络130连接到一个或多个服务器110,并且将应用150交由服务器110的一个或多个专用处理资源160运行。取决于客户端120、服务器110和/或专用处理资源160所支持的接口,互连网络130可以支持基于诸如远程直接内存访问(RDMA)和传输控制协议(TCP)等各种网络传输技术的不同类型的有线或者无线连接。
应当理解,图1示出的设备和/或布置仅是一个示例。在其他示例中,该计算***100可以包括任意适当数目的服务器110和客户端120。每个服务器110可以安装有任意适当数目的专用处理资源160,并且每个客户端120可以具有待运行的多个应用150。此外,尽管被单独示出,调度器140在实际应用中可以由独立于服务器110的其他设备实现,或者可以被部分或全部实现在一个或多个服务器110上。
为了描述清楚和简洁,将主要以GPU内核为例来详细描述本公开的示例实施例。如已知的,GPU作为一种专用处理器,其强大的计算能力源自其大量的内核和高带宽的内存。在GPU硬件架构中,一个GPU通常具有大量的GPU内核,例如5120或者接近10000个内核。GPU内核作为一种专用处理资源,是最基本的处理单元,也被称为流处理器(SP)。指令和任务最终都在GPU内核上被处理。多个GPU内核同时执行指令,从而实现了GPU的并行计算。多个SP加上一些其他资源,例如寄存器、共享内存,可以组成一个流多处理器(SM)。
但是,应当理解,GPU仅仅是一种示例性的专用处理资源,并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他专用处理资源,例如诸如现场可编程门阵列(FPGA)之类的加速器中的处理资源,不论是目前已知的还是将来开发的,而并不仅仅限于GPU内核。
图2示出了根据本公开的一些实施例的用于对计算***进行追踪的分布式架构。如图2所示,服务器110和客户端120是计算***100的节点,并且服务器110与客户端120之间的连接可以是多对多,本公开在此不受限制。GPU资源可以仅位于服务器110上,应用(未示出)可以在客户端120处运行,并且消耗服务器110处的GPU资源。备选地或另外,客户端120处也可以包括GPU资源,以进行简单的处理和图形渲染。由于任务和指令实质上由服务器110上的专用计算资源来处理,因此服务器110也可以被称为计算服务器。然而,在不至于混淆的情况下,为了简单起见,将计算服务器简称为称为服务器。
客户端120上执行的应用可以发起请求,该请求可以为一个任务请求专用处理资源,例如,GPU资源。例如,该请求可以是对专用处理资源(例如,GPU资源)的应用编程接口(API)的函数调用,并且相应的任务可以是执行该函数。
在一些实施例中,该请求可以包含各种信息,例如,应用的标识符、用以执行任务的参数和指示发起请求的时刻的时间戳。例如,可以在请求的报头内包含这些信息。在一些实施例中,应用的标识符用于标识和区分不同的应用。例如,应用可以从图1所示的调度器140来获取应用的标识符。调度器140可以对各个应用的标识符进行维护,确保标识符在集群中是唯一的。作为另一示例,客户端120可以在本地设置通用唯一标识符(UUID)。例如,如果碰撞概率很低,则可以将UUID设置为随机ID。
另外,应用可以支持多用户操作。例如,不同的用户可以借助不同的账户来使用同一应用。在这种情况下,请求还可以指示应用的用户。例如,可以在请求的报头内设置指示不同用户的字段。
如上所述,专用处理资源可以是GPU,并且用以执行任务的参数可以包括针对GPU的应用编程接口(API)参数,例如,存储器大小、内核函数名称、线程数、块数等。在一个示例中,API可以是统一计算架构(CUDA)API。
如图2所示,可以在服务器110处设置监控模块113。例如,在服务器110-1包括监控模块113-1,服务器110-2包括监控模块113-2,并且服务器110-N包括监控模块113-N等等。这些监控模块可以统称为监控模块113。如图2所示,还可以在客户端120处设置监控模块123。例如,在服务器110-1包括监控模块123-1,服务器110-2包括监控模块123-2,并且服务器110-N包括监控模块123-N等等。这些监控模块可以统称为监控模块123。
监控模块113或123可以从请求中提取跟踪数据,包括应用标识符、任务的参数和从发起请求所经过的时间。在应用支持多用户操作的情况下,还可以从请求中提取用户的标识符。在一些实施例中,请求可以在底层GPU驱动器API的层级中实现,以提高性能。例如,在CUDA API中,可以通过在GPU硬件中运行的GPU事件来确定所经过的时间。
在一些实施例中,可以将追踪数据存储在服务器110或客户端120相应的易失性存储器内。例如,可以以预定义的二进制格式进行存储,以节省存储空间。易失性存储器可以是环形缓冲区,以便于存储缓冲数据流。然而,如果易失性存储器不足以存储追踪数据,则监控模块123记录的数据将被移动到本地存储器,例如,非易失性存储器。
表1示出了根据本公开的一个示例实施例的二进制存储格式的示例,然而应当理解,该格式仅是示例性的,并不限制本公开的范围。在不脱离本公开的范围的情况下,可以对表格的内容进行添加、删除和修改。
表1
图2示出了包括在相应的服务器110内的代理115-1、115-2...115-N等(以下统称或单独称为代理115)。代理115可以负责解析易失性存储器或非易失性存储器内存储的追踪数据,例如,二进制数据,并且将追踪数据转换为时序数据库可以理解的数据点。代理115可以将追踪数据(例如,时序数据点)经由例如基于HTTP的服务发送到数据库(DB)180。由于对计算***的追踪和监控是在带外执行,从而不影响请求的传送和指令的执行。
另外,图2还示出了包括在相应的客户端120内的代理125-1、125-2...125-N等(以下统称或单独称为代理125),并且代理125可以以与代理115相似的方式来进行配置。以这种方式,可以将追踪数据的收集与解析分开,从而彼此不互相影响。
在一些实施例中,数据库180可以是时序数据库(TSDB),以便于对随着时间变化的数据进行管理。托管数据库180的服务器(也称数据库服务器)可以周期性地连接到客户端120和服务器110上的代理115、125,并经由HTTP收集最新的数据点。例如,时间间隔可以被设置为5至30秒,并且可以根据具体需要进行灵活配置。TSDB也可以提供用于查询这些追踪数据的接口。例如,不同的GPU或节点的应用可以经由标识符关联起来,以对相应数据进行剖析。
如图2所示,仪表板190与数据库180连接,并且可以包括一个或多个预定义的查询规则,以提供对数据点的可视化。仪表板190还可以提供各种模板,从而操作者可以基于应用的标识符等从大量的追踪数据中进行筛选。例如,用户可以从追踪数据中选择某个应用的跟踪数据。
根据本公开的不同的实施例,该架构可以方便有效地工作在分布式环境中。另外,该架构可以不依赖于特定的应用平台或框架,并且支持各种类型的应用,例如,不同的深度学习框架。通过使用带外的方式来实现追踪和监控,一些实施例可以实现基本上实时的监控,而无需等待任务运行完毕之后,通过分析日志数据等方式对计算***进行分析。通过将跟踪数据发送到数据库进行管理,一些实施例实现了集中式管理,从而有效地进行管理和配置。另外,由于使用了应用的标识符,一些实施例可以在应用使用多个GPU或多个服务器的情况下对相应的追踪数据与应用进行关联。
图3示出了根据本公开的实施例的追踪计算***的方法200的流程图。方法200可以在如图2所示的客户端120处执行,例如,在图2的监控模块123处执行。另外,方法200也可以在服务器110处执行,例如在图2的监控模块113处执行。
在框202,从请求中提取追踪数据,追踪数据包括用以执行任务的参数、应用的标识符和从发起请求开始经过的时间。如上所述,在请求内、特别是在请求的报头内可以包含与上述追踪数据相关联的信息。因此,可以从请求中将这些信息提取出来。在一些实施例中,应用可以支持多个用户,从而请求中可以指示不同的用户。在这种情况下,也可以从请求中提取用户的标识符,以作为追踪数据的一部分。
在框204,将追踪数据存储在易失性存储器中,以便将追踪数据发送到数据库服务器。例如,易失性存储器可以是环形缓冲区,以便于存储缓冲数据流。如果方法200由客户端120执行,则可以将追踪数据存储在客户端120的易失性存储器中。客户端120还可以包括非易失性存储器。如果客户端120的易失性存储器不足以存储追踪数据,可以将追踪数据从易失性存储器移动或迁移到非易失性存储器。
如果方法200在服务器110处执行,则可以将追踪数据存储在服务器110的易失性存储器中。服务器110还可以包括非易失性存储器。如果服务器110的易失性存储器不足以存储追踪数据,则可以将追踪数据从易失性存储器移动或迁移到非易失性存储器。
在框206,使托管专用处理资源的服务器110处理该请求。如果方法200在客户端120处执行,则可以向服务器110发送该请求,以使服务器110对该请求进行处理。另外,客户端120还可以从服务器110接收利用专用处理资源(例如,GPU资源)处理该任务的处理结果。
如果方法200在服务器110处执行,则方法200还可以包括从客户端120接收该请求。另外,方法200还可以包括利用专用处理资源处理该任务,以获得执行该任务的结果,并向客户端120发送执行该任务的结果。
在一些实施例中,数据库服务器可以托管时序数据库,如图2所示。在这种情况下,方法200还可以包括从易失性存储器中获取追踪数据,并将获取的追踪数据转换为时序数据点。时序数据点可以被发送到数据库存储器,以使其被存储在时序数据库内。
图4示出了根据本公开的一些实施例的计算***的一部分的示意性框图。如图4所示,应用150发起请求,该请求为一个任务请求GPU资源,例如可以是对GPU的API的函数调用。例如,应用150可以在不了解底层***的情况下来调用GPU API。
客户端模块122与应用150连接,以接收请求,并且包括监控模块123和连接器124。监控模块123可以从请求中提取跟踪数据,跟踪数据包括应用的标识符、用以执行任务的参数和从发起请求开始所经过的时间。跟踪数据可以被存储在储存库126中,而不中断请求的传输和任务的执行。然后,请求可以被传递给连接器124,连接器124将对请求进行封装,并将其传递给服务器110以进行进一步处理。
服务器110可以包括服务器模块112,其包括连接器114和监控模块113。当连接器114从客户端120接收到请求之后,连接器114将该请求传送到监控模块113。监控模块113从请求中提取追踪数据,并将追踪数据存储在储存库116中,而无需中断正常处理过程。
客户端120上的代理125可以连续地、周期性地或以其他方式监控储存库126。如果储存库126中存在新的数据,则可以对其进行收集,并对数据进行解析,将其转换为时序数据点。例如,如上所述,储存库126可以包括易失性存储器,并且可选地包括非易失性存储器。
服务器110上的代理115可以连续地、周期性地或以其他方式监控储存库116。如果储存库116中存在新的数据,则可以对其进行收集、解析,将其转换为时序数据点。例如,储存库116可以包括易失性存储器,并且可选地包括非易失性存储器。
图5示出了一个可以用来实施本公开的实施例的设备500的示意性框图。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200或300,可由处理单元501执行。例如,在一些实施例中,方法200或300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200或300的一个或多个步骤。备选地,在其他实施例中,CPU 501也可以以其他任何适当的方式被配置以实现上述过程/方法
本公开可以是方法、设备、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。

Claims (25)

1.一种用于对计算***进行追踪的方法,包括:
从为一个任务请求专用处理资源的请求中提取追踪数据,所述请求由客户端上执行的应用发起,所述追踪数据包括用以执行所述任务的参数、所述应用的标识符和从发起所述请求开始经过的时间;
将所述追踪数据存储在易失性存储器内,以便将所述追踪数据发送到数据库服务器;以及
使托管所述专用处理资源的计算服务器处理所述请求。
2.根据权利要求1所述的方法,其中在所述客户端处提取所述追踪数据,所述易失性存储器被包括在所述客户端内,并且使所述计算服务器处理所述请求包括:
向所述计算服务器发送所述请求。
3.根据权利要求2所述的方法,还包括:
从所述计算服务器接收利用所述专用处理资源处理所述任务的处理结果。
4.根据权利要求2所述的方法,其中所述客户端还包括非易失性存储器,并且所述方法还包括:
响应于所述易失性存储器不足以存储所述追踪数据,将所述追踪数据从所述易失性存储器移动到所述非易失性存储器。
5.根据权利要求1所述的方法,其中在所述计算服务器处提取所述追踪数据,所述易失性存储器被包括在所述计算服务器内,并且所述方法还包括:
在所述计算服务器处,从所述客户端接收所述请求。
6.根据权利要求5所述的方法,还包括:
利用所述计算服务器的专用处理资源处理所述任务,以获得执行所述任务的结果;以及
向所述客户端发送执行所述任务的结果。
7.根据权利要求5所述的方法,其中所述计算服务器还包括非易失性存储器,并且所述方法还包括:
响应于所述易失性存储器不足以存储所述追踪数据,将所述追踪数据从所述易失性存储器移动到所述非易失性存储器。
8.根据权利要求1所述的方法,其中所述请求指示所述应用的用户,并且所述方法还包括:
从所述请求提取所述用户的标识符,以作为所述追踪数据的一部分。
9.根据权利要求1所述的方法,其中所述易失性存储器是环形缓冲区。
10.根据权利要求1所述的方法,其中所述数据库服务器托管时序数据库,并且所述方法还包括:
从所述易失性存储器中获取所述追踪数据;
将所获取的追踪数据转换为时序数据点;以及
使所述时序数据点被发送到所述数据库服务器并被存储在所述时序数据库内。
11.根据权利要求1所述的方法,其中所述专用处理资源是图形处理单元(GPU)。
12.根据权利要求1所述的方法,其中所述请求是对所述专用处理资源的应用编程接口(API)的函数调用。
13.一种用于对计算***进行追踪的设备,包括:
至少一个处理器;
易失性存储器;以及
与所述至少一个处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被所述至少一个处理器执行时使得所述第一设备执行动作,所述动作包括:
从为一个任务请求专用处理资源的请求中提取追踪数据,所述请求由客户端上执行的应用发起,所述追踪数据包括用以执行所述任务的参数、所述应用的标识符和从发起所述请求开始经过的时间;
将所述追踪数据存储在所述易失性存储器内,以便将所述追踪数据发送到数据库服务器;以及
使托管所述专用处理资源的计算服务器处理所述请求。
14.根据权利要求13所述的设备,其中所述设备是客户端,并且使所述计算服务器处理所述请求包括:
向所述计算服务器发送所述请求。
15.根据权利要求14所述的设备,其中所述动作还包括:
从所述计算服务器接收利用所述专用处理资源处理所述任务的处理结果。
16.根据权利要求14所述的设备,其中所述客户端还包括非易失性存储器,并且所述动作还包括:
响应于所述易失性存储器不足以存储所述追踪数据,将所述追踪数据从所述易失性存储器移动到所述非易失性存储器。
17.根据权利要求13所述的设备,其中所述设备是所述计算服务器,并且所述动作还包括:
在所述计算服务器处,从所述客户端接收所述请求。
18.根据权利要求17所述的设备,其中所述动作还包括:
利用所述计算服务器的专用处理资源处理所述任务,以获得执行所述任务的结果;以及
向所述客户端发送执行所述任务的结果。
19.根据权利要求17所述的设备,其中所述计算服务器还包括非易失性存储器,并且所述方法还包括:
响应于所述易失性存储器不足以存储所述追踪数据,将所述追踪数据从所述易失性存储器移动到所述非易失性存储器。
20.根据权利要求13所述的设备,其中所述请求指示所述应用的用户,并且所述动作还包括:
从所述请求提取所述用户的标识符,以作为所述追踪数据的一部分。
21.根据权利要求13所述的设备,其中所述易失性存储器是环形缓冲区。
22.根据权利要求13所述的设备,其中所述数据库服务器托管时序数据库,并且所述动作还包括:
从所述易失性存储器中获取所述追踪数据;
将所获取的追踪数据转换为时序数据点;以及
使所述时序数据点被发送到所述数据库服务器并被存储在所述时序数据库内。
23.根据权利要求13所述的设备,其中所述专用处理资源是图形处理单元(GPU)。
24.根据权利要求13所述的设备,其中所述请求是对所述专用处理资源的应用编程接口(API)的函数调用。
25.一种计算机可读介质,所述计算机可读介质上存储有机器可执行指令,当所述机器可执行指令在被至少一个处理器执行时,使得所述至少一个处理器实现根据权利要求1-12中任一项所述的方法。
CN201810050770.5A 2018-01-18 2018-01-18 用于对计算***进行追踪的方法、设备和计算机可读介质 Active CN110058987B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810050770.5A CN110058987B (zh) 2018-01-18 2018-01-18 用于对计算***进行追踪的方法、设备和计算机可读介质
US16/240,244 US10824537B2 (en) 2018-01-18 2019-01-04 Method, device, and computer readable medium for tracing computing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810050770.5A CN110058987B (zh) 2018-01-18 2018-01-18 用于对计算***进行追踪的方法、设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN110058987A true CN110058987A (zh) 2019-07-26
CN110058987B CN110058987B (zh) 2023-06-27

Family

ID=67212464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810050770.5A Active CN110058987B (zh) 2018-01-18 2018-01-18 用于对计算***进行追踪的方法、设备和计算机可读介质

Country Status (2)

Country Link
US (1) US10824537B2 (zh)
CN (1) CN110058987B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704000A (zh) * 2019-10-10 2020-01-17 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN112540727A (zh) * 2020-12-04 2021-03-23 北京百度网讯科技有限公司 数据管理方法、装置、计算设备、存储介质和云平台
CN112749145A (zh) * 2019-10-29 2021-05-04 伊姆西Ip控股有限责任公司 存储和访问数据的方法、设备和计算机程序产品
CN112948070A (zh) * 2019-12-10 2021-06-11 百度(美国)有限责任公司 用于由数据处理加速器处理数据的方法及数据处理加速器
WO2021135471A1 (zh) * 2019-12-31 2021-07-08 腾讯科技(深圳)有限公司 数据传输方法、装置、网卡及存储介质
CN113419846A (zh) * 2021-02-22 2021-09-21 阿里巴巴集团控股有限公司 资源配置方法和装置、电子设备及计算机可读存储介质
US12047287B2 (en) 2019-12-31 2024-07-23 Tencent Technology (Shenzhen) Company Limited Data transmission method and apparatus, network adapter, and storage medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884537B (zh) * 2019-11-29 2024-06-18 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备和计算机可读介质
CN111309482B (zh) * 2020-02-20 2023-08-15 浙江亿邦通信科技有限公司 基于哈希算法的区块链任务分配***、装置及可存储介质
CN111597036A (zh) * 2020-04-15 2020-08-28 中国人民财产保险股份有限公司 一种服务器资源配置方法和装置
WO2022221573A1 (en) * 2021-04-15 2022-10-20 Nvidia Corporation Launching code concurrently

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1722086A (zh) * 2004-06-21 2006-01-18 微软公司 用于数据库跟踪的计划性检索和重放的api
US20150339210A1 (en) * 2014-05-21 2015-11-26 Dynatrace Llc Method And System For Resource Monitoring Of Large-Scale, Orchestrated, Multi Process Job Execution Environments
CN105359062A (zh) * 2013-04-16 2016-02-24 眼球控制技术有限公司 眼动追踪数据分析***及方法
CN105940654A (zh) * 2013-12-19 2016-09-14 谷歌公司 特权静态被托管的web应用
CN106062719A (zh) * 2014-02-26 2016-10-26 微软技术许可有限责任公司 根据使用数据的结构化日志模式的服务度量分析

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9164785B2 (en) * 2011-03-14 2015-10-20 Sap Se Predicting performance of a consolidated virtualized computing environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1722086A (zh) * 2004-06-21 2006-01-18 微软公司 用于数据库跟踪的计划性检索和重放的api
CN105359062A (zh) * 2013-04-16 2016-02-24 眼球控制技术有限公司 眼动追踪数据分析***及方法
CN105940654A (zh) * 2013-12-19 2016-09-14 谷歌公司 特权静态被托管的web应用
CN106062719A (zh) * 2014-02-26 2016-10-26 微软技术许可有限责任公司 根据使用数据的结构化日志模式的服务度量分析
US20150339210A1 (en) * 2014-05-21 2015-11-26 Dynatrace Llc Method And System For Resource Monitoring Of Large-Scale, Orchestrated, Multi Process Job Execution Environments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李进生等: "云计算环境下大型电气数据库存储性能分析与优化", 《电气应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704000A (zh) * 2019-10-10 2020-01-17 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN112749145A (zh) * 2019-10-29 2021-05-04 伊姆西Ip控股有限责任公司 存储和访问数据的方法、设备和计算机程序产品
CN112948070A (zh) * 2019-12-10 2021-06-11 百度(美国)有限责任公司 用于由数据处理加速器处理数据的方法及数据处理加速器
WO2021135471A1 (zh) * 2019-12-31 2021-07-08 腾讯科技(深圳)有限公司 数据传输方法、装置、网卡及存储介质
US12047287B2 (en) 2019-12-31 2024-07-23 Tencent Technology (Shenzhen) Company Limited Data transmission method and apparatus, network adapter, and storage medium
CN112540727A (zh) * 2020-12-04 2021-03-23 北京百度网讯科技有限公司 数据管理方法、装置、计算设备、存储介质和云平台
CN113419846A (zh) * 2021-02-22 2021-09-21 阿里巴巴集团控股有限公司 资源配置方法和装置、电子设备及计算机可读存储介质
CN113419846B (zh) * 2021-02-22 2023-06-06 阿里巴巴集团控股有限公司 资源配置方法和装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
US20190220384A1 (en) 2019-07-18
US10824537B2 (en) 2020-11-03
CN110058987B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN110058987A (zh) 用于对计算***进行追踪的方法、设备和计算机可读介质
US11836533B2 (en) Automated reconfiguration of real time data stream processing
US9747093B2 (en) Device driver aggregation in operating system deployment
US10447772B2 (en) Managed function execution for processing data streams in real time
US11061731B2 (en) Method, device and computer readable medium for scheduling dedicated processing resource
CN106790718A (zh) 服务调用链路分析方法及***
CN112583882A (zh) 用于管理边缘环境中的遥测数据的方法、***、制品和装置
Mehdipour et al. FOG-Engine: Towards big data analytics in the fog
CN108920659A (zh) 数据处理***及其数据处理方法、计算机可读存储介质
CN108471366A (zh) 一种面向云原生应用的立体监控***
US10255347B2 (en) Smart tuple dynamic grouping of tuples
US11722371B2 (en) Utilizing unstructured data in self-organized networks
CN110719215B (zh) 虚拟网络的流信息采集方法及装置
US9501377B2 (en) Generating and implementing data integration job execution design recommendations
CN109144969A (zh) 用于区块链网络***的数据处理方法、装置和存储介质
Silva et al. Investigating edge vs. cloud computing trade-offs for stream processing
CN108021462B (zh) 用于调用云服务的方法和装置
Manate et al. Optimizing cloud resources allocation for an Internet of Things architecture
US11210156B1 (en) Intelligent distributed tracing
CN109829094A (zh) 分布式爬虫***
CN109729110A (zh) 管理专用处理资源的方法、设备以及计算机可读介质
CN109324892A (zh) 分布式管理方法、分布式管理***及装置
Seydali et al. Streaming traffic classification: a hybrid deep learning and big data approach
CN107682432A (zh) 基于Spark的数据处理***和方法
US12014196B2 (en) Architecture generation for standard applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant