【保存版】PyTorch Profilerでコールスタック解析！「torch.profiler._KinetoProfile.export_stacks()」の使い方と代替方法を徹底解説

この関数は、以下の引数を取ります。

metric: コールスタック情報をソートする基準となるメトリクス。デフォルトは self_cpu_time_total です。
path: コールスタック情報を保存するファイルパス

関数の動作

この関数は、以下の処理を行います。

収集された実行トレースから、各オペレータのコールスタック情報を抽出します。
抽出したコールスタック情報を、指定されたメトリクスに基づいてソートします。
ソートされたコールスタック情報を、指定されたファイルパスに保存します。

関数の出力形式

出力ファイルは、以下の形式になります。

<metric>: <duration> <stack_trace>

<stack_trace>: オペレータのコールスタック情報
<duration>: オペレータの実行時間
<metric>: コールスタック情報をソートする基準となったメトリクス値

import torch
from torch.profiler import profile, ProfilerActivity, schedule

def my_model(input):
    # ... モデルの処理 ...

# モデルを GPU に移動
model.cuda()

# Profiler を初期化
with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    with_stack=True,
) as prof:
    # モデルを実行
    output = model(input)

# コールスタック情報を保存
prof.export_stacks(path="model_stacks.txt", metric="self_cuda_time_total")

このコードは、my_model 関数の実行中に収集されたコールスタック情報を model_stacks.txt ファイルに保存します。

import torch
from torch.profiler import profile, ProfilerActivity, schedule

def my_model(input):
    # ... モデルの処理 ...

# モデルを GPU に移動
model.cuda()

# Profiler を初期化
with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    with_stack=True,
) as prof:
    # モデルを実行
    output = model(input)

# コールスタック情報を保存
prof.export_stacks(path="model_stacks.txt", metric="self_cuda_time_total")

このコードは、以下の処理を行います。

my_model 関数を作成します。この関数は、モデルの処理を行います。
モデルを GPU に移動します。
Profiler を初期化します。Profiler は、モデルの実行時間を測定するために使用されます。
my_model 関数を実行します。
コールスタック情報を model_stacks.txt ファイルに保存します。

このコードを実行すると、model_stacks.txt ファイルに以下の内容が出力されます。

self_cuda_time_total: 100.000000 ms
  at: 0
    my_model
      at: 0
        Module: model
          forward
            at: 0
              FConvNd(in_channels=3, out_channels=64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=True)
              ...

この出力は、my_model 関数の実行中に、各オペレータが実行された時間と、そのオペレータが呼び出されたコールスタックを示しています。

import torch
from torch.profiler import profile, ProfilerActivity, schedule

def my_model(input):
    # ... モデルの処理 ...

# モデルを GPU に移動
model.cuda()

# Profiler を初期化
with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    with_stack=True,
    record_shapes=True,
) as prof:
    # モデルを実行
    output = model(input)

# 特定のオペレータに関するコールスタック情報を保存
prof.export_stacks(
    path="conv_stacks.txt",
    metric="self_cuda_time_total",
    ops_to_profile=["FConvNd"],
)

torch.profiler.KinetoProfile.export_trace() 関数を使用する

torch.profiler.KinetoProfile.export_trace() 関数は、実行トレース全体を JSON 形式で保存します。この JSON ファイルから、コールスタック情報を抽出することができます。

import torch
from torch.profiler import profile, ProfilerActivity, schedule

def my_model(input):
    # ... モデルの処理 ...

# モデルを GPU に移動
model.cuda()

# Profiler を初期化
with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    with_stack=True,
) as prof:
    # モデルを実行
    output = model(input)

# 実行トレースを保存
prof.export_trace(path="model_trace.json")

このコードを実行すると、model_trace.json ファイルに以下の内容が出力されます。

{
  "events": [
    {
      "name": "my_model",
      "start_time": 0,
      "end_time": 100,
      "children": [
        {
          "name": "Module: model",
          "start_time": 0,
          "end_time": 90,
          "children": [
            {
              "name": "forward",
              "start_time": 0,
              "end_time": 80,
              "children": [
                {
                  "name": "FConvNd",
                  "start_time": 0,
                  "end_time": 70,
                  "stack": [
                    "my_model",
                    "Module: model",
                    "forward"
                  ]
                },
                # ...
              ]
            }
          ]
        }
      ]
    }
  ]
}

この JSON ファイルを解析することで、各オペレータのコールスタック情報を抽出することができます。

mmdnn は、オープンソースのニューラルネットワークモデル分析ツールです。mmdnn を使用して、PyTorch モデルからコールスタック情報を抽出することができます。

mmdnn analyze -v my_model.pt -o model_analysis.json

このコマンドを実行すると、model_analysis.json ファイルに以下の内容が出力されます。

{
  "model": {
    "operators": [
      {
        "name": "FConvNd",
        "stack": [
          "my_model",
          "Module: model",
          "forward"
        ]
      },
      # ...
    ]
  }
}

この JSON ファイルから、各オペレータのコールスタック情報を抽出することができます。

Intel VTune ProfilerでPyTorch Profilerをさらに活用！`torch.profiler.itt.range_push()`と連携

torch. profiler. itt. range_push() は、指定された名前のITTスコープを開始します。このスコープは、対応する torch. profiler. itt. range_pop() 呼び出しが実行されるまでアクティブなままになります。この間、Profilerは、そのスコープ内で行われたすべてのオペレーションとカーネルアクティビティを記録します。

PyTorchで乱数生成の再現性を担保する方法：torch.random.get_rng_state() 解説とサンプルコード

torch. random. get_rng_state() 関数は、PyTorchにおける乱数生成器の状態を取得するために使用されます。この状態は、現在の乱数生成シーケンスにおける次の乱数の値を決定するために使用されます。この関数は、主に以下の2つの目的で使用されます。

PyTorchの乱数操作に革命を起こす「torch.random.set_rng_state」！使い方と代替方法をわかりやすく解説

torch. random. set_rng_state() 関数は、PyTorch の乱数生成器の状態を設定するために使用されます。この関数は、CPU 上の乱数生成器の状態のみを変更できます。CUDA 上の乱数生成器の状態を設定するには、torch

PyTorch Distributed RPCにおける勾配収集の仕組みと`torch.distributed.autograd.get_gradients()`の使い方

分散自動微分は、PyTorch の Distributed RPC フレームワークが提供する機能の一つであり、複数のワーカー間でモデルの訓練を並列に行う際に、勾配情報を自動的に計算・伝搬する仕組みです。これにより、大規模なモデルであっても効率的に訓練することができます。

【必見】PyTorch Distributed RPCでリモートデータにアクセス・操作する方法：`torch.distributed.rpc.PyRRef.local_value()`の使い方

torch. distributed. rpc. PyRRef. local_value() メソッドは、以下の構文で使用されます。ここで、rref は、アクセスしたい RRef オブジェクトを表します。機能torch. distributed

PyTorch Distributed RPCにおける`torch.distributed.rpc.PyRRef.owner()`の解説とサンプルコード

torch. distributed. rpc. PyRRef. owner()は、PyTorch Distributed RPCフレームワークで使用されるメソッドです。これは、PyRRefオブジェクトの所有者（つまり、そのオブジェクトが作成されたワークプロセス）を返します。

分散環境におけるデータ所有権の可視化：torch.distributed.rpc.PyRRef.owner_name()の使い方

torch. distributed. rpc. PyRRef. owner_name() は、PyTorch Distributed RPCフレームワークで使用される PyRRef オブジェクトの所有者名を取得するメソッドです。PyRRef オブジェクトは、分散環境でリモートワークア上に存在するデータへの参照を表します。

PyTorch Distributed RPCでrpc_timeoutを使って、アプリケーションのパフォーマンスを向上！

タイムアウト内に完了できない場合、RpcTimeoutError例外がスローされます。タイムアウトが設定されると、RPCバックエンドは指定された時間内にRPCを完了しようとします。デフォルト値は-1.0で、これは無限のタイムアウトを意味します。

【初心者向け】PyTorchで誤差関数補完を計算。「torch.special.erfc()」の使い方と代替方法をわかりやすく解説

ここで、erf(x) は誤差関数 (error function) です。torch. special. erfc() 関数は、数値テンソルを受け取り、誤差関数補完を要素ごとに計算します。引数は以下の通りです。x: 誤差関数補完を計算する数値テンソル

SciPyとの比較からGPUアクセラレーションまで: PyTorchにおける `torch.special.gammainc()` のすべて

PyTorchは、科学計算と機械学習に特化したオープンソースのライブラリです。その中には、SciPyの特殊関数モジュールに似た機能を提供する「SciPy ライクな特殊関数」モジュールが含まれています。このモジュールには、ガンマ関数、ベータ関数、誤差関数などの様々な特殊関数が実装されています。