【保存版】PyTorchにおける量子化推論のパフォーマンス向上術！torch.QInt32Storageを駆使せよ

torch.QInt32Storage の主な機能は以下の通りです。

計算速度の向上
浮動小数点データよりも計算速度が速いため、推論処理を高速化することができます。
メモリの効率的な使用
浮動小数点データよりもメモリ効率が高いため、大規模なモデルの推論に適しています。
データの共有
複数のテンソル間でデータを共有することができます。
量子化された 32 ビット整数データの格納
整数データを量子化レベルで効率的に格納します。

torch.QInt32Storage の使用方法

torch.QInt32Storage を作成するには、以下のいずれかの方法を使用することができます。

テンソルから作成
tensor.storage() を使用して、テンソルのストレージを取得することができます。
直接作成
torch.QInt32Storage(size) を使用して、指定されたサイズのストレージを作成することができます。

torch.QInt32Storage を使用してテンソルを作成するには、以下のいずれかの方法を使用することができます。

ストレージとオフセットとサイズを指定して作成
torch.IntTensor(storage, offset, size) を使用して、ストレージの一部を使用してテンソルを作成することができます。
直接作成
torch.IntTensor(storage) を使用して、ストレージを使用してテンソルを作成することができます。

torch.QInt32Storage の属性とメソッド

torch.QInt32Storage には、以下の属性とメソッドがあります。

属性

data
ストレージのデータを指すバイト配列です。
element_size
ストレージの要素のサイズを表す整数です。
size
ストレージのサイズを表す整数タプルです。

メソッド

share_memory_()
ストレージを共有メモリに配置します。
is_contiguous()
ストレージの要素が連続しているかどうかを確認します。
resize_(size)
ストレージのサイズを変更します。
copy_(source)
指定されたストレージの内容をコピーします。
fill_(value)
ストレージのすべての要素を指定された値で埋めます。

torch.QInt32Storage の例

以下の例は、torch.QInt32Storage を使用してテンソルを作成し、その要素に値を割り当てる方法を示しています。

import torch

# ストレージを作成
storage = torch.QInt32Storage(5)

# テンソルを作成
tensor = torch.IntTensor(storage)

# テンソルの要素に値を割り当てる
tensor[0] = 1
tensor[1] = 2
tensor[2] = 3
tensor[3] = 4
tensor[4] = 5

# テンソルの値を出力
print(tensor)

この例では、5 つの要素を持つ torch.QInt32Storage が作成されます。次に、このストレージを使用して torch.IntTensor が作成されます。最後に、テンソルの要素に 1 から 5 までの値が割り当てられます。

import torch

# ストレージを作成
storage = torch.QInt32Storage(5)

# テンソルを作成
tensor = torch.IntTensor(storage)

# テンソルの要素に値を割り当てる
tensor[0] = 1
tensor[1] = 2
tensor[2] = 3
tensor[3] = 4
tensor[4] = 5

# 量子化レベルを設定
tensor.qscheme(torch.quantization.QScheme(torch.Scheme.PER_TENSOR_AFFINE, 128, 0))

# テンソルの値と量子化レベルを出力
print(tensor)
print(tensor.qscheme())

このコードは以下の処理を実行します。

5 つの要素を持つ torch.QInt32Storage が作成されます。
このストレージを使用して torch.IntTensor が作成されます。
テンソルの要素に 1 から 5 までの値が割り当てられます。
テンソルの量子化レベルが設定されます。この例では、量子化レベルは 128 で、オフセットは 0 です。
テンソルの値と量子化レベルが出力されます。

出力は以下のようになります。

tensor([1, 2, 3, 4, 5], dtype=torch.int32)
torch.quantization.QScheme(torch.Scheme.PER_TENSOR_AFFINE, 128, 0)

この例は、torch.QInt32Storage を使用して量子化された整数データを作成する方法を基本的な例です。実際の使用例では、モデルの要件に合わせてコードを調整する必要があります。

異なるサイズのストレージを作成

storage = torch.QInt32Storage(10)

ストレージをテンソルから作成

tensor = torch.randn(10, dtype=torch.int32)
storage = tensor.storage()

ストレージを使用してテンソルの一部を作成

storage = torch.QInt32Storage(10)
tensor = torch.IntTensor(storage, offset=5, size=3)

ストレージの要素を直接操作

storage = torch.QInt32Storage(5)
storage[0] = 10
storage[1] = 20
storage[2] = 30
storage[3] = 40
storage[4] = 50

tensor = torch.IntTensor(storage)
print(tensor)

代替方法の選択肢

torch.ByteStorage
バイトデータの格納に使用できます。メモリ効率が高く、小さなデータセットに適しています。
torch.CharStorage
文字データの格納に使用できます。テキストデータの処理などに適しています。
torch.ShortStorage
16 ビット整数データの格納に使用できます。torch.QInt32Storage よりもメモリ効率が低くなりますが、計算速度が速くなります。
torch.FloatStorage
浮動小数点データの格納に使用できます。torch.QInt32Storage よりもメモリ効率が低くなりますが、より広い範囲の値を表現できます。
torch.DoubleStorage
64 ビット浮動小数点データの格納に使用できます。torch.QInt32Storage よりもメモリ効率が低くなりますが、より高い精度が必要な場合に適しています。

代替方法を選択する際の考慮事項

精度
より広い範囲の値を表現したい場合は、torch.FloatStorage や torch.DoubleStorage などの精度が高いストレージを使用する必要があります。
計算速度
計算速度を向上させたい場合は、torch.ShortStorage などの計算速度の速いストレージを使用する必要があります。
メモリ効率
メモリ使用量を削減したい場合は、torch.ByteStorage や torch.CharStorage などのメモリ効率の高いストレージを使用する必要があります。
データ型
格納したいデータの型を考慮する必要があります。

例

以下の例は、torch.QInt32Storage の代わりに torch.ByteStorage を使用してテンソルを作成する方法を示しています。

import torch

# バイトストレージを作成
storage = torch.ByteStorage(5)

# テンソルを作成
tensor = torch.IntTensor(storage)

# テンソルの要素に値を割り当てる
tensor[0] = 1
tensor[1] = 2
tensor[2] = 3
tensor[3] = 4
tensor[4] = 5

# テンソルの値を出力
print(tensor)

この例は、torch.QInt32Storage の代わりに torch.ByteStorage を使用してテンソルを作成する方法を基本的な例です。実際の使用例では、モデルの要件に合わせてコードを調整する必要があります。

torch.QInt32Storage は、CPU と GPU の両方でサポートされています。
torch.QInt32Storage は、量子化された整数データを使用するモデルに適しています。量子化されていない整数データを使用する場合は、torch.IntStorage を使用することができます。