【PyTorch】多項分布のサポート範囲を理解しやすく解説！`support`属性の徹底ガイド

PyTorch の "Probability Distributions" ライブラリは、統計分布を扱うための便利なツールです。その中の torch.distributions.multinomial.Multinomial クラスは、多項分布を表すもので、support 属性は、この分布における可能な値の範囲を定義します。

support 属性とは

support 属性は、torch.Tensor オブジェクトとして表現され、多項分布における各カテゴリに対して、そのカテゴリに割り当てることができる最大カウントの集合を表します。

具体的な例

以下は、support 属性の具体的な例です。

import torch

probs = torch.tensor([0.25, 0.5, 0.25])
num_samples = 10

distribution = torch.distributions.Multinomial(num_samples, probs)
support = distribution.support

print(support)

このコードを実行すると、以下の出力が得られます。

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9])

これは、各カテゴリに 0 から 9 までのカウントを割り当てることができることを意味します。

support 属性の重要性

support 属性は、多項分布の性質を理解する上で重要です。例えば、以下のことが分かります。

サンプリングされた値の範囲
分布の制約事項
各カテゴリに割り当てることができる最大カウント

support 属性の利用方法

support 属性は、様々な場面で利用できます。例えば、以下のことが可能です。

統計的な計算を行う
分布の可視化を行う
サンプリングされた値の妥当性を検証する

torch.distributions.multinomial.Multinomial.support 属性は、多項分布における可能な値の範囲を定義する重要な属性です。この属性を理解することで、多項分布の性質をより深く理解し、様々な場面で活用することができます。

support 属性は、確率分布のパラメータによって変化します。
support 属性は、torch.distributions.Categorical クラスなど、他の多項分布クラスでも利用できます。

import torch

probs = torch.tensor([0.25, 0.5, 0.25])
num_samples = 10

distribution = torch.distributions.Multinomial(num_samples, probs)
support = distribution.support

# サンプリングされた値の妥当性を検証する
samples = distribution.sample()
print(samples)
print(torch.all(torch.any(samples <= support, dim=1)))

# 分布の可視化を行う
import matplotlib.pyplot as plt

plt.bar(range(len(support)), probs)
plt.xlabel("Category")
plt.ylabel("Probability")
plt.title("Multinomial Distribution")
plt.show()

# 統計的な計算を行う
mean = distribution.mean
print(mean)

多項分布の確率とサンプル数を作成します。
support 属性を使用して、可能な値の範囲を取得します。
サンプリングされた値を生成し、support 属性内の値であることを確認します。
多項分布の確率を棒グラフで可視化します。
多項分布の平均値を計算します。

このコードは、support 属性の様々な利用方法を示しています。

統計的な計算には、torch.distributions モジュールの様々な関数を利用できます。
サンプリングされた値の可視化には、matplotlib ライブラリを使用しています。
このコードは、あくまでも一例です。状況に応じて、コードを修正する必要があります。

手動計算

最も基本的な方法は、手動で計算することです。

import torch

probs = torch.tensor([0.25, 0.5, 0.25])
num_samples = 10

max_per_category = torch.tensor(num_samples * probs)
support = torch.arange(0, max_per_category.max() + 1)

print(support)

このコードは、各カテゴリに割り当てることができる最大カウントを計算し、それを support 属性として使用します。

利点

シンプルで理解しやすい

欠点

コードが冗長になる
計算量が多い

ループによる反復

別の方法は、ループを使用して可能な値をすべて生成することです。

import torch

probs = torch.tensor([0.25, 0.5, 0.25])
num_samples = 10

support = []
for i in range(num_samples + 1):
    for j in range(num_samples + 1 - i):
        for k in range(num_samples + 1 - i - j):
            support.append(torch.tensor([i, j, k]))

support = torch.stack(support)
print(support)

このコードは、3つのネストループを使用して、すべての可能なカテゴリのカウントの組み合わせを生成します。

利点

コードが簡潔になる

欠点

ネストループが分かりにくい
計算量が多い

torch.cartesian_prod 関数を使用する

PyTorch 1.8 以降では、torch.cartesian_prod 関数を使用して、可能な値のすべての組み合わせを効率的に生成することができます。

import torch

probs = torch.tensor([0.25, 0.5, 0.25])
num_samples = 10

limits = torch.stack([torch.zeros(1), torch.tensor(num_samples + 1)])
support = torch.cartesian_prod(*limits, expand=True)

print(support)

このコードは、torch.cartesian_prod 関数を使用して、各カテゴリのカウントの範囲を指定し、すべての組み合わせを生成します。

利点

コードが簡潔で分かりやすい
計算量が少ない
PyTorch 1.8 以降で使用可能

欠点

PyTorch 1.8 以前では使用できない

専用ライブラリを使用する

上記以外にも、scipy.stats や NumPy などのライブラリを使用して、多項分布のサポートを計算することができます。

利点

高度な機能を利用できる

PyTorch との統合が難しい場合がある