【図解あり】PyTorchにおけるニューラルネットワーク：可変長のシーケンスをパディングする`torch.nn.utils.rnn.pad_sequence`

動作

pad_sequence は、リスト形式で渡された可変長のテンソルシーケンスを、パディング値でパディングされたテンソルに変換します。具体的には、以下の操作を行います。

シーケンス内のすべてのテンソルを、最長シーケンスの長さまでパディングします。
パディングされたテンソルを、新しい次元**（バッチ次元または時間次元）**に沿ってスタックします。
パディング値でパディングされた要素を、指定された値**（デフォルトは0）**に置き換えます。

主な引数

padding_value: パディング値として使用する値。デフォルトは0です。
batch_first: 出力の形状を制御するブール値。Trueの場合、出力は B x T x * 形式になります。Falseの場合、出力は T x B x * 形式になります。デフォルトはFalseです。
sequences: パディング対象の可変長のテンソルシーケンスを含むリスト。

出力

pad_sequence は、以下の形状のテンソルを出力します。

batch_first=False: T x B x *
batch_first=True: B x T x *

ここで、

T: 最長シーケンスの長さ
B: バッチサイズ

以下に、pad_sequence の基本的な使用方法を示します。

import torch

# サンプルのシーケンスデータ
sequences = [torch.tensor([1, 2, 3]), torch.tensor([4, 5]), torch.tensor([6])]

# パディング処理
padded_sequences = torch.nn.utils.rnn.pad_sequence(sequences, batch_first=True)

print(padded_sequences.shape)  # 出力: torch.Size([3, 3, 1])

この例では、3つのシーケンス ([1, 2, 3], [4, 5], [6]) をパディングし、形状 [3, 3, 1] のテンソルに変換しています。

import torch
import torch.nn as nn
from torch.nn.utils.rnn import pad_sequence

# データの準備
# ... (省略)

# モデルの定義
class SentimentAnalyzer(nn.Module):

    def __init__(self, embedding_dim, hidden_dim, output_dim):
        super().__init__()

        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, sequences, lengths):
        # シーケンスを埋め込み
        embedded = self.embedding(sequences)

        # パディング処理
        padded_sequences = pad_sequence(embedded, batch_first=True)

        # LSTM層を通す
        output, _ = self.lstm(padded_sequences, lengths)

        # 出力層を通す
        logits = self.fc(output[:, -1, :])

        return logits

# モデルの訓練
# ... (省略)

このコードでは、以下の処理が行われています。

SentimentAnalyzer クラスという名前のモデルクラスを定義します。
このクラスは、3つのレイヤーで構成されています。
- embedding: 単語をベクトルに変換する埋め込みレイヤー
- lstm: 長期短期記憶 (LSTM) を用いた再帰型ニューラルネットワークレイヤー
- fc: 出力を分類するための線形層
forward メソッドは、モデルに入力されたシーケンスを処理し、感情分類の確率を計算します。
- 最初に、embedding レイヤーを使用して、各単語をベクトルに変換します。
- 次に、pad_sequence 関数を使用して、可変長のシーケンスをパディングします。
- パディングされたシーケンスは、lstm レイヤーに入力されます。
- lstm レイヤーの出力は、fc レイヤーに入力され、感情分類の確率が計算されます。

手動パディング

最も基本的な方法は、torch.nn.functional.pad 関数などを用いて手動でパディングを行うことです。この方法の利点は、柔軟性が高く、必要に応じてパディング方法を細かく制御できることです。一方、欠点としては、コードが煩雑になり、可読性が低下する可能性がある点が挙げられます。

import torch
import torch.nn.functional as F

# サンプルのシーケンスデータ
sequences = [torch.tensor([1, 2, 3]), torch.tensor([4, 5]), torch.tensor([6])]

# 手動パディング
padded_sequences = []
max_length = max([len(seq) for seq in sequences])

for seq in sequences:
    padding = torch.zeros(max_length - len(seq), dtype=seq.dtype)
    padded_seq = F.pad(seq, (0, max_length - len(seq)))
    padded_sequences.append(padded_seq)

padded_sequences = torch.stack(padded_sequences)
print(padded_sequences.shape)  # 出力: torch.Size([3, 3, 1])

PackedSequence を使用する

torch.nn.utils.rnn.pack_sequence と torch.nn.utils.rnn.pad_packed_sequence 関数を使用する方法もあります。この方法は、勾配計算を効率化できるという利点があります。ただし、PackedSequence オブジェクトを扱うには、少し慣れが必要となります。

import torch
import torch.nn.utils.rnn as rnn

# サンプルのシーケンスデータ
sequences = [torch.tensor([1, 2, 3]), torch.tensor([4, 5]), torch.tensor([6])]
lengths = torch.tensor([3, 2, 1])

# PackedSequenceに変換
packed_sequences = rnn.pack_sequence(sequences, lengths=lengths)

# ... (処理)

# パディングして元のテンソルに戻す
padded_sequences, _ = rnn.pad_packed_sequence(packed_sequences)
print(padded_sequences.shape)  # 出力: torch.Size([3, 3, 1])

サードパーティライブラリを使用する

mmcv や onnxruntime などのサードパーティライブラリの中には、torch.nn.utils.rnn.pad_sequence の代替となる機能を提供しているものがあります。これらのライブラリは、より高度な機能や最適化を提供している場合があります。

カスタム関数を作成する

独自のニーズに特化したカスタム関数を作成することもできます。この方法は、柔軟性と制御性を最大限に高めることができますが、時間と労力が必要となります。

選択の指針

どの代替方法を選択するかは、以下の要素を考慮する必要があります。

柔軟性: カスタム要件がある場合は、カスタム関数を作成する必要があります。
使いやすさ: コードの可読性とメンテナンス性を重視する場合は、torch.nn.utils.rnn.pad_sequence を使用する方が簡単かもしれません。
パフォーマンス: 勾配計算の効率が重要であれば、PackedSequence を使用する必要があります。
必要性: 単純なパディングのみが必要であれば、手動パディングで十分です。より複雑な処理が必要であれば、他の方法を検討する必要があります。

torch.nn.utils.rnn.pad_sequence は汎用的なツールですが、状況によっては代替手段の方が適切な場合があります。上記で紹介した代替方法を理解し、それぞれの利点と欠点を比較検討することで、最適な方法を選択することができます。