Pythonデータ分析の必須ツール：NumPyの`rec_append_fields()` 関数で構造化配列を自在に操る

この関数は、以下の引数を取ります。

dtypes
新しいフィールドのデータ型のリスト。省略可能。指定されていない場合は、arrays のデータ型が使用されます。
arrays
新しいフィールドのデータのリスト。各配列の長さは arr の長さと同じである必要があります。
names
新しいフィールドの名前のリスト
arr
新しいフィールドを追加する構造化配列

この関数は、新しいフィールドを arr の末尾に追加した新しい構造化配列を返します。既存のフィールドは変更されません。

例

import numpy as np
import numpy.lib.recfunctions as recfn

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75), ('Bob', 30, 1.80), ('Charlie', 22, 1.70)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 新しいフィールドを追加
new_field_names = ['weight', 'score']
new_field_data = [np.array([70, 80, 65]), np.array([85, 92, 78])]
new_dtype = [('weight', 'i4'), ('score', 'i4')]

updated_data = recfn.rec_append_fields(data, new_field_names, new_field_data, new_dtype)

print(updated_data)

この例では、data 構造化配列に weight と score という2つの新しいフィールドを追加します。新しいフィールドのデータは、new_field_data リストに格納されます。新しいフィールドのデータ型は、new_dtype リストに指定されます。

出力は以下のようになります。

[['Alice' 25 1.75  70  85]
 ['Bob'  30 1.8   80  92]
 ['Charlie' 22 1.7   65  78]]

numpy.lib.recfunctions.rec_append_fields() 関数は、NumPy 2.2 以降でのみ使用できます。以前のバージョンの NumPy では、numpy.core.rec.rec_append_fields() 関数を使用する必要があります。
新しいフィールドのデータ型は、arr の既存のフィールドのデータ型と互換性がある必要があります。
新しいフィールドのデータのリストの長さは、arr の長さと同じである必要があります。

numpy.lib.recfunctions.rec_append_fields() 関数は、構造化配列に新しいフィールドを追加するための便利なツールです。この関数は、既存の配列に新しいデータ列を追加したい場合に役立ちます。

例 1：構造化配列に新しいフィールドを追加する

import numpy as np
import numpy.lib.recfunctions as recfn

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75), ('Bob', 30, 1.80), ('Charlie', 22, 1.70)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 新しいフィールドを追加
new_field_names = ['weight', 'score']
new_field_data = [np.array([70, 80, 65]), np.array([85, 92, 78])]
new_dtype = [('weight', 'i4'), ('score', 'i4')]

updated_data = recfn.rec_append_fields(data, new_field_names, new_field_data, new_dtype)

print(updated_data)

このコードを実行すると、以下の出力が表示されます。

[['Alice' 25 1.75  70  85]
 ['Bob'  30 1.8   80  92]
 ['Charlie' 22 1.7   65  78]]

例 2：既存のフィールドのデータを更新する

この例では、data 構造化配列の age フィールドのデータを更新します。新しいデータは、new_age 配列に格納されます。

import numpy as np
import numpy.lib.recfunctions as recfn

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75), ('Bob', 30, 1.80), ('Charlie', 22, 1.70)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 既存のフィールドのデータを更新
new_age = np.array([27, 31, 23])

updated_data = recfn.rec_update_fields(data, ['age'], [new_age])

print(updated_data)

[['Alice' 27 1.75]
 ['Bob'  31 1.8 ]
 ['Charlie' 23 1.7 ]]

この例では、data 構造化配列の age と height フィールドのデータを更新します。新しいデータは、それぞれ new_age と new_height 配列に格納されます。

import numpy as np
import numpy.lib.recfunctions as recfn

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75), ('Bob', 30, 1.80), ('Charlie', 22, 1.70)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 複数のフィールドのデータを更新
new_age = np.array([27, 31, 23])
new_height = np.array([1.78, 1.82, 1.72])

updated_data = recfn.rec_update_fields(data, ['age', 'height'], [new_age, new_height])

print(updated_data)

[['Alice' 27 1.78]
 ['Bob'  31 1.82]
 ['Charlie' 23 1.72]]

以下に、numpy.lib.recfunctions.rec_append_fields() の代替方法をいくつか紹介します。

np.hstack() を使用する

np.hstack() 関数は、複数の配列を水平方向に結合するために使用できます。この関数は、構造化配列に新しいフィールドを追加する場合にも使用できます。

import numpy as np

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 新しいフィールドを追加
new_field_names = ['weight', 'score']
new_field_data = np.array([70, 85])

updated_data = np.hstack((data, new_field_data.reshape(1, -1)))

print(updated_data)

[['Alice' 25 1.75  70  85]]

np.dstack() を使用する

import numpy as np

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 新しいフィールドを追加
new_field_names = ['weight', 'score']
new_field_data = np.array([70, 85])

updated_data = np.dstack((data, new_field_data.reshape(-1, 1)))

print(updated_data)

[['Alice' 25 1.75]
 [ 70  85]]

pandas を使用する

pandas ライブラリは、構造化データの操作に特化した強力なツールです。pandas を使用して、構造化配列に新しいフィールドを追加することもできます。

import pandas as pd

# 構造化配列を作成
data = pd.DataFrame({'name': ['Alice'], 'age': [25], 'height': [1.75]})

# 新しいフィールドを追加
data['weight'] = [70]
data['score'] = [85]

print(data)

   name  age  height  weight  score
0  Alice   25   1.75      70      85

手動で新しいフィールドを作成する

構造化配列に新しいフィールドを追加する最も基本的な方法は、手動で行うことです。ただし、この方法はデータ量が多い場合に時間がかかり、エラーが発生しやすいという欠点があります。

import numpy as np

# 構造化配列を作成
data = np.array([('Alice', 25, 1.75)],
                  dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 新しいフィールドを作成
new_weight = np.array([70])
new_score = np.array([85])

updated_data = np.empty(len(data), dtype=data.dtype.tolist() + [('weight', 'i4'), ('score', 'i4')])
updated_data[['name', 'age', 'height']] = data
updated_data['weight'] = new_weight
updated_data['score'] = new_score

print(updated_data)

[['Alice' 25 1.75  70  85]]