BLAS.her!()だけじゃない!Juliaで行列のランクK更新を行う代替手法

2025-05-27

Julia言語のLinearAlgebra.BLAS.her!()は、BLAS (Basic Linear Algebra Subprograms) の関数の一つであり、特にエルミート行列のランクk更新を行うためのものです。

以下に詳しく説明します。

BLASとは?

まず、BLAS (Basic Linear Algebra Subprograms) について簡単に説明します。BLASは、線形代数の基本的な操作(ベクトル間の積、行列とベクトルの積、行列同士の積など)を高速に実行するための標準化されたルーチンの集合です。多くの高性能計算ライブラリ(OpenBLAS、Intel MKLなど)がこのBLAS標準に準拠した実装を提供しており、JuliaはデフォルトでOpenBLASを使用しています。

BLASは以下の3つのレベルに分類されます。

  • Level 3 BLAS: 行列-行列演算 (例: 行列同士の積)
  • Level 2 BLAS: 行列-ベクトル演算 (例: 行列とベクトルの積)
  • Level 1 BLAS: ベクトル-ベクトル演算 (例: 内積、ベクトル和)

her!は通常、Level 3 BLASに分類される操作です。

her!()の機能

LinearAlgebra.BLAS.her!()は、以下の形式のエルミート行列のランクk更新を実行します。

C←αAA∗+βC

または

C←αA∗A+βC

ここで、

  • $A^*$A の共役転置です。
  • $\alpha$$\beta$ はスカラ(複素数)です。
  • A は任意の行列です。
  • C はエルミート行列です。エルミート行列とは、C=C∗ (ただし C∗ は C の共役転置) を満たす複素行列のことです。実数の場合は対称行列に相当します。

この操作は、既存のエルミート行列 C を、行列 A を使って更新するものです。! が関数名の末尾についていることからわかるように、この関数はインプレースで操作を行い、C の内容を直接変更します。これにより、新しい行列を割り当てるオーバーヘッドが削減され、効率的な計算が可能になります。

引数について

her!() 関数は、いくつかの引数を取ります。典型的な呼び出し形式は以下のようになります。

BLAS.herk!(uplo, trans, alpha, A, beta, C)

  • C: 更新されるエルミート行列。
  • beta: スカラ値。更新における C の係数です。
  • A: 行列。
  • alpha: スカラ値(Float64, Float32, Complex128, Complex64 など)。更新における A A* または A* A の係数です。
  • trans: Char 型で、'N' または 'C' を指定します。
    • 'N'A をそのまま使用することを示し、演算は $\alpha A A^* + \beta C$ となります。
    • 'C'A の共役転置 A* を使用することを示し、演算は $\alpha A^* A + \beta C$ となります。
  • uplo: Char 型で、'U' または 'L' を指定します。
    • 'U'C の上三角部分のみを使用し、更新することを示します。結果として下三角部分は上三角部分から自動的に決定されます。
    • 'L'C の下三角部分のみを使用し、更新することを示します。結果として上三角部分は下三角部分から自動的に決定されます。
  • 汎用性: エルミート行列のランクk更新は、数値線形代数の様々なアルゴリズム(例: コレスキー分解を伴う線形システムソルバー、固有値問題など)のビルディングブロックとして使用されます。
  • 安定性: BLASは長年にわたって開発・テストされてきたため、数値的に安定しており、信頼性の高い結果を提供します。
  • 性能: BLASルーチンは、CPUのキャッシュ階層、SIMD命令、マルチスレッド処理などを考慮して高度に最適化されています。そのため、Juliaで線形代数演算を行う際、これらのBLAS関数を直接利用することで、非常に高い計算性能を得ることができます。


引数の型と次元の不一致 (Dimension and Type Mismatches)

これは最もよくあるエラーの一つです。BLAS関数は非常に厳密な引数の型と行列の次元を要求します。

  • トラブルシューティング
    • 関数を呼び出す前に、size(A)size(C) を確認し、BLASのドキュメント(または上記の説明)に示されている次元の要件を満たしているか確認します。
    • eltype(A)eltype(C) を確認し、浮動小数点型または複素浮動小数点型であることを保証します。必要に応じて convert() を使用して型変換します。
    • alphabeta がスカラであることを再確認します。
  • 考えられる原因
    • AC の次元が、定義されているランクk更新の操作 (C←αAA∗+βC または C←αA∗A+βC) に従って整合していない。
    • A または C の要素型が、BLASが期待する型(通常は Float32, Float64, ComplexF32, ComplexF64)と異なる。例えば、Int 型の行列を渡そうとするとエラーになることがあります。
    • alphabeta がスカラではなく、誤って配列として渡されている。
  • エラーの例
    DimensionMismatch, ArgumentError

エルミート行列の要件 (Hermitian Matrix Requirements)

her! はエルミート行列 C を更新するためのものであり、C はエルミートであると仮定されます。

  • トラブルシューティング
    • C を初期化する際に、物理的にエルミート行列であることを確認します。
    • 可能であれば、C = Hermitian(rand(ComplexF64, n, n)) のように、Hermitian 型のオブジェクトとして C を生成し、操作に渡すことを検討します。これにより、BLASがその構造を最大限に活用できるようになります。
  • 考えられる原因
    • C が実際にエルミート行列(または対称行列)でない場合。BLASは uplo 引数に基づいて C の上三角部分または下三角部分のみを読み書きするため、整合性のないデータが生成される可能性があります。
    • CHermitian ラッパー型を使用していない場合。JuliaのLinearAlgebraモジュールでは、Hermitian(C) のようにラッパーを使うことで、行列がエルミートであることを明示的に伝えることができます。これにより、一部の操作でパフォーマンスが向上したり、エラーが回避されたりすることがあります。

エイリアシングの問題 (Aliasing Issues)

BLASルーチンは、入力行列と出力行列がメモリ上でオーバーラップしないことを前提としていることが多いです(エイリアシングがない)。

  • トラブルシューティング
    • BLAS関数は、入力と出力が異なるメモリ領域にあることを期待することが一般的です。もし結果が予期せぬものであれば、一時的なコピーを作成してエイリアシングを避けることを検討してください。
    • C = similar(A*A') のように、更新先の行列 C を明示的に新しいメモリに割り当ててから操作を行うことを推奨します。
    • Juliaのドキュメントで、特定のBLAS関数のエイリアシングに関する注意書きがないか確認することも重要です。
  • 考えられる原因
    • AC が同じメモリを参照している場合(例: AC の一部である、または A = C と直接代入している場合)。
    • her! のインプレース更新の特性を考慮せずに、入力の一部が出力として上書きされるような状況。
  • エラーの例
    明示的なエラーは出ずに、誤った結果が得られることがあります。

マルチスレッド環境での競合 (Multithreading Conflicts)

BLASライブラリ自体が内部でマルチスレッド処理を行うことがあり、Juliaの並列処理(Threads.@threadsなど)と組み合わせると、スレッドの過剰サブスクリプション(cores oversubscription)が発生し、性能が低下したり、セグメンテーションフォールト(segfault)などのクラッシュを引き起こしたりすることがあります。

  • トラブルシューティング
    • BLASスレッド数の制御
      • JuliaのREPLから BLAS.set_num_threads(1) を実行して、BLASのスレッド数を1に制限します。これにより、Julia側のスレッドがBLAS関数を呼び出す際に、BLASが勝手にマルチスレッド化するのを防ぎ、Juliaの並列処理に委ねることができます。
      • 環境変数で制御することもできます(例: export OPENBLAS_NUM_THREADS=1)。
    • システムの監視
      htoptop などのツールでCPU使用率を監視し、スレッドの過剰サブスクリプションが発生していないか確認します。
    • スレッドの固定 (Thread Pinning)
      ThreadPinning.jl のようなパッケージを使用して、Juliaスレッドを特定のCPUコアに固定することで、BLASとJuliaスレッドの間の競合を緩和できる場合があります。
    • BLAS実装の変更
      OpenBLASからIntel MKL (MKL.jlパッケージ) など、別のBLAS実装に切り替えることで問題が解決する場合もあります。それぞれのBLAS実装には異なるマルチスレッド挙動や最適化があります。
  • 考えられる原因
    • Juliaが起動時に設定したスレッド数(JULIA_NUM_THREADS)と、BLASライブラリが内部で設定しているスレッド数(OpenBLASのOPENBLAS_NUM_THREADS、MKLのMKL_NUM_THREADSなど)が競合している。
    • Threads.@threadsループ内でher!のようなBLAS関数を呼び出す際に、各スレッドがBLASの全スレッドを使用しようとする。
  • エラーの例
    セグメンテーションフォールト (Segmentation fault)、予期せぬ低速化。

エラーではないが、期待されるパフォーマンスが得られない場合もあります。

  • トラブルシューティング
    • 行列のサイズ
      非常に小さな行列(例: 10x10未満)の場合、Juliaの汎用実装の方がBLAS呼び出しのオーバーヘッドなしに高速な場合があります。
    • @benchmark で測定
      BenchmarkTools.jl パッケージを使用して、コードのパフォーマンスを正確に測定します。これにより、ボトルネックがどこにあるかを特定できます。
    • BLASライブラリの確認
      LinearAlgebra.BLAS.get_config() を実行して、現在JuliaがどのBLASライブラリを使用しているか確認します。必要に応じて、より最適化されたライブラリ(例: Intel MKL)を導入することを検討します。
    • メモリレイアウト
      列優先 (column-major) のデータレイアウトがBLASのパフォーマンスにとって最適であることに注意してください。Juliaはデフォルトで列優先です。
  • 考えられる原因
    • 行列のサイズが小さすぎてBLASのオーバーヘッドがメリットを上回っている。
    • 上述のマルチスレッドの競合によるオーバーヘッド。
    • キャッシュミスが多いメモリアクセスパターン。
    • Juliaが使用しているBLASライブラリが最適化されていない、または特定のCPUアーキテクチャに最適化されていない。


基本的な使用例 (実数行列の場合)

実数行列の場合、エルミート行列は対称行列になります。この例では、C←αAAT+βC を計算します。

using LinearAlgebra

println("--- 基本的な使用例 (実数行列の場合) ---")

# 1. 入力行列の定義
# 行列 A: 3x2 の実数行列
A = [1.0 2.0;
     3.0 4.0;
     5.0 6.0]

# 行列 C: 3x3 の対称行列として初期化 (またはゼロ行列)
# her! は C をインプレースで変更するので、事前に適切なサイズの行列を用意します。
C = zeros(Float64, 3, 3) # 初期値はゼロ行列

# スカラ値
alpha = 1.0
beta = 0.0 # beta=0.0 の場合、Cは単に alpha * A * A' となります

println("元の行列 A:")
display(A)
println("\n元の行列 C:")
display(C)

# 2. her! の呼び出し
# uplo: 'U' (上三角) または 'L' (下三角)
#       'U' を指定すると、Cの上三角部分のみが計算され、下三角部分は自動的に設定される
# trans: 'N' (Aをそのまま) または 'C' (Aの共役転置 A' を使用)
#        実数の場合は 'T' (転置) でも同じ
#        ここでは A A' を計算したいので 'N' を指定
BLAS.her!('U', 'N', alpha, A, beta, C)

println("\nher! 適用後の行列 C (C <- alpha * A * A' + beta * C):")
display(C)

# 検証: 手計算で A * A' を計算
A_times_AT = A * A'
println("\nA * A' の結果 (検証用):")
display(A_times_AT)

# C が A * A' と一致することを確認
println("\nC と A*A' は一致するか?: ", C ≈ A_times_AT)

# beta を使用した例
C_initial = [1.0 0.0 0.0;
             0.0 2.0 0.0;
             0.0 0.0 3.0] # Cの初期値
beta_val = 0.5
C_after_beta = copy(C_initial) # インプレース変更のためコピーを作成

println("\n--- beta を使用した例 ---")
println("元の行列 A:")
display(A)
println("\n元の行列 C_initial:")
display(C_initial)

BLAS.her!('U', 'N', alpha, A, beta_val, C_after_beta)
println("\nher! 適用後の行列 C_after_beta (C <- alpha * A * A' + beta * C):")
display(C_after_beta)

# 検証: alpha * A * A' + beta * C_initial を計算
expected_C = alpha * A_times_AT + beta_val * C_initial
println("\nalpha * A * A' + beta * C_initial の結果 (検証用):")
display(expected_C)
println("\nC_after_beta と expected_C は一致するか?: ", C_after_beta ≈ expected_C)

解説

  1. A は m×k 行列(この例では 3×2)。
  2. C は m×m エルミート行列(この例では 3×3)。
  3. BLAS.her!('U', 'N', alpha, A, beta, C)$C \leftarrow \alpha A A^T + \beta C$ を計算します。
    • 'U'C の上三角部分を計算・更新することを示します。結果として下三角部分は上三角部分から自動的に決定されます。
    • 'N'A をそのまま使用することを示します。もし $A^T A$ を計算したい場合は、trans'T' にし、C のサイズが k×k である必要があります。

複素数行列の場合

複素数行列の場合、her! はエルミート転置 $A^*$ (共役転置) を使用します。

using LinearAlgebra

println("\n--- 複素数行列の場合 ---")

# 1. 入力行列の定義
# 行列 A: 3x2 の複素数行列
A_complex = [1.0+1.0im 2.0-1.0im;
             3.0+2.0im 4.0-2.0im;
             5.0+3.0im 6.0-3.0im]

# 行列 C: 3x3 のエルミート行列として初期化 (またはゼロ行列)
# ComplexF64 型を指定
C_complex = zeros(ComplexF64, 3, 3)

# スカラ値
alpha_complex = 1.0 + 0.0im
beta_complex = 0.0 + 0.0im

println("元の行列 A_complex:")
display(A_complex)
println("\n元の行列 C_complex:")
display(C_complex)

# 2. her! の呼び出し
# trans: 'N' (Aをそのまま) または 'C' (Aの共役転置 A' を使用)
#        ここでは A A* を計算したいので 'N' を指定
BLAS.her!('U', 'N', alpha_complex, A_complex, beta_complex, C_complex)

println("\nher! 適用後の行列 C_complex (C <- alpha * A * A* + beta * C):")
display(C_complex)

# 検証: 手計算で A * A' (共役転置) を計算
A_times_AH = A_complex * A_complex' # Juliaでは ' が共役転置
println("\nA_complex * A_complex' の結果 (検証用):")
display(A_times_AH)

# C_complex が A_complex * A_complex' と一致することを確認
println("\nC_complex と A_complex*A_complex' は一致するか?: ", C_complex ≈ A_times_AH)

# Cがエルミート行列であることの確認
println("\nC_complex はエルミート行列か?: ", C_complex ≈ C_complex')

解説

  • 結果の C_complex はエルミート行列(C=C∗)になります。表示を見ると、対角要素は実数で、非対角要素は互いに共役の関係にあることがわかります。
  • 複素数の場合も使い方は同じですが、trans 引数の 'C' は共役転置を意味し、これは Julia の A' と同じです。

uplo ('U' または 'L') と trans ('N' または 'C') の組み合わせによる動作の違いを簡単に示します。

using LinearAlgebra

println("\n--- uplo と trans のバリエーション ---")

A_small = [1.0 2.0; 3.0 4.0]
C_small = zeros(Float64, 2, 2)
alpha_s = 1.0
beta_s = 0.0

println("A_small:")
display(A_small)

# uplo = 'U', trans = 'N' (C <- A A')
C_U_N = zeros(Float64, 2, 2)
BLAS.her!('U', 'N', alpha_s, A_small, beta_s, C_U_N)
println("\nher!('U', 'N', ...): C <- A A'")
display(C_U_N) # 上三角部分が計算される

# uplo = 'L', trans = 'N' (C <- A A')
C_L_N = zeros(Float64, 2, 2)
BLAS.her!('L', 'N', alpha_s, A_small, beta_s, C_L_N)
println("\nher!('L', 'N', ...): C <- A A'")
display(C_L_N) # 下三角部分が計算される

# trans = 'C' (または 'T' for real) の場合 (C <- A' A)
# この場合、C のサイズは A の列数 x A の列数 になります。
A_col = [1.0; 2.0; 3.0] # 3x1 行列
C_col = zeros(Float64, 1, 1) # 1x1 行列
println("\nA_col:")
display(A_col)

# uplo = 'U', trans = 'T' (C <- A' A)
BLAS.her!('U', 'T', alpha_s, A_col, beta_s, C_col) # 実数の場合は 'T' を使用
println("\nher!('U', 'T', ...): C <- A' A (A_col is 3x1)")
display(C_col)

# 検証: A_col' * A_col を計算
A_col_T_times_A_col = A_col' * A_col
println("\nA_col' * A_col の結果 (検証用):")
display(A_col_T_times_A_col)
println("\nC_col と A_col'*A_col は一致するか?: ", C_col ≈ A_col_T_times_A_col)

LinearAlgebra.BLAS.her!() は、線形代数演算の中でも特にエルミート行列のランクk更新という特定のタスクを高速に実行するための低レベル関数です。パフォーマンスが重要な計算で、行列がエルミート行列の構造を持つことがわかっている場合に非常に役立ちます。

  • 実数 vs 複素数
    実数行列ではエルミートは対称を意味し、A' (転置) は A (共役転置) と同じです。複素数行列では、これらの違いが重要になります。
  • uplo 引数
    計算結果の C の上三角部分と下三角部分は、uplo の指定に従ってのみ計算されるため、例えば 'U' を指定して計算した後、手動で下三角部分にアクセスするとゼロ(または初期値)になっている可能性があります。Hermitian(C) のようにラッパーを使うと、欠損部分にアクセスしたときに自動的に値を補完してくれます。
  • 次元と型
    BLAS関数は非常に厳密な次元とデータ型の要件を持ちます。不一致があると DimensionMismatch などのエラーが発生します。
  • インプレース操作
    ! が付いているため、引数として渡された C の内容が直接変更されます。元の C を保持したい場合は、事前に copy() しておく必要があります。


LinearAlgebra モジュールの高レベル関数(mul!)

JuliaのLinearAlgebraモジュールは、BLASの機能に基づいた、より高レベルで汎用的な行列演算関数を提供しています。mul!は、行列の乗算をインプレースで行うための関数で、her!が行うランクk更新の一部をカバーできます。

mul! を使用した C <- alpha * A * A' + beta * C の実現

her!$C \leftarrow \alpha A A^* + \beta C$ または $C \leftarrow \alpha A^* A + \beta C$ を計算します。これに相当する mul! の呼び出し方は以下のようになります。

using LinearAlgebra

println("--- mul! を使った代替方法 ---")

# 実数行列の例
A_real = [1.0 2.0;
          3.0 4.0;
          5.0 6.0]
C_real = zeros(Float64, 3, 3)
alpha_real = 1.0
beta_real = 0.0

println("元の行列 A_real:")
display(A_real)
println("\n元の行列 C_real:")
display(C_real)

# C <- alpha * A * A' + beta * C
# mul!(C, A, A', alpha, beta) は C = alpha * A * A' + beta * C を計算します。
# ただし、her! のように uplo 引数で上三角/下三角のみを扱う機能はないため、
# C全体が計算されます。
mul!(C_real, A_real, A_real', alpha_real, beta_real)

println("\nmul! 適用後の行列 C_real:")
display(C_real)

# 複素数行列の例
A_complex = [1.0+1.0im 2.0-1.0im;
             3.0+2.0im 4.0-2.0im;
             5.0+3.0im 6.0-3.0im]
C_complex = zeros(ComplexF64, 3, 3)
alpha_complex = 1.0 + 0.0im
beta_complex = 0.0 + 0.0im

println("\n元の行列 A_complex:")
display(A_complex)
println("\n元の行列 C_complex:")
display(C_complex)

# C <- alpha * A * A* + beta * C
mul!(C_complex, A_complex, A_complex', alpha_complex, beta_complex)

println("\nmul! 適用後の行列 C_complex:")
display(C_complex)

# 結果がエルミート行列であることを確認
println("\nC_complex はエルミート行列か?: ", C_complex ≈ C_complex')

# Cの初期値を使い、beta!=0 の例
C_initial = [1.0 0.0 0.0;
             0.0 2.0 0.0;
             0.0 0.0 3.0]
C_with_beta = copy(C_initial) # インプレース変更のためコピー
beta_val = 0.5

mul!(C_with_beta, A_real, A_real', alpha_real, beta_val)
println("\n--- mul! with beta != 0 ---")
println("C_with_beta (C <- A A' + 0.5 C_initial):")
display(C_with_beta)

利点

  • 可読性
    C = alpha * A * A' + beta * C という数学的な表現に近い形で記述できます。
  • Juliaによるディスパッチ
    Juliaの型システムとマルチディスパッチにより、適切なBLAS/LAPACKルーチン(または純粋なJulia実装)が自動的に選択されます。
  • 柔軟性
    mul! はさまざまな行列乗算のパターンに対応しています。
  • より高レベルな抽象化
    BLASの引数(uplo, transなど)を直接扱う必要がなく、より直感的に記述できます。

欠点

  • her! はエルミート構造(または対称構造)を利用して、計算量を半分に削減したり、メモリ効率を高めたりすることができますが、mul! は通常、行列全体を計算します。そのため、理論的にはher!の方が特定のケースでは高速である可能性があります。ただし、現代のBLAS実装では、mul! の内部で賢く最適化されることもあります。

一般的な行列演算と結合代入

Juliaの行列演算は非常に強力で、数学的な表現を直接コードに落とし込むことができます。結合代入演算子(+=, -=, *= など)やブロードキャスト演算子(.= など)を使用することで、her! と同じ計算を明示的に記述できます。

C = alpha * A * A' + beta * C の直接計算

using LinearAlgebra

println("\n--- 一般的な行列演算と結合代入を使った代替方法 ---")

# 実数行列の例
A_gen = [1.0 2.0;
         3.0 4.0;
         5.0 6.0]
C_gen = zeros(Float64, 3, 3)
alpha_gen = 1.0
beta_gen = 0.5 # betaを0.5に設定

println("元の行列 A_gen:")
display(A_gen)
println("\n元の行列 C_gen:")
display(C_gen)

# C <- alpha * A * A' + beta * C
# 注意: この行は新しい行列を生成します。
# したがって、元のC_genとは異なるメモリに結果が格納されます。
C_result = alpha_gen * A_gen * A_gen' + beta_gen * C_gen
println("\n直接計算 C_result = alpha * A * A' + beta * C:")
display(C_result)

# インプレースで更新したい場合
# beta * C を先に計算して C に格納
C_in_place = copy(C_gen) # 元のC_genを保持したいのでコピー
C_in_place .*= beta_gen # C = beta * C

# 次に alpha * A * A' を計算し、C_in_place に加算
# A*A' は新しい行列を生成しますが、それを既存の C_in_place に加算します
C_in_place .+= alpha_gen * A_gen * A_gen'

println("\nインプレース更新 C_in_place .+= alpha * A * A':")
display(C_in_place)

# 複素数行列の例 (インプレース更新)
A_comp_gen = [1.0+1.0im 2.0-1.0im;
              3.0+2.0im 4.0-2.0im;
              5.0+3.0im 6.0-3.0im]
C_comp_gen = zeros(ComplexF64, 3, 3)
alpha_comp_gen = 1.0 + 0.0im
beta_comp_gen = 0.5 + 0.0im

C_comp_in_place = copy(C_comp_gen)
C_comp_in_place .*= beta_comp_gen
C_comp_in_place .+= alpha_comp_gen * A_comp_gen * A_comp_gen'

println("\n複素数行列のインプレース更新:")
display(C_comp_in_place)

利点

  • 自動最適化
    Juliaのコンパイラと組み込みの行列演算は、多くの場合、内部的にBLASルーチンを呼び出すよう最適化されます。
  • 柔軟性
    任意の複雑な式を構築できます。
  • 最高の可読性
    数学的な式とほぼ同じ構文で記述できます。

欠点

  • エルミート構造の活用不足
    her!のように、計算する行列がエルミート行列であることを明示的に伝えて計算量を減らす最適化は、この方法では自動的に行われません。
  • 中間配列の生成
    $alpha * A * A' + beta * C$ のように書くと、$A * A' の結果を格納するための中間配列が生成される可能性があります。これは大きな行列の場合にメモリ割り当てのオーバーヘッドやガベージコレクションの頻度増加につながり、パフォーマンスに影響を与える可能性があります。mul!her!は、これらの中間配列の生成を避けるように設計されています。

Symmetric または Hermitian ラッパーの使用

JuliaのLinearAlgebraモジュールには、対称行列やエルミート行列の構造を明示的に示すためのラッパー型(SymmetricHermitian)があります。これらのラッパーを使用すると、特定の操作で最適化が行われたり、構造が保証されたりします。

using LinearAlgebra

println("\n--- Symmetric/Hermitian ラッパーを使った代替方法 ---")

# A * A' の結果が対称/エルミートであることを利用
A_sym_her = [1.0 2.0; 3.0 4.0; 5.0 6.0]

# (A * A') は対称行列になるので、Symmetric() でラップ
# SymTridiagonal, Hermitian なども同様
C_sym = Symmetric(A_sym_her * A_sym_her')
println("\nSymmetric(A * A'):")
display(C_sym)

# A_complex * A_complex' はエルミート行列になるので、Hermitian() でラップ
A_comp_sym = [1.0+1.0im 2.0-1.0im;
              3.0+2.0im 4.0-2.0im]
C_herm = Hermitian(A_comp_sym * A_comp_sym')
println("\nHermitian(A_complex * A_complex'):")
display(C_herm)

# C <- alpha * A * A' + beta * C の場合は少し複雑になります。
# 目的が「エルミート行列の構造を保ちながらランクk更新する」ことであれば、
# まず C を Hermitian 型で初期化し、mul! を使うのが一般的です。
C_initial_herm = Hermitian(zeros(ComplexF64, 3, 3)) # Hermitian型で初期化
A_initial_herm = rand(ComplexF64, 3, 2)
alpha_val = 1.0
beta_val = 0.5

# C_initial_herm は Hermitian 型なので、mul! は内部でエルミート性を考慮する可能性があります。
mul!(C_initial_herm, A_initial_herm, A_initial_herm', alpha_val, beta_val)
println("\nmul! with Hermitian type for C:")
display(C_initial_herm)
println("\nC_initial_herm の型: ", typeof(C_initial_herm))

利点

  • メモリー効率
    SymmetricHermitianは、行列の片側(上三角または下三角)のみを内部的に保存することで、メモリ使用量を削減できます。
  • 自動最適化
    Juliaの線形代数関数は、SymmetricHermitian型の入力に対して、その構造を利用した最適化されたルーチンを自動的に選択する場合があります。
  • 構造の保証
    行列が特定の構造を持つことを明示的に宣言できます。これにより、意図しない変更を防ぎ、型安全性も向上します。
  • her!のように、ACを同時にインプレースで更新する操作を直接提供するものではありません。主に、すでにエルミートであることが分かっている行列を効率的に扱うためのものです。
  • 対称性やエルミート性を明示的に扱いたい場合 は、Symmetric()Hermitian() ラッパーを使用することを検討してください。これにより、行列の構造が保証され、一部の線形代数アルゴリズムで最適化が適用される可能性があります。

  • コードの可読性を最優先し、パフォーマンスがそれほどクリティカルでない場合 は、alpha * A * A' + beta * C のような直接的な行列演算が最も分かりやすいかもしれません。ただし、中間配列の生成によるオーバーヘッドに注意してください。

  • 最高のパフォーマンスが必要な場合、または特定のBLASの挙動を利用したい場合 は、BLAS.her!() を直接使用することを検討します。特に、非常に大規模な行列で、厳密なメモリ制御や計算量の削減が求められる場合に有効です。

  • ほとんどの場合、mul! が最適です。 LinearAlgebra.mul! は、BLAS.her! の性能と、高レベルなコードの読みやすさを両立させています。中間配列の生成を避け、可能な限りBLASルーチンを内部で利用するように設計されています。her! のように上三角/下三角のみの計算を明示的に指示することはできませんが、結果の行列は数学的に正しいものとなり、必要に応じて Hermitian() でラップできます。