2026-05-13

ランダム行列理論の進化:Marchenko-Pastur から非線形な相関を持つデータへの拡張まで

サンプル共分散行列のスペクトル解析は、いかにして現代の機械学習の理論的基盤となったか

Table of Contents

0. イントロ

ランダム行列理論(Random Matrix Theory: RMT)は、その行列要素が確率変数であるような行列の性質を研究する数学・統計学の一分野です。20世紀初頭に統計学の Wishart や原子核物理学の Wigner らによって創始されたこの理論は、現在、高次元統計学や機械学習における汎化性能の解析において不可欠なツールとなっています。

ランダム行列

ランダム行列とは、行列の要素が確率変数であるような行列のことを指します。例えば、各要素が独立で平均 0、分散 1 の正規分布に従う 5×55 \times 5 の行列 AA を生成すると次のようになります。

A=[0.3260.2920.2240.4380.3762.0590.1901.5200.0031.2520.5171.3541.7292.0410.3001.1290.1550.4261.0750.7231.5371.8690.2932.540.605] A = \begin{bmatrix} -0.326 & 0.292 & -0.224 & 0.438 & -0.376 \\ -2.059 & -0.190 & -1.520 & 0.003 & -1.252 \\ 0.517 & 1.354 & -1.729 & -2.041 & -0.300 \\ 1.129 & 0.155 & -0.426 & -1.075 & 0.723 \\ 1.537 & -1.869 & 0.293 & 2.54 & -0.605 \end{bmatrix}

従来の機械学習の汎化に関する理論(Rademacher complexity, VC dimension などの統計的学習理論)に基くバイアス-バリアンス・トレードオフの仮説では、過剰パラメーター領域における機械学習モデルは過学習を起こして汎化しないと思われていました。 しかし2010年代後半以降、過剰パラメーター領域において再び汎化性能が向上するという、従来の予測に反する現象(二重降下現象: Double Descent)が多くのモデルで確認されるようになりました。

この現象を理論的に解き明かす鍵となったのが、ランダム行列理論でした。 違いを端的にいうと、統計的学習理論が最悪の場合を想定して汎化誤差の上界を得る(Worst-case analysis)のに対して、RMT は汎化誤差の平均的な振る舞いを記述することができます(Average-case analysis)。そのため、RMT を使って導かれた汎化誤差の理論式は、実際の数値計算で見られる二重降下を見事に説明したのです!

Image
多項式回帰モデルの二重降下現象
Image
二重降下現象の概念図

本記事では、1967年の Marchenko-Pastur 則から始まり、Silversteinによる相関構造の導入、Hachem et al. (2007) や Rubio & Mestre (2011) らによる 決定論的等価性(Deterministic Equivalent) の確立、そして近年の Louart らによる非線形な特徴量ベクトルへの拡張まで、RMT の歴史的進展をわかりやすく解説します。さらに、これらの理論的な進展が、現代の機械学習モデルの二重降下現象の解明にどのように貢献しているかも紹介します。

コラム:RMTの起源と「Wignerの半円則」

ランダム行列理論は、1920年代の多変量統計学(Wishartによる共分散行列の研究)や、1950年代の量子力学に起源を持ちます。物理学者 Eugene Wigner は、重い原子核の複雑なエネルギー準位をモデル化するために、次のようなランダムな対称行列 XX を考えました。

X:=A+AT2n X := \frac{A + A^{\mathsf{T}}}{\sqrt{2n}}

驚くべきことに、この行列の次元 nn を無限大に近づけると、その固有値のヒストグラムは完全に決定論的な「半円」を描くことが証明されました。これを Wignerの半円則(Semicircle Law) と呼びます。 ランダムな要素の集まりから、完全に決定論的で美しい法則が立ち現れる。これが RMT の魅力の一端です。

import numpy as np
import matplotlib.pyplot as plt

# Wignerの半円則(GOE)のシミュレーション
n = 1000
A = np.random.randn(n, n)
GOE = (A + A.T) / np.sqrt(2 * n) # 対称化
eigvals_GOE = np.linalg.eigvalsh(GOE)

plt.hist(eigvals_GOE, bins=50, density=True, color="skyblue", edgecolor="black")
plt.title("Eigenvalues of GOE (Wigner Semicircle)")
plt.show()

1. サンプル共分散行列と Stieltjes(スティルチェス)変換

高次元データ解析における主要な研究対象は サンプル共分散行列(Sample Covariance Matrix)です。

サンプル共分散行列とは?

NsN_{\mathrm{s}} 個のサンプルと pp 個の特徴量を持つデータ行列を

X:=[x1,x2,,xNs]TRp×Ns X := [\boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_{N_{\mathrm{s}}}]^{\mathsf{T}} \in \mathbb{R}^{p \times N_{\mathrm{s}}}

としたとき、サンプル共分散行列は以下のように定義されます。

Σ^:=1NsXXT=1NsiNsxixiT \hat{\Sigma} := \frac{1}{N_{\mathrm{s}}} XX^{\mathsf{T}} = \frac{1}{N_{\mathrm{s}}} \sum_i^{N_{\mathrm{s}}} \boldsymbol{x}_i \boldsymbol{x}_i^{\mathsf{T}}

この行列 Σ^\hat{\Sigma} は、データの分散構造を表す重要な行列であり、機械学習モデルの訓練や性能評価において中心的な役割を果たします。 RMT において最も関心があるのは、行列の次元 pp が大きくなったときの固有値の分布です。Σ^\hat{\Sigma}pp 個の固有値を s1,,sps_1, \dots, s_p としたとき、その経験スペクトル分布(Empirical Spectral Distribution; ESD)は次のように書けます。

μΣ^(x)=1pj=1pδ(xsj)\mu_{\hat{\Sigma}}(x) = \frac{1}{p} \sum_{j=1}^p \delta(x - s_j)

しかし、巨大なランダム行列の固有値を直接計算し、その分布関数を数学的に求めることは極めて困難です。そこでRMTの発展を支えることになった強力な解析ツールがStieltjes(スティルチェス)変換です。 確率測度 μ\mu に対するStieltjes変換 Sμ(z)S_\mu(z) は、複素数 zCRz \in \mathbb{C} \setminus \mathbb{R} に対して以下で定義されます。

Sμ(z)=1xzdμ(x)(zCR)S_\mu(z) = \int \frac{1}{x-z} d\mu(x) \quad (z \in \mathbb{C} \setminus \mathbb{R})

この定義を、サンプル共分散行列の経験スペクトル分布 μΣ^\mu_{\hat{\Sigma}} に適用すると、驚くほどシンプルな行列の形に書き直すことができます。

SΣ^(z)=1pj=1p1sjz=1pTr[(Σ^zIp)1]S_{\hat{\Sigma}}(z) = \frac{1}{p} \sum_{j=1}^p \frac{1}{s_j - z} = \frac{1}{p} \mathrm{Tr}\left[ (\hat{\Sigma} - zI_p)^{-1} \right]

この (Σ^zIp)1(\hat{\Sigma} - zI_p)^{-1}レゾルベント行列(Resolvent Matrix) と呼ばれます。 RMTでは、「直接固有値を計算する」という困難なアプローチを捨て、「レゾルベントのトレースの極限(Stieltjes変換)を求め、そこから複素解析的な手法を用いて固有値分布を逆算する」という洗練されたルートを辿ります。さらに言えば、リッジ回帰などの機械学習モデルのテスト誤差を評価する際、数式の中に直接このレゾルベントのトレースが現れるため、Stieltjes変換を求めること自体が機械学習の性能予測に直結するのです。

2. 独立性の時代:Marchenko-Pastur 則 (1967)

従来の古典的な統計学では、特徴量数 pp が固定されたままサンプル数 NsN_{\mathrm{s}} \to \infty となる極限を考えます。この場合、大数の法則により Σ^\hat{\Sigma} の固有値分布は、母共分散行列 Σ\Sigma の固有値に単に収束します。

しかし、現代の機械学習では、特徴量数 pp とサンプル数 NsN_{\mathrm{s}} が同程度の大きさであることが一般的です。実は、このような状況では、従来の統計学の理論は適用できず、母共分散行列 Σ\Sigma が単位行列 IpI_p (すべての固有値が 11)の場合であっても、Σ^\hat{\Sigma} の固有値分布は幅を持つ非自明な分布に収束します。

1967年、Marchenko と Pastur は、行列の次元 pp とサンプル数 NsN_{\mathrm{s}} が共に無限大に向かい、その比 γ:=p/Ns(0,)\gamma := p/N_{\mathrm{s}} \in (0, \infty) が一定に保たれる「比例漸近領域(Proportional asymptotic regime)」において、この行列の固有値分布が決定論的な極限分布に収束することを示しました。

Marchenko-Pastur distribution (1967)

行列 XX の全成分 XijX_{ij} が互いに独立同分布(i.i.d.)であり、平均 00、分散 σx2\sigma_x^2 に従うとする。すなわち、すべての xi\boldsymbol{x}_i は独立で、xiN(0,σx2Ip)\boldsymbol{x}_i \sim \mathcal{N}(0, \sigma_x^2 I_p) とする。 このとき、p,Nsp, N_{\mathrm{s}} \to \inftyp/Nsγ(0,)p/N_{\mathrm{s}} \to \gamma \in (0, \infty) となる極限において、Σ^\hat{\Sigma} の経験的スペクトル分布は確率1で以下の密度関数 gMP(x)g_{\mathrm{MP}}(x) を持つ分布に弱収束する。

gMP(x,γ,σx2)=12πσx2(γ+x)(xγ)xγ1[γ,γ+](x)+(11γ)+δ(x) g_{\mathrm{MP}}(x, \gamma, \sigma_x^2) = \frac{1}{2\pi\sigma_x^2} \frac{\sqrt{(\gamma_+ - x)(x - \gamma_-)}}{x\gamma} \mathbf{1}_{[\gamma_-, \gamma_+]}(x) + \left(1-\frac{1}{\gamma}\right)^+ \delta(x)

ここで γ±=σx2(1±γ)2\gamma_{\pm} = \sigma_x^2(1 \pm \sqrt{\gamma})^2

(Original paper: Distribution of eigenvalues for some sets of random matrices)

この結果から分かるように、サンプル数 NsN_{\mathrm{s}} と特徴量数 pp が同程度の大きさである場合、サンプル共分散行列 Σ^\hat{\Sigma} の固有値は、単一の点 σx2\sigma_x^2 に集中するのではなく、サンプリングの揺らぎによって、固有値が σx2\sigma_x^2 を中心とした幅 [γ,γ+][\gamma_-, \gamma_+] のバルクに広がってしまうのです。しかし、ppNsN_{\mathrm{s}} より十分小さくすれば、固有値は σx2\sigma_x^2 の周りに狭く分布することになり、従来の統計学の理論と整合することになります。
Image

ここで注目すべきは、次元比率 γ:=p/Ns\gamma := p/N_{\mathrm{s}} (パラメータ数とサンプル数の比) による分布の変化です。

  • γ<1\gamma < 1(横長データ): p<Nsp < N_{\mathrm{s}} であり、固有値のバルクはゼロから離れた場所に綺麗な山を作ります。
  • γ=1\gamma = 1(正方データ): γ=0\gamma_- = 0 となり、分布がゼロ付近で無限大に発散する特異点(ピーク) が生まれます。行列の最小固有値がゼロに近づき、極めて悪条件(Ill-conditioned)になることを意味します。これが後述する「二重降下の補間ピーク(エラーの発散)」の直接的な原因です。
  • γ>1\gamma > 1(過剰パラメータ): p>Nsp > N_{\mathrm{s}} となり、行列がランク落ちを起こします。その結果、厳密にゼロの固有値が大量に発生(数式第2項のデルタ関数 δ(x)\delta(x))し、残りのゼロでない固有値は右側にバルクを形成します。

この結果は極めて強力でしたが、「全成分が完全に独立である(母共分散行列 Σ=σx2Ip\Sigma = \sigma_x^2 I_p)」という強い仮定 に基づいていました。現実のデータは、特徴量間に複雑な相関構造を持つことが一般的であり、この独立性の仮定は実践的な機械学習モデルの性能解析には適用できませんでした。

RMTの凄み:普遍性(Universality)

Marchenko-Pastur 則を含む RMT の結果が機械学習において絶大な実用性を誇る理由は、普遍性(Universality) という性質にあります。データ行列の要素が、綺麗な「ガウス分布(正規分布)」から生成されていても、単に +1+11-1 が等確率で出る「コイントス(Rademacher 分布)」から生成されていても、平均と分散(2次までのモーメント)さえ一致していれば、極限における固有値分布は全く同じ Marchenko-Pastur 則のカーブにピタリと重なります。 データの細かな分布形状(高次のモーメント)に依存しないからこそ、理論的な数式が現実のデータに対しても強い予測力を持つのです。

# Wishart行列(Marchenko-Pastur則)のシミュレーション
p, N_s = 500, 1000 # γ = 0.5 のケース
X = np.random.randn(p, N_s)
W = np.dot(X, X.T) / N_s
eigvals_W = np.linalg.eigvalsh(W)

# コイントス(Rademacher分布)でのシミュレーション
X_rademacher = np.random.choice([-1, 1], size=(p, N_s))
W_rademacher = np.dot(X_rademacher, X_rademacher.T) / N_s
eigvals_W_rademacher = np.linalg.eigvalsh(W_rademacher)

plt.hist(eigvals_W, bins=50, density=True, alpha=0.6, label="Gaussian")
plt.hist(eigvals_W_rademacher, bins=50, density=True, alpha=0.6, label="Rademacher (Coin Toss)")
plt.title("Universality of Marchenko-Pastur Law")
plt.legend()
plt.show() # ガウス分布もコイントスも完全に同じ分布に重なる

3. 独立性の緩和:Silverstein による相関構造の導入 (1995)

Marchenko-Pastur則は非常に美しく強力ですが、「すべての特徴量が完全に独立である(真の母共分散行列 Σ=σx2Ip\Sigma = \sigma_x^2 I_p)」という強い仮定に基づいていました。現実の画像データや音声データでは、ピクセル間や特徴量間に複雑な相関が存在するため、この独立性の仮定は実践的な機械学習モデルの解析には適用できません。

1995年、数学者 Jack Silverstein はこの厳しい制約を取り払い、より現実のデータに近い一般的なモデルを提案しました。彼はデータ行列 XX が、ある真の共分散行列 Σ\Sigma を用いて次のように生成される設定を考えました。

X=Σ1/2Z X = \Sigma^{1/2} Z

ここで、ZRp×NsZ \in \mathbb{R}^{p \times N_{\mathrm{s}}} は各要素が i.i.d. (例えば平均0、分散1)であるようなノイズ行列です。このとき、サンプル共分散行列は Σ^=1NsΣ1/2ZZTΣ1/2\hat{\Sigma} = \frac{1}{N_{\mathrm{s}}} \Sigma^{1/2} Z Z^{\mathsf{T}} \Sigma^{1/2} となります。

Silversteinの最大の功績は、この相関を持った設定において、p,Nsp, N_{\mathrm{s}} \to \infty の極限における Σ^\hat{\Sigma} のStieltjes変換 m(z)m(z) が、以下の自己無撞着方程式(Self-consistent equation / 固定点方程式) を満たすことを数学的に証明したことです。(自己無撞着方程式は、方程式の形によって固定点方程式(Fixed point equation)とも呼ばれます。)

m(z)=1pTr[(zIp+(1pNs+pNszm(z))Σ)1] m(z) = \frac{1}{p} \mathrm{Tr} \left[ \left( -z I_p + \left(1 - \frac{p}{N_{\mathrm{s}}} + \frac{p}{N_{\mathrm{s}}} z m(z)\right) \Sigma \right)^{-1} \right]

この方程式の登場は、RMTの応用において決定的なブレイクスルーでした。 なぜなら、真の共分散 Σ\Sigma さえ(推定や仮定によって)与えられれば、どんな相関構造を持ったデータであっても、この方程式を数値的に解くことで、そのサンプル共分散行列の Stieltjes 変換 m(z)m(z)(=レゾルベントのトレース)を計算できるようになったからです。

固有値を直接求めるのではなく、レゾルベントの挙動を方程式から間接的に求める――この Silverstein の手法が土台となり、のちの機械学習における「決定論的等価性(Deterministic Equivalent)」という強力なパラダイムシフトへと繋がっていくことになります。

4. 決定論的等価性(Deterministic Equivalent)の導入 (2007-2011)

Silversteinの研究により、相関を持つデータから作られたサンプル共分散行列の「トレース(固有値の総和に関わる量)」は計算できるようになりました。しかし、実際の機械学習アルゴリズムの解析には、これでは不十分でした。

例えば、線形回帰に正則化を加えた リッジ回帰(Ridge Regression) を考えてみましょう。訓練データ XX とターゲット変数 y\boldsymbol{y} から最適なパラメータベクトル β^\hat{\boldsymbol{\beta}} を求める解は、以下のような閉形式(Closed-form)で与えられます。

β^=(XXT+λIp)1Xy=1Ns(Σ^+λNsIp)1Xy \hat{\boldsymbol{\beta}} = (XX^{\mathsf{T}} + \lambda I_p)^{-1} X \boldsymbol{y} = \frac{1}{N_{\mathrm{s}}} \left( \hat{\Sigma} + \frac{\lambda}{N_{\mathrm{s}}} I_p \right)^{-1} X \boldsymbol{y}

このパラメータを使って新しい未知のデータに対する「テスト誤差(汎化誤差)」を計算しようとすると、どうしても数式の中にランダムな行列の逆行列であるレゾルベント (Σ^+λIp)1(\hat{\Sigma} + \lambda I_p)^{-1} を他の行列で挟み込んだ複雑な積が現れてしまいます。ランダム行列を含む逆行列の期待値を計算することは、従来の確率論では手も足も出ない難問でした。

この壁を打ち破ったのが、2007年の Walid Hachem ら、および 2011年の Fernando Rubio と Xavier Mestre らによる 「決定論的等価性(Deterministic Equivalent: DE)」 という画期的なパラダイムです。

彼らは、トレースの極限だけでなく、「巨大なランダム行列の逆行列それ自体」を、数学的に扱いやすい非確率的(決定論的)な行列に置き換えられることを証明しました。

決定論的等価物(Deterministic Equivalent)とは?

ランダム行列の系列 ApA_p と決定論的(ランダムでない)な行列の系列 BpB_p について、スペクトルノルムが有界(Cp<\|C_p\| < \infty)である任意の決定論的行列 CpC_p に対して、

limp1pTr[Cp(ApBp)]=0almost surely \lim_{p \to \infty} \frac{1}{p} \mathrm{Tr}[C_p (A_p - B_p)] = 0 \quad \text{almost surely}

が成り立つとき、ApBpA_p \asymp B_pBpB_pApA_p の決定論的等価物である)と表記します。 これにより、複雑なランダム行列の極限での挙動を、扱いやすい決定論的(すなわちランダムでない)な行列の計算に置き換えることができます。

機械学習の文脈で重要になるのがリゾルベント(Resolvent)と呼ばれる逆行列 (Σ^+λIp)1(\hat{\Sigma} + \lambda I_p)^{-1} です。リッジ回帰の推定量はまさにこの行列の挙動に依存しています。

2011年、Rubio と Mestre は、相関を持つデータ X=Σ12ZX = \Sigma^{\frac12} Z について、リッジ回帰の解の中心となるレゾルベントの決定論的等価物を以下の公式として導き出しました。

Rubio and Mestre (2011) の定理

データ行列が X=Σ12ZX = \Sigma^{\frac12} Z で与えられるとき、Ns,pN_{\mathrm{s}}, p \rightarrow \inftyp/Nsγ(0,)p/N_{\mathrm{s}} \to \gamma \in (0, \infty) となる極限において、以下が成り立つ。

λ(Σ^+λIp)1κλ(Σ+κλIp)1 \lambda (\hat{\Sigma} + \lambda I_p)^{-1} \asymp \kappa_\lambda (\Sigma + \kappa_\lambda I_p)^{-1}

ここで、有効正則化パラメータ κλ\kappa_\lambda は、以下の 自己無撞着方程式(Self-consistent equation) の唯一の解である。

1NsTr[Σ(Σ+κλIp)1]+λκλ=1 \frac{1}{N_{\mathrm{s}}} \mathrm{Tr}\left[\Sigma (\Sigma + \kappa_\lambda I_p)^{-1}\right] + \frac{\lambda}{\kappa_\lambda} = 1

(Original paper: Spectral Convergence for a General Class of Random Matrices)

【なぜこれがすごいのか?】 例えばリッジ回帰の予測誤差を計算しようとすると、どうしても数式の中に (Σ^+λID)1(\hat{\Sigma} + \lambda I_D)^{-1} というランダム行列の逆行列が登場してしまい、解析が行き詰まります。 しかし、この「決定論的等価物」の公式を適用すれば、ランダムな Σ^\hat{\Sigma} を一瞬にして真の Σ\Sigma とスカラー κλ\kappa_\lambda に置き換えることができ、高次元データにおける機械学習アルゴリズムの真の性能(汎化誤差など)を紙とペンで正確に計算できるようになるのです。

5. 非線形の最前線へ

Rubio & Mestre の理論は圧倒的でしたが、致命的な弱点がありました。それは「データの生成過程が線形(X=Σ12ZX = \Sigma^{\frac12} Z)でなければならない」という点です。 現代の機械学習、例えば Generative Adversarial Networks (GANs) のジェネレータやランダム特徴量モデルなどは、データを極めて高度な非線形関数 f(WX)f(WX) で変換します。線形性の仮定は、ここには全く通用しません。

しかし、近年の研究がこの壁を破壊しました。例えば、Louart らは、データがリプシッツ連続な非線形関数を通して生成される「集中特徴ベクトル(Concentrated Feature Vectors)」であっても、Rubio & Mestre の定理(線形の決定論的等価物)が全くそのまま適用できることを証明したのです(最近、これよりさらに緩和した条件でも同様の結果が得られることが示されました)。 これが「古典的な RMT」と「現代の複雑な非線形モデルによる機械学習」を繋ぐ架け橋となりました。

集中特徴ベクトル

潜在変数 ziN(0,Iq)z_i \sim \mathcal{N}(0, I_q)リプシッツ連続(Lipschitz continuous)な非線形関数 Ω()\Omega(\cdot) を通して、特徴ベクトルが xi=Ω(zi)x_i = \Omega(z_i) の形で生成されるとします。このように生成される特徴ベクトルを「集中特徴ベクトル(Concentrated Feature Vectors)」と呼びます。

Deterministic Equivalent for Concentrated Feature Vectors

データ xix_i が上記のリプシッツ連続な関数により生成されると仮定し、その母共分散行列を Σ:=E[xixiT]\Sigma := \mathbb{E}[x_i x_i^{\mathsf{T}}] とする。このとき、p,Nsp, N_{\mathrm{s}} \to \inftyp/Nsγ(0,)p/N_{\mathrm{s}} \to \gamma \in (0, \infty) となる極限において、リゾルベントの決定論的等価物は以下のように与えられる。

λ(Σ^+λIp)1κλ(Σ+κλIp)1 \lambda(\hat{\Sigma} + \lambda I_p)^{-1} \asymp \kappa_\lambda(\Sigma + \kappa_\lambda I_p)^{-1}

ここで κλ\kappa_\lambda は、以下の方程式の唯一の非負の解である。

1NsTr[(Σ+κλIp)1Σ]+λκλ=1 \frac{1}{N_{\mathrm{s}}} \mathrm{Tr}\left[ (\Sigma + \kappa_\lambda I_p)^{-1} \Sigma \right] + \frac{\lambda}{\kappa_\lambda} = 1

高度に非線形な特徴量であっても、極限においては Rubio & Mestre と全く同じ決定論的等価物が成立することは、RMTの普遍性(Universality) を強力に裏付ける結果です。

6. テストリスクの解析と「二重降下現象」の解明

決定論的等価性(DE)という最強の武器を手に入れたことで、私たちはリッジ回帰などの機械学習モデルの テストリスク(未学習データに対する予測誤差の期待値) を厳密に計算することが可能になりました。

テストリスク Rλ,Σ^R_{\lambda, \hat{\Sigma}} は、予測モデルのバイアス(Bias)、分散(Variance)、および観測不可能なノイズ(σ2\sigma^2)の3つの項に分解されます。この式にRubio & Mestreの定理と複素解析の手法を適用すると、以下の定理が得られます。

Theorem 1 (Deterministic Equivalent of Test Risk)

p,Nsp, N_{\mathrm{s}} \to \infty の極限において、リッジ回帰のテストリスク Rλ,Σ^R_{\lambda, \hat{\Sigma}} は以下の決定論的等価物 Rλ,ΣDER_{\lambda, \Sigma}^{\mathrm{DE}} に漸近する。

Rλ,ΣDE:=κλ21ηκβT(Σ+κλIp)2βDE of Bias+σ2ηκ1ηκDE of Variance+σ2 R_{\lambda, \Sigma}^{\mathrm{DE}} := \underbrace{\frac{\kappa_\lambda^2}{1 - \eta_\kappa} \boldsymbol{\beta}_*^{\mathsf{T}} (\Sigma + \kappa_\lambda I_p)^{-2} \boldsymbol{\beta}_*}_{\text{DE of Bias}} + \underbrace{\sigma^2 \frac{\eta_\kappa}{1 - \eta_\kappa}}_{\text{DE of Variance}} + \sigma^2

ここで ηκ:=1NsTr[Σ2(Σ+κλIp)2]\eta_\kappa := \frac{1}{N_{\mathrm{s}}} \mathrm{Tr}\left[\Sigma^2(\Sigma + \kappa_\lambda I_p)^{-2}\right] は「正規化された有効自由度(normalized effective degrees of freedom)」である。

この数式こそが、「二重降下現象(Double Descent)」 がなぜ起こるのかを数学的に完全に説明する解答です。

第2章のMarchenko-Pastur則で、次元比率 γ=p/Ns\gamma = p/N_{\mathrm{s}}11(つまりパラメータ数とサンプル数が等しい)のとき、固有値分布のゼロ付近に無限大のピークができる(行列が極めて悪条件になる)ことを確認しました。

Theorem 1の数式を見ると、正則化 λ0\lambda \to 0 かつパラメータ数がサンプル数に近づく(p=Nsp = N_{\mathrm{s}})とき、有効自由度 ηκ\eta_\kappa11 に近づきます。 すると、バリアンス項の分母 (1ηκ)(1 - \eta_\kappa) がゼロに近づき、バリアンス(ノイズへの過敏性)が無限大に爆発してしまいます。 行列の悪条件化が、数式上でテストリスクの発散(補間ピーク:Interpolation peak)としてハッキリと現れるのです。

しかし、パラメータ数をさらに増やして過剰パラメータ領域(pNsp \gg N_{\mathrm{s}})に突入すると、再び ηκ\eta_\kappa11 から離れ、モデルの表現力が上がって良条件な部分空間で最適化が進むため、テストリスクは再び減少していきます。これが二重降下のメカニズムです。

7. RMTの実用的な価値:モデル訓練をスキップした性能予測

この Theorem 1 の結果は、理論的に美しいだけでなく極めて実用的な価値を持っています。

従来、機械学習モデルの汎化性能を評価するためには、大量のデータセットを生成し、何度もモデルの訓練(行列の逆行列計算や最適化ループ)を繰り返し、テストエラーの平均を経験的に計算する必要がありました。これは計算リソースの観点で非常に高コストです。

しかし、この漸近的テストリスクの公式 Rλ,ΣDER_{\lambda, \Sigma}^{\mathrm{DE}} を用いれば、モデルの訓練プロセスを完全にスキップできます。対象データの「母共分散行列 Σ\Sigma」と「ターゲットベクトル β\boldsymbol{\beta}_*」のスペクトル情報を自己無撞着方程式に代入するだけで、あらゆるデータサイズ NsN_{\mathrm{s}} や正則化パラメータ λ\lambda に対するテストリスクのカーブを瞬時に、かつ解析的に描き出すことができるのです。

p,Nsp, N_{\mathrm{s}} \to \infty を前提とした理論でありながら、有限で小規模なシステムにおいても、RMTによる理論予測曲線が経験的なテストエラーと驚くほど正確に一致することが実証されています。

8. 自由確率論と最適化ダイナミクスへの応用

RMTの恩恵は、訓練が終わった後の汎化性能(Generalization)の予測だけにとどまりません。実は、勾配降下法(Gradient Descent: GD)などの 最適化アルゴリズムが、学習ステップごとにどのように収束していくか(学習ダイナミクス) の解析にも劇的な効果をもたらします。

機械学習のモデル学習において、損失関数がどのような形状の谷(Loss Landscape)をしているかを決定するのは、二階微分であるヘシアン(Hessian)行列 HH です。 ニューラルネットワークのヘシアンは、しばしば「データが持つ構造項 H0H_0」と「サンプリングによるノイズ項 H1H_1」の足し算 H=H0+H1H = H_0 + H_1 としてモデル化されます。

ここで大きな問題が生じます。行列の掛け算は非可換(ABBAAB \neq BA)であるため、通常の確率変数の足し算で使う「畳み込み積分」を使って、複数のランダム行列を足し合わせた後の固有値分布を計算することはできません。 これを解決するのが、RMTにおける 自由確率論(Free Probability Theory) です。

コラム:R-変換と漸近的自由性

ランダム行列の次元が無限大に向かうとき、行列の固有ベクトル同士の向きが互いに完全にランダム(無相関)になる性質を 漸近的自由性(Asymptotic Freeness) と呼びます。 この性質が成り立つとき、RR-変換(R-Transform) という特別な関数を使うことで、H0H_0H1H_1 の固有値分布を直接足し合わせて、H=H0+H1H = H_0 + H_1 の固有値分布を厳密に計算することができます。(これは、通常の確率変数における特性関数やラプラス変換が行列に拡張されたようなイメージです)。

このヘシアンのスペクトル解析により、最悪のケース(Worst-case)ではなく、平均的なケース(Average-case) におけるアルゴリズムの性能評価が可能になります。「勾配降下法が何ステップでどれくらい誤差を減らすか(Halting time)」や、「最速で学習を終わらせるための最適な学習率(ステップサイズ)」までも、RMTの理論式から事前に導き出すことができるのです。

9. まとめ

ランダム行列理論は、単純なノイズ行列の固有値分布の解析(Marchenko-Pastur 則)から始まりました。その後、Silverstein らによって現実的な相関構造(Σ\Sigma)が取り入れられ、Stieltjes変換という解析的ツールが磨かれ、HachemらやRubio、Mestreらによって決定論的等価性(Deterministic Equivalent)という強力なパラダイムが確立されました。

現在、ランダム行列理論は純粋数学や物理学の枠を超え、深層学習のダイナミクス解析や汎化性能の解明において最も強力な理論的武器の一つとして活躍しています。

References

  • Marčenko, V. A., & Pastur, L. A. (1967). Distribution of eigenvalues for some sets of random matrices.
  • Silverstein, J. W. (1995). Strong convergence of the empirical distribution of eigenvalues of large dimensional random matrices.
  • Hachem, W., Loubaton, P., & Najim, J. (2007). Deterministic equivalents for certain functionals of large random matrices.
  • Rubio, F., & Mestre, X. (2011). Spectral convergence for a general class of random matrices.
  • Random Matrix Theory and Machine Learning Tutorial