深層ニューラルネットワークの統計力学

論文

From complex to simple : hierarchical free-energy landscape renormalized in deep neural networks, Hajime Yoshino, SciPost Physics Core 2,005 (2020).

Spatially heterogeneous learning by a deep student machine, Phys. Rev. Research 5, 033068 (2023).

日本語解説記事など

「深層ニューラルネットワークのランダムサンプリング」分子シミュレーション学会会誌「アンサンブル」2023年4月号( 理論予想に基づいて行った数値シミュレーションの結果を解説したものです。原稿ご希望の方ご連絡ください)

「深層学習の統計力学」数理科学2023年3月号(サイエンス社)

「最近の研究から - 深層ニューラルネットワークの解剖ー統計力学によるアプローチ」 日本物理学会誌76巻9号(2021年9月号)

(Youtube動画)すぐにわかる「詰め込み」の物理ージャミングから深層学習までー

講演資料など

Design space of a deep neural network - its spatial evolution and robustness (ipi seminar 2021/10/28)

深層学習と物理2019@京大基研 (DLAP2019)講演 DLAP2019

H. Yoshino, "From complex glass to simple liquid: layering transitions in deep neural networks", 40 years of Replica Symmetry Breaking (2019/09@Sapienza Univ. of Rome) 講演(スライドと動画)

解説

深層ニューラルネットワーク DNN(deep neural network)による機械学習の統計力学的研究を2019年ころから開始しました。 これには (Yoshino 2018, SciPost Physics)がヒントになりました。

[multilayer_network]

多数の学習データを課された深層ニューラルネットワークを制約充足問題としてみたとき、 学習データの増大とともにネットワークの端から内部に向かう逐次ガラス転移(解空間の分裂)が起こり、 それによってネットワークの端から深部に向かって、解空間の分裂の様子が複雑なもの(多段階に レプリカ対称性の破れたガラス相)から単純なもの(レプリカ対称な液体相)に段階的に空間変化していることが最近わかりました。 また教師あり学習の設定(統計的推定問題)でも、学習データの増大とともに 推定に成功した領域がネットワークの端から内部に向かう逐次相転移によって拡大してゆくことがわかりました。 その様子はいわゆる「濡れ転移」を彷彿とさせるものです。

[DNN_sandwich]

深層ニューラルネットワークでなぜ学習が上手くゆくのか、特に 「なぜデータの数を遥かに上回る膨大な数のパラーメータで学習を行って、単なる丸暗記ではない、意味のある学習になりうる(汎化能力を持つ)のか?」、「膨大な数のパラメータ学習がなぜうまく収束するのか」など、深層学習には大きな謎があります。この根本的な疑問を解決する道筋が上の研究から見えてきます。実用上大成功を収めているとはいえ、深層ニューラルネットワークを単なるブラックボックスとしてではなく、中身を理解して制御できるようになることは実用の観点からも重要です。

さらにここから生物系での様々な興味深い問題(遺伝子制御ネットワーク、アロステリック効果など)への関連も見えてきます。

Designed by CSS.Design Sample