最適輸送が組み込まれた「生成拡散モデル」の学習則の解明 -計算資源の限られた環境における高性能な生成モデルの活用にも期待-

研究のハイライト
画像AI生成サービスの基盤である生成拡散モデルを、変分オートエンコーダの拡張として定式化することで、複雑な学習則の単純化に成功
これによりモデル内の2つのニューラルネットワークが果たす役割を明確化し、一方の学習を早期に打ち切ることにより、精度を落とさずに学習コストを削減
計算資源の限られた環境における高性能な生成モデルの活用に期待
東京科学大学(Science Tokyo) 理学院 物理学系の蒲健太郎大学院生と大関真之教授、東北大学情報科学研究科の清水怜央大学院生(当時)と杉山友規特任准教授の研究チームは、最適輸送(用語1)の理論を取り入れた生成拡散モデル(用語2)の学習則を単純化し、学習の効率化に成功しました。
生成拡散モデルは、生成AI(用語3)の一種であり、多くの画像生成AIサービスの基盤となる技術です。近年、その性能向上のために、最適輸送の手法である「シュレーディンガー橋(用語4)」を組み込んだモデルが注目されていますが、複雑な数理構造ゆえに学習則の直感的な理解が困難でした。
本研究では、生成拡散モデルを変分オートエンコーダ(用語5)という他の生成AIの拡張として定式化することで、モデル内の2つのニューラルネットワークが果たす役割を明確化しました。さらに、この理論的枠組みに基づき、一方のニューラルネットワークの学習を早期終了することで、精度を犠牲にせずに計算コストが削減可能であることを数値計算で実証しました。これらの成果は、計算資源の限られた環境における高性能な生成モデルの活用を推し進めることが期待されます。
本成果は、9月3日付(現地時間)の「Physical Review Research」誌に掲載されました。

論文情報
- タイトル
- Schrödinger bridge based generative model
- 著者
- Kentaro Kaba, Reo Shimizu, Masayuki Ohzeki, Yuki Sughiyama
- 掲載誌
- Physical Review Research
研究者情報
物理学系 大学院生 蒲健太郎
理学院東京科学大学
大学院生(当時) 清水怜央
大学院情報科学研究科東北大学
教授 大関真之
大学院情報科学研究科東北大学
特任准教授(研究) 杉山友規
大学院情報科学研究科東北大学
用語解説
- (1)最適輸送
- 1つの分布を、もう1つの分布に移す際にかかるコストを最小化するような輸送方法を決める問題。
- (2)生成拡散モデル
- 生成AIの一種であり、画像生成AIサービスなどの基盤技術。データにノイズを加える過程と、それを再現する生成過程の2つの拡散過程を用いて記述される。
- (3)生成AI
- 手元にあるデータを元に、それらに似た新たなデータを作り出すことを目的とするAI。
- (4)シュレーディンガー橋
- 拡散過程を用いた輸送を行う場合の最適輸送問題の一種。
- (5)変分オートエンコーダ
- 生成AIの一種であり、隠れ変数を用いたモデルとしては最も初期に提案されたモデル。
