量子アニーリングを活用したデータセット浄化技術を開発 ―ラベルノイズを効率的に除去しAIの汎化性能を飛躍的に改善―

研究のハイライト
AI開発における大きな課題である「間違ったラベルのついたデータ」を効率的に取り除く新手法を開発しました。本研究結果は、大規模な実データを扱う医療・産業分野への応用が期待されます。
ブラックボックス最適化(注 1)と量子アニーリング(注2)を組み合わせ、従来困難だった「検証誤差の直接最適化」を実現しました。
実験では、D-Wave Quantum社の量子アニーラーを利用し、古典的なシミュレーターと比べてウォールタイム(実際の経過時間)で10倍から100倍の高速化が確認されました。
AIの学習には大量のラベル付きデータが用いられますが、このラベル自体にノイズが含まれると訓練済みモデルの汎化性能が著しく低下するという問題がありました。
東北大学大学院情報科学研究科大関真之教授らの研究グループは、同大学院研究科の大塚誠客員研究員(LiLz株式会社研究員)と、機械学習において問題となる「間違ったラベルのついたデータ」を取り除く新技術を開発しました。研究チームは、ブラックボックス最適化と量子アニーリングを統合し、ノイズフリーな検証データセットに対する検証誤差を直接最適化する枠組みを構築しました。従来の手法では困難とされてきた、組合せ的に膨大なデータ部分集合の探索を量子アニーリングにより効率的に実行することで、良質な解を高速に得られることが確認されました。数値実験タスクを用いて性能を検証した結果、本手法は誤ラベルによる悪影響が大きなデータを優先的に除去することが示されました。さらに、D-Wave Quantum社の量子アニーラーを用いた場合、古典的なシミュレータと比較してウォールタイム(実際の経過時間)で約10倍~100倍の高速化を実現しました。
本成果はデータクレンジングという重要課題に量子技術を応用した世界初の実証例であり、大規模実データや医療・産業分野での展開が期待されます。
本成果は2025年 10月 29日科学誌 Scientific Reportsに掲載されました。

この成果の関連イベント・アプリ
論文情報
- タイトル
- Filtering out mislabeled training instances using black-box optimization and quantum annealing
- 著者
- Makoto Otsuka*, Kento Kodama, Keisuke Morita, Masayuki Ohzeki
- 掲載誌
- Scientific Reports
研究者情報
大関真之
教授大学院情報科学研究科
大塚誠
客員研究員東北大学大学院情報科学研究科
用語解説
- 注1. ブラックボックス最適化
- 可能な限り少ない回数でブラックボックス関数の性質を理解し、この関数を最適化することを実現する為の手法です。基本的な考え方を記載します。まず、既存のデータセットからブラックボックス関数をモデル化する代理関数を定義します。代理関数に基づき、ブラックボックス関数の次の探索点を決定する獲得関数を定義します。獲得関数を最適化することで得られた次の探索点を実際にブラックボックス関数で評価し、得られた入出力関係を既存のデータセットへ追加し、代理モデルを更新します。この手続きを反復することでブラックボックス関数の最適化を目指します。
- 注2. 量子アニーリング
- 極低温において、原子や分子などの非常に小さいスケールでは、結果が確率的に変動する「量子揺らぎ」が存在します。これを利用して揺らすことでひっかかりのない安定した配置へ誘導する量子アニーリングと呼ばれる技術が1998年に東京工業大学の当時大学院生であった門脇正史氏(現:デンソー株式会社)、西森秀稔名誉教授から提案されました。カナダのベンチャー企業であるD-Wave Systems社が量子アニーリングの原理に従ったコンピュータを製作して販売をしています。原子や分子の振る舞いを調べる量子シミュレーションや、様々な可能性の中で最も良い回答を探索する最適化問題、人工知能の基盤技術となる機械学習への応用などが注目されています。この量子アニーリングでは、量子揺らぎにより、デジタル信号処理における0と1の重ね合わせ状態を作ることができます。この重ね合わせを巧みに利用することで、どちらの状態にあるのが最も相応しいのか、組み合わせ最適化問題における解答を探索することができます。


