「D-Wave量子アニーラを用いた音源分離手法」に関する論文がJPSJへ掲載されました!
複数話者が同時に発話する環境では、音声認識(ASR)の精度が大きく低下することが知られています。本研究では、音源分離の前処理技術として、Generalized Cross-Correlation(GCC)と Nonnegative Matrix Factorization(NMF)を組み合わせた、教師なし・ブラインド・オフライン型の音声分離手法を提案しました。
さらに、NMFで得られる非負行列の一部を二値化する「Nonnegative Binary Matrix Factorization(NBMF)」を導入し、音源分離に有効な音響特徴の抽出性能向上を検証しました。二値行列近似は組合せ最適化問題となるため、本研究では D-Wave 社の量子アニーラを活用し、高速かつ高品質な最適化の可能性についても評価しています。
実験の結果、D-Wave量子アニーラを用いたNBMFは、従来のNMFソルバと比較して、同一反復回数条件下でより高い音質および音声認識精度を達成しました。一方で、現状では1反復あたりの計算コストが大きく、リアルタイム処理や大規模応用に向けてはさらなる改善が必要であることも明らかとなりました。
本研究成果は、2026年5月21日付で日本物理学会誌 Journal of the Physical Society of Japan に掲載されました。
- タイトル
- Audio Source Separation via Nonnegative Binary Matrix Factorization Using D-Wave Quantum Annealer
- 著者
- Takuto Sasajima, Ami S. Koshikawa, Masayuki Ohzeki
- 掲載誌
- Journal of the Physical Society of Japan
大関真之
教授東北大学大学院情報科学研究科
越川亜美
客員研究員東北大学大学院情報科学研究科