
テキストから画像を生成する潜在拡散モデル(Generative text-to-image latent diffusion models:LDMs)は近年大きな進展を遂げ、最先端レベルの画像生成品質を実現している。LDMの出力画像を人間の嗜好に整合させるためのファインチューニングは、下流アプリケーションにおける重要な課題である。従来、このファインチューニングは大規模データセットを用いた教師あり学習に依存してきたが、データが限られた状況では現実的ではない。
代替手法として、policy gradient に基づく on-policy 強化学習(Reinforcement Learning:RL)アルゴリズムが一定の有効性を示してきた。しかし、これらの手法は、ファインチューニング中に画像を評価・スコアリングするための 明示的な報酬関数(reward function) を必要とする点で、適用範囲が制限されている。
既存のLDMファインチューニング手法の限界を克服するために、本研究では Off-policy On-policy Optimization(O2O) という新しい policy gradient 型の強化学習アルゴリズムを提案する。O2Oは、明示的な報酬関数に依存する従来のRL手法とは異なり、on-policy 学習における生成画像と、off-policy 学習におけるデータセット由来の実画像を組み合わせたハイブリッドな学習戦略を導入している。このアプローチにより、限定的な教師信号の下でも、LDMを人間の嗜好に効果的に整合させることが可能となる。
我々の知る限り、O2Oは テキスト–画像データセットを用いてRLによりLDMをファインチューニングする初の手法である。実験結果から、O2Oはデータ量が少ないシナリオにおいて、教師あり学習およびRLベースのファインチューニング手法の両方を一貫して上回り、優れた画像生成品質を達成することが示された。
TY - BOOKAU - Nguyen, HoaAU - Nguyen, Vinh-TiepAU - Luong, NgocAU - Nguyen, Thanh-SonPY - 2025/11/24SP - T1 - O2O: Fine-Tuning Diffusion Models with Reinforcement Learning Using a Hybrid of Generated and Real ImagesVL - ER -
