O2O: Tinh chỉnh các mô hình khuếch tán bằng học tăng cường thông qua phương pháp lai giữa hình ảnh sinh ra và hình ảnh thực

screenshot-2026-01-17-at-17-49-51

Các mô hình khuếch tán tiềm ẩn sinh ảnh từ văn bản (Generative text-to-image latent diffusion models – LDMs) gần đây đã đạt được những bước tiến đáng kể, tạo ra chất lượng sinh ảnh thuộc hàng tiên tiến nhất hiện nay. Việc tinh chỉnh (fine-tuning) các LDM nhằm căn chỉnh đầu ra hình ảnh phù hợp với sở thích của con người là một mối quan tâm lớn trong các ứng dụng hạ nguồn. Theo cách tiếp cận truyền thống, quá trình tinh chỉnh này phụ thuộc vào học có giám sát với các tập dữ liệu lớn, điều này không khả thi trong những kịch bản có dữ liệu hạn chế.

Như một giải pháp thay thế, một số thuật toán học tăng cường (Reinforcement Learning – RL) theo hướng on-policy dựa trên policy gradient đã cho thấy nhiều tiềm năng. Tuy nhiên, khả năng áp dụng của chúng vẫn bị giới hạn do yêu cầu phải có hàm phần thưởng (reward function) tường minh để đánh giá và chấm điểm hình ảnh trong quá trình tinh chỉnh.

Để khắc phục những hạn chế của các phương pháp tinh chỉnh LDM hiện có, chúng tôi đề xuất Off-policy On-policy Optimization (O2O) – một thuật toán RL theo policy gradient hoàn toàn mới. Không giống như các phương pháp RL truyền thống phụ thuộc vào hàm phần thưởng tường minh, O2O giới thiệu một chiến lược huấn luyện lai, kết hợp hình ảnh được sinh ra trong quá trình học on-policy và hình ảnh thực từ tập dữ liệu trong quá trình học off-policy. Cách tiếp cận này cho phép căn chỉnh LDM một cách hiệu quả với sở thích của con người ngay cả khi mức độ giám sát bị hạn chế.

Theo hiểu biết của chúng tôi, O2O là phương pháp đầu tiên tinh chỉnh các LDM bằng RL sử dụng tập dữ liệu văn bản–hình ảnh. Kết quả thực nghiệm cho thấy O2O liên tục vượt trội so với cả các phương pháp tinh chỉnh có giám sát và các phương pháp tinh chỉnh dựa trên RL trong các kịch bản dữ liệu ít, đồng thời đạt được chất lượng hình ảnh vượt trội.

TY - BOOKAU - Nguyen, HoaAU - Nguyen, Vinh-TiepAU - Luong, NgocAU - Nguyen, Thanh-SonPY - 2025/11/24SP - T1 - O2O: Fine-Tuning Diffusion Models with Reinforcement Learning Using a Hybrid of Generated and Real ImagesVL - ER -

Thông tin chi tiết và toàn văn bài nghiên cứu:
https://www.researchgate.net/publication/397895867_O2O_Fine-Tuning_Diffusion_Models_with_Reinforcement_Learning_Using_a_Hybrid_of_Generated_and_Real_Images

Gọi điện Zalo
Loading...