Jyotsna Shastry, and Shweta Agrawal. “Learnable Reward Weighting in Multimodal RLHF: A Proximal Policy Optimization Framework for Safe and Helpful Dialogue Alignment”. International Journal of Research and Review in Applied Science, Humanities, and Technology 3, no. 2 (June 1, 2026): 191–197. Accessed June 26, 2026. https://ijrasht.com/index.php/files/article/view/306.