Yuki Ichihara | Research Portfolio

Publications

A Policy Gradient Primal‑Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees (Paper)
Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara, Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka Matsuo
RLC Workshop 2024
Evaluation of Best‑of‑N Sampling Strategies for Language Model Alignment (Paper)
Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Eiji Uchibe
TMLR
Theoretical Guarantees for Minimum Bayes Risk Decoding (Paper)
Yuki Ichihara, Yuu Jinnai, Kaito Ariu, Tetsuro Morimura, Eiji Uchibe
ACL 2025
Auto-Weighted Group Relative Preference Optimization for Multi-Objective Text Generation Tasks (To appear)
Yuki Ichihara, Yuu Jinnai
EMNLP Industry Track 2025
MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems (Paper)
Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Mitsuki Sakamoto, Ryota Mitsuhashi, Eiji Uchibe
Preprint

強化学習全般・自然言語処理の強化学習関連や推論部分に興味があります。