About me

I am a PhD candidate in Computer Science at UIUC, advised by Prof. Tong Zhang and Prof. Huan Zhang. Previously, I earned my bachelor’s and master’s degrees from the Department of Automation at Tsinghua University and CSE, HKUST. My current research interests lie in Foundation Models for Agents, Trustworthy LLMs/VLMs, and Deep Reinforcement Learning. My long-term goal is to develop agent foundation models with strong perception, reasoning, and planning capabilities, enabling scalable and reliable autonomous systems.

News

🌟 (2026.6) Check out our recent work: OpenWebRL studies online multi-turn RL for visual web agents, and Orchard explores agentic infrastructure!
🌟 (2026.4) Check out our recent ICML 2026 work ReCAP on VLMs for visual CAPTCHA-solving agents, as well as our ACL 2026 paper VAF on how webpage visual attributes influence VLM decision-making. Congrats to all co-authors!
🌟 (2026.2) We released GUI-Libra, a data-efficient post-training receipe for GUI agents that uses 81K open-source data to achieve strong performance on online environments. Check out our paper and code for more details!
🎉 (2026.1) BEAT and DROCO are accepted to ICLR 2026. Congrats to all co-authors!
🎉 (2025.11) MiCRo won the EMNLP 2025 Outstanding Paper Award. Huge congrats to the team!
🌟 (2025.10) We released Embodied Reasoning Agent (ERA), a training recipe for VLM-based embodied agents with enhanced reasoning and grounding capability. Explore more on our project page.
🎉 (2025.9) GUI-Actor and ADG are accepted to NeurIPS 2025! MergeBench is accepted to the Datasets & Benchmarks Track! Congrats to all co-authors!
🎉 (2025.5) EmbodiedBench is accepted to ICML 2025 as an oral paper! Thanks to my co-authors!

Selected Projects (Led or Co-Led)

Multimodal GUI Agent and Embodied Agent

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents.
Preprint 2026
Rui Yang$^*$, Qianhui Wu$^*$, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao.
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL.
Preprint 2026 [code] [website]
Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baolin Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning.
Preprint 2025 [code] [website]
Hanyang Chen$^*$, Mark Zhao$^*$, Rui Yang$^*$, Qinwei Ma, Ke Yang, Kangrui Wang, Hao Bai, Zhenhailong Wang, Jiarui Yao, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang.
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents.
ICML 2025 Oral [code] [website]
Rui Yang$^*$, Hanyang Chen$^*$, Junyu Zhang$^*$, Mark Zhao$^*$, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang.
GUI-Actor: Attention-based Grounding with Verifiable Action Head for GUI Agents.
NeurIPS 2025 [code] [website]
Qianhui Wu$^*$, Kanzhi Cheng$^*$, Rui Yang$^*$, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao.

Multimodal Math Reasoning

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models.
ICLR 2025 [code] [website]
Chengke Zou $^*$, Xingang Guo $^*$, Rui Yang $^*$, Junyu Zhang, Bin Hu, Huan Zhang.

ML for LLMs

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs.
NeurIPS 2024 [code]
Rui Yang, Ruomeng Ding, Yong Lin, Huan Zhang, Tong Zhang.
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment.
ICML 2024 [code]
Rui Yang $^*$, Xiaoman Pan $^*$, Feng Luo $^*$, Shuang Qiu $^*$, Han Zhong, Dong Yu, Jianshu Chen.
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning.
EMNLP 2025 Outstanding Paper
Jingyan Shen$^*$, Jiarui Yao$^*$, Rui Yang$^*$, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao.

Robust Offline RL

Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling.
ICLR 2025
Jiawei Xu $^*$, Rui Yang $^*$, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han.
Towards Robust Offline Reinforcement Learning under Diverse Data Corruption.
ICLR 2024 Spotlight [code]
Rui Yang $^*$, Han Zhong $^*$, Jiawei Xu $^*$, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang.
RORL: Robust Offline Reinforcement Learning via Conservative Smoothing.
NeurIPS 2022 Spotlight [code]
Rui Yang $^*$, Chenjia Bai $^*$, Xiaoteng Ma, Zhaoran Wang, Chongjie Zhang, Lei Han.

Goal-conditioned RL

What Is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL?.
ICML 2023 [code]
Rui Yang, Yong Lin, Xiaoteng Ma, Hao Hu, Chongjie Zhang, Tong Zhang.
Rethinking Goal-conditioned Supervised Learning and Its Connection to Offline RL.
ICLR 2022 [code]
Rui Yang, Yiming Lu, Wenzhe Li, Hao Sun, Meng Fang, Yali Du, Xiu Li, Lei Han, Chongjie Zhang.

Experiences

Research Intern at Apple Foundation Model, 2026.
Research Intern at Microsoft Research, Redmond (Deep Learning Group), 2025.
Research Intern at Tencent AI Lab and Robotics X Lab, 2020-2022 (Multiple internship terms).
Machine Learning Intern at Meituan, 2019.

Services

Conference Reviewer: ICML, ICLR, NeurIPS (Top Reviewer 2023), ACL/ARR, ICRA, AAMAS.

Journal Reviewer: IEEE Robotics and Automation Letters (RA-L), IEEE Transactions on Neural Networks and Learning Systems (TNNLS), IEEE Transactions on Artificial Intelligence (TAI), Machine Learning, Journal of Artificial Intelligence Research.

Teaching Assistant: COMP 4211 Machine Learning, HKUST; COMP 1021 Introduction to Computer Science, HKUST

Hobbies

In my leisure time, I enjoy sports like running, table tennis, and swimming. During my time at Tsinghua University, I was an amateur long-distance runner. In 2019, I completed a half marathon (21.0975 km) in 1 h 30 min and a full marathon (42.195 km) in 3 h 36 min. However, since starting my PhD I haven’t had time for regular running training, so I’ve let it slide. Hopefully I’ll get a chance to update my record once I graduate🙂.

Rui Yang