Xiong-Hui Chen | Publications

ArXiv

StepFun-Prover Preview: Let’s Think and Verify Step by Step
[ Link ]

Shijie Shang, Ruosi Wan, Yue Peng, Yutong Wu, Xiong-Hui Chen , Jie Yan, and Xiangyu Zhang.

In ArXiv. 2025.
ArXiv

Generalist Reward Models: Found Inside Large Language Models
[ Link ]

Yi-Chen Li, Tian Xu, Yang Yu, Xuqin Zhang, Xiong-Hui Chen , Zhongxiang Ling, Ningjing Chao, Lei Yuan, and Zhi-Hua Zhou.

In ArXiv. 2025.
ArXiv

Group Sequence Policy Optimization
[ Link ]

Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen , Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, and Junyang Lin.

In ArXiv. 2025.
ArXiv

NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios
[ Link ]

Songyi Gao, Zuolin Tu, Rong-Jun Qin, Yi-Hao Sun, Xiong-Hui Chen , and Yang Yu.

In ArXiv. 2025.

ArXiv

A Survey on Model-based Reinforcement Learning
[ Link ]

Fan-Ming Luo, Tian Xu, Hang Lai, Xiong-Hui Chen , Weinan Zhang, and Yang Yu.

In ArXiv. 2022.
ArXiv

Offline Reinforcement Learning with Causal Structured World Models
[ Link ]

Zheng-Mao Zhu, Xiong-Hui Chen , Hong-Long Tian, Kun Zhang, and Yang Yu.

In ArXiv. 2022.

2023

TPAMI

Offline Model-Based Adaptable Policy Learning for Decision-Making in Out-of-Support Regions
[ Link Code Appendix ]

Xiong-Hui Chen , Fan-Ming Luo, Yang Yu, Qingyang Li, Zhiwei Qin, Wenjie Shang, and Jieping Ye.

In IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023.

2025

NeurIPS

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
[ Link ]

Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xiong-Hui Chen , Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, and Junyang Lin.

In NeurIPS. 2025.
ICLR

AFlow: Automating Agentic Workflow Generation (Oral)
[ Link Code ]

Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xiong-Hui Chen , Jiaqi Chen, Mingchen Zhuge, Xin Cheng, Sirui Hong, Jinlin Wang, Bingnan Zheng, Bang Liu, Yuyu Luo, and Chenglin Wu.

In The 13th International Conference on Learning Representations. 2025.

2024

NeurIPS

KALM: Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts
[ Link Website Zhihu ]

Jing-Cheng Pang, Si-Hang Yang, Kaiyuan Li, Jiaji Zhang, Xiong-Hui Chen , Nan Tang, and Yang Yu.

In Advances in Neural Information Processing Systems 37. 2024.
NeurIPS

Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting (Oral)
[ Link Website Zhihu ]

Xiong-Hui Chen , Ziyan Wang, Yali Du, Shengyi Jiang, Meng Fang, Yang Yu, and Jun Wang.

In Advances in Neural Information Processing Systems 37. 2024.
ICML

Deep Demonstration Tracing: Learning Generalizable Imitator Policy for Runtime Imitation from a Single Demonstration
[ Link Code Website ]

Xiong-Hui Chen , Junyin Ye, Hang Zhao, Yi-Chen Li, Xu-Hui Liu, Haoran Shi, Yu-Yan Xu, Zhihao Ye, Si-Hang Yang, Anqi Huang, Kai Xu, Zongzhang Zhang, and Yang Yu.

In The 41st International Conference on Machine Learning. 2024.
ICML

Policy-conditioned Models are More Generalizable
[ Link Code Website ]

Ruifeng Chen, Xiong-Hui Chen^* , Yi-Hao Sun, Siyuan Xiao, Minhui Li, and Yang Yu.

In The 41st International Conference on Machine Learning. 2024.
ICLR

Policy Rehearsing: Training Generalizable Policies for Reinforcement Learning
[ Link ]

Chengxing Jia, Chenxiao Gao, Hao Yin, Fuxiang Zhang, Xiong-Hui Chen , Tian Xu, Lei Yuan, Zongzhang Zhang, Yang Yu, and Zhi-Hua Zhou.

In The 12th International Conference on Learning Representations. 2024.
ICLR

Language Model Self-improvement by Reinforcement Learning Contemplation
[ Link ]

Jing-Cheng Pang, Pengyuan Wang, Kaiyuan Li, Xiong-Hui Chen , Jiacheng Xu, Zongzhang Zhang, and Yang Yu.

In The 12th International Conference on Learning Representations. 2024.

2023

NeurIPS

Adversarial Counterfactual Environment Model Learning (Spotlight)
[ Link Code ]

Xiong-Hui Chen , Yang Yu, Zheng-Mao Zhu, Zhihua Yu, Zhenjun Chen, Chenghe Wang, Yinan Wu, Hongqiu Wu, Rong-Jun Qin, Ruijin Ding, and Fangsheng Huang.

In Advances in Neural Information Processing Systems 36. 2023.
NeurIPS

Natural Language Instruction-following with Task-related Language Development and Translation
[ Link Code ]

Jing-Cheng Pang, Xinyu Yang, Si-Hang Yang, Xiong-Hui Chen , and Yang Yu.

In Advances in Neural Information Processing Systems 36. 2023.
IROS

Object-Oriented Option Framework for Robotics Manipulation in Clutter
[ Link Code ]

Pang Jing-Cheng, Young Stalin, Xiong-Hui Chen , Xinyu Yang, Yang Yu, Mas Ma, Ziqi Guo, Howard Yang, and Bill Huang.

In 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2023.
ICDE

Sim2Rec: A Simulator-based Decision-making Approach to Optimize Real-world Long-term User Engagement in Sequential Recommender Systems
[ Link Code ]

Xiong-Hui Chen , Bowei He, Yang Yu, Qingyang Li, Zhiwei (Tony) Qin, Wenjie Shang, Jieping Ye, and Chen Ma.

In Proceedings of the 39th IEEE International Conference on Data Engineering. 2023.

2022

NeurIPS

NeoRL: A Near Real-world Benchmark for Offline Reinforcement Learning
[ Link Code Zhihu ]

Rong-Jun Qin, Xingyuan Zhang, Songyi Gao, Xiong-Hui Chen , Zewen Li, Weinan Zhang, and Yang Yu.

In Advances in Neural Information Processing Systems 35 Datasets and Benchmarks Track. 2022.
KDD

A Simulator-based Decision-Making Approach to Sequential Recommender Systems with Application in Ride-hailing Platform
[ Link Code ]

Xiong-Hui Chen , Yang Yu, Qingyang Li, Bowei He, Zhiwei (Tony) Qin, Wenjie Shang, and Jieping Ye.

In the 25th ACM SIGKDD Conference on Knowledge Discovery and Data Mining Workshop on Decision Intelligence and Analytics for Online Marketplaces. 2022.

2021

NeurIPS

Cross-modal Domain Adaptation for Cost-Efficient Visual Reinforcement Learning
[ Link Code ]

Xiong-Hui Chen , Shengyi Jiang, Feng Xu, Zongzhang Zhang, and Yang Yu.

In Advances in Neural Information Processing Systems 34. 2021.
NeurIPS

Offline Model-based Adaptable Policy Learning
[ Link Code ]

Xiong-Hui Chen , Yang Yu, Qingyang Li, Fan-Ming Luo, Zhiwei (Tony) Qin, Wenjie Shang, and Jieping Ye.

In Advances in Neural Information Processing Systems 34. 2021.

2020

DAI

Efficient Exploration by Novelty-Pursuit
[ Link Code ]

Ziniu Li, and Xiong-Hui Chen^* .

In Proceedings of the 2nd International Conference on Distributed Artificial Intelligence. 2020.

2019

AAMAS

Reinforcement Learning with Derivative-Free Exploration
[ Link Code ]

Xiong-Hui Chen , and Yang Yu.

In Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems. 2019.

Publications

Preprints

Manuscripts

Papers