Generative policies that learn multimodal actions in one step

Zeyuan Wang, Da Li, Yulin Chen, Yuehu Gong, Yanming Guo, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu

Standard RL policies face a tradeoff: Gaussian policies are fast but struggle with multimodal action distributions, while generative policies handle complex behaviors but require iterative sampling. This work proposes Stochastic MeanFlow Policies (SMFP), which use a learned transformation of Gaussian noise to generate expressive, multimodal actions—retaining tractable entropy and one-step efficiency. Trained via mirror descent with entropy regularization, SMFP improves performance over both conventional and generative baselines across seven MuJoCo benchmarks while maintaining fast inference.