Teaching language models to write faster vectorized code

Shangzhan Li, Xinyu Yin, Xuanyu Jin, Ye He, Yuxin Zhou, Yuxuan Li, Xu Han, Wanxiang Che, Qi Shi, Ting Liu, Maosong Sun

Explicit vectorization using hardware intrinsics remains critical for high-performance computing, but LLMs struggle due to limited training data and strict instruction constraints. AutoVecCoder addresses this with two components: VecPrompt, a data synthesis pipeline that injects domain-specific intrinsic knowledge, and VecRL, reinforcement learning aligned with execution efficiency. The resulting 8B parameter model achieves state-of-the-art results on SimdBench's SSE and AVX subsets, generating code that sometimes surpasses compiler -O3 optimizations. Intended for systems programmers and performance-critical application developers.