通过算法-系统-硬件协同优化,负责设计、实现、维护面向离散扩散模型的高效AI Infra推理框架,支撑AI Infra面向新推理范式的可能性
1、研发高效解码策略(如动态掩码调度、混合AR-Diffusion解码),提升生成速度与质量平衡;
2、设计面向dLLMs/dMLLMs的KV-Cache优化方案(如dKV-Cache、跨模态缓存复用),降低内存占用;
3、实现低比特量化(INT4)与算子融合,提升硬件利用率。
职位要求1、熟练掌握PyTorch,有大模型推理优化(如sglang、vllm等)经验;
2、精通CUDA/OpenCL,具备高性能计算(算子优化、内存管理)或编译器开发能力;
3、熟悉扩散模型(如 Diffusion, flux)或自回归模型(如dpsk,qwen)的推理架构;
4、对计算机体系结构(GPU内存 hierarchy、NVLink)有深入理解;
5、发表过AI系统(OSDI/NSDI/SOSP)或机器学习(NeurIPS/ICML)顶会论文;
6、有KV-Cache优化、低比特量化或多模态模型部署实战经验,熟悉离散扩散模型(如D3PM、LLaDA、Dimple)或相关开源项目(如Diffusers库);
7、前沿技术研究:跟踪AI Infra领域的最新研究进展,探索新的硬件架构、算法和系统优化技术。