APP

超级简历 APP

扫码下载APP，随时随地改简历

面向海量异构大模型的AI Infra高维性能优化-A Star-杭州

薪资面议

面向海量异构大模型的AI Infra高维性能优化-A Star-杭州薪资面议

杭州

本科

26届

发布于 9月9日

职位描述

通过算法-系统-硬件协同优化，负责设计、实现、维护面向离散扩散模型的高效AI Infra推理框架，支撑AI Infra面向新推理范式的可能性
1、研发高效解码策略（如动态掩码调度、混合AR-Diffusion解码），提升生成速度与质量平衡；
2、设计面向dLLMs/dMLLMs的KV-Cache优化方案（如dKV-Cache、跨模态缓存复用），降低内存占用；
3、实现低比特量化（INT4）与算子融合，提升硬件利用率。

职位要求
1、熟练掌握PyTorch，有大模型推理优化（如sglang、vllm等）经验；
2、精通CUDA/OpenCL，具备高性能计算（算子优化、内存管理）或编译器开发能力；
3、熟悉扩散模型（如 Diffusion, flux）或自回归模型（如dpsk,qwen）的推理架构；
4、对计算机体系结构（GPU内存 hierarchy、NVLink）有深入理解；
5、发表过AI系统（OSDI/NSDI/SOSP）或机器学习（NeurIPS/ICML）顶会论文；
6、有KV-Cache优化、低比特量化或多模态模型部署实战经验，熟悉离散扩散模型（如D3PM、LLaDA、Dimple）或相关开源项目（如Diffusers库）；
7、前沿技术研究：跟踪AI Infra领域的最新研究进展，探索新的硬件架构、算法和系统优化技术。