面向万亿参数大模型的PD分离解耦推理系统研究-A Star-北京
薪资面议
面向万亿参数大模型的PD分离解耦推理系统研究-A Star-北京 薪资面议
北京
本科
26届
发布于 9月9日
职位描述
在阿里云操作系统实验室,你将负责下一代MoE大模型推理系统的架构设计与核心实现。主要工作围绕Prefill-Decode分离(PD Disaggregation)与Expert Parallelism(EP)的端到端协同,持续优化Mooncake的KVCache系统,支撑千问、灵骏、PAI等阿里云关键AI业务。主要职责是:
1、深入理解并改进Mooncake、SGLang等开源推理框架;
2、设计Mooncake KVCache分层、弹性伸缩、故障自愈等核心模块,追求毫秒级延迟与极致吞吐;
3、结合最新硬件与操作系统能力优化大模型推理系统;
4、撰写顶会论文(SOSP/OSDI等),将创新回馈开源社区。


职位要求
1、计算机相关专业;
2、精通C++/Python/CUDA;
3、熟悉分布式推理系统,理解MoE、TP/PP/EP、NCCL、RDMA;
4、良好的英文读写与团队协作能力。
【加分项】
1、在OSDI/SOSP等顶会发表过论文;
2、主导或核心贡献过vLLM、SGLang、Mooncake、Dynamo等开源项目;
3、熟悉Kubernetes、Ray、KubeRay等云原生调度系统;
4、有GPU显存管理、KVCache、RDMA网络栈优化实战经验。