面向大语言/多模态模型的KVCache显存和IO/bit位优化推理-A Star-杭州
薪资面议
面向大语言/多模态模型的KVCache显存和IO/bit位优化推理-A Star-杭州 薪资面议
杭州
本科
26届
发布于 9月9日
职位描述
1、负责研发软硬件协同的优化能力,提升阿里云训推场景在异构资源上计算性能,进一步提高资源利用率;
2、负责设计、实现、维护 AI 和高性能计算所需要的大模型推理场景的性能优化,聚焦模型通信场景的能力建设,完善集合通信、点对点通信等通信方式与推理框架的联合方案设计,推动提升推理性能。


职位要求
1、分布式系统、计算机体系结构、编译优化或通信与计算协同设计方向的博士研究生;
2、具备AI训推/推理计算性能分析与优化的经验,能深入分析AI模型在GPU平台上的性能瓶颈,提出并实施优化方案;针对分布式训练和推理系统,进行性能调优,提升系统的吞吐量和效率;
3、熟悉业界常见的优化栈(cuda/rocm/cutlass/ck/triton等),在高效的内存管理、通信优化(NvLink/Infiniband/RoCEv2等)关键技术上有实操经验;
4、分布式系统研发经验是加分项:设计和实现高效的分布式训练和推理框架,解决大规模分布式系统中的通信、同步和负载均衡问题;探索新型的分布式架构,提升系统的可扩展性和容错性;
5、前沿技术研究:跟踪AI Infra领域的最新研究进展,探索新的硬件架构、算法和系统优化技术;发表高水平学术论文,参与国际顶级会议(如ISCA、MICRO、OSDI、SOSP、ATC、NSDI等)。