APP

超级简历 APP

扫码下载APP，随时随地改简历

面向大语言/多模态模型的KVCache显存和IO/bit位优化推理-A Star-杭州

薪资面议

面向大语言/多模态模型的KVCache显存和IO/bit位优化推理-A Star-杭州薪资面议

杭州

本科

26届

发布于 9月9日

职位描述

1、负责研发软硬件协同的优化能力，提升阿里云训推场景在异构资源上计算性能，进一步提高资源利用率；
2、负责设计、实现、维护 AI 和高性能计算所需要的大模型推理场景的性能优化，聚焦模型通信场景的能力建设，完善集合通信、点对点通信等通信方式与推理框架的联合方案设计，推动提升推理性能。

职位要求
1、分布式系统、计算机体系结构、编译优化或通信与计算协同设计方向的博士研究生；
2、具备AI训推/推理计算性能分析与优化的经验，能深入分析AI模型在GPU平台上的性能瓶颈，提出并实施优化方案；针对分布式训练和推理系统，进行性能调优，提升系统的吞吐量和效率；
3、熟悉业界常见的优化栈（cuda/rocm/cutlass/ck/triton等），在高效的内存管理、通信优化（NvLink/Infiniband/RoCEv2等）关键技术上有实操经验；
4、分布式系统研发经验是加分项：设计和实现高效的分布式训练和推理框架，解决大规模分布式系统中的通信、同步和负载均衡问题；探索新型的分布式架构，提升系统的可扩展性和容错性；
5、前沿技术研究：跟踪AI Infra领域的最新研究进展，探索新的硬件架构、算法和系统优化技术；发表高水平学术论文，参与国际顶级会议（如ISCA、MICRO、OSDI、SOSP、ATC、NSDI等）。