我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递):
1、大规模模型服务平台与智能调度系统设计:
•负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率;
•设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。
2、分布式基础设施与底层硬件优化:
•负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟;
•深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。
3、AI应用层运行时与算法协同优化:
•深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈;
•负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。
职位要求1、计算机科学、人工智能、数学、物理或相关专业;在分布式系统、计算机体系结构、操作系统、高性能计算等领域有深入研究者优先;
2、全栈系统视野与经验
•对大规模在线服务(特别是AI Serving)的架构有深刻理解,具备从应用请求到硬件执行的全链路性能分析、瓶颈定位和调优经验,深刻理解延迟、吞吐量、成本和可用性之间的复杂权衡;
•有以下一个或多个领域的研发与优化经验者优先:LLM推理服务系统(如vLLM, Triton, Ray Serve)、AI Agent框架、向量数据库或近似最近邻(ANN)库、图数据库或图计算引擎。
3、核心系统与底层优化能力:
•具备深厚的C++/Python编程能力和扎实的系统编程功底;
•精通GPU编程(CUDA)及相关的性能优化技术栈(如Cutlass, Triton),有高性能计算库或AI算子开发经验;
•熟悉分布式系统的核心组件与协议,对高性能网络通信(如RPC框架设计, RDMA)和资源编排(如Kubernetes)有实践经验。
4、前沿探索与问题解决能力:
•对AI Infra领域的系统性挑战充满热情,不满足于解决已知问题,能主动发现并定义新问题,并给出具备前瞻性的解决方案;
•跟踪AI系统领域的前沿进展,在相关顶级会议(如OSDI, SOSP, MLSys, ASPLOS, ISCA, NSDI等)上发表过论文者是重要的加分项;
•具备卓越的问题解决能力和owner精神,能主动驱动复杂跨团队项目的成功落地。