职位描述
1、优化单服务实例的性能和成本:
•配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;
•结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;
•结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程;
2、异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能;
3、探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。
职位要求1、具备扎实的计算机基础知识、C++/Python编程能力,熟悉常见数据结构和设计模式;
2、具有很强的学习能力、复杂问题归纳梳理能力、沟通和团队协作能力,具备能够深度钻研技术的耐心;
3、有很强的学术研究能力和优秀的学术成果(AI领域顶会/顶刊论文)。