端侧大模型推理工程师-小爱-(A218975)
薪资面议
端侧大模型推理工程师-小爱-(A218975) 薪资面议
北京
本科
0
发布于 8月7日
职位描述
PythonC++硬件
工作内容: 1. 负责端侧高性能大模型推理框架开发,充分挖掘后端硬件的算力,构建业界性能领先的AI框架; 2. 负责小爱同学各业务大语言模型和多模态大模型落地到各种端侧设备上,包含车、手机、IoT设备等; 3. 负责大模型低比特量化算法研究和开发,落地于小爱同学大模型业务; 4. 负责业界大模型推理技术的跟踪调研,以及学术界技术的落地可行性分析。 任职要求: 1. 了解业界主流大模型推理框架,深入理解MNN-LLM、vLLM、SGLang、TensorRT-LLM 等开源框架的设计与实现,具备框架开发经验者优先; 2. 掌握大模型低比特量化技术,具备大模型(如 AWQ, GPTQ, SpinQuant, Seq-MSE 等)的低比特(INT4)量化实践经验,熟悉相关算法原理与优化技巧; 3. 熟悉大模型推理核心优化技术,深入理解并掌握关键推理优化技术,包括但不限于:投机推理、Chunk Prefill、Prompt Cache、FlashAttention系列优化、高效KVCache管理等; 4. 了解主流开源大模型的架构及演进,熟悉 Llama、Qwen、DeepSeek 等大模型结构特点,持续关注学术界与工业界大模型架构的最新动态与发展趋势; 5. 具备端侧硬件优化能力: - 熟悉端侧CPU/GPU通用硬件编程(如 SIMD 指令集优化); - 了解Arm最新计算硬件CME者优先; - 熟悉至少一款主流NPU(如高通、联发科、海思)的硬件特性及其推理部署工具链; 6. 扎实的工程能力,精通 C++ 和 Python 编程语言。
工作地址
北京/北京/海淀区 西二旗中路33号小米移动互联网产业园
相似职位推荐