职位描述
PyTorch人工智能机器人硬件
【职位描述】
我们正在寻找对大语言模型(LLM)的底层原理、性能优化和高效预训练充满热情的算法实习生。您将加入我们的核心研发团队,主要负责LLM预训练阶段的算法设计、优化与实现,包括模型架构的探索、训练稳定性的提升、大规模分布式训练的优化等。我们的目标是基于业务需求,设计并训练对硬件计算友好的语言模型,从根本上突破模型的性能和训练效率极限,加速LLM在人形机器人、自动驾驶、多模态等前沿领域的落地。
【工作职责】
1. LLM预训练算法研发与实现: 主导1~7B参数级别的Dense以及MoE Transformer模型以及其他前沿架构在预训练阶段的设计、实验与优化,以提升模型的基础能力和效率。
2. 基准测试与性能优化: 负责模型训练过程中的关键性能指标监测与优化,特别是MMLU, GSM8K, MATH等常见标准化测试的表现。通过算法迭代,持续提高模型在理解、推理和泛化能力方面的分数。
3. 训练稳定性与效率提升: 负责分析和解决超大规模训练过程中的数值不稳定、梯度爆炸/消失等问题,引入和实现如混合精度训练、梯度裁剪、学习率调度等优化策略。
4. 前沿技术追踪与转化: 紧密追踪全球LLM预训练、Scaling Law、新型优化器(如AdamW、Lion)等最新研究进展,评估并将业界顶尖的算法创新快速转化为我们的核心竞争力。
5. 跨团队协作: 与数据工程师紧密合作,分析数据对预训练效果的影响,并与系统/硬件工程师协作,共同调优底层计算资源以实现最高训练吞吐。
【岗位需求】
1. 教育背景: 计算机、人工智能、数学、物理等相关专业硕士及以上学位,有顶级会议(如NeurIPS, ICML, ICLR, AAAI等)论文发表经验者优先。
2. 核心算法理解: 深入理解Transformer、GPT、LLaMA、Qwen等主流模型架构的底层数学原理与训练细节,对Linear attention、RMSNorm、DynamicTanh (DyT)、Mixture of Experts (MoE)等关键模块有独到见解。
3. 分布式训练实战经验: 具备主导或深度参与LLM预训练的实际经验,熟悉PyTorch、DeepSpeed、Megatron-LM等分布式训练框架。
4. 专业素养: 具备严谨的实验设计和结果分析能力,能够主动发现并解决训练过程中的复杂算法问题。
5. 沟通协作: 具备优秀的沟通能力和团队合作精神,能够与数据、系统、硬件等不同背景的团队高效协作。
6. 加分项:有使用过大于128张GPU进行LLM预训练等经验。
工作地址
广东省/深圳市/南山区 深圳湾科技生态园12栋B座47层