简历模板简历修改

名企热招求职攻略

APP

超级简历 APP

扫码下载APP，随时随地改简历

RLHF强化学习算法实习生(A94221)

250-500/天

RLHF强化学习算法实习生(A94221) 250-500/天

深圳

硕士

5天/周

3个月

发布于 10月15日

职位描述

PyTorch人工智能机器人

【职责描述】我们致力于推动强化学习（Reinforcement Learning, RL）在人形机器人运动控制、大语言模型推理优化、和具身智能体（Embodied AI）领域的突破性应用。现招募具备深厚RL技术背景的算法工程师，参与从算法设计、仿真训练到真实场景部署的全链路研发，探索AI与物理世界的深度融合。 1. 研究大语言模型RLHF阶段的广义强化算法，提升大模型的能力，探索大模型的自我进化之路； 2. 研究大模型驱动的智能体算法，包括但是不局限于ReACT、Voyager、WebGPT、AutoGPT； 3. 撰写技术报告和论文，分享研究成果，参与内外部的技术交流和合作，推动团队技术水平的提升，提高团队在行业内的影响力。【职位要求】 1. 具备扎实的机器学习基础和强悍的编码能力，能熟练使用 PyTorch； 2. 3年左右工作经验，在大模型训练和强化学习至少一个方向上有经验； 3. 对人工智能和大模型技术有强烈的兴趣和热情，愿意不断学习和探索新技术。【加分项】 1. 有 ICML、ICLR、NeurIPS、ACL、CVPR 等顶级学术会议发表过有影响力研究成果的优先； 2. 在 ACM/ICPC、NOI/IOI、Kaggle 等编程/AI 比赛获奖者优先； 3. 主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先。

工作地址

广东省/深圳市/南山区深圳湾科技生态园12栋B座

相似职位推荐

上一个：海外运营实习生下一个：中国学生计划-Data and Analytics

韩女士本月活跃

小鹏汽车 - 人力资源主管

韩女士 - 人力资源主管

Hi~对我发布的职位感兴趣吗？打开App和我聊聊吧~

公司信息

公司介绍小鹏汽车成立于2014年中，以“三电一屏”开发为切入点，进行互联网汽车核心系统开发。小鹏汽车成立的初衷是：“造年轻人喜爱的互联网汽车”，我们期待用全新的技术和服务，来改变用户购买、使用和维护汽车的模式，计划2017年内首批车辆上市。融资进展小鹏汽车项目一启动即获得阿里巴巴、YY等互联网公司高管数百万美元的天使投资； 2016年3月，团队完成Pre-A轮融资，更多互联网精英及VC机构成为小鹏汽车投资人。 2017年6月，小鹏汽车获得优车产业基金22亿元的A轮投资。小鹏汽车将与神州优车集团联手打造完整汽车服务体系，完成从研发、生产、销售到售后的完整布局。员工福利小鹏汽车为员工提供优渥的薪资和期权。同时随着小鹏汽车的不断壮大，地方政府对科技创新企业的重视及帮持，小鹏汽车还为员工提供上百套高级人才公寓，包括50㎡的单身公寓、90㎡家庭公寓、140㎡豪华公寓。企业文化小鹏汽车以独特的“班级文化”作为企业文化的基石，推崇平等、开放，同事之间以“同学”相称，使得大家拥有更轻松的工作氛围。同时丰富的社团活动，也让大家工作之余能更好地享受生活。酷玩小分队：VR、无人机、机器人等智能硬件提前尝鲜；豪驾俱乐部：游艇、豪车不定期体验；小鹏读书会：员工队伍快速学习与迭代；鹏派音乐：以歌会友；人才构成团队成员主要来自广汽、比亚迪、福特、宝马、德尔福等知名整车与大型零部件公司，以及阿里巴巴、腾讯、三星、华为等互联网公司与科技公司。人才招聘快速发展中的小鹏汽车目前拥有近三百名员工，伴随着创新技术的驱动，当下的汽车产业面对电动化、智能化、网联化等全新的发展趋势，充满了未知的机遇，也伴随着许多挑战。因此，我们希望找到人群中那个勇敢的、有创新精神的、与众不同的你加入小鹏汽车，一起拥抱变化，迎接未来。

公司在招职位查看全部

自动驾驶用户运营实习生(A102527)

广州经验不限硕士

RLHF强化学习算法实习生(A94221)

深圳经验不限硕士

大语言模型算法实习生(可接受base深圳、上海、北京)

上海经验不限硕士

大语言模型应用开发实习生(base深圳)

上海经验不限本科

大语言模型预训练算法实习生(base深圳)

深圳经验不限硕士

©2025 超级简历WonderCV wondercv.com | 京ICP备17055181号