跨模态自适应通用GUI Agent大模型-A Star-上海
薪资面议
跨模态自适应通用GUI Agent大模型-A Star-上海 薪资面议
上海
本科
26届
发布于 8月5日
职位描述
聚焦于突破现有 GUI 智能体在动态界面语义理解、跨平台操作泛化及复杂任务规划执行中的核心瓶颈,构建融合强化学习(RL)、多模态大模型(MLLM)与神经符号推理的通用基模型,实现对动态异构界面的自适应感知、跨场景任务的高效规划及安全可靠的自主操作。具体研究方向包括:
1、动态界面的分层强化学习框架:构建 “感知 - 推理 - 执行” 三级协同强化学习架构:解决视觉特征与功能语义的映射歧义;提升动态界面下的操作实时性与准确性,使得在主流 GUI 元素定位基准测试中实现不错的定位精度提升;
2、跨平台统一动作空间建模:基于纯视觉交互范式构建跨系统动作抽象模型,设计支持 Windows/macOS/Android 多平台的统一动作空间表征方法;解决异构界面下的操作泛化难题,使得在跨平台 GUI 混合任务集中实现不错的泛化性能提升;
3、复杂任务的安全博弈优化:针对多步任务的动态依赖与不确定性场景,,提升操作反馈模糊及异常场景下的错误恢复能力,使得在复杂 GUI 任务场景中实现异常恢复成功率的提升;
4、轻量级部署技术:探索模型量化压缩的协同优化方案,实现各种终端环境下的低延迟响应与轻量化部署。


职位要求
1、计算机科学、人工智能、机器学习、自动化等相关专业背景的博士研究生;
2、深入掌握强化学习、多模态大模型、神经符号推理等相关理论与技术,熟悉 PPO、MAML、CMDP、FRL 等算法原理及应用;
3、具备动态界面理解、跨平台泛化、复杂任务规划或端侧部署等相关领域的研究经验,有 GUI 智能体相关研究经历者优先;​
4、在相关领域国际顶级学术会议(如 NeurIPS、ICML、ICLR、CVPR 等)发表过高水平论文,或拥有相关核心技术专利者优先;
5、具备扎实的编程能力,熟练掌握 Python 等编程语言及 PyTorch、TensorFlow 等深度学习框架,能够独立开展实验设计与代码实现;​
6、具有良好的问题分析与解决能力、创新思维能力和团队协作精神,具备清晰的逻辑表达能力和较强的中英文文献阅读与写作能力。