基于大语言模型和OpenAPI的云平台智能运维系统-A Star-杭州
薪资面议
基于大语言模型和OpenAPI的云平台智能运维系统-A Star-杭州 薪资面议
杭州
本科
26届
发布于 8月5日
职位描述
1、负责研发AIOps系统,通过LLM结合OpenAPI/MCP等技术,实现云客户的自动化运维,提升运维效率和稳定性;
2、设计与开发前沿AI智能体: 构思、原型化并评估新颖的、基于LLM的自主智能体。这些智能体需要能够基于云平台产品和OpenAPI执行端到端的IT事件管理任务,包括智能日志分析、多模态异常检测、根本原因分析(RCA)以及自动化修复方案的生成与执行 ;  
3、探索与实施尖端LLM技术: 深入研究并应用最先进的LLM技术,包括但不限于:
•MCP为客户侧AIOps系统提供与云平台OpenAPI进行集成的标准化接口;
•利用检索增强生成(RAG)为模型提供丰富的、上下文感知的运维数据(如日志、指标、追踪);
•设计和实现多智能体协作框架,让多个专用智能体协同解决复杂的系统故障;
•通过模型微调(Fine-tuning)和提示工程(Prompt Engineering),提升模型在特定运维任务上的性能和可靠性;
4、解决核心研究挑战: 专注于攻克将LLM应用于AIOps领域的关键难题,例如:
•研究并提出创新方法以减轻模型的“幻觉”(Hallucination)问题,确保在生产环境中的决策可靠性,例如通过引入外部知识库或标准操作程序(SOPs)进行约束;
•开发资源高效型(Resource-Efficient)模型和算法,在保证卓越性能的同时,解决LLM高昂的计算成本和延迟问题; 
5、推动科学严谨性与可复现性: 建立和利用科学的评估基准与框架(Benchmark),对您所研发的模型和智能体进行严格、可复现的性能评测,并与业界SOTA(State-of-the-art)方案进行比较; 
6、发表与分享研究成果: 将您的创新工作和实验发现撰写成高质量的学术论文,并在全球顶级的AI、系统和软件工程会议(如ICSE, FSE, OSDI, NSDI, KDD, VLDB等)上发表,引领该领域的学术发展方向。


职位要求
1、拥有计算机科学或相关领域的博士学位,研究方向为人工智能、机器学习、自然语言处理或分布式系统;
2、在上述领域的顶级学术会议或期刊上拥有出色的论文发表记录;
3、对现代LLM(尤其是基于Transformer的架构)有深刻的理解,并具备应用、微调和评估这些模型的实践经验;
4、具备出色的编程能力,精通Python及至少一种主流深度学习框架(如PyTorch, TensorFlow)。
【加分项】
1、熟悉云计算产品、技术和OpenAPI,了解如何构建基于云的运维系统;
2、有构建能够与外部工具或环境交互的AI智能体(AI Agent)的实际经验;
3、熟悉现代云原生技术栈,包括微服务架构、容器化(Kubernetes)以及可观测性工具(如Prometheus, Jaeger, ELK Stack); 
4、对AIOps领域的当前研究现状和公开基准(如AIOpsLab, OpenRCA, LogEval)有深入了解者优先; 
5、具备处理和推理异构数据(如日志、指标、追踪)的经验,以解决复杂的根因分析问题;
6、对创建领域专用语言模型(如BERTOps)或探索强化学习在智能体优化中的应用有浓厚兴趣。