大模型训练数据处理的文本去重和分类性能优化-A Star-杭州
薪资面议
大模型训练数据处理的文本去重和分类性能优化-A Star-杭州 薪资面议
杭州
本科
26届
发布于 9月9日
职位描述
团队介绍:
寻找顶尖的Data&AI复合人才,加入国际一流国内领先的阿里云自研大数据平台MaxCompute团队,共同构建和完善MaxCompute下一代AI原生的计算引擎。在这个团队,您将会和我们一同解决业界面临的超大规模网页文本数据的处理、去重、分类等计算任务的优化,从系统层面到算法实现层面,全面挑战和拓展业界在该领域计算效率的极限指标。
该职位会在MaxCompute Data+AI团队,基于分布式原生Python计算框架MaxFrame,进行大规模离线LLM推理在大规模文本处理场景中的研究和开发。
岗位职责:
1、大模型的量化调优,在较低内存和CPU算力的环境中,依然可以达到较高的token处理和生成速率;
2、常用推理框架(e.g. vLLM, Llama.cpp),在网页文本处理任务上的性能调优,特别是针对质量分计算或者打标场景的调优;
3、中低端GPU对于小参数LLM(1.5B/3B/7B/14B等规格)的推理性能调优。


职位要求
1、计算机科学、人工智能、数学或相关领域的博士学历;
2、具备扎实的工程能力,优良的编程风格,熟悉C++/Python等面向对象编程语言,以及常用设计模式;
3、具备一定的性能分析和调优经验;
4、有过PB级网页文本的数据和清洗经验;
5、在OSDI/SIGMOD/VLDB等顶级系统领域/大数据领域的会议上发表过论文;
6、熟悉vLLM推理框架,并在开源社区有贡献。