职位描述
ETLSQLJavaPythonScalaHadoopSparkMySQL
岗位职责:
1、数据处理:基于大数据平台构建稳定的ETL流程,构建高质量的AI可用的数据,沉淀可复用的数据资产;
2、向量检索:对接向量数据库集群,制定 Schema(标量+向量)、索引与分片策略;
3、构建文本/图像/表格等多模态向量化与入库流水线,保障导入/回填/删除/重建索引等生命周期管理与算法/应用协作,对接Embedding模型,实现召回→重排→答案生成的端到端服务;
4、数据质量:建立数据校验、血缘、告警与指标监控,保障数据服务高可用。
岗位要求:
1、编程基础扎实:熟练Python编程,掌握面向对象与工程化,并了解一门后端语言Scala/Java;
2.、数据处理能力:熟练掌握SQL;熟悉一种数据引擎或仓库(ClickHouse/MySQL/PostgreSQL/Elasticsearch 任一);
3、大数据能力:熟练掌握大数据处理引擎Hadoop/Spark,了解基本原理和调优逻辑;
4、向量数据库:熟练掌握向量数据库的基本山原理,完成过从向量生成到检索的闭环;
5、向量检索基础:理解 Embedding基本原理,了解向量维度、归一化、批量写入、去重与更新策略;
6、有任一实习/项目:RAG检索、智能问答、行业知识库、舆情/合规监控、推荐/相似度去重等优先考虑。