职位描述
数据分析数据挖掘SQLPythonPandas视频
岗位职责(具体工作内容)
1、数据处理与整理:协助团队进行大模型内容安全相关数据的收集、清洗、标注与整理工作,包括但不限于违规文本、图片、视频等多模态数据,确保数据的准确性、完整性和可用性,为模型训练与优化提供高质量数据支撑。
2、数据挖掘与分析:运用数据挖掘算法和数据分析工具,对海量内容安全数据进行探索性分析,挖掘违规内容的特征模式、分布规律及演变趋势,如违规话术变体、新型违规场景等,形成结构化的分析报告。
3、模型效果评估与优化辅助:参与机审模型的效果评估工作,协助计算准确率、召回率等关键指标,分析模型误判、漏判案例的原因;结合数据分析结果,提出模型优化建议,如特征工程改进、阈值调整等,助力提升机审模型的内容识别能力。
4、数据可视化与报告撰写:利用可视化工具(如 Tableau、Matplotlib 等)将分析结果转化为直观的图表,定期撰写数据分析报告,清晰呈现数据洞察、模型表现及优化进展,为团队决策提供数据依据。
5、跨团队协作与任务支持:配合算法工程师、安全运营等团队完成临时数据相关任务,协助推进内容安全防护体系的迭代升级,参与团队内部的技术分享与讨论。
6、参与大模型安全相关的合规工作。
任职资格(学历、目标院校、语言、技能、性格等要求)
1、学历背景:在读本科以上学历,计算机科学与技术、数据科学、统计学、数学、信息安全等相关专业优先。
2、技能要求
具备扎实的数学和统计学基础,了解常见的数据挖掘算法(如分类、聚类、回归等)的基本原理。
熟练掌握至少一种编程语言(Python 优先),能够运用 Pandas、NumPy、Scikit-learn 等数据处理与分析库完成数据操作。
熟悉 SQL 语言,能够熟练进行数据库查询、数据提取与汇总;具备数据可视化能力,能使用 Matplotlib、Seaborn 或 Tableau 等工具制作图表者优先。
了解大模型基本原理,对内容安全、自然语言处理(NLP)等领域有浓厚兴趣者优先。
2、素质要求
具备较强的逻辑思维能力和问题分析能力,能够快速理解业务需求并转化为数据分析任务。
工作认真负责、细心严谨,具备良好的沟通协调能力和团队合作精神。
具备较强的自主学习能力,能够主动跟进数据挖掘、内容安全领域的新技术与新趋势。
3、其他要求
保证每周至少 4天实习时间,持续实习 6个月及以上者优先。
有数据挖掘、数据分析相关项目经验或内容安全相关实习经历者优先。
具备良好的保密意识,严格遵守团队数据安全管理规定。
工作地址
北京/弘源·新时代-北京市海淀区上地西路28号弘源·新时代B座C座