大模型算子优化方向访问学生(Research Intern)招聘
招聘单位:深圳市大数据研究院
工作地点:深圳市龙岗区
实习时长:≥3 个月(优先 6 个月及以上)
职位描述:
我们正在招募对大模型算子优化方向充满热情的访问学生 / 实习生,参与以下方向的探索与研发:
1.高性能 CUDA 算子开发:为 LLM 中的核心组件(如 Self-Attention、MoE、新型激活函数、标准化层等)从头设计和实现高性能的 CUDA Kernel。
2.深度性能优化:运用各种底层优化技术(如 Tensor Core 编程、Warp 级操作、Shared Memory 优化、流水线隐藏延迟等)对现有算子进行深度调优,充分挖掘 GPU 硬件性能。
3.融合算子创新:针对训练和推理中的特定模式,将多个小算子融合(Fusion)为一个大算子(如 FlashAttention、LayerNorm-Silu 融合等),以减少内存读写开销和 Kernel 启动开销。
4.计算图编译优化:探索子图分割、高效拓扑序等计算图变换的优化策略,以降低时间 / 空间开销
5.profiling 与瓶颈分析:使用 Nsight Systems/Compute 等工具对训练和推理全过程进行性能剖析,精准定位系统热点和性能瓶颈,并给出优化方案。
6.协同工作:与算法研究员紧密合作,理解其前沿模型结构对算子的新需求,并将其高效实现。
职位要求:
1.教育背景:
计算机科学、人工智能、电子工程等相关专业在读硕士 / 博士,或优秀高年级本科生
2.技术能力(满足至少 2 项):
(1)编程能力:具备出色的 C++/Python 编程能力,熟悉现代 C++(11/14/17)标准,具有良好的软件工程习惯。
(2)CUDA 基础:熟悉 CUDA 编程模型(线程层次结构、内存模型、同步),有实际的 CUDA 程序编写和调试经验。
(3)硬件兴趣:对计算机体系结构、并行计算有浓厚兴趣,渴望了解 GPU 如何工作。
(4)学习能力:具备强大的自主学习能力和解决问题的能力,对挑战性技术问题充满热情。
加分项:
1.有参与过 CUDA 算子和计算图编译器的开发、优化或相关项目(如课程大作业、科研项目、开源贡献)的经验。
2.熟悉常用的 GPU 性能分析工具,如 NVIDIA Nsight Systems, Nsight Compute, nvprof。
3.在相关领域的重要会议(ASPLOS, HPCA, MLSys, SC 等)或期刊上有论文发表。
4.知名竞赛获奖,如 ICPC 等
福利与支持:
1.接触百亿级参数大模型研发基础设施
2.与专业团队合作,成果有机会发表至国际重要会议
3.提供有竞争力的实习津贴
备注:
1.欢迎对大模型算子优化领域有热情的学生申请,无需满足全部技术要求
2.课题组将提供针对性指导,支持学术与工业