深圳大模型算子优化访问学生招聘_深圳市大数据研究院招聘-博士硕士找工作用理聘

理聘网-职位详情页，大模型算子优化访问学生

大模型算子优化访问学生

3-5K/月

投简历

聊一聊

深圳

经验不限

本科

职位描述

算子开发

大模型算子优化方向访问学生（Research Intern）招聘招聘单位：深圳市大数据研究院工作地点：深圳市龙岗区实习时长：≥3 个月（优先 6 个月及以上）职位描述：我们正在招募对大模型算子优化方向充满热情的访问学生 / 实习生，参与以下方向的探索与研发： 1.高性能 CUDA 算子开发：为 LLM 中的核心组件（如 Self-Attention、MoE、新型激活函数、标准化层等）从头设计和实现高性能的 CUDA Kernel。 2.深度性能优化：运用各种底层优化技术（如 Tensor Core 编程、Warp 级操作、Shared Memory 优化、流水线隐藏延迟等）对现有算子进行深度调优，充分挖掘 GPU 硬件性能。 3.融合算子创新：针对训练和推理中的特定模式，将多个小算子融合（Fusion）为一个大算子（如 FlashAttention、LayerNorm-Silu 融合等），以减少内存读写开销和 Kernel 启动开销。 4.计算图编译优化：探索子图分割、高效拓扑序等计算图变换的优化策略，以降低时间 / 空间开销 5.profiling 与瓶颈分析：使用 Nsight Systems/Compute 等工具对训练和推理全过程进行性能剖析，精准定位系统热点和性能瓶颈，并给出优化方案。 6.协同工作：与算法研究员紧密合作，理解其前沿模型结构对算子的新需求，并将其高效实现。职位要求： 1.教育背景：计算机科学、人工智能、电子工程等相关专业在读硕士 / 博士，或优秀高年级本科生 2.技术能力（满足至少 2 项）：（1）编程能力：具备出色的 C++/Python 编程能力，熟悉现代 C++（11/14/17）标准，具有良好的软件工程习惯。（2）CUDA 基础：熟悉 CUDA 编程模型（线程层次结构、内存模型、同步），有实际的 CUDA 程序编写和调试经验。（3）硬件兴趣：对计算机体系结构、并行计算有浓厚兴趣，渴望了解 GPU 如何工作。（4）学习能力：具备强大的自主学习能力和解决问题的能力，对挑战性技术问题充满热情。加分项： 1.有参与过 CUDA 算子和计算图编译器的开发、优化或相关项目（如课程大作业、科研项目、开源贡献）的经验。 2.熟悉常用的 GPU 性能分析工具，如 NVIDIA Nsight Systems, Nsight Compute, nvprof。 3.在相关领域的重要会议（ASPLOS, HPCA, MLSys, SC 等）或期刊上有论文发表。 4.知名竞赛获奖，如 ICPC 等福利与支持： 1.接触百亿级参数大模型研发基础设施 2.与专业团队合作，成果有机会发表至国际重要会议 3.提供有竞争力的实习津贴备注： 1.欢迎对大模型算子优化领域有热情的学生申请，无需满足全部技术要求 2.课题组将提供针对性指导，支持学术与工业