首页
推荐
搜索
单位
简历
APP
双选会

理聘网-职位详情页,大模型算子优化访问学生

大模型算子优化访问学生
3-5K/月
投简历
聊一聊
地点图标 深圳
工作经验图标 经验不限
教育经历图标 本科
职位描述
算子开发
大模型算子优化方向访问学生(Research Intern)招聘 招聘单位:深圳市大数据研究院 工作地点:深圳市龙岗区 实习时长:≥3 个月(优先 6 个月及以上) 职位描述: 我们正在招募对大模型算子优化方向充满热情的访问学生 / 实习生,参与以下方向的探索与研发: 1.高性能 CUDA 算子开发:为 LLM 中的核心组件(如 Self-Attention、MoE、新型激活函数、标准化层等)从头设计和实现高性能的 CUDA Kernel。 2.深度性能优化:运用各种底层优化技术(如 Tensor Core 编程、Warp 级操作、Shared Memory 优化、流水线隐藏延迟等)对现有算子进行深度调优,充分挖掘 GPU 硬件性能。 3.融合算子创新:针对训练和推理中的特定模式,将多个小算子融合(Fusion)为一个大算子(如 FlashAttention、LayerNorm-Silu 融合等),以减少内存读写开销和 Kernel 启动开销。 4.计算图编译优化:探索子图分割、高效拓扑序等计算图变换的优化策略,以降低时间 / 空间开销 5.profiling 与瓶颈分析:使用 Nsight Systems/Compute 等工具对训练和推理全过程进行性能剖析,精准定位系统热点和性能瓶颈,并给出优化方案。 6.协同工作:与算法研究员紧密合作,理解其前沿模型结构对算子的新需求,并将其高效实现。 职位要求: 1.教育背景: 计算机科学、人工智能、电子工程等相关专业在读硕士 / 博士,或优秀高年级本科生 2.技术能力(满足至少 2 项): (1)编程能力:具备出色的 C++/Python 编程能力,熟悉现代 C++(11/14/17)标准,具有良好的软件工程习惯。 (2)CUDA 基础:熟悉 CUDA 编程模型(线程层次结构、内存模型、同步),有实际的 CUDA 程序编写和调试经验。 (3)硬件兴趣:对计算机体系结构、并行计算有浓厚兴趣,渴望了解 GPU 如何工作。 (4)学习能力:具备强大的自主学习能力和解决问题的能力,对挑战性技术问题充满热情。 加分项: 1.有参与过 CUDA 算子和计算图编译器的开发、优化或相关项目(如课程大作业、科研项目、开源贡献)的经验。 2.熟悉常用的 GPU 性能分析工具,如 NVIDIA Nsight Systems, Nsight Compute, nvprof。 3.在相关领域的重要会议(ASPLOS, HPCA, MLSys, SC 等)或期刊上有论文发表。 4.知名竞赛获奖,如 ICPC 等 福利与支持: 1.接触百亿级参数大模型研发基础设施 2.与专业团队合作,成果有机会发表至国际重要会议 3.提供有竞争力的实习津贴 备注: 1.欢迎对大模型算子优化领域有热情的学生申请,无需满足全部技术要求 2.课题组将提供针对性指导,支持学术与工业
工作地点
深圳市大数据研究院
深圳市大数据研究院
地点图标地点圆形图片
相似职位
安全提示图标 理聘安全提示
求职中如遇到招聘方扣押证件、要求提供担保或收取财务、强迫入股或集资、收取不正当利益或其他违法情形,提高警惕并立即举报
下载app提示-背景图
理聘小程序
随时随地看职位
投递反馈秒知道
微信小程序-二维码图
深圳市大数据研究院
其他事业单位
热招 24 个职位
单位主页
上传简历提示图
极速找工作!
AI智能解析简历, 精准推荐职位
立即上传
猜你喜欢
更多