职位描述:
我们正在寻找一位在大模型系统方向有深厚研究背景的研究科学家,致力于推动大语言模型(LLM)的训练/推理效率优化、分布式系统设计、硬件协同加速等前沿技术的突破。您将与非常优秀的AI团队合作,解决大模型规模化落地中的核心系统挑战,研究成果将作用于医疗、教育、电信等多种业务。
核心职责:
1.大模型系统架构创新
(1)研究高效分布式训练框架(如Megatron-LM、DeepSpeed优化),提升千亿级模型的训练速度和稳定性。
(2)设计低延迟、高吞吐的推理系统(动态批处理、KV Cache优化、量化部署等)。
2.硬件协同优化
(1)探索GPU/RDMA等硬件资源的高效利用,解决显存瓶颈、通信开销等问题。
(2)针对国产芯片(如昇腾、寒武纪)适配大模型训练推理流水线。
3.前沿技术探索
(1)研究MoE架构、模型并行、流水线并行等扩展性方案。
(2)推动绿色AI技术(如稀疏化训练、低精度计算)的实际落地。
4.产学研结合
(1)发表顶会论文(PPoPP/OSDI/EuroSys/NeurIPS/MLSys等),参与开源社区建设。
(2)与各大企业合作,推动技术成果转化。
任职要求:
1.必需条件
(1)学历背景:计算机科学、人工智能、分布式系统等相关领域博士(或硕士+3年经验)。
(2)技术能力:
• 精通PyTorch框架,熟悉大模型训练推理全流程(数据预处理→训练→部署)。
• 深入理解分布式系统(CUDA/MPI/NCCL/RDMA)、编译器优化(TVM/XLA)或高性能计算(HPC)。
• 有Megatron-LM、ColossalAI、vLLM等开源项目贡献者优先。
(3)学术成果:在PPoPP/OSDI/EuroSys/NeurIPS/MLSys等顶会发表过相关论文。
2.加分项
(1)熟悉LLM压缩技术(量化/蒸馏/剪枝)或芯片级优化(如Triton算子)。
(2)有云厂商(AWS/Azure/Alibaba)大规模AI系统部署经验。
(3)主导过开源项目或专利技术。
我们提供
1.丰富资源:大规模GPU/昇腾集群、行业优秀团队合作机会。
2.学术自由:支持顶会投稿、国际交流、长期技术探索。
3.薪酬福利:具备竞争力的薪资(面议)