职位描述
1. 负责大模型在边缘设备上的量化及在线部署,优化在线 inference 的吞吐量、资源利用率。
2. 研究并应用业界最新的量化、压缩和推理优化技术,持续提升大模型在边缘设备上的推理性能。
职位要求
1. 计算机、电子信息、自动化等相关专业;
2. 熟悉Python、C++等至少一门编程语言,具有较强的代码开发能力,熟练Linux工作环境;
3. 熟悉PyTorch框架,了解大模型基本原理;
4. 熟悉GPTQ,AWQ等大模型量化算法者优先;
5. 熟悉vLLM,SGLang等大模型推理框架者优先;
6. 具备良好的英文读写能力和数学基础。