岗位职责:
1.推进强化学习研究,以提高AI能力并确保与安全及人类价值观的对齐,专注于训练通用、智能化的具身代理。
2.探索和应用先进的强化学习范式,如模型基强化学习和离线强化学习,解决具身任务中高昂的样本复杂度和泛化难题。
3.研究和推动大规模行为模型的发展,将感知和控制策略在海量数据上进行规模化训练。
4.与全身运动控制团队紧密合作,将物理约束集成到强化学习的奖励函数或策略正则化中,确保学习到的行为在物理上可行和动态稳定。
任职要求:
1.计算机科学或相关工程领域的博士学位,在强化学习领域拥有突破性研究和快速迭代能力。
2.对机器学习工程实践有深刻理解,能够自如地调试和优化大型机器学习代码库。
3. 致力于产品驱动型研究,能够将前沿的强化学习方法部署到高能力的实际模型中。