高级研究工程师-性能优化

Website null Luma AI

职位描述

我们正在寻找在 PyTorch、CUDA 和分布式系统方面具有丰富解决问题经验的工程师。您将与研究科学家合作,在数千个 GPU 上构建和训练尖端基础模型。

offer要求 [offer requirements]

使用 Python Pytorch,包括从数据处理、准备 数据加载到训练和推理的整个开发管道的实际工作经验。
具有在整个堆栈(输入、模型推理、输出、并行处理等)中优化和部署推理工作负载以提高吞吐量和延迟的经验。
具有在 PyTorch(包括 Nvidia Nsight 或类似软件)中剖析 CPU 和 GPU 代码的经验。
具有编写和改进高度并行和分布式 PyTorch 代码的经验,熟悉 DDP、FSDP、Tensor Parallel 等。
具有编写高性能并行 C++ 的经验。如果在使用 PyTorch 的 ML 环境中完成过,如数据加载、数据处理、推理代码,则将获得加分。
拥有高性能 Triton / CUDA 和编写自定义 PyTorch 内核的经验。优秀的候选人将能够利用张量内核;利用 CUDA 内存和其他类似技能优化性能。
具有深度学习概念(如 Transformers 多模态生成模型(如 Diffusion Models 和 GANs))方面的工作经验。
请注意,此职位不适合应届毕业生。

offer福利 [offer benefits]

除了现金底薪外,您还将获得一笔可观的 Luma 股权赠款。此职位的薪资范围为湾区。提供的基本薪酬可能会因工作相关的知识、技能、应聘地点和经验而有所不同。

Scroll to Top