职位描述
本站申请链接
Luma AI 的 SRE 角色属于基础设施和研究团队,负责我们的 GPU 集群。Luma 在多个提供商和集群中的数千个 H100 GPU 上运行,用于训练、数据处理和推理。我们需要一名技术精湛的 SRE,以确保这些集群的健康,并构建我们所需的监控和管理工具,以充分利用这些集群。
offer要求
- 与研究人员和工程师合作,明确当前和未来版本 GPU 基础架构的可用性、性能、正确性和效率要求。
- 与多个 GPU 云提供商合作,在多个集群中扩大、缩小、维护和监控我们 000 的 GPU。
- 设计和实施解决方案,确保我们基础设施的可扩展性,以满足快速增长的需求。
- 实施和管理监控系统,主动识别生产环境中的问题和异常情况。
- 实施容错和弹性设计模式,最大限度地减少服务中断。
- 构建和维护自动化工具,简化重复性任务,提高系统可靠性。
- 与其他基础架构开发人员一起参加轮值,以应对重大事件并确保全天候系统可用性。
- 开发和维护服务级别目标(SLO)和服务级别指标(SLI),以衡量和确保系统可靠性。
offer待遇
除了现金底薪外,您还将获得一笔可观的 Luma 股权赠款。基本薪酬将根据工作相关的知识、技能、应聘地点和经验而有所不同。
