AI、异构相关研发、运维-北京/上海/杭州 40-70k·16薪
北京-朝阳区 5年以上 统招本科 招1人 90天前更新
收藏
五险一金 年终奖金 带薪年假 定期体检 餐费补贴 免费班车
avator
吴女士 13小时前在线 已认证
聊一聊
职位介绍
阿里云智能-灵骏产品SRE专家-杭州【阿里云智能-AI智算集群监管控及算力管理平台研发专家-北京/杭州】 职位描述 1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。 职位要求 1. 拥有5年以上大规模分布式系统设计及研发经验,独立负责过包含多模块的业务子系统,包括接口定义、架构设计及关键分布式问题的技术方案细化等工作。 2. 编程基本功扎实,熟悉数据结构和算法,熟练掌握Golang/Java/Python/C++中至少一种开发语言。 3. 系统工程能力扎实过硬,线上稳定性意识强,对于复杂的线上系统具备较强的技术敏感度和故障排查经验;有过线上系统监控体系、变更体系/流程设计和研发经验者优先。 4. 业务感觉良好,有具有出色的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题,能够主导并驱动完整的技术产品项目者优先。 5. 具备较复杂项目的良好管理能力,有项目负责人或者研发团队接口人经验者优先。 6. 团队协作能力良好,有实线或者虚线带人完成技术项目者优先。 7. 熟悉AI框架、云原生、微服务原理和设计模式者优先。 【阿里云智能-异构计算产品架构师-杭州】 职位描述 1.结合业务需求以及相关云产品的设计方案及部署依赖,完成智算交付项目的方案设计及中间技术问题跟进,保障项目按时按量完成 2.智算基础设施的下一代架构设计,保持云基础设施的技术先进性、可靠性 3.智算产品实例相关AI特性的技术演进规划,提升AI领域的产品竞争力 4.参与智算产品业务讨论,提供前瞻技术性的技术趋势判断及业务建议,针对产品需求快速组织研发poc,来对齐产品目标,保证产研目标一致 职位要求 1. 8年以上工作经验,负责过公司内大型项目的架构落地或演进,特别是AI相关的项目。 2. 至少5年云计算重要领域如存储、网络、容器等开发/架构经验,对云设施的整套部署方案有不错了解 3. 至少参与过一个AI领域相关的项目,对于LLM模型训练/推理的基本原理,AI底层设施能力有一定认知 4. 有大型云平台的需求规划、架构设计、模块拆解,整体方案技术把控的经验,能识别其中重大风险,保障项目落地 5. 有较好的技术前瞻性,关注AI领域前沿技术,结合云业务场景进行相应的技术探索,并推动技术落地 【阿里云智能-异构GPU实例研发专家-杭州/上海】 职位描述 1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。 职位要求 1. 熟悉产品研发全流程与GPU实例的基本验收标准,具备CUDA,RoCM,Triton等GPU底层加速库的研发能力,研发GPU P2P,GDR,GDS等实例功能,提供有行业竞争力的异构产品技术。 2. 对运维与稳定性治理有深刻理解,具备工单,故障处理,轮转升级等基本运维能力 3. 熟悉集群化的网络架构与性能评估,熟悉集群化的GPU监控与性能分析 4. 熟悉AI/模型不同场景下的性能评估与自动化巡检与测试系统的建立 5. 候选人需要满足5年以上异构、GPU领域的研发工作经验 【阿里云智能-异构AI推理性能与加速专家-杭州/北京/上海】 职位描述 1.专注于NV GPU推理方向的算子优化与融合工程,通过精简计算流程和提高并行处理效率,实现显著的性能提升。 2.承担AMD平台推理方向的系统工程优化工作,深入挖掘硬件潜力,确保在不同架构上都能达到优秀的推理效果。 3.负责EGS/灵骏推理端到端(E2E)的性能检验与优化工程,确保从输入到输出的每一个环节都经过严格测试和调优,提供的用户体验。 4.参与文本生成图像、文本生成视频等前沿业务的研发,为客户定制创新性的解决方案,推动多媒体内容创作的技术边界。 5.开发和维护高效的推理框架引擎,构建灵活且强大的基础设施,支持快速迭代和多样化的需求响应,以适应不断变化的市场环境和技术挑战。 职位要求 1.具备设计与开发推理框架的能力,包括对现有框架的二次研发:vLLM,TRT-LLM等 2.具备推理Graph优化能力,熟练torchscript,ONNX,dynamo,inductor等等优化方法 3.具备算子优化能力及相关经验:包括算子去重,算子融合,算子高性能定制kernel 4.具备模型AWQ,GPTQ,KVCache量化,剪枝,蒸馏等量化方法与精度评估的能力与经验 5. 候选人需要满足5年以上异构、GPU领域的研发工作经验 【阿里云智能-异构GPU集群资源优化专家-杭州】 职位描述 1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。 2. 保障灵骏与集团在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持包括灵骏客户、集团内部需求以及阿里云服务(ACS)产品在内的多种应用场景,提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。 职位要求 有虚拟化领域基础,深入理解KVM,QEMU等通用虚拟化技术,对GPU等设备虚拟化核心功能(PCIe,IOMMU etc)有代码研发能力。 1.具备GPU特定领域的热迁移热升级等技术的研发能力 2.有GPU容器实现,GPU切分,GPU细粒度资源调度等技术能力储备及相关经验 3.具备对GPU内核态驱动,用户态驱动研发能力 4.具备对GPU microbench的性能指标的调优 5. 候选人需要满足5年以上异构、GPU领域的研发工作经验 【阿里云智能-灵骏产品SRE专家-杭州】 职位描述 1.负责各计算集群交付运维工作, 并且参与基础运维平台架构设计和建设; 2.运维服务体系建设与优化,达成产品稳定性与SLA目标; 3.制定交付标准, 沉淀运维规范, 通过工具平台提效日常工作; 4.跟进内外部合作伙伴项目, 优化项目流程; 5.需要具备一定的创新突破和个人自驱力,善于发现问题,思考并解决问题; 6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。 职位要求 1.5年以上IT、互联网、云计算行业运维工作经验,有AI运维开发相关经验者优先; 2.熟悉Linux操作系统和TCP/IP等主流协议,有扎实的操作系统和网络问题处理经验; 3.熟悉容器和kubernetes,slurm,lsf等编排技术; 4.能够有效的对问题进行经验的总结并转化为工具与系统,通过工具化、平台化的方式解决问题,优化流程,提升运维效率; 5.有较强的独立、主动的学习能力,善于沟通协作,能够主导跨团队的项目保障工作 【阿里云智能-AI系统性能分析与优化专家-杭州/北京】 职位描述 1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景和集群规模,识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐训练和模型部署配置,辅助用户拿到性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。 职位要求 1. 熟悉深度学习框架(pytorch)和分布式训练技术(如deepseed、fsdp、megatron、NCCL; 2. 熟悉AI系统的性能分析工具(如Nsight、PyTorch Profiler等); 3. 具备性能建模与仿真经验,熟悉Roofline模型等性能分析方法; 4. 熟悉CUDA、OpenCL等并行计算技术,熟悉多模态生成式AI场景性能优化以及具备GPU/PPU性能优化经验者优先。
其他信息
语言要求:普通话
行业要求:全部行业

公司简介

阿里云创立于2009年,是全球头部的云计算及人工智能科技公司。基于自研的飞天云计算操作系统,阿里云向全球客户提供基于基础设施即服务(IaaS)、平台即服务(PaaS)和模型即服务(MaaS)三层架构的全方位云服务。目前,阿里云是亚太头部、中国头部的公共云服务提供商。 凭借在IaaS和PaaS的庞大规模和强大基础,阿里云为企业提供高性能和低成本的计算资源,以及用于大模型训练、微调和推理的工具平台服务,致力于打造一朵“AI时代最开放的云”。 阿里巴巴自研大模型通义千问是全球領先的大模型之一,目前已开源多个尺寸的系列模型,以支持更多企业客户实现AI创新。
查看全部

猎聘温馨提示:

1. 如您发现平台内招聘方存在以下违规行为的,请立即举报
  • · 扣押您的身份证件或者其他证件;
  • · 要求您提供担保人、担保金或者以其他名义向您收取财物( 如培训费、体检费、资料费、置装费、押金等);
  • · 强迫您入股或者向您集资;
  • · 以招聘名义牟取不正当利益;
  • · 发布虚假招聘广告信息;
  • · 工作时长违反劳动法规定;
  • · 存在其他损害您的合法权益的行为。
2. 如您应聘的岗位属于涉外劳务合作/海外岗位的,请务必核实招聘方对外劳务合作资质取得情况,同时注意自身资金安全,防范招聘欺诈。
3. 本平台招聘方不向求职者提供任何收费服务。
查看全部

猜你喜欢

大模型训练系统工程师(北京 上海)
北京
40-70k·15薪
某上海互联网上市公司
互联网 已上市 50-99人
季女士
猎头顾问
端侧内核态驱动开发(北京/上海)
北京
40-70k·16薪
某知名公司
智能硬件/消费电子 战略融资 100-499人
董先生
合伙人
BSP主管
北京-海淀区
40-70k·14薪
某北京专业技术服务公司
专业技术服务
金女士
猎头顾问
算法专家
北京
30-50k·15薪
某北京专业技术服务公司
专业技术服务 天使轮 50-99人
张女士
顾问(C)
资深训练与推理团队负责人
北京
150-180k·20薪
某知名云计算公司
互联网 5000-10000人
刘女士
资深顾问
1 2 3 4
更新时间:2026-06-04