IT运维工程师
1.2-1.8万元/月一、岗位职责
1.基础设施全生命周期管理
负责数据中心IT设备(服务器/网络/存储)的规划部署、运行监控、性能优化及全周期运维管理。
主导AI与高性能计算场景下的算力服务器集群(如GPU/NPU架构)运维工作,开展性能调优与资源适配。
2.算力网络与组网技术
参与设计并持续优化算力网络架构,掌握高速互联协议(如InfiniBand/RoCE)及主流分布式计算框架(如Hadoop/Spark/Kubernetes)。
保障算力资源的灵活调度与低时延通信,支撑业务规模动态扩展需求。
3.运维体系与安全保障
依据ITIL标准构建运维管理体系(涵盖事件、变更与问题处理流程),确保系统可用性不低于99.9%。
制定灾备方案与应急响应机制,牵头落实信息安全合规要求(如ISO27001/等保规范)。
4.团队与技术管理
带领5-10人运维团队,组织实施技术培训与人才发展计划。
推进自动化工具(如Ansible/Prometheus)和智能监控系统的应用落地,提升运维效率并控制运营成本。
二、任职要求
1.学历与经验
统招本科及以上学历,计算机、通信、自动化等相关专业背景。
具备5年以上数据中心IT基础设施运维经历,其中至少2年团队管理经验。
2.技术能力
2.1 硬件与系统
熟悉主流品牌服务器(如Dell/HP/Huawei)、网络设备(Cisco/H3C)及存储平台的技术特性。
熟练操作Linux/Windows操作系统,具备内核级调优与复杂故障排查能力。
2.2 算力专项
了解AI算力服务器架构(如NVIDIA DGX/国产AI服务器)及其集群调度工具(如Kubernetes/Slurm)。
具有高速网络部署经验(InfiniBand/RoCEv2),能优化多节点间通信性能。
2.3 云与虚拟化
掌握VMware/KVM虚拟化技术及容器化方案(Docker/K8s),具有一类主流云平台(AWS/Azure/阿里云)实际运维经验。
2.4 认证与标准
持有ITIL V3/V4、PMP、CCNP或RHCE认证者优先考虑。
了解ISO20000、ISO27001等国际管理体系标准。