DevOps / Sistem Güvenilirliği Mühendisi (SRE)
Genel Bakış:
Sunucu Sistem Yönetimi ve DevOps ekibimizde görev alacak, yüksek erişilebilirlik ve ölçeklenebilirlik odaklı altyapılarımızın yönetiminde aktif rol alacak DevOps / SRE ekip arkadaşları arıyoruz.
Bu rolde; AWS ve Huawei Cloud (HWC) başta olmak üzere çoklu bulut ortamlarında çalışan kritik sistemlerin sürekliliğinden sorumlu olacak, otomasyon, izleme ve olay yönetimi süreçlerini geliştireceksiniz.
Eğitim:
- Bilgisayar Mühendisliği, Yazılım Mühendisliği veya ilgili mühendislik alanlarında lisans derecesine sahip olmak veya eşdeğer pratik deneyime sahip olmak
Sorumluluklar:
- AWS ve Huawei Cloud ortamlarında altyapı yönetimi ve optimizasyonu
- Kubernetes cluster’larının (prod / pre-prod) kurulumu, yönetimi ve izlenmesi
- CI/CD pipeline’larının kurulması ve iyileştirilmesi
- Sistemlerin yüksek erişilebilirlik (HA) ve disaster recovery (DR) senaryolarının yönetimi
- Prometheus, Grafana, Loki vb. araçlarla izleme ve alarm altyapılarının yönetimi
- Performans, kapasite ve maliyet optimizasyonu çalışmaları
- On-call / nöbet sistemine dahil olarak kritik olaylara müdahale edilmesi
- Güvenlik, logging ve backup süreçlerinin iyileştirilmesi
- Geliştirici ekiplerle yakın çalışarak deployment ve runtime problemlerinin çözülmesi
- SLA / SLO / SLI kavramları doğrultusunda sistem güvenilirliğinin ölçülmesi ve iyileştirilmesi
- Olay sonrası kök neden analizi (RCA) ve post-mortem süreçlerinin yürütülmesi
Aranan Nitelikler:
- Linux (tercihen Ubuntu/CentOS) sistem yönetimine hakim olmak
- Docker ve container mantığına hakim olmak
- Kubernetes temel bileşenlerine (Pod, Service, Ingress, Deployment, HPA vb.) hakim olmak
- CI/CD araçlarından en az birine (GitLab CI, GitHub Actions, Jenkins vb.) hakim olmak
- Networking temellerini (TCP/IP, DNS, NAT, Load Balancer, Firewall) bilmek
- Monitoring & logging kavramlarına hakim olmak
- Problem çözme ve analitik düşünme yeteneği
- Kriz anlarında sakin ve sistematik hareket edebilme yeteneğine sahip
- Dokümantasyona önem veren
- Takım çalışmasına yatkın
- Öğrenmeye ve kendini geliştirmeye açık
- Gerektiğinde on-call / nöbet sistemine (dönüşümlü) uyum sağlayabilecek
- Kritik sistemlerde kesintiyi minimuma indirme sorumluluğu bilincinde olan
- Esnek çalışma saatlerine (operasyonel gereksinimlere bağlı) uyum sağlayabilecek
Tercih Sebebi Olacak Ek Yetkinlikler:
- AWS (EC2, VPC, ALB/NLB, RDS, IAM, CloudWatch) tecrübesine sahip olmak
- Huawei Cloud (HWC) veya farklı cloud sağlayıcı deneyimi olan
- Infrastructure as Code (Terraform, Ansible, Helm) bilgisi olan
- Prometheus, Grafana, Loki, ELK bilgisi olan
- OpenStack, Ceph, Couchbase, Elasticsearch gibi sistemlerle çalışma deneyimi olan
- On-call / incident management tecrübesi olan
- Bash / Python gibi dillerle otomasyon scriptleri geliştirebilen
- Altyapı ve operasyon süreçlerinde kod inceleme (code review) kültürüne uyum sağlayabilecek