DevOps / Sistem Güvenilirliği Mühendisi (SRE)

Genel Bakış:
Sunucu Sistem Yönetimi ve DevOps ekibimizde görev alacak, yüksek erişilebilirlik ve ölçeklenebilirlik odaklı altyapılarımızın yönetiminde aktif rol alacak DevOps / SRE ekip arkadaşları arıyoruz.

Bu rolde; AWS ve Huawei Cloud (HWC) başta olmak üzere çoklu bulut ortamlarında çalışan kritik sistemlerin sürekliliğinden sorumlu olacak, otomasyon, izleme ve olay yönetimi süreçlerini geliştireceksiniz. 

Eğitim:

  • Bilgisayar Mühendisliği, Yazılım Mühendisliği veya ilgili mühendislik alanlarında lisans derecesine sahip olmak veya eşdeğer pratik deneyime sahip olmak

Sorumluluklar:

  • AWS ve Huawei Cloud ortamlarında altyapı yönetimi ve optimizasyonu 
  • Kubernetes cluster’larının (prod / pre-prod) kurulumu, yönetimi ve izlenmesi
  • CI/CD pipeline’larının kurulması ve iyileştirilmesi
  • Sistemlerin yüksek erişilebilirlik (HA) ve disaster recovery (DR) senaryolarının yönetimi
  • Prometheus, Grafana, Loki vb. araçlarla izleme ve alarm altyapılarının yönetimi
  • Performans, kapasite ve maliyet optimizasyonu çalışmaları
  • On-call / nöbet sistemine dahil olarak kritik olaylara müdahale edilmesi
  • Güvenlik, logging ve backup süreçlerinin iyileştirilmesi
  • Geliştirici ekiplerle yakın çalışarak deployment ve runtime problemlerinin çözülmesi
  • SLA / SLO / SLI kavramları doğrultusunda sistem güvenilirliğinin ölçülmesi ve iyileştirilmesi
  • Olay sonrası kök neden analizi (RCA) ve post-mortem süreçlerinin yürütülmesi

Aranan Nitelikler:

  • Linux (tercihen Ubuntu/CentOS) sistem yönetimine hakim olmak
  • Docker ve container mantığına hakim olmak
  • Kubernetes temel bileşenlerine (Pod, Service, Ingress, Deployment, HPA vb.) hakim olmak
  • CI/CD araçlarından en az birine (GitLab CI, GitHub Actions, Jenkins vb.) hakim olmak
  • Networking temellerini (TCP/IP, DNS, NAT, Load Balancer, Firewall) bilmek
  • Monitoring & logging kavramlarına hakim olmak
  • Problem çözme ve analitik düşünme yeteneği
  • Kriz anlarında sakin ve sistematik hareket edebilme yeteneğine sahip
  • Dokümantasyona önem veren
  • Takım çalışmasına yatkın
  • Öğrenmeye ve kendini geliştirmeye açık
  • Gerektiğinde on-call / nöbet sistemine (dönüşümlü) uyum sağlayabilecek
  • Kritik sistemlerde kesintiyi minimuma indirme sorumluluğu bilincinde olan
  • Esnek çalışma saatlerine (operasyonel gereksinimlere bağlı) uyum sağlayabilecek

Tercih Sebebi Olacak Ek Yetkinlikler:

  • AWS (EC2, VPC, ALB/NLB, RDS, IAM, CloudWatch) tecrübesine sahip olmak
  • Huawei Cloud (HWC) veya farklı cloud sağlayıcı deneyimi olan
  • Infrastructure as Code (Terraform, Ansible, Helm) bilgisi olan
  • Prometheus, Grafana, Loki, ELK bilgisi olan
  • OpenStack, Ceph, Couchbase, Elasticsearch gibi sistemlerle çalışma deneyimi olan
  • On-call / incident management tecrübesi olan
  • Bash / Python gibi dillerle otomasyon scriptleri geliştirebilen
  • Altyapı ve operasyon süreçlerinde kod inceleme (code review) kültürüne uyum sağlayabilecek