AWS Kesintisi Kıdemli Mühendislerin Ayrılmasıyla İlişkilendirildi

Amazon Web Services’ta (AWS) yaşanan son kesinti, küresel ölçekte milyonlarca kullanıcıyı etkiledi. Pazartesi sabahı başlayan erişim sorunu, Avrupa, Asya ve Afrika’da birçok popüler platformun aynı anda çevrim dışı kalmasına neden oldu.

Kısa süre içinde Signal, Snapchat, Reddit, Starbucks, Fortnite, Coinbase, Ring, Amazon, Apple Music ve Apple TV gibi uygulamalarda erişim kesintileri yaşandı. AWS, olayın siber saldırıdan kaynaklanmadığını, ağ bağlantı hatası nedeniyle hizmetlerde aksama meydana geldiğini açıkladı.

DNS Hatası AWS Hizmetlerini Durdurdu

AWS, yaşanan sorunun ABD’nin Virginia eyaletindeki US-EAST-1 veri merkezinde görülen DNS (Alan Adı Sistemi) arızasından kaynaklandığını duyurdu. DNS sistemi, internet adreslerinin IP karşılıklarını çözümleyerek kullanıcıların doğru sunuculara ulaşmasını sağlar. Bu sistemde yaşanan hata, sunuculara erişimi engellediği için birçok hizmet saatlerce çalışmadı.

AWS, sorunlu bölgede ağ bağlantısının düzeldiğini belirtse de kullanıcılar bir süre gecikmeli yanıt süreleri ve yüksek hata oranlarıyla karşılaştı. Bu kesinti, AWS’nin 2021 ve 2023 yıllarında yaşadığı benzer DNS kaynaklı sorunları yeniden gündeme getirdi.

Yaşanan arızanın ardından teknoloji çevreleri Amazon’un son yıllarda yaptığı geniş çaplı işten çıkarmaları yeniden tartışmaya açtı. 2022’den bu yana 27 binin üzerinde çalışan işten ayrıldı. Şirketin özellikle üst düzey mühendis kadrolarını azaltması dikkat çekti.

Endüstri uzmanı Amanda Goodall’a göre AWS, 2025 yılı sonuna kadar personel sayısını yüzde 10 oranında düşürmeyi planlıyor. Bu oran içinde üst düzey teknik uzmanların payı yüzde 25 seviyesinde. Uzmanlar, bu ölçekteki bir kaybın sistem yönetiminde ciddi etkiler yaratabileceğini düşünüyor.

Duckbill Group’tan bulut ekonomisti Corey Quinn, kesinti sonrası yaptığı değerlendirmede, “Deneyimli mühendislerin çoğu artık AWS’de değil. Şirket, yıllar içinde kazanılmış kurumsal hafızasını büyük ölçüde kaybetti” dedi.

Quinn’e göre olayın en kritik yönü, sistemlerin yeniden inşasında deneyimli personelin eksikliği. İlk kesinti raporunun ardından AWS, 75 dakika sonra DynamoDB hizmetinde yüksek hata oranı tespit ettiğini duyurdu. Ardından 40 dakika daha geçince DNS hatasının olayın nedeni olduğu açıklandı. Uzmanlar, bu iletişim gecikmesinin AWS’nin 2020 ve 2021 yıllarında kendi değerlendirme raporlarında belirttiği zayıf noktaları yeniden ortaya koyduğunu söylüyor. Deneyimli mühendislerin ayrılığı, bu tür olaylarda doğru teşhis süresini uzatıyor.

2023 sonunda AWS’den ayrılan kıdemli mühendis Justin Garrison, yayımladığı yazısında şirketin son dönemde daha sık “büyük çaplı olaylar” yaşadığını belirtmişti. Garrison, “Benim çevremdeki mühendislerin neredeyse tamamı şirketten ayrılmak istiyordu” ifadelerini kullanmıştı. Sızan iç belgeler, Amazon genelinde çalışanların yüzde 69 ila 81’inin pişman olunan ayrılıklar kapsamında olduğunu gösteriyor. Bu oran, şirketin yetenekli çalışanlarını elde tutmakta zorlandığını ortaya koyuyor.

Uzmanlara göre, kurumsal bilgi birikimi kayboldukça AWS gibi devasa altyapılarda hata riskleri artıyor. Yeni çalışanlar teknik bilgiye sahip olsa da geçmişte yaşanan olayları ve sistemin karmaşık ilişkilerini bilmedikleri için sorunların tespit süresi uzuyor.

AWS’nin son kesintisi, bulut hizmetlerine duyulan güvenin yeniden tartışılmasına yol açtı. Şirketin kısa sürede hizmetleri geri getirmesi teknik bir başarı olarak görülse de kullanıcıların güvenini koruyabilmesi için daha kararlı adımlar atması bekleniyor.

Uzmanlar, AWS’nin uzun vadede sistem güvenilirliğini artırmak için deneyimli mühendis kadrosunu yeniden güçlendirmesi gerektiğini vurguluyor. Aksi takdirde, küçük bir ağ hatası bile milyonlarca kullanıcının aynı anda hizmet dışı kalmasına neden olabilir.