AWS Kesintisinin Ardındaki Sorun DNS Arızası Olarak Açıklandı

Amazon, bu hafta yaşanan geniş kapsamlı AWS (Amazon Web Services) kesintisinin nedenini büyük bir DNS arızası olarak açıkladı. Şirketin paylaştığı teknik rapora göre sorun, Amazon’un veri yönetim hizmeti DynamoDB’de yaşanan yazılım hatasından kaynaklandı.

Hatanın Kaynağı DNS Yönetim Sisteminde Bulundu

Pazartesi günü başlayan arıza, ABD’nin Kuzey Virginia bölgesinde bulunan kritik veri merkezinde ortaya çıktı. AWS’in “US-EAST-1” bölgesinde yaşanan bu sorun, Amerika ve Avrupa başta olmak üzere dünya genelinde çok sayıda kullanıcıyı etkiledi. Kesinti 14 saatin üzerinde sürdü ve birçok web sitesi ile çevrim içi hizmette erişim sorunu yaşandı.

Amazon’un perşembe günü yayınladığı inceleme raporuna göre, olayın temelinde DynamoDB hizmetinin DNS yönetim sisteminde oluşan bir yarış durumu hatası yer aldı. Bu hata, hizmetin bölgesel uç noktasına ait IP adreslerinin yanlışlıkla silinmesine yol açtı.

Şirket, 11.48 PM PDT saatinde başlayan bu durumun ardından DynamoDB’ye bağlantı kurmaya çalışan tüm sistemlerin DNS hatası verdiğini belirtti. Bu durum yalnızca müşteri trafiğini değil, aynı zamanda DynamoDB’yi kullanan AWS içi servisleri de etkiledi.

DynamoDB’deki hata zincirleme etki yaratarak AWS altyapısında daha geniş bir dengesizlik oluşturdu. Otomatik kurtarma mekanizmaları sistemi eski hâline getiremediği için mühendisler manuel müdahalede bulundu. Amazon, olay sonrasında hatalı DNS otomasyonunu küresel ölçekte devre dışı bıraktı. Şirket ayrıca benzer olayların yaşanmaması için koruyucu denetimler ekledi, test süreçlerini genişletti ve yeni hata tespit araçları geliştirdi.

Amazon, yaşanan kesinti nedeniyle tüm müşterilerinden özür diledi. Şirket, hizmet sürekliliği konusundaki güçlü geçmişine rağmen bu olaydan önemli dersler çıkaracaklarını açıkladı. Yapılan açıklamada, “Müşterilerimizin iş süreçlerinin ne kadar kritik olduğunu biliyoruz. Bu olayı dikkatle analiz edip sistemimizin dayanıklılığını daha da artıracağız” ifadeleri yer aldı.