當雲服務遭遇中斷:為什麼需要恢復計劃

亞馬遜S3存儲服務最近在美國東海岸的可用區域經歷了五個小時的中斷。而許多消費者和商業應用程序都依賴雲存儲服務,因此S3存儲服務的中斷迅速級聯,並且Netflix,Slack等組織的服務出現暫時癱瘓。

發生這樣的雲中斷是正常的,令人關注的是會影響到這麼多的企業。最近一次重大的中斷是2016年8月AWS服務中斷。雖然Amazon S3是為數據持久性而設計的,但並不等於中斷之後具有快速可恢復性。與其他優異的雲平台一樣,他們仍留有一些空白:

•可用區域不等於可恢復性。 S3存儲服務的設計可以抵禦一個可用區域的網站中斷,但是最近的中斷事件顯示,網路問題可能導致整個地區的廣泛中斷。

•數據仍然需要備份。行業專家對此進行了呼籲,甚至亞馬遜公司也建議備份數據。

Advertisements

•恢復可能是緩慢和乏味的。備份數據是一回事,完全恢複數據是另一回事。故障后恢複數據可能需要幾個小時或幾天的時間,尤其是超大規模應用程序和資料庫。

•數據通常放在一個「籃子」中。如果備份數據與主數據存儲在相同的雲服務中,則在相同的可用區域中,無法在中斷期間恢複數據。

•數據可能會被泄露或進入不一致的狀態。雲計算本身不會保護數據免受應用程序或資料庫級別的損壞或人為錯誤。

企業需要設計一個數據備份,恢復和連續性策略來考慮雲計算。為了確保數據中心可以快速恢復,需要注意以下事項:

•將備份數據保存在另一個服務或區域中。像這樣的中斷通常會影響整個地區。備份和恢復策略需要包括在其他區域,雲服務,甚至私有雲中恢復的能力。

Advertisements

•快速恢復過程。傳統的備份解決方案和基於腳本的方法無法快速恢複數據,特別是應用程序需要恢復到不同的拓撲的時候。

•具有時間點恢復的功能。由於數據可能會在中斷的早期階段受到損害,所以能夠快速將應用恢復到一個時間點也很重要。

雲計算服務架構比傳統的基礎設施更具彈性,並提供更大的靈活性。但是當中斷確實發生時,它們也完全不受控制。不要忽略數據的可恢復性和彈性,因為它在雲中,並且不要期望相同的恢復過程和工具可用於下一代超大規模應用程序中。

Advertisements

你可能會喜歡