數據中心NFV技術可靠性研究

數據中心NFV是通過使用x86等通用性硬體以及虛擬化技術,來承載很多功能的軟體處理,使網路設備功能不再依賴於專用硬體,降低網路設備成本。NFV是網路運營商主推的網路虛擬化技術,這有利於大幅降低網路運營商的設備採購成本。不過,運營商需要的是高可靠性的網路,對網路可靠性要求最高,但看看我們應用了虛擬化技術的表現,2015年十大雲計算宕機的收入損失超過了31 Million美元,顯然這樣的技術無法滿足運營商的可靠性要求。運營商當然不願意放棄自己提出來的NFV,更何況還有SDN躍躍欲試,那該怎麼辦?本文給出了一些提升NFV可靠性的思路。

我們需要先來看看部署了NFV 之後,對可靠性的判斷準則是否發生了變化。NFV網路中增加了軟體控制部分,這樣可靠性評估準則要考慮服務停機時間與硬體停機時間的差異,要建立彈性軟體的評估方式,這樣當硬體檢測到故障時,還要通報給NFV,這個過程要有延遲時間,所以需要故障檢測和切換技術要比以前更精確,之前故障檢測是秒級,現在就需要毫秒級,小於50MS。之前故障切換是秒級,現在就需要微秒級,在幾百微秒以內。部署NFV之後,需要用新的工具來解決故障告警、根本原因分析和恢復,這是因為虛擬化技術使得構成服務的部件分散在網路多個不同的地方,檢測麻煩不會像觀察紅燈一樣簡單,需要軟體綜合分析。

Advertisements

NFV環境下要提升可靠性,需要具有三個方面的處理機制:一是故障檢測預測,通過對數據控制流檢查、性能監視、網路設備日誌分析、異常檢查等等,判斷有無發生故障;二是故障診斷定位,一旦發現故障即刻啟動故障定位,通過分析確認哪裡發生了故障,故障的相關性和優先圖;三是故障恢復,根據故障位置,啟動故障恢復程序,可以進行業務遷移、冗餘備份、數據保護等恢復動作,通過這三步來達到提升NFV可靠性的目的。這樣說很簡單,實際實現起來是非常難的。就拿故障診斷來說,取決於故障檢測的準確性,很多網路故障,不少的網路技術專家分析很久都無法明確原因,現在靠機器來完成,難度更大,要先將人的分析經驗輸入到機器中進行學習,然後由機器代替人來做處理,只有這樣切換才來記得,任何一個環節有人為的介入,處理時間都會被拉長,業務就會受到影響,NFV採用軟體自動控制的方法,可以將故障發現、排查和隔離過程式控制制到毫秒級,達到網路高可靠性的目的。

Advertisements

僅具備這些處理機制還遠遠不夠,NFV環境下故障檢測的數據規模大,硬體和軟體解耦導致涉及的網路層次更多,很多數據還可能不能反映出故障原因,甚至網路已經故障了這些數據還表現正常,這樣就不會觸發故障診斷。還有NFV環境下,發生故障傳播快和容易相互干擾,易於產生不可預知的故障,這些都會給診斷故障帶來很大難度,就算分析出來故障位置,不同的軟體可靠性評價準則不同,執行的恢復動作也有差異。有些故障是需要中斷業務恢復的,有些故障是做局部微調就可以恢復的,當需要做這種恢複決策時,就算是人為評估都很難把握,更何況將這個決策權交給軟體去做,誤判一定時有發生。NFV技術也是一種全新的網路技術,新的系統意味著有更多的軟體BUG。

為了進一步提升NFV技術的可靠性,還要在多個方面下功夫。運營商網路對可靠性的要求是5個9,而x86的可靠性通常只有2~3個9,所以基於x86實現的NFV可靠性不夠高。這時可以考慮虛擬機分散開來,將同一個網元功能的多個虛擬機散布到異址物理設備上,降低單點故障對網路的影響。通過對虛擬機進行熱備份,專有設備備份及建立通用備份池對多個網元的虛擬機進行備份的方式,提高網元可靠性。還要在故障檢測上下功夫。比如支持黑盒故障的檢測,支持未知錯誤的監測,檢測時間要快,還有就是可擴展性好。將這些檢測數據獲取到了以後,通過機器學習的方式進行檢測,將低維數據變化到高維數據。一般通過機器學習的檢測有:有監督的學習,無監督學習和半監督學習,它們區別在於是否需要標籤訓練數據。在NFV技術中一般採用無監督學習方式。通過機器學習就可以引入很多的數理統計技術,來增強分析的準確性,這些技術可以來自基於統計、基於深度,基於密度和聚類等等方面綜合分析出來結果。NFV技術可以採用動態自適應快速故障檢測技術,如SOM演算法、LOF演算法、Bayesian Network演算法等。對CMS、CNFM等管理系統同樣採用備份、帶外管理等機制,進一步提升系統可靠性。當通過這些一系列的軟體得到故障原因后啟動自動告警、自動切換等一系列措施,實現系統故障自愈,還需要支持在網路軟硬體解耦後進行端到端的故障定界定位,對各個組件的安全信息比如日誌、告警和異常輸出等進行智能分析和關聯,快速定位或提前預測系統安全隱患。谷歌數據中心的建設思路在可靠性方面考慮良多,在處理宕機這類故障的時候,可以依靠軟體迅速地平滑過度,實現任務轉移,以最快的速度保證SLA指標。

NFV將是一種革命性的新技術發展趨勢,將對網路技術發展帶來深遠的影響。NFV技術在數據中心,尤其是運營商的數據中心領域應用獲得了極大的認可,是運營商一直在推廣的網路技術。雖然NFV在可靠性方面還有待提升,它真正走向市場和普及,還會面臨眾多的問題和挑戰,但這並不妨礙很多運營商願意嘗試,NFV技術必將快速走向成熟。

Advertisements

你可能會喜歡