數據中心運維工程師必備技能

運維的工作是數據中心裡最為重要的一部分工作,在整個數據中心的生命周期里,持續時間最長,擁有一批高水平的運維工程師是數據中心長期穩定運行的法寶。雖然數據中心的運行故障不可避免,但通過有效運維,可以大幅降低故障發生的頻率,並在出現故障的時能夠有效及時地恢復業務。在這些過程中,運維工程師的水平起到了至關重要的作用。作為數據中心裡的一名運維工程師,應該掌握哪些技能,才能在工作中遊刃有餘。要知道數據中心裡有很多設備,而作為一名運維工程師不可能,也沒有必要全部掌握,要懂得應該掌握哪些技能,一些基本命令和重要設備的操作一定要掌握,這些技能往往在關鍵時刻可以發揮重要作用。本文將說一說運維工程師需必備的技能。

首先是伺服器設備,數據中心裡可以說有海量的伺服器設備,幾乎清一色採用的是Linux系統,掌握一些Linux操作系統的命令是必不可少的,還要至少熟悉一個內置編輯器:VI或Nano,至少熟悉一個發行版,比如Centos、Debian、Ubuntu,要熟悉很多Linux運維的命令,以便出了問題知道如何分析伺服器的運行狀態,對LAMP或LNMP、FTP、DNS、SAMBA、EMAIL、NTP、DHCP等Linux可以支持的基礎協議要了解,熟悉這些協議的故障處理。

Advertisements

其次,是伺服器一些虛擬化軟體技術,比如KVM,虛擬化技術在數據中心裡應用已非常普遍,對KVM不熟悉將很難開展運維工作,所以要掌握常用的虛擬化技術,以及KVM的工作原理,包括在CPU、內存、存儲、網路等各個部分的虛擬化,最為重要的是要掌握KVM的各種管理工具:OpenStack、CloudStack、OpenNebula、Zstack等。現在虛擬化技術早已不再局限於伺服器上,在數據中心的各種設備上都可以支持虛擬化,適當掌握這些虛擬化的技能,非常有利於做好運維工作。

第三,要會編寫一些程序腳本,比如使用Shell、Python、Perl等腳本語言做一些自動化運行腳本、診斷故障的腳本,使用這些腳本可以提升工作效率,將重複性的簡單工作交給腳本程序處理,也可以通過這些腳本判斷故障發生的位置和原因,高效的運維將不再需要人工去逐個字元地去輸入各種命令,而且靠大量的腳本語言快速搞定工作。在平時的工作中,可以編寫一些特定腳本,然後慢慢累積形成腳本集,做什麼樣的工作就用什麼樣的腳本來完成,這將大大提升運維的工作效率。

Advertisements

第四,數據中心裡那麼設備,僅掌握伺服器是不夠的,網路、安全都是需要重點學習的地方。數據中心數據網採用的是乙太網協議,存儲網採用光纖通道協議,隨著乙太網技術的成熟,大有兩網合一的趨勢,由乙太網協議技術接管存儲網,掌握乙太網協議是運維工程師的必修課程。當然,乙太網協議包含有太多的內容,各種協議讓人看得眼花繚亂,根本沒有精力全部掌握,但至少應該對自己數據中心所用到的協議知曉,再不濟也應該掌握抓包的本領。在出現問題時,懂得在各個網路位置抓包,來確認故障設備或線路,會使用Linux的tcpdump抓包或者ethreal、sniffer、Wireshark等抓包軟體,會在網路設備上配置鏡像,將關心的流量抓出來進行分析。當出現網路故障時,通過抓包來分析雖然比較土,但這種方式最直接,直接找到故障位置。還有各種安全設備,安全過濾的規則查看、調整與修改都要熟悉。要懂得查看各種介面類型,硬體信息以及各種伺服器類型比如:塔式、機架式、刀片式的工作原理。

第五,要掌握一下運維平台工具,利用這些工具做運維,很多事情往往可以事半功倍,例如:SSH證書、Nagios、Puppet、Zabbix、Cacti、SaltStack、Pssh、Fabric等,這些都是開源的免費網路監控工具,雖然用起來會有一些問題,但都是開源的,都可以根據自己數據中心的實際情況,進行修改,最重要的是這些軟體都是免費使用的,通過使用這些工具對數據中心進行網路監控,可以及時掌握數據中心網路的運行狀況,發現問題及時解決。當然,也有一些專業性比較強的網路監控軟體,一般都是網路廠商推出的,要收費的軟體,這些軟體具有一些獨特的網路監控功能,與自己硬體設備的兼容性也更好,往往和自己的硬體設備綁定銷售,這類軟體運行穩定,遇到問題也可以尋求廠商幫助,比開源的網路軟體要好。

第六,最後一點,也是最為重要的一點,就是工作態度。運維的技術聰明人可能掌握快些,不夠聰明的人多花一點時間也可以掌握,所以很多時候並不是技術問題,而是工作責任心的問題。比如遇到問題時,具有主人翁的意識,第一時間處理各種告警,消除隱患。平時將每個工作都有條理地處理好,注意與各個不同層級的人交流,注意對不同的人採用不同的溝通技巧。在工作上要有進取心,避免消極怠工。有強烈的安全意識,尤其現在人們都對數據中心的安全問題極為關注,要避免數據中心出現數據泄露事件,在數據中心內部各個環節增加安全防護設備,對出入數據中心人員和訪問進行管控,把好數據中心的安全門,萬一數據中心出現嚴重的安全事故,那之前做的工作再好,都變得毫無意義。工作上要保持如履薄冰的心態,小心駛得萬年船,謹慎對待工作中的每個細節。

數據中心涉及的技術知識包羅萬象,一個人的精力是有限的,不可能全部掌握,這時就要注意選擇,建議將以上列舉的幾個部分技能都掌握到,這些是運維工程師必須具備的技能。只有這樣,您才有機會成為數據中心運維方面的專家。

Advertisements

你可能會喜歡