網路城邦
上一篇 回創作列表 下一篇   字體:
虛擬主機救援記
2015/07/03 16:56:11瀏覽2098|回應0|推薦7

【前言】本文含有兒童不宜之字眼,未滿18歲及衛道人士請不要閱覽。

話說某個假日下午,某高階主管傳來LINE 訊息,提及某關係企業的網站無法連線,瑞奇我隨即以手機查看機房主機狀態。

嗯,
Networking check,正常。
Firewall and Load balance device check,正常。
Website domain name check,無法顯示網頁。
Website ip check,正常。
FTP check,無法連線。

COW!該不會是虛擬主機有問題吧!顧不得晚餐還沒吃,便立即飛奔回家打開筆電,連回公司查看主機狀態。

這一看,不得了。以vSphere Client 連vCenter 連接不上,在嘗試連 VM Host 也一樣連不上!但可以PING 到vCenter、VM Host的IP以及連到 Storage Server的管理介面。挫賽!立即聯絡布萊恩,並商討可能發生問題之處及如何解決。當晚,和布萊恩陸陸續續講電話及用LINE討論到十一點多。原本猜測可能只是網卡異常,就在要睡覺前,想說反正機器也很久沒重新開機,所以就先在 Storage Server的管理介面執行重新啟動的命令。但時間一分一秒地過去,過了半小時後,畫面一樣停留在重新啟動中,請稍候的畫面。這時心中感到大驚!趕緊再查看一下Storage Server目前的狀態。E04!RAID-5 的七顆硬碟中的一顆,以及熱備援的一顆硬碟壞了!這種機率簡直比中樂透的機率都還低!但居然被我給碰上了!當下心中的OS是:「明天得『提頭』去見老闆了」!但還是得立即向我的直屬主管回報,而得到的答覆則是「希望老天保佑,快點救」!

回想起一年半以前,我應該堅持要做 vSphere High Availability的!而不應該為了配合上頭省錢,所以只有將 Storage Server 中的資料,以每小時做一次 Replication ,將資料複製一份到 VM Host 中而已。

星期一,一上班進機房發現,VM HOST 的畫面很正常,但輸入帳號及密碼後,完全沒反應;接著看見Storage Server 的面板一樣是顯示重新啟動中,且機器上頭的第五顆及第八顆硬碟燈號顯示紅色。所以,趕緊先連絡Storage Server的工程師以遠端連線進來查看問題。

在配合 Storage Server 原廠工程師進行處理後,確定第五顆及第八顆硬碟損壞,而就在要進一步處理前,他建議我要先將 Storage Server 的三個映像檔(共 2.5TB)備份下來,這樣萬一他處理失敗,還有一份映像檔可以還原。

第二天,先將壞掉的兩顆硬碟請人送修,且就在備份映像檔時,系統估算大約要四十小時才備得完。備份到下午,為了節省這四十個小時,便忍痛告知對方就直接處理吧!

約莫一個小時過去,RAID-5 硬碟檢查沒有出錯,使用管理介面或在 putty 介面中直接下指令重開 Storage Server 也都正常。這時,在重啟 VM HOST 後,輸入帳號及密碼也都正常,DATASTORE 也看得見Storage Server。便再以 vSphere Client 連到 VM HOST 後,原本的虛擬主機卻顯示運作中,但點選 console 卻無法顯示畫面。再點擊 POWER ON 後,vSphere 則提示「A general error occurred the virtual machine could not start」。蝦毀!都到這樣的節骨眼了,還是無法打開虛擬機器!打電話給威爾森,他建議我先備份 DATASTORE 中,所有虛擬機的資料夾。

第三天,另外備份 VM HOST 中Replication的所有虛擬主機資料夾。備份完畢後,也請威爾森遠端連進來看機器狀態。這時除了 vCenter 可以啟動外,Storage Server 中的幾台虛擬機全部都被鎖定。原本 vmware 控制檔除了 xxx.vmx 之外,還多了 xxx.vmx.lck 的檔案。也因為這樣的關係,威爾森和我也沒辦法直接將該 vmx 檔案 Add to Inventory。E04!有需要這樣整我嗎?接下來,當然是拼命尋找 KB 及孤狗大神看看有沒有解決方式!直到凌晨才帶著疲憊的身軀入眠。

第四天,就在凌晨的半夢半醒之間,突然有個聲音告訴我:「vmx 是個純文字檔!vmx 是個純文字檔!vmx 是個純文字檔!」所以,一到公司便先和威爾森說:「你等等,先讓我測試個東西,若不行再請你用正規的方式來解開鎖定。」

果然,將VM HOST Replication 那份 xxx.vmx.01230 後面的數字去除後,該 vmx 檔也確實是個純文字檔;而不是如同被鎖定的 vmx 檔是被加密過的檔案。且 Upload to Datastore 後,也確實可以 Add to Inventory,但仍舊無法 POWER ON。這時,我便又和威爾森說:「難不成 Storage Server 修復後過的檔案一樣是損毀的?那先讓我是一下拿VM HOST Replication 那份 VMDK 試試。」就在我上傳檔案的同時,威爾森也沒閒著,他一邊處理著 vCenter 的問題。半小時後,測試的第一台虛擬機可以開機運作,這時心想,那其他幾台都如法泡製好了。所以,又花了好幾個小時將所有的 VMDK 檔上傳到 Storage Server 的 Datastore 中。

到了下午四點多,所有vmdk 及vmx檔案上傳完畢,一台一台 Add to Inventory,且一台一台依序開機。葉斯!所有虛擬機都正常開機完畢,終於把狀況解除並恢復上線狀態!感謝老天爺還留有一份可以開機的 vmdk 檔給我,當下真想跳起來灑花轉圈圈了呢!當然,後續還是由威爾森幫我們重新設定 vSphere Replication Appliance 後,再等那兩顆送修的硬碟拿回來後,這個還原的過程才算真的結案!

所以,這個故事告訴我們,沒事多備份,多備份沒事!還有,該花錢建置的設備,一丁點都不能省啊!

【版權宣告】 版權屬瑞奇所有,歡迎非商業用途轉載,並請於轉載文章之中註明原始出處,否則即視為侵權行為!



free counters
( 興趣嗜好電腦3C )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=rickyshiu&aid=25326103