RAID/服務(wù)器故障恢復(fù) 隨著全球數(shù)據(jù)量爆炸式的增長(zhǎng),我們已經(jīng)迎來(lái)了“大數(shù)據(jù)”時(shí)代,越來(lái)越大的數(shù)據(jù)如何安全有效的存儲(chǔ),各種容災(zāi)措施是否萬(wàn)無(wú)一失,當(dāng)策略性備份這最后的容災(zāi)防線也崩潰時(shí),如何拯救岌岌可危的“大數(shù)據(jù)”成了所有人都急切關(guān)注的問(wèn)題。> 我們支持惠普、IBM、戴爾、浪潮等品牌Raid-0、Raid-1、Raid-4、Raid-5、Raid-6級(jí)別及其衍生Raid級(jí)別的服務(wù)器(Raid陣列)出現(xiàn)故障時(shí)的數(shù)據(jù)恢復(fù)。1、什么是RAID? Raid(獨(dú)立冗余磁盤(pán)陣列)是大數(shù)據(jù)時(shí)代最好的存儲(chǔ)手段,它既解決了單塊硬盤(pán)容量無(wú)法達(dá)到使用要求的缺陷,又提供了不同級(jí)別的災(zāi)備措施,用戶可根據(jù)需要靈活定制適用的陣列模式來(lái)存儲(chǔ)大容量數(shù)據(jù),常見(jiàn)的陣列方式有以下幾種:
級(jí)別 | 最少盤(pán)數(shù) | 安全性 | 性能 | 適用范圍 |
Raid-0 | 2 | ★ | ★★★★ | Raid-0提供極佳的讀寫(xiě)性能,磁盤(pán)利用率很高,但未提供任何冗余手段,任何一塊成員盤(pán)故障,都會(huì)導(dǎo)致Raid失效,數(shù)據(jù)丟失,它在所有陣列模式中,安全性最差。 適用于對(duì)存儲(chǔ)速度和容量要求較高,但數(shù)據(jù)重要性較低的企業(yè)和個(gè)人,例如婚紗影樓等。 |
Raid-1 | 僅可2塊 | ★★★★★ | ★ | Raid-1俗稱(chēng)鏡像,兩塊成員盤(pán)同步進(jìn)行操作,其中一塊出現(xiàn)故障,不影響數(shù)據(jù)安全,但其性能和磁盤(pán)利用率最低,適用于存儲(chǔ)極為重要的數(shù)據(jù),例如企業(yè)財(cái)務(wù)數(shù)據(jù)、網(wǎng)站數(shù)據(jù)庫(kù)等。 |
Raid-5 | 3 | ★★★ | ★★★★ | Raid-5是最常用的一種陣列模式,它提供了一組冗余信息(P校驗(yàn)-校驗(yàn)值通過(guò)成員盤(pán)異或運(yùn)算得出),允許其中一塊成員盤(pán)掉線而不影響陣列的正常運(yùn)行,同時(shí)兼顧了陣列的容量與性能,這使得Raid-5適用范圍非常廣,廣泛應(yīng)用于企業(yè)、政府、軍隊(duì)的大型存儲(chǔ)中。 |
Raid-6 | 4 | ★★★★ | ★★★ | Raid-6是Raid-5的加強(qiáng)版,它提供了兩組冗余信息(P、 Q校驗(yàn)),最多允許兩塊成員盤(pán)掉線,安全性更高,當(dāng)性能比Raid-5稍差,適用于對(duì)安全性要求更高的行業(yè)。 |
HP雙循環(huán) | 3 | ★★★ | ★★★★ | 惠普雙循環(huán)是惠普服務(wù)器上特有的一種陣列模式,其整體為Raid-5(或Raid-6),但在Raid-5(Raid-6)下又包含了Raid-4,提供了一組冗余信息,其性能及安全性與單純的Raid-5(Raid-6)相差不多,只搭載在惠普服務(wù)器上。 |
JBod/Big | 2 | ★★ | ★★ | 嚴(yán)格意義上說(shuō),JBod不是一種陣列模式,它僅將幾塊硬盤(pán)首尾相連,所以不存在條帶、循環(huán)方向等Raid特性,容量為所有成員盤(pán)相加,這種陣列模式由于性能和安全性均不佳,在實(shí)際中較少被采用。 |
二、RAID為什么會(huì)發(fā)生故障? Raid提供了不同級(jí)別的容災(zāi)措施,但它并不是萬(wàn)無(wú)一失的,即使是最安全的Raid-1也可能由于不可預(yù)見(jiàn)的原因?qū)е聰?shù)據(jù)徹底丟失。從我們接觸的實(shí)際案例看,恰恰是陣列提供商所宣傳的安全性,放松了用戶的安全意識(shí),最終造成數(shù)據(jù)丟失。例如Raid-5允許一塊成員盤(pán)掉線而不影響正常使用,實(shí)際案例中,90%以上的Raid-5故障均表現(xiàn)為兩塊以上成員盤(pán)掉線,且其中一塊往往已掉線很久。這說(shuō)明,當(dāng)?shù)谝粔K故障盤(pán)亮燈報(bào)警后,用戶并未及時(shí)發(fā)現(xiàn)并排除故障,當(dāng)?shù)诙K硬盤(pán)離線,Raid失效后才開(kāi)始補(bǔ)救,為時(shí)已晚。 那么Raid為什么會(huì)出現(xiàn)故障?Raid安全性的基礎(chǔ)是成員盤(pán)的安全可靠,由于機(jī)械硬盤(pán)存儲(chǔ)密度的大幅提升以及廠商對(duì)成本的壓縮控制,現(xiàn)在硬盤(pán)的質(zhì)量已大不如前,很多硬盤(pán)僅僅使用幾個(gè)月甚至更短時(shí)間即出現(xiàn)物理故障,當(dāng)過(guò)多的硬盤(pán)出現(xiàn)故障,Raid的安全性就成了空談。為提高性能,陣列上常常采用性能更高的服務(wù)器硬盤(pán),這種硬盤(pán)可提供10000-15000rpm的轉(zhuǎn)速,性能極佳。但它們?cè)诔霈F(xiàn)磁頭損壞后,如不及時(shí)發(fā)現(xiàn)并斷電,磁頭很可能長(zhǎng)時(shí)間與碟片接觸,將碟片嚴(yán)重劃傷,致使存儲(chǔ)介質(zhì)的磁粉脫落,造成無(wú)法挽回的損失。
故障原因 | 故障表現(xiàn) | |
1 | 邏輯故障 | 1. 陣列中部分?jǐn)?shù)據(jù)丟失或數(shù)據(jù)無(wú)法正常打開(kāi)(文件系統(tǒng)損壞或文件結(jié)構(gòu)破壞) 2. 陣列中某種格式(Office文檔、壓縮文件)無(wú)法正常打開(kāi)(病毒破壞特定文件) 3. 在系統(tǒng)下,陣列未初始化(MBR損壞或分區(qū)表故障) 4. 陣列卷無(wú)法打開(kāi)或提示格式化(文件系統(tǒng)損壞) 5. 誤將陣列中一塊多多塊硬盤(pán)進(jìn)行格式化操作 6. Raid重建(將Raid-1重建為Raid-0或反操作,將Raid-5重建為Raid-0或反操作等) |
2 | 成員盤(pán)物理故障 | 1. 多塊成員盤(pán)指示燈報(bào)警 2. Raid管理器中多塊硬盤(pán)離線或丟失 3. 陣列從系統(tǒng)下丟失并無(wú)法訪問(wèn) 4. 陣列呈現(xiàn)未初始化狀態(tài) 5. 陣列重啟后無(wú)法正常啟動(dòng) 6. 陣列同步過(guò)程中又有其它成員盤(pán)離線 |
3 | 陣列卡損壞 | 1. 陣列信息丟失,所有硬盤(pán)均呈現(xiàn)離線狀態(tài) 2. 陣列在系統(tǒng)下無(wú)法識(shí)別 3. 無(wú)法進(jìn)入Raid管理界面或查看Raid信息時(shí)死機(jī) |
4 | 不恰當(dāng)?shù)年嚵袛U(kuò)容 | 1. 多塊成員盤(pán)指示燈報(bào)警 2. 陣列呈現(xiàn)未初始化狀態(tài),無(wú)法正常訪問(wèn) 3. 擴(kuò)容后容量不正常,或發(fā)生卷丟失 4. 擴(kuò)容后部分或全部文件丟失 |
5 | 盤(pán)序標(biāo)記錯(cuò)誤 | 1. 陣列無(wú)法正常啟動(dòng) 2. 在Raid管理中,陣列呈現(xiàn)未初始化狀態(tài) |
三、RAID發(fā)生故障后如何避免數(shù)據(jù)丟失? 用戶在陣列出現(xiàn)故障后,通常首先向供應(yīng)商求助,但供應(yīng)商僅能保證陣列重新正常運(yùn)行,并不對(duì)用戶數(shù)據(jù)安全負(fù)責(zé)。所以供應(yīng)商通常采取的措施是將離線硬盤(pán)剔除,替換完好硬盤(pán)讓陣列自行做同步操作,正常情況下,這種做法是安全的,但如果成員盤(pán)先后離線時(shí)間間隔較長(zhǎng),提前離線的硬盤(pán)可能在重啟后恢復(fù)正常并參與同步,它并未存儲(chǔ)其離線后的“新鮮”數(shù)據(jù),當(dāng)其參與同步操作時(shí),就把整個(gè)陣列數(shù)據(jù)“污染”了,導(dǎo)致數(shù)據(jù)在同步完成后丟失或無(wú)法正常打開(kāi),最明顯的表現(xiàn)為:數(shù)據(jù)越新越大,損壞的概率越高,數(shù)據(jù)越舊越小,損壞概率越低。 數(shù)據(jù)恢復(fù)廠商與服務(wù)器供應(yīng)商所提供的解決方案是不同的,數(shù)據(jù)恢復(fù)提倡先將數(shù)據(jù)完整恢復(fù),再對(duì)陣列采取修復(fù)措施,甚至可以在替換故障硬盤(pán)后直接對(duì)陣列進(jìn)行初始化,再將已經(jīng)完整恢復(fù)的數(shù)據(jù)拷貝回去。對(duì)于大容量陣列來(lái)說(shuō),磁盤(pán)同步是個(gè)工作量巨大的操作,所有成員盤(pán)可能在連續(xù)幾天的時(shí)間里不間斷進(jìn)行讀寫(xiě)操作,一些存在質(zhì)量問(wèn)題的硬盤(pán)可能在這一過(guò)程中損壞。在我們的案例中,經(jīng)常出現(xiàn)同步過(guò)程未結(jié)束,原來(lái)正常的硬盤(pán)又離線的情況,而這時(shí)再進(jìn)行數(shù)據(jù)恢復(fù),難度很高。四、友情提示 災(zāi)備措施是滯后的,沒(méi)有任何一種容災(zāi)手段能做到萬(wàn)無(wú)一失,也沒(méi)有哪種Raid機(jī)制能百分百保證您的數(shù)據(jù)安全,勤檢查,常備份才是避免重大數(shù)據(jù)丟失唯一行之有效的手段。
1 | 勤檢查,多查看。定期查看陣列運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)不正?,F(xiàn)象,并排除; |
2 | 陣列出現(xiàn)故障后,立即對(duì)陣列進(jìn)行斷電操作,切忌做重新創(chuàng)建、強(qiáng)制上線、強(qiáng)制重建等操作; |
3 | 非專(zhuān)業(yè)人事切忌對(duì)Raid模塊進(jìn)行拆卸、更換等操作 |
4 | 當(dāng)對(duì)陣列硬盤(pán)進(jìn)行清塵時(shí),需提前標(biāo)記盤(pán)序,避免由于盤(pán)序錯(cuò)亂導(dǎo)致Raid信息丟失。 |
5 | 任何容災(zāi)措施都不可能萬(wàn)無(wú)一失,定期對(duì)陣列內(nèi)的重要數(shù)據(jù)進(jìn)行備份,勤備份是防止數(shù)據(jù)丟失唯一行之有效的途徑。 |
6 | 及時(shí)求助正規(guī)專(zhuān)業(yè)的數(shù)據(jù)恢復(fù)機(jī)構(gòu),陣列是可以用錢(qián)買(mǎi)到的,但數(shù)據(jù)是無(wú)價(jià)的,在進(jìn)行陣列修復(fù)前,切記先將數(shù)據(jù)完整恢復(fù)。 |
數(shù)據(jù)恢復(fù) | 解決方案 | 客戶服務(wù) | APP/小程序開(kāi)發(fā) | 服務(wù)報(bào)價(jià) | 聯(lián)系我們 |
西歐科技 版權(quán)所有 Copyright @ 2012-2019
Guangxi Nanning West Europe Electronic Technology Co., Ltd
備案號(hào): 桂ICP備09001405號(hào)