Khi dung lượng ổ cứng (HDD) tăng lên, lượng thời gian cần thiết để tái tạo (rebuild) dữ liệu RAID cũng tăng theo đáng kể. Điều này trở thành một trong những khó khăn lớn nhất cho quản lý lưu trữ của doanh nghiệp ngày nay. Trước đây, khi dung lượng HDD chỉ từ 10GB đến 100GB, việc tái tạo RAID có thể hoàn tất trong 10 phút hoặc hơn một chút và không phải là vấn đề đáng quan tâm. Tuy nhiên, khi dung lượng ổ đĩa phát triển lên đến hàng trăm GB và thậm chí hàng TB như hiện nay, thời gian tái tạo RAID phải mất nhiều giờ hoặc nhiều ngày, trở thành vấn đề chính trong công việc quản lý lưu trữ.
[Để tìm hiểu về RAID, vui lòng đọc bài viết Giải thích các cấp độ RAID].
Tại sao tái tạo RAID lại mất nhiều thời gian?
Khi dung lượng HDD tăng lên, thời gian tái tạo RAID cũng tăng theo, nâng thời gian tái tạo của những kiến trúc RAID truyền thống lên đến hàng chục giờ nếu các ổ đĩa RAID có dung lượng trên 4TB.
Có nhiều yếu tố tác động đến thời gian tái tạo RAID:
Dung lượng HDD: Dung lượng HDD cấu thành nhóm ổ đĩa (gọi tắt là nhóm). Dung lượng HDD càng lớn, thời gian tái tạo càng lâu.
Số lượng HDD: Số lượng HDD có trong một nhóm tác động đến lượng thời gian cần thiết để hệ thống đọc dữ liệu từ các ổ đĩa khỏe mạnh còn lại, và ghi dữ liệu đến các ổ đĩa dự phòng nóng (hot spare). Số lượng HDD càng nhiều, thời gian tái tạo càng lâu.
Mức độ ưu tiên tái tạo: Trong quá trình tái tạo, hệ thống vẫn phải thực hiện hoạt động truy cập Vào/Ra với front-end host. Mức độ ưu tiên dành cho nhiệm vụ tái tạo RAID càng cao, việc tái tạo diễn ra càng nhanh, nhưng sẽ làm giảm hiệu năng Vào/Ra của front-end host.
Tái tạo nhanh: Cho phép chức năng tái tạo nhanh chỉ cần tái tạo phần dung lượng thực của khối lưu trữ, không gian chưa dùng đến trong nhóm sẽ không được tái tạo. Nếu chỉ một phần không gian trong nhóm đang được sử dụng bởi khối lưu trữ, thời gian tái tạo sẽ được rút ngắn lại.
Cấp độ RAID: RAID 1 và RAID 10 sử dụng cơ chế sao chép khối-sang-khối trực tiếp, sẽ tái tạo nhanh hơn RAID 5 và RAID 6 dùng kỹ thuật tính toán parity.
Với nguy cơ hư hỏng trên mỗi ổ đĩa, số lượng ổ đĩa trong một nhóm càng nhiều, khả năng hư hỏng tích lũy tăng càng nhiều, do đó có giới hạn trên về số lượng ổ đĩa trong một nhóm. So với các yếu tố vừa nêu, tác động ngày càng tăng của dung lượng ổ đĩa đối với tốc độ tái tạo đã trở thành yếu tố chính. Thời gian tái tạo lâu như vậy rõ ràng không thể chấp nhận với bất kỳ người dùng nào. Để giải quyết vấn đề này của RAID truyền thống, người ta đã triển khai công nghệ RAID EE.
Lý thuyết về RAID EE:
RAID EE bổ sung thêm các ổ đĩa spare vào một nhóm (được gọi là spare RAID EE) để phân biệt với những spare gốc, cục bộ và chuyên biệt. Các vùng spare được lưu giữ trong mỗi stripe của nhóm và được phân phối vào nhóm bởi hoạt động quay của ổ đĩa. Khi ổ đĩa trong nhóm gặp hư hỏng, dữ liệu bị mất sẽ được tái tạo từ các vùng spare đã lưu giữ ban đầu. Do tất cả ổ đĩa trong nhóm đều là đích của dữ liệu tái tạo, nên tình trạng nghẽn cổ chai của RAID truyền thống không còn nữa, giúp cải thiện hiệu năng tái tạo. Nếu ổ đĩa mới được thêm vào, dữ liệu trong vùng spare sẽ được sao chép trở lại ổ đĩa mới.
Hiện có 4 cấp độ RAID mới được triển khai cho RAID EE, bao gồm:
RAID 5EE (E là từ viết tắt của Enhanced), đòi hỏi tối thiểu 4 ổ đĩa với một ổ đĩa spare RAID EE, có khả năng chịu lỗi 2 ổ đĩa. Thêm nhiều ổ đĩa spare RAID EE sẽ đem lại khả năng chịu lỗi nhiều ổ đĩa hơn.
RAID 6EE đòi hỏi tối thiểu 5 ổ đĩa.
RAID 50EE đòi hỏi tối thiểu 7 ổ đĩa.
RAID 60EE đòi hỏi tối thiểu 9 ổ đĩa.
Ví dụ trường hợp RAID 5EE có một ổ đĩa spare RAID EE:
Chúng ta sẽ lấy một ví dụ để miêu tả cách làm việc của loại RAID nâng cao này. Ví dụ sau đây là một mảng RAID 5EE với 5 ổ đĩa. Trong đó 4 ổ đĩa dành cho RAID và thêm 1 ổ đĩa cho spare RAID EE. Sau khi khởi tạo, khối dữ liệu được phân phối như hình dưới. P tượng trưng cho parity, S tượng trưng cho spare RAID EE và hiện tại nó đang trống.
Giả sử ổ đĩa D2 bị hỏng. RAID 5EE rơi vào chế độ degraded mode.
Các vùng spare sẽ được tái tạo đúng với dữ liệu của ổ đĩa đã bị hỏng. Hoạt động này được gọi là tái tạo EE. Sau khi tái tạo, dữ liệu được phân phối giống như RAID 5 và mảng có thể chịu lỗi thêm một ổ đĩa hỏng nữa. Như vậy chúng ta có thể hình dung, càng có nhiều ổ đĩa spare RAID EE, mảng tái tạo càng nhanh.
Khi một ổ đĩa mới được đưa vào nhóm RAID EE, dữ liệu trong vùng spare sẽ được sao chép trở lại cho ổ đĩa mới. Hoạt động này được gọi là copyback. Sau khi copyback, mảng trở lại trạng thái bình thường RAID 5EE.
Ví dụ trường hợp RAID 60EE có hai ổ đĩa spare RAID EE:
Chúng ta lấy thêm một ví dụ khác, RAID 60EE với 10 ổ đĩa. Trong đó 8 ổ đĩa dành cho RAID và 2 ổ đĩa cho spare RAID EE. Sau khi khởi tạo, khối dữ liệu được phân phối như hình dưới. Việc tái tạo và copyback của RAID 60EE cũng tương tự như trường hợp trên, do đó chúng ta sẽ không nêu lại ở đây.
Kết quả thử nghiệm:
+ Trường hợp 1: RAID 5 vs RAID 5EE
Thử nghiệm này đem lại sự so sánh về thời gian tái tạo và thời gian copyback giữa RAID 5 và RAID 5EE. Chúng ta giả sử rằng có nhiều ổ đĩa spare RAID EE, thời gian tái tạo sẽ ít hơn. Đầu tiên chúng ta tạo một mảng RAID 5 với 16 HDD SAS. Sau khi khởi tạo xong, rút một HDD ra và cắm vào bằng một HDD khác. RAID 5 sẽ bắt đầu tái tạo. Tính thời gian tái tạo với các kiểu truy cập Vào/Ra khác nhau. Tiếp tục tạo mảng RAID 5EE với 16 HDD SAS và lần lượt sử dụng thêm 1/2/4/8 HDD để làm ổ đĩa spare RAID EE. Sau khi khởi tạo xong, rút một HDD ra. RAID EE bắt đầu tái tạo. Tính thời gian tái tạo với các kiểu truy cập Vào/Ra khác nhau. Sau đó cắm một HDD khác vào và thiết lập nó làm ổ đĩa spare chuyên biệt, hệ thống sẽ bắt đầu sao chép trở lại. Cuối cùng, tính thời gian copyback.
Tóm tắt:
RAID EE có thể cải thiện thời gian tái tạo lên đến 48%.
Sử dụng ổ đĩa spare RAID EE càng nhiều, thời gian tái tạo càng ít.
Thời gian tái tạo đạt hiệu quả hơn khi có hoạt động đọc.
Thiết bị & cấu hình thử nghiệm:
+ Trường hợp 2: RAID 60 vs RAID 60EE
Cũng như trường hợp 1, thử nghiệm này đem lại sự so sánh về thời gian tái tạo và thời gian copyback giữa RAID 60 và RAID 60EE. Tương tự, chúng ta giả sử rằng có nhiều ổ đĩa spare RAID EE, thời gian tái tạo sẽ ít hơn và RAID 60EE sẽ cho hiệu quả tốt hơn. Đầu tiên chúng ta tạo một mảng RAID 60 với 16 HDD SAS. Sau khi khởi tạo xong, rút một HDD ra và cắm vào bằng một HDD khác. RAID 60 sẽ bắt đầu tái tạo. Tính thời gian tái tạo với các kiểu truy cập Vào/Ra khác nhau. Tiếp tục tạo mảng RAID 60EE với 16 HDD SAS và lần lượt sử dụng thêm 1/2/4/8 HDD để làm ổ đĩa spare RAID EE. Sau khi khởi tạo xong, rút một HDD ra. RAID EE bắt đầu tái tạo. Tính thời gian tái tạo với các kiểu truy cập Vào/Ra khác nhau. Sau đó cắm một HDD khác vào và thiết lập nó làm ổ đĩa spare chuyên biệt, hệ thống sẽ bắt đầu sao chép trở lại. Cuối cùng, tính thời gian copyback.
Tóm tắt:
RAID EE có thể cải thiện thời gian tái tạo lên đến 58%.
Sử dụng ổ đĩa spare RAID EE càng nhiều, thời gian tái tạo càng ít.
Thời gian tái tạo đạt hiệu quả hơn khi có hoạt động đọc.
Thiết bị & cấu hình thử nghiệm:
Kết luận:
Khi dung lượng ổ đĩa tăng lên, thời gian tái tạo RAID cũng tăng theo. Số lượng ổ đĩa trong một nhóm càng nhiều, khả năng hư hỏng tích lũy tăng càng nhiều, dẫn đến tác động ngày càng tăng của dung lượng ổ đĩa đối với tốc độ tái tạo. Sử dụng công nghệ RAID EE sẽ làm giảm đáng kể những rủi ro này.