Sao lưu là một phần quan trọng trong cuộc sống kỹ thuật số của chúng ta. Mọi máy tính từ cơ sở dữ liệu khổng lồ đến một máy tính cá nhân hoặc thiết bị di động đều cần một bản sao lưu.
Nơi mà dữ liệu người dùng có liên quan nhất có thể được lưu trữ trong thời gian dài và cũng được lưu trữ theo cách có thể phục hồi được trong thời gian cần thiết. Chúng ta có thể rút ra một sự phân biệt giữa dữ liệu trên hệ thống của chúng tôi hiện đang chạy, chúng ta hãy gọi nó là dữ liệu trực tiếp, và sao lưu dữ liệu. Sau đó được lưu trữ khỏi hệ thống hiện tại đang sử dụng dữ liệu trực tiếp.
RAID, liên quan đến dữ liệu trực tiếp, nó là một cơ chế mà hệ thống đang chạy kết hợp nhiều đĩa thành một thực thể lưu trữ duy nhất. Sau đó, dữ liệu được trải rộng trên tất cả các đĩa theo cách mà nó có thể tồn tại sau sự cố của ít nhất một (hoặc nhiều) đĩa vật lý. Loại mảng RAID đơn giản nhất là RAID1 hay còn gọi là phản chiếu. Đây là nơi bạn sao chép cùng một dữ liệu trên hai hoặc nhiều đĩa sao cho nếu một trong các đĩa bị lỗi, dữ liệu vẫn có thể tồn tại và vẫn được sử dụng tích cực. Ngoài ra còn có các cấu hình RAID khác và chúng ta sẽ thảo luận về những cấu hình đó khi chúng ta tiếp tục.
Về RAID
RAID, hay Mảng dự phòng của đĩa không đắt, là một cơ chế để lưu trữ dữ liệu trên các đĩa. Có rất nhiều “mảng” thiết lập RAID mà bạn có thể sử dụng, nhưng hai cơ chế cơ bản mà chúng đều dựa trên là:
1. Mirroring:
Sao chép ngụ ý rằng các khối dữ liệu của bạn được sao chép, nhân bản, trên nhiều đĩa. Nếu bạn nhân bản dữ liệu của mình trên ba đĩa, bạn có thể tồn tại tối đa hai đĩa bị lỗi tại bất kỳ thời điểm nào, các đĩa bị lỗi sau đó có thể được thay thế bằng đĩa mới mà không gặp nhiều rắc rối. Tương tự, nếu bạn sao chép dữ liệu trên n + 1 đĩa, bạn có thể chịu được tối đa n đĩa bị lỗi. Nhược điểm của điều này là bạn chỉ nhận được dung lượng lưu trữ bằng đĩa nhỏ nhất trong mảng RAID của bạn.
2. Tính chẵn lẻ:
Cách tiếp cận thứ hai là chia dữ liệu của bạn thành hai phần, sử dụng hai khối dữ liệu người dùng, bạn có thể tạo khối ‘chẵn lẻ’ thứ ba. Ba khối đều có cùng kích thước và được trải rộng trên các thiết bị khác nhau. Cần tối thiểu ba thiết bị để cấu hình này hoạt động. Nếu bất kỳ đĩa nào bị lỗi, bạn có thể tạo lại các khối được lưu trữ trong đĩa đó bằng cách sử dụng hai khối còn lại.
Nó hiệu quả hơn về mặt sử dụng lưu trữ, hơn là mirroring. Nếu bạn có một khối chẵn lẻ, bạn chỉ cần thêm 50% bộ nhớ vật lý cho mỗi dữ liệu người dùng thực tế mà bạn đang lưu trữ. Điều này có nghĩa là để lưu trữ 1GB dữ liệu, bạn sẽ cần 1,5GB dung lượng lưu trữ (cộng với một chi phí nhỏ cho siêu dữ liệu). Đây là cách hiệu quả hơn so với ngay cả sơ đồ sao chép hiệu quả nhất, nơi bạn cần ít nhất 2GB bộ nhớ để sao chép 1GB dữ liệu giữa hai đĩa.
Nhược điểm là các hoạt động ghi ngẫu nhiên sẽ bị chậm lại, nhờ có thêm bit tính toán và hoạt động ghi được liên kết với khối chẵn lẻ. Ngoài ra, độ tin cậy không tốt bằng n + 1 đĩa được nhân đôi, nơi bạn có thể chuẩn bị cho bất kỳ số lượng đĩa tùy ý nào bị lỗi.
Các cấu hình RAID có thể phức tạp hoặc đơn giản tùy thích, bạn có thể kết hợp các chiến lược chẵn lẻ và sao chép và sửa đổi chúng theo ý thích của doanh nghiệp. Có các bộ điều khiển RAID dành riêng để bạn kết nối các đĩa vật lý của mình và hệ điều hành sau đó sẽ thấy một đĩa logic duy nhất như được hiển thị bởi bộ điều khiển. LSI là một trong những nhà cung cấp bộ điều khiển RAID như vậy. Bạn cũng có thể thực hiện RAID trong phần mềm OpenZFS có lẽ là cách tốt nhất bạn có về vấn đề đó.
Một loại RAID cuối cùng, được đề cập danh dự là RAID 0. Về mặt kỹ thuật, nó không phải là một sơ đồ RAID, bởi vì không có Dự phòng nào liên quan ở đây. Ý tưởng đằng sau RAID 0 là chỉ đơn giản là lan truyền dữ liệu của bạn trên nhiều thiết bị lưu trữ mà không có bất kỳ khả năng phục hồi nào chống lại lỗi đĩa. Lợi thế là bạn nhận được cải thiện hiệu suất bằng cách làm điều này. Nếu bạn đang ghi 1GB dữ liệu vào một đĩa duy nhất, quá trình này diễn ra chậm. Đĩa chỉ có thể thực hiện một số thao tác ghi giới hạn mỗi giây và hệ điều hành của bạn phải đợi nó hoàn thành thao tác đó trước khi dữ liệu mới được gửi theo cách của nó. Nếu bạn trải rộng cùng 1GB dữ liệu trên hai đĩa như vậy, bạn có thể ghi (và đọc) từ cả hai đĩa đồng thời và đạt được khá nhiều cải thiện về hiệu suất.
Back Up
Khái niệm sao lưu được cho là quan trọng hơn RAID. Bản sao lưu, trong bối cảnh quản lý lưu trữ, là một bản sao dữ liệu tốt được biết đến, tại một thời điểm nhất định, từ đó bạn có thể khôi phục các tệp trở lại hệ thống chính của mình khi cần thiết. Về mặt triển khai, có nhiều giải pháp được lưu trữ trên đám mây và nhiều giải pháp ngoại tuyến cũng có thể được sử dụng.
Các dịch vụ sao lưu được sử dụng nhiều nhất bao gồm Google Drive, iCloud hoặc Dropbox trong định nghĩa về giải pháp sao lưu này nhưng chúng được nhắm mục tiêu nhiều hơn đến thị trường tiêu dùng hơn là doanh nghiệp. Tuy nhiên, nguyên tắc cơ bản vẫn giống nhau.
Giải pháp sao lưu của bạn có thể đơn giản như sao chép dữ liệu vào đĩa cứng ngoài hoặc sử dụng rsync để tạo bản sao định kỳ của tất cả thông tin liên quan. Điều này có thể bao gồm thư mục Documents của bạn, cơ sở dữ liệu của bạn, kho lưu trữ nguồn của bạn hoặc thậm chí toàn bộ hệ thống tệp gốc của bạn được chia thành một tệp zip phẳng hoặc tập tin nén. Các tiêu chí quan trọng mà một giải pháp sao lưu tốt cần đáp ứng là:
- Việc sao lưu nên diễn ra thường xuyên
- Các bản sao lưu của bạn sẽ quay ngược thời gian – Dung lượng lưu trữ sao lưu là hữu hạn. Đôi khi bạn phải vứt bỏ các bản sao lưu cũ hơn. Bạn càng có nhiều bộ nhớ, bản sao lưu của bạn càng tốt. Giả sử bạn sao lưu dữ liệu của mình hàng tuần, nhưng hãy vứt bỏ các bản sao lưu cũ hơn 2 tuần. Nếu một tệp vô tình bị xóa và điều này không được chú ý trong hai tuần, bạn sẽ không có cách nào để khôi phục tệp đó.
- Các tệp của bạn thực sự phải được khôi phục – Nếu bạn chưa bao giờ thử khôi phục dữ liệu của mình từ bản sao lưu, bạn không có bản sao lưu. Bạn không cần phải học cách khôi phục dữ liệu, vào thời điểm quan trọng khi bạn bị mất dữ liệu. Lập kế hoạch trước và biết cách khôi phục hệ thống từ bản sao lưu tốt được biết đến gần đây nhất.
- Bản sao lưu của bạn phải được tách biệt khỏi hệ thống đang chạy
Bây giờ chúng ta đã biết một chút về cả RAID và sao lưu, hãy làm nổi bật một số điểm khác biệt giữa chúng.
Tệp và Khối
RAID luôn quan tâm đến các khối dữ liệu chứ không phải cách hệ thống tệp trình bày dữ liệu đó cho người dùng. Cả RAID phần mềm và phần cứng đều xử lý dữ liệu dưới dạng khối thông tin, kích thước của khối có thể thay đổi từ 128 KiB đến 1 MiB.
Mặt khác, các bản sao lưu linh hoạt hơn nhiều. Chúng thường được thực hiện ở cấp hệ thống tệp, mặc dù không có quy tắc cứng và nhanh cho trường hợp này. Chúng cũng có nhiều chi tiết hơn. Bạn có thể khôi phục một tệp từ bản sao lưu của mình, nếu giải pháp của bạn đủ linh hoạt. Mảng RAID không phải là bản sao lưu, chúng chỉ là một cách để truyền dữ liệu trên nhiều đĩa. Nếu một tệp bị xóa, tất cả các khối được sao chép và khối chẵn lẻ của nó sẽ được giải phóng. Kết thúc câu chuyện.
Trường hợp sử dụng
Sao lưu dành cho tất cả mọi người. Cách tiếp cận và mức độ có thể khác nhau giữa các trường hợp sử dụng cá nhân với doanh nghiệp, nhưng tất cả mọi người với cuộc sống số đều cần sao lưu. RAID là một tính năng dành riêng cho doanh nghiệp. Bạn thấy các mảng RAID trong máy chủ, thiết bị lưu trữ như NAS và SAN, trình giám sát đám mây, v.v. Khá nhiều nơi lưu trữ dữ liệu quan trọng trực tiếp đều sử dụng một số dạng RAID. Ngay cả các máy chủ chạy các bản sao lưu được lưu trữ trên đám mây của bạn cũng có thể sử dụng mảng RAID. Đây không phải là những công nghệ loại trừ lẫn nhau.
Điều này không có nghĩa là bạn không thể sử dụng RAID cho trường hợp sử dụng cá nhân của mình, nó chỉ có nhiều tiện ích hơn trong các doanh nghiệp. Một phần lý do đằng sau điều này là trong doanh nghiệp, các đĩa hoạt động liên tục với IO 24/7. Trong môi trường sản xuất, chẳng hạn như lưu trữ cơ sở dữ liệu hoặc dịch vụ phát trực tuyến video hoặc siêu giám sát đám mây, thiết bị lưu trữ của máy chủ của bạn sẽ chịu tải liên tục khủng khiếp, dữ liệu liên tục được đọc và ghi vào các thiết bị này và thường là bởi nhiều ứng dụng đồng thời. Trong những điều kiện này, ổ đĩa của bạn có nhiều khả năng bị lỗi hơn. Có cấu hình RAID có nghĩa là nếu một ổ đĩa bị lỗi, bạn sẽ phải chịu ít hoặc không có thời gian chết. Hầu hết các máy chủ có thể tiếp tục hoạt động ngay cả sau sự cố đĩa nên bạn không bị mất thông tin và yêu cầu mới trong mỗi giây.
RAID không thay thế cho backup
Có rất nhiều người nghĩ rằng nếu bạn có RAID, điều đó có nghĩa là dữ liệu được an toàn trên nhiều đĩa và vì vậy không cần phải sao lưu nó. Không có gì là xa hơn từ sự thật. RAID có nghĩa là để giải quyết một vấn đề cụ thể duy nhất – các đĩa bị lỗi hoặc trả lại dữ liệu sai. Có RAID sẽ không bảo vệ bạn khỏi hàng triệu mối đe dọa khác như sau:
- Lỗi người dùng và việc vô tình xóa
- Lỗi ứng dụng hoặc hệ điều hành gây hỏng dữ liệu trên diện rộng
- Ransomware hoặc phần mềm độc hại khác mã hóa, xóa hoặc làm hỏng dữ liệu của bạn
- Lỗi của chính bộ điều khiển RAID
Dữ liệu trên mảng RAID của bạn đang hoạt động. Nếu hệ điều hành, một ứng dụng (hoặc một người dùng) hoạt động tốt và xóa một vài tệp ở đây và ở đó thì tệp sẽ bị xóa toàn bộ trên mảng RAID của bạn. Có một bản sao dữ liệu riêng biệt của bạn, một bản sao lưu, là cách duy nhất bạn có thể tự bảo vệ mình trước loại tình huống này.
Tổng kết
Nếu bạn lo lắng về dữ liệu của mình, mối quan tâm đầu tiên của bạn nên là giải pháp sao lưu. Hầu hết người dùng máy tính để bàn, ngoại trừ có thể là người dùng thành thạo, nên đầu tư nhiều hơn vào một bản sao lưu đáng tin cậy thay vì loay hoay với RAID1, RAID5 hoặc RAIDZ. Nếu bạn muốn xây dựng một máy chủ sao lưu của riêng mình, bạn cần nghĩ đến một chính sách sao lưu hợp lý và một phần mềm lưu trữ đáng tin cậy. Bài viết này có thể là một nơi tốt để bắt đầu. Bạn có thể sử dụng rsync hoặc zfs send để chuyển bản sao dữ liệu của bạn sang phần phụ trợ này.
Nếu bạn đang ở trong doanh nghiệp và đang xem xét một giải pháp RAID để lưu trữ tất cả dữ liệu trực tiếp của bạn. Hãy xem xét sử dụng OpenZFS, nó cung cấp một giải pháp rất linh hoạt, mọi thứ từ sao chép đĩa n sang RAID1 với một khối chẵn lẻ đến RAID2 và RAID3 với 2 và 3 khối chẵn lẻ. Bạn cần cân nhắc rất nhiều về yêu cầu của hồ sơ trước khi đưa ra quyết định. Có sự đánh đổi giữa hiệu suất đọc-ghi, khả năng phục hồi và hiệu quả lưu trữ của bạn. Tuy nhiên, tôi khuyên bạn chỉ nên nghĩ đến RAID sau khi bạn đã quyết định giải pháp sao lưu.