Blog

S.M.A.R.T. Cách thực hiện – Hướng dẫn để theo dõi tình trạng của đĩa cứng

Nếu bạn đang vận hành một máy chủ, thì tình trạng sức khỏe và độ tin cậy của hệ thống lưu trữ là hai mối quan tâm hàng đầu. Hỏng hóc ổ đĩa có thể dẫn đến thời gian ngừng hoạt động tốn kém, mất dữ liệu và giảm hiệu suất – đặc biệt trong môi trường mà thời gian hoạt động là yếu tố sống còn. S.M.A.R.T. (Công nghệ Tự giám sát, Phân tích và Báo cáo) là một công nghệ tiên tiến được thiết kế để theo dõi chủ động tình trạng sức khỏe của ổ đĩa, cho phép phát hiện sớm các sự cố tiềm ẩn trước khi chúng trở nên nghiêm trọng.

Trong bài viết này, chúng ta sẽ tìm hiểu cách triển khai và sử dụng giám sát S.M.A.R.T. để đảm bảo độ tin cậy và tuổi thọ của ổ đĩa, bất kể môi trường hệ thống bạn đang sử dụng là gì.

Bước 1: Hiểu về giám sát S.M.A.R.T.

S.M.A.R.T. là một tính năng tự giám sát có sẵn trên hầu hết các ổ cứng và SSD hiện đại. Nó theo dõi nhiều thuộc tính liên quan đến hiệu suất và độ tin cậy của ổ đĩa. Bằng cách theo dõi các thuộc tính như số sector bị chuyển vùng, thời gian hoạt động, và nhiệt độ, công nghệ này cung cấp cảnh báo sớm cho các lỗi ổ đĩa sắp xảy ra.
Trong các hệ thống mà độ tin cậy của lưu trữ ảnh hưởng trực tiếp đến tính sẵn sàng và toàn vẹn của các dịch vụ, việc giám sát các thuộc tính này là rất quan trọng.

Bước 2: Cài đặt S.M.A.R.T. trên Windows

Nếu bạn sử dụng Windows, có một vài cách để triển khai giám sát S.M.A.R.T., tùy thuộc vào việc ổ đĩa của bạn được kết nối qua bộ điều khiển RAID phần cứng/Fake RAID (RAID on Chip) hay là ổ đĩa độc lập.

Các cấu hình RAID

MegaRAID Storage Manager (MSM) được Broadcom (trước đây là LSI) phát triển, chuyên dùng để quản lý và giám sát các bộ điều khiển RAID sử dụng chipset của họ. Với các bộ điều khiển RAID từ các nhà sản xuất khác, bạn cần sử dụng phần mềm riêng do nhà sản xuất đó cung cấp.

Cần lưu ý rằng 99% bộ điều khiển IPTP sử dụng là của Broadcom (LSI). Tuy nhiên, cũng có các nhà sản xuất khác như Adaptec, sử dụng hệ thống hoàn toàn khác. Hệ thống của chúng tôi cũng có một vài thiết bị như vậy.

Dù MSM cung cấp giao diện đồ họa để giám sát ổ đĩa trong RAID, để phân tích sâu hơn, chúng tôi vẫn sử dụng công cụ smartctl (thuộc bộ smartmontools) để kiểm tra ổ đĩa ẩn sau bộ điều khiển. Cách dùng smartctl với RAID như sau:

Ổ đĩa độc lập

Bạn có thể truy cập thông tin S.M.A.R.T. bằng smartmontools thông qua dòng lệnh. Sau khi cài đặt, chạy lệnh sau để có báo cáo tình trạng ổ đĩa:
smartctl -A /dev/sda
Lệnh này sẽ liệt kê các thuộc tính S.M.A.R.T. quan trọng như Reallocated Sector Count, Temperature và Power-On Hours.

Tự động hóa kiểm tra trên Windows

Người dùng Windows có thể lập lịch bằng PowerShell script hoặc tập tin batch để thực hiện kiểm tra S.M.A.R.T., tạo nhật ký hoặc cảnh báo khi cần thiết.

Bước 3: Cài đặt S.M.A.R.T. trên Linux

Với hệ thống Linux chạy chế độ không giao diện trong máy chủ, quy trình sẽ khác một chút. Hầu hết các bản phân phối Linux không cài sẵn smartmontools, và ngay cả khi đã cài, dịch vụ S.M.A.R.T. (`smartd`) có thể chưa được kích hoạt.

Cài đặt smartmontools:

Cài smartmontools bằng trình quản lý gói của bản phân phối:

Với Ubuntu/Debian:
sudo apt install smartmontools
Với RedHat/CentOS:
sudo yum install smartmontools

Kích hoạt dịch vụ smartd để giám sát liên tục:

sudo systemctl enable smartd sudo systemctl start smartd
Chỉnh file cấu hình: sudo nano /etc/smartd.conf

Cấu hình mẫu:
DEVICESCAN -a -o on -S on -n standby,q -s (S//./02|L//6/03) -W 4,35,40 -m root

Giải thích cấu hình:

DEVICESCAN: Quét tất cả thiết bị
-a: Giám sát tất cả thuộc tính
-o on: Kích hoạt kiểm tra offline tự động
-S on: Tự động lưu thuộc tính
-n standby,q: Không kiểm tra nếu ổ đĩa đang standby, và không hiển thị cảnh báo
-s (S//./02|L//6/03): Lên lịch kiểm tra ngắn hàng ngày lúc 2h sáng và kiểm tra dài mỗi thứ 7 lúc 3h sáng
-W 4,35,40: Ngưỡng nhiệt độ (thấp, cao, nguy hiểm)
-m root: Gửi cảnh báo email đến người dùng root

Kiểm tra nhanh tình trạng ổ đĩa:

sudo smartctl -A /dev/sda
Lệnh này trả về danh sách các thuộc tính như Current Pending Sector Count, CRC Error Count và Temperature, cho cái nhìn tổng quát về tình trạng ổ đĩa.

Để thu thập toàn bộ dữ liệu S.M.A.R.T.:

smartctl -h # Hiển thị menu trợ giúp smartctl --scan # Quét tất cả ổ đĩa smartctl -i /dev/sda # Hiển thị thông tin ổ đĩa smartctl -H /dev/sda # Kiểm tra nhanh tình trạng smartctl -A /dev/sda # Hiển thị tất cả thông tin về ổ đĩa

Với RAID, nơi bộ điều khiển có thể ẩn thông tin vật lý của ổ đĩa, lệnh –scan sẽ chỉ ra đường dẫn đúng:
smartctl --scan /dev/bus/6 -d megaraid,12 # Ổ đĩa 12 trong mảng RAID, thiết bị SCSI /dev/bus/6 -d megaraid,13 # Ổ đĩa 13 trong mảng RAID, thiết bị SCSI
Khi đã biết đường dẫn ổ đĩa, xem chi tiết:

smartctl -A /dev/bus/6 -d megaraid,12

Tự động hóa trên Linux

Bạn có thể tạo cron job để tự động kiểm tra ổ đĩa và gửi email nếu phát hiện thông số đáng lo ngại.

Bước 4: Giám sát S.M.A.R.T. trong hệ thống RAID

Giám sát từng ổ đĩa riêng lẻ trong RAID là một thách thức, vì bộ điều khiển RAID thường che giấu thông tin ổ đĩa khỏi hệ điều hành. Tuy nhiên, vẫn có cách giải quyết trên cả Windows và Linux.

Với hệ thống RAID trên Windows

MegaRAID Storage Manager là công cụ cần thiết để giám sát S.M.A.R.T. trong hệ thống RAID phần cứng. Nó cho phép bạn xem tình trạng từng ổ đĩa, đảm bảo không bỏ sót ổ nào đang có nguy cơ hỏng.

Mở MegaRAID Storage Manager, đăng nhập bằng IP, phát hiện máy chủ, chọn server, nhập username và password để có toàn quyền.
Đi đến tab “Logical” để xem và chọn ổ đĩa, kiểm tra các thông tin như Product ID, Vendor ID và các chỉ số S.M.A.R.T. quan trọng như Media Error Count và Pred Fail Count.

Với hệ thống RAID trên Linux

Để quản lý và lấy thông tin S.M.A.R.T. từ RAID, dùng `storcli`:
sudo storcli /c0/e32/s0 show

Lệnh này cho phép bạn lấy các chỉ số S.M.A.R.T. giống như ổ đĩa độc lập, giúp theo dõi sự cố ngay cả trong RAID phức tạp.

Bước 5: Các chỉ số S.M.A.R.T. cần chú ý

Không phải tất cả các thuộc tính S.M.A.R.T. đều quan trọng như nhau. Dưới đây là những chỉ số cần đặc biệt quan tâm:

Reallocated Sector Count: Số sector bị chuyển vùng tăng lên là dấu hiệu ổ đĩa đang remap các sector lỗi – dấu hiệu hỏng hóc sớm.
Temperature: Nhiệt độ cao có thể gây hỏng ổ đĩa sớm. Đảm bảo ổ đĩa hoạt động trong phạm vi an toàn.
Power-On Hours: Cho biết ổ đĩa đã hoạt động bao lâu, từ đó ước lượng tuổi thọ.
Command Timeout & CRC Errors: Có thể là dấu hiệu lỗi phần cứng hoặc nhiễu tín hiệu trong kết nối giữa ổ đĩa và bộ điều khiển.
Với thiết bị lưu trữ: Theo dõi chỉ số Media Wearout Indicator để biết ổ đĩa còn bao nhiêu chu kỳ đọc/ghi trước khi hết tuổi thọ.

Dùng hdparm cho SSD:

sudo hdparm --security-erase 12345 /dev/sdX
Bạn cũng có thể dùng lệnh dd để ghi đè dữ liệu:

sudo dd if=/dev/zero of=/dev/sdX bs=4096 status=progress
Quá trình này đảm bảo xóa sạch dữ liệu riêng tư, chuẩn bị ổ đĩa để tái sử dụng hoặc tiêu hủy.

Kết luận: Giám sát chủ động sức khỏe thiết bị lưu trữ

Giám sát S.M.A.R.T. là công cụ hiệu quả để đảm bảo sức khỏe và độ tin cậy lâu dài của hệ thống lưu trữ. Bằng cách kiểm tra định kỳ các chỉ số quan trọng, tự động hóa kiểm tra, và hiểu được các dấu hiệu cảnh báo, bạn có thể tránh được sự cố bất ngờ và kéo dài tuổi thọ phần cứng.

Trong các môi trường máy chủ đòi hỏi độ sẵn sàng cao và toàn vẹn dữ liệu, giám sát S.M.A.R.T. giúp bạn luôn đi trước một bước trong việc xử lý lỗi phần cứng. Dù bạn đang dùng Windows hay Linux, hoặc đang quản lý RAID phức tạp, hướng dẫn này cung cấp đầy đủ các bước để hệ thống của bạn luôn hoạt động ổn định và an toàn.

Bạn đã sẵn sàng triển khai giám sát S.M.A.R.T. cho máy chủ của mình chưa? Với công cụ và tự động hóa phù hợp, bạn sẽ đảm bảo hệ thống luôn tin cậy và an toàn.

Xem tất cả