JM ได้ออก video วิธีการ monitor HDD ใน farm ของเรา ว่าประสิทธิภาพยังดีอยู่ไหม ซึ่งเนื้อหาของ video น่าสนใจมากครับ ... วันนี้ผมเลยจะมาสรุปรายละเอียดให้ฟัง
เริ่มแรก JM ได้อธิบายเรื่องของ HDD ในปัจจุบันที่มีความจุสูงสุดจะใช้ media 9 disc 18 หัวอ่าน ... คือ 1 แผ่น media จะมีหัวอ่านสำหรับแผ่น media ทั้ง 2 ฝั่ง และวหัวอ่านก็จะมี arm ที่ขยับหัวอ่านไปกลับบน media เพื่ออ่านเขียนข้อมูล ยิ่งเราใช้จำนวน media ที่มากขึ้นจำนวนการ move ของหัวอ่านก็จะมีมากขึ้นตามไปด้วย ... ยิ่ง move เยอะโอกาสที่จะ fail ก็มีมากขึ้นด้วยเช่นกันเพราะนี้เป็นการ move ขนาด nano meter การ move แต่ล่ะครั้งจึงต้องแม่นยำมากๆ นอกจากนั้นยังมีเรื่องระยะห่างระหว่างหัวอ่านกับ media ที่จะต้องคงที่อยู่เสมอ
ผมใช้ Windows ก็จะอ้างอิงสำหรับ Windows ในบทความนี้น่ะครับ ต่ถ้าใครใช้ linux ก็สามารถอ้างอิงบทความนี้ได้เหมือนกันเพราะคำสั่งกับ result เหมือนกันเลยและไม่มีอะไรต่าง .... แต่สำหรับ macOS ผมไม่มีเครื่องลองเลยไม่แน่ใจว่าจะเหมือนกันหรือเปล่า ... ใครมี macOS ลองดูได้ครับ
สำหรับ Windows หลังจากที่ลงโปรแกรมไปแล้วเราจะได้ start menu ของ Smart tool ให้เราเลือกเมนู smartctl (Admin CMD)
โปรแกรม smartctl (AdminCMD)
คำสั่งแรกที่ JM แนะนำคือ "scmartctl --scan ที่จะโชว์ drive ทั้งหมดใน PC ของเรา
ใน Windows จะดู งง หน่อยเพราะมันไม่ได้บอกมาเป็น Drive C Drive D เหมือนที่ Windows มอง แต่จะบอกมาเป็น /dev/sda ... /dev/sdb
จะเห็นว่าจะขึ้นเป็น /dev/sd ซึ่งตัวต่อจากนั้นจะไล่เป็น a b c ... ไปเรื่อยๆ ตามลำดับ Drive C Drive D ที่ windows มองเห็น นั้นคือ /dev/sda = Drive C .... /dev/sdb = Drive D เป็นต้น
คำสั่งถัดไปที่ JM แนะนำคือวิธีการดูรายละเอียดของ drive แต่ล่ะลูก สมมุติว่าเราอยากรู้รายละเอียดของ Drive C ซึ่งก็คือ /dev/sda สามารถดูได้ด้วยคำสั่ง "smartctl -a /dev/sda" แล้วเราจะได้รายละเอียดของ drive ตัวนั้น
result ของคำสั่ง smartctl -a /dev/sda
ในส่วนแรกของ result ก็จะบอกว่า HDD ยี่ห้ออะไร serial number อะไรขนาดความจุเท่าไร firmware version อะไร ก็จะเป็นรายละเอียดทั่วๆ ไป แต่ส่วนที่สำคัญที่จะบอกรายละเอียดคือ section "SMART Attributes"
ตาราง SMART Attributes Data
ในตารางสังเกตุตรง TYPE จะมีคำว่า pre-fail ซึ่งหมายถึถ้าค่าตัวเลขใดๆ ถึง threshold (เกณฑ์ขั้นต่ำ) ตัว OS หรือ host controller ก็จะ trigger ไปบอก software ที่มีการ monitor HDD และมีการติด flag ว่า HDD ตัวนั้นๆ เริ่มที่จะเป็น bad HDD ... ซึ่ง TYPE pre-fail นี้แหละครับที่เราจะต้องสนใจ