I. CÁC TIÊU CHÍ CỦA MỘT HỆ THỐNG TRUNG TÂM DỮ LIỆU (DATACENTER)
1. Độ sẵn sàng cao
• Hệ thống phải có khả năng cung cấp dịch vụ 24x7x365. Tức là ngoại trừ các rủi ro do thiên tai, về mặt kỹ thuật, hệ thống phải có khả năng hoạt động liên tục không gián đoạn, thời gian downtime giảm xuống mức tối thiểu.
• MTBF nhỏ (thời gian trung bình giữa hai lần hỏng hóc).
• Thiết kế có dự phòng với mức độ đầu tư hợp lý. Khi có một thiết bị hỏng thì hệ thống vẫn phải hoạt động bình thường hoặc với hiệu suất thấp hơn nhưng không được dừng hẳn.
2. Độ tin cậy cao
Các thiết bị phải có độ tin cậy cao, thiết kế chắc chắn; ưu tiên sử dụng thiết bị được cấp các chứng chỉ hoặc tiêu chuẩn quốc tế. Chẳng hạn thiết bị lưu điện phải có các chứng nhận tiêu chuẩn quốc tế và khả năng quản trị thông minh... Phải có mẫu kiểm tra định kỳ để kiểm tra hoạt động của các thiết bị, thay thế các thiết bị hỏng, hoặc chưa hỏng nhưng đã quá thời hạn hoạt động. Hay thiết bị làm lạnh phải đảm bảo khả năng hoạt động 24h/24h do vậy không thể sử dụng các thiết bị dân dụng thông thường.
Phần lớn thời gian trung dữ liệu (TTDL) được vận hành tự động không có sự giám sát của con người do đó các lỗi trên đường truyền, trên thiết bị nếu có đều không thể nhìn thấy được nên độ tin cậy cao cho tất cả các thiết bị trong TTDL là một yêu cầu bắt buộc.
3. Dễ dàng bảo trì, nâng cấp
Hệ thống máy chủ trong TTDL phải làm việc liên tục không có thời gian nghỉ nên các thiết bị cần bảo dưỡng của TTDL như UPS, máy làm lạnh cần phải được thiết kế sao cho có thể bảo dưỡng mà không ảnh hưởng đến hoạt động của TTDL. Khi cài đặt thêm thiết bị mới thì không cần phải ngưng hoạt động của toàn bộ TTDL.
4. Tổng giá thành TCO nhỏ nhất (Total Cost Ownership)
Chi phí đầu tư ban đầu cho một TTDL chỉ chiếm một tỷ trọng nhất định trong tổng chi phí thực tế cho việc duy trì hoạt động của một trung tâm tính toán. Một phần chi phí không nhỏ khác rơi vào tiền điện, tiền mở rộng cải tạo TTDL khi nhu cầu tính toán tăng lên mà thiết kế ban đầu không còn đáp ứng được nữa.
Bên cạnh đó, chi phí phải trả cho việc khắc phục các sự sai sót trong vận hành, chi phí phát sinh do đình trệ hoạt động sản xuất kinh doanh và mất mát số liệu là gần như không thể tính nổi.
Các thiết kế khác nhau có thể ảnh hưởng rất lớn đến các chi phí nói trên do vậy việc xây dựng một hệ thống TTDL cần phải nhằm hướng đến một tổng chi phí sở hữu nhỏ nhất với độ an toàn cao nhất. Do vậy, trong tính toán đầu tư cho TTDL, không nên chỉ quan tâm đến chi phí đầu tư ban đầu cho các trang thiết bị.
II. Mạng hạ tầng vật lý thiết yếu - Network-Critical Physical Infrastructure (NCPI)
Trong một doanh nghiệp, các nhân viên (people) hoạt động tuân theo các quy trình công việc (Process) của công ty, các quy trình đó được hỗ trợ bởi hệ thống thiết bị IT , thiết bị công nghệ (Technology) và hệ thống thiết bị công nghệ đó hoạt động được nhờ các dịch vụ của Mạng hạ tầng vật lý thiết yếu (Network-critical Physical Infrastructure – NCPI).
NCPI bao gồm :
- Hệ thống nguồn điện,
- Hệ thống UPS,
- Hệ thống phân phối nguồn
- Hệ thống máy phát điện,
- Tủ Rack,
- Hệ thống làm mát,
- Hệ thống cáp mạng,
- Hệ thống truyền thông,
- Hệ thống quản trị,
- Hệ thống báo động, đo nhiệt độ môi trường và báo cháy báo nổ, phòng cháy, chữa cháy
- Hệ thống dịch vụ..vv.
Chúng ta gọi là Hệ thống Mạng hạ tầng vật lý thiết yếu (NCPI) bởi vì tầm quan trọng của nó trong việc hỗ trợ hoạt động của doanh nghiệp. Với sơ đồ trên chúng ta có thế thấy rõ ảnh hưởng như thế nào của NCPI đối với khả năng hoạt động liên tục tính sẵn sàng hoạt động của doanh nghiệp. Toàn bộ hệ thống thông tin, công nghệ sẽ không thể hoạt động được nếu sự cố xảy ra ở lớp NCPI bất kể rằng hệ thống công nghệ trên được đầu tư tiên tiến thê nào.
Hơn nữa, trong môi trường kinh doanh, yêu cầu của xã hội hay khách hàng thay đổi một cách nhanh chóng, các quy trình cũng luôn được điều chỉnh cho phù hợp, hệ thống IT cũng thay đổi nhanh chóng cả về số lượng cũng như công nghệ. Điều này đặt ra yêu cầu cho hệ thống NCPI cần phải ổn định vững chắc (High Availability) để phục vụ, mềm dẻo (khả năng mở) để đáp ứng nhu cầu thay đổi, tốc độ thay đổi phải nhanh đáp ứng kịp yêu cầu thay đổi của kinh doanh (High Agility). Ví dụ khi có cơ hội kinh doanh cần nắm bắt cơ hội, lực lượng lao động (people) có thể huy động, hệ thống IT có thể mua, triển khai nhanh chóng tuy nhiên cơ sở hạ tầng không thể thay đổi kịp để phục vụ các yêu cầu mới nảy sinh. Điều này đòi hỏi hệ thống NCPI cần phải có tính mềm dẻo nâng cấp kịp thời (Agility).
Giá trị mà hệ thống NCPI cung cấp cho doanh nghiệp có giá trị càng cao khi tính sẵn sàng của hệ thống càng (Availability), khả năng đáp ứng nhanh cao (Agility) và tồng chi phí của người sở hữu càng thấp (Total Cost of Ownership – TCO)
Giá trị mà hệ thống NCPI cung cấp cho doanh nghiệp có thể được thể hiện theo công thưc dưới đây:
Availability: Yêu cầu hệ thống có độ tin cậy cao (Mean Time Between Failure - MTBF cao), Độ dự phòng cao (Redundant), thời gian sửa chữa khắc phục ngắn nhất (Mean Time to Repair – MTTR thấp), khả năng thay thế nóng (Hot Swap), Thiết kế đơn giản nhất để giảm các sự cố do người sử dụng vô tình gây ra (Human Error).
Các cấp về tính sãn sàng cao cho UPS có thể liệt kê như sau:
Cấp 1: Sử dụng UPS đơn - độ tin cậy của hệ thống phụ thuộc hoàn toàn vào chất lượng linh kiện, vào thương hiệu của hãng.
Cấp 2: Sử dụng hệ thống UPS có dự phòng - độ tin cậy của hệ thống cao hơn rất nhiều tuy nhiên thời gian sửa chữa khắc phục sự cố hay nâng cấp hệ thống sẽ làm ảnh hưởng đến tính sãn sàng hoạt động của hệ thống.
Cấp 3: Sử dụng hệ thống UPS có dự phòng và có khả năng thay thế nóng - độ tin cây của hệ thống là rất cao bởi vì khả năng thay thế nóng giúp giảm thiểu (loại trừ) thời gian sửa chữa của hệ thống. Tuy nhiên tính sẵn sàng của hệ thống này sẽ bị ảnh hưởng nếu như không có giám sát, quản trị chặt chẽ để sự cố kéo dài ví dụ như khi có sự cố về nguồn yếu trong thời gian dài, UPS thông báo lỗi lưới điện tuy nhiên người quản trị không được thông báo, hay biêt dẫn đến UPS chạy cạn ăcquy và tắt hệ thống một cách đột ngột.
Cấp 4: Sử dụng hệ thống UPS có dự phòng, có thay thế nóng, có khả năng hỗ trợ quản trị cao – Khả năng hỗ trợ quản trị của hệ thống sẽ ngăn chặn sự cố bằng cách chủ động thông báo cho người quản trị về các sự cố tiềm ẩn hay đang xảy ra, giảm thiểu thời gian phát hiện/khắc phục sự cố nhờ các thông tin nhật ký làm việc. giảm thiểu chi phí quản lý, phí sửa chữa. Quay lại ví dụ ở trên, hệ thống cấp 4 này sẽ nhắn tin cho người quản trị qua email, SMS, SNMP trap tới hệ quản trị tập trung..người quản trị sẽ có đủ thời gian để khởi động máy phát điện cung cấp một nguồn điện tốt cho hệ thống UPS tránh tình trạng acquy cạn kiệt.
Agility: Yêu cầu hệ thống có khả năng triển khai nhanh, Có khả năng nâng cấp mở rộng hoặc thu nhỏ , có khả năng thay đổi cấu hình theo yêu cầu. Tốc độ đáp ứng nhanh phục vụ kịp thời cho các yêu cầu của kinh doanh. Đây là một điều rất khó đối với cơ sở vật lý hạ tầng vì nó liên quan đến rất nhiều khâu khác nhau như Xây dựng, Điện lực, hệ thống phân phối nguồn, UPS công suât lớn, Hệ thống làm mát....
TCO: Yêu cầu chi phí đầu tư ban đầu thấp trong khi vẫn đáp ứng được nhu cầu sử dụng, mặt khác đòi hỏi giảm thiểu lãng phí đầu tư do thiết kế quá cỡ, chi phí điện năng sử dụng, chi phí làm mát thấp, thất thoát điện năng thấp, chi phí bảo dưỡng sửa chữa thấp, chi phí quản lý thấp (bao gồm nhân công).
III. Quản trị TTDL
Để đáp ứng tính sẵn sàng hoạt động cao cho hệ thống, bên cạnh các yêu cầu về thiết bị phần cứng, môi trường, yêu cầu về cảnh bảo và quản trị tập trung của toàn hệ thống là rất lớn và đóng góp một phần quan trọng vào việc đảm bảo tính sẵn sàng hoạt động chung của toàn hệ thống.
Khả năng cảnh báo và quản trị của hệ thống giúp cho người quản trị dễ dàng kiểm tra hoạt động của toàn hệ thống, phát hiện sớm các sự cố có thể từ trước khi sự cố có thể thực sự xảy ra để có biên pháp xử lý kịp thời. Để làm được điều này, hệ thống nguồn cần phải có khả năng quản trị tập trung các thiết bị đồng bộ trong trung tâm dữ liệu, khả năng tự kiểm tra định kỳ –self test), khả năng phát hiện lỗi sớm và khả năng phân tích sự cố tức thời...
Nguyễn Dương Minh (MDS Datacenter Solutions)