مانیتورینگ پیشرفته اتاق سرور فیکسآموز یعنی نظارت 24/7 بر دما، رطوبت، برق، نشت آب، وضعیت رکها، UPS و تهویه با سیستم هشداردهی هوشمند و لحظهای.
در این سیستم تمامی سنسورها بهصورت یکپارچه کنترل میشوند و کوچکترین ناهنجاری قبل از ایجاد خسارت شناسایی و مدیریت میشود.
فیکسآموز با تجربه اجرای پروژههای بزرگ سازمانی و استانداردهای بینالمللی TIA-942، سطح امنیت و پایداری اتاق سرور شما را تضمین میکند.
۱. مانیتورینگ اتاق سرور چیست؟
مانیتورینگ اتاق سرور به مجموعهای از سیستمهای هوشمند گفته میشود که بهصورت ۲۴ ساعته و لحظهای وضعیت محیطی و عملکردی اتاق سرور را کنترل میکنند. این سیستم هر تغییری که میتواند به تجهیزات آسیب بزند—مثل افزایش دما، رطوبت، قطع برق، نشت آب، خرابی تهویه یا باز شدن دربهای غیرمجاز—را در لحظه شناسایی کرده و از طریق هشدار پیامکی، تماس تلفنی، ایمیل، تلگرام یا داشبورد مرکزی اطلاعرسانی میکند.
این یعنی:
- خرابی قبل از اتفاق افتادن پیشگیری میشود ✅
- افت عملکرد شبکه به حداقل میرسد ✅
- امنیت فیزیکی و دادهای حفظ میشود ✅
به بیان ساده:
مانیتورینگ اتاق سرور همان سیستم عصبی کنترل و هشدار در مرکز شبکه شماست.
مانیتورینگ همهچیز را میبیند — نظارت ۳۶۰ درجه اتاق سرور با فیکسآموز»
1) سرورها (Servers)
سرورها فقط «جعبهٔ سختافزار» نیستند؛ ترکیبی از سختافزار، سیستمعامل، سرویسهای حیاتی و اتصال شبکهاند. مانیتورینگ مؤثر یعنی «پایش همزمان لایههای مختلف» تا مشکل در سریعترین زمان شناخته، طبقهبندی و رفع شود — قبل از اینکه کاربر یا مشتری متوجه شود.
لایههای اصلی که باید پایش شوند
- سختافزار (Hardware): دماهای سنسورها، وضعیت فنها، ولتاژهای منبع تغذیه، گزارش SMART هاردها، وضعیت RAID، health status از BMC (iDRAC, iLO, IMM)
- منابع سیستم (Resources): نرخ استفاده CPU (user/system/iowait)، استفادهی حافظه (RAM + swap)، مصرف I/O دیسک (IOPS، latency)، استفادهٔ شبکه (throughput, errors)
- خدمات و پروسسها (Services & Processes): سلامت و دسترسی سرویسهای مهم (DB, Web, Cache)، queue lengths، thread/process counts
- اتصال و پاسخگویی (Connectivity & Latency): پینگ، TCP connect time، درخواستهای اپلیکیشن و response time از دید کاربر (synthetic transactions)
- لاگ و رخدادها (Logs & Events): جمعآوری لاگهای سیستم، application، kernel و تحلیل (log correlation / anomaly detection)
- امنیت پایهای (Security Health): وضعیت آپدیت مهم، پروسههای ناشناس، باز بودن پورتهای حساس و هشدارهای IDS/IPS مرتبط
چگونه مانیتورینگ این پارامترها را جمعآوری و کنترل میکند؟
روشهای جمعآوری
- Agent-based (عامل روی سرور): نصب یک آژنت سبک (مثلاً Telegraf, Zabbix agent, Datadog agent) برای خواندن معیارهای دقیق، خواندن لاگ محلی و اجرای health checks. مزیت: دیتای دقیق و دسترسی به metrics داخلی؛ عیب: نیاز به نصب و نگهداری آژنت روی هر سرور.
- Agentless (بدون عامل): SNMP / Redfish / WMI / SSH polling برای دریافت متریکها از راه دور—مناسب برای دستگاههایی که آژنت قابل نصب ندارند (مثلاً برخی applianceها).
- Out-of-band via BMC: استفاده از iDRAC/iLO برای خواندن سنسورهای سختافزاری حتی وقتی سیستم عامل کرش کرده باشد.
- Synthetic Monitoring: اجرای تراکنشهای شبیهسازیشده (مثلاً login → page load → DB query) از یک نقطه بهمنظور سنجش تجربهٔ کاربر نهایی.
- Log Aggregation & SIEM: ارسال لاگها به یک سیستم متمرکز (مثلاً ELK/Graylog/Splunk) برای correlation و کشف الگوهای مشکوک.
نحوهٔ پردازش و هشداردهی
- Threshold Alerts: تعریف آستانههای چندمرحلهای (warning → critical) برای metrics.
- Anomaly Detection / Predictive Alerts: مدلهای ساده آماری یا ML سبک برای کشف روندهای غیرمعمول (مثلاً رشد خطی خطاها یا افزایش دما).
- Escalation & Runbooks: هر آلارم باید با سیاست escalation و Playbook مشخص شده باشد (اول پیامک به NOC، سپس تماس صوتی به مهندس ناظر، در صورت عدم پاسخ اقدام اتوماتیک مثل migrate یا restart کنترلشده).
- Automated Remediation: برای موارد ایمن و تستشده، واکنش خودکار تعریف میشود (مثلاً clear cache، restart سرویس با limit)، اما برای موارد حساس human-in-loop لازم است.
آستانهها، استانداردها و بهترین عملی که فیکسآموز اجرا میکند
| معیار | آستانه هشدار (Warning) | آستانه بحرانی (Critical) | اقدام خودکار پیشنهادی |
|---|---|---|---|
| CPU usage (avg 5min) | 70% | 90% | Notify → بررسی process → auto-scale یا migrate |
| Memory used | 75% | 95% | Notify →OOM prevention → swap management |
| Disk I/O latency | 10 ms | 30 ms | Notify → I/O scheduler check → migrate IO-heavy VM |
| SMART pre-fail | any pre-fail flag | immediate | Create ticket + hot-swap disk |
| Temp (CPU) | 65°C | 80°C | Increase fan / migrate VM / emergency alert |
| Disk free space | 20% | 5% | Cleanup log / add capacity / snapshot |
استانداردها و تطابق با قوانین
- ISO/IEC 27001: سیاست نگهداری لاگها و دسترسی به اطلاعات سرورها
- ITIL practices: Incident / Problem / Change management برای واکنشها
- SLA & RTO/RPO: تعریف تضمین سطح خدمات و زمانهای بازیابی که مانیتورینگ براساس آنها تنظیم میشود
آنچه تیم فیکسآموز دقیقاً انجام میدهد
- پکیج نصب و کانفیگ اولیه: نصب آژنت استاندارد، کانفیگ SNMP/Redfish، ثبت credentials امن در vault، اتصال به DCIM/NMS.
- شناسایی Baseline: جمعآوری متریک 7–14 روزه برای تعریف baseline و آستانههای هوشمند (بهجای آستانههای ثابت خام).
- ساخت Playbook واکنش سریع: برای هر آلارم، گامهای دقیق برای NOC و مهندس شامل دستورات امن و rollback plan.
- پیادهسازی predictive monitoring: فعالسازی و آموزش مدلهای ساده برای پیشبینی خرابی هارد (SMART trend), افزایش دما و رشد مصرف منابع.
- مستندسازی و تحویل مدیریتی: ارسال گزارشهای هفتگی/ماهانه شامل trending charts, capacity forecast و پیشنهادات بهبود.
- آموزش و انتقال: آموزش اپراتورهای شما برای کار با داشبورد، خواندن هشدارها و اجرای runbookهای اولیه.
- پشتیبانی SLA: سرویس 24/7 با سطح پاسخدهی مشخص (مثلاً تماس 15 دقیقهای برای Critical).
مثالهای واقعی از تجربهٔ فیکسآموز
- بانک ملی : با نصب مانیتورینگ کامل SMART + BMC alerts، یک دیسک در RAID قبل از افت کامل توسط هشدار pre-fail شناسایی شد؛ جایگزینی بدون downtime انجام شد.
- شرکت تولیدی بزرگ: رشد تدریجی CPU در یک سرویس داخلی شناسایی شد؛ پس از بررسی مشخص شد یک cron job نامناسب در اوج ساعات کاری اجرا میشود → تغییر زمانبندی و کاهش 30% در خطاهای سرویس.
- موسسه آموزشی: با استفاده از synthetic transactions، latency در یک endpoint حیاتی شناسایی شد که ناشی از ناهماهنگی config بین two-tier app بود؛ اصلاح config مشکل را حل کرد.
چکلیست عملیاتی فیکس آموز برای سرور ها
| آیتم | وضعیت (Yes/No) | توضیح |
|---|---|---|
| نصب آژنت استاندارد روی همه سرورها | ||
| اتصال iDRAC/iLO به مانیتورینگ | ||
| تعریف thresholds اولیه | براساس baseline جمعآوریشده | |
| تعریف escalation & runbooks | شامل شماره تماس و مراحل حذف خطا | |
| فعالسازی log shipping به SIEM | حفظ لاگها حداقل 90 روز | |
| تست سناریوی failover | اجرای DR / migrate تست |
توصیههای فنی و عملی (پیشنهادات اجرایی)
- Baseline قبل از تنظیم آلارمها: همیشه 7–14 روز دادهٔ واقعی جمع کنید تا آستانهها هوشمندانه تعریف شوند.
- ترکیب agent + BMC: برای پوشش کامل، از هر دو استفاده کنید؛ BMC برای شرایط OS-down و agent برای متریکهای سطحبالا.
- آلارمسازی چندمرحلهای: ابتدا هشدار نرم، سپس هشدار بحرانی و در نهایت escalation انسانی.
- Playbook خودکار ولی محتاط: فقط واکنشهای safe را خودکار کنید (مثلاً restart service؛ نه power-cycle بدون تایید).
- قابل اتکا بودن کانال هشدار: پیامک، تماس صوتی و push؛ ایمیل بهتنهایی برای critical کافی نیست.
- مستندسازی و آزمایش دورهای: اجرای سناریوهای بازیابی و failover هر 6–12 ماه.
2) مانیتورینگ سوئیچها — ستون اصلی سلامت شبکه
سوئیچها قلب ارتباطات داخلی شبکه هستند؛ هر درخواست، هر انتقال فایل، هر ورود کاربر به سیستم، در نهایت باید از یک یا چند سوئیچ عبور کند. بنابراین، کوچکترین اختلال در عملکرد یک سوئیچ میتواند کیفیت شبکه را بهطور مستقیم تحتتأثیر قرار دهد و موجب کاهش سرعت، Packet Loss، قطعی سرویس و حتی توقف کامل کسبوکار شود. به همین دلیل مانیتورینگ سوئیچها باید دقیق، مداوم و عمیق باشد؛ نه صرفاً آزمون پینگ یا چک اینکه دستگاه روشن است.
در فیکسآموز، مانیتورینگ سوئیچها فقط به «دیدن روشن یا خاموش بودن پورتها» محدود نمیشود. ما تحلیل رفتاری شبکه (Network Behavior Analytics)، پایش کیفیت مسیر ترافیک، بررسی الگوهای مصرفی و تشخیص اختلالات بینلایهای را انجام میدهیم تا مشکلات قبل از وقوع شناسایی و پیشگیری شوند.
چگونه مانیتورینگ سوئیچها انجام میشود؟
1) خواندن وضعیت سوئیچ از طریق SNMP
- استفاده از SNMPv3 (رمزگذاریشده و امن)
- پایش:
- Interface Status: پورت بالا/پایین
- CRC Errors / Input Errors / Runts / Giants: تشخیص مشکلات کابلکشی
- Utilization per Port: مشاهده پهنای باند مصرفی واقعی
- Temperature / Fan / Power Supply: سلامت سختافزاری شاسی
2) تحلیل ترافیک
- NetFlow / sFlow برای مشاهده:
- کدام IPها بیشترین پهنای باند را میگیرند
- ترافیک مشکوک داخلی یا خارجی
- حملات Flood / Broadcast Storm / Loop
3) ساخت نقشه خودکار توپولوژی
- LLDP و CDP جهت دیدن ارتباطات واقعی بین تجهیزات
- در مواقع Loop یا سوئیچ اضافه، شبکه دچار موج قطعی نشود
4) پایش VLAN و STP
- اطمینان از:
- درست بودن VLAN Tagging
- Root Switch صحیح در STP
- جلوگیری از Loop شبکه و Broadcast Storm
الزامات و استانداردهایی که باید رعایت شوند
| استاندارد / اصل | دلیل اهمیت | نتیجه رعایت |
|---|---|---|
| استفاده از SNMPv3 به جای SNMPv1/v2 | جلوگیری از سرقت اطلاعات دستگاه | امنیت شبکه بالا |
| فعال بودن LLDP/ CDP | تشخیص مسیرهای واقعی ارتباط | کاهش خطا و تسریع عیبیابی |
| طراحی STP با تعیین Root Bridge مشخص | جلوگیری از Loop | پایداری و سرعت |
| تفکیک صحیح VLAN و Trunk/Access mode | جلوگیری از اختلاط ترافیک | شبکه تمیز و قابل مدیریت |
| فعال بودن QoS بر اساس سرویس | جلوگیری از افت کیفیت Voice/Video | کیفیت تجربه کاربر بالا |
چه مواردی فیکسآموز مانیتور و کنترل میکند؟
| مورد کنترل | دلیل اهمیت | روش فیکسآموز | نتیجه |
|---|---|---|---|
| وضعیت پورتها (Up/Down) | تشخیص قطع ارتباط کلاینت/دستگاه | SNMP + Event Log | واکنش سریع به قطعیها |
| خطاهای CRC و Input Errors | نشانهی کابلکشی یا SFP معیوب | تحلیل پورت/ترافیک + تست کابل | رفع سریع اختلال کیفیت |
| مصرف پهنای باند هر پورت | جلوگیری از Saturation و کندی شبکه | Graph-Based Trending + Alerts | پیشبینی و برنامهریزی ارتقا |
| دمای دستگاه و سرعت فنها | جلوگیری از سوختن شاسی | مانیتورینگ سنسورهای داخلی | افزایش طول عمر تجهیزات |
| وضعیت Power Supply و PoE Load | جلوگیری از خاموشی یا قطع دوربینها/ APها | SNMP Power Metrics + Load Policy | جلوگیری از اختلال سرویسهای حیاتی |
| مشاهده FDB (MAC Table) و ARP Table | شناسایی Deviceهای مشکوک | رفتارشناسی ترافیک + IDS داخلی | امنیت بیشتر شبکه |
راهکارهای پیشنهادی فیکسآموز برای پایداری سوئیچها
✅ فعالسازی SNMPv3 + محدودسازی دسترسی فقط از IP مانیتورینگ
✅ طبقهبندی پورتها بر اساس نوع کاربر / سرویس / VLAN
✅ فعالسازی Storm Control و Loop Protection
✅ استفاده از SFP / کابل اورجینال (نه کپی بازار)
✅ تعیین Root Bridge مشخص در STP و حذف انتخابات خودکار
✅ پیادهسازی QoS واقعی برای سرویسهای VoIP و ERP
✅ تعریف Alertهای رفتاری نه فقط عددی
✅ گرفتن Backup منظم از کانفیگ سوئیچها
دو نمونه تجربه واقعی از فیکسآموز
سازمان دولتی:
Root Bridge به اشتباه روی یک سوئیچ Edge افتاده بود → با اصلاح STP، قطع و وصلی شبکه 100% برطرف شد.
شرکت خدمات اینترنتی:
با بررسی CRC Errors مشخص شد چند SFP سازگار نبودند → با جایگزینی، Packet Loss به 0% رسید.

3) مانیتورینگ روترها — مرکز کنترل ترافیک شبکه
روترها، مسیردهندههای اصلی شبکه هستند؛ یعنی آنها تصمیم میگیرند «کدام مسیر برای انتقال داده مناسبتر است». هر دادهای که در یک سازمان حرکت میکند، چه بین چند شعبه، چه بین رکهای داخلی، چه بین سایت و اینترنت، از روتر عبور میکند. به همین دلیل، پایداری روترها برابر است با پایداری کل شبکه. یک تغییر کوچک در جدول مسیرها (Routing Table) میتواند باعث:
- افت سرعت شدید
- افزایش Latency
- ناپایداری در ارتباط بین سرورها
- قطعی VPNها
- از کار افتادن سیستمهای سازمانی
در فیکسآموز، مانیتورینگ روترها تنها مشاهدهی “Up/Down بودن لینکها” نیست. ما رفتار مسیرها، ثبات پروتکلهای مسیریابی، ظرفیت پردازشی Control Plane و کیفیت عبور ترافیک بینسایتی را بهصورت لحظهای تحلیل و پیشبینی میکنیم.
چگونه مانیتورینگ روترها انجام میشود؟
1) مانیتورینگ پروتکلهای مسیریابی
روترها معمولاً از پروتکلهایی مثل OSPF، BGP، EIGRP، ISIS استفاده میکنند.
فیکسآموز پایش میکند:
| مورد مانیتورینگ | دلیل اهمیت | نتیجه عدم کنترل |
|---|---|---|
| وضعیت Sessionهای BGP/OSPF | پایداری مسیر ارتباط بین شبکهها | قطع ناگهانی شبکه و VPN |
| Route Flap (تغییر مکرر مسیرها) | نشانه خطای ISP یا سوءپیکربندی | ناپایداری و Packet Loss |
| Metric تغییرات مسیر | مشخصکننده مسیر بهینه یا اشتباه | افزایش تأخیر و افت سرعت |
🔍 Route Flap معمولاً نشاندهنده مشکل جدی است که بدون مانیتورینگ قابل تشخیص نیست.
2) مانیتورینگ کیفیت و سلامت مسیرهای ارتباطی
- تست Latency و Packet Loss از طریق ICMP/UDP
- سنجش پایداری مسیرهای داخل شبکه (Internal Paths)
- مانیتورینگ SLA Track برای مسیرهای Failover
این یعنی حتی اگر یکی از لینکها Down نشود ولی کیفیتش افت کند، فیکسآموز هشدار میدهد و مسیر را اتوماتیک سوئیچ میکند تا کاربران مشکلی احساس نکنند.
3) مانیتورینگ سطح پردازش (Control Plane Health)
- CPU Usage
- Memory Allocation
- Queue Drops
- NAT Table Usage
- Firewall ACL Hits
اگر CPU کنترل-plane بالا برود، حتی اگر لینکها سالم باشند،
روتر نمیتواند تصمیمهای مسیر را درست بگیرد → شبکه کند یا ناپایدار میشود.
استانداردها و Best Practices که باید رعایت شوند
| استاندارد | توضیح | اهمیت |
|---|---|---|
| SNMPv3 | مانیتورینگ امن و رمزگذاریشده | جلوگیری از سرقت اطلاعات شبکه |
| BGP Best Practices | تنظیم Weight, Local Pref, MED | جلوگیری از Loop و Route Leak |
| RPKI Validation | جلوگیری از ربایش مسیر (Route Hijacking) | امنیت در اتصال اینترنت |
| NetFlow / sFlow / IPFIX | تحلیل حجم و ماهیت ترافیک | تشخیص حملات و Misuse |
| Config Backup Versioning | نسخهسازی تغییرات کانفیگ | بازگشت سریع در مواقع بحران |
فیکسآموز دقیقا چه چیزهایی را مانیتور و تحلیل میکند؟
| مورد بررسی توسط فیکسآموز | مدل کنترل | هدف |
|---|---|---|
| وضعیت Sessionهای BGP/OSPF | SNMP + Syslog + NMS Alerts | جلوگیری از قطع شبکه |
| Route Churn / Route Leak | آنالیز رفتار مسیر | جلوگیری از Loop و اختلال |
| Packet Loss بین لینکها | SLA Probes و Graphing | تضمین کیفیت ارتباط |
| افزایش ناگهانی CPU Control Plane | CPU Profiling و Event Trace | جلوگیری از Down شدن کل شبکه |
| NAT Table Capacity | Monitor Translation Table | جلوگیری از قطع اینترنت و سرویسها |
| ACL Hit Count / Firewall Policy Performance | Traffic Flow Analytics | امنیت و بهینهسازی سیاستها |
راهکارهای پیشنهادی فیکسآموز
✅ استفاده از SLA Tracking برای Failover هوشمند
✅ فعالسازی Logging و Syslog مرکزی
✅ پیادهسازی RPKI برای امنیت اتصال اینترنت
✅ مستندسازی توپولوژی مسیریابی
✅ تعریف Alertهای رفتاری، نه صرفاً عدد محور
✅ نسخهسازی خودکار کانفیگ روتر (Auto Backup / Auto Rollback)
یک نمونه واقعی از تجربه فیکسآموز
در یک سازمان مالی با چند شعبه:
- Sessionهای BGP هر چند دقیقه Flap میکردند
- ISP مشکل را انکار میکرد
فیکسآموز با مانیتورینگ لحظهای توانست:
- دقیقاً نشان دهد Flap از سمت ISP است
- مسیر جایگزین را بهصورت SLA-Based Failover فعال کند
- زمان قطعی سرویس را به صفر برساند
⏱ زمان تشخیص مشکل: کمتر از 2 دقیقه
4) روترها (Routers)
روترها بهعنوان مغز مسیریابی شبکه، مسئول تصمیمگیری در مورد مسیر عبور ترافیک میان شبکههای مختلف هستند. در شبکههای سازمانی و دیتاسنتری، پایداری روترها مستقیماً به معنی پایداری کل سرویسهاست. هرگونه اختلال در BGP/OSPF، افزایش تأخیر، یا ازدحام در صفهای پردازش، میتواند باعث قطعی ارتباط، اختلال در دسترسی کاربران و کاهش کارایی سیستمهای کلیدی شود.
چگونه مانیتور میشود؟
برای مانیتورینگ روترها، نیاز به بررسی Control-Plane, Data-Plane و Forwarding Performance است. مهمترین آیتمهای مانیتورینگ عبارتند از:
| دسته | موارد کلیدی مانیتورینگ | توضیح اهمیت |
|---|---|---|
| Routing Protocols | وضعیت session های BGP, OSPF, EIGRP، تغییرات metric، route flaps | هر ناپایداری در پروتکلهای مسیریابی میتواند باعث قطع کامل سرویس شود. |
| Performance | CPU Usage (برای Control-plane)، RAM، Queue Congestion و Packet Drops | پردازش اضافه روی Control-plane باعث اختلال در مدیریت مسیرها میشود. |
| Interfaces | خطاهای CRC، input/output errors، لود لینک، MTU mismatch | مشکلات لینک یکی از شایعترین دلایل slow network است. |
| Network Health | Latency، Packet Loss، jitter با ICMP/UDP probes | افزایش تأخیر یا از دست رفتن بستهها بلافاصله روی سرویسها اثر میگذارد. |
| Security | ACL hits، تغییرات NAT table، brute-force attempts | بررسی امنیتی برای جلوگیری از سوءاستفاده و نفوذ. |
استانداردها و الزامات مانیتورینگ
| مورد | توضیح |
|---|---|
| SNMPv3 | استفاده از نسخه امن جهت جلوگیری از افشای اطلاعات و حملات MITM. |
| NetFlow / sFlow / IPFIX | تحلیل هوشمند ترافیک برای شناسایی الگوهای غیرعادی، حملات و استفاده مشکوک از پهنایباند. |
| BGP Best Practices | استفاده از Prefix-limit، Max-prefix، AS-path filtering و Graceful Restart برای پایداری مسیرها. |
| RPKI Enforcement | جلوگیری از Route Hijacking و مانع حملات BGP در شبکههای اینترنتی. |
| SLA / Path Monitoring | بررسی کیفیت مسیر و تصمیمگیری پویا برای failover. |
فیکسآموز دقیقاً چه مواردی را بررسی میکند؟
| بخش | بررسیهای تخصصی فیکسآموز |
|---|---|
| پروتکلهای مسیریابی | بررسی session up/down، route churn، تغییرات metric و هشدار سریع در صورت route flap |
| کارایی پردازشی | تحلیل روند CPU/RAM و شناسایی overload روی control-plane قبل از ایجاد اختلال |
| کیفیت مسیر | اندازهگیری لحظهای latency و packet loss روی لینکهای حیاتی (MPLS/Internet/IXP) |
| لینکها و ماژولها | بررسی CRC errors، interface resets، duplex mismatches و کیفیت ماژولهای SFP/QSFP |
| امنیت | بررسی ACL hits، NAT Translation table، تشخیص ترافیک غیرعادی و حملات DDoS/Scan |
راهکارها و بهبودهایی که توسط تیم فیکسآموز اجرا میشود
✅ پیادهسازی Dashboard های تحلیلی (Grafana / Zabbix / LibreNMS / Observium)
✅ تنظیم Policy های هشدار هوشمند جهت اطلاعرسانی قبل از اختلال
✅ فعالسازی IP SLA و Path Monitoring جهت انتخاب بهترین مسیر در زمان واقعی
✅ مستندسازی و Version Control کانفیگها برای امکان Rollback بدون ریسک
✅ اجرای Network Hardening و RPKI برای جلوگیری از ربایش مسیرها (BGP Hijack)
مثال واقعی از تجربه فیکسآموز
در یکی از پروژههای ارتباط بینسایتی، session های BGP بین دیتاسنتر و ISP دچار Route Flap میشد.
تیم فیکسآموز با:
- مانیتورینگ Real-time روی BGP Peerings
- فعالسازی Alert برای تغییرات Route Announcements
- تحلیل NetFlow برای شناسایی تغییرات ناگهانی در مسیر
مشکل را در کمتر از ۲ دقیقه شناسایی کرد. علت، Misconfiguration سمت ISP بود.
با ارائه گزارش مستند و هماهنگی مستقیم، مسیر پایدار شد و مشکل بهصورت کامل رفع گردید.

5 ) تجهیزات ذخیرهسازی (Storage Arrays)
تجهیزات ذخیرهسازی مرکز داده، ستون فقرات نگهداری اطلاعات حیاتی سازمان هستند. کارکرد درست این تجهیزات، مستقیماً روی کارایی دیتابیسها، سیستمهای مجازیسازی، سرویسهای ERP/CRM، Backup و بازیابی اطلاعات تأثیر میگذارد. هرگونه افت عملکرد یا خطا در لایه ذخیرهسازی میتواند باعث کندی سیستمها، توقف سرویسها یا حتی از دست رفتن دادههای غیرقابلجبران شود.
اهمیت و نقش حیاتی Storage در شبکه
- تأمین سرعت و پایداری I/O برای سرویسهای حساس (مانند Oracle, SQL Server, VM Datastore)
- تضمین دردسترسپذیری بالا (High Availability) از طریق RAID، Multipathing و Failover
- حفاظت از دادهها در برابر خطای دیسک یا خرابی Snapshot/Replication
- زیرساخت اصلی برای Backup، DR Site و Business Continuity
هر سازمانی که سرویسهای نرمافزاری یا دیتابیسهای حیاتی دارد، کیفیت و سلامت Storage برای آن حیاتی است.
چگونه مانیتور میشود؟
مانیتورینگ Storage باید در سه لایه انجام شود: Hardware، Performance، Data-Management.
| لایه | موارد مانیتورینگ | توضیح اهمیت |
|---|---|---|
| Hardware Level | سلامت دیسکها، وضعیت Enclosure، Fan، PSU، دما | خرابی جزئی میتواند به اختلال کامل منجر شود. |
| Performance Level | IOPS، Latency (Read/Write)، Throughput، Queue Depth | افزایش Latency حتی به میزان ۱۰ms باعث کندی محسوس سرویسها میشود. |
| Logical/Data Level | Pool Capacity، RAID status، Dedup/Compression Efficiency، Snapshot و Replication | مدیریت ظرفیت و حفاظت از داده حیاتی است. |
پارامترهای کلیدی Performance در Storage
| پارامتر | حد بهینه | اهمیت |
|---|---|---|
| Read Latency | < 5 ms | افزایش آن باعث کندی خواندن داده در دیتابیسها میشود. |
| Write Latency | < 10 ms | وقتی بالا رود، تراکنشهای سیستم معطل میمانند. |
| IOPS Utilization | متناسب با نوع دیسک و RAID | نشانه ظرفیت مصرف فعلی و امکان گلوگاه. |
| Throughput | MB/s پایدار | برای بارکاری سنگین مثل Backup حیاتی است. |
استانداردها و Best Practices
| استاندارد / تکنیک | کاربرد |
|---|---|
| Multipath I/O (MPIO) | جلوگیری از از بین رفتن دسترسی به LUN در صورت قطع یک مسیر |
| RAID 10 / RAID 6 | افزایش Fault Tolerance و Performance |
| Thin Provisioning + Deduplication | بهینهسازی فضا بدون کاهش کیفیت |
| Sync / Async Replication | بازیابی سایت در مواقع بحران (DR Site) |
| SNMPv3 + REST API Monitoring | مانیتورینگ امن و دقیق Storage |
فیکسآموز چه مواردی را بررسی میکند؟
| بخش بررسی | توضیح کار فیکسآموز |
|---|---|
| سلامت فیزیکی و ماژولها | بررسی دیسکهای در آستانه خرابی (Predictive Failure) و هشدار پیشگیرانه |
| کارایی I/O | تحلیل مداوم IOPS، Latency و Queue Length برای جلوگیری از کندی سیستمها |
| ظرفیت و تخصیص منابع | بررسی رشد دیتاستها و جلوگیری از پر شدن Pool و توقف سرویسها |
| RAID & Redundancy | مانیتور وضعیت ریکاوری پس از fail و پیشگیری از Degraded mode طولانیمدت |
| Replication & Backup Health | اطمینان از سلامت Snapshotها و صحت Replication برای DR Site |
راهکارهای پیشنهادی فیکسآموز
✅ ایجاد Dashboard مانیتورینگ Storage Performance (Grafana / Zabbix / Vendor Tools)
✅ تنظیم هشدار روی Latency و Degraded RAID
✅ فعالسازی Multipath بین Host ↔ Storage
✅ طراحی استراتژی Backup + Replication + Snapshot rotation
✅ مستندسازی و Version Control برای تغییرات LUN / Pool / Volume
نمونه تجربه واقعی فیکسآموز
در یکی از محیطهای مجازی VMware، کاربران کندی شدید روی سیستمهای ERP گزارش داده بودند؛
تجزیه و تحلیل فیکسآموز نشان داد:
Write Latency روی Storage از <10ms به 78ms رسیده بود.
علت:
فرایند Backup سنگین در ساعات کاری روی همان Storage Pool اجرا میشد.
راهحل فیکسآموز:
- انتقال Jobهای Backup به غیرساعات کاری
- جداسازی Datastore های Production و Backup
- فعالسازی Write Caching و اصلاح RAID Layout
نتیجه:
کارایی سیستم ERP به حالت پایدار بازگشت بدون نیاز به خرید تجهیزات اضافی.
6) اکسسپوینتها (Access Points – APs)
اکسسپوینتها ستون اصلی ارتباطات بیسیم در شبکه هستند و عملکرد آنها مستقیماً روی کیفیت اینترنت، سرعت تبادل اطلاعات، تماسهای VoIP، ارتباطات داخلی، مانیتورینگ موبایلمحور و حتی تجربه کاری کارمندان تاثیر میگذارد. هرگونه اختلال در APها، شبکه را ناپایدار، کند و غیرقابل اعتماد میکند؛ خصوصاً در سایتهایی با کاربران زیاد، فضاهای صنعتی، ادارات، بانکها، بیمارستانها، انبارها و مراکز آموزشی.
مانیتورینگ حرفهای APها فقط به بررسی روشن یا خاموش بودن آنها محدود نیست؛ بلکه باید کیفیت سیگنال، نویز، حجم ترافیک، تعداد کاربران، رفتار دیوایسها، پهنایباند و سلامت کانالهای فرکانسی را اندازهگیری کند.
چرا مانیتورینگ AP حیاتی است؟
- جلوگیری از ازدحام فرکانسی و کاهش شدید سرعت شبکه
- کاهش اختلال ناشی از Bluetooth، دستگاههای صنعتی و APهای همسایه
- بهینهسازی Roaming بین APها برای جابهجایی بدون قطع اتصال
- بررسی کلاینتهای مشکوک و تلاش برای نفوذ به شبکه
- جلوگیری از Disconnectهای تصادفی در تماسهای VoIP و جلسات آنلاین
کیفیت شبکه بیسیم، بیش از 70% تجربه کاربر را تشکیل میدهد؛ حتی اگر شبکه داخلی و اینترنت عالی باشند، ضعف AP به تنهایی کافیست تا کل سازمان کند به نظر برسد.
چگونه مانیتورینگ APها انجام میشود؟
1) پارامترهای سیگنال و فرکانس
| پارامتر | آستانه مطلوب | توضیح اهمیت |
|---|---|---|
| RSSI (قدرت سیگنال) | بهتر از -65 dBm | کمتر باشد، سرعت شدیداً افت میکند. |
| SNR (نسبت سیگنال به نویز) | بالاتر از 25 dB | نویز زیاد = اختلال ارتباط. |
| Channel Utilization | کمتر از 60% | ازدحام فرکانسی باعث ناپایداری میشود. |
| Roaming Delay | < 50 ms | برای تماس VoIP حیاتی است. |
2) پارامترهای عملکرد
- تعداد کاربران متصل به هر AP (Load Balancing)
- پهنایباند مصرفی هر کلاینت
- ترافیک UP/DOWN و میزان اشغال Backhaul
- نوع رمزگذاری (WPA3, WPA2) و امنیت اتصال
3) وضعیت سختافزار
- دما
- سلامت PoE
- وضعیت Backhaul (Wire/Wireless Mesh)
استانداردها و Best Practices
| استاندارد | توضیح |
|---|---|
| WPA3 / 802.1X | امنیت حرفهای شبکه سازمانی |
| Band Steering | انتقال هوشمند کلاینتها به باند 5GHz برای ظرفیت بیشتر |
| Load Balancing | جلوگیری از اتصال همه کاربران روی یک AP |
| Fast Roaming (802.11r/k/v) | انتقال بدون قطعی بین اکسسپوینتها |
| Channel Planning (Avoid Overlap) | انتخاب کانالهای بدون تداخل |
فیکسآموز چه مواردی را مانیتور میکند؟
| مورد بررسی | کار فیکسآموز |
|---|---|
| قدرت سیگنال (RSSI/SNR) | نقشهبرداری محیطی + اصلاح چیدمان و جهتدهی AP |
| تعداد کاربران و مصرف پهنایباند | توزیع بار بین APها و جلوگیری از نقطه اشباع |
| تداخل فرکانسی (Interference) | اسکن فرکانسی و تنظیم کانالهای بهینه |
| کیفیت Roaming | تست حرکت در محیط و مانیتور Delay و Packet Loss |
| PoE و Backhaul Health | بررسی تغذیه و لینکهای ارتباطی برای جلوگیری از Disconnect ناگهانی |
راهکارهای پیشنهادی فیکسآموز
✅ پیادهسازی Wi-Fi Heatmap Survey برای طراحی شبکه
✅ فعالسازی 802.11r/k/v برای Roaming بدون قطع
✅ تنظیم Band Steering جهت انتقال کلاینتها به باند 5GHz
✅ جداسازی Guest Wi-Fi از شبکه داخلی (VLAN + Firewall Rules)
✅ استفاده از APهای سقفی/دیوار مناسب متناسب با آنتنپترن محیط
✅ مانیتورینگ زنده AP با Zabbix، PRTG یا Controller Vendor-Based
تجربه واقعی فیکسآموز
در یک سالن تولید صنعتی، کاربران دائماً از قطع Wi-Fi هنگام حرکت بین بخشها شکایت داشتند.
فیکسآموز با تحلیل:
- SNR پایین
- Roaming Delay بالا
- و Channel Overlap
تشخیص داد که APها بدون توجه به الگوی فیزیکی سالن نصب شدهاند.
راهحل اجرا شده:
- نقشهبرداری RF کامل محیط
- استفاده از APهای Directional بجای Omni
- فعالسازی Fast Roaming + تنظیم ظرفیت کاربران
نتیجه:
اتصال Wi-Fi در هنگام حرکت از قطعیهای متناوب به اتصال پایدار و یکپارچه تبدیل شد.
7) دما و رطوبت در اتاق سرور (Temperature & Humidity Monitoring)
در اتاق سرور، دما و رطوبت فقط یک عدد ساده روی نمایشگر نیستند؛
مستقیماً به عمر تجهیزات، عملکرد پردازشی، سلامت هاردها، پایداری شبکه و حتی امنیت دادهها مربوط هستند.
هر افزایش دما—even 2 تا 4 درجه—میتواند:
- سرعت فنها را بالا ببرد
- مصرف برق را به شدت افزایش دهد
- عمر پاور و UPS را کاهش دهد
- عمر CPU و RAM را کوتاه کند
- و در نهایت باعث خاموشی ناگهانی و از دست رفتن اطلاعات شود.
از طرف دیگر، رطوبت بیش از حد میتواند موجب تعرق و خوردگی بردها شود،
و رطوبت خیلی کم باعث تولید الکتریسیته ساکن (ESD) و سوختن چیپها خواهد شد.
حقیقت مهم:
۸۵٪ خرابیهای سختافزاری در اتاق سرورهای ایران به دلیل عدم مدیریت صحیح دما و رطوبت است.
(براساس بررسیهای میدانی تیم فیکسآموز در ۳۲ دیتاسنتر و ۱۲۶ سایت سازمانی)
محدوده دما و رطوبت استاندارد اتاق سرور
| پارامتر | مقدار استاندارد توصیه شده | تاثیر خروج از محدوده |
|---|---|---|
| دما (Server Inlet Temperature) | بین 18 تا 27°C | افزایش دما = کاهش عمر تجهیزات |
| رطوبت نسبی (RH) | 45% تا 55% | کم → الکتریسیته ساکن / زیاد → خوردگی قطعات |
| ΔT بین in/out رک | کمتر از 8°C | اختلاف زیاد → عدم گردش صحیح هوا |
چگونه مانیتورینگ دما و رطوبت انجام میشود؟
مانیتورینگ حرفهای فقط خواندن یک سنسور محیطی نیست.
فیکسآموز دما را در ۶ نقطه حیاتی اندازهگیری میکند:
- ورودی رکها (Cold Side)
- خروجی رکها (Hot Side)
- داخل رک در ارتفاع سهگانه (Top / Middle / Bottom)
- سقف اتاق سرور (تجمع گرما)
- پشت رکها (راهروی گرم)
- ورودی جریان کولرهای In Row / CRAC
ابزارهای مانیتورینگ:
- سنسورهای هوشمند SNMP و Modbus
- پروبهای رطوبت دقیق صنعتی
- سیستم هشدار لحظهای SMS، Telegram Bot، Email
- Log و Trend Recording برای تحلیل طولانیمدت
چرا این اندازهگیری چند نقطهای ضروری است؟
اتاق سرور “یک فضای یکنواخت” نیست.
جریان هوا همیشه در حال تغییر است.
اگر فقط یک سنسور محیطی نصب شود:
- جیبهای حرارتی (Hot Spot) تشخیص داده نمیشوند
- تجهیزات بالای رک 120% بیشتر گرم میشوند
- کولرها بدون دلیل دور بالا کار میکنند
- انرژی بیهوده مصرف میشود
دیتاسنترهای حرفهای همیشه از الگوی Hot Aisle / Cold Aisle + مانیتورینگ چند نقطهای استفاده میکنند.
فیکسآموز چه چیزهایی را مانیتور و کنترل میکند؟
| مورد بررسی | روش کنترل | نتیجه |
|---|---|---|
| دمای ورودی رکها | سنسورهای درب جلو | جلوگیری از Hot Spot |
| دمای خروجی رکها | سنسور پشت رک | کنترل فشار حرارتی داخلی |
| یکپارچگی هوای سرد و گرم | تست دود + تحلیل جریان | کاهش مصرف انرژی |
| عملکرد فنهای رک & سرورها | SNMP Health Stats | جلوگیری از Overheat مخفی |
| ظرفیت کولر و Load حرارتی | HVAC Load Monitoring | جلوگیری از Undercooling یا Overcooling |
استانداردهای جهانی
| استاندارد | توضیح |
|---|---|
| ASHRAE TC9.9 | مرجع اصلی استاندارد دما/رطوبت دیتاسنتر |
| ISO/IEC 30134-5 | شاخصهای انرژی و سرمایش (PUE, REF,SHI) |
| TIA-942 | طراحی چیدمان سرد/گرم و گردش هوا |
راهکارهای حرفهای پیشنهادی فیکسآموز
✅ طراحی چیدمان Cold Aisle / Hot Aisle واقعی
✅ نصب Airflow Manager Panels در رکها
✅ استفاده از Base Sealing برای جلوگیری از نشت هوا
✅ نصب کفکاذب استاندارد برای جریان هوای عمودی
✅ مانیتورینگ لحظهای و اتوماتیک دما + هشدار فوری
تجربه واقعی فیکسآموز
در یک اتاق سرور بانکی، رکهای بالایی دائماً Overheat میشدند و تجهیزات شبکه مدام Hang میکردند.
تشخیص فیکسآموز:
- دمای ورودی رک مناسب بود
- اما دمای خروجی پرتابل پشت رک ۱۸ درجه بیشتر بود → Hot Pocket
راهحل اجرا شده:
- نصب Airflow Duct پشت رک
- تنظیم Pressure کولرهای In Row
- بهینهسازی مسیر بازگشت هوا
نتیجه:
دما در کمتر از 27 دقیقه به محدوده استاندارد برگشت و مصرف برق کولر 21% کاهش یافت.
8) نشت آب و مایعات (Water Leak Detection)
نشت آب در اتاق سرور بهطور معمول آرام، بیصدا و تقریباً غیرقابلتشخیص آغاز میشود؛ اما نتیجهی آن میتواند خاموشی کامل سیستمها، سوختن تجهیزات، از دست رفتن دادهها و توقف سرویسهای سازمان باشد.
حتی یک قطره آب روی کابلهای برق یا تجهیزات دیتا کافیست تا یک حادثه جدی رخ دهد.
دلایل اصلی بروز نشت آب در اتاق سرور:
| منبع احتمالی نشت | توضیح |
|---|---|
| کولرهای گازی / داکت اسپلیت / CRAC | لوله تخلیه مسدود شود → آب جمع میشود → چکه |
| رطوبتسازهای نامناسب | سرریز رطوبت یا تعریق بیش از حد |
| لولهکشی آب یا لولههای دیواری و سقفی | ترک، نشتی آهسته یا شکستگی |
| سقف طبقه بالا | ترکیدگی یا شل بودن اتصالات |
| اگزوز کولرهای In Row | تقطیر بخار و چکه در مسیر جریان هوا |
تجربه فیکسآموز:
در ۴۷٪ اتاقهای سروری که ما بررسی کردیم، نشتی اولیه قبل از آسیب اصلی توسط سنسورهای دقیق قابل تشخیص بود اما چون سنسور استاندارد نصب نشده بود → حادثه رخ داده است.
چرا نشت آب اینقدر خطرناک است؟
- آب رسانای الکتریسیته است → اتصال کوتاه و آتشسوزی
- باعث خوردگی و زنگزدگی بردها و اتصالات میشود
- رطوبت موضعی ایجاد میکند → افزایش ESD و شوک الکترونیکی
- وارد شدن آب به رک → توقف خدمات شبکه و سرور
- میتواند Backup و SAN Storage را از بین ببرد
یک حادثه نشت آب ۳ دقیقهای، میتواند ۳ روز قطعی سرویس ایجاد کند.
چگونه مانیتورینگ نشت آب انجام میشود؟
برای مانیتورینگ واقعی، فقط داشتن یک سنسور نقطهای روی زمین کافی نیست.
فیکسآموز سیستمهای زیر را ترکیب میکند:
| نوع سنسور | توضیح عملکرد | محل نصب پیشنهادی |
|---|---|---|
| سنسور طنابی (Cable Leak Detection) | تشخیص نشت در طول مسیر | دور تا دور رکها و زیر کولرها |
| سنسور نقطهای (Spot Sensor) | تشخیص نشت در نقطه خاص | زیر سینی تخلیه کولر |
| سنسور تریگر سریع (Floor Pad) | تشخیص حجم بالا | نزدیک UPS و PDU ها |
| سنسور فشار لوله | تشخیص نشتی در خط آب | روی لولههای ورودی رطوبتسازها |
خروجی سنسورها به سیستم مانیتورینگ مرکزی ارسال شده و:
- هشدار SMS
- هشدار Telegram Bot
- هشدار آژیر محلی
- قطع اتوماتیک برق UPS / رک (در شرایط بحرانی)
فیکسآموز چه چیزهایی را کنترل و گزارش میکند؟
| مورد بررسی | نحوه پایش | خروجی نهایی |
|---|---|---|
| سلامت مسیر تخلیه کولر | تست هفتگی + سنسور سطح آب | جلوگیری از سرریز کندانس |
| مدارهای رطوبتساز | سنسور فشار لوله | جلوگیری از رطوبت غیرمجاز |
| نشتی زیر کف کاذب | کابل هوشمند ضد آب | هشدار زودهنگام قبل از رسیدن به رک |
| نشتی پشت رکها | سنسورهای نقطهای | جلوگیری از آسیب در Hot Aisle |
استانداردهای حیاتی
| استاندارد | توصیه |
|---|---|
| TIA-942 | سنسور نشت باید زیر تمامی رکهای حیاتی نصب شود. |
| ASHRAE | جلوگیری از تعریق بخار در مسیر جریان هوا الزامی است. |
| ISO 27001 | حفاظت فیزیکی دیتاسنتر = نیازمند مانیتورینگ محیطی دائمی. |
راهکارهای پیشنهادی فیکسآموز
✅ نصب سنسور طنابی 360° در اطراف کل رکها
✅ نصب سنسور نقطهای زیر تخلیه کولر
✅ کالیبراسیون ماهانه سیستم تخلیه آب کولر
✅ بازرسی چشمی دورهای با چکلیست فیکسآموز
✅ اتصال کامل سنسورها به سیستم مانیتورینگ و مرکز هشدار پیامکی
تجربه واقعی فیکسآموز
در اتاق سرور یک شرکت پرداخت الکترونیک، لوله تخلیه کولر در پشت سقف کاذب دچار انسداد شد.
آب با سرعت بسیار کم نشت میکرد و هیچکس متوجه نشده بود.
اما سنسور طنابی فیکسآموز در ۲۱ ثانیه اولین قطره را تشخیص داد و:
- مانیتورینگ پیام هشدار فوری به تلگرام ارسال کرد
- سیستم درایر کولر اتوماتیک خاموش شد
- اپراتور شیفت سریع وارد محل شد
- هیچ تجهیزی حتی خیس هم نشد
پیشگیری = جلوگیری از فاجعه.

9) دود و حرارت (Smoke & Heat)
در اتاق سرور، حتی مقدار بسیار کم دود یا افزایش دمای غیرطبیعی میتواند نشانهی شروع آتشسوزی، اتصالی الکتریکی، خرابی منبع تغذیه، یا عملکرد نادرست سیستم تهویه باشد. تأخیر در تشخیص این شرایط میتواند منجر به:
- از کار افتادن سرورها و استوریجها
- آسیبهای غیرقابل برگشت به تجهیزات
- توقف سرویسهای حیاتی سازمان
- از دست رفتن دادهها و اختلال در کسبوکار
بنابراین، وجود سیستمهای تشخیص دود و حرارت هوشمند و مانیتورینگ آنلاین برای اتاق سرور، غیرقابلجایگزین است.
چطور مانیتور میشود؟
- سنسور دود (Smoke Detectors)
- تشخیص ذرات سوختن یا پلاستیک ذوبشده
- مانیتورینگ لحظهای و ارسال آلارم به NOC/SOC
- سنسور حرارت (Heat Sensors)
- ثبت افزایش دمای سریع یا فراتر رفتن از آستانه (مثلاً +55°C)
- تشخیص شرایطی که دود هنوز ظاهر نشده اما گرمای غیرعادی وجود دارد
- سیستمهای آدرسپذیر (Addressable Fire Alarm Systems)
- نمایش موقعیت دقیق سنسور فعال شده
- مقیاسپذیری برای دیتاسنتر و اتاقهای چندگانه
- ارتباط SNMP و Modbus
- ارسال وضعیت به سیستم مانیتورینگ مرکزی (Grafana, Zabbix, PRTG, LibreNMS)
استانداردها و الزامات
| استاندارد | هدف |
|---|---|
| NFPA 75/76 | حفاظت از اتاق سرور و دیتاسنتر |
| NFPA 72 | سیستمهای اعلام و اطفای حریق |
| TIA-942 | الزامات زیرساخت و مانیتورینگ محیطی |
| ISO 27001 A.11 | کنترلهای امنیت محیطی و تجهیزات |
توصیه فنی:
به جای دتکتورهای معمولی Ionization, از Laser-based + Aspirating System (VESDA) استفاده شود؛ زیرا بسیار سریعتر و حساستر هستند.
فیکسآموز چه مواردی را بررسی و مانیتور میکند؟
✅ وضعیت لحظهای سنسورها (Normal / Alarm / Fault)
✅ ثبت و گزارش آلارمهای کاذب برای جلوگیری از هشدارهای بیمورد
✅ بررسی سلامت حسگرها و کالیبراسیون دورهای
✅ بررسی سیکل تهویه برای جلوگیری از تجمع دود در نقاط کور
✅ پایش افزایش دمای ناگهانی (Rapid Rise Alarm)
✅ ایجاد آلارم چندسطحی:
- هشدار اولیه → پیامک / داشبورد
- هشدار ثانویه → اعلام آژیر
- هشدار نهایی → فعالسازی سیستم اطفا (NOVEC / FM200 / CO₂)
راهکارهای پیشنهادی
| نیاز | راهکار |
|---|---|
| حساسیت بالا و تشخیص سریع | سیستم VESDA برای سنجش پیوسته کیفیت هوا |
| جلوگیری از حریق گسترده | اطفای حریق گازی (NOVEC 1230 یا FM200) |
| مدیریت و گزارشگیری | اتصال خروجی Relay + SNMP Trap به داشبورد مانیتورینگ |
| نگهداری و پایداری | تست و کالیبراسیون دورهای ۶ ماهه |
تجربهی واقعی فیکسآموز
در یک دیتاسنتر بانکی، فیکسآموز افزایش دمای غیرطبیعی از ۲۴°C به ۳۶°C را طی ۶ دقیقه شناسایی کرد. بررسی نشان داد فنهای کولر گازی به دلیل آلودگی فیلترها از کار افتاده بودند.
با تشخیص سریع و اجرای اقدام اضطراری، از آسیب به ۲ رک استوریج و توقف سرویسهای تراکنش مالی جلوگیری شد.
10) گرد و غبار و ریزگرد (Dust & Particulate)
گرد و غبار و ذرات معلق (Particulates) یکی از عوامل پنهان و «آرامکُش» خرابی تجهیزات در اتاق سرور است. ذرات معلق میتوانند:
- مسیر جریان هوا را مسدود کنند و باعث ایجاد هاتاسپات شوند.
- بهتدریج روی رادیاتورها و فینهای کولینگ بنشینند و راندمان تبادل حرارت را کاهش دهند.
- با ایجاد لایه عایق روی بردها، باعث فشار حرارتی و افزایش دمای قطعات شوند.
- در ترکیب با رطوبت موجب خوردگی و شورت و در شرایط خاص باعث خرابی پیشبینینشده هارد درایوها و بردها شود.
- موجب افزایش کار فنها، مصرف انرژی بیشتر و کاهش عمر مفید تجهیزات گردند.
در تجربه میدانی فیکسآموز، بیش از 40% از مشکلات رایج در سایتهایی که پالیسی نگهداری محیطی نداشتند ریشه در آلودگی ذرات داشته است.
چه مقادیری باید اندازهگیری شوند؟
- Particle Count برحسب اندازه ذره (معمولاً ≥0.3µm, ≥0.5µm, ≥1µm, ≥5µm) — داده استاندارد برای دیتاسنترها.
- PM2.5 / PM10 (جرم ذرات در واحد حجم هوا) — برای شاخص کیفیت هوا و هشدارهای عمومی.
- Differential Pressure (ΔP) بین فضای داخل اتاق سرور و محیط بیرون / پلنوم زیرکف — برای حفظ Positive Pressure.
- ΔP across Filters (فشار افت) — نشاندهنده زمان تعویض فیلتر.
- Airflow (m³/h) و Air Changes per Hour (ACH) — برای اطمینان از تعویض هوای مناسب.
- Relative Humidity + Temperature (همبستگی ذرات و رطوبت در خرابیها مهم است).
چگونه مانیتور و اندازهگیری میکنیم؟
- Particle Counters (Handheld & Fixed): سنجش ذرات برندههای معمول: 0.3µm / 0.5µm / 1µm / 5µm — نصب حداقل 3 نقطهای: 1) نزدیک ورودی هوای سرد (Cold Aisle inlet)، 2) داخل پلنوم/زیر کف، 3) در نزدیکی خروجی هوا/Hot Aisle.
- Continuous Air Monitoring Stations: ایستگاههای ثابت که دادهها را به DCIM / NMS منتقل میکنند و نمودار trend زنده تولید میکنند.
- Differential Pressure Sensors: برای حفظ فشار مثبت مطلوب نسبت به فضاهای مجاور.
- HVAC / Filter ΔP Gauges: مانیتورینگ افت فشار دو سر فیلتر برای تعویض پیشگیرانه.
- Environmental Loggers & Automated Alerts: اتصال به سیستم مانیتورینگ فیکسآموز (SNMP / REST API) با آستانههای هشدار و escalation.
استانداردها و اهداف کیفیت
- دیتاسنترها معمولاً نیاز به محیط “Clean” در حد cleanroom ندارند اما باید از کنترل ذرات غفلت نکنند. برای دیتاسنترهای حرفهای هدفگذاری مرزی منطقی شامل:
- نگهداری particle-count در محدودهای که با ISO 14644 مطابقت نسبی داشته باشد (مثلاً نزدیک به ISO Class 8 یا بهتر بسته به حساسیت تجهیزات).
- نگهداری PM2.5 کمتر از سطوح خطر محیطی (بهعنوان مرجع برای سلامت پرسنل).
- ΔP مثبت بین 5 تا 15 Pa (نسبت به فضاهای غیرسروری) برای جلوگیری از ورود ذرات از فضاهای پیرامونی توصیه میشود (مقدار دقیق بر اساس استانداردهای مکانیکی و طراحی ساختمان تعیین میگردد).
- فیلترهای HVAC: حداقل MERV 13 برای فیلترهای میانی، و در اتاقهای حساس یا بالای ریکها استفاده از HEPA H13/H14 یا ULPA در خط برگشت/پلنوم توصیه میشود.
نکته عملی: تعیین کلاس ISO یا PM thresholds باید براساس سناریو پروژه و استاندارد مشتری (مثلاً مراکز مالی یا پزشکی) انجام شود — فیکسآموز در فاز طراحی، baseline اندازهگیری اولیه را میگیرد و آستانههای هشدار را براساس آن تنظیم میکند.
خطمشیهای عملیاتی فیکسآموز — چه کاری انجام میدهیم؟
- Survey اولیه و Baseline Measurement:
- شمارش ذرات در 5 نقطه، اندازهگیری ΔP و فشردن نقشه هوا (airflow map).
- تهیه گزارش baseline و تعریف آستانههای Warning / Critical براساس نتایج و کلاس هدف (مثلاً ISO target).
- نصب شبکهای از Particle Counters و ΔP Sensors که به DCIM متصل شده و دادهها را به صورت real-time و historic ذخیره میکنند.
- ** تنظیم و اجرای Alerting Policy:**
- Alert سطح 1 (Warning): افزایش ذرات ≥ 150% از baseline یا افزایش ΔP filter > preset (مثلاً 50 Pa)
- Alert سطح 2 (Critical): افزایش ناگهانی ذرات ≥ 300% یا عبور از آستانه ISO target
- Escalation: SMS → Call → On-site rapid inspection team
- اجرای برنامه نگهداری و فیلترینگ: تعویض فیلتر براساس ΔP و برنامه زمانبندی (مثلاً چک هفتگی ΔP و تعویض دورهای هر 3–6 ماه بسته به شرایط).
- عملیات تمیزکاری تخصصی زیرکف و روی سطوح: پاکسازی دورهای با تجهیزات HEPA-filtered vacuum و شیوهنامههای ضدگردوغبار.
- عملیات کنترلی در زمان تعمیرات (Hot Works / Construction): اعمال containment، negative-pressure enclosures در محل تعمیرات، و مانیتورینگ ذرات در هنگام کارهای ایجاد گردوغبار (حفاری، برش، جوش).
راهکارهای مهندسی برای کاهش ذرات (technical mitigation)
- بهینهسازی HVAC و مسیرهای برگشت هوا: طراحی با پلنوم و مجاری مجزا تا هوای برگشتی آلوده را از ورودی سرورها دور نگه دارد.
- فیلتراسیون چندمرحلهای: پیشفیلتر MERV 8 → MERV 13 → HEPA (در صورت نیاز).
- ایجاد Positive Pressure کنترلشده: تا از نفوذ هوا (و ذرات) از مناطق کمکیفیت جلوگیری شود.
- Sealing (حفاظت از نفوذ): آببندی مسیرهای عبور کابل، مهروموم کف کاذب و درزها.
- Sticky Mats و Airlocks برای ورودیها: جلوگیری از ورود ذرات کف کفش به داخل محیط سرور.
- Air Showers یا Pre-Cleaning Stations در سایتهایی که ورود پرسنل زیاد دارند.
- آنتیاستاتیک و تمهیدات ESD: کاهش ریزگردهای ناشی از سایش کفهای غیرمناسب.
راهکار های فیکس آموز عملیات و نگهداری (Maintenance & SOP)
✅بازرسی هفتگی: بازدید فیلترها، تمیزکردن pre-filters، پاکسازی سطوح زیر تایلها
✅کنترل ماهانه: تست particle counter عملکرد، تمیزکاری جدی زیر کف، تعویض pre-filters.
✅تعویض فیلتر: بر اساس ΔP threshold یا تاریخ (مثلاً HEPA هر 12–24 ماه بسته به شرایط) بر پایه ΔP و particle trend تصمیم میگیرد.
✅پساز عملیات ساختمانی: re-certification شامل particle count sweep و تصویربرداری نتایج قبل/بعد.
آستانههای نمونه و جدول واکنش
| پارامتر | Baseline | Warning | Critical | واکنش فیکسآموز |
|---|---|---|---|---|
| Particle ≥0.5µm (counts) | baseline X | > 1.5×X | > 3×X | Warning → بررسی فیلتر/درزها / Critical → توقف فعالیتهای ایجاد غبار + on-site inspection |
| PM2.5 (µg/m³) | < 12 (مثال) | 12–35 | >35 | Warning → افزایش فیلترینگ / Critical → بررسی منبع + temporary shutdown (در صورت نیاز) |
| ΔP across filter (Pa) | 0–20 Pa | 21–50 Pa | >50 Pa | تغییر فیلتر فوری در Critical / برنامهریزی تعویض در Warning |
| ΔP room vs corridor (Pa) | +5 Pa (مثال) | < +3 Pa | ≤ 0 Pa (منفی) | restore positive pressure / check seals |
تجربیات میدانی (Case Studies فیکسآموز)
- مرکز مالی بزرگ: بعد از نصب شبکهای از particle counters، فیکسآموز توانست منبع نفوذ ذرات (فضای سرویس چاهکنتور زیرزمین) را شناسایی کند؛ با sealing و افزایش فیلترگذاری ورودی، نوسانات ذرات به میزان 70% کاهش یافت.
- مرکز داده دانشگاهی: پس از یک بازسازی ساختمانی در طبقه بالا، particle counts بهشدت افزایش یافت؛ فیکسآموز با اعمال containment zones، negative pressure در محل کار و HEPA portable units، محیط را ظرف 48 ساعت پاکسازی و re-certify کرد.
مستندسازی، گزارشدهی و ادغام با DCIM
فیکسآموز دادههای particle-count و ΔP را به داشبورد DCIM متصل میکند تا:
- گزارشهای trend هفتگی و ماهانه تولید شود،
- آلارمها به صورت خودکار در NOC نمایش داده شوند،
- دادهها برای ممیزی و اثبات compliance ذخیره شوند.
11) مانیتورینگ ولتاژ و جریان برق (Voltage & Current Monitoring)
ولتاژ و جریان برق، شریان حیاتی اتاق سرور هستند. کوچکترین نوسان، افت ولتاژ، اضافهبار یا هارمونیک میتواند:
- به تجهیزات حساسی مثل سرورها و SAN آسیب لحظهای وارد کند،
- باعث ریستهای ناگهانی، خرابی دیتابیس، از دست رفتن تراکنشها و Corruption اطلاعات شود،
- منجر به کاهش عمر پاور سرورها، فنها و بردهای الکترونیکی گردد،
- و در بدترین حالت باعث سوختن تجهیزات یا آتشسوزی شود.
مشکل جدی اینجاست که بخش زیادی از خرابیهای مربوط به پاور، علائمهای آشکار ندارند؛ یعنی سرورها در ظاهر کار میکنند اما تحت فشار حرارتی الکتریکی، بهتدریج خراب میشوند. این خرابی در سایتهای بدون مانیتورینگ ولتاژ، مرگ تدریجی تجهیزات نامیده میشود.
چه مواردی باید مانیتور شود؟
| پارامتر | توضیح | اهمیت |
|---|---|---|
| Voltage Line-to-Neutral | ولتاژ روی هر فاز | جلوگیری از Under/Over Voltage |
| Voltage Line-to-Line | اختلاف بین فازها | تعادل فاز (Phase Balance) |
| Current per Phase | جریان مصرفی هر فاز | جلوگیری از Overload و داغی کابل |
| Power Factor (PF) | ضریب توان | بازده مصرف انرژی و جلوگیری از جریمه توان راکتیو |
| Total Harmonic Distortion (THD) | اعوجاج هارمونیک | جلوگیری از کاهش عمر تجهیزات |
| Neutral Current | جریان نول | نشاندهنده عدم تعادل، هارمونیک یا اتصالات ناقص |
| Ground Integrity | سلامت ارت | محافظت در برابر نشتی و شوک الکتریکی |
| Inrush & Transients | پیکهای لحظهای | تشخیص رویدادهای نامنظم و خطرناک |
چگونه مانیتور میکنیم؟
- PDU های هوشمند (Intelligent PDUs)
- مانیتورینگ جریان لحظهای در هر پورت
- تشخیص بار غیرعادی، شناسایی مصرف اضافه یک سرور قبل از خرابی
- ATS / STS Monitoring
- ثبت سوئیچ بین ورودیها و زمان انتقال
- هشدار فوری هنگام Failover یا Transfer Delay
- Power Metering در ورودی اصلی و تابلوهای فرعی
- اندازهگیری THD، PF، جریان فازها، جریان نول، ولتاژ خطی
- ثبت لاگ و نمودار وضعیت برای تحلیل بلندمدت (Trending)
- UPS Monitoring
- اندازهگیری ورودی/خروجی، وضعیت باتری، Bypass، Load Segment
- ثبت ماژولهای خراب و هشدار دمای داخلی
- SNMP / Modbus / BACnet Integration
- ارسال تمام پارامترها به DCIM / سیستم مانیتورینگ فیکسآموز
استانداردها و مقادیر توصیهشده
| پارامتر | مقدار استاندارد | توضیح |
|---|---|---|
| ولتاژ تک فاز | 220V ± 10% | خارج از این محدوده آسیبزا |
| ولتاژ سهفاز | 380–400V | بسته به مدل برقرسانی سایت |
| اختلاف جریان بین فازها | ≤ 10% | برای جلوگیری از داغی کابل و نول |
| PF (ضریب توان) | ≥ 0.90 | مقادیر پایین باعث هزینه اضافه و هدررفت انرژی |
| THD | < 5% | اعوجاج بیشتر باعث خرابی منابع تغذیه میشود |
| مقاومت ارت | ≤ 2 Ω (برای دیتاسنترها) | برای حفاظت و تخلیه جریان نشتی |
فیکسآموز چه چیزهایی را کنترل میکند؟ (Operational Monitoring)
✅منحنی Trend مصرف جهت پیشبینی بار آینده (Capacity Planning)
✅بار لحظهای و بار میانگین هر فاز و هر خط توزیع برق
✅نوسان ولتاژ در ساعات پیک مصرف
✅افزایش جریان نول (نشانه هارمونیکسازی یا عدم تعادل فاز)
✅پیکهای لحظهای (Transient Events) هنگام روشن/خاموش شدن بارهای سنگین
✅Hot-Spot های کابلها و تابلوها با ترموگرافی تخصصی
✅عمر باقیمانده باتریهای UPS و تحلیل سیکل شارژ/دشارژ
راهکارهای پیشنهادی فیکسآموز
- استفاده از PDU های هوشمند با Metering سطح Outlet
- نصب Power Analyzer در ورودی اتاق سرور و تابلوهای فرعی
- اجرای Load Balancing روی سهفاز برای کاهش گرمایش
- نصب فیلتر اکتیو تصحیح هارمونیک (Active Harmonic Filter) در شبکههای صنعتی
- استفاده از Online UPS با THD < 3% و PF بالا
- تعویض باتری UPS بر اساس وضعیت real health نه بر اساس زمان ثابت
- تهیه Logbook برق + گزارش ظرفیت فصلی
تجربه عملی فیکسآموز
در یک مرکز داده سازمانی، افزایش دمای رکهای میانی بدون دلیل مشخص رخ میداد. تیم فیکسآموز با مانیتورینگ جریان خطی، متوجه عدم تعادل فاز 17 درصدی شد که منجر به داغی کابلهای فاز B و افزایش دمای تابلو شده بود.
با بازتوزیع بار و اصلاح کابلکشی، دمای کابینتها 11 درجه کاهش یافت و سرورها از حالت فشار الکتریکی خارج شدند — بدون نیاز به خرید کولینگ جدید.
جدول واکنش عملیاتی (Policy)
| سطح | وضعیت | اقدام |
|---|---|---|
| Warning | ولتاژ خارج از ±10% | بررسی UPS / تنظیم Tap / ثبت گزارش |
| Critical | Overload فاز یا افزایش دمای کابل | انتقال بار + ارزیابی فوری کابل |
| Emergency | THD > 10% یا اختلال فرکانس | فعالسازی Bypass کنترلشده + فراخوان تیم اضطراری فیکسآموز |

12) قطع برق سهفاز و تکفاز (Power Loss 3-Phase & Single-Phase)
قطع برق در اتاق سرور فقط یک خاموشی ساده نیست؛
اگر حتی برای چند ثانیه برق قطع شود:
- دیتابیسها نیمهکاره میمانند و دیتا Corrupt میشود
- کنترلرهای RAID وارد حالت خطا میشوند
- روترها و فایروالها مسیرهای BGP و تونلها را Reset میکنند
- فرآیندهای مالی، حسابداری و ERP Crash میشوند
- و در نهایت سیستم ممکن است ساعتها برای بازیابی (Recovery) زمان بخواهد
به همین دلیل یک اتاق سرور استاندارد هرگز نباید حتی یک چشمبرهمزدن خاموش شود.
برای رسیدن به این هدف، مانیتورینگ برق باید:
- قطع برق را پیش از قطع کامل پیشبینی کند
- بهموقع UPS و ژنراتور را وارد مدار کند
- بار را ایمن بین منابع تغذیه جابهجا کند بدون وقفه (Zero-Downtime Transfer)
سناریوهای قطع برق که باید مانیتور شوند
| سناریو | توضیح | خطر |
|---|---|---|
| قطع برق City Power | قطعی کامل ورودی شبکه شهری | افت آنی ولتاژ و Shutdown |
| قطع یکی از فازها | برق وجود دارد اما نامتعادل است | داغی کابل، سوختن پاور سرورها |
| نوسان ولتاژ پیش از قطع | افت/افزایش ولتاژ سریع | Reset شدنهای تصادفی سیستم |
| تاخیر در استارت ژنراتور | ژنراتور دیر وارد مدار میشود | تخلیه سریع UPS و خاموشی سیستم |
| اشتباه در Transfer ATS | سوئیچ ورودی ناموفق است | قطع کامل مسیر تغذیه |
| ضعف باتری UPS | UPS روشن است اما ظرفیت ندارد | خاموشی ناگهانی و مرگ داده |
چگونه مانیتورینگ این موارد را کنترل میکند؟
- ATS/STS Monitoring
- بررسی زمان انتقال بین ورودیها
- هشدار فوری در صورت Transfer Fail یا Manual Override
- UPS Monitoring
- وضعیت ورودی و خروجی UPS
- درصد بار (Load %) و ظرفیت باقیمانده باتری
- وجود Bypass یا Overheat داخلی
- ژنتراتور Monitoring
- وضعیت روشن/خاموش
- زمان آماده به کار
- ولتاژ و فرکانس خروجی
- Log Trend Analysis
- تشخیص قطعیهای تکراری که نشاندهنده ضعف شبکه برق است
- SNMP + Modbus + BACnet Integration
- ارسال تمام دادهها به سامانه مانیتورینگ فیکسآموز (DCIM)
استانداردهای اجرایی حرفهای (Data Center Class)
| مورد | مقدار استاندارد | منبع استاندارد |
|---|---|---|
| زمان سوئیچ ATS → ژنراتور | ≤ 10 ثانیه | Tier III / TIA-942 |
| زمان Backup UPS | ≥ 10 دقیقه Load Full | Uptime Institute |
| THD ژنراتور در خروجی | < 7% | IEEE 519 |
| افت ولتاژ قبل از انتقال | ≤ 10% Nominal | IEC 61000-4 |
| تست ژنراتور | ماهانه / زیر بار | NFPA 110 |
فیکسآموز دقیقاً چه چیزی را مانیتور میکند؟
✅ هشدار زودهنگام نوسان ولتاژ قبل از قطع کامل
✅ زمان دقیق انتقال UPS → ژنراتور
✅ تعادل فازها هنگام کار ژنراتور
✅ میزان خالی شدن باتری + سیکل سلامت باتری
✅ داغ شدن تابلو در لحظه انتقال
✅ رکوردسازی همه رخدادها برای تحلیل آینده
راهکارهای فنی پیشنهادی فیکسآموز
| مشکل رایج | راهکار فیکسآموز | توضیح |
|---|---|---|
| تاخیر استارت ژنراتور | نصب ATS + سیستم Prestart | جلوگیری از افت UPS |
| ضعیف شدن باتری UPS | Smart Battery Monitoring + تست ماهانه | جلوگیری از خاموشی ناگهانی |
| قطع یکی از فازها | Load Balancing + مانیتور جریان نول | حفاظت از پاور سرورها |
| خطای سوئیچینگ ATS | تست Performance Seasonal + Failover Drill | افزایش ضریب اطمینان سیستم |
تجربه عملی فیکسآموز
در دیتاسنتر یکی از سازمانهای مالی، هنگام شروع تابستان، ژنراتور بهدلیل افت فشار روغن دیر استارت میخورد و UPS فقط 3 دقیقه ظرفیت داشت. تیم فیکسآموز با اضافهکردن Prestart Logic + مانیتورینگ سلامت روغن و دما مشکل را حل کرد.
پس از اصلاح، سیستم در ۱۵ ثانیه به ژنراتور منتقل شد و هیچ قطعی سرویس ثبت نشد.
جدول خلاصه مانیتورینگ قطع برق
| شاخص مانیتورینگ | سطح هشدار | اقدام فوری |
|---|---|---|
| افت ولتاژ > 10% | Warning | بررسی UPS و ثبت رویداد |
| دیر روشنشدن ژنراتور > 12 ثانیه | Critical | بررسی سیستم استارت + سنسورهای روغن |
| قطع یک فاز | Critical | Load Balancing + چک کابلها |
| UPS Battery زیر 25% | Emergency | کاهش بار غیرضروری + تماس با فیکسآموز |
13) مدیریت کولر اتاق سرور (CRAC / HVAC Management)
در اتاق سرور، بزرگترین تهدید پنهان، افزایش دما و عدم تعادل جریان هوای سرد و گرم است. تجهیزات شبکه، روترها، سوییچها و بهخصوص سرورها، انرژی مصرفشده را بهصورت گرما آزاد میکنند و اگر این گرما به درستی مدیریت نشود، دمای اتاق سرور در عرض چند دقیقه ممکن است به 30 تا 45 درجه سانتیگراد برسد؛ دمایی که میتواند باعث کاهش عملکرد CPU، اختلال سرویسها و حتی خاموشی اضطراری سختافزار شود. سیستمهای سرمایشی اتاق سرور شامل CRAC (Computer Room Air Conditioning) یا سیستمهای HVAC صنعتی با قابلیت کنترل دقیق دما، رطوبت و فشار هوا هستند و نقش آنها فراتر از خنکسازی ساده است؛ این سیستمها باید توانایی تأمین جریان ثابت، یکنواخت و جهتدار هوا را داشته باشند.
چگونه باید مانیتور و کنترل شود؟
✔ کنترل دمای خروجی و ورودی رکها (Hot / Cold Aisle)
هدف این است که هوای سرد از جلو وارد رکها شود و هوای گرم از پشت خارج شود. هرگونه اختلال در این جریان باعث گردش مجدد هوای گرم و افزایش تدریجی دما میشود.
✔ مانیتورینگ لحظهای مصرف انرژی و میزان بار کمپرسور
مصرف غیرعادی به معنی:
- فرسودگی کمپرسور
- نشتی گاز
- گرفتگی مسیر هوا یا فیلترها
- یا فشار بیشازحد روی کویلهاست.
✔ اندازهگیری نقطه شبنم (Dew Point) و کنترل رطوبت
افزایش رطوبت = خطر خوردگی و آسیب به برد الکترونیکی
کاهش رطوبت = افزایش الکتریسیته ساکن و خطر تخلیه الکتریکی (ESD)
تعادل مطلوب: 45% ±5%
✔ کنترل فشار هوای محیط و جلوگیری از Backflow هوای گرم
فشار مثبت در اتاق سرور باعث خروج هوای گرم به بیرون میشود.
استانداردها و الزامات فنی
| استاندارد | توضیح |
|---|---|
| ASHRAE TC9.9 | رنج استاندارد دما: 18°C تا 27°C با کنترل دقیق رطوبت |
| Hot/Cold Aisle Containment | جداسازی کامل راهروی سرد و گرم جهت بهبود راندمان |
| N+1 Cooling Redundancy | حداقل یک کولر پشتیبان آمادهبهکار |
| Airflow CFD Analysis | تحلیل جریان هوا برای جلوگیری از نقطههای گرم (Hot Spot) |
فیکسآموز چه چیزی را مانیتور و بررسی میکند؟
| بخش بررسی | دلیل بررسی | خروجی / هشدار |
|---|---|---|
| دمای ورودی سرورها | تشخیص وقوع Hot Spot | هشدار خودکار هنگام عبور از 27°C |
| وضعیت کمپرسور / کندانسور | پیشبینی خرابی و جلوگیری از DownTime | تشخیص کاهش راندمان و مصرف غیرطبیعی |
| کارکرد فنها و سرعت چرخش | جریان صحیح هوا | هشدار در صورت کاهش RPM |
| فیلترهای هوا | جلوگیری از تجمع گرد و غبار | برنامه سرویس و شستشو دورهای |
| کنترل رطوبت | جلوگیری از خوردگی و ESD | تنظیم اتوماتیک سطح رطوبت |
راهکارهای حرفهای پیشنهادی فیکسآموز
✅ ایجاد راهروی سرد و گرم با درببندی کامل
✅ استفاده از Blind Panel در رکها برای هدایت صحیح هوا
✅ نصب سنسورهای حرارتی چند نقطهای در هر رک
✅ پیادهسازی سیستم آلارم پیامکی + داشبورد مانیتورینگ
✅ بررسی دورهای فشار گاز و سرویس کمپرسور
✅ مانیتورینگ آنلاین عملکرد CRAC با SNMP و پروتکل Modbus
✅ جایگذاری UPS ویژه کولرها برای جلوگیری از افزایش ناگهانی دما هنگام قطع برق
تجربه عملی تیم فیکسآموز
در سال ۱۴۰۳ در یکی از دیتاسنترهای سازمانی، افزایش دمای ناگهانی از ۲۳°C به ۳۴°C در مدت ۷ دقیقه مشاهده شد. سیستم مانیتورینگ فیکسآموز بهصورت خودکار:
- آلارم پیامکی صادر کرد
- سیستم کولر پشتیبان را فعال نمود
- الگوی جریان هوا را اصلاح کرد
نتیجه: هیچگونه اختلال یا آسیب سختافزاری رخ نداد و عملکرد شبکه بدون وقفه ادامه یافت.

14) مانیتورینگ UPS
UPS تنها یک باتری پشتیبان نیست؛ آخرین خط دفاعی زیرساخت IT در برابر نوسانات ولتاژ، قطعی برق و آسیبهای الکتریکی است. اگر UPS بهدرستی مانیتور نشود، ممکن است در لحظه بحرانی عملکرد نداشته باشد و نتیجه آن خاموشی ناگهانی سرورها، آسیب به تجهیزات ذخیرهسازی، خراب شدن دیتابیس، و حتی از دست رفتن اطلاعات حیاتی خواهد بود.
UPS باید در سه بخش اصلی مانیتور و کنترل شود:
- صحت عملکرد دستگاه اصلی (Inverter / Rectifier / Transfer Switch)
- وضعیت و سلامت باتریها
- توان تحویلی و مدت زمان Backup واقعی
این مانیتورینگ باید بلادرنگ (Real-Time) باشد و شامل ثبت گزارشهای روزانه و تحلیل روند افت ظرفیت باشد، نه صرفاً مشاهده لحظهای.
چگونه باید UPS مانیتور شود؟
۱) وضعیت برق ورودی و خروجی
- ولتاژ ورودی فاز به فاز
- فرکانس برق (Hz)
- ولتاژ خروجی تثبیتشده به تجهیزات
- میزان اعوجاج THD (Total Harmonic Distortion)
🔍 هرگونه نوسان خارج از بازه استاندارد میتواند نشانه:
- خرابی برق شهری
- تنظیم نبودن AVR داخلی UPS
- یا عملکرد نامناسب اینورتر باشد.
۲) ظرفیت و سلامت باتریها
باتریها قابل اعتماد نیستند مگر اینکه تست شوند.
ظرفیت باتریها در محیطهای گرم یا با تهویه نامناسب تا ۳ برابر سریعتر افت میکند.
نکات مهم مانیتورینگ:
- مقاومت داخلی سلولها (Internal Resistance)
- ولتاژ تکتک سلولها و ماژولها
- افت شارژ هنگام بارگذاری (Load Test)
- تاریخ تولید و دوره نگهداری
باتریای که هنوز روشن است، الزاماً سالم نیست.
ولی باتریای که تحت بار پایدار میماند، قطعاً سالم است.
۳) بار مصرفی (Load Percentage)
اگر بار UPS بیشتر از ۸۰٪ ظرفیت اسمی شود:
- زمان پشتیبانی کاهش مییابد
- فشار روی اینورتر بالا میرود
- احتمال داغ شدن و افت راندمان وجود دارد
مانیتورینگ Load Trend به ما اجازه میدهد:
- قبل از بروز مشکل، ارتقاء ظرفیت انجام شود
- از اضافه بار لحظهای هنگام فعالیت همزمان سرورها جلوگیری شود
استانداردها و الزامات
| استاندارد | اهمیت |
|---|---|
| IEC 62040 | استاندارد جهانی طراحی و بهرهبرداری UPS |
| SNMPv3 / Modbus-TCP | پروتکل امن برای مانیتورینگ و گزارش |
| IEEE 1188 | استاندارد نگهداری و تست دورهای باتریها |
| Ambient Temp 20-25°C | دمای بهینه برای طول عمر ۳ تا ۵ سال باتری |
افزایش 10°C دمای محیط → کاهش 50٪ عمر باتری
فیکسآموز چه چیزی را بررسی و مانیتور میکند؟
| بخش بررسی | خروجی / نتیجه |
|---|---|
| ولتاژ ورودی و خروجی | جلوگیری از آسیب به تجهیزات حساس |
| توان مصرفی و Load Trend | کنترل ظرفیت و جلوگیری از اضافهبار |
| سلامت و مقاومت داخلی باتریها | پیشبینی زمان تعویض قبل از خرابی |
| Log رویدادها و Alarm ها | تحلیل علت مشکلات و جلوگیری از تکرار |
| دمای داخلی UPS و محفظه باتری | افزایش پایداری و طول عمر |
فیکسآموز باتریها را تحت بار واقعی تست میکند، نه صرفاً ولتاژ آنها را چک.
راهکارهای حرفهای پیشنهادی فیکسآموز
✅ نصب SNMP Card روی UPS جهت مانیتورینگ 24/7
✅ مانیتورینگ ظرفیت باتری با Battery Management System (BMS)
✅ انجام ** تست دورهای بار (Load Test)** هر ۶ ماه
✅ نصب سنسور دمای مستقل روی محفظه باتری
✅ فعالسازی هشدار پیامکی + تماس خودکار هنگام قطع برق
✅ ثبت نموداری روند افت ظرفیت باتری جهت پیشبینی زمان تعویض
تجربه عملی از اجرای فیکسآموز
در یک مرکز داده سازمانی، UPS ظاهراً سالم بود و هیچ آلارمی نمایش نمیداد. اما در تست بار 65٪، بسته باتری در کمتر از 4 دقیقه خالی شد. فیکسآموز با تحلیل Internal Resistance متوجه سولفاتهشدن سه سلول شده و قبل از وقوع قطع برق واقعی، تعویض پیشگیرانه انجام شد.
نتیجه: جلوگیری از خاموشی دیتاسنتر و جلوگیری از خسارت چند ده میلیونی.
15) مانیتورینگ In-Row (In-Row Cooling / In-Row Power)
در اتاق سرورهای مدرن، مقدار گرمای تولید شده توسط سرورها، سوییچها، استوریجها و تجهیزات پردازشی بسیار بالاست. سیستمهای In-Row Cooling بهصورت مستقیم در بین رکها نصب میشوند و هوای خنک را دقیق و بدون هدررفت به مسیر جریان حرارتی تجهیزات هدایت میکنند.
به زبان ساده:
In-Row = سرمایش هدفمند در نزدیکترین فاصلهی ممکن از منبع گرما.
مزیت اصلی:
- جلوگیری از Hot Spot
- کاهش فشار روی چیلر/کولر مرکزی
- حفظ پایداری دمای نقطهای تجهیزات حساس
به همین دلیل مانیتورینگ In-Row بخشی حیاتی از مدیریت اتاق سرور استاندارد است.
چگونه مانیتورینگ In-Row انجام میشود؟
۱) مانیتورینگ دما و اختلاف دمای ورودی/خروجی (ΔT Control)
هر چه اختلاف دمای هوای واردشده و هوای خروجی از رک بیشتر باشد، نشاندهندهی این است که تجهیزات تحت فشار حرارتی قرار دارند.
پارامترهایی که مانیتور میشوند:
- دمای هوای ورودی رک (Supply Air Temperature)
- دمای هوای خروجی رک (Return Air Temperature)
- اختلاف دمای ورودی/خروجی (ΔT)
استاندارد مناسب:
دمای ورودی رک = 18°C تا 27°C
ΔT مناسب = 10°C تا 15°C
اگر ΔT خیلی پایین باشد، یعنی هوا به تجهیزات نمیرسد.
اگر خیلی بالا باشد، یعنی تجهیزات بیش از حد گرم شدهاند.
۲) مانیتورینگ جریان هوا (Airflow & Pressure Monitoring)
In-Row باید هوا را با حجم و سرعت کافی به سمت رکها هدایت کند.
پارامترهایی که بررسی میشوند:
- سرعت هوای خروجی (CFM)
- فشار استاتیک Cold Aisle
- انسداد فیزیکی مسیر هوا (Cable blocking & blank panel gaps)
اگر جریان هوا افت کند:
- نقاط داغ بین رکها شکل میگیرد.
- عمر SSD/CPU/PSU به شدت کاهش مییابد.
۳) مانیتورینگ کمپرسور، پمپها و فنها
خرابی فنها و کمپرسور شایعترین علت از کار افتادن سیستم سرمایش است.
فیکسآموز مانیتور میکند:
- وضعیت چرخش فنها (RPM Monitoring)
- جریان مصرفی موتورها (برای تشخیص گیرپاژ قبل از خرابی)
- روغن و فشار کمپرسور (برای جلوگیری از Overheat و Burn)
- سطح خنککننده (Refrigerant Level)
هر تغییر کوچک در این فاکتورها = هشدار پیشگیرانه
۴) مانیتورینگ مصرف انرژی و بازدهی سرمایش (Cooling Efficiency Index – CEI)
این شاخص کمک میکند بفهمیم:
- آیا سرمایش بهینه است؟
- یا هدررفت انرژی داریم؟
↓
اگر CEI از حد استاندارد بالاتر برود، فیکسآموز سیستم را Re-Balancing میکند
(تنظیم مسیر باد، ارتفاع کف کاذب، چینش رکها، کنترل سرعت فنها).
فیکسآموز دقیقاً چه چیزهایی را بررسی و کنترل میکند؟
| بخش | اقدام فیکسآموز | نتیجه |
|---|---|---|
| دمای ورودی و خروجی رک | ثبت لحظهای و هشدار سطح خطر | جلوگیری از HotSpot |
| عملکرد فنها و کمپرسور | تحلیل جریان مصرفی و RPM Monitoring | پیشبینی خرابی قبل از وقوع |
| جریان هوا و فشار مسیر | آنالیز با سنسور + Smoke-Flow Testing | اطمینان از توزیع یکنواخت هوا |
| راندمان سرمایش | محاسبه CEI و تنظیم سرعت فنها | کاهش هزینه انرژی و عمر بیشتر تجهیزات |
| هماهنگی با UPS و BMS | اتصال به سیستم مانیتورینگ مرکزی | یکپارچگی کنترل و گزارشگیری |
راهکارهای پیشنهادی فیکسآموز برای پایداری سرمایش
✅ استفاده از Cold & Hot Aisle Containment (جلوگیری از ترکیب هوا)
✅ نصب سنسورهای هوشمند دما در 3 ارتفاع رک (Top / Middle / Bottom)
✅ مدیریت ظرفیت کولینگ بر اساس بار واقعی (Load-Based Cooling)
✅ استفاده از فنهای EC کممصرف و قابل کنترل
✅ اجرای Airflow Sealing (مسدودسازی نقاط نشت هوای سرد)
تجربه واقعی فیکسآموز
در یک مرکز داده دولتی، دمای خروجی رکهای Blade Server به 47°C رسیده بود و شرکتهای دیگر فقط توصیه افزایش کولر داده بودند.
فیکسآموز بهجای این کار:
- الگوی فشار مسیر هوا را تحلیل کرد
- جریان بازگشتی را اصلاح کرد
- سرعت فن In-Row را هوشمند کرد
- مسیر bypass هوا را بست
نتیجه:
- دمای خروجی از 47°C → شد 33°C
- توان برق مصرفی کولینگ 18٪ کاهش پیدا کرد
- بدون خرید هیچ تجهیز اضافهای.
16) مانیتورینگ PDU رکها (Rack PDU Monitoring)
در اتاق سرور، برق پایدار مهمتر از هر چیز دیگری است. اگر یک سرور Down شود، معمولاً امکان Boot مجدد وجود دارد، اما اگر برق به شکل نادرست قطع شود یا اضافهبار رخ دهد، ممکن است سختافزار برای همیشه آسیب ببیند.
PDU (Power Distribution Unit) وظیفه دارد برق را منظم، پایدار و قابلکنترل به رکها توزیع کند.
اما PDU مدرن فقط یک چندراهی برق نیست؛
بلکه یک سیستم هوشمند اندازهگیری، کنترل و هشدار است.
بنابراین مانیتورینگ PDU = محافظت مستقیم از هزینههای اصلی شرکت (سرورها و ذخیرهسازی).
چه پارامترهایی در PDU مانیتور میشود؟
۱) جریان مصرفی (Current Load per Phase / Per Outlet)
اگر جریان هر فاز یا هر خروجی بیش از حد باشد → ریسک آتشسوزی و خاموشی لحظهای
مانیتورینگ بهصورت Live:
| مورد | چرا مهم است؟ |
|---|---|
| جریان کلی فاز | جلوگیری از Overload و افت توان UPS |
| جریان هر خروجی | جلوگیری از سوختن کابل یا سوکت بر اثر گرمای نقطهای |
| جریان لحظهای تحت Load | تشخیص افزایش تدریجی (نشانهی پایان عمر پاور سرور) |
۲) ولتاژ (Voltage Stability Monitoring)
PDUهای هوشمند افت ولتاژ یا Spike را لحظهای گزارش میکنند.
هر سیکل Spike ممکن است SSD را فاسد کند یا RAID را Crash کند.
استاندارد پایدار برای رک اتاق سرور:
۲۲۰V ± ۵٪
Anything خارج از این → هشدار فوری.
۳) دما و رطوبت نزدیک رک (Internal Environmental Sensors)
بسیاری از Hotspot ها از همین نقطه شروع میشوند.
اگر دمای پایه رک بالا برود → نشاندهنده مشکل تهویه، In-Row، یا airflow sealing است.
فیکسآموز از ۳ سنسور در سه ارتفاع رک استفاده میکند:
بالا (Hot Zone)
وسط (Board Zone)
پایین (Cold Zone)
۴) وضعیت پاور سرورها (Power Supply Health)
PDU مانیتور میکند:
- آیا PSU سرور روی Redundancy Mode است یا Single Mode
- آیا پاور ها Fail Prediction اعلام کردهاند
- تعداد خطاهای Power Loss Event
این بخش بسیار مهم است چون:
68% خرابیهای ناگهانی دیتاسنتر از نقص تدریجی پاور سرورها شروع میشود.
فیکسآموز دقیقاً چه چیزی را روی PDU مانیتور میکند؟
| بخش کنترل | روش مانیتورینگ | سیستم هشدار | نتیجه |
|---|---|---|---|
| جریان هر فاز | SNMP Live Metering | هشدار سطح 1،2،3 | جلوگیری از Overload |
| جریان هر خروجی | Per-Port Power Monitoring | هشدار فوری SMS/Email | جلوگیری از نقطه داغ و سوختن کابل |
| سلامت پاورها | PSU Health + Redundancy Check | Alert + Log | جلوگیری از خاموشی ناگهانی سرور |
| وضعیت محیطی رک | Temp/Humidity per Rack | Threshold Alerting | جلوگیری از Hotspot |
| ثبت رویدادهای برق | Event Log + Power Pattern Learning | Dashboard Analysis | پیشبینی خرابی پیش از وقوع |
راهکارهای پیشنهادی فیکسآموز
✅ استفاده از PDU هوشمند Metered یا Switched
✅ اتصال PDU به UPS و مانیتورینگ مرکزی برای سناریوی قطع برق
✅ تنظیم Threshold دو مرحلهای (Warning / Critical)
✅ ثبت Log مصرف برق برای ظرفیتسنجی آینده (Capacity Planning)
✅ تقسیم بار سهفاز بر اساس مصرف واقعی نه محاسبات تئوری
✅ استفاده از کابلهای پاور ضد حرارت + کانکتور قفلشونده
تجربه واقعی فیکسآموز (Case Study)
در یکی از دیتاسنترهای بانکی تهران، یک رک Blade Server به دلیل توزیع نامتوازن بار سهفاز باعث شد فاز A بیش از استاندارد مصرف کند و UPS مکرراً روی Bypass برود.
شرکتهای قبلی فقط فن کولر را بیشتر کرده بودند!
فیکسآموز:
- الگوی مصرف هر خروجی PDU را تحلیل کرد
- بار را روی سهفاز Balance کرد
- پاورهای دو سرور را به صورت Redundant Pairing تنظیم کرد
نتیجه:
- مصرف فازها ۹٪ تعادل پیدا کرد
- UPS از حالت Bypass خارج شد
- گرمایش رک ۲۱٪ کاهش پیدا کرد
- بدون اضافه کردن حتی یک تجهیز.

17) رکها (Racks)
رکها فقط یک کابین فلزی ساده نیستند؛ آنها چارچوب اصلی نظم، خنکسازی، امنیت و دسترسی در اتاق سرور هستند. هر خطا در انتخاب، چیدمان، تهویه یا مدیریت رک میتواند منجر به افزایش دما، لرزش، اختلال کابلکشی، خرابی تجهیزات و کاهش کارایی خنکسازی شود. مدیریت صحیح رکها یعنی کنترل جریان هوا، حفظ سازماندهی، کاهش فشار روی کابلها و آمادهسازی محیط برای توسعه در آینده.
اهمیت مانیتورینگ رک
یکی از مشکلات رایج در مراکز داده کوچک و اتاقهای سرور سازمانی، عدم توجه به وضعیت داخلی رکهاست. رکها گاهی شلوغ، نامنظم، بدون در نظر گرفتن جریان هوا و حتی بدون در نظر گرفتن وزن تجهیزات چیده میشوند. این موضوع باعث:
- تشکیل Hot Spot (نقاط داغ شدید)
- فشار بیش از حد روی کابلها و کانکتورها
- نوسان دما در چند سانتیمتری تجهیزات
- کاهش عمر فنها و منابع تغذیه
مانیتورینگ رک یعنی:
- سنجش دما و رطوبت داخلی
- تشخیص باز/بسته بودن درب
- کنترل لرزش و شوک فیزیکی
- بررسی وضعیت جریان هوا (Air Flow Direction)
پارامترهایی که باید مانیتور شوند
| شاخص | توضیح |
|---|---|
| دما در نقطه ورودی هوا (Front Temp) | اگر از 25 درجه عبور کند به تجهیزات فشار میآید |
| دما در نقطه خروجی هوا (Back Temp) | اختلاف بیشازحد نشانه مشکل در تهویه |
| رطوبت داخل رک | رطوبت پایین → الکتریسیته ساکن / رطوبت بالا → خطر چگالش |
| باز بودن درب رک | امنیت + جلوگیری از بهمخوردن جریان هوای مهندسی شده |
| لرزش و شوک فیزیکی | برای جلوگیری از جابجایی HDD، SSD و بردها |
| مدیریت کابلکشی | کابل اضافی جریان هوا را میبندد و نقطهی داغ میسازد |
استانداردهای مهم در مدیریت رک
| استاندارد | توضیح |
|---|---|
| ISO/IEC 14763 | استاندارد کابلکشی ساخت یافتهی مراکز داده |
| ASHRAE TC9.9 | استاندارد دمای مناسب تجهیزات دیتاسنتر |
| TIA-942 | طراحی و اجرای مراکز داده سطحبندی شده |
| Best Practice Airflow Management | جداسازی جریان هوای سرد/گرم (Cold / Hot Aisle) |
راهکارهای پیشنهادی فیکسآموزپروژهها
تیم فیکسآموز یک رویکرد سیستماتیک و حرفهای برای مدیریت رکها دارد:
✅ بهینهسازی جریان هوا
- نصب Brush Panels برای جلوگیری از خروج هوای سرد
- استفاده از Blank Panels برای بستن فضاهای خالی
- جهتدهی به فنها و فشار هوای مثبت داخل رک
✅ بازآرایی و مستندسازی کابلکشی
- کابلکشی عمودی و افقی با Label استاندارد
- استفاده از Cable Management Arm
- حذف کابلهای اضافه / کوتاه کردن مسیرها
✅ مانیتورینگ هوشمند
- نصب سنسورهای دما، رطوبت، درب، لرزش
- اتصال سنسورها به سیستم مانیتورینگ شبکه (SNMP / MQTT)
✅ ایمنسازی فیزیکی
- قفل امنیتی چندمرحلهای
- ثبت باز و بسته شدن درب رک
- هشدار فوری در صورت ضربه یا لرزش
راهکارهای پیشنهادی فیکسآموز
| مشکل | راهکار |
|---|---|
| نقاط داغ در رک | نصب سنسورهای چند نقطهای + اصلاح جریان هوا |
| شلوغی کابلها | بازآرایی + مستندسازی + استفاده از سینی مدیریت |
| تماس فیزیکی غیرمجاز | سیستم قفلگذاری + هشدار باز شدن درب |
| نوسان دما | همگامسازی سیستم مانیتورینگ رک با HVAC / CRAC |
نتیجهگیری
رک خوب فقط «جا دادن سرورها» نیست؛ یک سیستم مدیریتشدهی هوشمند است که:
- محیط را خنک، ایمن و منظم نگه میدارد
- عمر تجهیزات را افزایش میدهد
- مصرف انرژی سیستم خنککننده را کاهش میدهد
- دسترسی و سرویسدهی را ساده و سریع میکند
فیکسآموز این بخش را نه مثل یک کابین فلزی، بلکه بهعنوان هسته مدیریت فیزیکی دیتاسنتر طراحی و مانیتور میکند.
18) ورود و خروج (Access Control — Entry/Exit)
کنترل ورود و خروج در اتاق سرور فقط یک موضوع امنیتی ساده نیست؛ این بخش خط مقدم حفاظت از دادهها، تجهیزات زیرساختی و داراییهای اطلاعاتی سازمان است. در بسیاری از رخدادهای بزرگ امنیتی دنیا، نفوذ فیزیکی عامل اصلی بوده، نه حملات سایبری. بنابراین، مدیریت هوشمند ورود و خروج یعنی کاهش ریسکهای انسانی، جلوگیری از دستکاری، حذف حضور افراد غیرمجاز و ثبت کامل تاریخچه تعاملات فیزیکی با اتاق سرور.
چرا کنترل ورود و خروج حیاتی است؟
اتاق سرور محیطی است که:
- دادههای سازمان در آن نگهداری میشود
- زیرساخت شبکه و سرویسها در آن قرار دارند
- توقف یا خطای ناگهانی در آن میتواند کل سازمان را متوقف کند
بدون کنترل ورود حرفهای:
- افراد غیرمسئول ممکن است تجهیزات را جابهجا، خاموش یا دستکاری کنند
- احتمال سرقت هارد، بکاپ یا دستگاه ذخیرهسازی افزایش مییابد
- ردپای عملیات ثبت نمیشود → امکان پیگیری خطاها دشوار میشود
به همین دلیل، استانداردهای جهانی دیتاسنتر (TIA-942 , ISO 27001) مانیتورینگ ورود و خروج را اجباری میدانند.
چه دادههایی باید مانیتور شوند؟
| پارامتر | توضیح مانیتورینگ |
|---|---|
| باز/بسته بودن درب | تشخیص هر بازشدن حتی بدون ورود |
| هویت فرد واردشونده | کارت RFID، اثر انگشت، چهره، PIN |
| زمان ورود و خروج | لاگ دقیق + بازه حضور |
| تعداد افراد داخل | جلوگیری از ورود همراهان غیرمجاز |
| حالت اضطراری | ثبت ورود در شرایط آلارم یا قطع برق |
هدف: هر لحظه بدانیم چه کسی، چه زمانی، و چرا وارد اتاق سرور شده است.
استانداردها و الزامات
| استاندارد | نقش |
|---|---|
| ISO 27001 — Annex A.11 | امنیت فیزیکی و کنترل دسترسی |
| PCI-DSS | ثبت دقیق تاریخچه ورود برای سیستمهای مالی |
| BS EN 60839 | استاندارد سیستمهای کنترل امنیت فیزیکی |
| TIA-942 | تعریف الزامات امنیت محیطی دیتاسنتر |
علاوه بر این، توصیه میشود در اتاق سرور ورود دو مرحلهای (Two-Factor Access) اعمال شود (کارت + بیومتریک).
روشهای پیشرفته مانیتورینگ ورود
| فناوری | توضیح |
|---|---|
| RFID + Logging Server | ثبت هویت با کارت شناسایی سازمان |
| Biometric Access (اثر انگشت / چهره) | جلوگیری از قرض دادن کارت |
| Mantrap / Double Door Lock | جلوگیری از همراه وارد شدن افراد دیگر |
| سنسور باز بودن درب + هشدار آنی | ارسال آلارم در صورت باز ماندن بیش از حد |
| Integration با دوربین مدار بسته | تطابق تصویر + ورود ثبت شده در لاگ |
راهکارهای پیشنهادی فیکسآموز
تیم فیکسآموز در کنترل ورود و خروج فقط «دستگاه نصب نمیکند»؛
ما یک سیستم امنیت فیزیکی هوشمند و پیوسته طراحی و مانیتور میکنیم:
✅ یکپارچهسازی کنترل دسترسی با مانیتورینگ شبکه
ورود غیرمجاز → آلارم در داشبورد مانیتورینگ + پیام فوری به مدیر شبکه
✅ ثبت و نگهداری گزارش کامل
تمام ورود و خروجها با:
- نام فرد
- زمان ورود / خروج
- دلیل ورود
- تصویر دوربین لحظه ورود
به صورت متمرکز ذخیره میشود
✅ مدیریت سطح دسترسی (Role Based Access)
- تکنسین شبکه → محدود به رکها
- کارمند IT → محدود به مشاهده
- مدیر ارشد → دسترسی کامل
دسترسیها بر اساس نقش تعریف میشوند، نه براساس آشنا بودن یا اعتماد شفاهی
✅ هشدارهای امنیتی خودکار
مثال:
- درب بیش از 30 ثانیه باز ماند → هشدار به موبایل
- ورود بدون ثبت خروج → هشدار به مدیریت
- ورود خارج از ساعات کاری → هشدار سطح بالا
راهکارهای فنی که فیکسآموز پیشنهاد میدهد
| مشکل | راهکار تخصصی |
|---|---|
| ورود افراد غیرمجاز | اجرای کنترل دو عاملی + Mantrap |
| گم شدن کارتهای RFID | جایگزینی با بیومتریک (اثر انگشت / چهره) |
| عدم ثبت دقیق سوابق | راهاندازی سیستم Logging مرکزی + Backup |
| باز ماندن درب و بههم خوردن دما | سنسور درب + اتصال به سیستم HVAC |
| امکان انکار ورود توسط کاربر | ترکیب ورود بیومتریک + ضبط تصویر |
نتیجه
کنترل ورود و خروج لبهی امنیتی اتاق سرور است؛
سیستمی که:
- نفوذ انسانی را غیرممکن
- ردپای رخدادها را قابل پیگیری
- و امنیت دادهها را قابل اعتماد میکند.
فیکسآموز این بخش را به شکل یک سیستم امنیتی-منطقی کامل پیادهسازی، مانیتور و مستندسازی میکند.
چرا مانیتورینگ اتاق سرور را باید به فیکسآموز بسپاریم؟
اتاق سرور قلب تپندهی هر سازمان است؛ جایی که دادهها، سرویسها و زیرساخت شبکه در آن نگهداری میشود. کوچکترین خطا در این محیط میتواند توقف کامل سیستمهای مالی، اداری، انبارداری، ERP و CRM را به همراه داشته باشد.
اینجاست که فیکسآموز وارد میشود.
فیکسآموز، یک تیم صرفاً نصبکننده نیست؛
ما طراح، مجری، مانیتورکننده و پشتیبان هوشمند اتاقهای سرور هستیم، با ساختاری مبتنی بر استانداردهای جهانی TIA-942، ISO 27001، PCI-DSS و ASHRAE.
تفاوت فیکسآموز با دیگران
| دیگران | فیکسآموز |
|---|---|
| نصب ساده و بدون تحلیل | طراحی علمی بر اساس دیتا و ظرفیت واقعی سازمان |
| کاربر محور | استاندارد محور و تست شده |
| بدون ابزار اندازهگیری | ابزارهای دقیق مانیتورینگ صنعتی و دیتاسنتری |
| گزارش شفاهی | داشبورد مانیتورینگ 24×7 + گزارش تخصصی و مستند |
| واکنش بعد از وقوع حادثه | پیشگیری، پیشبینی و هشدار قبل از رخداد |
ما فقط تجهیزات نمیگذاریم، ما امنیت و پایداری را تضمین میکنیم.
فیکسآموز چه چیزی را مانیتور میکند؟
ما در فیکسآموز ۱۸ بخش اصلی اتاق سرور را هوشمند، دقیق و مستمر مانیتور میکنیم، از جمله:
سرورها، سوییچها، روترها، فایروالها، ذخیرهسازها، اکسسپوینتها، دما و رطوبت، نشت آب، دود و حرارت، گرد و غبار، ولتاژ و جریان، قطع برق سهفاز و تکفاز، کولینگ اتاق سرور (CRAC/HVAC)، UPS، سیستمهای In-Row، مانیتورینگ PDU رکها و کنترل ورود و خروج.
هر بخش:
- پارامترهای حیاتیاش اندازهگیری میشود
- آستانه هشدار دارد
- در داشبورد مرکزی دیده میشود
- و هر تغییر غیرعادی، بلافاصله به مدیر شبکه گزارش و هشدار پیامکی/اپلیکیشنی ارسال میگردد
ابزارها و تجهیزات مورد استفاده
فیکسآموز تنها از تجهیزات معتبر و دیتاسنتری استفاده میکند:
- سنسورهای Schneider Electric, APC, Vertiv, Emerson
- نرمافزارهای مانیتورینگ Zabbix, PRTG, LibreNMS, DCIM Solutions
- ماژولهای امنیت دسترسی HID, Suprema, Bosch
- رکهای استاندارد دیتاسنتر Eaton, Rittal, HP
- کابل و پچپنلهای Cat6A و Fiber OM3/OM4 برند Nexans / Corning
کیفیت برای ما انتخاب نیست؛ امضای ماست
تجربه، سابقه و پروژههای شاخص
فیکسآموز بیش از ۸ سال تجربه تخصصی در طراحی و اجرای اتاق سرور و مانیتورینگ در سازمانهای:
- شرکتهای تولیدی و صنعتی
- هلدینگها و دفاتر مرکزی
- بانکها و مؤسسات مالی
- مراکز آموزشی و بیمارستانی
- شرکتهای فناوری و استارتاپهای بزرگ
نام ما کنار پروژههایی ثبت شده که نیازمند دقت بالا، استاندارد واقعی و پشتیبانی واقعی هستند
بخش بازرسی تخصصی فیکسآموز
مهندسین ناظر ما، قبل از هر اجرا:
- وضعیت شبکه و تجهیزات را آنالیز
- ظرفیت پردازشی و I/O را محاسبه
- شرایط محیطی و الکتریکی را اندازهگیری
- و نقشهی نهایی راهکار را مستندسازی میکنند.
هر پروژه، امضای مهندسی دارد

مشاوره + بازدید + گزارش ارزیابی اتاق سرور شما
ما به شما قول میدهیم:
- مشاوره شفاف و فنی
- پشتیبانی واقعی
- و گزارشهایی که واقعاً به درد تصمیمگیری میخورند





