مهندس ناک(NOC)

جمعه ۳۱ تیر ۱۴۰۱

در حال حاضر در سمت مهندس ناک در یک شرکتی مشغول به کار هستم. مهندس ناک در شرکت‌های مختلف می‌تونه وظایف متفاوتی داشته باشه. می‌خوام کارایی که تو این سمت انجام می‌دم رو بنویسم.

در حال حاضر تیم ناک هفت نفره که یک نفر تیم لیدره. در اینجا کار تیم ناک به صورت شیفت‌های ۱۲ ساعته و هر دو روز در میونه. در ماه نصفش شیفت روزه و نصف دیگه شیفت شب. شیفت روز از ۸ صبح تا ۸ شب و شیفت شب از ۸ شب تا ۸ صبح. کار ناک این شرکت (و بنظرم تقریبا جاهای دیگه) بصورت ۲۴/۷ است. در این تیم، وظیفه اصلی، اطمینان از بالا بودن سرویس‌های مختلف شرکته که توسط تیم‌های شرکت تولید می‌شن.

معمولا آخر هفته‌ها و ایام تعطیل شیفت‌ها خلوته. اما در روزهای عادی ترافیک کاری می‌تونه خیلی بالا باشه. یک روز کاری با تحویل گرفتن شیفت از نفر قبلی شروع می‌شه. بعد از اون باید یکسری موارد رو در مانیتور داشته باشیم و همیشه تا اخر شیفت جلوی چشممون باشه. ابزارهایی که ترافیک شبکه و اینترنت دیتاسنترها رو مانیتور می‌کنه و اگر افت ترافیک یا قطعی اینترنت پیش بیاد نمایش میده. و ابزاری برای نمایش الرت‌های تیم‌های مختلف. در عین حال ابزارهایی برای ارتباط با مشتریان و اعضای داخل شرکت‌ها وجود داره. از طریق این ابزارها به سوالات مشتری پاسخ میدیم یا به تیم مربوطه انتقال میدیم. در صورتی که کار فورسی داشته باشن، مثلا سرویس داون شده باشه، در لحظه، باید از طریق آنکال‌ها پیگیری کنیم. در این حین ممکنه چند تا مشتری یک مشکل رو مطرح کنند و بعد از بررسی متوجه بشیم که اون سرویس مختل شده و اینجا فرایند مدیریت اختلال(Incident Management)باید طی شه. چند مرحله داره این فرایند: اطلاع از وقوع حادثه(Detection)- تشخیص (Analysis)- مطلع کردن نیروهای فنی(Escalation)- مطلع کردن مشتری‌های تحت تاثیر- پیگیری- پایان حادثه.

در بیشتر مواقع این اینسیدنت‌ها رو توسط ابزارهای مانیتورینگ میشه تشخیص داد و فرایند مدیریتش رو طی کرد. ممکنه و معمولا هم اینطوره که اینسیدنت‌ها چندین تیم رو درگیر می‌کنن. مثلا اگر شبکه مختل شه تمامی سرویس‌هایی که در بستر شبکه دارن کار می‌کنن مختل می‌شن. مسئله دیگری که پیش میاد درخواست تغییراتیه (Change Request) که تیم‌ها ثبت می‌کنند. تغییرات می‌تونه نرم‌افزاری باشه، مثل اپگرید یه نرم‌افزار روی سرویس یا سخت‌افزاری باشه مثل تعویض یک ماژول خراب در سرور. این تغییرات چندین دسته‌بندی داره مثلا اینکه مشتری رو تحت تاثیر قرار میده یا خیر و یا اینکه چقدر فورسه.

این پست فعلا باشه تا اینجا تا در فرصت‌های اتی اپدیتش کنم.

سورس