شركة تكامل القابضة تعلن عن وظيفة Site Reliability Engineering Officer في الرياض.
المهام والمسؤوليات
- تقديم الدعم لحوادث التطبيقات عبر المنصات الرقمية، بالتعاون مع فرق هندسة المنصات وتطوير التطبيقات ودعم العملاء، وضمان الحل وفقاً لمستويات الخدمة المتفق عليها وإجراءات التصعيد.
- تشغيل ومراقبة مجموعة Elastic Observability بما في ذلك صحة Elasticsearch، Kibana، Fleet Server، APM Server وElastic Agent، المُدارة عبر ECK على OKE.
- المساعدة في عمليات Elasticsearch اليومية مثل إدارة دورة حياة الفهرس (ILM) وإدارة دورة حياة اللقطات (SLM) وصيانة مستويات البيانات (hot, warm, cold, frozen) ومراقبة السعة.
- استكشاف مشكلات إدخال القياسات عن بُعد عبر السجلات والمقاييس والتتبعات والمراقبات الاصطناعية، وضمان جمع بيانات متسق من جميع المنصات.
- صيانة وتحديث لوحات Kibana وقواعد التنبيه والكائنات المحفوظة تحت إشراف مدير SRE.
- إجراء تحليل السبب الجذري والمشاركة في مراجعات ما بعد الحوادث غير اللوم لتحسين موثوقية النظام وتقليل تكرارها.
- التعاون مع هندسة المنصات لأتمتة المهام المتكررة وتحسين خطوط النشر وتعزيز تغطية المراقبة باستخدام Terraform وHelm charts والبرمجة النصية.
- تطوير وصيانة وثائق الدعم ودفاتر التشغيل ومقالات قاعدة المعرفة بما يتوافق مع إجراءات الاستجابة الموحدة للحوادث.
- إدارة وترتيب أولويات الحوادث والطلبات عبر نظام التذاكر (Jira/ServiceNow)، وضمان توثيق جميع الحوادث والطلبات والحلول في نظام إدارة الخدمة.
- المشاركة في نوبات المناوبة والمساعدة في تقليل الأعباء التشغيلية من خلال الأتمتة والأدوات.
- مراقبة والإبلاغ عن مؤشرات الأداء الرئيسية المتعلقة بإدارة الحوادث، بما في ذلك متوسط وقت الاكتشاف (MTTD) ومتوسط وقت الحل (MTTR).
- التعاون مع الفرق متعددة الوظائف وشركاء البائعين لتحسين موثوقية النظام ونضج المراقبة والوضع الأمني.
الشروط والمتطلبات
- درجة البكالوريوس في علوم الحاسب أو تقنية المعلومات أو الهندسة أو مجال ذي صلة (أو خبرة معادلة).
- خبرة من 1 إلى 3 سنوات في عمليات تقنية المعلومات أو إدارة الأنظمة أو دعم التطبيقات أو DevOps أو SRE.
المهارات المطلوبة
- الإلمام بأدوات المراقبة مثل Elastic Stack (Elasticsearch, Kibana, وغيرها)، بما في ذلك الاستعلام الأساسي واستخدام لوحات المعلومات.
- معرفة أنظمة Linux والبرمجة النصية (Bash, Python, أو Go).
- فهم مفاهيم المراقبة والتسجيل والتنبيه.
- خبرة في أدوات ITSM (ServiceNow, Jira, Zendesk) وممارسات ITIL.
- فهم قوي لإدارة الحوادث والمشكلات والتغييرات.
- خبرة أساسية في البيئات السحابية الأصلية والحاويات مثل Docker وKubernetes.
- مهارات قوية في التفكير النقدي واستكشاف الأخطاء وإصلاحها والتواصل.