📍 المملكة العربية السعودية تحديث مستمر على مدار الساعة

تكامل القابضة تعلن عن وظيفة مسؤول هندسة موثوقية المواقع في الرياض

Site Reliability Engineering Officer
🏢 تكامل القابضة
🕒 نُشرت: (اليوم) 📍 الرياض وظائف الهندسة والتقنية
التقديم على الوظيفة من المصدر الرسمي ↗

تفاصيل الوظيفة

شركة تكامل القابضة تعلن عن وظيفة Site Reliability Engineering Officer في الرياض.

المهام والمسؤوليات

  • تقديم الدعم لحوادث التطبيقات عبر المنصات الرقمية، بالتعاون مع فرق هندسة المنصات وتطوير التطبيقات ودعم العملاء، وضمان الحل وفقاً لمستويات الخدمة المتفق عليها وإجراءات التصعيد.
  • تشغيل ومراقبة مجموعة Elastic Observability بما في ذلك صحة Elasticsearch، Kibana، Fleet Server، APM Server وElastic Agent، المُدارة عبر ECK على OKE.
  • المساعدة في عمليات Elasticsearch اليومية مثل إدارة دورة حياة الفهرس (ILM) وإدارة دورة حياة اللقطات (SLM) وصيانة مستويات البيانات (hot, warm, cold, frozen) ومراقبة السعة.
  • استكشاف مشكلات إدخال القياسات عن بُعد عبر السجلات والمقاييس والتتبعات والمراقبات الاصطناعية، وضمان جمع بيانات متسق من جميع المنصات.
  • صيانة وتحديث لوحات Kibana وقواعد التنبيه والكائنات المحفوظة تحت إشراف مدير SRE.
  • إجراء تحليل السبب الجذري والمشاركة في مراجعات ما بعد الحوادث غير اللوم لتحسين موثوقية النظام وتقليل تكرارها.
  • التعاون مع هندسة المنصات لأتمتة المهام المتكررة وتحسين خطوط النشر وتعزيز تغطية المراقبة باستخدام Terraform وHelm charts والبرمجة النصية.
  • تطوير وصيانة وثائق الدعم ودفاتر التشغيل ومقالات قاعدة المعرفة بما يتوافق مع إجراءات الاستجابة الموحدة للحوادث.
  • إدارة وترتيب أولويات الحوادث والطلبات عبر نظام التذاكر (Jira/ServiceNow)، وضمان توثيق جميع الحوادث والطلبات والحلول في نظام إدارة الخدمة.
  • المشاركة في نوبات المناوبة والمساعدة في تقليل الأعباء التشغيلية من خلال الأتمتة والأدوات.
  • مراقبة والإبلاغ عن مؤشرات الأداء الرئيسية المتعلقة بإدارة الحوادث، بما في ذلك متوسط وقت الاكتشاف (MTTD) ومتوسط وقت الحل (MTTR).
  • التعاون مع الفرق متعددة الوظائف وشركاء البائعين لتحسين موثوقية النظام ونضج المراقبة والوضع الأمني.

الشروط والمتطلبات

  • درجة البكالوريوس في علوم الحاسب أو تقنية المعلومات أو الهندسة أو مجال ذي صلة (أو خبرة معادلة).
  • خبرة من 1 إلى 3 سنوات في عمليات تقنية المعلومات أو إدارة الأنظمة أو دعم التطبيقات أو DevOps أو SRE.

المهارات المطلوبة

  • الإلمام بأدوات المراقبة مثل Elastic Stack (Elasticsearch, Kibana, وغيرها)، بما في ذلك الاستعلام الأساسي واستخدام لوحات المعلومات.
  • معرفة أنظمة Linux والبرمجة النصية (Bash, Python, أو Go).
  • فهم مفاهيم المراقبة والتسجيل والتنبيه.
  • خبرة في أدوات ITSM (ServiceNow, Jira, Zendesk) وممارسات ITIL.
  • فهم قوي لإدارة الحوادث والمشكلات والتغييرات.
  • خبرة أساسية في البيئات السحابية الأصلية والحاويات مثل Docker وKubernetes.
  • مهارات قوية في التفكير النقدي واستكشاف الأخطاء وإصلاحها والتواصل.
عرض النص الأصلي للإعلان
Job Description

Job description :

  • Provide support for application incidents across digital platforms, working closely with Platform Engineering, Application Development, and customer support teams to ensure timely resolution according to established SLAs and escalation procedures.
  • Operate and monitor the Elastic Observability stack - including Elasticsearch cluster health, Kibana, Fleet Server, APM Server, and Elastic Agent - deployed and managed via ECK on OKE.
  • Assist with day-to-day Elasticsearch operations such as index lifecycle management (ILM), snapshot lifecycle management (SLM), data tier housekeeping (hot, warm, cold, frozen), and capacity monitoring.
  • Troubleshoot telemetry ingestion issues across logs, metrics, traces, and synthetic monitors, ensuring consistent data collection from all platforms.
  • Maintain and update Kibana dashboards, alerting rules, and saved objects under the guidance of the SRE Manager.
  • Perform root cause analysis and participate in blameless post-incident reviews to improve system reliability and reduce recurrence.
  • Collaborate with Platform Engineering to automate repetitive tasks, improve deployment pipelines, and enhance observability coverage using Terraform, Helm charts, and scripting.
  • Develop and maintain support documentation, runbooks, and knowledge base articles aligned to standardized incident response procedures.
  • Manage and prioritize incidents and requests via the ticketing system (Jira/ServiceNow), ensuring all incidents, requests, and resolutions are documented in the service management system.
  • Participate in an on-call rotation and help reduce operational toil through automation and tooling.
  • Monitor and report on key performance metrics related to incident management, including mean time to detect (MTTD) and mean time to resolve (MTTR).
  • Collaborate with cross-functional teams and vendor partners to improve overall system reliability, observability maturity, and security posture.

Job Requirements

  • Bachelor’s degree in Computer Science, IT, Engineering, or related field (or equivalent experience).
  • 1-3 years of experience in IT operations, system administration, application support, DevOps, or SRE.
  • Familiarity with Observbility tools such as Elastic Stack (Elasticsearch, Kibana, etc.), including basic querying and dashboard usage.
  • Knowledge of Linux systems and scripting (Bash, Python, or Go).
  • Understanding of monitoring, logging, and alerting concepts.
  • Experience with ITSM tools (ServiceNow, Jira, Zendesk) and ITIL practices.
  • Strong grasp of incident, problem, and change management.
  • Basic experience with cloud native enviroments and containers such as Docker and Kubernetes.
  • Strong critical thinking, troubleshooting, and communication skills.
المصدر: LinkedIn - أُضيفت للموقع في 5 يوليو 2026

وظائف أخرى لدى تكامل القابضة