تكامل القابضة تعلن عن وظيفة مسؤول هندسة موثوقية المواقع في الرياض

Site Reliability Engineering Officer

🏢 تكامل القابضة

🕒 نُشرت: 5 يوليو 2026 (اليوم) 📍 الرياض وظائف الهندسة والتقنية

التقديم على الوظيفة من المصدر الرسمي ↗

تفاصيل الوظيفة

شركة تكامل القابضة تعلن عن وظيفة Site Reliability Engineering Officer في الرياض.

المهام والمسؤوليات

تقديم الدعم لحوادث التطبيقات عبر المنصات الرقمية، بالتعاون مع فرق هندسة المنصات وتطوير التطبيقات ودعم العملاء، وضمان الحل وفقاً لمستويات الخدمة المتفق عليها وإجراءات التصعيد.
تشغيل ومراقبة مجموعة Elastic Observability بما في ذلك صحة Elasticsearch، Kibana، Fleet Server، APM Server وElastic Agent، المُدارة عبر ECK على OKE.
المساعدة في عمليات Elasticsearch اليومية مثل إدارة دورة حياة الفهرس (ILM) وإدارة دورة حياة اللقطات (SLM) وصيانة مستويات البيانات (hot, warm, cold, frozen) ومراقبة السعة.
استكشاف مشكلات إدخال القياسات عن بُعد عبر السجلات والمقاييس والتتبعات والمراقبات الاصطناعية، وضمان جمع بيانات متسق من جميع المنصات.
صيانة وتحديث لوحات Kibana وقواعد التنبيه والكائنات المحفوظة تحت إشراف مدير SRE.
إجراء تحليل السبب الجذري والمشاركة في مراجعات ما بعد الحوادث غير اللوم لتحسين موثوقية النظام وتقليل تكرارها.
التعاون مع هندسة المنصات لأتمتة المهام المتكررة وتحسين خطوط النشر وتعزيز تغطية المراقبة باستخدام Terraform وHelm charts والبرمجة النصية.
تطوير وصيانة وثائق الدعم ودفاتر التشغيل ومقالات قاعدة المعرفة بما يتوافق مع إجراءات الاستجابة الموحدة للحوادث.
إدارة وترتيب أولويات الحوادث والطلبات عبر نظام التذاكر (Jira/ServiceNow)، وضمان توثيق جميع الحوادث والطلبات والحلول في نظام إدارة الخدمة.
المشاركة في نوبات المناوبة والمساعدة في تقليل الأعباء التشغيلية من خلال الأتمتة والأدوات.
مراقبة والإبلاغ عن مؤشرات الأداء الرئيسية المتعلقة بإدارة الحوادث، بما في ذلك متوسط وقت الاكتشاف (MTTD) ومتوسط وقت الحل (MTTR).
التعاون مع الفرق متعددة الوظائف وشركاء البائعين لتحسين موثوقية النظام ونضج المراقبة والوضع الأمني.

الشروط والمتطلبات

درجة البكالوريوس في علوم الحاسب أو تقنية المعلومات أو الهندسة أو مجال ذي صلة (أو خبرة معادلة).
خبرة من 1 إلى 3 سنوات في عمليات تقنية المعلومات أو إدارة الأنظمة أو دعم التطبيقات أو DevOps أو SRE.

المهارات المطلوبة

الإلمام بأدوات المراقبة مثل Elastic Stack (Elasticsearch, Kibana, وغيرها)، بما في ذلك الاستعلام الأساسي واستخدام لوحات المعلومات.
معرفة أنظمة Linux والبرمجة النصية (Bash, Python, أو Go).
فهم مفاهيم المراقبة والتسجيل والتنبيه.
خبرة في أدوات ITSM (ServiceNow, Jira, Zendesk) وممارسات ITIL.
فهم قوي لإدارة الحوادث والمشكلات والتغييرات.
خبرة أساسية في البيئات السحابية الأصلية والحاويات مثل Docker وKubernetes.
مهارات قوية في التفكير النقدي واستكشاف الأخطاء وإصلاحها والتواصل.

عرض النص الأصلي للإعلان

Job Description

Job description :

Provide support for application incidents across digital platforms, working closely with Platform Engineering, Application Development, and customer support teams to ensure timely resolution according to established SLAs and escalation procedures.
Operate and monitor the Elastic Observability stack - including Elasticsearch cluster health, Kibana, Fleet Server, APM Server, and Elastic Agent - deployed and managed via ECK on OKE.
Assist with day-to-day Elasticsearch operations such as index lifecycle management (ILM), snapshot lifecycle management (SLM), data tier housekeeping (hot, warm, cold, frozen), and capacity monitoring.
Troubleshoot telemetry ingestion issues across logs, metrics, traces, and synthetic monitors, ensuring consistent data collection from all platforms.
Maintain and update Kibana dashboards, alerting rules, and saved objects under the guidance of the SRE Manager.
Perform root cause analysis and participate in blameless post-incident reviews to improve system reliability and reduce recurrence.
Collaborate with Platform Engineering to automate repetitive tasks, improve deployment pipelines, and enhance observability coverage using Terraform, Helm charts, and scripting.
Develop and maintain support documentation, runbooks, and knowledge base articles aligned to standardized incident response procedures.
Manage and prioritize incidents and requests via the ticketing system (Jira/ServiceNow), ensuring all incidents, requests, and resolutions are documented in the service management system.
Participate in an on-call rotation and help reduce operational toil through automation and tooling.
Monitor and report on key performance metrics related to incident management, including mean time to detect (MTTD) and mean time to resolve (MTTR).
Collaborate with cross-functional teams and vendor partners to improve overall system reliability, observability maturity, and security posture.

Job Requirements

Bachelor’s degree in Computer Science, IT, Engineering, or related field (or equivalent experience).
1-3 years of experience in IT operations, system administration, application support, DevOps, or SRE.
Familiarity with Observbility tools such as Elastic Stack (Elasticsearch, Kibana, etc.), including basic querying and dashboard usage.
Knowledge of Linux systems and scripting (Bash, Python, or Go).
Understanding of monitoring, logging, and alerting concepts.
Experience with ITSM tools (ServiceNow, Jira, Zendesk) and ITIL practices.
Strong grasp of incident, problem, and change management.
Basic experience with cloud native enviroments and containers such as Docker and Kubernetes.
Strong critical thinking, troubleshooting, and communication skills.

المصدر: LinkedIn - أُضيفت للموقع في 5 يوليو 2026

وظائف أخرى لدى تكامل القابضة

شركة تكامل القابضة تعلن عن وظيفة قائد هندسة الجودة في الرياض

🏢 تكامل القابضة

🕒 منذ 6 أيام - 29 يونيو 2026 📍 الرياض

تكامل القابضة تعلن عن وظيفة قائد هندسة الواجهات الخلفية في الرياض

🏢 تكامل القابضة

🕒 منذ 6 أيام - 29 يونيو 2026 📍 الرياض

وظيفة رئيس التدقيق شاغرة لدى تكامل القابضة بمدينة الرياض

🏢 تكامل القابضة

🕒 منذ 17 يوماً - 18 يونيو 2026 📍 الرياض