EJADA تعلن عن وظيفة مستشار SRE - (Splunk / Instana / AppDynamics) في الرياض
تفاصيل الوظيفة
تعلن شركة EJADA عن توفر فرصة وظيفية لشغل منصب "استشاري هندسة موثوقية المواقع (SRE) - (Splunk / Instana / AppDynamics)" في مدينة الرياض.
نبذة عن الوظيفة
يتولى استشاري SRE - المراقبة وإدارة أداء التطبيقات (Observability & APM) مسؤولية تصميم وتنفيذ وتحسين منصات المراقبة وإدارة أداء التطبيقات على نطاق واسع لضمان موثوقية وأداء وقابلية التوسع وتوفر الأنظمة الحيوية للمؤسسة. يطبق المستشار مبادئ هندسة موثوقية المواقع (SRE) عبر مجالات التسجيل والمراقبة وإدارة أداء التطبيقات والمراقبة، ويعمل كخبير في منصات مثل Splunk وInstana وAppDynamics، مع قيادة مبادرات الأتمتة وهندسة الأداء والتميز التشغيلي في البيئات المختلطة والسحابية الأصلية.
المهام والمسؤوليات
- تصميم ونشر وتشغيل منصات مراقبة وإدارة أداء التطبيقات على مستوى المؤسسات، بما في ذلك Splunk وInstana وAppDynamics، عبر البيئات المحلية والسحابية والمختلطة.
- تطبيق مبادئ SRE من خلال تحديد وإدارة مؤشرات مستوى الخدمة (SLIs) وأهداف مستوى الخدمة (SLOs) وميزانيات الأخطاء لضمان موثوقية المنصة وأداء الخدمة.
- قيادة تحليل الأداء واستكشاف الأخطاء وإصلاحها وتحليل السبب الجذري (RCA) للمشكلات المعقدة على مستوى التطبيقات والمنصات.
- تصميم وصيانة لوحات المعلومات والتنبيهات وقواعد الصحة وحالات تحليل الاستخدام لتوفير رؤية شاملة للنظام.
- إجراء تخطيط السعة وضبط الأداء وتقييمات قابلية التوسع لمنصات المراقبة وإدارة الأداء.
- قيادة مبادرات الأتمتة باستخدام البرمجة النصية والبنية التحتية كرمز (IaC) لتحسين الموثوقية والاتساق والكفاءة التشغيلية.
- دمج منصات المراقبة مع أدوات إدارة خدمات تقنية المعلومات (ITSM) وخطوط أنابيب CI/CD وأمن المعلومات وإدارة الحوادث.
- تقديم القيادة الفنية والتوجيه والإرشاد لفرق SRE وDevOps والعمليات.
- تقديم المشورة لفرق الهندسة والقيادة بشأن أفضل ممارسات المراقبة واستراتيجية المنصة.
- الحفاظ على توثيق المنصة والمعايير ودفاتر التشغيل.
الشروط والمتطلبات
- درجة البكالوريوس في علوم الحاسب أو تقنية المعلومات أو مجال ذي صلة.
- خبرة لا تقل عن 6 سنوات في أدوار SRE أو عمليات تقنية المعلومات أو DevOps أو أدوار أداء التطبيقات والمراقبة.
المهارات المطلوبة
- أساس قوي في هندسة موثوقية المواقع (SRE) والمراقبة وهندسة التطبيقات الحديثة.
- خبرة عملية مثبتة مع منصة واحدة على الأقل من المنصات التالية: Splunk أو Instana أو AppDynamics، في بيئات مؤسسية واسعة النطاق.
- خبرة عملية عميقة في منصات المراقبة والتسجيل وإدارة أداء التطبيقات (Splunk، Instana، AppDynamics).
- فهم قوي لمفاهيم إدارة أداء التطبيقات (APM) والمقاييس والسجلات والتتبعات وهندسة الأداء.
- إتقان ممارسات SRE بما في ذلك قياس الموثوقية والأتمتة وإدارة الحوادث.
- خبرة مع المنصات السحابية (AWS، Azure، GCP) وتقنيات تنسيق الحاويات (Kubernetes / OpenShift).
- مهارات قوية في الأتمتة والبرمجة النصية (مثل Python، Bash، PowerShell).
- خبرة مع أدوات البنية التحتية كرمز (IaC) مثل Terraform وAnsible وPuppet (يفضل بشدة).
- معرفة متينة بأنظمة تشغيل Linux/Unix وWindows والشبكات وأداء النظام.
- القدرة على توصيل المفاهيم التقنية المعقدة بوضوح لأصحاب المصلحة التقنيين وغير التقنيين.
- مهارات تحليلية قوية واستكشاف الأخطاء وإصلاحها وحل المشكلات.
- الشهادات ذات الصلة في المنصة أو السحابة (مثل Splunk Architect، Instana، AppDynamics، شهادات Cloud/SRE) تعتبر ميزة.
عرض النص الأصلي للإعلان
Job Purpose
The SRE Consultant - Observability & APM is responsible for designing, implementing, and optimizing large-scale observability and application performance monitoring platforms to ensure the reliability, performance, scalability, and availability of mission-critical enterprise systems. The role applies Site Reliability Engineering (SRE) principles across logging, monitoring, APM, and observability domains, acting as a subject matter expert for platforms such as Splunk, Instana, and AppDynamics, while driving automation, performance engineering, and operational excellence across hybrid and cloud-native environments.
Key Accountabilities
- Architect, deploy, and operate enterprise-grade observability and APM platforms, including Splunk, Instana, and/or AppDynamics, across on-premises, cloud, and hybrid environments.
- Apply SRE principles by defining and managing SLIs, SLOs, and error budgets to ensure platform reliability and service performance.
- Lead performance analysis, troubleshooting, and root cause analysis (RCA) for complex application and platform-level issues.
- Design and maintain dashboards, alerts, health rules, and analytics use cases to provide end-to-end system visibility.
- Perform capacity planning, performance tuning, and scalability assessments for observability and APM platforms.
- Drive automation initiatives using scripting and Infrastructure as Code (IaC) to improve reliability, consistency, and operational efficiency.
- Integrate observability platforms with ITSM, CI/CD pipelines, SIEM, and incident management tools.
- Provide technical leadership, guidance, and mentorship to SRE, DevOps, and operations teams.
- Advise engineering and leadership teams on observability best practices and platform strategy.
- Maintain platform documentation, standards, and operational runbooks.
Minimum Qualifications
- Bachelor’s degree in computer science, Information Technology, or a related field.
Minimum Experience
- 6+ years of experience in SRE, IT Operations, DevOps, or application performance/observability roles.
Job-Specific Skills
- Strong foundation in Site Reliability Engineering (SRE), observability, and modern application architectures.
- Proven hands-on experience with at least one of the following platforms: Splunk, Instana, or AppDynamics, in large-scale enterprise environments.
- Deep hands-on expertise in observability, logging, and APM platforms (Splunk, Instana, AppDynamics).
- Strong understanding of APM, metrics, logs, traces, and performance engineering concepts.
- Proficiency in SRE practices, including reliability measurement, automation, and incident management.
- Experience with cloud platforms (AWS, Azure, GCP) and container orchestration technologies (Kubernetes / OpenShift).
- Strong automation and scripting skills (e.g., Python, Bash, PowerShell).
- Experience with Infrastructure as Code tools (e.g., Terraform, Ansible, Puppet) is highly desirable.
- Solid knowledge of Linux/Unix and Windows operating systems, networking, and system performance.
- Ability to communicate complex technical concepts clearly to both technical and non-technical stakeholders.
- Strong analytical, troubleshooting, and problem-solving skills.
- Relevant platform or cloud certifications (e.g., Splunk Architect, Instana, AppDynamics, Cloud/SRE certifications) are a plus.
وظائف أخرى لدى EJADA