وظيفة مهندس عمليات أنظمة - المراقبة وعمليات السحاب شاغرة لدى تاب في الرياض
تفاصيل الوظيفة
تقدم شركة تاب وظيفة SysOps Engineer - Monitoring & Cloud Operations في الرياض، السعودية، للانضمام إلى فريق التكنولوجيا المسؤول عن بناء منصات الدفع والبنية التحتية التي تعالج ملايين المعاملات يوميًا.
المهام والمسؤوليات
- مراقبة البنية التحتية باستخدام أدوات مثل New Relic وPrometheus وGrafana.
- إعداد وصيانة التنبيهات ولوحات المعلومات وفحوصات صحة الخدمات.
- إدارة الحوادث واستكشاف الأخطاء وإصلاحها وتحليل الأسباب الجذرية (RCA).
- ضمان وقت التشغيل والامتثال لمستويات الخدمة (SLA) لجميع الأنظمة.
- مراقبة استخدام وحدة المعالجة المركزية (CPU) والذاكرة والقرص وعمليات النظام.
- إدارة عمليات نظام التشغيل (Linux/Windows) بما في ذلك التصحيح والضبط.
- إدارة النسخ الاحتياطية للنظام وإجراء التحقق المنتظم من الاستعادة.
- تنفيذ والتحقق من صحة خطط التعافي من الكوارث (DR) عبر البيئات.
- إجراء اختبار التبديل (failover/failback) للخدمات الحيوية (محلي وسحابي / متعدد المناطق).
- تنسيق تدريبات التعافي من الكوارث ومحاكاة سيناريوهات الانقطاع.
- ضمان صحة النسخ المتماثل واتساق البيانات (بالتنسيق مع فريق DataOps).
- صيانة وتحديث أدلة التعافي (DR runbooks) وأدلة الحوادث.
- إجراء تخطيط السعة وتحسين الأداء.
- الحفاظ على السجلات والمقاييس والوثائق التشغيلية.
الشروط والمتطلبات
- درجة البكالوريوس في علوم الحاسب أو تقنية المعلومات أو الهندسة أو مجال ذي صلة، أو خبرة عملية معادلة.
- خبرة مثبتة في عمليات الأنظمة أو عمليات السحابة أو دعم البنية التحتية أو هندسة موثوقية المواقع (SRE) أو دور ذي صلة.
- خبرة عملية قوية في إدارة أنظمة التشغيل Linux وWindows.
- خبرة مع منصات المراقبة والمراقبة المتقدمة مثل New Relic وPrometheus وGrafana وDatadog أو أدوات مماثلة.
- فهم جيد لمنهجيات إدارة الحوادث وإدارة المشكلات وتحليل الأسباب الجذرية.
- خبرة في دعم المنصات السحابية مثل AWS أو Azure أو Google Cloud Platform.
- معرفة قوية بعمليات النسخ الاحتياطي والتعافي من الكوارث واستمرارية الأعمال والتبديل.
- خبرة في إدارة البنية التحتية للحوسبة بما في ذلك الأجهزة الافتراضية والحالات السحابية والخوادم الفعلية.
- الإلمام بخدمات النظام وخوادم الويب مثل Nginx وIIS وsystemd.
- فهم تخطيط السعة وضبط الأداء وممارسات تحسين البنية التحتية.
- مهارات قوية في استكشاف الأخطاء وإصلاحها والتحليل لحل المشكلات التشغيلية المعقدة.
- مهارات ممتازة في التواصل والتوثيق والتعاون بين الفرق.
- يفضل خبرة العمل في بيئات إنتاج عالية التوفر وحرجة المهام.
عرض النص الأصلي للإعلان
About Tap
Tap Payments is revolutionizing online payments across the MENA region by connecting businesses with simple, unified payment experiences. We need exceptional talent to help us on this journey.
The Technology Team
Our technology team builds the platforms, systems, and payment infrastructure our merchants use to process millions of transactions daily.
This team is building technology solutions to simplify MENA payments regionally and globally for businesses of all sizes.
As a Tapster you will:
Monitor infrastructure using tools like New Relic, Prometheus, and Grafana
Configure and maintain alerts, dashboards, and service health checks
Perform incident management, troubleshooting, and root cause analysis (RCA)
Ensure uptime and SLA compliance for all systems
Monitor CPU, memory, disk, and system processes
Manage OS-level operations (Linux/Windows) including patching and tuning
Manage system backups and perform regular restoration validation
Execute and validate disaster recovery (DR) plans across environments
Perform failover and failback testing for critical services (on-prem
cloud / multi-region)
Coordinate DR drills and simulate outage scenarios
Ensure replication health and data consistency (in coordination with DataOps)
Maintain and update DR runbooks and incident playbooks
Perform capacity planning and performance optimization
Maintain logs, metrics, and operational documentation
What you will bring to the party:
Bachelor's degree in Computer Science, Information Technology, Engineering, or a related field, or equivalent practical experience.
Proven experience in Systems Operations, Cloud Operations, Infrastructure Support, Site Reliability Engineering (SRE), or a related role.
Strong hands-on experience administering Linux and Windows operating systems.
Experience with enterprise monitoring and observability platforms such as New Relic, Prometheus, Grafana, Datadog, or similar tools.
Solid understanding of incident management, problem management, and root cause analysis methodologies.
Experience supporting cloud platforms such as AWS, Azure, or Google Cloud Platform.
Strong knowledge of backup, disaster recovery, business continuity, and failover processes.
Experience managing compute infrastructure, including virtual machines, cloud instances, and physical servers.
Familiarity with system services and web servers such as Nginx, IIS, and systemd.
Understanding of capacity planning, performance tuning, and infrastructure optimization practices.
Strong troubleshooting and analytical skills with the ability to resolve complex operational issues.
Excellent communication, documentation, and cross-functional collaboration skills.
Experience working in high-availability, mission-critical production environments is highly preferred.
Are you ready to shape the future of payments in MENA?