وظيفة مهندس Site Reliability لدى Throne Solutions في الرياض

Site Reliability Engineer

🏢 Throne Solutions

🕒 نُشرت: 19 يونيو 2026 (اليوم) 📍 الرياض وظائف الهندسة والتقنية

تفاصيل الوظيفة

Throne Solutions تبحث عن مهندس موثوقية موقع (Site Reliability Engineer) للعمل في الرياض بدوام كامل، خبرة من 5 إلى 8 سنوات.

نبذة عن الوظيفة

Throne Solutions هي شركة تتطلع إلى تعيين مهندس موثوقية موقع (SRE) ذو خبرة للانضمام إلى فريقها التقني المتنامي في الرياض. سيكون المرشح المثالي مسؤولاً عن ضمان توفر البيئات الإنتاجية المؤسسية وقابليتها للتوسع والأداء والموثوقية من خلال الأتمتة والتقنيات السحابية الأصلية والمراقبة الاستباقية والتميز التشغيلي. يتطلب هذا الدور خبرة قوية في البنية التحتية السحابية AWS و Kubernetes و CI/CD وإدارة الحوادث ضمن بيئات مؤسسية واسعة النطاق أو بيئات Cisco. سيعمل مهندس SRE على ربط هندسة البرمجيات بعمليات تقنية المعلومات من خلال تصميم بنية تحتية سحابية مرنة، وأتمتة العمليات التشغيلية، وتحسين موثوقية النظام، وتقليل وقت التعطل.

المهام والمسؤوليات

تصميم وبناء وصيانة بنية تحتية سحابية AWS عالية التوفر وقابلة للتوسع وآمنة.
إدارة موارد السحابة باستخدام أدوات البنية التحتية كرمز (IaC) مثل Terraform و AWS CloudFormation.
نشر وإدارة مجموعات Kubernetes وتطبيقات الحاويات المستندة إلى Docker.
تطوير نصوص أتمتة باستخدام Python و Bash و Go لإزالة المهام التشغيلية اليدوية وتحسين الكفاءة.
تصميم وصيانة خطوط أنابيب CI/CD باستخدام Jenkins و GitLab CI/CD أو منصات DevOps مماثلة.
تنفيذ وإدارة حلول المراقبة والتسجيل والمراقبة باستخدام Prometheus و Grafana و Splunk و Datadog و CloudWatch أو أدوات مكافئة.
مراقبة صحة التطبيقات وأداء البنية التحتية وتوافر الخدمات لاكتشاف المشكلات وحلها بشكل استباقي.
قيادة أنشطة الاستجابة للحوادث، وإجراء تحليل السبب الجذري (RCA)، وتنفيذ إجراءات وقائية لتقليل الحوادث المتكررة.
إدارة أهداف مستوى الخدمة (SLOs) ومؤشرات مستوى الخدمة (SLIs) وميزانيات الأخطاء لضمان موثوقية الخدمة.
المشاركة في دورات المناوبة على مدار الساعة طوال أيام الأسبوع وتقديم دعم الإنتاج للأنظمة الحيوية.
تحسين أداء النظام وقابليته للتوسع والموثوقية ومتوسط وقت التعافي (MTTR) من خلال الأتمتة ومبادرات التحسين المستمر.
تطوير وصيانة أدلة التشغيل وإجراءات التعافي من الكوارث والتوثيق التقني.
التعاون مع فرق DevOps والتطوير والأمن والبنية التحتية والشبكات لدعم عمليات النشر الإنتاجي والجاهزية التشغيلية.
تنفيذ أفضل ممارسات الأمان عبر البنية التحتية السحابية وبيئات Kubernetes وخطوط أنابيب CI/CD.
ضمان الامتثال لعمليات إدارة الحوادث والمشكلات والتغيير والإصدار حسب ITIL.
دعم بيئات الإنتاج المؤسسية بما في ذلك البنية التحتية المستندة إلى Cisco حيثما ينطبق ذلك.

الشروط والمتطلبات

درجة البكالوريوس في علوم الحاسب أو تكنولوجيا المعلومات أو هندسة البرمجيات أو الهندسة الحاسوبية أو مجال ذي صلة.
خبرة مهنية من 5 إلى 8 سنوات في هندسة موثوقية الموقع (SRE) أو DevOps أو هندسة السحابة أو دعم الإنتاج.
خبرة مثبتة في دعم بيئات إنتاج مؤسسية حساسة للمهام.
إتقان منصة Amazon Web Services (AWS) بما في ذلك EC2 و VPC و IAM و RDS و S3 و ELB و Auto Scaling و Route 53 و CloudWatch.
إتقان أدوات البنية التحتية كرمز (IaC): Terraform و AWS CloudFormation.
إتقان تقنيات الحاويات والتنسيق: Kubernetes و Docker.
إتقان إدارة أنظمة Linux (Red Hat و CentOS و Ubuntu).
إتقان لغات البرمجة والأتمتة: Python و Bash (ويفضل Go).
إتقان أدوات CI/CD و DevOps: Jenkins و GitLab CI/CD و Git و GitHub.
إتقان أدوات المراقبة والمراقبة: Prometheus و Grafana و Splunk و Datadog و AWS CloudWatch.
إتقان أدوات إدارة الحوادث و ITSM: ServiceNow و Jira وإدارة الخدمات المستندة إلى ITIL.
فهم قوي لأساسيات الشبكات: TCP/IP و DNS و HTTP/HTTPS و Load Balancing و VPN و Firewalls وأساسيات شبكات Cisco.
يُفضل الحصول على شهادات مثل: AWS Certified Solutions Architect (Associate/Professional) و AWS Certified DevOps Engineer و Certified Kubernetes Administrator (CKA) و Certified Kubernetes Application Developer (CKAD) و HashiCorp Terraform Associate و Red Hat Certified System Administrator (RHCSA) وشهادة ITIL Foundation.

المهارات المطلوبة

خبرة في العمل ضمن بيئات Cisco المؤسسية.
معرفة بأدوات أمن السحابة وأفضل ممارسات الأمان.
خبرة في مراقبة البنية التحتية ومراقبة أداء التطبيقات (APM).
الإلمام بممارسات أمن الحاويات وأمن Kubernetes و DevSecOps.
خبرة مع Helm و ArgoCD أو منهجيات GitOps.
فهم معمارية الخدمات المصغرة والأنظمة الموزعة.
الإلمام بالبيئات متعددة السحب أو السحب الهجينة (ميزة إضافية).
مهارات تحليلية قوية وقدرة على حل المشكلات.
مهارات ممتازة في استكشاف الأخطاء وإصلاحها في بيئات الإنتاج المعقدة.
مهارات تواصل قوية وإدارة أصحاب المصلحة.
القدرة على العمل بفعالية تحت الضغط أثناء الحوادث الحرجة.
عقلية تركز على الأتمتة وشغف بالتميز التشغيلي.
مهارات ممتازة في التوثيق ومشاركة المعرفة.
تعاون قوي عبر فرق التطوير والبنية التحتية والشبكات والأمن.
مبادرة ذاتية واستباقية والتزام بالتعلم المستمر.

المزايا

فرصة العمل على مشاريع سحابية وبنية تحتية على مستوى المؤسسات في المملكة العربية السعودية.
التعامل مع تقنيات متطورة مثل AWS و Kubernetes و DevOps و SRE.
ثقافة عمل تعاونية ومبتكرة وعالية الأداء.
تعويض تنافسي وفرص للتطوير المهني.
دعم للحصول على الشهادات والتدريب التقني والتقدم الوظيفي.
العمل مع بنى سحابية حديثة ومنصات أتمتة وأنظمة إنتاج مؤسسية.

عرض النص الأصلي للإعلان

Job Title: Site Reliability Engineer (SRE)

Company: Throne Solutions

Location: Riyadh, Saudi Arabia

Employment Type: Full-Time

Experience Required: 5-8 Years

About Throne Solutions

Throne Solutions is seeking an experienced and motivated Site Reliability Engineer (SRE) to join our growing technology team in Riyadh. The ideal candidate will be responsible for ensuring the availability, scalability, performance, and reliability of enterprise production environments through automation, cloud-native technologies, proactive monitoring, and operational excellence. This role requires strong expertise in AWS cloud infrastructure, Kubernetes, CI/CD, and incident management within large-scale enterprise or Cisco environments.

Role Summary

As a Site Reliability Engineer, you will bridge software engineering and IT operations by designing resilient cloud infrastructure, automating operational processes, improving system reliability, and minimizing downtime. You will collaborate closely with development, infrastructure, and security teams to maintain highly available production systems while driving continuous improvement through automation and observability.

Key Responsibilities

Design, build, and maintain highly available, scalable, and secure AWS cloud infrastructure.
Provision and manage cloud resources using Infrastructure as Code (IaC) tools such as Terraform and AWS CloudFormation.
Deploy, administer, and optimize Kubernetes clusters and Docker-based containerized applications.
Develop automation scripts using Python, Bash, or Go to eliminate manual operational tasks and improve efficiency.
Design and maintain CI/CD pipelines using Jenkins, GitLab CI/CD, or similar DevOps platforms.
Implement and manage monitoring, logging, and observability solutions using Prometheus, Grafana, Splunk, Datadog, CloudWatch, or equivalent tools.
Monitor application health, infrastructure performance, and service availability to proactively detect and resolve issues.
Lead incident response activities, perform Root Cause Analysis (RCA), and implement preventive measures to minimize recurring incidents.
Manage Service Level Objectives (SLOs), Service Level Indicators (SLIs), and Error Budgets to ensure service reliability.
Participate in 24×7 on-call rotations and provide production support for critical systems.
Optimize system performance, scalability, reliability, and Mean Time to Recovery (MTTR) through automation and continuous improvement initiatives.
Develop and maintain operational runbooks, disaster recovery procedures, and technical documentation.
Collaborate with DevOps, Development, Security, Infrastructure, and Network teams to support production deployments and operational readiness.
Implement security best practices across cloud infrastructure, Kubernetes environments, and CI/CD pipelines.
Ensure compliance with ITIL Incident, Problem, Change, and Release Management processes.
Support enterprise production environments, including Cisco-based infrastructure where applicable.

Required Qualifications

Bachelor's degree in Computer Science, Information Technology, Software Engineering, Computer Engineering, or a related discipline.
5-8 years of professional experience in Site Reliability Engineering (SRE), DevOps, Cloud Engineering, or Production Support.
Proven experience supporting mission-critical enterprise production environments.

Mandatory Technical SkillsCloud Platforms

Amazon Web Services (AWS)
EC2
VPC
IAM
RDS
S3
ELB
Auto Scaling
Route 53
CloudWatch

Infrastructure as Code (IaC)

Terraform
AWS CloudFormation

Containerization & Orchestration

Kubernetes
Docker

Operating Systems

Linux Administration (Red Hat, CentOS, Ubuntu)

Programming & Automation

Python
Bash
Go (Preferred)

CI/CD & DevOps

Jenkins
GitLab CI/CD
Git
GitHub

Monitoring & Observability

Prometheus
Grafana
Splunk
Datadog
AWS CloudWatch

Incident & ITSM Tools

ServiceNow
Jira
ITIL-based Service Management

Networking Fundamentals

TCP/IP
DNS
HTTP/HTTPS
Load Balancing
VPN
Firewalls
Basic Cisco Networking

Preferred Skills

Experience working in Cisco enterprise environments.
Knowledge of cloud security tools and security best practices.
Experience with Infrastructure Monitoring and Application Performance Monitoring (APM).
Familiarity with container security, Kubernetes security, and DevSecOps practices.
Experience with Helm, ArgoCD, or GitOps methodologies.
Understanding of microservices architecture and distributed systems.
Exposure to multi-cloud or hybrid cloud environments is an advantage.

Preferred Certifications

AWS Certified Solutions Architect - Associate or Professional
AWS Certified DevOps Engineer - Professional
Certified Kubernetes Administrator (CKA)
Certified Kubernetes Application Developer (CKAD)
HashiCorp Terraform Associate
Red Hat Certified System Administrator (RHCSA)
ITIL Foundation Certification

Key Performance Outcomes

Maintain high availability and reliability of production systems.
Improve service uptime and overall platform resilience.
Reduce Mean Time to Detect (MTTD) and Mean Time to Recovery (MTTR).
Increase operational efficiency through automation.
Enhance monitoring, observability, and incident response capabilities.
Deliver scalable, secure, and cost-optimized cloud infrastructure.
Ensure compliance with SLAs, SLOs, and operational best practices.

Required Competencies

Strong analytical and problem-solving abilities.
Excellent troubleshooting skills in complex production environments.
Strong communication and stakeholder management skills.
Ability to perform effectively under pressure during critical incidents.
Automation-first mindset with a passion for operational excellence.
Excellent documentation and knowledge-sharing skills.
Strong collaboration across development, infrastructure, networking, and security teams.
Self-motivated, proactive, and committed to continuous learning.

Why Join Throne Solutions?

Opportunity to work on enterprise-scale cloud and infrastructure projects in Saudi Arabia.
Exposure to cutting-edge AWS, Kubernetes, DevOps, and SRE technologies.
Collaborative, innovation-driven, and high-performance work culture.
Competitive compensation and professional development opportunities.
Access to certification support, technical training, and career advancement.
Work with modern cloud-native architectures, automation platforms, and enterprise production systems.

المصدر: LinkedIn - أُضيفت للموقع في 19 يونيو 2026

وظائف أخرى لدى Throne Solutions

وظيفة مهندس مركز عمليات الشبكات شاغرة لدى Throne Solutions في الرياض

🏢 Throne Solutions

🕒 اليوم - 19 يونيو 2026 📍 الرياض جديد