وظيفة مختبر ضمان جودة برمجيات لدى RIME Platform في الرياض
تفاصيل الوظيفة
في RIME Platform، نبحث عن مختبر ضمان جودة برمجيات (Software Quality Assurance Tester) للانضمام إلى فريقنا في الرياض. ستعمل على ضمان استقرار وسرعة وموثوقية أنظمتنا التي تعالج آلاف البثوث الفيديو وبيانات الاستشعار في الزمن الحقيقي، لتوفير رؤى تشغيلية حيوية لعملائنا.
الشروط والمتطلبات
- إتقان أدوات تنظيم الحاويات مثل Docker وKubernetes (K8s)، وخبرة عميقة في مزود سحابي رئيسي واحد على الأقل (AWS، GCP، أو Azure).
- خبرة قوية في استخدام أدوات البنية التحتية كرمز (IaC) مثل Terraform أو Ansible لإدارة البنية التحتية بكفاءة.
- مهارات برمجية صلبة لكتابة نصوص أتمتة فعّالة (Python، Go، أو Bash).
- فهم متين لبروتوكولات الشبكات، مع خبرة في التعامل مع سير عمل بث الفيديو (مثل RTSP، WebRTC) وبيانات إنترنت الأشياء (IoT).
- خبرة متقدمة في أنظمة المراقبة والتنبيه وتحليل السجلات الحديثة (مثل Prometheus، Grafana، ELK Stack، Datadog).
- فهم جيد لبروتوكولات أمان السحابة، وتشفير البيانات، وإدارة الوصول (IAM).
المهام والمسؤوليات
- هندسة التوفر وقابلية التوسع: إدارة البنية التحتية البرمجية لخوادم RIME لتمكينها من معالجة عالية الإنتاجية للبيانات في الزمن الحقيقي وبثوث الفيديو من كاميرات العملاء المختلفة، مع ضمان تشغيل الخدمة بنسبة 99.9% على الأقل.
- الأتمتة وCI/CD: بناء وتطوير خطوط أنابيب النشر المستمر لأتمتة طرح التحديثات، وضمان تسليمها بسرعة وبدون أخطاء.
- المراقبة والتنبيه: العمل على أنظمة مراقبة استباقية (مثل Prometheus وGrafana وغيرها) لاكتشاف مشكلات الشبكة أو انقطاع بث الكاميرات أو اختناقات الأداء قبل أن يلاحظها العميل.
- الاستجابة للحوادث: قيادة عمليات الاستجابة الفورية للحوادث وإجراء تحليل السبب الجذري (Root Cause Analysis) لضمان عدم تكرار المشكلات.
- إدارة الموارد السحابية: تحسين التكاليف التشغيلية وتوزيع الأحمال، خاصة فيما يتعلق باستهلاك الخوادم وموارد المعالجة.
- الأمان والامتثال: تطبيق أفضل ممارسات الأمان لحماية بيانات العملاء وضمان امتثال البنية التحتية لسياسات حوكمة البيانات المحلية.
عرض النص الأصلي للإعلان
Description
At Rhyme, we're on a mission to empower businesses and improve our clients' operations. We have a system that processes thousands of video streams and real-time sensor data, transforming them into critical operational insights. As a Systems Quality Engineer (SRE), your role will be the backbone, ensuring the stability, speed, and reliability of our systems. You'll work at the intersection of software engineering and DevOps, guaranteeing our servers and software operate efficiently around the clock with minimal downtime, while also ensuring rapid scalability as our clients add hundreds of new branches.
RequirementsCloud & Containerization: Mastery of container orchestration tools like Docker and Kubernetes (K8s), along with deep expertise in at least one major cloud provider (AWS, GCP, or Azure).
Infrastructure as Code (IaC): Strong experience using tools such as Terraform or Ansible to manage infrastructure efficiently.
Programming & Automation: Solid coding skills for writing efficient automation scripts (Python, Go, or Bash).
Real-time Data Processing: Solid understanding of network protocols, with experience handling video streaming workflows (e.g., RTSP, WebRTC) and IoT data streams.
Monitoring Tools: Advanced experience with modern monitoring, alerting, and log analysis stacks (e.g., Prometheus, Grafana, ELK Stack, Datadog).
Security Knowledge: Solid grasp of cloud security protocols, data encryption, and access management (IAM).
Availability & Scalability Engineering: Manage the software infrastructure of Rime's servers to enable them to handle high-throughput processing of real-time data and video streams from various customer cameras, ensuring a service uptime of at least 99.9%.
Automation & CI/CD: Build and develop continuous deployment pipelines to automate the rollout of updates, ensuring updates are delivered rapidly and without errors.
Monitoring & Alerting: Work on proactive monitoring systems (such as Prometheus, Grafana, and others) to detect network issues, camera stream disconnections, or performance bottlenecks before the customer notices.
Incident Response: Lead emergency incident response operations and conduct Root Cause Analysis (RCA) to ensure problems do not recur.
Cloud Resource Management: Optimize operational costs and load balancing, especially regarding server consumption and processing resources.
Security & Compliance: Apply security best practices to protect customer data and ensure the infrastructure complies with local data governance policies.