Penta Consulting تعلن عن وظيفة مهندس HPC في الرياض
تفاصيل الوظيفة
تعلن شركة Penta Consulting عن توفر فرصة وظيفية لمهندس HPC كبير (Senior Infrastructure HPC Engineer) في الرياض، السعودية. يبحثون عن مرشح ذي خبرة في تصميم ونشر وتشغيل كل مكون من مكونات بيئة الحوسبة عالية الأداء واسعة النطاق.
المهام والمسؤوليات
- تصميم ونشر وصيانة كتل HPC من البداية إلى النهاية: عقد الحوسبة، طبقات التخزين، الشبكات عالية السرعة (InfiniBand / RoCE)، وهيكل الإدارة.
- توفير وإدارة NVIDIA Base Command Manager (BCM) لتجهيز الكتل العارية، دورة حياة نظام التشغيل، ومراقبة صحة أسطول GPU.
- نشر وإدارة مجموعة NVIDIA AI Enterprise Suite بالكامل: تثبيت، ترخيص، تحديث، والتكامل مع خطوط أنابيب MLOps (NeMo، Triton، RAPIDS).
- نشر وتشغيل NVIDIA GPU Operator وNetwork Operator على Kubernetes لأتمتة دورة حياة برامج التشغيل وCUDA، ومُصدر DCGM، وتكوين MIG.
- تكوين وتقديم نقاط نهاية استدلال NVIDIA NIM؛ تنفيذ بنيات NVIDIA Blueprint المرجعية لأحمال العمل الإنتاجية للذكاء الاصطناعي.
- تثبيت وإدارة وضبط Slurm: الأقسام، QOS، سياسات المشاركة العادلة، محاسبة العقد، تكامل MPI، والجدولة الهجينة Slurm-on-Kubernetes.
- تجهيز وتشغيل كتل Kubernetes باستخدام kubeadm - بما في ذلك توفر عالي لوحدة التحكم، نسخ احتياطي etcd، وترقيات بدون توقف.
- إدارة RHEL / Canonical Ubuntu عبر جميع عقد الكتلة.
- بناء وصيانة خطوط أنابيب CI/CD (GitLab CI / GitHub Actions) لتجهيز البنية التحتية وتسليم برامج HPC.
- تحليل وضبط أداء أعباء عمل GPU وCPU؛ حل الاختناقات عبر الأجهزة، برامج التشغيل، نسيج MPI، وطبقات التطبيقات.
- تنفيذ مراقبة الكتلة باستخدام Prometheus وGrafana وDCGM؛ تعريف حدود التنبيه والتخطيط للسعة.
- فرض أفضل ممارسات الأمان: تعزيز العقد، تصحيح kernel، RBAC، ومراجعات الامتثال عبر بيئة HPC.
عرض النص الأصلي للإعلان
Penta Consulting are a technology service provider and leading outsourced partner helping to deliver professional and managed solutions across EMEA.
We are seeking an experienced Senior Infrastructure HPC Engineer who has personally designed, deployed, configured, and operated every component of a large-scale high-performance computing environment.
Key Responsibilities
• Design, deploy, and maintain HPC clusters end-to-end: compute nodes, storage tiers, high-speed networking (InfiniBand / RoCE), and management fabric.
• Personally, provision and administer NVIDIA Base Command Manager (BCM) for bare-metal cluster imaging, OS lifecycle, and GPU fleet health monitoring.
• Deploy and manage the full NVIDIA AI Enterprise Suite: install, license, update, and integrate with MLOps pipelines (NeMo, Triton, RAPIDS).
• Deploy and operate NVIDIA GPU Operator and Network Operator on Kubernetes to automate driver and CUDA lifecycle, DCGM exporter, and MIG configuration.
• Configure and serve NVIDIA NIM inference endpoints; implement NVIDIA Blueprint reference architectures for production AI workloads.
• Install, administer, and tune Slurm: partitions, QOS, fair-share policies, node accounting, MPI integration, and Slurm-on-Kubernetes hybrid scheduling.
• Bootstrap and operate Kubernetes clusters using kubeadm - including control plane HA, etcd backup, and zero-downtime upgrades.
• Administer RHEL / Canonical Ubuntu across all cluster nodes.
• Build and maintain CI/CD pipelines (GitLab CI / GitHub Actions) for infrastructure provisioning and HPC software delivery.
• Profile and tune GPU and CPU workload performance; resolve bottlenecks across hardware, drivers, MPI fabric, and application layers.
• Implement cluster monitoring with Prometheus, Grafana, and DCGM; define alerting and capacity planning thresholds.
• Enforce security best practices: node hardening, kernel patching, RBAC, and compliance audits across the HPC environment.