جامعة الملك عبدالله للعلوم والتقنية تعلن عن وظيفة مدير أنظمة أول للحوسبة عالية الأداء في مكة
تفاصيل الوظيفة
جامعة الملك عبدالله للعلوم والتقنية تعلن عن وظيفة Senior HPC Systems Administrator في مكة المكرمة.
نبذة عن الوظيفة
نبحث عن مسؤول أنظمة HPC أول ذو دافعية ومهارات عالية للانضمام إلى مختبر الحوسبة الفائقة (KSL). سيكون المرشح الناجح مسؤولاً عن إدارة كتلة HPC تضم حوالي 600 عقدة CPU وGPU، وأنظمة تخزين HPC، وشبكات InfiniBand وEthernet، ومعالجة المشكلات التشغيلية اليومية. يوفر الدور دعمًا واسعًا للباحثين والمستخدمين النهائيين في مجالات العلوم الحاسوبية، والهندسة، وتحليل البيانات الضخمة، وأعباء عمل الذكاء الاصطناعي/التعلم الآلي.
المهام والمسؤوليات
- تقديم دعم فعال وفي الوقت المناسب للمستخدمين عبر الهاتف، والزيارات المباشرة، والبريد الإلكتروني، ونظام التذاكر لجميع أنواع الاستفسارات مع الحفاظ على معايير خدمة عملاء عالية.
- تثبيت وتكوين وإدارة الأنظمة الفرعية لـ HPC بما في ذلك عقد الحوسبة، وأنظمة التخزين عالية الأداء، و InfiniBand، و Ethernet، وأدوات إدارة التهيئة (مثل Ansible و Puppet).
- نشر وإدارة برامج إدارة الكتلة، وأدوات المراقبة، والخدمات الداعمة لتشغيل كتل HPC.
- تثبيت وإدارة مدير أعباء العمل Slurm، وإدارة سياسات QOS، والحسابات، والمحاسبة، والنصوص البرمجية الآلية المرتبطة (Python و C++).
- تطوير وصيانة نصوص أتمتة بلغة Bash و Python لتبسيط مهام إدارة الأنظمة.
- نشر وإدارة بيئات الحاويات (Singularity/Apptainer و Docker) لأعباء عمل HPC.
- قياس أداء مكونات نظام HPC مثل CPU والذاكرة و InfiniBand والتخزين بشكل دوري لضمان الأداء الأمثل وتحديد فرص الضبط عبر طبقات العتاد والبرامج التشغيلية والتطبيقات.
- فرض أفضل ممارسات الأمان بما في ذلك تقوية العقد، وتحديث النواة، والامتثال عبر جميع الأنظمة.
- إدارة أنظمة الملفات المتوازية مثل Lustre و GPFS و Weka أو Vast، بما في ذلك ضبط الأداء وتخطيط السعة.
- دعم الأنشطة البحثية في العلوم الحاسوبية والهندسة وتحليل البيانات و AI/ML من خلال العمل الوثيق مع أعضاء هيئة التدريس والباحثين وشركاء التعاون والشركاء الصناعيين بالتعاون مع فرق دعم التطبيقات.
- تطوير أدوات ومرافق برمجية حسب الحاجة لدعم المشاريع البحثية على أنظمة وعقد الكتلة.
- قيادة مشاريع إثبات المفهوم وتقييمات التقنية من البداية إلى النهاية والبحث في أفضل الممارسات الصناعية والدعوة لتحسينات النظام.
- التنسيق مع البائعين ومقدمي الخدمات الخارجية للإبلاغ عن المشكلات وحلها في الوقت المناسب.
- تطوير وصيانة وثائق المستخدم، وإجراءات التشغيل القياسية، ومواد التدريب في الويكي الداخلي.
- البقاء في طليعة تطورات HPC من خلال التعلم المستمر والمؤتمرات الصناعية والتعاون المهني، مع قيادة مبادرات قياس الأداء لإبلاغ قرارات شراء العتاد المستقبلية.
المهارات المطلوبة
- خبرة في دعم مستخدمي العلوم الحاسوبية والهندسة وتحليل البيانات وتطبيقات الذكاء الاصطناعي في بيئات HPC المختلفة.
- خبرة قوية في إدارة أنظمة Linux (RHEL أو Rocky Linux أو CentOS) في بيئات HPC واسعة النطاق.
- إتقان تطبيقات HPC ونماذج البرمجة (Fortran و C/C++ و Python و MPI و OpenMP و CUDA و OpenACC).
- سجل مثبت في إدارة أنظمة HPC المعقدة، بما في ذلك أنظمة الملفات المتوازية وجدولة المهام وشبكات InfiniBand/Ethernet وأنظمة المراقبة.
- خبرة مع أدوات إدارة التهيئة (Ansible أو Puppet أو ما يعادلها).
- الإلمام بتطبيقات ومكتبات العلوم الحاسوبية وتحليل البيانات و AI/ML المستخدمة في بيئات HPC.
- معرفة مبادئ وممارسات إدارة المشاريع.
- قدرة مثبتة على دعم الأنشطة البحثية في بيئة HPC تعاونية للغاية.
- مهارات قوية في التحليل وحل المشكلات واتخاذ القرار.
- التحديد الاستباقي وتنفيذ تحسينات النظام؛ أخذ المبادرة ومتابعة المهام حتى الإغلاق.
- القدرة على إدارة مشاريع متعددة في وقت واحد وتقديم نتائج عالية الجودة ضمن المواعيد النهائية.
- قدرة مثبتة على التعاون عبر الوظائف مع الباحثين وفرق التطبيقات والبائعين.
- الفعالية في بيئات العمل الدولية متعددة الثقافات.
- مهارات ممتازة في التواصل الشفوي والكتابي باللغة الإنجليزية، بما في ذلك القدرة على إعداد وتقديم التقارير الفنية والعروض التقديمية.
الشروط والمتطلبات
- درجة البكالوريوس أو الماجستير في علوم/هندسة الحاسوب أو نظم المعلومات أو ما يعادلها.
- خبرة لا تقل عن خمس سنوات في دعم منصات الحوسبة واسعة النطاق والأنظمة الفرعية ذات الصلة.
- خبرة في استكشاف مشكلات العتاد المعقدة وتوثيق تحليل السبب الجذري.
- خبرة في إدارة أنظمة التخزين المتوازية (Lustre أو GPFS أو Weka أو Vast أو ما شابه ذلك).
- خبرة في قياس أداء مكونات نظام HPC (CPU والذاكرة و InfiniBand والتخزين).
- خبرة في إدارة مديري أعباء العمل/المجدولين (Slurm أو LSF أو PBS).
- خبرة قوية في إدارة أنظمة Linux (RHEL أو Rocky Linux أو CentOS).
- خبرة مع أدوات إدارة التهيئة مثل Ansible أو Puppet.
- القدرة على التنسيق مع الباحثين وفرق دعم التطبيقات والبائعين لحل المشكلات المعقدة ودفعها إلى الإغلاق.
- قدرة مثبتة على التعاون عبر الوظائف ودفع المبادرات إلى الإنجاز.
- الإلمام بـ Kubernetes ومنصات تنسيق الحاويات يعتبر desirable.
عرض النص الأصلي للإعلان
Position Summary
We are seeking a highly motivated and skilled Senior HPC Systems Administrator to join the KAUST Supercomputing Laboratory (KSL). The successful candidate will be responsible for managing an HPC cluster of approximately 600 CPU and GPU nodes, HPC storage systems, InfiniBand and Ethernet networks, and day-to-day operational issues. The role provides broad support to researchers and end-users across computational science, engineering, big data analysis, and artificial intelligence/machine learning workloads.
Major Responsibilities - include but are not limited to -
- Provide timely and effective user support via telephone, walk-in, email, and ticketing system for all inquiry types while maintain high customer service standards.
- Install, configure, and manage HPC subsystems including compute nodes, high-performance storage systems, InfiniBand, Ethernet, and configuration management tools (e.g., Ansible, Puppet).
- Deploy and manage cluster management software, monitoring tools, and supporting services for operating HPC clusters.
- Install and administer the Slurm workload manager, manage QOS policies, accounts, accounting, and related automation scripts (Python and C++).
- Develop and maintain automation scripts in Bash and Python to streamline system administration tasks.
- Deploy and manage container environments (Singularity/Apptainer, Docker) for HPC workloads.
- Benchmark HPC system components like CPU, memory, InfiniBand, and storage periodically to ensure optimal performance and identify tuning opportunities across hardware, driver, and application layers.
- Enforce security best practices including node hardening, kernel patching, and compliance across all systems.
- Manage parallel file systems such as Lustre, GPFS, Weka, or Vast, including performance tuning and capacity planning.
- Directly support research activities in computational science, engineering, data analysis, and AI/ML by working closely with faculty, researchers, collaboration partners, and industrial partners in collaboration with application support teams.
- Develop software tools and utilities as needed to support research projects on cluster systems and subsystems.
- Drive proof-of-concept projects and technology evaluations end-to-end and research industry best practices and advocate system enhancements.
- Coordinate with vendors and third-party service providers to report and resolve issues in a timely manner.
- Develop and maintain user documentation, standard operating procedures, and training materials in the internal wiki.
- Stay at the forefront of HPC advancements through continuous learning, industry conferences, and professional collaboration, while driving benchmarking initiatives to inform future hardware procurement.
Competencies
- Expertise in supporting users of computational science and engineering, data analysis, and artificial intelligence applications and libraries in different HPC environments.
- Strong expertise in Linux system administration (RHEL, Rocky Linux, or CentOS) in large-scale HPC environments.
- Proficiency with HPC applications and programming models (Fortran, C/C++, Python, MPI, OpenMP, CUDA, OpenACC).
- Demonstrated track record of managing complex HPC systems, including parallel file systems, job schedulers, InfiniBand/Ethernet networks, and monitoring systems.
- Experience with configuration management tools (Ansible, Puppet, or equivalent).
- Familiarity with computational science, data analysis, and AI/ML applications and libraries used in HPC environments.
- Knowledge of project management principles and practices.
- Demonstrated ability to support research activities in a highly collaborative HPC environment.
- Strong analytical, problem-solving, and decision-making skills.
- Proactively identifies and implements system improvements; takes initiative and sees tasks through to closure.
- Ability to manage multiple concurrent projects and deliver high-quality results within deadlines.
- Proven ability to collaborate cross-functionally with researchers, application teams, and vendors.
- Effective in multi-cultural, international work environments.
- Excellent verbal and written communication skills in English, including the ability to prepare and deliver technical reports and presentations.
Qualifications
Education requirement, minimum:
Bachelor’s or master’s degree in computer science/engineering, Information Systems, or equivalent
Experience
Experience requirement, minimum:
- Five years of experience supporting large scale computing platforms and related subsystems.
- Experience troubleshooting complex hardware issues and documenting root cause analysis.
- Experience managing parallel storage systems (Lustre, GPFS, Weka, Vast, or similar).
- Experience benchmarking HPC system components (CPU, memory, InfiniBand, storage).
- Experience administering workload managers/schedulers (Slurm, LSF, or PBS).
- Strong Linux system administration experience (RHEL, Rocky Linux, or CentOS).
- Experience with configuration management tools such as Ansible or Puppet.
- Ability to coordinate with researchers, application support teams, and vendors to resolve complex issues and drive them to closure.
- Proven ability to collaborate cross-functionally and drive initiatives to completion.
- Familiarity with Kubernetes and container orchestration platforms would be desirable
وظائف أخرى لدى جامعة الملك عبدالله للعلوم والتقنية
جامعة الملك عبدالله للعلوم والتقنية تعلن عن وظيفة عالم حوسبة عالية الأداء في مكة ثول
وظيفة رئيس التقارير المالية (خبير IFRS) لدى جامعة الملك عبدالله للعلوم والتقنية في ثول
جامعة الملك عبدالله للعلوم والتقنية تعلن عن وظيفة أخصائي أجهزة ومعدات مركز البيانات في مكة
جامعة الملك عبدالله للعلوم والتقنية تعلن عن وظيفة مدير الصيانة الكهربائية في ثول