Qualcomm تعلن عن وظيفة مهندس بنية تحتية وموثوقية المواقع - مركز بيانات AI في الرياض
Infrastructure & Site Reliability Engineer - Datacentre AI Engineering - Riyadh, KSA
🏢 Qualcomm
تفاصيل الوظيفة
تعلن شركة كوالكوم (Qualcomm) في الرياض، المملكة العربية السعودية، عن توفر وظيفة مهندس موثوقية الموقع والبنية التحتية - هندسة الذكاء الاصطناعي لمراكز البيانات (Infrastructure & Site Reliability Engineer - Datacentre AI Engineering). يهدف الدور إلى تصميم وتشغيل وتحسين أنظمة استدلال الذكاء الاصطناعي واسعة النطاق في بيئة مركز البيانات، مع ضمان موثوقية وقابلية التوسع للبنية التحتية لدعم أعباء عمل التعلم الآلي المتقدمة.
المهام والمسؤوليات
- تصميم ونشر وتشغيل أنظمة استدلال الذكاء الاصطناعي واسعة النطاق لدعم أعباء عمل الذكاء الاصطناعي الحيوية.
- ضمان موثوقية وتوفر وقابلية توسع مجموعات الذكاء الاصطناعي في مركز بيانات كوالكوم.
- تطوير وصيانة أدوات البرمجيات والبنية التحتية الداعمة حول مكدسات برامج الذكاء الاصطناعي.
- تحليل متطلبات البرامج والتعاون مع مهندسي البنية والأجهزة لدعم أعباء عمل الذكاء الاصطناعي.
- بناء ونشر وتشغيل مكونات تدعم استدلال النماذج اللغوية الكبيرة (LLM) وسير عمل الذكاء الاصطناعي الوكيل (Agentic AI) وخدمات الذكاء الاصطناعي.
- العمل مع فرق النماذج والأنظمة والبرامج لتحسين أداء النماذج على نشرات AI100.
- تحديد وتنفيذ التحسينات لأعباء العمل التي تعمل على أنظمة متعددة الشرائح (multi‑SoC) والمتعددة البطاقات (multi‑card).
- تطبيق أساسيات هندسة موثوقية الموقع (SRE) بما في ذلك المراقبة والتنبيه والاستجابة للحوادث وتحسين الأداء.
- دعم أنظمة التعلم الآلي في الإنتاج باستخدام أدوات MLOps وأفضل الممارسات التشغيلية.
- المساهمة في مراجعات الحوادث والتوثيق التشغيلي والتحسين المستمر للموثوقية.
- بناء وصيانة أدوات المراقبة ولوحات المعلومات والتنبيهات لمراقبة صحة النظام وموثوقيته.
- مراقبة البنية التحتية والخدمات باستخدام أدوات مثل Prometheus وGrafana وCloudWatch والقياس المخصص.
- إنشاء وصيانة التوثيق الفني ودفاتر التشغيل (runbooks) ومقالات قاعدة المعرفة.
- تطوير الأتمتة لتقليل المهام التشغيلية اليدوية وتحسين موثوقية النظام.
- دعم خطوط أنابيب CI/CD لنشر خدمات الذكاء الاصطناعي والعوامل (agents).
- تطبيق ممارسات البنية التحتية كرمز (Infrastructure‑as‑Code) باستخدام أدوات مثل Terraform وAnsible.
الشروط والمتطلبات
- درجة البكالوريوس أو الماجستير في الهندسة أو علوم الحاسب أو الذكاء الاصطناعي/التعلم الآلي أو مجال ذي صلة.
- من 2 إلى 8 سنوات من الخبرة في هندسة البرمجيات أو الأنظمة أو البنية التحتية، ويفضل في بيئات الإنتاج أو مراكز البيانات.
- البديل: درجة البكالوريوس في الهندسة أو نظم المعلومات أو علوم الحاسب أو ما يعادلها مع 4+ سنوات من الخبرة في هندسة البرمجيات أو ما يعادلها، أو درجة الماجستير مع 3+ سنوات، أو الدكتوراه مع 2+ سنوات.
- خبرة عمل لا تقل عن سنتين مع لغة برمجة مثل C أو C++ أو Java أو Python أو ما يعادلها.
المهارات المطلوبة
- خبرة في العمل مع أعباء عمل الذكاء الاصطناعي/التعلم الآلي مثل النماذج اللغوية الكبيرة (LLMs) ومعالجة اللغة الطبيعية (NLP) والرؤية والصوت وأنظمة التوصية.
- فهم مفاهيم استدلال التعلم الآلي بما في ذلك التجميع (batching) وبث الرموز (token streaming) واعتبارات الأداء.
- خبرة عملية مع PyTorch والإلمام بأطر التعلم الآلي الحديثة.
- الإلمام بالاستدلال الموزع (distributed inference) ونقاط التفتيش (checkpointing) وبيئات الحوسبة المعتمدة على المسرعات (accelerator‑based).
- خبرة في دعم تطبيقات الذكاء الاصطناعي أو التعلم الآلي في بيئات الإنتاج.
- الإلمام بخطوط أنابيب استدلال النماذج اللغوية الكبيرة وعمليات خدمات الذكاء الاصطناعي.
- مهارات برمجة قوية في Python مع خبرة في بناء ودعم أنظمة الإنتاج.
- خبرة في البرمجة النصية والأتمتة باستخدام Python وBash.
- الإلمام بأدوات إدارة التهيئة والتنسيق (orchestration).
- أساسيات قوية في Linux تشمل الصدفة (shell) والحاويات (containers) وخدمات النظام وأساسيات الشبكات (DNS, TLS, HTTP/gRPC).
- خبرة في العمل مع مجدولي المجموعات (cluster schedulers) مثل Slurm أو ما يعادله.
- خبرة في تشغيل الأنظمة الموزعة مع التوفر العالي والتسامح مع الأخطاء.
- خبرة عملية مع أدوات المراقبة والتسجيل مثل Prometheus وGrafana وELK أو Loki.
- فهم إدارة الحوادث ومقاييس صحة الخدمة ومراقبة موثوقية النظام.
- فهم متين لدورة حياة تطوير البرمجيات (SDLC) وعمليات الإصدار وممارسات الموثوقية التشغيلية.
- الإلمام بخطوط أنابيب CI/CD وأدوات البنية التحتية كرمز.
- يفضل: خبرة مع GenAI أو أنظمة الذكاء الاصطناعي الوكيل أو أطر تنسيق النماذج اللغوية الكبيرة (مثل LangChain وAutoGen أو أنظمة RAG).
- يفضل: الإلمام بأطر تعلم آلي إضافية مثل TensorFlow أو JAX أو Ray.
- يفضل: معرفة الأنظمة المعتمدة على وحدات معالجة الرسوميات (GPU/accelerator) والشبكات عالية الأداء (RDMA, InfiniBand, RoCE).
- يفضل: خبرة مع سير عمل MLOps المتقدمة أو عمليات منصة الذكاء الاصطناعي واسعة النطاق.
المزايا
- راتب شامل بدل السكن والمواصلات.
- أسهم (RSUs) ومكافأة مرتبطة بالأداء.
- 16 أسبوعًا إجازة أمومة مدفوعة بالكامل.
- 6 أسابيع إجازة أبوة مدفوعة بالكامل.
- خطة شراء أسهم للموظفين.
- بدل تعليم للأطفال.
- دعم النقل والهجرة (إذا لزم الأمر).
- تأمين على الحياة وتأمين طبي.
- استرداد تكاليف الصحة والعضوية في النوادي الرياضية عبر برنامج Live+ Well.
عرض النص الأصلي للإعلان
Company
Qualcomm Middle East Information Technology Company LLC
Job Area
Engineering Group, Engineering Group > Software Test Engineering
General Summary
About Us
Qualcomm is growing its presence in Riyadh and is hiring Data Centre Engineers to support our expanding infrastructure across the region. As Saudi Arabia accelerates its digital transformation under Vision 2030, Qualcomm is investing in world‑class computing and data centre capabilities to power AI, cloud, and advanced connectivity at scale. This is a unique opportunity to work in a fast‑growing technology hub, supporting critical environments and helping shape the future of data centre operations in the Kingdom and beyond.
About The Role
We are looking for a Site Reliability Engineer or Senior Engineer - Datacentre AI Engineering at Qualcomm Technologies, Inc., located in Riyadh, Saudi Arabia.
The role focuses on the design, operation, and continuous improvement of large‑scale AI inference systems in a datacenter environment. The engineer will support critical AI use cases by ensuring Qualcomm’s AI infrastructure is reliable, scalable, and production‑ready for advanced machine‑learning workloads.
The role requires strong systems and software engineering fundamentals, hands‑on execution, and the ability to work independently on complex problem areas while collaborating closely with cross‑functional teams across hardware, software, and machine learning.
Key Responsibilities Will Include
Ideal candidates will have 2-8 years of experience
Key Responsibilities
Apart from working with great people, we offer the below:
Master's degree in Engineering, Information Systems, Computer Science, or related field and 3+ years of Software Engineering or related work experience.
OR
PhD in Engineering, Information Systems, Computer Science, or related field and 2+ years of Software Engineering or related work experience.
Qualcomm expects its employees to abide by all applicable policies and procedures, including but not limited to security and other requirements regarding protection of Company confidential information and other confidential and/or proprietary information, to the extent those requirements are permissible under applicable law.
To all Staffing and Recruiting Agencies: Our Careers Site is only for individuals seeking a job at Qualcomm. Staffing and recruiting agencies and individuals being represented by an agency are not authorized to use this site or to submit profiles, applications or resumes, and any such submissions will be considered unsolicited. Qualcomm does not accept unsolicited resumes or applications from agencies. Please do not forward resumes to our jobs alias, Qualcomm employees or any other company location. Qualcomm is not responsible for any fees related to unsolicited resumes/applications.
If you would like more information about this role, please contact Qualcomm Careers.
Qualcomm Middle East Information Technology Company LLC
Job Area
Engineering Group, Engineering Group > Software Test Engineering
General Summary
About Us
Qualcomm is growing its presence in Riyadh and is hiring Data Centre Engineers to support our expanding infrastructure across the region. As Saudi Arabia accelerates its digital transformation under Vision 2030, Qualcomm is investing in world‑class computing and data centre capabilities to power AI, cloud, and advanced connectivity at scale. This is a unique opportunity to work in a fast‑growing technology hub, supporting critical environments and helping shape the future of data centre operations in the Kingdom and beyond.
About The Role
We are looking for a Site Reliability Engineer or Senior Engineer - Datacentre AI Engineering at Qualcomm Technologies, Inc., located in Riyadh, Saudi Arabia.
The role focuses on the design, operation, and continuous improvement of large‑scale AI inference systems in a datacenter environment. The engineer will support critical AI use cases by ensuring Qualcomm’s AI infrastructure is reliable, scalable, and production‑ready for advanced machine‑learning workloads.
The role requires strong systems and software engineering fundamentals, hands‑on execution, and the ability to work independently on complex problem areas while collaborating closely with cross‑functional teams across hardware, software, and machine learning.
Key Responsibilities Will Include
Ideal candidates will have 2-8 years of experience
Key Responsibilities
- AI Infrastructure
- Design, deploy, and operate large‑scale AI inference systems supporting critical AI workloads.
- Ensure reliability, availability, and scalability of Qualcomm datacenter AI clusters.
- Develop and maintain software tools and support infrastructure around AI software stacks.
- AI & ML Engineering
- Analyze software requirements and collaborate with architecture and hardware engineers to support AI workloads.
- Build, deploy, and operate components supporting LLM inference, agentic AI workflows, and AI services.
- Work with models, systems, and software teams to improve model performance on AI100 deployments.
- Identify and implement optimizations for workloads running on multi‑SoC and multi‑card systems.
- Site Reliability Engineering (SRE)
- Apply SRE fundamentals including monitoring, alerting, incident response, and performance optimization.
- Support production ML systems using MLOps tools and operational best practices.
- Contribute to incident reviews, operational documentation, and continuous reliability improvements.
- Observability & Tooling
- Build and maintain observability tools, dashboards, and alerts to monitor system health and reliability.
- Monitor infrastructure and services using tools such as Prometheus, Grafana, CloudWatch, and custom telemetry.
- Create and maintain technical documentation, runbooks, and knowledge‑base articles.
- Automation & CI/CD
- Develop automation to reduce manual operational tasks and improve system reliability.
- Support CI/CD pipelines for AI service and agent deployment.
- Apply Infrastructure‑as‑Code practices using tools such as Terraform and Ansible.
- AI & Deep Learning
- Experience working with AI/ML workloads such as LLMs, NLP, Vision, Audio, or Recommendation systems.
- Understand ML inference concepts including batching, token streaming, and performance considerations.
- Hands‑on experience with PyTorch and familiarity with modern ML frameworks.
- Familiarity with distributed inference, checkpointing, and accelerator‑based compute environments.
- AI Operations
- Experience supporting AI or ML applications in production environments.
- Familiarity with LLM inference pipelines and AI service operations.
- Programming & Software Design
- Strong programming skills in Python with experience building and supporting production systems.
- Experience with scripting and automation using Python and Bash.
- Familiarity with configuration management and orchestration tools.
- Systems & Infrastructure
- Strong Linux fundamentals include shell, containers, system services, and networking basics (DNS, TLS, HTTP/gRPC).
- Experience working with cluster schedulers such as Slurm or equivalent systems.
- Experience operating distributed systems with high availability and fault tolerance.
- Observability & Monitoring
- Hands‑on experience with monitoring and logging tools such as Prometheus, Grafana, ELK, or Loki.
- Understanding of incident management, service health metrics, and system reliability monitoring.
- DevOps & SRE Practices
- Solid understanding of SDLC, release processes, and operational reliability practices.
- Familiarity with CI/CD pipelines and Infrastructure‑as‑Code tools.
- Experience with GenAI, Agentic AI systems, or LLM orchestration frameworks.
- Exposure to LangChain, AutoGen, or RAG‑based systems.
- Experience with additional ML frameworks such as TensorFlow, JAX, or Ray.
- Knowledge of GPU/accelerator‑based systems and high‑performance networking (RDMA, InfiniBand, RoCE).
- Experience with advanced MLOps workflows or large‑scale AI platform operations.
- Bachelor’s or Master’s degree in engineering, Computer Science, AI/ML, or a related field.
- 2-8 years of software, systems, or infrastructure engineering experience, preferably in production or datacenter environments.
Apart from working with great people, we offer the below:
- Salary including housing & transport allowance
- Stock (RSU's) and performance related bonus
- 16 weeks fully paid Maternity Leave
- 6 weeks fully paid Paternity Leave
- Employee stock purchase scheme
- Child Education Allowance
- Relocation and immigration support (if needed)
- Life and Medical Insurance
- Live+ Well Reimbursement for health and recreational membership fees
- Bachelor's degree in Engineering, Information Systems, Computer Science, or related field and 4+ years of Software Engineering or related work experience.
Master's degree in Engineering, Information Systems, Computer Science, or related field and 3+ years of Software Engineering or related work experience.
OR
PhD in Engineering, Information Systems, Computer Science, or related field and 2+ years of Software Engineering or related work experience.
- 2+ years of work experience with Programming Language such as C, C++, Java, Python, etc.
- References to a particular number of years experience are for indicative purposes only. Applications from candidates with equivalent experience will be considered, provided that the candidate can demonstrate an ability to fulfill the principal duties of the role and possesses the required competencies.
Qualcomm expects its employees to abide by all applicable policies and procedures, including but not limited to security and other requirements regarding protection of Company confidential information and other confidential and/or proprietary information, to the extent those requirements are permissible under applicable law.
To all Staffing and Recruiting Agencies: Our Careers Site is only for individuals seeking a job at Qualcomm. Staffing and recruiting agencies and individuals being represented by an agency are not authorized to use this site or to submit profiles, applications or resumes, and any such submissions will be considered unsolicited. Qualcomm does not accept unsolicited resumes or applications from agencies. Please do not forward resumes to our jobs alias, Qualcomm employees or any other company location. Qualcomm is not responsible for any fees related to unsolicited resumes/applications.
If you would like more information about this role, please contact Qualcomm Careers.
المصدر: LinkedIn - أُضيفت للموقع في 30 يونيو 2026
وظائف أخرى لدى Qualcomm