وظيفة LLM Serving Engineer لدى كوالكوم في الرياض
تفاصيل الوظيفة
تعلن شركة Qualcomm (Qualcomm Middle East Information Technology Company LLC) عن توفر وظيفة مهندس خدمة نماذج اللغة الكبيرة (LLM Serving Engineer) في مدينة الرياض، المملكة العربية السعودية، ضمن فريق Cloud AI Engineering. تأتي هذه الوظيفة في إطار توسع الشركة في المنطقة لدعم البنية التحتية للحوسبة السحابية والذكاء الاصطناعي، وتتضمن العمل على دورة حياة المنتج الكاملة بدءاً من البحث والتطوير وصولاً إلى النشر التجاري.
المهام والمسؤوليات
- بناء منصة استدلال قابلة للتوسع لنماذج LLM باستخدام تقنيات الاستدلال (مثل خدمة التفكيك وإدارة ذاكرة التخزين المؤقت KV-Cache، والتوازي المتقدم، والخوارزميات التخمينية، وتحسين النماذج، والنوى المتخصصة).
- المساهمة في تطوير حزم خدمة نماذج LLM (مثل vLLM وSGLang وTGI وTriton-Inference Server وDynamo وLLM-d).
- العمل عن كثب مع العملاء لدفع الحلول من خلال التعاون مع فرق المترجم والبرامج الثابتة والمنصة الداخلية.
- العمل على أحدث ما توصلت إليه تقنيات GenAI من خلال فهم الخوارزميات المتقدمة (مثل آليات الانتباه وMoEs) والرقميات لتحديد فرص تحسين جديدة.
- دفع الخدمة الفعالة من خلال التوسع التلقائي الذكي وتوازن التحميل والتوجيه.
- المشاركة مع مجتمعات الخدمة مفتوحة المصدر لتطوير الإطار.
المهارات المطلوبة
- خبرة عملية في واحدة أو أكثر من حزم خدمة/تنسيق نماذج LLM التالية: Triton-Inference Server، vLLM، SGLang، Ollama، llm-d، KServe، LMCache، MoonCake.
- فهم عميق لنماذج LLM وVLM وSLM الأساسية والهياكل القائمة على المحولات.
- خبرة قوية في تطوير نماذج اللغة باستخدام PyTorch.
- أسس قوية في علوم الحاسوب - الخوارزميات وهياكل البيانات والبرمجة المتوازية والموزعة.
- فهم لهندسة الحاسوب ومسرعات التعلم الآلي والمعالجة داخل الذاكرة والأنظمة الموزعة.
- مهارات قوية في تطوير Python للمشاريع واسعة النطاق مع شغف بهندسة البرمجيات.
- خبرة في تحليل وقياس أداء وتحسين أعباء عمل التعلم العميق.
- تعلم استباقي لأحدث تقنيات تحسين الاستدلال.
- مهارات ممتازة في التواصل وحل المشكلات، مع القدرة على الازدهار في بيئة سريعة الخطى وتعاونية.
- درجة ماجستير في علوم الحاسوب أو التعلم الآلي أو هندسة الحاسوب أو الهندسة الكهربائية.
- مهارات إضافية (مفضلة): مساهمة مفتوحة المصدر في أي حزمة GenAI، خبرة في تصميم وتطوير أنظمة موزعة واسعة النطاق، خبرة في تصميم النوى عالية المستوى (PyTorch، CUDA، Triton)، معرفة بـ torch.compile أو torchDynamo، درجة دكتوراه في علوم الحاسوب أو هندسة الحاسوب أو التعلم الآلي.
الشروط والمتطلبات
درجة بكالوريوس في علوم الحاسوب أو الهندسة الكهربائية أو هندسة الحاسوب أو نظم المعلومات أو مجال ذي صلة مع 5+ سنوات من الخبرة في هندسة الأجهزة أو هندسة البرمجيات أو هندسة الأنظمة أو مجال ذي صلة. أو درجة ماجستير في نفس المجالات مع 4+ سنوات من الخبرة. أو درجة دكتوراه في نفس المجالات مع 2+ سنوات من الخبرة. ملاحظة: الإشارة إلى عدد محدد من سنوات الخبرة هي لأغراض إرشادية فقط. سيتم النظر في الطلبات المقدمة من المرشحين ذوي الخبرة المكافئة، بشرط أن يتمكن المرشح من إثبات القدرة على أداء الواجبات الرئيسية للدور وامتلاك الكفاءات المطلوبة.
المزايا
- راتب يشمل بدل السكن والمواصلات.
- أسهم (RSUs) ومكافأة مرتبطة بالأداء.
- إجازة أمومة مدفوعة بالكامل لمدة 16 أسبوعاً.
- إجازة أبوة مدفوعة بالكامل لمدة 6 أسابيع.
- خطة شراء أسهم للموظفين.
- بدل تعليم للأطفال.
- دعم الانتقال والتأشيرات (إذا لزم الأمر).
- تأمين على الحياة والرعاية الصحية.
- تعويض Live+ Well للرسوم الصحية والعضوية الترفيهية.
عرض النص الأصلي للإعلان
Qualcomm Middle East Information Technology Company LLC
Job Area:
Engineering Group, Engineering Group > Systems Engineering
General Summary:
About Us
Qualcomm is growing its presence in Riyadh and is hiring Data Centre Engineers to support our expanding infrastructure across the region.
As Saudi Arabia accelerates its digital transformation under Vision 2030, Qualcomm is investing in world‑class computing and data centre capabilities to power AI, cloud, and advanced connectivity at scale. This is a unique opportunity to work in a fast‑growing technology hub, supporting critical environments and helping shape the future of data centre operations in the Kingdom and beyond.
Qualcomm is utilizing its traditional strengths in digital wireless technologies to play a central role in the evolution of Cloud AI. We are investing in several supporting technologies including Deep Learning. The Qualcomm Cloud AI team is developing hardware and software solutions for Inference Acceleration.
We are hiring LLM Serving Engineers at multiple levels to join our dynamic, collaborative team.
This role spans the full product lifecycle-from cutting-edge research and development to commercial deployment-and demands strategic thinking, strong execution, and excellent communication skills.
This Role Involves The Following Activities:
- Building a scalable LLM inference platform using inference techniques (e.g. disaggregated serving and KV-Cache management, advanced parallelism, speculative algorithms, model optimization, specialized kernels).
- Contribute to the development of LLM Serving packages (e.g. vLLM, SGLang, TGI, Triton-Inference server, Dynamo, LLM-d).
- Work closely with customers to drive solutions by collaborating with internal compiler, firmware and platform teams.
- Work at the forefront of GenAI by understanding advanced algorithms (e.g. attention mechanisms, MoEs) and numerics to identify new optimization opportunities.
- Drive efficient serving through smart autoscaling, load balancing and routing.
- Engage with open-source serving communities to evolve the framework.
- Hands-on experience in one or more of the following LLM serving/Orchestration packages (Triton-Inference Server, vLLM, SGLang, Ollama, llm-d, KServe, LMCache, MoonCake)
- Deep understanding of foundational LLMs, VLMs, SLMs, transformer-based architectures.
- Strong experience in developing language models using PyTorch.
- Strong computer science fundamentals - algorithms, data structures, parallel and distributed programming.
- Understanding of computer architecture, ML accelerators, in-memory processing and distributed systems.
- Strong Python development skills for large-scale projects with passion for software engineering.
- Experience in analyzing, profiling, and optimizing deep learning workloads.
- Proactive learning about the latest inference optimization techniques.
- Excellent communication and problem-solving skills, with the ability to thrive in a fast-paced and collaborative environment.
- MS in Computer Science, Machine Learning, Computer Engineering or Electrical Engineering.
- Open-source contribution to any GenAI package.
- Experience architecting and developing large-scale distributed systems.
- High-level kernel design experience (PyTorch, CUDA, Triton).
- Knowledge of torch.compile or torchDynamo
- PhD in Computer Science, Computer Engineering or Machine Learning
- Bachelor's degree in Computer Science, Electrical or Computer Engineering, Information Systems, or related field and 5+ years of Hardware Engineering, Software Engineering, Systems Engineering, or related work experience.
Master's degree in Computer Science, Electrical or Computer Engineering, Information Systems, or related field and 4+ years of Hardware Engineering, Software Engineering, Systems Engineering, or related work experience.
OR
PhD in Computer Science, Engineering, Information Systems, or related field and 2+ years of Hardware Engineering, Software Engineering, Systems Engineering, or related work experience.
What's On Offer
Apart from working with great people, we offer the below:
- Salary including housing & transport allowance
- Stock (RSU's) and performance related bonus
- 16 weeks fully paid Maternity Leave
- 6 weeks fully paid Paternity Leave
- Employee stock purchase scheme
- Child Education Allowance
- Relocation and immigration support (if needed)
- Life and Medical Insurance
- Live+ Well Reimbursement for health and recreational membership fees
- Bachelor's degree in Engineering, Information Systems, Computer Science, or related field and 4+ years of Systems Engineering or related work experience.
Master's degree in Engineering, Information Systems, Computer Science, or related field and 3+ years of Systems Engineering or related work experience.
OR
PhD in Engineering, Information Systems, Computer Science, or related field and 2+ years of Systems Engineering or related work experience.
- References to a particular number of years experience are for indicative purposes only. Applications from candidates with equivalent experience will be considered, provided that the candidate can demonstrate an ability to fulfill the principal duties of the role and possesses the required competencies.
Qualcomm expects its employees to abide by all applicable policies and procedures, including but not limited to security and other requirements regarding protection of Company confidential information and other confidential and/or proprietary information, to the extent those requirements are permissible under applicable law.
To all Staffing and Recruiting Agencies: Our Careers Site is only for individuals seeking a job at Qualcomm. Staffing and recruiting agencies and individuals being represented by an agency are not authorized to use this site or to submit profiles, applications or resumes, and any such submissions will be considered unsolicited. Qualcomm does not accept unsolicited resumes or applications from agencies. Please do not forward resumes to our jobs alias, Qualcomm employees or any other company location. Qualcomm is not responsible for any fees related to unsolicited resumes/applications.
If you would like more information about this role, please contact Qualcomm Careers.
وظائف أخرى لدى Qualcomm