Senior Software Ingegnere, AI Inference Systems — NVIDIA (ufficio Zurich)
CHF 101'500 - 154'000
NVIDIA (ufficio Zurich) · Zürich (ZH)
- Località
- Zürich
- Contratto
- full-time
- Pubblicato
- 31 giorni fa
SalarioCHF 101'500 - 154'000
Panoramica
Stiamo cercando ingegneri software altamente qualificati e motivati per unirsi a noi e costruire sistemi di inferenza AI che servono modelli su larga scala con estrema efficienza.
Potrai progettare e implementare stack di inferenza ad alte prestazioni, ottimizzare kernel e compilatori GPU, benchmark del settore di drive e carichi di lavoro in scala in ambienti multi-GPU, multi-nodo e multi-cloud.
Potrai collaborare tra inferenza, compilatore, pianificazione e team di prestazioni per spingere la frontiera di calcolo accelerato per l'intelligenza artificiale. Cosa farai:
- Stiamo cercando ingegneri software altamente qualificati e motivati per unirsi a noi e costruire sistemi di inferenza AI che servono modelli su larga scala con estrema efficienza.
- Potrai progettare e implementare stack di inferenza ad alte prestazioni, ottimizzare kernel e compilatori GPU, benchmark del settore di drive e carichi di lavoro in scala in ambienti multi-GPU, multi-nodo e multi-cloud.
- Contribuisci funzionalità a vLLM che abilitano i nuovi modelli con le più recenti funzionalità hardware GPU NVIDIA; profila e ottimizza il quadro di inferenza (vLLM) con metodi come decodifica speculativa, data/tensor/expert/pipeline-parallelism, disaggregation prefill-decode.
- Sviluppare, ottimizzare e benchmark dei kernel GPU (dati a mano e compilatori generati) utilizzando tecniche come fusion, autotuning, e l'ottimizzazione di memoria/layout; costruire ed estendere l'infrastruttura DSL e compilatore di alto livello per aumentare la produttività dello sviluppatore del kernel, avvicinandosi all'utilizzo dell'hardware di punta.
- Software (SE) con 7+ anni di esperienza
- in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza
Responsabilità principali
- Contribuisci funzionalità a vLLM che abilitano i nuovi modelli con le più recenti funzionalità hardware GPU NVIDIA; profila e ottimizza il quadro di inferenza (vLLM) con metodi come decodifica speculativa, data/tensor/expert/pipeline-parallelism, disaggregation prefill-decode.
- Sviluppare, ottimizzare e benchmark dei kernel GPU (dati a mano e compilatori generati) utilizzando tecniche come fusion, autotuning, e l'ottimizzazione di memoria/layout; costruire ed estendere l'infrastruttura DSL e compilatore di alto livello per aumentare la produttività dello sviluppatore del kernel, avvicinandosi all'utilizzo dell'hardware di punta.
- Definire e costruire metodologie e strumenti di benchmarking dell’inferenza; contribuire sia ai nuovi benchmark che alle sottomissioni di NVIDIA nella suite di benchmarking MLPerf Inference leader del settore.
- Architetto la pianificazione e l'orchestrazione di inferenze containerizzate su larga scala su cluster GPU su nuvole.
- Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA. Cosa dobbiamo vedere:
- Corso di laurea (o equivalente expeience) in Informatica (CS), Ingegneria Informatica (CE) o Ingegneria
Requisiti principali
- Software (SE) con 7+ anni di esperienza
- in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza
- o dottorato di ricerca con la tesi e pubblicazioni top-tier in ML Systems, architettura GPU o calcolo ad alte prestazioni.
- Forte capacità di programmazione in Python e C/C++ l'esperienza con Go o Rust è un plus
- Conoscenza e passione per l'ingegneria delle prestazioni nei quadri ML (ad esempio PyTorch) e nei motori di inferenza (ad esempio, vLLM e SGLang).
- Familiarità con la programmazione e le prestazioni della GPU: CUDA, gerarchia della memoria, stream, NCCL; competenza con strumenti di profilazione/debug (ad esempio, Sistemi di Vista/Computo).
- Esperienza con contenitori e orchestrazione (Docker, Kubernetes, Slurm); familiarità con namespace e cgroup Linux.
- Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale. Modi per distinguersi dalla folla
- Esperienza costruzione e ottimizzazione dei motori di inferenza LLM (ad esempio, vLLM, SGLang).
- Lavoro manuale con compilatori ML e DSL (ad esempio Triton, TorchDynamo/Inductor, MLIR/LLVM, XLA), librerie GPU (ad esempio, CUTLASS) e caratteristiche (ad esempio, CUDA Graph, Tensor Cores).
- Esperienza contribuendo a tecnologie di containerizzazione/virtualizzazione come containerd/CRI-O/CRIU.
- Esperienza con piattaforme cloud (AWS/GCP/Azure), infrastruttura come codice, CI/CD e osservabilità di produzione.
Azienda e contesto
- solidi fondamenti CS: algoritmi e strutture dati, sistemi operativi, architettura informatica, programmazione parallela, sistemi distribuiti, teorie di apprendimento profondo.
Dettagli ulteriori
- Potrai collaborare tra inferenza, compilatore, pianificazione e team di prestazioni per spingere la frontiera di calcolo accelerato per l'intelligenza artificiale.
- Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA. Cosa dobbiamo vedere:
- Software (SE) con 7+ anni di esperienza; in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza; o dottorato di ricerca con la tesi e pubblicazioni top-tier in ML Systems, architettura GPU o calcolo ad alte prestazioni.
- Forte capacità di programmazione in Python e C/C++; l'esperienza con Go o Rust è un plus; solidi fondamenti CS: algoritmi e strutture dati, sistemi operativi, architettura informatica, programmazione parallela, sistemi distribuiti, teorie di apprendimento profondo.
- Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale. Modi per distinguersi dalla folla
Note e contenuto originale
- Cosa farai:
- Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA.
- Cosa dobbiamo vedere:
- Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale.
- Modi per distinguersi dalla folla