Senior Software Ingegnere, AI Inference Systems — NVIDIA (ufficio Zurich)

CHF 101'500 - 154'000

NVIDIA (ufficio Zurich) · Zürich (ZH)

Categoria: Ingegneria Contratto: full-time Salario: CHF 101'500 - 154'000

Vai alla candidatura

Località: Zürich
Contratto: full-time
Pubblicato: 31 giorni fa

SalarioCHF 101'500 - 154'000

Panoramica

Stiamo cercando ingegneri software altamente qualificati e motivati per unirsi a noi e costruire sistemi di inferenza AI che servono modelli su larga scala con estrema efficienza.

Potrai progettare e implementare stack di inferenza ad alte prestazioni, ottimizzare kernel e compilatori GPU, benchmark del settore di drive e carichi di lavoro in scala in ambienti multi-GPU, multi-nodo e multi-cloud.

Potrai collaborare tra inferenza, compilatore, pianificazione e team di prestazioni per spingere la frontiera di calcolo accelerato per l'intelligenza artificiale. Cosa farai:

Stiamo cercando ingegneri software altamente qualificati e motivati per unirsi a noi e costruire sistemi di inferenza AI che servono modelli su larga scala con estrema efficienza.
Potrai progettare e implementare stack di inferenza ad alte prestazioni, ottimizzare kernel e compilatori GPU, benchmark del settore di drive e carichi di lavoro in scala in ambienti multi-GPU, multi-nodo e multi-cloud.
Contribuisci funzionalità a vLLM che abilitano i nuovi modelli con le più recenti funzionalità hardware GPU NVIDIA; profila e ottimizza il quadro di inferenza (vLLM) con metodi come decodifica speculativa, data/tensor/expert/pipeline-parallelism, disaggregation prefill-decode.
Sviluppare, ottimizzare e benchmark dei kernel GPU (dati a mano e compilatori generati) utilizzando tecniche come fusion, autotuning, e l'ottimizzazione di memoria/layout; costruire ed estendere l'infrastruttura DSL e compilatore di alto livello per aumentare la produttività dello sviluppatore del kernel, avvicinandosi all'utilizzo dell'hardware di punta.
Software (SE) con 7+ anni di esperienza
in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza

Responsabilità principali

Contribuisci funzionalità a vLLM che abilitano i nuovi modelli con le più recenti funzionalità hardware GPU NVIDIA; profila e ottimizza il quadro di inferenza (vLLM) con metodi come decodifica speculativa, data/tensor/expert/pipeline-parallelism, disaggregation prefill-decode.
Sviluppare, ottimizzare e benchmark dei kernel GPU (dati a mano e compilatori generati) utilizzando tecniche come fusion, autotuning, e l'ottimizzazione di memoria/layout; costruire ed estendere l'infrastruttura DSL e compilatore di alto livello per aumentare la produttività dello sviluppatore del kernel, avvicinandosi all'utilizzo dell'hardware di punta.
Definire e costruire metodologie e strumenti di benchmarking dell’inferenza; contribuire sia ai nuovi benchmark che alle sottomissioni di NVIDIA nella suite di benchmarking MLPerf Inference leader del settore.
Architetto la pianificazione e l'orchestrazione di inferenze containerizzate su larga scala su cluster GPU su nuvole.
Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA. Cosa dobbiamo vedere:
Corso di laurea (o equivalente expeience) in Informatica (CS), Ingegneria Informatica (CE) o Ingegneria

Requisiti principali

Software (SE) con 7+ anni di esperienza
in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza
o dottorato di ricerca con la tesi e pubblicazioni top-tier in ML Systems, architettura GPU o calcolo ad alte prestazioni.
Forte capacità di programmazione in Python e C/C++ l'esperienza con Go o Rust è un plus
Conoscenza e passione per l'ingegneria delle prestazioni nei quadri ML (ad esempio PyTorch) e nei motori di inferenza (ad esempio, vLLM e SGLang).
Familiarità con la programmazione e le prestazioni della GPU: CUDA, gerarchia della memoria, stream, NCCL; competenza con strumenti di profilazione/debug (ad esempio, Sistemi di Vista/Computo).
Esperienza con contenitori e orchestrazione (Docker, Kubernetes, Slurm); familiarità con namespace e cgroup Linux.
Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale. Modi per distinguersi dalla folla
Esperienza costruzione e ottimizzazione dei motori di inferenza LLM (ad esempio, vLLM, SGLang).
Lavoro manuale con compilatori ML e DSL (ad esempio Triton, TorchDynamo/Inductor, MLIR/LLVM, XLA), librerie GPU (ad esempio, CUTLASS) e caratteristiche (ad esempio, CUDA Graph, Tensor Cores).
Esperienza contribuendo a tecnologie di containerizzazione/virtualizzazione come containerd/CRI-O/CRIU.
Esperienza con piattaforme cloud (AWS/GCP/Azure), infrastruttura come codice, CI/CD e osservabilità di produzione.

Azienda e contesto

solidi fondamenti CS: algoritmi e strutture dati, sistemi operativi, architettura informatica, programmazione parallela, sistemi distribuiti, teorie di apprendimento profondo.

Dettagli ulteriori

Potrai collaborare tra inferenza, compilatore, pianificazione e team di prestazioni per spingere la frontiera di calcolo accelerato per l'intelligenza artificiale.
Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA. Cosa dobbiamo vedere:
Software (SE) con 7+ anni di esperienza; in alternativa, laurea magistrale in CS/CE/SE con 5 anni di esperienza; o dottorato di ricerca con la tesi e pubblicazioni top-tier in ML Systems, architettura GPU o calcolo ad alte prestazioni.
Forte capacità di programmazione in Python e C/C++; l'esperienza con Go o Rust è un plus; solidi fondamenti CS: algoritmi e strutture dati, sistemi operativi, architettura informatica, programmazione parallela, sistemi distribuiti, teorie di apprendimento profondo.
Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale. Modi per distinguersi dalla folla

Note e contenuto originale

Cosa farai:
Condurre e pubblicare ricerche originali che spingono la frontiera pareto per il settore dei sistemi ML; esaminare pubblicazioni recenti e trovare un modo per integrare idee di ricerca e prototipi nei prodotti software di NVIDIA.
Cosa dobbiamo vedere:
Eccellente debug, problem-solving e capacità di comunicazione; capacità di eccellere in un ambiente veloce e multifunzionale.
Modi per distinguersi dalla folla

Vai alla candidatura