Senior Networking Solution Test Ingegnere – AI Cluster Debugging — NVIDIA (ufficio Zurich)
CHF 101'500 - 154'000
NVIDIA (ufficio Zurich) · Zürich (ZH)
- Località
- Zürich
- Contratto
- full-time
- Pubblicato
- 22 giorni fa
SalarioCHF 101'500 - 154'000
Panoramica
Siamo alla ricerca di un Senior Networking Test Engineer con forti capacità di debug a livello di sistema per unire il nostro team End‐to‐End Verification!
Potrai lavorare su cluster AI basati su NVLink, Ethernet e InfiniBand.
Inoltre, ow problemi complessi attraverso hardware, software di sistema e carichi di lavoro AI. Cosa farai:
- Siamo alla ricerca di un Senior Networking Test Engineer con forti capacità di debug a livello di sistema per unire il nostro team End‐to‐End Verification!
- Potrai lavorare su cluster AI basati su NVLink, Ethernet e InfiniBand.
- e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature. Cosa dobbiamo vedere:
- B.A./B.Sc. in Informatica, ingegneria elettrica, o equivalente esperienza IT/Network/Systems.
Requisiti principali
- e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature. Cosa dobbiamo vedere:
- B.A./B.Sc. in Informatica, ingegneria elettrica, o equivalente esperienza IT/Network/Systems.
- 8+ anni di messa in rete o test a livello di sistema e debug su Linux.
- Forte rete Linux e abilità di debug (ad esempio perf, tcpdump, ethtool, iproute2).
- Provata esperienza di debug di livello di produzione: formazione di ipotesi, esperimenti in esecuzione, e problemi di guida a causa principale sotto pressione.
- Competenza nella validazione e nella messa a punto di NIC (discarica, code, interruzioni, interazioni firmware/driver).
- Forte conoscenza delle librerie di rete AI (come NCCL) e dei protocolli (come RoCE e RDMA), comprese le prestazioni e la correttezza debugging.
- Capacità di leggere e ragionare sul codice sorgente (C/C++/Python o simili) e collaborare strettamente con gli sviluppatori sulle correzioni.
- Competenze di scrittura e automazione solide con Bash / Python / Ansible per la configurazione, la raccolta dei registri e l'orchestrazione degli esperimenti.
- Imparente veloce, familiare con moderni strumenti AI e flussi di lavoro, in grado di adattarsi rapidamente.
- Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo. Modi per distinguersi dalla folla:
- Debug manuale di librerie di comunicazione collettiva (ad esempio NCCL) o cluster di formazione / inferenza LLM su larga scala.
Azienda e contesto
- Eseguire test di Regressione, Performance, Functional e Scale, analizzare i risultati e fornire report chiari e basati sui dati ai collaboratori.
Dettagli ulteriori
- Inoltre, ow problemi complessi attraverso hardware, software di sistema e carichi di lavoro AI.
- Profilo e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature. Cosa dobbiamo vedere:
- Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo. Modi per distinguersi dalla folla:
Note e contenuto originale
- Cosa farai:
- Profilo e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature.
- Cosa dobbiamo vedere:
- Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo.
- Modi per distinguersi dalla folla: