Senior Networking Solution Test Ingegnere – AI Cluster Debugging — NVIDIA (ufficio Zurich)

CHF 101'500 - 154'000
NVIDIA (ufficio Zurich) · Zürich (ZH)
Categoria: Ingegneria Contratto: full-time Salario: CHF 101'500 - 154'000
Vai alla candidatura
Località
Zürich
Contratto
full-time
Pubblicato
22 giorni fa
SalarioCHF 101'500 - 154'000

Panoramica

Siamo alla ricerca di un Senior Networking Test Engineer con forti capacità di debug a livello di sistema per unire il nostro team End‐to‐End Verification!

Potrai lavorare su cluster AI basati su NVLink, Ethernet e InfiniBand.

Inoltre, ow problemi complessi attraverso hardware, software di sistema e carichi di lavoro AI. Cosa farai:

Requisiti principali

  • e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature. Cosa dobbiamo vedere:
  • B.A./B.Sc. in Informatica, ingegneria elettrica, o equivalente esperienza IT/Network/Systems.
  • 8+ anni di messa in rete o test a livello di sistema e debug su Linux.
  • Forte rete Linux e abilità di debug (ad esempio perf, tcpdump, ethtool, iproute2).
  • Provata esperienza di debug di livello di produzione: formazione di ipotesi, esperimenti in esecuzione, e problemi di guida a causa principale sotto pressione.
  • Competenza nella validazione e nella messa a punto di NIC (discarica, code, interruzioni, interazioni firmware/driver).
  • Forte conoscenza delle librerie di rete AI (come NCCL) e dei protocolli (come RoCE e RDMA), comprese le prestazioni e la correttezza debugging.
  • Capacità di leggere e ragionare sul codice sorgente (C/C++/Python o simili) e collaborare strettamente con gli sviluppatori sulle correzioni.
  • Competenze di scrittura e automazione solide con Bash / Python / Ansible per la configurazione, la raccolta dei registri e l'orchestrazione degli esperimenti.
  • Imparente veloce, familiare con moderni strumenti AI e flussi di lavoro, in grado di adattarsi rapidamente.
  • Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo. Modi per distinguersi dalla folla:
  • Debug manuale di librerie di comunicazione collettiva (ad esempio NCCL) o cluster di formazione / inferenza LLM su larga scala.

Azienda e contesto

  • Eseguire test di Regressione, Performance, Functional e Scale, analizzare i risultati e fornire report chiari e basati sui dati ai collaboratori.

Dettagli ulteriori

  • Inoltre, ow problemi complessi attraverso hardware, software di sistema e carichi di lavoro AI.
  • Profilo e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature. Cosa dobbiamo vedere:
  • Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo. Modi per distinguersi dalla folla:

Note e contenuto originale

  • Cosa farai:
  • Profilo e benchmark deep learning training and inference workloads, correlando metriche a livello di modello con sistema e telemetria di rete per scoprire strozzature.
  • Cosa dobbiamo vedere:
  • Eccellente analitica, problem solving e capacità di comunicazione, con forte proprietà e un approccio collaborativo.
  • Modi per distinguersi dalla folla:
Vai alla candidatura
Logo NVIDIA (ufficio Zurich)
Azienda
NVIDIA (ufficio Zurich) · Zürich
Frontaliere Ticino ha scovato questa opportunità nel monitoraggio aziende.

Tutte le offerte NVIDIA (ufficio Zurich) Zürich →

Esplora annunci simili