Senior Systems Software Ingegnere, Kubernetes Scale - DGX Cloud — NVIDIA (ufficio Zurich)

CHF 101'500 - 154'000
NVIDIA (ufficio Zurich) · Zürich (ZH)
Categoria: Ingegneria Contratto: full-time Salario: CHF 101'500 - 154'000
Vai alla candidatura
Località
Zürich
Contratto
full-time
Pubblicato
9 giorni fa
SalarioCHF 101'500 - 154'000

Panoramica

L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo. Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!

Siamo alla ricerca di un eccezionale Senior Systems Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi. Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack - da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite - insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala. In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!

  • Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.
  • Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.
  • Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.
  • Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.
  • Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.
  • Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.
  • Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.
  • Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.

Requisiti principali

  • Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi.
  • Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack
  • da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite
  • insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala.
  • In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche! Cosa farai:
  • Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.
  • Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.
  • Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.
  • Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.
  • Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.
  • Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.
  • Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.

Azienda e contesto

  • L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo.
  • Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!
  • Siamo alla ricerca di un eccezionale Senior Systems

Dettagli ulteriori

  • In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!
  • Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo. Cosa dobbiamo vedere:
  • Esperienza con modellazione delle prestazioni e benchmarking su scala Proficienza in Golang/Python
  • Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio) Modi per distinguersi dalla folla:
  • Ottima comunicazione e capacità interpersonali PhD in aree rilevanti

Note e contenuto originale

  • Cosa farai:
  • Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.
  • Cosa dobbiamo vedere:
  • Esperienza con modellazione delle prestazioni e benchmarking su scala
  • Proficienza in Golang/Python
  • Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio)
  • Modi per distinguersi dalla folla:
  • Ottima comunicazione e capacità interpersonali
  • PhD in aree rilevanti
Vai alla candidatura
Logo NVIDIA (ufficio Zurich)
Azienda
NVIDIA (ufficio Zurich) · Zürich
Frontaliere Ticino ha scovato questa opportunità nel monitoraggio aziende.

Tutte le offerte NVIDIA (ufficio Zurich) Zürich →

Esplora annunci simili