Systems Software Ingegnere, Kubernetes Scale - DGX Cloud — NVIDIA (ufficio Zurich)
- Località
- Zürich
- Contratto
- full-time
- Pubblicato
- 8 giorni fa
Panoramica
L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo. Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!
Siamo alla ricerca di un eccezionale System Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi. Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack - da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite - insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala. In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!
- Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.
- Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.
- Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.
- Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.
- Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.
- Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.
- Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.
- Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.
- Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi.
- Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack
Requisiti principali
- Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi.
- Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack
- da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite
- insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala.
- In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche! Cosa farai:
- Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.
- Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.
- Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.
- Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.
- Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.
- Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.
- Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.
Azienda e contesto
- L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo.
- Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!
- Siamo alla ricerca di un eccezionale System
Dettagli ulteriori
- In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!
- Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo. Cosa dobbiamo vedere:
- Esperienza con modellazione delle prestazioni e benchmarking su scala Proficienza in Golang/Python
- Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio) Modi per distinguersi dalla folla:
- Ottima comunicazione e capacità interpersonali PhD in aree rilevanti
- Se sei creativo e autonomo, vogliamo sentirti!
Note e contenuto originale
- Cosa farai:
- Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.
- Cosa dobbiamo vedere:
- Esperienza con modellazione delle prestazioni e benchmarking su scala
- Proficienza in Golang/Python
- Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio)
- Modi per distinguersi dalla folla:
- Ottima comunicazione e capacità interpersonali
- PhD in aree rilevanti
- La tua base