Systems Software Ingegnere, Kubernetes Scale - DGX Cloud — NVIDIA (ufficio Zurich)

CHF 73'500 - 111'500

NVIDIA (ufficio Zurich) · Zürich (ZH)

Categoria: Ingegneria Contratto: full-time Salario: CHF 73'500 - 111'500

Vai alla candidatura

Località: Zürich
Contratto: full-time
Pubblicato: 8 giorni fa

SalarioCHF 73'500 - 111'500

Panoramica

L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo. Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!

Siamo alla ricerca di un eccezionale System Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi. Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack - da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite - insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala. In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!

Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.

Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.

Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.

Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.

Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.

Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.

Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.

Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.

Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi.
Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack

Requisiti principali

Software Engineer con profonda esperienza in sistemi distribuiti, tecnologie open source come Kubernetes e contenitori, e un forte background in prestazioni e scalabilità dei sistemi.
Il candidato ideale porta un'esperienza ampia e end-to-end in tutto lo stack
da operatore GPU e plug-in per dispositivi a piattaforme cloud e inferenza distribuite
insieme alla profondità tecnica per indagare e affrontare problemi entusiasmanti e reali in scala.
In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche! Cosa farai:
Guidare le prestazioni end-to-end e la caratterizzazione in scala per lo stack software NVIDIA DGX Cloud, dal controllo Kubernetes e dai piani di dati attraverso componenti NVIDIA come GPU Operator, Network Operator, DCGM, NIM e il servizio di inferenza distribuito, a seguito di problemi da orchestrazione fino al metallo.
Collabora con ricercatori, sviluppatori e clienti AI per sviluppare test innovativi e automatizzati che simulano carichi di lavoro reali degli utenti utilizzando strumenti e framework open source personalizzati e leader.
Immergetevi profondamente nelle problematiche delle prestazioni e della scala nei sistemi distribuiti complessi, comprese le interazioni tra Kubernetes e lo stack software NVIDIA, per identificare e risolvere le cause root.
Progettare e sviluppare strumenti di monitoraggio, reporting e analisi per il test di performance e scala su risorse software, GPU e CPU.
Triage, debug e root causano problemi legati al funzionamento di cluster Kubernetes a larga scala, garantendo affidabilità ed efficienza.
Costruisci e mantieni un framework ad alta velocità che consente di effettuare test continui e sempre in scala tramite una moderna pipeline CI/CD.
Ricerca di documenti, metodologie e risultati concisamente e concisamente, e presenti risultati in sedi interne ed esterne, tra cui conferenze comunitarie come KubeCon e GTC.

Azienda e contesto

L'organizzazione DGX Cloud di NVIDIA riunisce l'innovazione hardware e software all'avanguardia per fornire un calcolo accelerato leader del settore per i carichi di lavoro AI più avventurosi al mondo.
Siamo un team di ingegneri innovativi dedicati a risolvere alcune delle sfide più grandi del mondo, guidando costantemente i progressi, e impatto milioni di vite in tutto il mondo!
Siamo alla ricerca di un eccezionale System

Dettagli ulteriori

In questo ruolo fondamentale, si assumerà la sfida di scalare l'infrastruttura AI, ottimizzando il costo totale di proprietà, riducendo i costi per gettone per sbloccare la prossima generazione di AI innovazione e AI fabbriche!
Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo. Cosa dobbiamo vedere:
Esperienza con modellazione delle prestazioni e benchmarking su scala Proficienza in Golang/Python
Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio) Modi per distinguersi dalla folla:
Ottima comunicazione e capacità interpersonali PhD in aree rilevanti
Se sei creativo e autonomo, vogliamo sentirti!

Note e contenuto originale

Cosa farai:
Coinvolgere in modo efficiente con le comunità a monte — tra cui Kubernetes, CNCF e progetti open source NVIDIA — per convalidare le prestazioni e la scalabilità dei carichi di lavoro AI precocemente e aiutare a modellare le decisioni di progettazione e sviluppo.
Cosa dobbiamo vedere:
Esperienza con modellazione delle prestazioni e benchmarking su scala
Proficienza in Golang/Python
Competenza con almeno una delle infrastrutture CSP pubbliche (GCP, AWS, Azure, OCI per esempio)
Modi per distinguersi dalla folla:
Ottima comunicazione e capacità interpersonali
PhD in aree rilevanti
La tua base

Vai alla candidatura

Systems Software Ingegnere, Kubernetes Scale - DGX Cloud — NVIDIA (ufficio Zurich)

Panoramica

Requisiti principali

Azienda e contesto

Dettagli ulteriori

Note e contenuto originale

Annunci correlati

Articoli per frontalieri

Esplora annunci simili