Senior Software Ingegnere, RL Post-Training Frameworks — NVIDIA (ufficio Zurich)
NuovoCHF 101'500 - 154'000
NVIDIA (ufficio Zurich) · Zürich (ZH)
- Località
- Zürich
- Contratto
- full-time
- Pubblicato
- Ieri
SalarioCHF 101'500 - 154'000
Panoramica
Rinforzare l'apprendimento post-training sta guidando alcuni dei più significativi guadagni di capacità in AI oggi.
È il processo che insegna un modello a ragionare attraverso problemi duri, seguire istruzioni complesse e agire come agente autonomo.
È anche una delle sfide infrastrutturali più difficili del settore.
- Rinforzare l'apprendimento post-training sta guidando alcuni dei più significativi guadagni di capacità in AI oggi.
- È il processo che insegna un modello a ragionare attraverso problemi duri, seguire istruzioni complesse e agire come agente autonomo.
- MS o PhD in Informatica, Ingegneria Informatica, o un campo relativo (o esperienza equivalente)
- 5+ anni di esperienza professionale nei sistemi distribuiti, calcolo ad alte prestazioni, infrastruttura di apprendimento profondo, o ingegneria dei sistemi ML Forte competenza in Python e C/C++
Requisiti principali
- MS o PhD in Informatica, Ingegneria Informatica, o un campo relativo (o esperienza equivalente)
- 5+ anni di esperienza professionale nei sistemi distribuiti, calcolo ad alte prestazioni, infrastruttura di apprendimento profondo, o ingegneria dei sistemi ML Forte competenza in Python e C/C++
- Costruzione di esperienze dimostrate o contribuire a sistemi distribuiti su larga scala o quadri di runtime in produzione presso un laboratorio AI di frontiera, iperscaler, o società di tecnologia
- Forte capacità di comunicazione verbale e scritta e la capacità di collaborare attraverso confini organizzativi e geografici
- Profondità in una o più delle seguenti aree tecniche:
- Reinforcement learning for LLM post-training (RLHF, PPO, GRPO, DPO, premiazione), incluso il modo in cui gli algoritmi mappano l'esecuzione distribuita e le sfide dei sistemi che creano (posizione eterogenea, rollout, esecuzione dell'ambiente, resharding tra formazione e generazione)
- Gli interni di PyTorch, compresi i primitivi di formazione distribuiti (FSDP, parallelismo tensore, parallelismo pipeline) e la loro composizione
- Interni a tempo di esecuzione Kubernetes (ciclo di vita del contenitore, programmazione del pod, quote delle risorse, allocazione della GPU)
- Progettazione di sistemi distribuiti end-to-end (finiture di servizio, flussi di dati, modelli di consistenza, modalità di guasto, approcci di recupero) Esperienza in una delle folli
Dettagli ulteriori
- Unisciti a noi per costruire i sistemi che permettono la prossima generazione di AI.
- Significa anche sostenere le esigenze del ricercatore e del partner con i team di networking, libreria di matematica e compilatore di NVIDIA, in modo che i carichi di lavoro RL di capacità richiedono ottenere priorità e consegnati, e lavorare con i team hardware per sfruttare le capacità hardware di prossima generazione nei carichi di lavoro post-formazione. Cosa dobbiamo vedere:
- 5+ anni di esperienza professionale nei sistemi distribuiti, calcolo ad alte prestazioni, infrastruttura di apprendimento profondo, o ingegneria dei sistemi ML Forte competenza in Python e C/C++
- Progettazione di sistemi distribuiti end-to-end (finiture di servizio, flussi di dati, modelli di consistenza, modalità di guasto, approcci di recupero) Esperienza in una delle folli
Note e contenuto originale
- Cosa farai:
- Significa anche sostenere le esigenze del ricercatore e del partner con i team di networking, libreria di matematica e compilatore di NVIDIA, in modo che i carichi di lavoro RL di capacità richiedono ottenere priorità e consegnati, e lavorare con i team hardware per sfruttare le capacità hardware di prossima generazione nei carichi di lavoro post-formazione.
- Cosa dobbiamo vedere:
- 5+ anni di esperienza professionale nei sistemi distribuiti, calcolo ad alte prestazioni, infrastruttura di apprendimento profondo, o ingegneria dei sistemi ML
- Forte competenza in Python e C/C++
- Progettazione di sistemi distribuiti end-to-end (finiture di servizio, flussi di dati, modelli di consistenza, modalità di guasto, approcci di recupero)
- Esperienza in una delle folli