Systems Design Engineer – Site Reliability Engr
Job title: Systems Design Engineer – Site Reliability Engr
Company: Advanced Micro Devices
Job description: Descripción del trabajo:LO QUE HACES EN AMD LO CAMBIA TODONos preocupamos profundamente por transformar vidas con la tecnología AMD para enriquecer nuestra industria, nuestras comunidades y el mundo. Nuestra misión es crear excelentes productos que aceleren las experiencias informáticas de próxima generación: los componentes básicos para el centro de datos, la inteligencia artificial, las PC, los juegos y los dispositivos integrados. La cultura AMD sustenta nuestra misión. Superamos los límites de la innovación para resolver los desafíos más importantes del mundo. Nos esforzamos por lograr la excelencia en la ejecución y al mismo tiempo ser directos, humildes, colaborativos e inclusivos de diversas perspectivas.AMD juntos avanzamos_Descripción del PuestoEl puesto de Ingeniero de confiabilidad del sitio (SRE) es para el equipo recién formado de Ingeniería de plataforma de clúster (CPE) en la organización Data Center Cluster Solutions (DCCS), como parte de la unidad de negocios AMD (Advanced Micro Devices) Data Center Solutions Group (DSG). . DCCS respalda las necesidades de implementación de clústeres de la unidad de negocios Datacenter GPU (DCGPU). La SRE será responsable de ayudar a crear y automatizar procesos que activan y mantienen en funcionamiento los sistemas de clúster de CPU y GPU implementados. Este puesto se centrará en los aspectos operativos de los sistemas de clúster de IA (inteligencia artificial) y HPC (computación de alto rendimiento) acelerados por GPU a gran escala dentro de AMD.La SRE trabajará en estrecha colaboración con los equipos de Ingeniería de plataforma (PE) y Operaciones del centro de datos (DCOps) de CPE a medida que se presenten sistemas internos y externos para los clientes. Trabajarán en el uso de herramientas de software para convertir procesos manuales y automatizar tareas como la gestión de sistemas y el monitoreo de aplicaciones. También trabajarán con el equipo de Ingeniería de lanzamiento (RE) de CPE para desarrollar y automatizar procesos confiables para aplicar actualizaciones a los sistemas de clúster.Este puesto es una oportunidad emocionante para ayudar a construir una plataforma y crear una operación de clase mundial en apoyo de esta apasionante área de crecimiento para AMD y la industria. Este puesto reporta al Gerente Senior del equipo de Ingeniería de confiabilidad del sitio dentro del grupo de Ingeniería de plataforma de clúster.Rol y responsabilidadesEsta función de SRE implicará principalmente aprender los sistemas de clúster de GPU de AMD, ayudar a implementar estos sistemas y desarrollar la automatización para mantenerlos operativos, además de trabajar con los otros equipos de DCGPU y DSG para incorporar requisitos y abordar cualquier problema en los sistemas.Las responsabilidades específicas de este puesto incluyen:
- Trabajar con el equipo de Ingeniería de Plataforma para desarrollar y automatizar la gestión de un plano de control de infraestructura y un sistema de implementación para clústeres de GPU y CPU.
- Trabajar con el equipo de Release Engineering para automatizar la aplicación de actualizaciones y herramientas de gestión de configuración del sistema.
- Resolución de tickets de problemas reportados por clientes internos y externos para sistemas de cluster de GPU y CPU.
- Desarrollar y mejorar herramientas, aplicaciones y procesos de administración de clústeres y redes internas y de terceros que permitan a los equipos internos y a los clientes crear, probar y optimizar el rendimiento de redes de alto rendimiento que admiten sistemas de clústeres de CPU y GPU a gran escala.
- Ayudar a desarrollar el ecosistema de software necesario para las operaciones de clúster a escala proporcionando clúster como servicio para los sistemas de acceso de clientes e internos de AMD. Esto incluye cierta participación en las operaciones del centro de datos en rack y pila, instalación de software a escala y administración de configuración, y aprovisionamiento de sistemas a escala, ayudando a construir y operar un servicio de nube local para las partes interesadas internas de AMD que forma un modelo para la adopción por parte del cliente.
- Ayudar a crear un modelo operativo de clase empresarial para sistemas de clústeres internos que proporcione una infraestructura confiable, segura y automatizada para una respuesta rápida a los requisitos cambiantes, un uso eficiente de los activos y una plantilla de referencia para la adopción por parte del cliente.
- Participar en una sólida cultura centrada en el cliente y enfocada en el cumplimiento de los compromisos.
Experiencia y calificaciones
- Más de 10 años de experiencia en redes de alto rendimiento, hardware de plataforma, firmware y soluciones de administración de sistemas a escala.
- Sólidos conocimientos y habilidades de administración de sistemas Linux en torno a la instalación, configuración, administración de paquetes y administración de sistemas en múltiples distribuciones de SO (sistema operativo). Se valorará la habilidad relacionada con el ajuste del rendimiento del sistema en modo usuario y kernel.
- Experiencia con virtualización y contenerización, incluidos sistemas como KVM, Docker, podman, OpenShift y Kubernetes.
- Amplia experiencia en automatización de sistemas y gestión de configuración a escala utilizando herramientas como Ansible, Salt, Chef, Puppet, bash y Python.
- Experiencia trabajando con equipos de desarrollo desarrollando y manteniendo un entorno de desarrollo de canalización de CI/CD.
- Sólido conocimiento de redes y capacidad de resolución de problemas en redes Ethernet a gran escala. La experiencia con RDMA/RoCE e InfiniBand es una gran ventaja.
- Experiencia en el uso de herramientas comunes de la industria para solucionar problemas de software y automatizar procesos operativos.
- Familiaridad con la gestión de bases de datos, análisis de datos, sistemas de archivos de almacenamiento, gestión de volúmenes como LVM, HW y SW RAID, y sistemas similares.
- Historial demostrado de logros en la creación y entrega exitosa de soluciones operativas complejas a escala, con la capacidad de aprender nuevos sistemas rápidamente en un entorno que cambia rápidamente.
- Posición remota pero con capacidad de desplazamiento cuando sea necesario (hasta un 10%).
Características personalesExcelente comunicación y habilidades interpersonales: la capacidad de interactuar con varios equipos para lograr objetivos operativos.Orientación Tecnológica – Afinidad hacia los productos tecnológicos. Alguien curioso y creativo en la aplicación de la tecnología para ideas y aplicaciones innovadoras.Integridad sobresaliente: una persona completamente honesta y directa, franca y directa con sus subordinados, pares y ejecutivos gerenciales a quienes reporta.Trabajo eficaz en una organización culturalmente diversa.EducaciónBSEE o título técnico relevanteCertificaciones de sistemas Linux como Red Hat, Canonical, SUSE y otras son una ventajaUBICACIÓN: Austin#LI-DR2En AMD, su salario base es una parte de su paquete total de recompensas. Su salario base dependerá de dónde encajan sus habilidades, calificaciones, experiencia y ubicación en el rango de contratación para el puesto. Puede ser elegible para recibir incentivos según su función, como un bono anual o un incentivo de ventas. Muchos empleados de AMD tienen la oportunidad de poseer acciones de AMD, así como un descuento al comprar acciones de AMD si participan voluntariamente en el Plan de compra de acciones para empleados de AMD. También será elegible para beneficios competitivos que se describen con más detalle.AMD no acepta currículums no solicitados de cazatalentos, agencias de contratación ni servicios de contratación remunerados. AMD y sus subsidiarias son empleadores inclusivos que ofrecen igualdad de oportunidades y considerarán a todos los solicitantes sin importar edad, ascendencia, color, estado civil, condición médica, discapacidad física o mental, origen nacional, raza, religión, afiliación política y/o de terceros. , sexo, embarazo, orientación sexual, identidad de género, condición de militar o veterano, o cualquier otra característica protegida por la ley. Alentamos las solicitudes de todos los candidatos calificados y nos adaptaremos a las necesidades de los solicitantes según las leyes respectivas en todas las etapas del proceso de reclutamiento y selección.
Expected salary:
Location: Austin, TX
Job date: Tue, 09 Apr 2024 06:26:16 GMT
Apply for the job now!