Внедрение практик управления Надежностью на ландшафте МТС
Доклад отклонён
Целевая аудитория
Тезисы
Экосистема МТС состоит из 400+ продуктов, над которыми работают сотни команд, тысячи инженеров и разработчиков. Чтобы гарантировать качество продуктов, мы стремимся вводить единые требования и подходы к реализации SRE практик на всем ландшафте. Однако масштаб задачи и разнообразие продуктов делает процесс внедрения любых технологических инициатив очень сложным.
Мы поделимся - как нам удалось в короткие сроки подключить 250+ продуктов к платформе обеспечения надежности OPS Platform. В том числе расскажем, как мы нашли и поставили на мониторинг все SSL сертификаты продуктов, запустили практику PostMortem анализа и создали индикаторы качества SLI для критичных клиентских сценариев. Поговорим о технических и организационных проблемах и путях их решения.
Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.
МТС Web Services
Руководитель трайба OPS Platform в МТС Диджитал.
Более 13 лет опыта в качестве разработчика, аналитика, руководителя проектов, владельца продукта, CTO.
МТС Web Services
Руководитель Mission Control Center в МТС Диджитал. Обеспечиваю круглосуточный мониторинг состояния продуктов Группы компаний МТС и координацию взаимодействия продуктовых команд в рамках устранения инцидентов. Внедряю практики обеспечения надежности на ИТ-ландшафте МТС.
МТС Digital
Видео
Другие доклады секции
TechLeadConf: Инженерные практики