Никита П.
Сопровождение и поддержка etl-конвейеров в тестовых средах, обеспечение их стабильности и готовности для тестирования новых функций. Установка и конфигурация нового функционала на тестовых стендах для последующего приемочного и регрессионного тестирования. Миграция устаревших etl-пайплайнов на airflow, что сократило ттм на 33% (с 3 до 2 недель) Оптимизация сложных\тяжелых запросов в рамках ETL-процессов, достигнув ускорения их выполнения в на 25% и снижения нагрузки на тестовые бд. Проведение системного тестирования новых данных и функциональности перед передачей в продакшен (прелайв), что способствовало раннему выявлению критических дефектов.
Исследовал и разрешал сложные инциденты L3, связанные с корректностью работы api и целостностью данных. Участвовал в разрешении 20+ критических инцидентов, минимизируя их влияние на конечных пользователей. Проводил анализ проблем с использованием SQL, инструментов мониторинга и логов, проводил RCA Разработал и внедрил набор ключевых метрик производительности команды поддержки в YDataLens что позволило выявлять эффективность команды и среднее время обработки тикета/среднее время ответа. С помощью этих метрик скорость обработки тикетов повысилась на 25% Разработка документации для команды L3 и поддержка существующей.
Принимал эскалации только самых сложных инцидентов от второй линии поддержки, связанных с интеграциями api (Postman) и целостностью данных в бд (mssql). Достиг разрешения 98% инцидентов без дальнейшей эскалации на разрабов. Писал инструкции для инженеров L2 по решению типовых проблем, что повысило самостоятельность команды и снизило нагрузку на L3 примерно на треть (вместо 130 менее 90 тикетов в неделю) Анализ бизнесовых-метрик в Grafana и отработка по настроенным алертам (прединцидентным), в дальнейшем разработка ранбуков для инженеров L2, что в итоге освободило инженеров L3 на ~2-3 часа рабочего времени в неделю
Проведение регресса совместно с qa Исследовал и разрешал сложные инциденты на проде, связанные с целостностью данных в mssql/postgresql. Еженедельно выявлял и ставил в разработку 3-5 багов, что снижало количество повторных обращений Развернул и настроил систему алертинга на основе prometheus/grafana для отслеживания метрик бизнес-логики, что позволило проактивно предотвращать более 15 даунтаймов в месяц
Проводил глубокий анализ сложных инцидентов на продуктивной среде, используя postgresql, анализ логов, zabbix, среднее время решения критических инцидентов уменьшилось на 40 минут. Выявлял корневые причины проблем, формализовал и ставил в разработку баги в jira, что значительно уменьшило количество повторяющихся инцидентов. Создал и поддерживал базу знаний в confluence для инженеров L2 и L1, что снизило количество эскалаций на L3 на более 25 тикетов в неделю и ускорило обучение новых сотрудников. Разработал и внедрил скрипты на python (requests, flask, psycopg2, xml) и postgresql для автоматической обработки рутинных тикетов, что сократило время их решения более чем на 50% и высвободило до 8 часов рабочего времени каждого инженера в команде
- Решение инцидентов, возникшие на стороне клиента с помощью БД - Взаимодействие со смежными отделами - Настройка SSO для клиентов - Ведение внутренней документации (частые обращения) - Написание скриптов базового уровня на Python для решения типовых инцидентов
Понравился профиль? Создайте себе такой же