Семён Ф.
Занимался поиском инсайтов в данных и проверкой гипотез, сбором требований для витрин данных и их дальнейшего использования, проектированием ETL потоков в Hadoop и Greenplum, ведением технической документации в подразделении управления рисками. Собрал 7 новых витрин данных закрывающих потребность по управлению портфелем и достаточность капитала, доработал еще порядка десяти витрин данных. Организовывал работу с заказчиками по всем вопросам развития продукта: состав данных, сроки, конечное использование. В работе использую SQL, Python, Spark, Confluence, Git. Участвовал во внедрении GIT'a в процессы аналитиков. Проводил внутреннее обучение команды по Apache Spark. Создал карту витрин данных, которая позволяет отслеживать зависимости витрин и понимать состав данных в продукте команды
Занимался аналитикой и разработкой задач по формированию и внедрению витрин данных, включающих как ETL-процессы, так и ML-пайплайны, построенные на основе технологий BigData (Hadoop) для продукта персонализированных рекомендаций. Представлял интересы команды по задачам интеграции с другими блоками банка в части технической реализации расчета финансовых показателей, участвовал в формировании архитектуры продукта, писал на Python, Scala и читал код на Java, во всех процессах задействован SQL и Confluence. Тут посчастливилось получить огромное поле задач, среди которых вывод в ПРОМ ML-моделей, разработка витрин данных, а также разработка NRT-процессов. ML часть почти вся на python, а ETL на Scala. Данные в HDFS/Hive, использовали spark для вычислений, yarn для управления ресурсами, в качестве оркестратора внутренний аналог AirFlow. Задачи NRT обработки решали с помощью Flink (Java API) и HBase, использовали Kafka для стриминга. Реализовал миграцию продукта с ежемесячного расчета на ежедневный, что позволило предлагать клиентам одинаковые условия по кредитным продуктам во всех доступных каналах коммуникации. Самая большая витрина - 5 миллиардов записей ежедневно Самое большое достижение - снижение времени расчета моделей с 12 часов до 3 часов Самая больная ошибка - перепутал идентификаторы моделей местами, но спустя время сделал мониторинг качества и ошибка обнаружилась
Понравился профиль? Создайте себе такой же