Максим Гармаш

Чем я помогаю

Аудит данных и ETL^*

Фиксированный спринт 2 недели. Выявляю узкие места пайплайнов, точки отказа и риски качества данных. На выходе — дорожная карта с приоритетами и схема целевой архитектуры: что чинить первым и сколько это займёт.

KafkaAirflowNiFiHadoopPostgreSQLУправление даннымиClickHouseDataOpsSQL

* ETL — извлечение, преобразование, загрузка данных

MVP^* ИИ/ML‑решения

4–6 недель от гипотезы до тестового продакшена. Скоринг, рекомендации, прогноз, RAG^*‑ассистент по документации — беру одну задачу и довожу до результата, который можно измерить и показать бизнесу.

OpenAI APILlamaRAGMLOpsPythonВекторная БДДообучениеПромпт-инжинирингЭмбеддингиNLPFastAPI

* MVP — минимально жизнеспособный продукт · RAG — генерация ответов с извлечением из базы знаний

Интеграция и пайплайны

Сквозные потоки данных между CRM, ERP, SAP, аналитикой и внешними сервисами. Нормализация, очистка, маршрутизация — чтобы данные не терялись по дороге, отчётность сходилась, а решения принимались быстрее.

NiFiKafkaAirflowSAPREST APISOAPPostgreSQLMSSQLn8nRabbitMQRedis1CCRMERPGraphQL

ИИ‑автоматизация процессов

Внутренние ИИ‑инструменты для команды: чат‑боты поддержки, классификация обращений, суммаризация документов, автогенерация отчётов. Каждый из этих процессов повторяется без мышления — значит, человек не должен им заниматься.

n8nLLMИИ-агентыRAGOpenAI APIPythonWhisper

Кому подходит

→ Данные в десятке систем — SAP, 1C, CRM, Excel — а единого источника правды нет
→ ИИ‑прототип есть, но не хватает экспертизы довести до продакшена и масштабировать
→ CRM, ERP, аналитика живут отдельно — данные теряются на стыках, расходятся между филиалами
→ Команда тонет в рутине — обращения, документация, отчёты — а на стратегию времени нет
→ Данных уже много, а команды данных и инфраструктуры для них ещё нет
→ Устаревшая инфраструктура: модернизация назрела, но непонятно, с чего начать и как не сломать работающее

Проекты

ETL-платформа для промышленного холдинга

Конфиденциально · промышленный сектор

Контекст и задача

Крупная промышленная структура с несколькими производственными дивизионами в разных регионах РФ. Данные из SAP, MSSQL, MySQL и PostgreSQL существовали изолированно, отчётность собиралась вручную, а передача параметров в подсистему управления технологическими процессами (АСУ ТП) требовала сложной бизнес-логики преобразований и валидации.

Решение

Спроектировал и внедрил централизованную ETL-платформу: Apache NiFi для оркестрации потоков между источниками, Airflow для планирования пакетных задач, Kafka для передачи событий в реальном времени. Реализовал слой нормализации и очистки данных, экспериментальный агрегат трансформации для подготовки данных к передаче в АСУ ТП со сложной маршрутизацией и валидацией на каждом этапе.

Результат

Единый поток данных из всех дивизионов. Время формирования сводной отчётности — с дней до часов. Ручной труд на сверках сведён к нулю. Подсистема АСУ ТП получает верифицированные данные автоматически.

Стек

Apache NiFiAirflowKafkaSAPMSSQLMySQLPostgreSQL

Анализ социальных графов и выявление лидеров мнений

Конфиденциально · государственная структура (СНГ)

Контекст и задача

Государственная структура в одной из стран СНГ. Необходимо было организовать непрерывный мониторинг социальных сетей: сбор и хранение графовых данных (связи между пользователями, сообщества, пересечения аудиторий), выявление кластеров влияния и отслеживание появления новых лидеров мнений в режиме, близком к реальному времени.

Решение

Развёрнут кластер Cloudera Hadoop (HDFS, YARN, Hive, HBase, Spark) для хранения и обработки больших объёмов данных. Краулинг реализован на Python (Scrapy) с распределённым планированием задач. Графовые структуры хранятся в Neo4j, кластерный анализ и ранжирование лидеров мнений — через Spark GraphX. Автоматическая генерация аналитических отчётов по расписанию.

Результат

Система обрабатывает миллионы узлов и связей. Новые лидеры мнений выявляются автоматически в течение суток после набора критической массы. Аналитические отчёты формируются без участия оператора.

Стек

HadoopHDFSSparkSpark GraphXHBaseHiveNeo4jScrapyPython

Распределённый краулинг и пайплайн данных

Конфиденциально · коммерческий заказчик

Контекст и задача

Заказчику требовался регулярный сбор данных с десятков внешних веб-источников с агрессивной анти-бот защитой. Данные нужно было нормализовать, дедуплицировать, загрузить в Hadoop и внутренние системы заказчика, а также обеспечить управленческую аналитику через информационные панели.

Решение

Построен распределённый краулер с ротацией через пул прокси-провайдеров, адаптивными алгоритмами обхода ограничений частоты запросов и капчи, интеллектуальным управлением скоростью запросов. ETL-пайплайн: очистка и нормализация → загрузка в HDFS/Hive → витрины для бизнес-аналитики (BI). Управленческие панели в Superset. Проработаны правовые и логистические аспекты сбора данных.

Результат

Стабильный автоматический сбор из 50+ источников — без единого ручного действия. Данные доступны аналитикам через информационные панели и ML‑инженерам через Hive/Spark в течение часов после появления на источнике.

Стек

PythonScrapyHadoopHDFSHiveSparkSuperset

RAG-платформа для обучения и поддержки сотрудников

Конфиденциально · промышленный заказчик

Контекст и задача

Техническая документация заказчика — тысячи страниц PDF на английском языке: регламенты, спецификации оборудования, инструкции по эксплуатации. Инженеры и операторы на местах работают на русском языке и тратили часы на поиск нужных фрагментов. Критическое требование: нулевой уровень галлюцинаций — ответы строго по тексту документации, любая вольная интерпретация недопустима из-за специфики предметной области.

Решение

Построена RAG-платформа: загрузка и парсинг PDF-документов с сохранением структуры (разделы, таблицы, схемы), чанкинг с учётом семантических границ, индексация в векторную базу данных. Поисковый слой с гибридным поиском (семантический + ключевой) обеспечивает точное извлечение релевантных фрагментов. Генерация ответа через GPT-4 с жёстким промпт-инжинирингом: модель отвечает только на основе найденных фрагментов, каждый тезис сопровождается ссылкой на конкретный документ, раздел и страницу. Кросс-язычность: вопрос на русском → поиск по английским документам → ответ на русском с цитатами из оригинала.

Результат

Время поиска информации сократилось с часов до секунд. Сотрудники получают точные ответы с прямыми ссылками на источник, галлюцинации исключены на уровне архитектуры. Платформа используется ежедневно несколькими подразделениями.

Стек

GPT-4RAGВекторная БДPythonРазбор PDFГибридный поиск

Серверная часть федерального портала Госуслуги

gosuslugi.ru

Контекст и задача

Единый портал государственных услуг РФ. Разработка нескольких подсистем бэкенда с высокой нагрузкой, строгими требованиями к безопасности (включая криптографию ГОСТ) и необходимостью интеграции с десятками ведомственных систем.

Решение

Лидер команды разработки, которую собрал с нуля и вырастил до 15 человек. Стек: Spring, MyBatis, Oracle, RabbitMQ, CXF (SOAP-интеграции с ведомствами), CryptoPro для ГОСТ-шифрования. Внедрил Scrum и непрерывную интеграцию (CI).

Результат

Подсистемы запущены в продакшен и обслуживают десятки миллионов граждан. Команда продолжила работу после передачи.

Стек

JavaSpringOracleRabbitMQCryptoProJBoss

Как я работаю

Диагностика

1–2 недели. Аудит данных, ETL, инфраструктуры. На выходе — карта текущего состояния и приоритеты.

Дизайн решения

Схема целевой архитектуры, оценка рисков, стоимости и сроков. Вы понимаете, за что платите.

Пилот

Быстрый прототип на реальных данных. Результат можно показать бизнесу.

Продакшен

Развёртывание, мониторинг, документация. Ваша команда может работать самостоятельно.

Поддержка

Итерации, развитие, передача экспертизы. Зависимость от меня снижается с каждым месяцем.

Готовы обсудить ваш проект?

30–40 минут → разберём узкие места → предложение с оценкой сроков и стоимости. Даже если не стартуем — получите свежий взгляд на свои процессы.

Обсудить проект

Опыт — 22+ года

2022 — настоящее время

Технический директор (CTO) · Octocode

ИИ-решения, пайплайны данных, управление продуктами и командами. Заказная разработка, собственные продукты и консультирование по ИИ и данным.

2017 — настоящее время

Генеральный директор · ИП Гармаш

Полный цикл: от архитектуры до поставки. Стратегическое и оперативное управление проектами, подбор и обучение персонала.

2015 — 2017

Зам. технического директора · I-Sys

Платформа больших данных (Cloudera Hadoop), система анализа данных соцсетей, грант ФАСИ. Развитие направления технологий больших данных.

2014 — 2015

Руководитель отдела веб-разработки · Softline

Управление офисом разработки (50 человек). Внедрение непрерывной интеграции (CI), код-ревью, системы управления загрузкой.

2011 — 2014

Руководитель группы / департамента · I-Sys

Серверная часть gosuslugi.ru, RTB-платформа, рост команды с нуля до 15 человек.

Ранняя карьера: 2004 — 2011

2010 — 2011 — Технический директор, Синертех — система электронных дневников, внедрение Scrum

2008 — 2010 — Java-разработчик, Comments (Москва) — интеграции для NCR, QIWI, Библио Глобус

2006 — 2009 — Программист, 36,6 — корпоративные информационные системы

2004 — 2006 — Разработчик C++/C#, SystemSoft / ВИТА ПЛЮС — промышленные контроллеры, MFC, .NET

От C++ и промышленных систем до первой роли технического директора за 6 лет.

Технологический стек

ИИ / машинное обучение

LlamaRAGMLOpsДообучениеПромпт-инжинирингЭмбеддингиВекторная БДPyTorchscikit-learnNLPWhisperИИ-агентыКомпьютерное зрение

Данные / ETL

SparkKafkaAirflowNiFiHadoopHDFSHiveHBaseOozieClickHouseYARNMapReduceFlumeУправление данными

Базы данных

PostgreSQLMongoDBOracleMSSQLMySQLElasticsearchRedisClickHouseQdrantSQLiteCouchDBMariaDB

Языки программирования

JavaPythonJavaScriptTypeScriptGroovySQLBash

DevOps

DockerAnsibleJenkinsGitLab CIGitHub ActionsKubernetesTerraformHelmNginxLinuxGitPrometheusGrafanaAWSGCPAzureArgoCDVaultConsul

Языки

Русский (родной)English (C1 — Advanced)

Частые вопросы

С кем я буду работать?

Со мной напрямую. При необходимости подключаю свою команду из Octocode под конкретный проект — разработчиков, аналитиков данных, DevOps-инженеров.

Как начинается работа?

Созвон 30–40 минут, чтобы понять задачу → короткий аудит текущей ситуации → предложение с оценкой сроков, стоимости и рисков.

Какие форматы сотрудничества?

Фиксированный спринт (2–6 недель) с понятными артефактами, оплата по времени и затратам (Time & Material) для длительных проектов, или внештатный технический директор / руководитель направления данных — N часов в месяц на постоянной основе.

Работаете ли с удалёнными командами?

Да. Более 15 лет опыта управления распределёнными командами. Готов к командировкам при необходимости.

Как обеспечивается конфиденциальность?

Работаю под соглашением о неразглашении (NDA). Все данные остаются на вашей инфраструктуре. Доступы — минимально необходимые, с отзывом после завершения проекта.

Что нужно от нашей команды на старте?

2‑3 часа ключевого специалиста для погружения в контекст. Дальше — точка контакта для вопросов и доступы к системам. Основную работу веду сам.

Какой порядок бюджета?

Зависит от формата. Фиксированный спринт — понятная сумма до старта. По времени и затратам — ежемесячная оценка с контролем. В обоих случаях — прозрачная разбивка, никаких скрытых расходов. Конкретные цифры — после 30‑минутного разбора задачи.

Аудит данных и ETL*

MVP* ИИ/ML‑решения

Интеграция и пайплайны

ИИ‑автоматизация процессов

ETL-платформа для промышленного холдинга

Контекст и задача

Решение

Результат

Стек

Анализ социальных графов и выявление лидеров мнений

Контекст и задача

Решение

Результат

Стек

Распределённый краулинг и пайплайн данных

Контекст и задача

Решение

Результат

Стек

RAG-платформа для обучения и поддержки сотрудников

Контекст и задача

Решение

Результат

Стек

Серверная часть федерального портала Госуслуги

Контекст и задача

Решение

Результат

Стек

Диагностика

Дизайн решения

Пилот

Продакшен

Поддержка

Готовы обсудить ваш проект?

Ранняя карьера: 2004 — 2011

Аудит данных и ETL^*

MVP^* ИИ/ML‑решения