Максим Гармаш

ИИ/ML и инженерия данных — консультирование и разработка

Устраняю работу, которая не заслуживает человеческого внимания. Превращаю сырые данные и ручные процессы в предсказуемые ИИ‑сервисы и автоматику — за недели, не месяцы.

Максим Гармаш
Подход
Если действие повторяется без участия мышления — это дефект, а не работа.

Данные не должны переноситься вручную. Отчёты не должны собираться руками. Ответы на типовые вопросы не должны отнимать время специалиста.

За 22 года сменились технологии — конвейеры данных (ETL), оркестраторы, ИИ‑агенты — но принцип один: каждый повторяющийся процесс без мышления можно и нужно передать системе. Чем точнее проведена эта граница, тем больше людей занимаются тем, что действительно требует головы.

Чем я помогаю
Аудит пайплайнов данных

Аудит данных и ETL*

Фиксированный спринт 2 недели. Выявляю узкие места пайплайнов, точки отказа и риски качества данных. На выходе — дорожная карта с приоритетами и схема целевой архитектуры: что чинить первым и сколько это займёт.

KafkaAirflowNiFiHadoopPostgreSQLУправление даннымиClickHouseDataOpsSQL

* ETL — извлечение, преобразование, загрузка данных

ИИ/ML-решение

MVP* ИИ/ML‑решения

4–6 недель от гипотезы до тестового продакшена. Скоринг, рекомендации, прогноз, RAG*‑ассистент по документации — беру одну задачу и довожу до результата, который можно измерить и показать бизнесу.

OpenAI APILlamaRAGMLOpsPythonВекторная БДДообучениеПромпт-инжинирингЭмбеддингиNLPFastAPI

* MVP — минимально жизнеспособный продукт · RAG — генерация ответов с извлечением из базы знаний

Системная интеграция

Интеграция и пайплайны

Сквозные потоки данных между CRM, ERP, SAP, аналитикой и внешними сервисами. Нормализация, очистка, маршрутизация — чтобы данные не терялись по дороге, отчётность сходилась, а решения принимались быстрее.

NiFiKafkaAirflowSAPREST APISOAPPostgreSQLMSSQLn8nRabbitMQRedis1CCRMERPGraphQL
ИИ-автоматизация процессов

ИИ‑автоматизация процессов

Внутренние ИИ‑инструменты для команды: чат‑боты поддержки, классификация обращений, суммаризация документов, автогенерация отчётов. Каждый из этих процессов повторяется без мышления — значит, человек не должен им заниматься.

n8nLLMИИ-агентыRAGOpenAI APIPythonWhisper
Кому подходит
Проекты

ETL-платформа для промышленного холдинга

Конфиденциально · промышленный сектор

Контекст и задача

Крупная промышленная структура с несколькими производственными дивизионами в разных регионах РФ. Данные из SAP, MSSQL, MySQL и PostgreSQL существовали изолированно, отчётность собиралась вручную, а передача параметров в подсистему управления технологическими процессами (АСУ ТП) требовала сложной бизнес-логики преобразований и валидации.

Решение

Спроектировал и внедрил централизованную ETL-платформу: Apache NiFi для оркестрации потоков между источниками, Airflow для планирования пакетных задач, Kafka для передачи событий в реальном времени. Реализовал слой нормализации и очистки данных, экспериментальный агрегат трансформации для подготовки данных к передаче в АСУ ТП со сложной маршрутизацией и валидацией на каждом этапе.

Результат

Единый поток данных из всех дивизионов. Время формирования сводной отчётности — с дней до часов. Ручной труд на сверках сведён к нулю. Подсистема АСУ ТП получает верифицированные данные автоматически.

Стек

Apache NiFiAirflowKafkaSAPMSSQLMySQLPostgreSQL

Анализ социальных графов и выявление лидеров мнений

Конфиденциально · государственная структура (СНГ)

Контекст и задача

Государственная структура в одной из стран СНГ. Необходимо было организовать непрерывный мониторинг социальных сетей: сбор и хранение графовых данных (связи между пользователями, сообщества, пересечения аудиторий), выявление кластеров влияния и отслеживание появления новых лидеров мнений в режиме, близком к реальному времени.

Решение

Развёрнут кластер Cloudera Hadoop (HDFS, YARN, Hive, HBase, Spark) для хранения и обработки больших объёмов данных. Краулинг реализован на Python (Scrapy) с распределённым планированием задач. Графовые структуры хранятся в Neo4j, кластерный анализ и ранжирование лидеров мнений — через Spark GraphX. Автоматическая генерация аналитических отчётов по расписанию.

Результат

Система обрабатывает миллионы узлов и связей. Новые лидеры мнений выявляются автоматически в течение суток после набора критической массы. Аналитические отчёты формируются без участия оператора.

Стек

HadoopHDFSSparkSpark GraphXHBaseHiveNeo4jScrapyPython

Распределённый краулинг и пайплайн данных

Конфиденциально · коммерческий заказчик

Контекст и задача

Заказчику требовался регулярный сбор данных с десятков внешних веб-источников с агрессивной анти-бот защитой. Данные нужно было нормализовать, дедуплицировать, загрузить в Hadoop и внутренние системы заказчика, а также обеспечить управленческую аналитику через информационные панели.

Решение

Построен распределённый краулер с ротацией через пул прокси-провайдеров, адаптивными алгоритмами обхода ограничений частоты запросов и капчи, интеллектуальным управлением скоростью запросов. ETL-пайплайн: очистка и нормализация → загрузка в HDFS/Hive → витрины для бизнес-аналитики (BI). Управленческие панели в Superset. Проработаны правовые и логистические аспекты сбора данных.

Результат

Стабильный автоматический сбор из 50+ источников — без единого ручного действия. Данные доступны аналитикам через информационные панели и ML‑инженерам через Hive/Spark в течение часов после появления на источнике.

Стек

PythonScrapyHadoopHDFSHiveSparkSuperset

RAG-платформа для обучения и поддержки сотрудников

Конфиденциально · промышленный заказчик

Контекст и задача

Техническая документация заказчика — тысячи страниц PDF на английском языке: регламенты, спецификации оборудования, инструкции по эксплуатации. Инженеры и операторы на местах работают на русском языке и тратили часы на поиск нужных фрагментов. Критическое требование: нулевой уровень галлюцинаций — ответы строго по тексту документации, любая вольная интерпретация недопустима из-за специфики предметной области.

Решение

Построена RAG-платформа: загрузка и парсинг PDF-документов с сохранением структуры (разделы, таблицы, схемы), чанкинг с учётом семантических границ, индексация в векторную базу данных. Поисковый слой с гибридным поиском (семантический + ключевой) обеспечивает точное извлечение релевантных фрагментов. Генерация ответа через GPT-4 с жёстким промпт-инжинирингом: модель отвечает только на основе найденных фрагментов, каждый тезис сопровождается ссылкой на конкретный документ, раздел и страницу. Кросс-язычность: вопрос на русском → поиск по английским документам → ответ на русском с цитатами из оригинала.

Результат

Время поиска информации сократилось с часов до секунд. Сотрудники получают точные ответы с прямыми ссылками на источник, галлюцинации исключены на уровне архитектуры. Платформа используется ежедневно несколькими подразделениями.

Стек

GPT-4RAGВекторная БДPythonРазбор PDFГибридный поиск

Серверная часть федерального портала Госуслуги

gosuslugi.ru

Контекст и задача

Единый портал государственных услуг РФ. Разработка нескольких подсистем бэкенда с высокой нагрузкой, строгими требованиями к безопасности (включая криптографию ГОСТ) и необходимостью интеграции с десятками ведомственных систем.

Решение

Лидер команды разработки, которую собрал с нуля и вырастил до 15 человек. Стек: Spring, MyBatis, Oracle, RabbitMQ, CXF (SOAP-интеграции с ведомствами), CryptoPro для ГОСТ-шифрования. Внедрил Scrum и непрерывную интеграцию (CI).

Результат

Подсистемы запущены в продакшен и обслуживают десятки миллионов граждан. Команда продолжила работу после передачи.

Стек

JavaSpringOracleRabbitMQCryptoProJBoss
Как я работаю
1

Диагностика

1–2 недели. Аудит данных, ETL, инфраструктуры. На выходе — карта текущего состояния и приоритеты.

2

Дизайн решения

Схема целевой архитектуры, оценка рисков, стоимости и сроков. Вы понимаете, за что платите.

3

Пилот

Быстрый прототип на реальных данных. Результат можно показать бизнесу.

4

Продакшен

Развёртывание, мониторинг, документация. Ваша команда может работать самостоятельно.

5

Поддержка

Итерации, развитие, передача экспертизы. Зависимость от меня снижается с каждым месяцем.

Готовы обсудить ваш проект?

30–40 минут → разберём узкие места → предложение с оценкой сроков и стоимости. Даже если не стартуем — получите свежий взгляд на свои процессы.

Обсудить проект
Опыт — 22+ года
2022 — настоящее время
Технический директор (CTO) · Octocode
ИИ-решения, пайплайны данных, управление продуктами и командами. Заказная разработка, собственные продукты и консультирование по ИИ и данным.
2017 — настоящее время
Генеральный директор · ИП Гармаш
Полный цикл: от архитектуры до поставки. Стратегическое и оперативное управление проектами, подбор и обучение персонала.
2015 — 2017
Зам. технического директора · I-Sys
Платформа больших данных (Cloudera Hadoop), система анализа данных соцсетей, грант ФАСИ. Развитие направления технологий больших данных.
2014 — 2015
Руководитель отдела веб-разработки · Softline
Управление офисом разработки (50 человек). Внедрение непрерывной интеграции (CI), код-ревью, системы управления загрузкой.
2011 — 2014
Руководитель группы / департамента · I-Sys
Серверная часть gosuslugi.ru, RTB-платформа, рост команды с нуля до 15 человек.

Ранняя карьера: 2004 — 2011

2010 — 2011 — Технический директор, Синертех — система электронных дневников, внедрение Scrum
2008 — 2010 — Java-разработчик, Comments (Москва) — интеграции для NCR, QIWI, Библио Глобус
2006 — 2009 — Программист, 36,6 — корпоративные информационные системы
2004 — 2006 — Разработчик C++/C#, SystemSoft / ВИТА ПЛЮС — промышленные контроллеры, MFC, .NET
От C++ и промышленных систем до первой роли технического директора за 6 лет.
Технологический стек
ИИ / машинное обучение
LlamaRAGMLOpsДообучениеПромпт-инжинирингЭмбеддингиВекторная БДPyTorchscikit-learnNLPWhisperИИ-агентыКомпьютерное зрение
Данные / ETL
SparkKafkaAirflowNiFiHadoopHDFSHiveHBaseOozieClickHouseYARNMapReduceFlumeУправление данными
Базы данных
PostgreSQLMongoDBOracleMSSQLMySQLElasticsearchRedisClickHouseQdrantSQLiteCouchDBMariaDB
Языки программирования
JavaPythonJavaScriptTypeScriptGroovySQLBash
DevOps
DockerAnsibleJenkinsGitLab CIGitHub ActionsKubernetesTerraformHelmNginxLinuxGitPrometheusGrafanaAWSGCPAzureArgoCDVaultConsul
Языки
Русский (родной)English (C1 — Advanced)
Частые вопросы
С кем я буду работать?
Со мной напрямую. При необходимости подключаю свою команду из Octocode под конкретный проект — разработчиков, аналитиков данных, DevOps-инженеров.
Как начинается работа?
Созвон 30–40 минут, чтобы понять задачу → короткий аудит текущей ситуации → предложение с оценкой сроков, стоимости и рисков.
Какие форматы сотрудничества?
Фиксированный спринт (2–6 недель) с понятными артефактами, оплата по времени и затратам (Time & Material) для длительных проектов, или внештатный технический директор / руководитель направления данных — N часов в месяц на постоянной основе.
Работаете ли с удалёнными командами?
Да. Более 15 лет опыта управления распределёнными командами. Готов к командировкам при необходимости.
Как обеспечивается конфиденциальность?
Работаю под соглашением о неразглашении (NDA). Все данные остаются на вашей инфраструктуре. Доступы — минимально необходимые, с отзывом после завершения проекта.
Что нужно от нашей команды на старте?
2‑3 часа ключевого специалиста для погружения в контекст. Дальше — точка контакта для вопросов и доступы к системам. Основную работу веду сам.
Какой порядок бюджета?
Зависит от формата. Фиксированный спринт — понятная сумма до старта. По времени и затратам — ежемесячная оценка с контролем. В обоих случаях — прозрачная разбивка, никаких скрытых расходов. Конкретные цифры — после 30‑минутного разбора задачи.
Контакты
max@garmash.org Telegram GitHub LinkedIn