Логистический оператор
ETL-пайплайн транспортной отчётности
AI: LLM-валидация и обогащение данных, fuzzy-матчинг ФИО и адресов.
Технологии
Python 3.12, Pandas, Pandera Parquet, Yandex Disk API LLM-обогащение и матчинг
Задача
Каждый день нужно собрать с Яндекс.Диска десятки Excel-файлов с путевыми листами и актами, привести к единой структуре, проверить данные и положить в аналитическое хранилище. До этого делали вручную.
Решение
Классический Bronze/Silver/Gold-пайплайн на Python + Parquet с Pandera-валидацией. Отдельный слой Final для итоговых актов. Нормализация госномеров, обогащение через LLM (резолв ФИО водителей, адресов), отчёт качества данных.
Результат
Ежедневная обработка перешла из ручного режима в автоматический. Ошибки в данных стали видны в момент загрузки, а не в конце месяца.
Слои данных
- Bronze — сырые данные с минимальной нормализацией
- Silver — очищенные и валидированные через Pandera
- Gold — агрегированные витрины
- Final — итоговые акты с собственными bronze/silver-слоями
Обсудим ваш проект
Расскажите задачу — за 1-2 рабочих дня вернёмся с оценкой объёма, сроков и подхода.