Архив метки: data integration

Data Integration — Kettle | Веб-сервис без шуму и пыли

Reading Time: 2 minutes

Всем кетловодам доброго дня.
Продолжаем серию статей про kettle. Сегодня мы рассмотрим как быстро поднять веб-сервис. Без лишних предисловий давайте нырнём в гущу событий. Читать далее

Data Integration — Kettle | Запуск работы/трансформации для каждой строки.

Reading Time: 2 minutes

data-integration-kettle-run_job_or_transformation_for_each_row

Продолжаем изучение базовых возможностей kettle.

Задача: «Трансформация произвела какую-то обработку и получила на выходе n строк. Для каждой строки необходимо выполнить работу.»

Задача сформулирована в общем виде, но этого вполне достаточно. Читать далее

Data Integration — Kettle | Обработка больших XML файлов на примере базы ФИАС

Reading Time: 2 minutes

И вот очередная ночь и скрипт почти готов. Ты пытаешься прогнать его на всём объёме данных, и вдруг на твоих глазах наворачиваются слёзы, грудь сковывает отчаянье и боль за потраченное время не даёт давить по клавишам и двигать мышь. Ты увидел красными буквами надпись в логе обработке «out of memory» у шага для чтения xml файла.  Ну ни чего, ты собираешься с мыслями и копаешься в документациях, примерах и прочем, что выдаст тебе «старший брат». Ну что же, я постараюсь избавить тебя от лишних телодвижений и показать путь покороче.

Читать далее

Data Integration — Kettle | Парсинг HTML в 4 шага.

Reading Time: 1 minute

Я вам советую не сильно радоваться в надежде на халявный универсальный способ разбора HTML страниц. Это задача всегда решается под конкретный сайт с использованием разнообразных инструментов. Но да, наша трансформация для разбора HTML страницы действительно будет состоять не больше чем из 4-х шагов.

Читать далее