Свободное ETL средство. Kettle Pentaho краткий обзор и простой пример.

2 мин.

kettle-header-dashboard

Это вводная статья с целью ознакомить читателя с данным ПО. В дальнейшем я буду рассматривать реализацию большого количества интересных и полезных задач, первая статья уже готовиться, но к сожалению у меня не так много времени и приходится писать по вечерам.  Ещё хотелось бы ко всему подготовить видео материалы, что тоже весьма трудозатратно.

Начнём мы с того, что прочитаем в википедии что же такое ETL . Не переживайте если вы с первого раза так и не поняли для чего это нужно и что это вообще такое.   Сейчас я попытаюсь объяснить в двух словах.

На самом деле весь смысл в названии явно отражён. «ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка») «.  т. е. это некий программный продукт, который благодаря своим инструментам и компонентам позволяет получать данные из всевозможных источников. Такие как html страницы, базы данных, xls, doc, xml и многие другие.  Полученные данные позволяет преобразовать и в последствии загрузить опять же в различные места.

Скачиваем kettle pentaho: http://community.pentaho.com/projects/data-integration/

Это всего лишь архив, так что распаковываем его в любое место, какое удобно.   Я расположил папочку data-integration в корне диска «C». Заходим туда ищем файлик spoon.bat и запускаем его.   Единственная проблема, которая может возникнуть, это отсутствие java, о чём kettle вам ненавязчиво намекает.

Просто идём и скачиваем java: https://www.java.com/ru/download/

Если всё равно что-то не получилось, посмотрите видео:


Всё, теперь можно приступить к реализации простого примера. Создаём первую трансформацию. Что же такое трансформация-  это правила. Именно в трансформациях указывается, что извлечь, откуда, как преобразовать и куда после всего этого загрузить.  Самое главное что нужно понимать, это то, что в трансформации всеми данными можно манипулировать только посредством строк и столбцов.  Вы поймёте о чем я, когда сделаете простую задачку.  В качестве  «hellow word», сделаем перегрузку из одного  xls файла в несколько в зависимости от значения.

Вот по этому поводу видео:

Теперь представьте, что загружаете вы в базу данных, а получаете данные с ftp, куда еженедельно кто-то складывает тот или иной отчёт,  но об этом читайте в следующий статьях. Нас ждёт много интересного. В плоть до реализации небольшого интересного проекта. 🙂

 

Свободное ETL средство. Kettle Pentaho краткий обзор и простой пример.: 4 комментария

  1. Андрей

    Добрый день

    Вот я строго следовал Вашему руководству

    Однако при первоначальном запуске SPOON.BAT я получил сообщение, что не может быть найден JAVAW

    Ну ладно, ввел я прерменную PENTAHO_JAVA_HOME с значением C:\Program Files (x86)\Java\jre1.8.0_77

    Но таки при запуске SPOON.BAT никакое PENTAHO не запускается, а получается только вот это:

    DEBUG: Using PENTAHO_JAVA_HOME 16:16
    DEBUG: _PENTAHO_JAVA_HOME=C:\Program Files (x86)\Java\jre1.8.0_77
    DEBUG: _PENTAHO_JAVA=C:\Program Files (x86)\Java\jre1.8.0_77\bin\javaw.exe

    C:\ICH\PENTAHO\data-integration>start «Spoon» «C:\Program Files (x86)\Java\jre1.8.0_77\bin\javaw.exe» «-Xms1024
    libswt\win32» «-DKETTLE_HOME=» «-DKETTLE_REPOSITORY=» «-DKETTLE_USER=» «-DKETTLE_PASSWORD=» «-DKETTLE_PLUGIN_PAC
    .0.1.0-386.jar -lib ..\libswt\win32

    И что же делать?

    У меня Windows 8, 64-bit Operating system, x-64 based processor

    1. ilinei52 Автор записи

      Добрый день.
      1) Установите 64-х битную версию java.
      2) Попробуйте запустить spoon.bat от имени администратора.
      3) Подскажите какую версию Pentaho Data Integration вы скачали?
      Отпишитесь по результату.

  2. Борис

    Это конечно все здорово. Был рад повторить пример до того момента, когда обнаружилось, что решение не работает с информацией занесенной в таблицу на русском языке. Есть выход из этой ситуации. У меня, прочем как и у большинства держателей БД сплошь и рядом данные на родном и могучем.

    1. ilinei52 Автор записи

      У меня не возникало проблем с кириллицей, если речь о кодировке идёт конечно же. Какая у вас версия kettle и где именно возникает проблема с родным и могучем?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *


Срок проверки reCAPTCHA истек. Перезагрузите страницу.