Это вводная статья с целью ознакомить читателя с данным ПО. В дальнейшем я буду рассматривать реализацию большого количества интересных и полезных задач, первая статья уже готовиться, но к сожалению у меня не так много времени и приходится писать по вечерам. Ещё хотелось бы ко всему подготовить видео материалы, что тоже весьма трудозатратно.
Начнём мы с того, что прочитаем в википедии что же такое ETL . Не переживайте если вы с первого раза так и не поняли для чего это нужно и что это вообще такое. Сейчас я попытаюсь объяснить в двух словах.
На самом деле весь смысл в названии явно отражён. «ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка») «. т. е. это некий программный продукт, который благодаря своим инструментам и компонентам позволяет получать данные из всевозможных источников. Такие как html страницы, базы данных, xls, doc, xml и многие другие. Полученные данные позволяет преобразовать и в последствии загрузить опять же в различные места.
Скачиваем kettle pentaho: http://community.pentaho.com/projects/data-integration/
Это всего лишь архив, так что распаковываем его в любое место, какое удобно. Я расположил папочку data-integration в корне диска «C». Заходим туда ищем файлик spoon.bat и запускаем его. Единственная проблема, которая может возникнуть, это отсутствие java, о чём kettle вам ненавязчиво намекает.
Просто идём и скачиваем java: https://www.java.com/ru/download/
Если всё равно что-то не получилось, посмотрите видео:
Всё, теперь можно приступить к реализации простого примера. Создаём первую трансформацию. Что же такое трансформация- это правила. Именно в трансформациях указывается, что извлечь, откуда, как преобразовать и куда после всего этого загрузить. Самое главное что нужно понимать, это то, что в трансформации всеми данными можно манипулировать только посредством строк и столбцов. Вы поймёте о чем я, когда сделаете простую задачку. В качестве «hellow word», сделаем перегрузку из одного xls файла в несколько в зависимости от значения.
Вот по этому поводу видео:
Теперь представьте, что загружаете вы в базу данных, а получаете данные с ftp, куда еженедельно кто-то складывает тот или иной отчёт, но об этом читайте в следующий статьях. Нас ждёт много интересного. В плоть до реализации небольшого интересного проекта. 🙂
Добрый день
Вот я строго следовал Вашему руководству
Однако при первоначальном запуске SPOON.BAT я получил сообщение, что не может быть найден JAVAW
Ну ладно, ввел я прерменную PENTAHO_JAVA_HOME с значением C:\Program Files (x86)\Java\jre1.8.0_77
Но таки при запуске SPOON.BAT никакое PENTAHO не запускается, а получается только вот это:
DEBUG: Using PENTAHO_JAVA_HOME 16:16
DEBUG: _PENTAHO_JAVA_HOME=C:\Program Files (x86)\Java\jre1.8.0_77
DEBUG: _PENTAHO_JAVA=C:\Program Files (x86)\Java\jre1.8.0_77\bin\javaw.exe
C:\ICH\PENTAHO\data-integration>start «Spoon» «C:\Program Files (x86)\Java\jre1.8.0_77\bin\javaw.exe» «-Xms1024
libswt\win32» «-DKETTLE_HOME=» «-DKETTLE_REPOSITORY=» «-DKETTLE_USER=» «-DKETTLE_PASSWORD=» «-DKETTLE_PLUGIN_PAC
.0.1.0-386.jar -lib ..\libswt\win32
И что же делать?
У меня Windows 8, 64-bit Operating system, x-64 based processor
Добрый день.
1) Установите 64-х битную версию java.
2) Попробуйте запустить spoon.bat от имени администратора.
3) Подскажите какую версию Pentaho Data Integration вы скачали?
Отпишитесь по результату.
Это конечно все здорово. Был рад повторить пример до того момента, когда обнаружилось, что решение не работает с информацией занесенной в таблицу на русском языке. Есть выход из этой ситуации. У меня, прочем как и у большинства держателей БД сплошь и рядом данные на родном и могучем.
У меня не возникало проблем с кириллицей, если речь о кодировке идёт конечно же. Какая у вас версия kettle и где именно возникает проблема с родным и могучем?