Урок за интеграция на данни в Pentaho

⚡ Умно обобщение

Урокът за интеграция на данни на Pentaho представя ETL платформата с отворен код, известна още като Kettle. LessОбхващат историята, приложенията, предварителните изисквания, компонентите, трансформациите, задачите, инсталацията, както и предимствата и недостатъците на използването на Pentaho.

  • 🛠️ Какво е Пентахо: Pentaho е BI пакет с отворен код, включващ ETL, отчети, OLAP и инструменти за извличане на данни.
  • 🔁 ETL на чайника: Инструментът за интеграция на данни на Pentaho, наречен Kettle, изгражда визуални ETL трансформации и задачи.
  • 📋 Трансформации срещу работни места: Трансформациите обработват редове от потока от данни; задачите оркестрират контрол на работния процес на по-високо ниво.
  • 🌐 Широка свързаност: Свързва се с релационни бази данни, източници на големи данни, файлове, облачно съхранение и SaaS API.
  • 📊 Пакет за отчетност: Вградените отчети, таблата за управление и Mondrian OLAP предоставят анализи на бизнес потребителите.
  • 🤖 Интегриране на AI: Свържете Pentaho ETL с AI услуги за прогнозно оценяване и автоматизирано качество на данните.

Урок за интеграция на данни в Pentaho

Какво е Pentaho BI?

Пентахо е инструмент за бизнес разузнаване, който предоставя широка гама от решения за бизнес разузнаване на клиентите. Той е способен на отчитане, анализ на данни, интегриране на данни, извличане на данни и т.н. Pentaho също предлага изчерпателен набор от BI функции, които ви позволяват да подобрите ефективността и ефективността на бизнеса.

Характеристики на Pentaho

Следват важни характеристики на Pentaho:

  • Възможности на ETL за нуждите на бизнес разузнаването
  • Разбиране на Pentaho Report Designer
  • Продуктова експертиза
  • Предлага паралелни подотчети
  • Отключване на нови възможности
  • Професионална поддръжка
  • Запитване и отчитане
  • Предлага подобрена функционалност
  • Пълна поддръжка на метаданни по време на изпълнение от източници на данни

Pentaho BI пакет

Сега ще научим за пакета Pentaho BI в този урок на Pentaho:

Pentaho BI Suite
Pentaho BI Suite

Pentaho BI Suite включва следните компоненти:

Pentaho Reporting

Pentaho Reporting зависи от проекта JFreeReport. Помага ви да изпълните нуждите си от бизнес отчети. Този компонент също така предлага публикуване на отчети както по график, така и по заявка в популярни формати като XLS, PDF, TXT и HTML.

Анализ

Той предлага широка гама от анализи, широка гама от функции, включително изглед на обобщена таблица. Инструментът предоставя подобрени GUI функции (използвайки Flash или SVG), интегрирани модули за табло, портал и интеграция на работния процес.

Освен това Pentaho Spreadsheet Services позволява на потребителя да преглежда, завърта и използва диаграма от MS Excel.

Dashboards

Таблото за управление предлага отчети и анализи, които допринасят със съдържание към таблата за управление на Pentaho. Дизайнерът на таблото за самообслужване включва обширни вградени шаблони и оформление на таблото. Той позволява на бизнес потребителите да създават персонализирани табла за управление с малко обучение.

Data Mining

Инструмент за извличане на данни открива скрити модели и индикатори за бъдещо представяне. Той предлага най-изчерпателния набор от алгоритми за машинно обучение от проекта Weka, който включва групиране, дървета на решения, произволни гори, анализ на главните компоненти, невронни мрежи.

Тя ви позволява да преглеждате данни графично, да взаимодействате с тях програмно или да използвате множество източници на данни за отчети, допълнителен анализ и други процеси.

Pentaho Data Integration

Този компонент се използва за интегриране на данни, където и да съществува.

Богата библиотека за трансформации с над 150 готови картиping обекти.

Той поддържа широк набор от източници на данни, който включва повече от 30 платформи с отворен код и собствени бази данни, плоски файлове. Също така помага Анализ на големи данни с интегриране и управление на данни на Hadoop.

Кой използва Pentaho BI?

Pentaho BI е широко използван инструмент от софтуерни специалисти като:

  • Софтуерни програми с отворен код
  • Бизнес анализатор и изследовател
  • Студенти
  • Съветник по бизнес разузнаване

Как да инсталирате Pentaho в AWS

Следва стъпка по стъпка процес за инсталиране на Pentaho в AWS.

Стъпка 1) Щракнете върху Продължете, за да се абонирате
Отиди https://aws.amazon.com/marketplace/pp/prodview-mce2xdbgie4ro и щракнете върху Продължи

Инсталирайте Pentaho в AWS

Стъпка 2) Приемете Общите условия
На следващата страница приемете лицензионното споразумение

Инсталирайте Pentaho в AWS

Стъпка 3) Щракнете върху Продължи към конфигурацията
Продължете към конфигуриране

Инсталирайте Pentaho в AWS

Стъпка 4) Щракнете върху Продължи към стартиране
Запазете настройките по подразбиране и щракнете, за да стартирате

Инсталирайте Pentaho в AWS

Стъпка 5) Изчакайте например 5 минути, за да стартирате
Проверете инструкциите за употреба и изчакайте

Инсталирайте Pentaho в AWS

Стъпка 6) Вземете публичен IP
Копирайте публичния IP на инстанцията.

Инсталирайте Pentaho в AWS

Стъпка 7) Използвайте публичния IP за влизане
Поставете публичния IP на екземпляра за достъп до Pentaho.

Инсталирайте Pentaho в AWS

Предпоставка за Пентахо

  • Хардуерни изисквания
  • Софтуерни изисквания
  • Изтегляне и инсталиране на Bl suite
  • Стартиране на пакета Bl
  • Администриране на пакет Bl

Изискване за хардуер

Софтуерът Pentaho Bl Suite няма никакви ограничения за корекции на компютър или мрежов хардуер, стига да отговаряте на минималните софтуерни изисквания. Инсталирането на този инструмент за бизнес разузнаване е лесно. Препоръчителен набор от системни спецификации обаче:

RAM Минимум 2GB
Място на твърдия диск Минимум 1GB
Процесор Двуядрен EM64T или AMD64

Софтуерни изисквания

  • Инсталиране на Sun JRE 5.0
  • Средата може да бъде 32-битова или 64-битова
  • Подкрепа Operating системи: Linux, Solaris, Windows, Mac
  • Работна станция, която има модерен интерфейс на уеб браузър като Chrome, Internet Explorer, Firefox

За да стартирате Bl-сървър

  • On Windows от самото начало щракнете върху бутона за стартиране на иконата на Bl сървър.
  • В Linux OS изпълнете скрипта start-pentaho в /biserver-ce/directory

За да стартирате администраторския сървър

  • On Windows от бутона за стартиране щракнете върху стартиране на корпоративния сървър на Bl.
  • За Linux: отидете в командния прозорец и стартирайте стартиращия скрипт в /biserver-ce/administration-console/directory.

За да спрете администраторския сървър

  • За да спрете сървъра в Windows, щракнете върху иконите за спиране на би-сървър.
  • На Linux. Трябва да отидете на терминала и да отидете в инсталираната директория и да стартирате stop.bat

Административна конзола на Pentaho

Дизайнер на отчети

Това е усъвършенстван инструмент за създаване на отчети. Това е идеален инструмент за вас, ако искате да създадете пълен отчет за устройство с данни. Този инструмент предлага изобилие от гъвкавост и функционалност в сравнение с ad hoc възможностите за докладване на Pentaho User Console.

Дизайн Студио

Това е Eclipseбазиран инструмент. Позволява ви да редактирате ръчно отчет или анализ. Той се използва широко за добавяне на модификации към съществуващ отчет, които не могат да бъдат добавени с дизайнера на отчети.

Дизайнер на агрегиране

Този графичен инструмент ви позволява да подобрите ефективността на куб Мондриан.

Редактор на метаданни

Използва се за добавяне на персонализиран слой метаданни към всеки съществуващ източник на данни.

Pentaho Data Integration

Бившият чайникtracинструмент за t, трансформация и зареждане (ETL), който позволява

Pentaho Tool срещу BI стек

Pentaho Tool BI стек
Интегриране на данни (PDI) ETL
Предлага редактор на метаданни Той осигурява управление на метаданни
Пентахо BA Анализи
Дизайнер на отчети Operaнационално отчитане
Сайку Ad-hoc докладване
CDE Dashboards
Pentaho потребителска конзола (PUC) Управление/Мониторинг

Предимства на Pentaho

Сега в този урок за интегриране на данни на Pentaho ще научим за някои предимства на Pentaho Business Intelligence Tool:

  • Pentaho BI е много интуитивен инструмент. С някои основни концепции можете да работите с него.
  • Прост и лесен за използване инструмент за бизнес разузнаване
  • Предлага широк набор от BI възможности, които включват отчитане, табло за управление, интерактивен анализ, интегриране на данни, извличане на данни и др.
  • Предлага се с удобен за потребителя интерфейс и предоставя различни инструменти за извличане на данни от множество източници на данни
  • Предлага един пакет за работа с данни
  • Има издание на общността с много сътрудници заедно с изданието Enterprise.
  • Възможността за работа в клъстера Hadoop
  • JavaКодът на скрипта, написан в компонентите на стъпката, може да се използва повторно в други компоненти.

Недостатъци на Pentaho

Ето минусите/недостатъците на използването на инструмента Pentaho BI:

  • Дизайнът на интерфейса може да е слаб и няма унифициран интерфейс за всички компоненти.
  • Много по-бавно развитие на инструмента в сравнение с други BI инструменти.
  • Pentaho Business analytics предлага ограничен брой компоненти.
  • Слаба подкрепа от общността. Така че, ако не получите работещ компонент, трябва да изчакате, докато бъде пусната следващата версия.

Въпроси и Отговори

Kettle е оригиналното име на Pentaho Data Integration, ETL компонента. Pentaho е по-широкият пакет, който обединява Kettle с инструменти за отчитане, OLAP, табла за управление и инструменти за извличане на данни.

Да. Асистентите с изкуствен интелект генерират стъпки за трансформация, предлагат съединения и обясняват изрази на Kettle. Те ускоряват адаптацията и предлагат оптимизирана оркестрация на задачите за нови инженери на данни.

Изкуственият интелект се интегрира с Pentaho, като се обажда на външни услуги за оценяване или Python стъпки. Той сигнализира за аномалии, прогнозира отклонение на схемата и препоръчва правила, които улавят „мръсните“ данни преди зареждането им в хранилището.

Да. Hitachi Vantara поддържа Pentaho Community Edition наред с търговския Enterprise пакет. Изданията за общност включват основни ETL, функции за отчитане и анализ за самостоятелно хоствани внедрявания.

Трансформацията работи върху редове от данни, преминаващи едновременно през стъпки. Задачата оркестрира контрол на потока от по-високо ниво, изпълнявайки трансформации последователно с условия, повторни опити и обработка на грешки.

Пентахо се свързва с MySQL, PostgreSQL, Oracle, SQL Server, Hadoop, Spark, REST API, CSV, JSON, XML, облачно съхранение и много SaaS приложения чрез вградени плъгини и JDBC драйвери.

Да. Pentaho може да бъде внедрен в AWS, Azure, Google Cloudи Kubernetes, използващи образи на контейнери. Hitachi предоставя управлявани услуги и референтни архитектури за внедрявания на ETL, базирани на облак.

Начинаещите изграждат първата си трансформация за една седмица. Овладяването на оркестрацията на задачи, оптимизирането на производителността и клъстерното изпълнение обикновено отнема от три до шест месеца практическа работа по ETL ��роекти.

Обобщете тази публикация с: