Yeni Başlayanlar İçin DataStage Eğitimi: IBM DataStage (ETL Aracı) Eğitimi

DataStage nedir?

Veri Aşaması ETL (Veri Aktarımı, Teslim, İşleme) aracıdır ve veri çıkarmak için kullanılır.tracVeri kaynağındaki verileri hedef konuma dönüştürme, yükleme ve işleme süreçlerini gerçekleştirir. Bu verilerin kaynakları arasında sıralı dosyalar, indekslenmiş dosyalar, ilişkisel veritabanları, harici veri kaynakları, arşivler, kurumsal uygulamalar vb. yer alabilir. DataStage, iş zekası elde etmeye yardımcı olacak kaliteli veriler sağlayarak iş analizini kolaylaştırmak için kullanılır.

DataStage ETL aracı, büyük bir organizasyonda farklı sistemler arasında arayüz görevi görür. Bu araç, veri aktarımı ve veri işleme gibi işlemleri üstlenir.tracKaynaktan hedef konuma veri aktarımı, çevirisi ve yüklenmesi. İlk olarak 90'lı yılların ortalarında VMark tarafından piyasaya sürüldü. IBM 2005 yılında DataStage'i satın alarak yeniden adlandırıldı: IBM WebSphere DataStage ve sonrasında IBM InfoSphere.

Şu ana kadar piyasada bulunan çeşitli Datastage versiyonları Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft ve benzeriydi. En son basımı IBM InfoSphere DataStage

IBM Bilgi sunucusu aşağıdaki ürünleri içerir:

  • IBM InfoSphere DataStage
  • IBM InfoSphere Kalite Aşaması
  • IBM InfoSphere Bilgi Hizmetleri Direktörü
  • IBM InfoSphere Bilgi Analizcisi
  • IBM Bilgi Sunucusu HızlıTrack
  • IBM InfoSphere İşletme Sözlüğü

DataStage'e Genel Bakış

Datastage'in aşağıdaki Yetenekleri mevcuttur.

  • En geniş kurumsal ve harici veri kaynaklarından verileri entegre edebilir
  • Veri doğrulama kurallarını uygular
  • Büyük miktarda verinin işlenmesinde ve dönüştürülmesinde faydalıdır.
  • Ölçeklenebilir paralel işleme yaklaşımını kullanır
  • Karmaşık dönüşümleri yönetebilir ve birden fazla entegrasyon sürecini yönetebilir
  • Kaynak veya hedef olarak kurumsal uygulamalara doğrudan bağlantıdan yararlanın
  • Analiz ve bakım için meta verilerden yararlanın
  • Operatoplu olarak, gerçek zamanlı olarak veya Web hizmeti olarak test edilir

Bu DataStage eğitiminin aşağıdaki bölümlerinde, aşağıdaki yönleri kısaca açıklıyoruz: IBM InfoSphere DataStage:

  • Veri dönüşümü
  • İş İlanlar
  • paralel işleme

InfoSphere DataStage ve QualityStage, aşağıdakiler gibi kurumsal uygulamalardaki ve veri kaynaklarındaki verilere erişebilir:

İşleme Aşaması Türleri

IBM infosfer işi birbirine bağlı bireysel aşamalardan oluşur. Bir veri kaynağından veri hedefine veri akışını açıklar. Genellikle bir aşamada minimum bir veri girişi ve/veya bir veri çıkışı bulunur. Ancak bazı aşamalar birden fazla aşamaya birden fazla veri girişi ve çıkışı kabul edebilir.

İş tasarımında kullanabileceğiniz çeşitli aşamalar şunlardır:

  • Dönüşüm aşaması
  • Filtre aşaması
  • Toplayıcı aşaması
  • Yinelenenleri kaldırma aşaması
  • Aşamaya katıl
  • Arama aşaması
  • Aşamayı kopyala
  • Sıralama aşaması
  • Konteynerler

DataStage Bileşenleri ve Archidoku

DataStage'in dört ana bileşeni vardır:

  1. yönetici: Yönetim görevleri için kullanılır. Buna DataStage kullanıcılarının ayarlanması, temizleme kriterlerinin ayarlanması ve projelerin oluşturulup taşınması da dahildir.
  2. Müdürü: ETL DataStage Havuzunun ana arayüzüdür. Yeniden kullanılabilir Meta Verilerin depolanması ve yönetimi için kullanılır. DataStage yöneticisi aracılığıyla Deponun içeriği görüntülenebilir ve düzenlenebilir.
  3. Tasarımcı: DataStage uygulamaları VEYA işleri oluşturmak için kullanılan bir tasarım arayüzü. Veri kaynağını, gerekli dönüşümü ve veri hedefini belirtir. İşler, Yönetici tarafından programlanan ve Sunucu tarafından çalıştırılan bir yürütülebilir dosya oluşturmak için derlenir.
  4. Yönetmen: DataStage sunucu işlerini ve paralel işleri doğrulamak, planlamak, yürütmek ve izlemek için kullanılır.
veri aşaması Archidoku şeması
veri aşaması Archidoku şeması

Yukarıdaki resim nasıl olduğunu açıklıyor IBM Infophere DataStage, diğer öğelerle etkileşime girer. IBM Bilgi Sunucusu platformu. DataStage iki bölüme ayrılmıştır; Paylaşılan Bileşenler ve Çalışma Zamanı Archidoku.

   
Aktiviteler

paylaşılan

Birleşik kullanıcı arayüzü

  • InfoSphere DataStage uygulamalarını (işler olarak bilinir) oluşturmak için bir grafik tasarım arayüzü kullanılır.
  • Her iş veri kaynaklarını, gerekli dönüşümleri ve verilerin hedefini belirler.
  • İşler, paralel iş akışları ve yeniden kullanılabilir bileşenler oluşturmak için derlenir. Bunlar InfoSphere DataStage ve QualityStage Direktörü tarafından planlanır ve yürütülür.
  • Designer istemcisi, depodaki meta verileri yönetir. Derlenmiş yürütme verileri Bilgi Sunucusu Altyapısı katmanında dağıtılırken.

Ortak Hizmetler

  • Etki analizi ve arama gibi meta veri hizmetleri
  • InfoSphere DataStage görevlerinin geliştirilmesini ve bakımını destekleyen tasarım hizmetleri
  • Tüm InfoSphere DataStage işlevlerini destekleyen yürütme hizmetleri

Ortak Paralel İşleme

  • Motor, çalıştırılabilir işleri yürütür.tracÇeşitli ortamlarda verileri dönüştürme, yükleme ve işleme.
  • Yüksek hacimli işlerin üstesinden gelmek için motor seçimi paralel işleme ve ardışık düzen yaklaşımı.

Süre Archidoku

İSG Senaryosu

  • Bu, OSH'nin (kabuk komut dosyasını düzenleme) oluşturulmasını ve yürütme akışını açıklar. IBM ve akışı IBM Information Server motorunu kullanan Infophere DataStage
  • Bu, örneğin iş akışları geliştirmek için grafiksel, tıklama ve sürükleme tekniklerini kullanmanıza olanak tanır.tracVerilerin hedef dosyalara aktarılması, temizlenmesi, dönüştürülmesi, entegre edilmesi ve yüklenmesi.

Datastage Aracı için ön koşul

DataStage için aşağıdaki kuruluma ihtiyacınız olacak.

  • bilgiküre
  • DataStage Sunucusu 9.1.2 veya üzeri
  • Microsoft Visual Studio .NET 2010 Express Sürümü C++
  • Oracle bir istemciye bağlanılıyorsa (tam istemci, anlık istemci değil) Oracle veritabanı
  • Bir DB2 veritabanına bağlanılıyorsa DB2 istemcisi

Şimdi Yeni Başlayanlara yönelik bu DataStage eğitim serisinde, InfoSphere bilgi sunucusunun nasıl indirilip kurulacağını öğreneceğiz.

InfoSphere Bilgi Sunucusunu İndirme ve Yükleme

DataStage'e erişmek için en son sürümünü indirip yükleyin. IBM InfoSphere Sunucusu. Sunucu AIX, Linux ve Windows işletim sistemi. İhtiyaca göre seçim yapabilirsiniz.

Verilerinizi infosferin eski bir sürümünden yeni sürüme taşımak için varlık değişim aracını kullanır.

Kurulum Dosyaları

Infosphere Datastage'i kurmak ve yapılandırmak için kurulumunuzda aşağıdaki dosyaların olması gerekir.

Her Ticaretçi İçin Mükemmellik Windows,

  • EtlDağıtımPaketi-windows-oracle.pkg
  • EtlDağıtımPaketi-windows-db2.pkg

Linux için,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDağıtımPaketi-linux-oracle.pkg

Bir CDC İşlem Aşaması İşinde Değişiklik Verilerinin süreç akışı

Bir CDC'de Değişiklik Verilerinin İş Akışı

  1. Veritabanına yönelik 'InfoSphere CDC' hizmeti, kaynak veritabanındaki değişikliği izler ve yakalar
  2. Çoğaltma tanımına göre “InfoSphere CDC”, değişiklik verilerini “InfoSphere DataStage için InfoSphere CDC”ye aktarır.
  3. “InfoSphere DataStage için InfoSphere CDC” sunucusu, verileri bir TCP/IP oturumu aracılığıyla “CDC İşlem aşamasına” gönderir. “InfoSphere DataStage için InfoSphere CDC” sunucusu ayrıca yakalanan günlükteki işlem sınırını işaretlemek için bir COMMIT mesajı (yer imi bilgileriyle birlikte) gönderir.
  4. “InfoSphere DataStage için InfoSphere CDC” sunucusu tarafından gönderilen her COMMIT mesajı için, “CDC İşlem aşaması” dalga sonu (EOW) işaretleyicileri oluşturur. Bu işaretleyiciler, hedef veritabanı bağlayıcı aşamasına giden tüm çıkış bağlantılarında gönderilir.
  5. "Hedef veritabanı bağlayıcı aşaması" tüm giriş bağlantılarında bir dalga sonu işaretçisi aldığında, yer imi bilgilerini bir yer imi tablosuna yazar ve ardından işlemi hedef veritabanına aktarır.
  6. “InfoSphere DataStage için InfoSphere CDC” sunucusu, “hedef veritabanındaki” bir yer imi tablosundan yer imi bilgilerini ister.
  7. “InfoSphere DataStage için InfoSphere CDC” sunucusu Yer İşareti bilgilerini alır.

Bu bilgi şu amaçlarla kullanılır:

  • Çoğaltma başladığında değişikliklerin okunacağı işlem günlüğündeki başlangıç ​​noktasını belirleyin.
  • Mevcut işlem günlüğünün temizlenip temizlenemeyeceğini belirlemek için

SQL Çoğaltmayı Ayarlama

Datastage'e başlamadan önce veritabanını kurmanız gerekir. İki DB2 veritabanı yaratacaksınız.

  • Çoğaltma kaynağı olarak hizmet verecek bir tane ve
  • Hedef olarak biri.

Ayrıca iki tablo (Ürün ve Envanter) oluşturacak ve bunları örnek verilerle dolduracaksınız. Daha sonra entegrasyonunuzu test edebilirsiniz. SQL Çoğaltma ve Datastage.

İleriye doğru, oluşturarak SQL çoğaltmasını ayarlayacaksınız: kontrol tabloları, abonelik kümeleri, kayıtlar ve abonelik kümesi üyeleriBu konuyu bir sonraki bölümde detaylı olarak öğreneceğiz.

Burada veri tabanımız olarak Perakende satış kalemi örneğini alıp Envanter ve Ürün olmak üzere iki tablo oluşturacağız. Bu tablolar, bu kümeler aracılığıyla verileri kaynaktan hedefe yükleyecektir. (kontrol tabloları, abonelik kümeleri, kayıtlar ve abonelik kümesi üyeleri.)

) 1 Adım olarak adlandırılan bir kaynak veritabanı oluşturun. SATIŞ. Bu veritabanının altında iki tablo oluşturun ürün hem de Envanter.

) 2 Adım SALES veritabanını oluşturmak için aşağıdaki komutu çalıştırın.

db2 create database SALES

) 3 Adım SALES veritabanı için arşivleme günlüğünü açın. Ayrıca, aşağıdaki komutları kullanarak veritabanını yedekleyin

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

) 4 Adım Aynı komut isteminde, daha önce kullandığınız sqlrepl-datastage-tutorial dizinindeki setupDB alt dizinine geçin.tracİndirilen sıkıştırılmış dosyadan çıkarıldı.

SQL Çoğaltmayı Ayarlama

) 5 Adım Aşağıdaki komutu çalıştırarak Envanter tablosunu oluşturun ve tabloya veri aktarın.

ixf'nin envanter.ixf'sinden db2 içe aktarma envantere oluşturma

) 6 Adım Bir hedef tablo oluşturun. Hedef veritabanını şu şekilde adlandırın: STAGEDB.

Artık hem veritabanlarının kaynağını hem de hedefini oluşturduğunuza göre, bu DataStage eğitiminin bir sonraki adımında onu nasıl çoğaltacağımızı göreceğiz.

Aşağıdaki bilgiler faydalı olabilir: ODBC veri kaynağını ayarlama.

SQL Çoğaltma Nesnelerini Oluşturma

Aşağıdaki görsel, değişiklik verilerinin kaynak veritabanından hedef veritabanına nasıl aktarıldığını göstermektedir. Kaynak-hedef eşlemesi oluşturuyorsunuz.ping masalar arasında bilinen abonelik seti üyeleri ve üyeleri bir grup halinde gruplandırın abone.

SQL Çoğaltma Nesnelerini Oluşturma

InfoSphere CDC (Veri Yakalamayı Değiştir) içindeki çoğaltma birimine abonelik denir.

  • Kaynakta yapılan değişiklikler, CD tablosuna ve ardından hedef tabloya gönderilen “Yakalama kontrol tablosunda” yakalanır. Uygula programı, değişikliklerin yapılması gereken satır hakkında ayrıntılara sahip olurken, abonelik kümesindeki CD tablosuna da katılır.
  • Abonelik harita içerir.ping Kaynak veri deposundaki verilerin hedef veri deposuna nasıl uygulanacağını belirten ayrıntılar. (Not: CDC artık şu şekilde anılmaktadır: ) Infosfer veri çoğaltma.
  • Bir abonelik yürütüldüğünde, InfoSphere CDC kaynak veritabanındaki değişiklikleri yakalar. InfoSphere CDC değişiklik verilerini hedefe iletir ve eşitleme noktası bilgilerini hedef veritabanındaki bir yer imi tablosunda depolar.
  • InfoSphere CDC, InfoSphere DataStage işinin ilerlemesini izlemek için yer imi bilgilerini kullanır.
  • Arıza durumunda yer imi bilgisi yeniden başlatma noktası olarak kullanılır. Örneğimizde ASN.IBMSNAP_FEEDETL tablosu, DataStage ile ilgili senkronizasyon noktası bilgilerini saklar ve bu bilgiler şu amaçlarla kullanılır: track DataStage ilerlemesi.

Bu bölümünde IBM DataStage eğitim öğreticisini öğrenmek için aşağıdaki şeyleri yapmanız gerekir:

  • Çoğaltma seçeneklerini depolamak için YAKALAMA KONTROL tabloları ve UYGULAMA KONTROL tabloları oluşturun
  • ÜRÜN ve ENVANTER tablolarını çoğaltma kaynakları olarak kaydetme
  • İki üyeli bir abonelik seti oluşturun
  • Abonelik kümesi üyeleri oluşturun ve CCD tablolarını hedefleyin

SQL çoğaltmayı ayarlamak için ASNCLP komut satırı programını kullanın

) 1 Adım CrtCtlTablesCaptureServer.asnclp komut dosyasını sqlrepl-datastage-tutorial/setupSQLRep dizininde bulun.

) 2 Adım Dosyada değiştirin Ve " SATIŞ veritabanına bağlanmak için kullanıcı adınız ve şifreniz ile birlikte.

) 3 Adım Dizinleri sqlrepl-datastage-tutorial/setupSQLRep dizinine değiştirin ve betiği çalıştırın. Aşağıdaki komutu kullanın. Komut SALES veritabanına bağlanacak, Capture denetim tablolarını oluşturmak için bir SQL betiği üretecektir.

asnclp –f crtCtlTablesCaptureServer.asnclp

) 4 Adım CrtCtlTablesApplyCtlServer.asnclp komut dosyasını aynı dizinde bulun. Şimdi iki örneğini değiştirin Ve " ” STAGEDB veritabanına bağlanmak için kullanıcı kimliği ve şifre ile birlikte.

) 5 Adım Şimdi aynı komut isteminde aşağıdaki komutu kullanarak uygulama kontrol tabloları oluşturun.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

) 6 Adım crtRegistration.asnclp komut dosyasını bulun ve tüm örneklerini değiştirin. SATIŞ veritabanına bağlanmak için kullanıcı kimliğiyle. Ayrıca "değiştir" Bağlantı şifresine ”.

) 7 Adım Kaynak tabloları kaydetmek için aşağıdaki betiği kullanın. Kaydı oluşturmanın bir parçası olarak, ASNCLP programı iki CD tablosu oluşturacaktır. CDPRODUCT VE CDINVENTORY.

asnclp –f crtRegistration.asnclp

CREATE REGISTRATION komutu aşağıdaki seçenekleri kullanır:

  • Diferansiyel Yenileme: Yalnızca kaynak tablodaki satırlar değiştiğinde hedef tabloyu güncellemek için Programı Uygula'yı ister
  • Her ikisini de görüntüle: Bu seçenek, değişiklik meydana gelmeden önce kaynak sütundaki değeri kaydetmek için ve değişiklik meydana geldikten sonraki değer için bir tane kaydetmek için kullanılır.

) 8 Adım Hedef veritabanına (STAGEDB) bağlanmak için aşağıdaki adımları izleyin.

  • CrtTableSpaceApply.bat dosyasını bulun, bir metin düzenleyicide açın
  • Yer değiştirmek Ve kullanıcı adı ve şifre ile
  • DB2 komut penceresine crtTableSpaceApply.bat yazın ve dosyayı çalıştırın.
  • Bu toplu iş dosyası, hedef veritabanında ( STAGEDB) yeni bir tablo alanı oluşturur

) 9 Adım CrtSubscriptionSetAndAddMembers.asnclp script dosyalarını bulun ve aşağıdaki değişiklikleri yapın.

  • Tüm örneklerini değiştir Ve SATIŞ veritabanına (kaynak) bağlanmak için kullanıcı kimliği ve şifre ile.
  • Tüm örneklerini değiştir Ve STAGEDB veritabanına (hedef) bağlanmak için kullanıcı kimliğiyle.

Değişikliklerden sonra kaynak ve hedef tabloları gruplandıran abonelik kümesini (ST00) oluşturmak için komut dosyasını çalıştırın. Betik ayrıca hedef veritabanında değiştirilen verileri depolayacak iki abonelik kümesi üyesi ve CCD (tutarlı değişiklik verileri) oluşturur. Bu veriler Infophere DataStage tarafından kullanılacaktır.

) 10 Adım Abonelik kümesini, abonelik kümesi üyelerini ve CCD tablolarını oluşturmak için betiği çalıştırın.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Abonelik seti ve iki üye oluşturmak için kullanılan çeşitli seçenekler şunları içerir:

  • Yoğunlaştırılmış olarak tamamlanır
  • dış
  • Yük türü içe aktarma dışa aktarma
  • Sürekli zamanlama

) 11 Adım Çoğaltma yönetimi araçlarındaki kusur nedeniyle. TARGET_CAPTURE_SCHEMA sütununu ayarlamak için başka bir toplu iş dosyasını yürütmeniz gerekir. IBMSNAP_SUBS_SET kontrol tablosunu null yapın.

  • updateTgtCapSchema.bat dosyasını bulun. Bir metin düzenleyicide açın. Yer değiştirmek Ve STAGEDB veritabanına bağlanmak için kullanıcı kimliğiyle.
  • DB2 komut penceresine updateTgtCapSchema.bat komutunu girin ve dosyayı yürütün.

CCD Tablolarını DataStage'e Eşlemek için Tanım Dosyaları Oluşturma

Bir sonraki adımda replikasyon yapmadan önce CCD tablosunu DataStage'e bağlamamız gerekiyor. Bu bölümde SQL'i DataStage'e nasıl bağlayacağımızı göreceğiz.

CCD tablosunu DataStage'e bağlamak için Datastage tanım (.dxs) dosyaları oluşturmanız gerekir. .dsx dosya formatı DataStage tarafından iş tanımlarını içe ve dışa aktarmak için kullanılır. İki adet .dsx dosyası oluşturmak için ASNCLP komut dosyasını kullanacaksınız. Örneğin burada iki adet .dsx dosyası oluşturduk.

  • stagedb_AQ00_SET00_sJobs.dsx: Dört paralel işin iş akışını yönlendiren bir iş dizisi oluşturur.
  • stagedb_AQ00_SET00_pJobs.dsx : Dört paralel işi oluşturur

ASNCLP programı CCD sütununu otomatik olarak Datastage Sütunu formatına eşler. Yalnızca ASNCLP çalıştığında desteklenir Windows, Linux veya Unix Prosedürü.

CCD Tablolarını DataStage'e Eşlemek için Tanım Dosyaları

Datastage işleri CCD tablosundan satırları çeker.

  1. Bir görev, DataStage'in kaldığı yerden bir senkronizasyon noktası belirler.tracİki tablodan veri çekiyor. Bu işlem, ST00 abonelik kümesi için SYNCHPOINT değerini seçerek bu bilgiyi elde ediyor. IBMSNAP_SUBS_SET tablosunu ve MAX_SYNCHPOINT sütununa ekleyerek IBMSNAP_FEEDETL tablosu.
  2. Eski iki iştracPRODUCT_CCD ve INVENTORY_CCD tablolarındaki verilerden yararlanır. İşlemler hangi satırlardan başlayacağını bilir.tracMIN_SYNCHPOINT ve MAX_SYNCHPOINT değerlerini seçerek senkronizasyon sağlanır. IBMAbonelik kümesine ilişkin SNAP_FEEDETL tablosu.

Çoğaltmayı Başlatma

Çoğaltmayı başlatmak için aşağıdaki adımları kullanacaksınız. CCD tabloları verilerle doldurulduğunda bu, çoğaltma kurulumunun doğrulandığını gösterir. Hedef CCD tablolarında çoğaltılan verileri görüntülemek için DB2 Denetim Merkezi grafik kullanıcı arabirimini kullanın.

) 1 Adım DB2'nin çalıştığından emin olun, ardından şunu kullanın: db2 başlangıcı Komut.

) 2 Adım Daha sonra programı yakalamaya başlamak için işletim sistemi komut isteminden asncap komutunu kullanın. Örneğin.

asncap capture_server=SALES

Yukarıdaki komut SALES veritabanını Capture sunucusu olarak belirtir. Yakalama çalışırken komut penceresini açık tutun.

) 3 Adım Şimdi yeni bir komut istemi açın. Daha sonra başlatın GEÇERLİ asnapply komutunu kullanarak programı çalıştırın.

asnapply control_server=STAGEDB apply_qual=AQ00

Çoğaltmayı Başlatma

  • Komut, STAGEDB veritabanını Apply kontrol sunucusu (Apply kontrol tablolarını içeren veritabanı) olarak belirtir.
  • Uygulama niteleyicisi olarak AQ00 (bu kontrol tabloları kümesinin tanımlayıcısı)

Uygula çalışırken komut penceresini açık bırakın.

) 4 Adım Şimdi başka bir komut istemi açın ve DB2 Denetim Merkezi'ni başlatmak için db2cc komutunu verin. Varsayılan Kontrol Merkezini kabul edin.

) 5 Adım Şimdi sol gezinme ağacında Tüm Veritabanları > STAGEDB'yi açın ve ardından Tablolar'a tıklayın. Double Tabloyu açmak için tablo adına ( Ürün CCD'si) tıklayın. Bunun gibi bir şeye benzeyecek.

Çoğaltmayı Başlatma

Aynı şekilde ENVANTER için de CCD tablosunu açabilirsiniz.

Çoğaltmayı Başlatma

Datastage Aracında Projeler Nasıl Oluşturulur

Öncelikle DataStage'de bir Proje oluşturacaksınız. Bunun için InfoSphere DataStage yöneticisi olmanız gerekir.

Kurulum ve replikasyon tamamlandıktan sonra bir proje oluşturmanız gerekir. DataStage'de projeler, verilerinizi düzenlemeye yönelik bir yöntemdir. Belirli bir projede veri dosyalarının, aşamaların ve işlerin tanımlanmasını içerir.

DataStage'de bir proje oluşturmak için aşağıdaki adımları izleyin:

Adım 1) DataStage yazılımını başlatın

DataStage ve QualityStage Yöneticisini başlatın. Ardından Başlat > Tüm programlar >'ı tıklayın. IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Yöneticisi.

Adım 2) DataStage sunucusunu ve istemcisini bağlayın

DataStage istemcinizden DataStage sunucusuna bağlanmak için Alan adı, kullanıcı kimliği, parola ve sunucu bilgileri gibi bilgileri girin.

Adım 3) Yeni Bir Proje Ekleme

WebSphere DataStage Yönetimi penceresinde. Projeler sekmesine ve ardından Ekle'ye tıklayın.

Adım 4) Proje ayrıntılarını girin

WebSphere DataStage Yönetim penceresinde şu gibi ayrıntıları girin:

  1. İsim
  2. Dosyanın konumu
  3. 'Tamam'ı tıklayın

Datastage Aracında Projeler Oluşturun

Her proje şunları içerir:

  • DataStage işleri
  • Yerleşik bileşenler. Bunlar bir işte kullanılan önceden tanımlanmış bileşenlerdir.
  • Kullanıcı tanımlı bileşenler. Bunlar, DataStage Manager veya DataStage Designer kullanılarak oluşturulan özelleştirilmiş bileşenlerdir.

Datastage Infophere'de replikasyon işlerinin nasıl içe aktarılacağını göreceğiz.

Datastage ve QualityStage Designer'da Çoğaltma İşlerini İçe Aktarma

Şuradaki işleri içe aktaracaksınız: IBM InfoSphere DataStage ve QualityStage Designer istemcisi. Ve onları infaz edersiniz IBM InfoSphere DataStage ve QualityStage Director istemcisi.

Tasarımcı-müşteri, inşaat işleri için boş bir tuval gibidir.tracVerilerin işlenmesi, dönüştürülmesi, yüklenmesi ve kalitesinin kontrol edilmesi gibi işlemleri gerçekleştirir. Bir işin temel yapı taşlarını oluşturan araçları sağlar. İçerir

  • Stajlar: Dosyaları okumak veya yazmak ve verileri işlemek için veri kaynaklarına bağlanır.
  • Bağlantılar: Verilerinizin aktığı aşamaları birbirine bağlar

InfoSphere DataStage ve QualityStage Designer istemcisindeki aşamalar, Tasarımcı araç paletinde depolanır.

InfoSphere QualityStage'de aşağıdaki aşamalar yer almaktadır:

  • Aşamayı araştır
  • Aşamayı standartlaştırın
  • Eşleşme Sıklığı aşaması
  • Tek Kaynaklı Eşleştirme aşaması
  • İki kaynaklı Eşleştirme aşaması
  • Hayatta kalma aşaması
  • Standardizasyon Kalite Değerlendirmesi (SQA) aşaması

DataStage bilgi dünyasında 4 tür İş oluşturabilirsiniz.

  • Paralel İş
  • Sıralı İş
  • Ana Bilgisayar İşi
  • Sunucu İşi

Çoğaltma işi dosyalarının nasıl içe aktarılacağına adım adım bakalım.

) 1 Adım DataStage ve QualityStage Designer'ı başlatın. Başlat > Tüm programlar'ı tıklayın > IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Designer

) 2 Adım Projeye Ekle penceresinde aşağıdaki bilgileri girin.

  • domain
  • Kullanıcı adı
  • Şifre
  • Proje Adı
  • OK

Datastage ve QualityStage'de Çoğaltma İşlerini İçe Aktarma

) 3 Adım Şimdi Dosya menüsünden içe aktar'ı tıklayın -> DataStage Bileşenleri.

Yeni bir DataStage Repository Import penceresi açılacaktır.

  1. Bu pencerede göz atın STAGEDB_AQ00_ST00_sJobs.dsx daha önce oluşturduğumuz dosya
  2. “Tümünü içe aktar” seçeneğini seçin.
  3. “Etkileşim Analizi Gerçekleştir” onay kutusunu işaretleyin.
  4. 'Tamam'ı tıklayın.

Datastage ve QualityStage'de Çoğaltma İşlerini İçe Aktarma

İş içe aktarıldıktan sonra DataStage, STAGEDB_AQ00_ST00_sequence işini oluşturacaktır.

) 4 Adım içe aktarmak için aynı adımları izleyin. STAGEDB_AQ00_ST00_pJobs.dsx dosyası. Bu içe aktarma dört paralel işi yaratır.

) 5 Adım Tasarımcı Havuzu bölmesinin altında -> SQLREP klasörünü açın. Klasörün içinde Sıralı İş ve dört paralel iş göreceksiniz.

Datastage ve QualityStage'de Çoğaltma İşlerini İçe Aktarma

) 6 Adım Sıra işini görmek için. Depo ağacına gidin, STAGEDB_AQ00_ST00_sequence işine sağ tıklayın ve Düzenle'ye tıklayın. İş sırasının kontrol ettiği dört paralel işin iş akışını gösterecektir.

Datastage ve QualityStage'de Çoğaltma İşlerini İçe Aktarma

Her simge bir sahnedir,

  • getExtractRange aşaması: Günceller IBMSNAP_FEEDETL tablosu, veri çıkışı için başlangıç ​​noktasını belirleyecektir.tracDataStage'in son örneğine kadar olan süreçtracSatırları listele ve bitiş noktasını abonelik kümesi için işlenen son işleme ayarla.
  • getExtractRangeSuccessBu aşama, başlangıç ​​noktalarını dışa aktarır.tractFromINVENTORY_CCD stage and extractFromPRODUCT_CCD aşaması
  • AllExtractsSuccess: Bu aşama, hem eski hem de yeni personelin katılımını sağlar.tractFromINVENTORY_CCD ve extractFromPRODUCT_CCD başarıyla tamamlandı. Ardından, getirilen son satırlar için senkronizasyon noktaları setRangeProcessed aşamasına iletilir.
  • setRangeİşlenmiş aşama: Güncellenir IBMSNAP_FEEDETL tablosu. Böylece DataStage, bir sonraki veri çıkarma turuna nereden başlayacağını biliyor.tracyon

) 7 Adım Paralel işleri görmek için. STAGEDB_ASN_INVENTORY_CCD'ye sağ tıklayın ve depo altında düzenle'yi seçin. Aşağıda gösterildiği gibi bir pencere açılacaktır.

Datastage ve QualityStage'de Çoğaltma İşlerini İçe Aktarma

Yukarıdaki resimde Envanter CCD tablosundaki verilerin ve SyncFEEDETL tablosundan h noktası detayları Lookup_6 aşamasına işlenir.

DataStage'den STAGEDB veritabanına veri bağlantısı oluşturma

Şimdi bir sonraki adım, InfoSphere DataStage ile SQL Replication hedef veritabanı arasında bir veri bağlantısı oluşturmaktır. CCD tablolarını içerir.

DataStage'de, bir iş tasarımında bir veri kaynağına bağlantıyı hızlı bir şekilde tanımlamak için ilgili bağlayıcı aşamalarıyla birlikte veri bağlantısı nesnelerini kullanırsınız.

) 1 Adım STAGEDB, DataStage'in verilerini senkronize etmek için kullandığı Uygulama kontrol tablolarını da içerir.tracve verilerin çıkarıldığı CCD tablolarıtracted. Aşağıdaki komutları kullanın.

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

not: STAGEDB'nin oluşturulduğu sistemin IP adresi

) 2 Adım Dosya > Yeni > Diğer > Veri Bağlantısı'na tıklayın.

) 3 Adım İki sekmeli bir pencereniz olacak: Parametreler ve Genel.

DataStage'den STAGEDB Veritabanına Veri Bağlantısı

) 4 Adım Bu adımda,

  1. Genel olarak sekme, veri bağlantısının adını sqlreplConnect olarak adlandırır
  2. Aşağıda gösterildiği gibi Parametreler sekmesinde
  • 'Sahne Türünü kullanarak bağlan' alanının yanındaki gözat düğmesini tıklayın ve
  • Açık pencerede veri havuzu ağacında Aşama Türleri –> Paralel– > Veritabanı —-> DB2 Bağlayıcı seçeneğine gidin.
  • Aç'ı tıklayın.

DataStage'den STAGEDB Veritabanına Veri Bağlantısı

) 5 Adım Bağlantı parametreleri tablosuna şu ayrıntıları girin:

  • Bağlantı dizisi: STAGEDB2
  • Kullanıcı Adı: STAGEDB veritabanına bağlanmak için kullanıcı kimliği
  • Şifre: STAGEDB veritabanına bağlanmak için şifre
  • örnek: STAGEDB veritabanını içeren DB2 yönetim ortamının adı

) 6 Adım Bir sonraki pencerede veri bağlantısını kaydedin. 'Kaydet' düğmesine tıklayın.

Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma

Bir önceki adımda InfoSphere DataStage ile STAGEDB veritabanının birbirine bağlı olduğunu gördük. Şimdi, product_CCD ve INVENTORY_CCD tablolarına ilişkin sütun tanımını ve diğer meta verileri Information Server havuzuna aktarın.

Tasarımcı penceresinde aşağıdaki adımları izleyin.

) 1 Adım İçe Aktar > Tablo Tanımları > Bağlayıcı İçe Aktarma Sihirbazını Başlat'ı seçin

) 2 Adım Sihirbazın bağlayıcı seçme sayfasından DB2 Bağlayıcıyı seçin ve İleri'yi tıklayın.

Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma

) 3 Adım Bağlantı ayrıntısı sayfasında yükle'ye tıklayın. Bu, sihirbaz alanlarını önceki bölümde oluşturduğunuz veri bağlantısından gelen bağlantı bilgileriyle dolduracaktır.

Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma

) 4 Adım Aynı sayfada Bağlantıyı test et'e tıklayın. Bu, DataStage'in STAGEDB veritabanına bağlanma girişiminde bulunmasını sağlayacaktır. “Bağlantı başarılı” mesajını görebilirsiniz. Sonrakine tıkla.

Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma

) 5 Adım Veri kaynağı konumu sayfasında Ana Bilgisayar Adı ve Veritabanı adı alanlarının doğru şekilde doldurulduğundan emin olun. Daha sonra ileri'ye tıklayın.

) 6 Adım Şema sayfasında. Kontrol tablolarını uygula (ASN) şemasını girin veya ASN şemasının şema alanına önceden doldurulduğunu kontrol edin. Daha sonra ileri'ye tıklayın. Seçim sayfası ASN Şemasında tanımlanan tabloların listesini gösterecektir.

Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma

) 7 Adım Meta verileri içe aktarmamız gereken ilk tablo: IBMSNAP_FEEDETL, bir Uygulama kontrol tablosudur. DataStage'in senkronizasyon noktalarını takip etmesini sağlayan ayrıntıları içerir. tracCCD tablolarından k adet satır getirmiştir. Seçiniz. IBMSNAP_FEEDETL ve İleri'ye tıklayın.

) 8 Adım İçe aktarma işlemini tamamlamak için IBMSNAP_FEEDETL tablo tanımı. İçe aktar'a tıklayın ve ardından açık pencerede aç'a tıklayın.

) 9 Adım product_CCD tablosunun ve ardından INVENTORY_CCD tablosunun tanımlarını içe aktarmak için 1-8 arasındaki adımları iki kez daha tekrarlayın.

NOT: Envanter ve ürün tanımlarını içe aktarırken, şemaları ASN'den, altında product_CCD ve INVENTORY_CCD'nin oluşturulduğu şemaya değiştirdiğinizden emin olun.

Artık DataStage, SQL Replication hedef veritabanına bağlanmak için ihtiyaç duyduğu tüm ayrıntılara sahip.

DataStage İşlerinin Özelliklerini Ayarlama

Sahip olduğumuz dört DataStage paralel işinin her biri için STAGEDB veritabanına bağlanan bir veya daha fazla aşama içerir. Bağlantı bilgilerini eklemek ve DataStage'in doldurduğu veri kümesi dosyalarına bağlantı eklemek için aşamaları değiştirmeniz gerekir.

Aşamaların düzenlenebilir önceden tanımlanmış özellikleri vardır. Burada STAGEDB_ASN_PRODUCT_CCD_ex için bu özelliklerden bazılarını değiştireceğiz.tracparalel iş.

) 1 Adım Tasarımcı deposu ağacına göz atın. SQLREP klasörü altında STAGEDB_ASN_PRODUCT_CCD_ex'i seçin.tracParalel işi düzenlemek için, işe sağ tıklayın. Paralel işin tasarım penceresi Tasarımcı Paleti'nde açılır.

) 2 Adım Yeşil simgeyi bulun. Bu simge DB2 bağlantı aşamasını gösterir. Örneğin şu amaçlarla kullanılır:tracCCD tablosundan veri çekme. Double-simgeye tıklayın. Bir sahne düzenleyici penceresi açılır.

DataStage İşlerinin Özelliklerini Ayarlama

DataStage İşlerinin Özelliklerini Ayarlama

) 3 Adım Alanları bağlantı bilgileriyle doldurmak için düzenleyicide Yükle'ye tıklayın. Sahne düzenleyiciyi kapatmak ve değişikliklerinizi kaydetmek için Tamam'ı tıklayın.

) 4 Adım Şimdi STAGEDB_ASN_PRODUCT_CCD_ex için tasarım penceresine geri dönün.tracParalel iş. Get simgesini bulun.SynchPoints DB2 bağlayıcı aşaması. Ardından simgeye çift tıklayın.

) 5 Adım Şimdi alanları bağlantı bilgileriyle doldurmak için yükle düğmesine tıklayın.

NOT: Apply kontrol sunucunuz olarak STAGEDB dışında bir veritabanı kullanıyorsanız. Ardından get için bağlantı bilgilerini yükleme seçeneğini seçin.SyncCCD tablosu yerine kontrol tablolarıyla etkileşime giren hPoints aşaması.

) 6 Adım Bu adımda,

  • InfoSphere DataStage'in çalıştığı sistemde boş bir metin dosyası oluşturun.
  • Bu dosyayı üründataset.ds olarak adlandırın ve nereye kaydettiğinizi not edin.
  • DataStage, CCD tablosundan değişiklikleri getirdikten sonra değişiklikleri bu dosyaya yazacaktır.
  • Verileri bağlantılı işler arasında taşımak için kullanılan veri kümeleri veya dosyalar, kalıcı veri kümeleri olarak bilinir. Bir DataSet aşamasıyla temsil edilir.

) 7 Adım Şimdi tasarım penceresinde sahne düzenleyicisini açın ve insert_into_a_dataset simgesine çift tıklayın. Başka bir pencere açılacaktır.

DataStage İşlerinin Özelliklerini Ayarlama

) 8 Adım Bu pencerede,

DataStage İşlerinin Özelliklerini Ayarlama

  • Özellikler sekmesi altında, Target klasör açıktır ve Dosya = DATASETNAME özelliği vurgulanmıştır.
  • Sağ tarafta bir dosya alanınız olacak
  • Productdataset.ds dosyasının tam yolunu girin
  • 'Tamam'ı tıklayın.

Artık ürün CCD tablosu için gerekli tüm özellikleri güncellediniz. Tasarım penceresini kapatın ve tüm değişiklikleri kaydedin.

) 9 Adım Şimdi STAGEDB_ASN_INVENTORY_CCD_ex dosyasını bulun ve açın.tracTasarımcının depo bölmesinden paralel bir iş başlatın ve 3-8 arasındaki adımları tekrarlayın.

NOT:

  • Getirmek için kontrol sunucusu veritabanının bağlantı bilgilerini sahne düzenleyicisine yüklemeniz gerekir.SynchPuan aşaması. Kontrol sunucunuz STAGEDB değilse.
  • STAGEDB_ST00_AQ00_getEx içintractRange ve STAGEDB_ST00_AQ00_markRangeProcessed paralel işlerini çalıştırarak tüm DB2 bağlantı aşamalarını açın. Ardından, STAGEDB veritabanı için bağlantı bilgilerini eklemek üzere yükleme işlevini kullanın.

DataStage İşlerini Derleme ve Çalıştırma

DataStage işi derlenmeye hazır olduğunda Tasarımcı, girdilere, dönüşümlere, ifadelere ve diğer ayrıntılara bakarak işin tasarımını doğrular.

İş derlemesi başarıyla tamamlandığında çalışmaya hazırdır. Beş işin tamamını derleyeceğiz, ancak yalnızca "iş sırasını" çalıştıracağız. Bunun nedeni bu işin dört paralel işin tamamını kontrol etmesidir.

) 1 Adım SQLREP klasörü altında. Beş işin her birini (Cntrl+) ile seçin.Shift). Daha sonra sağ tıklayıp Çoklu iş derleme seçeneğini seçin.

DataStage İşlerini Derleme ve Çalıştırma

) 2 Adım DataStage Derleme Sihirbazı'nda beş işin seçildiğini göreceksiniz. Sonrakine tıkla.

DataStage İşlerini Derleme ve Çalıştırma

) 3 Adım Derleme başlar ve bittiğinde "Başarıyla derlendi" mesajı görüntülenir.

DataStage İşlerini Derleme ve Çalıştırma

) 4 Adım Şimdi DataStage ve QualityStage Director'ı başlatın. Başlat > Tüm programlar'ı seçin > IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Direktörü.

) 5 Adım Soldaki proje gezinme bölmesinde. SQLREP klasörünü tıklayın. Bu, beş işin tamamını yönetici durum tablosuna getirir.

) 6 Adım STAGEDB_AQ00_S00_sequence işini seçin. Menü çubuğundan İş > Şimdi Çalıştır'a tıklayın.

DataStage İşlerini Derleme ve Çalıştırma

Derleme tamamlandıktan sonra bitmiş durumunu göreceksiniz.

DataStage İşlerini Derleme ve Çalıştırma

Şimdi, PRODUCT_CCD ve INVENTORY_CCD tablolarında saklanan değiştirilmiş satırların silinip silinmediğini kontrol edin.tracDataStage tarafından işlendi ve iki veri seti dosyasına eklendi.

) 7 Adım Tasarımcıya geri dönün ve STAGEDB_ASN_PRODUCT_CCD_ex dosyasını açın.tracİş. Sahne düzenleyicisini açmak için. Double-insert_into_a_dataset simgesine tıklayın. Daha sonra verileri görüntüle'ye tıklayın.

) 8 Adım Görüntülenecek satırlardaki varsayılanları kabul edin penceresi. Daha sonra Tamam'ı tıklayın. Veri seti dosyasının içeriğini göstermek için bir veri tarayıcı penceresi açılacaktır.

DataStage İşlerini Derleme ve Çalıştırma

SQL Replikasyon ve DataStage Arasındaki Entegrasyonu Test Etme

Bir önceki adımda işi derledik ve yürüttük. Bu bölümde SQL replikasyonu ve DataStage entegrasyonunu kontrol edeceğiz. Bunun için kaynak tabloda değişiklikler yapacağız ve aynı değişikliğin DataStage'de güncellenip güncellenmediğine bakacağız.

) 1 Adım İşletim sisteminiz için sqlrepl-datastage-scripts klasörüne gidin.

) 2 Adım Aşağıdaki adımları izleyerek SQL Replication'ı başlatın:

  • startSQLCapture.bat dosyasını çalıştırın (Windows) dosyasını SATIŞ veritabanında Capture programını başlatmak için kullanın.
  • startSQLApply.bat'ı çalıştırın (WindowsSTAGEDB veritabanındaki Apply programını başlatmak için ) dosyasını kullanın.

) 3 Adım Şimdi updateSourceTables.sql dosyasını açın. SATIŞ veritabanına bağlanmak için şunu değiştirin: Ve Kullanıcı kimliği ve şifre ile.

) 4 Adım Bir DB2 komut penceresi açın. Dizini sqlrepl-datastage-tutorial\scripts olarak değiştirin ve verilen komutla sorunu çalıştırın:

db2 -tvf updateSourceTables.sql

SQL scripti Satış veritabanındaki her iki tabloda (ÜRÜN, ENVANTER) Güncelleme, Ekleme ve silme gibi çeşitli işlemleri yapacaktır.

) 5 Adım DataStage'in çalıştığı sistemde. DataStage Director'ı açın ve STAGEDB_AQ00_S00_sequence işini yürütün. İş > Şimdi Çalıştır'a tıklayın.

SQL Replikasyon ve DataStage Arasındaki Entegrasyon

İşi çalıştırdığınızda aşağıdaki aktiviteler gerçekleştirilecektir.

  • Capture programı, SATIŞ veritabanı günlüğündeki altı satırlık değişiklikleri okur ve bunları CD tablolarına ekler.
  • Apply programı, SALES'teki CD tablolarından değişiklik satırlarını alır ve bunları STAGEDB'deki CCD tablolarına ekler.
  • İki DataStage örneğitract görevleri, CCD tablolarındaki değişiklikleri alır ve bunları productdataset.ds ve inventorydataset.ds dosyalarına yazar.

Veri setlerine bakarak yukarıdaki adımların gerçekleşip gerçekleşmediğini kontrol edebilirsiniz.

) 6 Adım Aşağıdaki adımları izleyin,

  • Tasarımcıyı başlatın. STAGEDB_ASN_PRODUCT_CCD_ex dosyasını açın.traciş.
  • Sonra Double-insert_into_a_dataset simgesine tıklayın. Sahne editöründe. Verileri Görüntüle'ye tıklayın.
  • Görüntülenecek satırlardaki varsayılanları kabul edin ve Tamam'a tıklayın.

Veri kümesi üç yeni satır içerir. Değişikliklerin uygulandığını kontrol etmenin en kolay yolu, Veri Tarayıcının en sağına doğru kaydırma yapmaktır. Şimdi son üç satıra bakın (aşağıdaki resme bakın)

SQL Replikasyon ve DataStage Arasındaki Entegrasyon

I, U ve D harfleri, her yeni satırla sonuçlanan INSERT, UPDATE ve DELETE işlemlerini belirtir.

Aynı kontrolü Envanter tablosu için de yapabilirsiniz.

ÖZET

  • Datastage bir ETL aracı hangi eskitracts verilerini işler, dönüştürür ve kaynaktan hedefe yükler.
  • Kolaylaştırır iş analizi iş zekası kazanmaya yardımcı olacak kaliteli veriler sağlayarak.
  • DataStage iki bölüme ayrılmıştır; Paylaşılan Bileşenler ve Çalışma Zamanı Archidoku.
  • DataStage'in dört ana bileşeni vardır;
  • yönetici
  • müdür
  • tasarımcı
  • yönetmen
  • Aşağıda temel hususlar yer almaktadır: IBM InfoSphere DataStage
  • Veri dönüşümü
  • İş İlanlar
  • paralel işleme
  • İş tasarımında yer alan çeşitli aşamalar şunlardır:
  • Dönüşüm aşaması
  • Filtre aşaması
  • Toplayıcı aşaması
  • Yinelenenleri kaldırma aşaması
  • Aşamaya katıl
  • Arama aşaması

Bu yazıyı şu şekilde özetleyin: