Yeni Başlayanlar İçin DataStage Eğitimi: IBM DataStage (ETL Aracı) Eğitimi
DataStage nedir?
Veri Aşaması ETL (Veri Aktarımı, Teslim, İşleme) aracıdır ve veri çıkarmak için kullanılır.tracVeri kaynağındaki verileri hedef konuma dönüştürme, yükleme ve işleme süreçlerini gerçekleştirir. Bu verilerin kaynakları arasında sıralı dosyalar, indekslenmiş dosyalar, ilişkisel veritabanları, harici veri kaynakları, arşivler, kurumsal uygulamalar vb. yer alabilir. DataStage, iş zekası elde etmeye yardımcı olacak kaliteli veriler sağlayarak iş analizini kolaylaştırmak için kullanılır.
DataStage ETL aracı, büyük bir organizasyonda farklı sistemler arasında arayüz görevi görür. Bu araç, veri aktarımı ve veri işleme gibi işlemleri üstlenir.tracKaynaktan hedef konuma veri aktarımı, çevirisi ve yüklenmesi. İlk olarak 90'lı yılların ortalarında VMark tarafından piyasaya sürüldü. IBM 2005 yılında DataStage'i satın alarak yeniden adlandırıldı: IBM WebSphere DataStage ve sonrasında IBM InfoSphere.
Şu ana kadar piyasada bulunan çeşitli Datastage versiyonları Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft ve benzeriydi. En son basımı IBM InfoSphere DataStage
IBM Bilgi sunucusu aşağıdaki ürünleri içerir:
- IBM InfoSphere DataStage
- IBM InfoSphere Kalite Aşaması
- IBM InfoSphere Bilgi Hizmetleri Direktörü
- IBM InfoSphere Bilgi Analizcisi
- IBM Bilgi Sunucusu HızlıTrack
- IBM InfoSphere İşletme Sözlüğü
DataStage'e Genel Bakış
Datastage'in aşağıdaki Yetenekleri mevcuttur.
- En geniş kurumsal ve harici veri kaynaklarından verileri entegre edebilir
- Veri doğrulama kurallarını uygular
- Büyük miktarda verinin işlenmesinde ve dönüştürülmesinde faydalıdır.
- Ölçeklenebilir paralel işleme yaklaşımını kullanır
- Karmaşık dönüşümleri yönetebilir ve birden fazla entegrasyon sürecini yönetebilir
- Kaynak veya hedef olarak kurumsal uygulamalara doğrudan bağlantıdan yararlanın
- Analiz ve bakım için meta verilerden yararlanın
- Operatoplu olarak, gerçek zamanlı olarak veya Web hizmeti olarak test edilir
Bu DataStage eğitiminin aşağıdaki bölümlerinde, aşağıdaki yönleri kısaca açıklıyoruz: IBM InfoSphere DataStage:
- Veri dönüşümü
- İş İlanlar
- paralel işleme
InfoSphere DataStage ve QualityStage, aşağıdakiler gibi kurumsal uygulamalardaki ve veri kaynaklarındaki verilere erişebilir:
- İlişkisel veritabanları
- Ana bilgisayar veritabanları
- İş ve analitik uygulamalar
- Kurumsal Kaynak Planlaması (ERP) veya müşteri ilişkileri yönetimi (CRM) veritabanları
- Çevrimiçi analitik işleme (OLAP) veya performans yönetimi veritabanları
İşleme Aşaması Türleri
IBM infosfer işi birbirine bağlı bireysel aşamalardan oluşur. Bir veri kaynağından veri hedefine veri akışını açıklar. Genellikle bir aşamada minimum bir veri girişi ve/veya bir veri çıkışı bulunur. Ancak bazı aşamalar birden fazla aşamaya birden fazla veri girişi ve çıkışı kabul edebilir.
İş tasarımında kullanabileceğiniz çeşitli aşamalar şunlardır:
- Dönüşüm aşaması
- Filtre aşaması
- Toplayıcı aşaması
- Yinelenenleri kaldırma aşaması
- Aşamaya katıl
- Arama aşaması
- Aşamayı kopyala
- Sıralama aşaması
- Konteynerler
DataStage Bileşenleri ve Archidoku
DataStage'in dört ana bileşeni vardır:
- yönetici: Yönetim görevleri için kullanılır. Buna DataStage kullanıcılarının ayarlanması, temizleme kriterlerinin ayarlanması ve projelerin oluşturulup taşınması da dahildir.
- Müdürü: ETL DataStage Havuzunun ana arayüzüdür. Yeniden kullanılabilir Meta Verilerin depolanması ve yönetimi için kullanılır. DataStage yöneticisi aracılığıyla Deponun içeriği görüntülenebilir ve düzenlenebilir.
- Tasarımcı: DataStage uygulamaları VEYA işleri oluşturmak için kullanılan bir tasarım arayüzü. Veri kaynağını, gerekli dönüşümü ve veri hedefini belirtir. İşler, Yönetici tarafından programlanan ve Sunucu tarafından çalıştırılan bir yürütülebilir dosya oluşturmak için derlenir.
- Yönetmen: DataStage sunucu işlerini ve paralel işleri doğrulamak, planlamak, yürütmek ve izlemek için kullanılır.

Yukarıdaki resim nasıl olduğunu açıklıyor IBM Infophere DataStage, diğer öğelerle etkileşime girer. IBM Bilgi Sunucusu platformu. DataStage iki bölüme ayrılmıştır; Paylaşılan Bileşenler ve Çalışma Zamanı Archidoku.
|
paylaşılan |
Birleşik kullanıcı arayüzü |
|
|
Ortak Hizmetler |
|
|
|
Ortak Paralel İşleme |
|
|
|
Süre Archidoku |
İSG Senaryosu |
|
Datastage Aracı için ön koşul
DataStage için aşağıdaki kuruluma ihtiyacınız olacak.
- bilgiküre
- DataStage Sunucusu 9.1.2 veya üzeri
- Microsoft Visual Studio .NET 2010 Express Sürümü C++
- Oracle bir istemciye bağlanılıyorsa (tam istemci, anlık istemci değil) Oracle veritabanı
- Bir DB2 veritabanına bağlanılıyorsa DB2 istemcisi
Şimdi Yeni Başlayanlara yönelik bu DataStage eğitim serisinde, InfoSphere bilgi sunucusunun nasıl indirilip kurulacağını öğreneceğiz.
InfoSphere Bilgi Sunucusunu İndirme ve Yükleme
DataStage'e erişmek için en son sürümünü indirip yükleyin. IBM InfoSphere Sunucusu. Sunucu AIX, Linux ve Windows işletim sistemi. İhtiyaca göre seçim yapabilirsiniz.
Verilerinizi infosferin eski bir sürümünden yeni sürüme taşımak için varlık değişim aracını kullanır.
Kurulum Dosyaları
Infosphere Datastage'i kurmak ve yapılandırmak için kurulumunuzda aşağıdaki dosyaların olması gerekir.
Her Ticaretçi İçin Mükemmellik Windows,
- EtlDağıtımPaketi-windows-oracle.pkg
- EtlDağıtımPaketi-windows-db2.pkg
Linux için,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDağıtımPaketi-linux-oracle.pkg
Bir CDC İşlem Aşaması İşinde Değişiklik Verilerinin süreç akışı
- Veritabanına yönelik 'InfoSphere CDC' hizmeti, kaynak veritabanındaki değişikliği izler ve yakalar
- Çoğaltma tanımına göre “InfoSphere CDC”, değişiklik verilerini “InfoSphere DataStage için InfoSphere CDC”ye aktarır.
- “InfoSphere DataStage için InfoSphere CDC” sunucusu, verileri bir TCP/IP oturumu aracılığıyla “CDC İşlem aşamasına” gönderir. “InfoSphere DataStage için InfoSphere CDC” sunucusu ayrıca yakalanan günlükteki işlem sınırını işaretlemek için bir COMMIT mesajı (yer imi bilgileriyle birlikte) gönderir.
- “InfoSphere DataStage için InfoSphere CDC” sunucusu tarafından gönderilen her COMMIT mesajı için, “CDC İşlem aşaması” dalga sonu (EOW) işaretleyicileri oluşturur. Bu işaretleyiciler, hedef veritabanı bağlayıcı aşamasına giden tüm çıkış bağlantılarında gönderilir.
- "Hedef veritabanı bağlayıcı aşaması" tüm giriş bağlantılarında bir dalga sonu işaretçisi aldığında, yer imi bilgilerini bir yer imi tablosuna yazar ve ardından işlemi hedef veritabanına aktarır.
- “InfoSphere DataStage için InfoSphere CDC” sunucusu, “hedef veritabanındaki” bir yer imi tablosundan yer imi bilgilerini ister.
- “InfoSphere DataStage için InfoSphere CDC” sunucusu Yer İşareti bilgilerini alır.
Bu bilgi şu amaçlarla kullanılır:
- Çoğaltma başladığında değişikliklerin okunacağı işlem günlüğündeki başlangıç noktasını belirleyin.
- Mevcut işlem günlüğünün temizlenip temizlenemeyeceğini belirlemek için
SQL Çoğaltmayı Ayarlama
Datastage'e başlamadan önce veritabanını kurmanız gerekir. İki DB2 veritabanı yaratacaksınız.
- Çoğaltma kaynağı olarak hizmet verecek bir tane ve
- Hedef olarak biri.
Ayrıca iki tablo (Ürün ve Envanter) oluşturacak ve bunları örnek verilerle dolduracaksınız. Daha sonra entegrasyonunuzu test edebilirsiniz. SQL Çoğaltma ve Datastage.
İleriye doğru, oluşturarak SQL çoğaltmasını ayarlayacaksınız: kontrol tabloları, abonelik kümeleri, kayıtlar ve abonelik kümesi üyeleriBu konuyu bir sonraki bölümde detaylı olarak öğreneceğiz.
Burada veri tabanımız olarak Perakende satış kalemi örneğini alıp Envanter ve Ürün olmak üzere iki tablo oluşturacağız. Bu tablolar, bu kümeler aracılığıyla verileri kaynaktan hedefe yükleyecektir. (kontrol tabloları, abonelik kümeleri, kayıtlar ve abonelik kümesi üyeleri.)
) 1 Adım olarak adlandırılan bir kaynak veritabanı oluşturun. SATIŞ. Bu veritabanının altında iki tablo oluşturun ürün hem de Envanter.
) 2 Adım SALES veritabanını oluşturmak için aşağıdaki komutu çalıştırın.
db2 create database SALES
) 3 Adım SALES veritabanı için arşivleme günlüğünü açın. Ayrıca, aşağıdaki komutları kullanarak veritabanını yedekleyin
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
) 4 Adım Aynı komut isteminde, daha önce kullandığınız sqlrepl-datastage-tutorial dizinindeki setupDB alt dizinine geçin.tracİndirilen sıkıştırılmış dosyadan çıkarıldı.
) 5 Adım Aşağıdaki komutu çalıştırarak Envanter tablosunu oluşturun ve tabloya veri aktarın.
ixf'nin envanter.ixf'sinden db2 içe aktarma envantere oluşturma
) 6 Adım Bir hedef tablo oluşturun. Hedef veritabanını şu şekilde adlandırın: STAGEDB.
Artık hem veritabanlarının kaynağını hem de hedefini oluşturduğunuza göre, bu DataStage eğitiminin bir sonraki adımında onu nasıl çoğaltacağımızı göreceğiz.
Aşağıdaki bilgiler faydalı olabilir: ODBC veri kaynağını ayarlama.
SQL Çoğaltma Nesnelerini Oluşturma
Aşağıdaki görsel, değişiklik verilerinin kaynak veritabanından hedef veritabanına nasıl aktarıldığını göstermektedir. Kaynak-hedef eşlemesi oluşturuyorsunuz.ping masalar arasında bilinen abonelik seti üyeleri ve üyeleri bir grup halinde gruplandırın abone.
InfoSphere CDC (Veri Yakalamayı Değiştir) içindeki çoğaltma birimine abonelik denir.
- Kaynakta yapılan değişiklikler, CD tablosuna ve ardından hedef tabloya gönderilen “Yakalama kontrol tablosunda” yakalanır. Uygula programı, değişikliklerin yapılması gereken satır hakkında ayrıntılara sahip olurken, abonelik kümesindeki CD tablosuna da katılır.
- Abonelik harita içerir.ping Kaynak veri deposundaki verilerin hedef veri deposuna nasıl uygulanacağını belirten ayrıntılar. (Not: CDC artık şu şekilde anılmaktadır: ) Infosfer veri çoğaltma.
- Bir abonelik yürütüldüğünde, InfoSphere CDC kaynak veritabanındaki değişiklikleri yakalar. InfoSphere CDC değişiklik verilerini hedefe iletir ve eşitleme noktası bilgilerini hedef veritabanındaki bir yer imi tablosunda depolar.
- InfoSphere CDC, InfoSphere DataStage işinin ilerlemesini izlemek için yer imi bilgilerini kullanır.
- Arıza durumunda yer imi bilgisi yeniden başlatma noktası olarak kullanılır. Örneğimizde ASN.IBMSNAP_FEEDETL tablosu, DataStage ile ilgili senkronizasyon noktası bilgilerini saklar ve bu bilgiler şu amaçlarla kullanılır: track DataStage ilerlemesi.
Bu bölümünde IBM DataStage eğitim öğreticisini öğrenmek için aşağıdaki şeyleri yapmanız gerekir:
- Çoğaltma seçeneklerini depolamak için YAKALAMA KONTROL tabloları ve UYGULAMA KONTROL tabloları oluşturun
- ÜRÜN ve ENVANTER tablolarını çoğaltma kaynakları olarak kaydetme
- İki üyeli bir abonelik seti oluşturun
- Abonelik kümesi üyeleri oluşturun ve CCD tablolarını hedefleyin
SQL çoğaltmayı ayarlamak için ASNCLP komut satırı programını kullanın
) 1 Adım CrtCtlTablesCaptureServer.asnclp komut dosyasını sqlrepl-datastage-tutorial/setupSQLRep dizininde bulun.
) 2 Adım Dosyada değiştirin Ve " SATIŞ veritabanına bağlanmak için kullanıcı adınız ve şifreniz ile birlikte.
) 3 Adım Dizinleri sqlrepl-datastage-tutorial/setupSQLRep dizinine değiştirin ve betiği çalıştırın. Aşağıdaki komutu kullanın. Komut SALES veritabanına bağlanacak, Capture denetim tablolarını oluşturmak için bir SQL betiği üretecektir.
asnclp –f crtCtlTablesCaptureServer.asnclp
) 4 Adım CrtCtlTablesApplyCtlServer.asnclp komut dosyasını aynı dizinde bulun. Şimdi iki örneğini değiştirin Ve " ” STAGEDB veritabanına bağlanmak için kullanıcı kimliği ve şifre ile birlikte.
) 5 Adım Şimdi aynı komut isteminde aşağıdaki komutu kullanarak uygulama kontrol tabloları oluşturun.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
) 6 Adım crtRegistration.asnclp komut dosyasını bulun ve tüm örneklerini değiştirin. SATIŞ veritabanına bağlanmak için kullanıcı kimliğiyle. Ayrıca "değiştir" Bağlantı şifresine ”.
) 7 Adım Kaynak tabloları kaydetmek için aşağıdaki betiği kullanın. Kaydı oluşturmanın bir parçası olarak, ASNCLP programı iki CD tablosu oluşturacaktır. CDPRODUCT VE CDINVENTORY.
asnclp –f crtRegistration.asnclp
CREATE REGISTRATION komutu aşağıdaki seçenekleri kullanır:
- Diferansiyel Yenileme: Yalnızca kaynak tablodaki satırlar değiştiğinde hedef tabloyu güncellemek için Programı Uygula'yı ister
- Her ikisini de görüntüle: Bu seçenek, değişiklik meydana gelmeden önce kaynak sütundaki değeri kaydetmek için ve değişiklik meydana geldikten sonraki değer için bir tane kaydetmek için kullanılır.
) 8 Adım Hedef veritabanına (STAGEDB) bağlanmak için aşağıdaki adımları izleyin.
- CrtTableSpaceApply.bat dosyasını bulun, bir metin düzenleyicide açın
- Yer değiştirmek Ve kullanıcı adı ve şifre ile
- DB2 komut penceresine crtTableSpaceApply.bat yazın ve dosyayı çalıştırın.
- Bu toplu iş dosyası, hedef veritabanında ( STAGEDB) yeni bir tablo alanı oluşturur
) 9 Adım CrtSubscriptionSetAndAddMembers.asnclp script dosyalarını bulun ve aşağıdaki değişiklikleri yapın.
- Tüm örneklerini değiştir Ve SATIŞ veritabanına (kaynak) bağlanmak için kullanıcı kimliği ve şifre ile.
- Tüm örneklerini değiştir Ve STAGEDB veritabanına (hedef) bağlanmak için kullanıcı kimliğiyle.
Değişikliklerden sonra kaynak ve hedef tabloları gruplandıran abonelik kümesini (ST00) oluşturmak için komut dosyasını çalıştırın. Betik ayrıca hedef veritabanında değiştirilen verileri depolayacak iki abonelik kümesi üyesi ve CCD (tutarlı değişiklik verileri) oluşturur. Bu veriler Infophere DataStage tarafından kullanılacaktır.
) 10 Adım Abonelik kümesini, abonelik kümesi üyelerini ve CCD tablolarını oluşturmak için betiği çalıştırın.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Abonelik seti ve iki üye oluşturmak için kullanılan çeşitli seçenekler şunları içerir:
- Yoğunlaştırılmış olarak tamamlanır
- dış
- Yük türü içe aktarma dışa aktarma
- Sürekli zamanlama
) 11 Adım Çoğaltma yönetimi araçlarındaki kusur nedeniyle. TARGET_CAPTURE_SCHEMA sütununu ayarlamak için başka bir toplu iş dosyasını yürütmeniz gerekir. IBMSNAP_SUBS_SET kontrol tablosunu null yapın.
- updateTgtCapSchema.bat dosyasını bulun. Bir metin düzenleyicide açın. Yer değiştirmek Ve STAGEDB veritabanına bağlanmak için kullanıcı kimliğiyle.
- DB2 komut penceresine updateTgtCapSchema.bat komutunu girin ve dosyayı yürütün.
CCD Tablolarını DataStage'e Eşlemek için Tanım Dosyaları Oluşturma
Bir sonraki adımda replikasyon yapmadan önce CCD tablosunu DataStage'e bağlamamız gerekiyor. Bu bölümde SQL'i DataStage'e nasıl bağlayacağımızı göreceğiz.
CCD tablosunu DataStage'e bağlamak için Datastage tanım (.dxs) dosyaları oluşturmanız gerekir. .dsx dosya formatı DataStage tarafından iş tanımlarını içe ve dışa aktarmak için kullanılır. İki adet .dsx dosyası oluşturmak için ASNCLP komut dosyasını kullanacaksınız. Örneğin burada iki adet .dsx dosyası oluşturduk.
- stagedb_AQ00_SET00_sJobs.dsx: Dört paralel işin iş akışını yönlendiren bir iş dizisi oluşturur.
- stagedb_AQ00_SET00_pJobs.dsx : Dört paralel işi oluşturur
ASNCLP programı CCD sütununu otomatik olarak Datastage Sütunu formatına eşler. Yalnızca ASNCLP çalıştığında desteklenir Windows, Linux veya Unix Prosedürü.
Datastage işleri CCD tablosundan satırları çeker.
- Bir görev, DataStage'in kaldığı yerden bir senkronizasyon noktası belirler.tracİki tablodan veri çekiyor. Bu işlem, ST00 abonelik kümesi için SYNCHPOINT değerini seçerek bu bilgiyi elde ediyor. IBMSNAP_SUBS_SET tablosunu ve MAX_SYNCHPOINT sütununa ekleyerek IBMSNAP_FEEDETL tablosu.
- Eski iki iştracPRODUCT_CCD ve INVENTORY_CCD tablolarındaki verilerden yararlanır. İşlemler hangi satırlardan başlayacağını bilir.tracMIN_SYNCHPOINT ve MAX_SYNCHPOINT değerlerini seçerek senkronizasyon sağlanır. IBMAbonelik kümesine ilişkin SNAP_FEEDETL tablosu.
Çoğaltmayı Başlatma
Çoğaltmayı başlatmak için aşağıdaki adımları kullanacaksınız. CCD tabloları verilerle doldurulduğunda bu, çoğaltma kurulumunun doğrulandığını gösterir. Hedef CCD tablolarında çoğaltılan verileri görüntülemek için DB2 Denetim Merkezi grafik kullanıcı arabirimini kullanın.
) 1 Adım DB2'nin çalıştığından emin olun, ardından şunu kullanın: db2 başlangıcı Komut.
) 2 Adım Daha sonra programı yakalamaya başlamak için işletim sistemi komut isteminden asncap komutunu kullanın. Örneğin.
asncap capture_server=SALES
Yukarıdaki komut SALES veritabanını Capture sunucusu olarak belirtir. Yakalama çalışırken komut penceresini açık tutun.
) 3 Adım Şimdi yeni bir komut istemi açın. Daha sonra başlatın GEÇERLİ asnapply komutunu kullanarak programı çalıştırın.
asnapply control_server=STAGEDB apply_qual=AQ00
- Komut, STAGEDB veritabanını Apply kontrol sunucusu (Apply kontrol tablolarını içeren veritabanı) olarak belirtir.
- Uygulama niteleyicisi olarak AQ00 (bu kontrol tabloları kümesinin tanımlayıcısı)
Uygula çalışırken komut penceresini açık bırakın.
) 4 Adım Şimdi başka bir komut istemi açın ve DB2 Denetim Merkezi'ni başlatmak için db2cc komutunu verin. Varsayılan Kontrol Merkezini kabul edin.
) 5 Adım Şimdi sol gezinme ağacında Tüm Veritabanları > STAGEDB'yi açın ve ardından Tablolar'a tıklayın. Double Tabloyu açmak için tablo adına ( Ürün CCD'si) tıklayın. Bunun gibi bir şeye benzeyecek.
Aynı şekilde ENVANTER için de CCD tablosunu açabilirsiniz.
Datastage Aracında Projeler Nasıl Oluşturulur
Öncelikle DataStage'de bir Proje oluşturacaksınız. Bunun için InfoSphere DataStage yöneticisi olmanız gerekir.
Kurulum ve replikasyon tamamlandıktan sonra bir proje oluşturmanız gerekir. DataStage'de projeler, verilerinizi düzenlemeye yönelik bir yöntemdir. Belirli bir projede veri dosyalarının, aşamaların ve işlerin tanımlanmasını içerir.
DataStage'de bir proje oluşturmak için aşağıdaki adımları izleyin:
Adım 1) DataStage yazılımını başlatın
DataStage ve QualityStage Yöneticisini başlatın. Ardından Başlat > Tüm programlar >'ı tıklayın. IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Yöneticisi.
Adım 2) DataStage sunucusunu ve istemcisini bağlayın
DataStage istemcinizden DataStage sunucusuna bağlanmak için Alan adı, kullanıcı kimliği, parola ve sunucu bilgileri gibi bilgileri girin.
Adım 3) Yeni Bir Proje Ekleme
WebSphere DataStage Yönetimi penceresinde. Projeler sekmesine ve ardından Ekle'ye tıklayın.
Adım 4) Proje ayrıntılarını girin
WebSphere DataStage Yönetim penceresinde şu gibi ayrıntıları girin:
- İsim
- Dosyanın konumu
- 'Tamam'ı tıklayın
Her proje şunları içerir:
- DataStage işleri
- Yerleşik bileşenler. Bunlar bir işte kullanılan önceden tanımlanmış bileşenlerdir.
- Kullanıcı tanımlı bileşenler. Bunlar, DataStage Manager veya DataStage Designer kullanılarak oluşturulan özelleştirilmiş bileşenlerdir.
Datastage Infophere'de replikasyon işlerinin nasıl içe aktarılacağını göreceğiz.
Datastage ve QualityStage Designer'da Çoğaltma İşlerini İçe Aktarma
Şuradaki işleri içe aktaracaksınız: IBM InfoSphere DataStage ve QualityStage Designer istemcisi. Ve onları infaz edersiniz IBM InfoSphere DataStage ve QualityStage Director istemcisi.
Tasarımcı-müşteri, inşaat işleri için boş bir tuval gibidir.tracVerilerin işlenmesi, dönüştürülmesi, yüklenmesi ve kalitesinin kontrol edilmesi gibi işlemleri gerçekleştirir. Bir işin temel yapı taşlarını oluşturan araçları sağlar. İçerir
- Stajlar: Dosyaları okumak veya yazmak ve verileri işlemek için veri kaynaklarına bağlanır.
- Bağlantılar: Verilerinizin aktığı aşamaları birbirine bağlar
InfoSphere DataStage ve QualityStage Designer istemcisindeki aşamalar, Tasarımcı araç paletinde depolanır.
InfoSphere QualityStage'de aşağıdaki aşamalar yer almaktadır:
- Aşamayı araştır
- Aşamayı standartlaştırın
- Eşleşme Sıklığı aşaması
- Tek Kaynaklı Eşleştirme aşaması
- İki kaynaklı Eşleştirme aşaması
- Hayatta kalma aşaması
- Standardizasyon Kalite Değerlendirmesi (SQA) aşaması
DataStage bilgi dünyasında 4 tür İş oluşturabilirsiniz.
- Paralel İş
- Sıralı İş
- Ana Bilgisayar İşi
- Sunucu İşi
Çoğaltma işi dosyalarının nasıl içe aktarılacağına adım adım bakalım.
) 1 Adım DataStage ve QualityStage Designer'ı başlatın. Başlat > Tüm programlar'ı tıklayın > IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Designer
) 2 Adım Projeye Ekle penceresinde aşağıdaki bilgileri girin.
- domain
- Kullanıcı adı
- Şifre
- Proje Adı
- OK
) 3 Adım Şimdi Dosya menüsünden içe aktar'ı tıklayın -> DataStage Bileşenleri.
Yeni bir DataStage Repository Import penceresi açılacaktır.
- Bu pencerede göz atın STAGEDB_AQ00_ST00_sJobs.dsx daha önce oluşturduğumuz dosya
- “Tümünü içe aktar” seçeneğini seçin.
- “Etkileşim Analizi Gerçekleştir” onay kutusunu işaretleyin.
- 'Tamam'ı tıklayın.
İş içe aktarıldıktan sonra DataStage, STAGEDB_AQ00_ST00_sequence işini oluşturacaktır.
) 4 Adım içe aktarmak için aynı adımları izleyin. STAGEDB_AQ00_ST00_pJobs.dsx dosyası. Bu içe aktarma dört paralel işi yaratır.
) 5 Adım Tasarımcı Havuzu bölmesinin altında -> SQLREP klasörünü açın. Klasörün içinde Sıralı İş ve dört paralel iş göreceksiniz.
) 6 Adım Sıra işini görmek için. Depo ağacına gidin, STAGEDB_AQ00_ST00_sequence işine sağ tıklayın ve Düzenle'ye tıklayın. İş sırasının kontrol ettiği dört paralel işin iş akışını gösterecektir.
Her simge bir sahnedir,
- getExtractRange aşaması: Günceller IBMSNAP_FEEDETL tablosu, veri çıkışı için başlangıç noktasını belirleyecektir.tracDataStage'in son örneğine kadar olan süreçtracSatırları listele ve bitiş noktasını abonelik kümesi için işlenen son işleme ayarla.
- getExtractRangeSuccessBu aşama, başlangıç noktalarını dışa aktarır.tractFromINVENTORY_CCD stage and extractFromPRODUCT_CCD aşaması
- AllExtractsSuccess: Bu aşama, hem eski hem de yeni personelin katılımını sağlar.tractFromINVENTORY_CCD ve extractFromPRODUCT_CCD başarıyla tamamlandı. Ardından, getirilen son satırlar için senkronizasyon noktaları setRangeProcessed aşamasına iletilir.
- setRangeİşlenmiş aşama: Güncellenir IBMSNAP_FEEDETL tablosu. Böylece DataStage, bir sonraki veri çıkarma turuna nereden başlayacağını biliyor.tracyon
) 7 Adım Paralel işleri görmek için. STAGEDB_ASN_INVENTORY_CCD'ye sağ tıklayın ve depo altında düzenle'yi seçin. Aşağıda gösterildiği gibi bir pencere açılacaktır.
Yukarıdaki resimde Envanter CCD tablosundaki verilerin ve SyncFEEDETL tablosundan h noktası detayları Lookup_6 aşamasına işlenir.
DataStage'den STAGEDB veritabanına veri bağlantısı oluşturma
Şimdi bir sonraki adım, InfoSphere DataStage ile SQL Replication hedef veritabanı arasında bir veri bağlantısı oluşturmaktır. CCD tablolarını içerir.
DataStage'de, bir iş tasarımında bir veri kaynağına bağlantıyı hızlı bir şekilde tanımlamak için ilgili bağlayıcı aşamalarıyla birlikte veri bağlantısı nesnelerini kullanırsınız.
) 1 Adım STAGEDB, DataStage'in verilerini senkronize etmek için kullandığı Uygulama kontrol tablolarını da içerir.tracve verilerin çıkarıldığı CCD tablolarıtracted. Aşağıdaki komutları kullanın.
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
not: STAGEDB'nin oluşturulduğu sistemin IP adresi
) 2 Adım Dosya > Yeni > Diğer > Veri Bağlantısı'na tıklayın.
) 3 Adım İki sekmeli bir pencereniz olacak: Parametreler ve Genel.
) 4 Adım Bu adımda,
- Genel olarak sekme, veri bağlantısının adını sqlreplConnect olarak adlandırır
- Aşağıda gösterildiği gibi Parametreler sekmesinde
- 'Sahne Türünü kullanarak bağlan' alanının yanındaki gözat düğmesini tıklayın ve
- Açık pencerede veri havuzu ağacında Aşama Türleri –> Paralel– > Veritabanı —-> DB2 Bağlayıcı seçeneğine gidin.
- Aç'ı tıklayın.
) 5 Adım Bağlantı parametreleri tablosuna şu ayrıntıları girin:
- Bağlantı dizisi: STAGEDB2
- Kullanıcı Adı: STAGEDB veritabanına bağlanmak için kullanıcı kimliği
- Şifre: STAGEDB veritabanına bağlanmak için şifre
- örnek: STAGEDB veritabanını içeren DB2 yönetim ortamının adı
) 6 Adım Bir sonraki pencerede veri bağlantısını kaydedin. 'Kaydet' düğmesine tıklayın.
Tablo Tanımlarını STAGEDB'den DataStage'e Aktarma
Bir önceki adımda InfoSphere DataStage ile STAGEDB veritabanının birbirine bağlı olduğunu gördük. Şimdi, product_CCD ve INVENTORY_CCD tablolarına ilişkin sütun tanımını ve diğer meta verileri Information Server havuzuna aktarın.
Tasarımcı penceresinde aşağıdaki adımları izleyin.
) 1 Adım İçe Aktar > Tablo Tanımları > Bağlayıcı İçe Aktarma Sihirbazını Başlat'ı seçin
) 2 Adım Sihirbazın bağlayıcı seçme sayfasından DB2 Bağlayıcıyı seçin ve İleri'yi tıklayın.
) 3 Adım Bağlantı ayrıntısı sayfasında yükle'ye tıklayın. Bu, sihirbaz alanlarını önceki bölümde oluşturduğunuz veri bağlantısından gelen bağlantı bilgileriyle dolduracaktır.
) 4 Adım Aynı sayfada Bağlantıyı test et'e tıklayın. Bu, DataStage'in STAGEDB veritabanına bağlanma girişiminde bulunmasını sağlayacaktır. “Bağlantı başarılı” mesajını görebilirsiniz. Sonrakine tıkla.
) 5 Adım Veri kaynağı konumu sayfasında Ana Bilgisayar Adı ve Veritabanı adı alanlarının doğru şekilde doldurulduğundan emin olun. Daha sonra ileri'ye tıklayın.
) 6 Adım Şema sayfasında. Kontrol tablolarını uygula (ASN) şemasını girin veya ASN şemasının şema alanına önceden doldurulduğunu kontrol edin. Daha sonra ileri'ye tıklayın. Seçim sayfası ASN Şemasında tanımlanan tabloların listesini gösterecektir.
) 7 Adım Meta verileri içe aktarmamız gereken ilk tablo: IBMSNAP_FEEDETL, bir Uygulama kontrol tablosudur. DataStage'in senkronizasyon noktalarını takip etmesini sağlayan ayrıntıları içerir. tracCCD tablolarından k adet satır getirmiştir. Seçiniz. IBMSNAP_FEEDETL ve İleri'ye tıklayın.
) 8 Adım İçe aktarma işlemini tamamlamak için IBMSNAP_FEEDETL tablo tanımı. İçe aktar'a tıklayın ve ardından açık pencerede aç'a tıklayın.
) 9 Adım product_CCD tablosunun ve ardından INVENTORY_CCD tablosunun tanımlarını içe aktarmak için 1-8 arasındaki adımları iki kez daha tekrarlayın.
NOT: Envanter ve ürün tanımlarını içe aktarırken, şemaları ASN'den, altında product_CCD ve INVENTORY_CCD'nin oluşturulduğu şemaya değiştirdiğinizden emin olun.
Artık DataStage, SQL Replication hedef veritabanına bağlanmak için ihtiyaç duyduğu tüm ayrıntılara sahip.
DataStage İşlerinin Özelliklerini Ayarlama
Sahip olduğumuz dört DataStage paralel işinin her biri için STAGEDB veritabanına bağlanan bir veya daha fazla aşama içerir. Bağlantı bilgilerini eklemek ve DataStage'in doldurduğu veri kümesi dosyalarına bağlantı eklemek için aşamaları değiştirmeniz gerekir.
Aşamaların düzenlenebilir önceden tanımlanmış özellikleri vardır. Burada STAGEDB_ASN_PRODUCT_CCD_ex için bu özelliklerden bazılarını değiştireceğiz.tracparalel iş.
) 1 Adım Tasarımcı deposu ağacına göz atın. SQLREP klasörü altında STAGEDB_ASN_PRODUCT_CCD_ex'i seçin.tracParalel işi düzenlemek için, işe sağ tıklayın. Paralel işin tasarım penceresi Tasarımcı Paleti'nde açılır.
) 2 Adım Yeşil simgeyi bulun. Bu simge DB2 bağlantı aşamasını gösterir. Örneğin şu amaçlarla kullanılır:tracCCD tablosundan veri çekme. Double-simgeye tıklayın. Bir sahne düzenleyici penceresi açılır.
) 3 Adım Alanları bağlantı bilgileriyle doldurmak için düzenleyicide Yükle'ye tıklayın. Sahne düzenleyiciyi kapatmak ve değişikliklerinizi kaydetmek için Tamam'ı tıklayın.
) 4 Adım Şimdi STAGEDB_ASN_PRODUCT_CCD_ex için tasarım penceresine geri dönün.tracParalel iş. Get simgesini bulun.SynchPoints DB2 bağlayıcı aşaması. Ardından simgeye çift tıklayın.
) 5 Adım Şimdi alanları bağlantı bilgileriyle doldurmak için yükle düğmesine tıklayın.
NOT: Apply kontrol sunucunuz olarak STAGEDB dışında bir veritabanı kullanıyorsanız. Ardından get için bağlantı bilgilerini yükleme seçeneğini seçin.SyncCCD tablosu yerine kontrol tablolarıyla etkileşime giren hPoints aşaması.
) 6 Adım Bu adımda,
- InfoSphere DataStage'in çalıştığı sistemde boş bir metin dosyası oluşturun.
- Bu dosyayı üründataset.ds olarak adlandırın ve nereye kaydettiğinizi not edin.
- DataStage, CCD tablosundan değişiklikleri getirdikten sonra değişiklikleri bu dosyaya yazacaktır.
- Verileri bağlantılı işler arasında taşımak için kullanılan veri kümeleri veya dosyalar, kalıcı veri kümeleri olarak bilinir. Bir DataSet aşamasıyla temsil edilir.
) 7 Adım Şimdi tasarım penceresinde sahne düzenleyicisini açın ve insert_into_a_dataset simgesine çift tıklayın. Başka bir pencere açılacaktır.
) 8 Adım Bu pencerede,
- Özellikler sekmesi altında, Target klasör açıktır ve Dosya = DATASETNAME özelliği vurgulanmıştır.
- Sağ tarafta bir dosya alanınız olacak
- Productdataset.ds dosyasının tam yolunu girin
- 'Tamam'ı tıklayın.
Artık ürün CCD tablosu için gerekli tüm özellikleri güncellediniz. Tasarım penceresini kapatın ve tüm değişiklikleri kaydedin.
) 9 Adım Şimdi STAGEDB_ASN_INVENTORY_CCD_ex dosyasını bulun ve açın.tracTasarımcının depo bölmesinden paralel bir iş başlatın ve 3-8 arasındaki adımları tekrarlayın.
NOT:
- Getirmek için kontrol sunucusu veritabanının bağlantı bilgilerini sahne düzenleyicisine yüklemeniz gerekir.SynchPuan aşaması. Kontrol sunucunuz STAGEDB değilse.
- STAGEDB_ST00_AQ00_getEx içintractRange ve STAGEDB_ST00_AQ00_markRangeProcessed paralel işlerini çalıştırarak tüm DB2 bağlantı aşamalarını açın. Ardından, STAGEDB veritabanı için bağlantı bilgilerini eklemek üzere yükleme işlevini kullanın.
DataStage İşlerini Derleme ve Çalıştırma
DataStage işi derlenmeye hazır olduğunda Tasarımcı, girdilere, dönüşümlere, ifadelere ve diğer ayrıntılara bakarak işin tasarımını doğrular.
İş derlemesi başarıyla tamamlandığında çalışmaya hazırdır. Beş işin tamamını derleyeceğiz, ancak yalnızca "iş sırasını" çalıştıracağız. Bunun nedeni bu işin dört paralel işin tamamını kontrol etmesidir.
) 1 Adım SQLREP klasörü altında. Beş işin her birini (Cntrl+) ile seçin.Shift). Daha sonra sağ tıklayıp Çoklu iş derleme seçeneğini seçin.
) 2 Adım DataStage Derleme Sihirbazı'nda beş işin seçildiğini göreceksiniz. Sonrakine tıkla.
) 3 Adım Derleme başlar ve bittiğinde "Başarıyla derlendi" mesajı görüntülenir.
) 4 Adım Şimdi DataStage ve QualityStage Director'ı başlatın. Başlat > Tüm programlar'ı seçin > IBM Bilgi Sunucusu > IBM WebSphere DataStage ve QualityStage Direktörü.
) 5 Adım Soldaki proje gezinme bölmesinde. SQLREP klasörünü tıklayın. Bu, beş işin tamamını yönetici durum tablosuna getirir.
) 6 Adım STAGEDB_AQ00_S00_sequence işini seçin. Menü çubuğundan İş > Şimdi Çalıştır'a tıklayın.
Derleme tamamlandıktan sonra bitmiş durumunu göreceksiniz.
Şimdi, PRODUCT_CCD ve INVENTORY_CCD tablolarında saklanan değiştirilmiş satırların silinip silinmediğini kontrol edin.tracDataStage tarafından işlendi ve iki veri seti dosyasına eklendi.
) 7 Adım Tasarımcıya geri dönün ve STAGEDB_ASN_PRODUCT_CCD_ex dosyasını açın.tracİş. Sahne düzenleyicisini açmak için. Double-insert_into_a_dataset simgesine tıklayın. Daha sonra verileri görüntüle'ye tıklayın.
) 8 Adım Görüntülenecek satırlardaki varsayılanları kabul edin penceresi. Daha sonra Tamam'ı tıklayın. Veri seti dosyasının içeriğini göstermek için bir veri tarayıcı penceresi açılacaktır.
SQL Replikasyon ve DataStage Arasındaki Entegrasyonu Test Etme
Bir önceki adımda işi derledik ve yürüttük. Bu bölümde SQL replikasyonu ve DataStage entegrasyonunu kontrol edeceğiz. Bunun için kaynak tabloda değişiklikler yapacağız ve aynı değişikliğin DataStage'de güncellenip güncellenmediğine bakacağız.
) 1 Adım İşletim sisteminiz için sqlrepl-datastage-scripts klasörüne gidin.
) 2 Adım Aşağıdaki adımları izleyerek SQL Replication'ı başlatın:
- startSQLCapture.bat dosyasını çalıştırın (Windows) dosyasını SATIŞ veritabanında Capture programını başlatmak için kullanın.
- startSQLApply.bat'ı çalıştırın (WindowsSTAGEDB veritabanındaki Apply programını başlatmak için ) dosyasını kullanın.
) 3 Adım Şimdi updateSourceTables.sql dosyasını açın. SATIŞ veritabanına bağlanmak için şunu değiştirin: Ve Kullanıcı kimliği ve şifre ile.
) 4 Adım Bir DB2 komut penceresi açın. Dizini sqlrepl-datastage-tutorial\scripts olarak değiştirin ve verilen komutla sorunu çalıştırın:
db2 -tvf updateSourceTables.sql
SQL scripti Satış veritabanındaki her iki tabloda (ÜRÜN, ENVANTER) Güncelleme, Ekleme ve silme gibi çeşitli işlemleri yapacaktır.
) 5 Adım DataStage'in çalıştığı sistemde. DataStage Director'ı açın ve STAGEDB_AQ00_S00_sequence işini yürütün. İş > Şimdi Çalıştır'a tıklayın.
İşi çalıştırdığınızda aşağıdaki aktiviteler gerçekleştirilecektir.
- Capture programı, SATIŞ veritabanı günlüğündeki altı satırlık değişiklikleri okur ve bunları CD tablolarına ekler.
- Apply programı, SALES'teki CD tablolarından değişiklik satırlarını alır ve bunları STAGEDB'deki CCD tablolarına ekler.
- İki DataStage örneğitract görevleri, CCD tablolarındaki değişiklikleri alır ve bunları productdataset.ds ve inventorydataset.ds dosyalarına yazar.
Veri setlerine bakarak yukarıdaki adımların gerçekleşip gerçekleşmediğini kontrol edebilirsiniz.
) 6 Adım Aşağıdaki adımları izleyin,
- Tasarımcıyı başlatın. STAGEDB_ASN_PRODUCT_CCD_ex dosyasını açın.traciş.
- Sonra Double-insert_into_a_dataset simgesine tıklayın. Sahne editöründe. Verileri Görüntüle'ye tıklayın.
- Görüntülenecek satırlardaki varsayılanları kabul edin ve Tamam'a tıklayın.
Veri kümesi üç yeni satır içerir. Değişikliklerin uygulandığını kontrol etmenin en kolay yolu, Veri Tarayıcının en sağına doğru kaydırma yapmaktır. Şimdi son üç satıra bakın (aşağıdaki resme bakın)
I, U ve D harfleri, her yeni satırla sonuçlanan INSERT, UPDATE ve DELETE işlemlerini belirtir.
Aynı kontrolü Envanter tablosu için de yapabilirsiniz.
ÖZET
- Datastage bir ETL aracı hangi eskitracts verilerini işler, dönüştürür ve kaynaktan hedefe yükler.
- Kolaylaştırır iş analizi iş zekası kazanmaya yardımcı olacak kaliteli veriler sağlayarak.
- DataStage iki bölüme ayrılmıştır; Paylaşılan Bileşenler ve Çalışma Zamanı Archidoku.
- DataStage'in dört ana bileşeni vardır;
- yönetici
- müdür
- tasarımcı
- yönetmen
- Aşağıda temel hususlar yer almaktadır: IBM InfoSphere DataStage
- Veri dönüşümü
- İş İlanlar
- paralel işleme
- İş tasarımında yer alan çeşitli aşamalar şunlardır:
- Dönüşüm aşaması
- Filtre aşaması
- Toplayıcı aşaması
- Yinelenenleri kaldırma aşaması
- Aşamaya katıl
- Arama aşaması































