Yeni Başlayanlar İçin |Veri Mühendisliği Rehberi | OLTP ve OLAP| Data Werehouse, Data Lake

Yeni Başlayanlar İçin Veri Mühendisliği Rehber’i ilk bölümüne hoş geldiniz! Bu serüvende sizlere yalın bir türkçe ile veri mühendisliğinin temellerini anlatmaya çalışacağım. Sürçü lisan ettiysek şimdiden affola.

Veri mühendisliğinin ve analizinin yapı taşlarından biri veri işlemesidir (data processing). Bu elimizdeki verinin nasıl toplandığını, saklandığını ve erişildiğini şekillendiren en önemli adımdır. En büyük iki temel veri işleme tipi : OLAP (Online Analytical Processing) ve OLTP (Online Transactional Processing). Bu yazıda, OLAP ve OLTP’nin birbirinden farklarını ve birbirlerini nasıl tamladıklarını anlatacağım. Ek olarak da Data Werehouse ve Data Lake konseptlerine değineceğim.

OLAP

OLAP, büyük veri setlerinden değerli öngörüler ve derin analizler yapmamızı sağlayan veri işleme türüdür. Büyük şirket ve organizasyonların veri işlemlerinin olmazsa olmazlarından biridir. Peki bu ne demek? Hadi bunu bir örnekle anlatayım.

Örnek:

Diyelim ki bir kıyafet satışı yapan bir şirkette çalışıyorsunuz. Patronunuz size, şirketin dünya genelindeki performansını öğrenmek istediğini söylüyor. Siz de başlıyorsunuz veri toplamaya. Tarihler, satış rakamları, ürünler hakkında bilgiler… OLAP sayesesinde rapor sisteminiz şu özelliklere sahip olur:

Çok Boyutlu Analiz (Multidimensional Analysis): Sisteminiz verileri bölge, ürün gibi farklı açılardan değerlendirmenize olanak sağlar. Bu özellik veri ile trend takibini kolaylaştırır.

Veri Hesaplamalar (Data Aggregation): İşlenmemiş verilerle aylık satış, yıllık satış, iade oranları gibi ileri seviye hesaplamaları çok daha kolay hesaplayabilirsiniz.

Detaylı İncelemeler (Drill-down): Elinizdeki verinin spesifik detaylarına incelemenize olanak sağlar.

OLAPOLTP
FonksiyonKarar desteğiGündelik İşlemler ve Operasyonlar
Veritabanı TasarımıÖzne (Subject) OdaklıUygulama Odaklı
KullanımıTekrarlanabilen
ErişimYüksek sayılı taramalarRead/Write
Çalışma şekliKarmaşık QuerylerKısa ve basit işlemler
Veritabanı boyutuTerabitGigabyte

OLTP ( Online Transactional Processing)

OLTP gündelik iş hesaplamalarını yapmak için biçilmiş kaftan. Satın alımlarını, müşteri bilgileri, reservasyonlar gibi işlemleri etkili bir şekilde uygulanmasını sağlar.

Örnek

Gün içerisinde bir sürü işlemi ve bilgi güncellemesi alan bir bankayı düşünelim. Para çekimi, para yatırma işlemleri, sanal kart oluşturma, müşteri bilgilerinin güncellenmesi… bunun gibi bilgilerin işlenmesinde OLTP sorumludur. OLTP’nin sunduğu katkılar:

Veri Bütünlüğü: İşlemler sonrasında hesaptaki meblağın kontrolü ve güncel kalmasını sağlar. Aynı zamanda işlemlerin kayıt altında tutulmasını sağlar.

Eş Zamanlılık: Aynı anda birden fazla işlemi birbiriyle çakışmadan ele alır.

Hatasal Dönüt: Sistem olabilecek bir sıkıntı durumunda herhangi bir problemin ortaya çıkmamasını sağlar. Böylikle hiçbir işlem kayıp olmaz, kayıt altında tutulur.

OLTP kullanıcıların hesaplarına ulaşabilmesini, ödemeler yapmalarını ve gerçek zaman bankacılık işlemleri yapmasına olanak sağlar.

Data Storage ( Veri depolama) : Data Werehouse ve Data Lake

Verimizin az çok nasıl işlendiğini anladık, sırada verimizin nerede depolandığını incelemeye. Verilerin depolama konusundaki iki kilit metodu anlatacağım sizlere. Data Lake ve Data Werehouse. Bu konseptlerin teorik ve gerçek hayatta karşımıza çıkan yollarla inceleyelim.

Data Werehouse: Data Werehouse en önemli structured data’ları depolamak için kullanılan bir kasa gibi işler. Tasarım amacı karmaşık analizler için kullanılacak verileri güvenli bir şekilde saklayabilmek.

Örnek:

Büyük bir e-ticaret şirketinde çalıştığını düşün. Şirketin farklı şehirlerde operasyonları var ve her gün binlerce sipariş alıyor. Her sipariş; ödeme sistemi, lojistik sistemi ve kullanıcı davranışlarını takip eden farklı servisler üzerinden geçiyor. Günün sonunda ise ortaya parçalı ve dağınık bir veri yapısı çıkıyor.

Şirket bu karmaşayı yönetebilmek için bir Data Warehouse kullanıyor. Tüm mağazalardan ve sistemlerden gelen satış verileri tek bir merkezi yapıda toplanıyor. Bu sayede geçmişe dönük analiz yapmak mümkün hale geliyor. Örneğin, hangi ürünlerin belirli dönemlerde daha çok sattığı veya hangi sezonlarda satışların arttığı kolayca incelenebiliyor.

Aynı zamanda farklı kaynaklardan gelen veriler tek bir standart yapıya dönüştürülüyor. Farklı şehirlerden, farklı sistemlerden gelen bilgiler artık tek bir dil konuşuyor. Bu da veriyi tutarlı ve güvenilir hale getiriyor.

Bu yapı, iş zekâsı araçlarıyla entegre çalışıyor. Dashboard’lar oluşturuluyor, raporlar hazırlanıyor ve yöneticiler anlık olarak şirketin performansını izleyebiliyor. Artık “hangi mağaza hedefini geçti?” ya da “hangi ürün hangi dönemde daha iyi performans gösterdi?” gibi sorulara hızlı ve net cevaplar verilebiliyor.

Data Lake: Data Werehouse’ın aksine içerisinde ham ve unstructured verilerin bulunduğu depolama alanlarıdır. Tasarım amacı içerisinde video ve unstructured dataların saklandığı veri havuzudur.

Örnek:

Büyük bir video streaming platformunda çalıştığını düşün. Her gün milyonlarca kullanıcı sisteme giriyor, içerik izliyor, durduruyor, ileri sarıyor ve farklı içeriklere geçiş yapıyor. Bu süreçte sistem sadece basit izleme bilgilerini değil; kullanıcı davranışlarını, cihaz bilgilerini, izleme sürelerini ve hatta arama geçmişlerini de sürekli olarak kaydediyor.

Ortaya çıkan veri inanılmaz büyüklükte ve çeşitlilikte. Sadece sayısal veriler değil; video dosyaları, altyazılar, log kayıtları ve kullanıcı etkileşimleri gibi farklı formatlarda veriler üretiliyor. Bu veriyi baştan temizleyip düzenlemek hem zaman kaybı hem de esneklik kaybı yaratacağı için şirket farklı bir yaklaşım benimsiyor: Data Lake.

Tüm bu veriler olduğu gibi, ham haliyle bir veri gölünde saklanıyor. Yani veri daha en başta herhangi bir yapıya zorlanmıyor. Video dosyaları, loglar, JSON verileri ve metinler aynı ortamda birlikte tutuluyor. Bu sayede ileride hangi verinin ne amaçla kullanılacağına daha sonra karar verilebiliyor.

Zamanla veri ekipleri ve veri bilimciler bu veri gölünü kullanmaya başlıyor. Örneğin, kullanıcıların izleme alışkanlıkları analiz edilerek kişiselleştirilmiş öneri sistemleri geliştiriliyor. Hangi tür içeriklerin daha fazla izlendiği, kullanıcıların ne zaman platformu terk ettiği gibi davranışlar detaylı şekilde incelenebiliyor.

Aynı zamanda sistem logları analiz edilerek anormal durumlar tespit ediliyor. Örneğin, belirli bir bölgede video yüklenme süreleri artıyorsa ya da sistemde beklenmeyen hatalar oluşuyorsa, bu durumlar hızlıca fark edilip müdahale edilebiliyor.

Temel olarak veri depolama sistemleri bu kadar! Umarım okurken keyif almışsınızdır, yorumlarınızı bekliyorum!

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top