Büyük Veri - Big Data
07.11.20
Büyük Veri Nedir ?

Küresel bilgisayar ağları içinde üretilen ve günümüzdeki geleneksel veritabanları ve yazılımları ile düzenlenemeyecek ve işlenemeyecek büyüklükteki veri için Büyük Veri (Big Data) terimi kullanılmaktadır.
Büyük Veri esas olarak bugün, birkaç yıl önce mümkün olmayan şekillerde veri toplayabildiğimiz ve analiz edebildiğimiz gerçeğini ifade eder.
Veri Bileşenleri
Big Data (Büyük Veri) nin oluşumunda 5 bileşen vardır. Bu bileşenler sırasıyla; variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v şeklinde adlandırılmaktadır.
Variety (Çeşitlilik): Üretilen veriler genel olarak yapısal olmadığı ve bir çok farklı ortamdan elde edilen veri formatlarından oluştuklarından dolayı bütünleşik ve birbirlerine dönüştürülebiliyor olmaları gerekmektedir.
Velocity (Hız): Big data üretimi her geçen gün hızına hız katmakta ve bu veriler saniyede inanılmaz boyutlara ulaşmaktadır. Hızlı büyüyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu ortaya çıkartmaktadır ve hem yazılımsal hemde donanımsal olarak bu yoğunluğu kaldırabilmeliyiz.
Volume (Veri Büyüklüğü): Büyük veri olarak isimlendirdiğimiz verilerimiz her geçen gün hızına hız katarak artıyor olabilir, haliyle gelecekteki durumlarımızı da ön plana koyarak ileride bu veri yığınları ile nasıl başa çıkacağımızı iyi düşünmemiz ve planlarımızı bu doğrultuda yapmamız gerekmektedir.
Verification (Doğrulama): Bu kadar hızlı büyüyen verilerin akışı sırasında gelen verilerin güvenli olup olmadığını kontrol etmemiz gerektiği durumlarda da bir diğer veri bileşeni olarak Verification (Doğrulama) görülebilir. Bu veri doğru kişiler tarafından görülebilir veya saklı kalması gerekiyor olabilir.
Value (Değer): Belkide en önemli katmanlardan bir tanesi de “Değer” katmanıdır, verilerimiz yukarıdaki veri bileşenlerinden filtrelendikten sonra büyük verinin üretimi ve işlenmesi katmanlarında elde edilen verilerin şirketimiz için artı değer sağlıyor olması gerekiyor.
Her Şey Hakkında Daha Fazla Veri
Gittikçe daha dijital hale gelen dünyamızda yaptığımız her şey geride bir veri izi bırakır. Bu, mevcut veri miktarının gerçekten de büyüdüğü anlamına gelir. Geçtiğimiz iki yıl içinde, insanoğlunun tüm tarih boyunca ürettiğinden daha fazla veri ürettik. Bu veri sadece e-posta, WhatsApp, Facebook, Twitter vs ile her saniye birbirimize gönderdiğimiz milyonlarca mesaj,fotoğraf,video ve e-postadan gelmiyor. Ayrıca sensörlerden alınan veriler de var. Nerede olduğumuzu (GPS), hareket etme hızımızı (ivmeölçer), havanın nasıl olduğu (barometre), dokunmatik ekrana basmak için ne kadar güç uyguladığımızı (dokunma sensörü) ve daha pek çoğunu söyleyen sensörler var. 2020 itibariyle yaklaşık 50 milyardan fazla cihaz internete bağlı olacak. Tüm bunlar,dünyadaki veri miktarının ve çeşitliğinin hayal edilemeyecek seviyelerde büyüyeceği anlamına geliyor.
Her Şeyi Analiz Edebilme Becerisi
Enformasyon ve bilgiye dönüştürmediğimiz takdirde Büyük Veri’nin çok da fazla değeri yoktur, bunu yapmak için veriyi toplamak ve analiz etmek gerekir. Geçmişte veritabanlarında depolanabilecek veri miktarı sınırlıydı; veri ne kadar fazlaysa sistem o kadar yavaşlıyordu. Artık bu sorunu, dağıtık lokasyonlarda, farklı veritabanlarında ve ağlarla bağlanmış şekilde veri depolamamıza ve analiz etmemize olanak sağlayan tekniklerle aşabiliyoruz. Dağıtık bilgi-işlem, analizleri farklı sunucular arasında paylaştırarak çok büyük miktarda verinin depolanabilmesi ve analiz edilebilmesi anlamına gelmektedir.
Google, bu sistemin gelişmesinde çok etili oldu. Bu gün tek bir arama sorgusunu yanıtlamak için yaklaşık 1000 bilgisayar devreye giriyor.
Nerede Kullanılır ?
Hangi işi yaptığınız veya hangi sektörde olduğunuz farketmez; Büyük Veri onu değiştirecek
Perakendeciler tarafından (hem fiziksel hem de online olanlar) tarafından trendleri ve tüketici davranışlarını tahmin etmek amacıyla, hükümetler tarafından teröristlerin planlarını engellemek için, hatta ufak bir aile kasabı veya bir hayvanat bahçesi tarafından bile kullanılabilir.
NETFLİX
— Büyük Veri Kullanılarak İstediğimiz Diziler Nasıl Sunuluyor ?
Amerikada internet trafiğinin en yoğun olduğu anda bu trafiğin üçte birinden Netflix’in sorumlu olduğu söyleniyor.
Netflix, 50'den fazla ülkede, günde 100 milyon saatin üzerinde televizyon programı ve film izleyen 65 milyon üyeye sahip.
Üyelerden elde edilen veriler toplanıp takip edilerek izleme alışkanlıklarımızı anlamaya çalışıyorlar
— Nasıl Kullanılıyor ?
Netflix Büyük Veriyi yaygın olarak tavsiye motorunda kullanır.
Bununla ilgili çalışmaları 2006 yılında şirket hala DVD postalama işi yaparken başladı. Netflix Prize adlı müşterilerin önceki puanlamalarına bakılarak bir filme kaç puan vereceğini tahmin edecek algoritma geliştirmesi için bir yarışma düzenlendi. Algoritmalar sürekli gelişse de kullanılan prensipler hala tavsiye motorunun temelini oluşturuyor.
Başlangıçta analistlerin elindeki bilgi sınırlıydı (kimlik bilgisi,film bilgisi,puan ve tarih). İnternet yayını başlıca hizmet sunma şekli haline gelir gelmez müşteriler hakkında çok sayıda veri erişilebilir oldu. Bu sayede müşterilerine hoşlanacakları filmler sunmak için kusursuz tahminlerde bulunacak modeller oluşturma imkanına sahip oldu.
Bir başka temel unsurda etiketlemedir, Netflix hoşumuza giden filmle benzer filmler sunmak için film izleme alışkanlıklarımıza dayanarak 80.000 yeni film mikro türü tanımladı.
— Hangi veri kullanılıyor ?
Tavsiye algoritmaları ve içerik kararları, müşterilerin hangi başlıkları izlediği, günün hangi zamanında izlediği, filmleri seçerken harcanan süre, filmin ne sıklıkla durdurulduğu ve verilen puanlar ile ilgili verilerle besleniyor.
Netflix, deneyim kalitesini analiz etmek amacıyla ara belleğe alma işleminden kaynaklanan gecikmeler, bit hızı ve müşterinin lokasyonu hakkında da veriler topluyor.
— Sonuçlar
2015 yılının ilk çeyreğinde 4,9 milyon yeni üye kazandılar.
Üyeler sadece 2015'in ilk çeyreğinde 10 milyar saatlik içerik izledi.
Başarısının büyük bir bölümü, izleyicilerin neden hoşlanacağını tahmin etme becerisine dayalı.
PENDLETON & SON
— Küçük firmalar için büyük veri.
P&S 1996'da kurulan bir mahalle kasabıdır.
Mahalleye açılan süpermarketle rekabet etmek için Büyük Veri teknolojilerinden faydalandı.
— Nasıl Kullanılıyor ?
Pendleton & Son müşterileri takip etmek, vitrin sunumlarının ve promosyonların etkisini ölçmek amacıyla dükkan penceresine sensörler yerleştirmeyi öneren bir Büyük Veri danışmanıyla çalıştı.
Firma, bu sensörleri kullanarak dükkanın önünden kaç kişinin geçtiğini, kaç tanesinin vitrin ve sandviç tabelasına bakmak için durduğunu ve kaç kişinin sonuç olarak içeri girdiğini ölçebiliyordu.
Bu bilgiyle birlikte müşterilerin ilgisini en çok neyin çektiğine dayanarak vitrinlerini ve mesaj iletme şekillerini geliştirebildiler.
Google Trend verilerine dayanarak ürünlerine karar veren firma müşteriler hakkında topladığı veriyi arttırmayı düşünüyor.
— Hangi veri kullanılıyor ?
Pendleton’lar, vitrinin dışına yerleştirilen küçük bir sensörden elde edilen verileri ve stok verisi gibi diğer firma içi bilgileri kullandılar. Ayrıca önlerindeki haftanın yemek önerilerini ve tariflerini hazırlamalarına yardımcı olması için ücretsiz hava durumu ve tarif verilerinden faydalandılar.
— Sonuçlar
Bu örnekte sensör verileri, dükkanın dışında duran sandviç tabelalarındaki yemek önerilerinin ve içeride yer alan basit tarif kağıtlarının, fiyat merkezinde şekillenen mesajlardan daha popüler olduğunu gösterdi.
Özetle Pendleton’lar müşterilerin, parlak fikirleri ve değişik önerileri, her gün süpermarkette bulabilecekleri ucuz alışverişe tercih ettiklerini gördüler. Bu bilgiyi kullanarak sundukları mesajı geliştirdiler ve neticede alışveriş yapması çok daha muhtemel olan, daha fazla insanın kapıdan girmesini sağladılar.