Nüfus sayımı kayıtlarından doğum kayıtlarına kadar yüzyıllardır veri topluyoruz. Bununla birlikte, oluşturduğumuz ve topladığımız veri miktarı, internetin doğuşundan bu yana olağanüstü boyutlara ulaştı. İlk kez 2005 yılında ortaya atılan “büyük veri” terimi, bu devasa miktardaki bilgiyi tanımlamak için kullanılıyor. Bugün hükûmetler, özel şirketler ve kamu hizmeti sağlayıcıları büyük verinin potansiyelinden yararlanmaya çalışıyor. Bununla birlikte büyük veri, birçok potansiyel faydaya sahip olsa da bazı riskleri de beraberinde getiriyor.
Bu yazıda büyük verinin getirdiği gizlilik, güvenlik ve etik sorunlarına özellikle odaklanarak hem potansiyeli hem de riskleri keşfedeceğiz.
Büyük veri nedir?
Büyük veri, verilerin anlamlı hâle getirilmesidir. Veriler analiz edilir, sınıflandırılır, işlenir ve böylelikle bir veri yığınına değil; anlamlandırılmış ve kullanılabilir bilgi kaynaklarına dönüşür.
Günümüzde her alanda çok büyük bir rekabet söz konusu. Bu sebeple ürün üretmek değil, ürünü tüketici isteklerine göre üretmek önemli hâle geldi. Tüketiciyi anlamak, beğenilerini öğrenmek, ihtiyaçları ve ihtiyacı olabilecek zamanları bulmak şirketler için kritik durumda.

Büyük veri nasıl elde edilir?
Büyük veri, teknoloji endüstrisinde küresel bir yön değiştirici hâline geldi. Buna ek olarak, işletmelere ve hükûmetlere insanların çevrim içi yapmayı seçtikleri hemen hemen her şey hakkında ölçülebilir bilgiler sağladı. Ancak büyük veriler, tanımlama bilgilerinin ve web izlemenin de ötesine geçmekte.
Sanal âlemde yaptığımız her hareket, markalara bizimle ilgili yeni içgörüler sağlar. Bu bilgileri toplamak için çeşitli yöntemler izlenir.
Örneğin; çevrim içi oynanan oyunlarda oyuncuların web bağlantıları sayesinde geliştiriciler, birçok bilgi toplar. Bir kullanıcı belirli bir düzeyde zorluk yaşadığında, uygulama içi satın alım yaptığında, oyunu yüklediğinde veya sildiğinde, uzun süre oynadığında veya birkaç dakika sonra vazgeçtiğinde bu bilgiler izlenir ve saklanır.
Uydu verileri de ilginç birer büyük veri kaynakları olma niteliği taşıyor. Google Earth ve Google Haritalar’ın geliştirilmesiyle birlikte belirli alanların şaşırtıcı derecede eksiksiz resimlerinin çıkarılabilmesi, bu yerlerde yaşayan insanları analiz etmeye olanak tanıyor.
Modern e-posta hizmetleri, büyük miktarda kullanıcı veri deposu. Google, Yahoo gibi şirketler, ilgi alanlarınıza yönelik reklamcılık sağlamak amacıyla e-postanızın içeriğini belirli anahtar kelimeler ile taramak için algoritmalar kullanır. Yaklaşan bir seyahatle ilgili bir e-posta aldıktan sonra otel rezervasyonları için bağlantılar görmeniz olasıdır.
Sosyal medya siteleri, bir başka büyük veri sağlayıcısı. Sosyal medya kullanıcıları, genellikle bu tür hizmetlere kişisel yaşamları hakkında isteyerek bilgi verirler ve hizmet şartları sözleşmeleri, genellikle sitelere bu bilgileri uygun gördükleri şekilde saklama ve kullanma hakkı verir.
Bununla birlikte büyük veri analitiği, kullanıcıların hangi özellikleri devre dışı bırakmayı kabul ettiklerini, hangi gönderileri sildiklerini ve günün farklı saatlerinde sitede ne sıklıkta oturum açtıklarını belgelemek için de kullanılabilir. Bu bilgiler, kullanıcıların alışkanlıklarının kapsamlı profillerini oluşturmak ve onlar için hangi bilgilerin önemli olduğunu ayrıntılandırmak için kullanılabilir.
Çevrim içi kullanım ve uygulamalardan kredi kartlarına ve uydu görüntülerine kadar şirketler, artık hayatlarımızı giderek daha büyük veri kümeleri halinde paketleyebiliyor.
Büyük verinin faydaları nelerdir?
Büyük veri, büyük ölçüde geliştirilmiş veri analitiği potansiyeli sunar. Doğru kullanıldığında kuruluşlar; tamamen yeni trendleri tespit etmek, müşterileri şaşırtıcı bir doğruluk derecesinde segmentlere ayırmak, teknoloji ve ürün tasarımında benzeri görülmemiş düzeylerde inovasyona izin vermek için büyük verileri kullanabilir.
Tanım olarak büyük veri, gerçek zamanlı bilgi akışıdır. Kuruluşlar, bu akıştan yararlanarak değişikliklere gerçek zamanlı olarak da uyum sağlayabilir. Bu, geçmişteki şirketlerin yalnızca hayal edebileceği şekillerde rekabette önde kalabilecekleri anlamına gelir.
Apache Hadoop ve Spark gibi büyük veri araçları, veri analistlerinin başka türlü yapamayacakları veri kümeleriyle çalışmalarına olanak tanır. Bu, yalnızca veri analistleri için gelişmiş üretkenlik sağlamakla kalmaz, ayrıca gelişmiş araçlarla çok daha fazla içgörü toplayabilir ve personel üretkenliğini artıracak kalıpları da saptayabilir.
İnternet, çoğunlukla insanların birbirleriyle iletişim kurması için kullanılıyor. Ancak nesnelerin interneti (Iot) ile cihazların birbirleriyle doğrudan iletişim kurduğunu görmeye başlıyoruz. Bunun tonlarca potansiyeli var. Örneğin; termostatınız hava durumu raporlarına göre sıcaklığı otomatik olarak ayarlayabilir, arabanız güvenlik önlemlerini iyileştirmek için üreticiye bilgi gönderebilir veya buzdolabınız size süt almanız gerektiğini hatırlatabilir.

Büyük verinin riskleri nelerdir?
Büyük verilerin riskleri; güvenlik sorunları, etik sorunlar, büyük verilerin kötü niyetli oyuncular tarafından kasıtlı olarak kötüye kullanılması ve kasıtsız kötüye kullanım olarak tanımlanabilir.
Risk Bazlı Güvenlik Yıl Ortası Veri İhlali raporuna göre yalnızca 2019’un ilk yarısında 4,1 milyar kayıt, veri ihlalleri nedeniyle açığa çıktı. Bu, veri güvenliğinin ne kadar önemli olduğunun yanı sıra kuruluşların verilerimizi güvende tutma konusunda karşılaştıkları zorlukları da vurgulamakta. Bir şirket ne kadar çok veri tutarsa onu güvende tutmanın maliyeti ve yükü o kadar yüksek olur.
Bununla ilgili olarak mahremiyetin önemi bulunmakta. Hükûmetler, sosyal medya devleri, sigorta şirketleri ve sağlık hizmeti sağlayıcıları verilerimize erişim sahibi olan kuruluşlar. Veri koruma yasalarına bağlı olsalar da son birkaç yılda artan sayıdaki yüksek profilli veri ihlalleri, daha fazla önlem alınması gerektiğini gösteriyor. Özellikle büyük teknoloji şirketleri; nerede yaşadığımız, nereye gittiğimiz, paramızı nasıl harcadığımız gibi konularda bilgiye sahip oluyorlar.
Kuruluşların verilerimizi bilgisayar korsanlarından ve siber saldırılardan korumayı başardığını varsaymak, bilgileri kendilerinin kötüye kullanma olasılığını ortadan kaldırmaz. Veri koruma yasaları yürürlükte olsa da verilerin, onları yasal olarak elde etmiş şirketler tarafından nasıl kullanılabileceği konusunda hâlâ bazı belirsiz alanlar var.
Büyük verilerle ilgili diğer bir tehlike, üçüncü tarafların hassas bilgileri ele geçirmesi. 2020’de her gün 2,5 kentilyon bayt veri üreteceğimiz tahmin ediliyordu. Bu, herhangi bir kuruluşun kolayca yönetebileceğinden veya analiz edebileceğinden çok daha fazla bilgi demek. Yine de bilgisayar korsanları ve siber saldırganlar, DarkNet’te satış yapmak için bu verileri hedefleyebilir.
Büyük verileri kasıtlı olarak kötüye kullanmaya çalışanlar bir sorun olsa da tüm tehlikeler mutlaka önceden tasarlanmamış olabilir. Veri analitiğindeki kötü uygulamaların yanı sıra düşük kaliteli veriler, kötü içgörülere yol açabilir. Bu içgörüler, önemli finansal veya güvenlik kararları almak için kullanılırsa olumsuz etkiler doğurabilir.
Veri bilimi yeni bir alan olduğundan bunun gibi sorunların nasıl gelişeceği henüz tahmin edilemiyor. Yapay zekâ kullanımı artıyor ancak yeni ortaya çıkan bu teknolojiye bağlı, bilinmeyen riskler var.
Dünyada bugünkü kadar veri ürettiğimiz ve topladığımız başka hiçbir dönem olmadı. Pek çok farklı kaynaktan topladığımız veri miktarı her geçen gün katlanarak artıyor. Veriler, dünyamızı ve her birimizin yaşam tarzını daha önce görülmemiş şekillerde etkilemeye devam ediyor. Verilerin başarılı şekilde kullanılması hem ticari kuruluşlara hem de onların hizmet sunduğu kullanıcılara büyük faydalar sağlamakta. Günümüzde verilerin doğru işlendiğinde sağladığı faydaları göz önüne alınca bunun gelecekte daha büyük teknolojilerle hayatımıza nasıl etki edeceğini tahmin edebilmek oldukça zor.
İnternetin hayatımızda çok kısa bir süredir var olduğunu düşündüğümüzde bu yolculuğun henüz başında olduğumuzu söyleyebiliriz.
Derleyen: Damla Şayan