28 Haziran 2018 Perşembe

Seth Stephens-Davidowitz’den ‘Everybody Lies’


Harvard Üniversitesi Ekonomi bölümü doktoralı The New York Times gazetesi yazarı[1] ve veri bilimcisi Seth Stephens-Davidowitz'in[2] internet ve Büyük Veri setlerinden yola çıkarak çok ilginç görüşlere ulaştığı popüler kitabı Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are[3], yayımlandığı 2017 yılından itibaren, ABD'de ve dünyada adından en çok söz ettiren kitaplardan biri olmayı başarmıştır. Eser, kısa bir süre önce Ferit Burak Aydar tarafından Türkçe’ye de çevrilmiş ve Koç Üniversitesi Yayınları tarafından Bana Yalan Söylediler[4] adıyla yayımlanmıştır. Bu yazıda, Sosyal Bilimler açısından da yeni bir olgu olan internet kaynaklı Büyük Veri'nin kullanımı konusunda yol gösterici ve ilk ciddi çalışmalardan biri olan bu kitapta yer alan bazı ilginç bilgiler özetlenecektir.

Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are

Seth Stephens-Davidowitz, kitabının "Giriş: Bir Devrimin Anahatları" başlıklı bölümüne, böyle bir çalışmayı neden ve nasıl yaptığını açıklayarak başlamaktadır. Bu bağlamda, yazar, çalışmasının önemini somutlaştırmak için, 2016 ABD Başkanlık seçimlerinde Cumhuriyetçi aday Donald Trump'ın kimse tarafından beklenmeyen sürpriz zaferinin ipuçlarının aslında Google verilerinde bulunabileceğini iddia etmektedir. Zira yazara göre, Barack Obama döneminden başlayarak ABD'de yükselen ırkçılığın izlerini Google aramalarında bulmak mümkündür. Ayrıca beklentinin aksine, ırkçılık, ABD'de sadece Cumhuriyetçi ağırlıklı yerlerde de görülmemektedir; Demokratların güçlü olduğu ve şehirleşmiş yerleşim yerlerinde de ırkçı motifli Google aramaları son derece yaygındır. Senelerce Google Trends verilerini inceleyen yazar, akademisyenlerin uzun süre burun kıvırdığı bu Büyük Veri setlerinin, insanların kamuoyu araştırma şirketlerine ve bilimsel araştırmacılara anketlerde ve mülakatlarda açıklamaya korktukları gerçeklerin (Michigan Üniversitesi'nden emekli profesör Roger Tourangeau'ya göre, insanların gerçek hayatta söylediklerinin ortalama 1/3'ü yalan ya da abartılardan oluşur ve bu durum anketleri de etkiler) görülebileceği çok kıymetli bir bilimsel kaynak olduğunu düşünmektedir. Zaten bu nedenle de, doktora tezini, hocalarının tavsiyesinin aksine bu veri setlerinden yola çıkarak yazmıştır. Daha sonra bu konuda makaleler yazmaya başlamış, bunların ilgi görmesi nedeniyle de araştırmasını giderek derinleştirmiştir. Zamanla General Social Survey, Wikipedia, Facebook, Stormfront gibi diğer önemli internet siteleri ve sosyal medya platformlarıyla birlikte -sıkı durun- PornHub adlı porno sitesinin verilerini de mercek altına alan yazar, insanoğlunun doğası ve günümüz insanının talep ve beklentileri konusunda çok ilginç istatistiklere ulaşmayı başarmıştır. Bu konuda fazla "sufle" vermese de, yazar, bazı ilginç tespitlerini okurlarla paylaşmaktadır. Örneğin, iki adaylı bir seçimde veya karar gerektiren bir konuda, -genelde- insanlar, iki seçeneği Google üzerinde tek bir aramada araştırmakta ve çok büyük oranla aramada ilk yazdıkları seçeneğe yönelmektedirler. Örnek vermek gerekirse, Hillary Clinton seçmenlerinin çok büyük bölümü seçimi "Clinton vs. Trump" başlığıyla Google üzerinden aramış ve Clinton'a oy vermişlerdir. Trump seçmenleri ise, "Trump vs. Clinton" başlığıyla arama yapmış ve neticede Trump'a oy vermişlerdir. Yazar, bu gibi birçok önemli tespitin yapılabileceği internet bazlı Büyük Veri setlerinin akademide kullanımını bir "devrim" olarak nitelendirmektedir.

Bana Yalan Söylediler

Seth Stephens-Davidowitz, kitabının "Büyük Veri, Küçük Veri" başlıklı bir sonraki bölümünde, veri biliminin sanıldığından daha basit ama aynı zamanda sezgisel bir iş olduğunu anlatmakta ve bu işin özünün örüntüleri tespit edip, bir değişkenin diğerini nasıl etkileyeceğini kestirmek olduğunu söylemektedir. Yazar, geleneksel akıl ve sağduyunun da -sanılanın aksine- çoğu zaman veri bilimiyle çelişen görüşler ortaya koyduğunu iddia etmektedir. Örneğin, ortalama bir Amerikalı'ya NBA oyuncularının zengin mi, yoksa fakir ailelerden mi geldikleri sorulduğunda, sağduyulu yaklaşımın cevabı otomatik olarak fakir aileler olmaktadır. Oysa Stephens-Davidowitz, verilerden yola çıkarak bir araştırma yaptığında, aslında NBA oyuncularının çoğunluğunun fakir ailelerden gelmediğini ortaya koymuştur. Elbette LeBron James ve benzeri birçok istisna da mevcuttur; ancak sanılanın aksine, zengin bir çevre ve iyi bir ailede yetişmek, sporcuların başarı şansını arttırmaktadır. Yazar, bu noktada kişisel özelliklerin de çok önemli olduğunu ve veri setlerinin sadece genel eğilimleri tespit edebildiğine dikkat çekmektedir. Örneğin, araştırmacıya göre, zor bir çocukluk geçirmiş olan ve fakir bir aileden gelen Doug Wrenn'in zıplama yeteneği ve oyun zekası onu yeni bir Michael Jordan yapabilecekken, geçimsizliği nedeniyle kariyeri son derece başarısız geçmiştir. Dolayısıyla, baskın kişisel özellikler, çoğu zaman genel eğilimleri yansıtan veri setlerinin bulgularıyla çelişen sonuçlar ortaya çıkarabilir.

Yazar Seth Stephens-Davidowitz, "Büyük Veri'nin Güçleri" adlı kitabın sonraki bölümünde, insanların konuşmaya çekindikleri bir olgu olan porno sektörüne dair bazı veriler ortaya koymaktadır. Amerikalı yazar, insanların önemli bir bölümünün (yüzde 16) PornHub adlı ünlü porno sitesinde ensest ilişki temalı aramalar yaptığını tespit etmiştir. Bu durum, kadınlar içinse yüzde 9 oranındadır. Dolayısıyla, ünlü Avusturyalı psikanalist Sigmund Freud'un "oidipal kompleks" (oidipus kompleksi) teorisinin etkilerini günümüzde porno sektöründe bulmak mümkündür. Ayrıca bu verilerden yola çıkarak, ülkeden ülkeye farklı fantezi ve eğilimleri tespit etmek de mümkündür. Mesela, Hindistanlı erkeklerin en büyük fantezisi, diğer hiçbir ülkede olmayan şekilde, karıları tarafından emzirilmektir. Bu gibi örneklerden yola çıkarak, yazar, internet bazlı Büyük Veri konusunda şu tespitleri yapmaktadır:
  • Büyük Veri, yeni türde veriler sunar (örnek pornografi).
  • Büyük Veri, dürüst veriler ortaya koyar.
  • Büyük Veri, altkümeleri karşılaştırma olanağı sağlar.
  • Büyük Veri, sebep-sonuç deneyi yapma imkanı oluşturur.
Yazar, "Verileri Yeniden Düşünmek" başlıklı sonraki bölümde, Google aramalarından yola çıkarak ilginç saptamalar yapmaya devam etmektedir. Örneğin, ABD'de işsiz insanların en sık yaptıkları aramaların "İşsizlik bürosu" veya "yeni iş" gibi tamlamalar olduğu düşünülebilir. Hakikaten de, bu gibi aramalar en üst sıralarda yer almaktadırlar. Ancak daha üst sıralarda, işsiz insanların boş zamanlarının fazla olması sebebiyle, "Slutload" adlı bir porno sitesi ve Spider Solitaire gibi basit bir oyun yer almaktadır. Daha sonra Sergey Brin ve Larry Page'in 1998 yılında kurdukları Google'ın geçmiş milenyumda kalan AltaVista, MetaCrawler ve Lycos gibi diğer arama motorlarından nasıl farklılaştığını anlatan araştırmacı, bu bağlamda fazla veriden ziyade doğru veri toplamanın önemli olduğunun altını çizmektedir. Bu noktada, yazar, ilginç istatistiki verilerin hiç öngörülmeyen önemli saptamalara neden olabileceğini ilginç bir örnekle açıklamaktadır. Jeff Seder adlı Philadelphialı eksantrik bir at terbiyecisi, kişisel çabalarıyla bir yarış atının başarısında herkesin zannettiği gibi secerenin (soy) değil, iç organlarının özellikle de sol karıncık büyüklüğünün etkili olduğunu saptamıştır. Seder'in bu şekilde fark ettiği Amerikan Firavunu (American Pharoah) isimli iddiasız bir at, hiç kimsenin beklemediği şekilde çok başarılı bir yarış atı olmuş ve çok önemli zaferler kazanmıştır. Benzer şekilde, Princeton'da akademisyenlik yapan Orley Ashenfelter'in şarap konusunda yaptığı araştırma, şarabın kalitesinin büyük oranda sadece üzümlerin yetişme mevsimindeki hava durumuyla alakalı olduğunu ortaya koymuştur. Bu örneklerden yola çıkarsak, yazara göre, internet tabanlı Büyük Veri, bize birçok yeni ve değerli saptama yapma şansı yaratabilir.

Kitabın ilerleyen bölümlerinde, bu ve benzeri birçok ilginç gözlem ve istatistik okurla paylaşılmış ve bunlardan yola çıkarak önemli tespitler yapılmıştır. Sonuçta, Seth Stephens-Davidowitz'in Everybody Lies (Bana Yalan Söylediler) kitabı, yeni gelişen bir alan olan internet kaynaklı Büyük Veri'nin sosyal bilimlerde nasıl kullanılabileceği konusunda öncü bir rol üstlenen çok değerli bir çalışmadır. Ancak esere şu konuda bir eleştiri yapılabilir; bu eser ve benzeri popüler çalışmalar yüzünden, insanların internet kullanımında bundan sonra özgür davranmamaya başlamaları nedeniyle, -ana akım medya kanallarındaki konuşmalarda görülen samimiyetsizlik/ölçülülük sentezine benzer şekilde- internet verilerinin de zamanla yüzde yüz gerçek eğilimlerden uzaklaşma riski bulunmaktadır. Ancak şu bir gerçektir ki, Türkiye ve benzeri ülkelerde akademik dünyada yaygın olarak görülen internet verileri ve internet bazlı çalışmalara yönelik önyargı ve küçümseme eğilimi, son derece hatalı ve geleceği ıskalar niteliktedir. Stephens-Davidowitz'in kitabı, bunu net olarak ortaya koyan ikna edici ve başarılı bir çalışmadır. Ekonominin ve diplomasinin dijitalleştiği bir ortamda, akademinin de buna ayak uydurması gerekliliği kaçınılmazdır.

Dr. Ozan ÖRMECİ


[1] Yazı arşivi için - https://www.nytimes.com/by/seth-stephens-davidowitz.
[2] Web sitesi için - http://sethsd.com.
[3] Amazon.com - https://www.amazon.com/Everybody-Lies-Internet-About-Really/dp/0062390856.
[4] İdefix - http://www.idefix.com/Kitap/Bana-Yalan-Soylediler/Arastirma-Tarih/Sosyoloji/urunno=0001752835001?gclid=EAIaIQobChMIpaaX5PHw2wIVBxDTCh2g5Q83EAQYASABEgJdLfD_BwE.


Hiç yorum yok: