Amerikalı matematikçi John Tukey ilk olarak 1970’lerde Keşifsel Veri Analizini (KVA) geliştirmiştir. Günümüzde de EDA teknikleri veri keşif sürecinde yaygın olarak kullanılan bir yöntem olmaya devam etmektedir. EDA, resmi modelleme veya hipotez testinin ötesinde, Veri seti değişkenlerinin ve bunların ilişkilerinin daha iyi anlaşılması için geniş bir kapı açar. Ayrıca, veri analizi için düşünülen İstatistiksel Tekniğin uygun olup olmadığının belirlenmesine de yardımcı olur.
Keşifsel veri analizi nedir?
Keşifsel Veri Analizi (KVA), Veri Bilimcileri tarafından Veri setlerini analiz ederken ve araştırırken, verilerin temel özelliklerini görselleştirme yöntemine özetlemek için yaygın olarak kullanılmaktadır. Veri Bilimcinin Veri Kalıplarını keşfetmesine, anormallikleri tespit etmesine, hipotez testi yapmasına ve varsayımda bulunmasına yardımcı olur.
Yani basit bir şekilde, Veri Bilimcinin hedef olarak ihtiyaç duyulan yanıtı elde etmek için verilen veri kaynağını manipüle etmenin en iyi yollarını belirlemesine yardımcı olan bir yöntem olarak tanımlanabilir.
Keşifsel Veri Analizi Veri Bilimi için ne kadar önemli
EDA’nın birincil amacı, herhangi bir varsayımda bulunmadan önce veri setine derinlemesine bakmaya yardımcı olmak, bariz hataları tespit etmek, veri setindeki kalıpları daha iyi anlamak, aykırı değerleri ve/veya anormal olayları bulmak ve son olarak değişkenler arasındaki heyecan verici ilişkileri ortaya çıkarmaktır.
Keşifsel Veri Analizi, Veri Bilimi alanındaki Veri Analizi için son derece önemlidir. İlk olarak EDA, Veri bilimcilerin ürettiği sonuçların geçerli ve istenen hedeflere uygulanabilir olmasını sağlamak için kullanılır. İkinci olarak, EDA paydaşların her zaman doğru soruları sormalarını sağlamaya yardımcı olur. Ayrıca standart sapmalar, kategorik değişkenler ve güven aralıkları ile ilgili soruların yanıtlanmasına da yardımcı olur. Son olarak, EDA tamamlandığında ve içgörüler elde edildiğinde, özellikleri makine öğrenimi de dahil olmak üzere daha sofistike veri analizi veya modelleme için kullanılabilir.
Keşifsel veri analizi Türleri
Başlıca dört tür EDA vardır:
-
Tek değişkenli grafiksel olmayan:
Tek Değişkenli Grafik Olmayan veri analizinin en basit şeklidir. burada sadece bir değişkenden oluşmaktadır. Tek bir değişken olduğundan, nedenler veya ilişkilerle ilgilenmez. Bunun yerine, tek değişkenli tematik analizin birincil amacı verileri tanımlamak ve içindeki örüntüleri bulmaktır.
-
Tek değişkenli grafiksel
Grafiksel olmayan yöntemler verilerin tam bir resmini sunamaz. Bu nedenle burada grafiksel yöntemler gereklidir. Yaygın tek değişkenli grafik türleri şunlardır:
- Kök ve yaprak grafikleri: Bunlar tüm veri değerlerini ve dağılımın şeklini gösterir.
- Histogramlar bir çubuk grafiği: her çubuğun bir değer aralığı için vakaların sıklığını (sayım) veya oranını (sayım/toplam sayım) temsil ettiği grafik.
- Kutu grafikleri: minimum, ilk çeyrek, medyan, üçüncü çeyrek ve maksimumun beş rakamlı özetini grafiksel olarak gösterir.
-
Çok değişkenli grafiksel olmayan
Çok değişkenli veriler birden fazla değişkenden ortaya çıkar. Genel olarak, çok değişkenli grafiksel olmayan EDA teknikleri, çapraz tablolama veya istatistik yoluyla iki veya daha fazla veri değişkeni arasındaki ilişkiyi gösterir.
-
Çok değişkenli grafik
Çok değişkenli veriler, iki veya daha fazla Veri Kümesi arasındaki ilişkileri görüntülerken grafikleri kullanır. En çok kullanılan grafik, her bir grubun değişkenlerden birinin bir seviyesini temsil ettiği ve bir grup içindeki her bir çubuğun diğer değişkenin seviyelerini temsil ettiği gruplandırılmış bir çubuk grafiği veya çubuk grafiğidir.
Diğer yaygın çok değişkenli grafik türleri şunlardır:
- Dağılım grafiği: Bir değişkenin diğerinden ne kadar etkilendiğini göstermek için veri noktalarını yatay ve dikey bir eksende çizmek için kullanılır.
- Çok değişkenli grafik: Faktörler ve yanıt arasındaki ilişkilerin grafiksel bir gösterimidir.
- Çalışma grafiği: Zaman içinde çizilen verilerin çizgi grafiğidir.
- Kabarcık grafiği: İki boyutlu bir grafikte birden fazla daire (baloncuk) görüntüleyen bir veri görselleştirmesidir.
- Isı haritası: Değerlerin renklerle gösterildiği verilerin grafiksel bir temsilidir.
Keşifsel veri analizi Araçları
Keşifsel veri analizi için birçok araç mevcuttur. En popüler olanlardan bazıları R, Python ve SAS’tır. Bununla birlikte, her birinin güçlü ve zayıf yönleri vardır, bu nedenle iş için doğru aracı seçmek çok önemlidir.
R, verileri görselleştirmek için mükemmel bir araçtır. Verileri keşfetmek için kullanılabilecek çok çeşitli grafik ve çizelgelere sahiptir. Ayrıca daha gelişmiş analizler yapmak için kullanılabilecek birçok istatistiksel fonksiyona sahiptir.
Python, EDA için bir başka harika araçtır. R ile aynı özelliklerin çoğuna sahiptir, ancak aynı zamanda daha kullanıcı dostudur. Sonuç olarak Python, veri analizine başlamak isteyen yeni başlayanlar için mükemmel bir seçimdir.
SAS, EDA için kullanılabilecek güçlü bir istatistiksel yazılım paketidir. SAS, R ve Python’dan daha pahalıdır, ancak daha karmaşık hesaplamalar yapmanız gerekiyorsa yatırım yapmaya değer.
QuestionPro ve keşfedici veri analizi
Verilerinizi her zaman farklı bir veri kaynağından alabilirsiniz ve QuestionPro, anket verilerini birden fazla kanaldan toplamanıza kesinlikle yardımcı olabilir. Ancak halihazırda toplanmış olan verilerin ötesine geçmek istediğinizde ne olur? Keşifsel veri analizi bu noktada devreye girer.
QuestionPro’nun yerleşik analiz araçları EDA ile çalışmaya başlamayı kolaylaştırır. Verileriniz için özet istatistikleri hızlı bir şekilde görebilir, etkileşimli görselleştirmeler oluşturabilir ve daha fazlasını yapabilirsiniz. Ve QuestionPro R ile entegre olduğu için, R’nin sunduğu tüm güçlü istatistiksel araçları kullanabilirsiniz.
Dolayısıyla, veri analizinizi bir sonraki seviyeye taşımaya hazırsanız, QuestionPro mükemmel araçlardan biridir.
Sonuç
Son olarak, keşifsel veri analizinin Veri Bilimcilerin karmaşık veri kümelerini anlamlandırmalarına yardımcı olabilecek kanıtlanmış bir metodoloji olduğunu söyleyebiliriz. Görselleştirmeler ve diğer yöntemleri kullanarak, başka türlü bulamayacağınız kalıpları ve ilişkileri ortaya çıkarabilirsiniz.
Bu nedenle, EDA herhangi bir veri analizinin önemli bir parçasıdır ve bu makalenin size konuya harika bir giriş yaptığını umuyoruz.
QuestionPro ve Keşifsel Veri Analizi hakkında daha fazla bilgi edinmek için
Questionpro.com
Yazarlar Md Assalatuzzaman & Mizanul Islam