Bölüm 1 Veri Madenciliğine Giriş
Kazanımlar
- Veri madenciliği nerelerde kullanılır?
- R programlama dilinin bilgisayara kurulumu
- Rstudio programının bilgisayara kurulumu
- (?) kaggle sitesi tanıtımı
1.1 Veri Madenciliği Nedir?
Teknolojinin hız kesmeden gelişmesiyle verinin üretimi, depolanması ve erişimi oldukça kolaylaşmaktadır. Yığılan bu veriler anlamlı bir bilgiye dönüşmediği sürece değersizdir. Veri madenciliği, verilerin işlenmesi ile verilere anlam kazandırmak için gerekli işlemlerden geçirilerek bilgiye dönüştürmek işlemidir.
- Reklam yazılımlarının sizin takip ettiğiniz içerikleri inceleyerek bunun sonucunda size özel reklamlar göstermesinde,
- İş yatırımları için geliştirilen uygulamaların şirketler için uygun yatırımları tahmin etmesinde,
- e-posta uygulamalarının e-postaları kategorilendirmesinde,
- Bankacılıkta kişinin kredi verilmeye uygun olup olmadığının araştırılmasında veri madeciliği yöntemleri kullanılmaktadır.
Veri madenciliği için Python ve R programlama dilleri öne çıkmaktadır. Biz bu derste size ikinci bir alternatif olması açısından R programlama dilini kullanacağız.
1.2 Programlama Dilleri
Program; herhangi bir elektronik cihaza işlem yaptırabilmek için yazılan komut dizisidir. Program denildiğinde akla ilk gelen elektronik cihazlar bilgisayarlar olsa da cep telefonları, Önceleri makine dili denilen “0” ve “1” lerden oluşan komut dizisi kullanılsa da daha sonra assembly dili denen makine dilinden daha anlaşılır bir dil oluşturulmuştur. Aşağıda assembly dili ile yazılmış 50 den küçük 2 ve 3 e tam bölünebilen sayıların toplamını bulan program verilmiştir. Bu dilin de anlaşılması zor olduğundan insan diline daha yakın diller doğmuştur (Kod Bloğu ??).
;50’den kucuk 2’ye ve 3’e tam bolunemeyen
;dogal sayilarin toplamini bulan program
org 100h
mov cl,50
ikiyebol:
mov bl,2
mov al,cl
mov ah,0
div bl
cmp ah,0
jnz ucebol
loop ikiyebol
ucebol:
mov bl,3
mov al,cl
mov ah,0
div bl
cmp ah,0
jnz topla
dec cl
jmp ikiyebol
topla:
mov [1300h],cl
push [1300h]
add dx,[1300h]
dec cl
cmp cl,0
jnz ikiyebol
end
(?) Görüldüğü gibi assembly dili ile de kod yazmak oldukça karmaşık. Dolayısıyla bu dil de yerini insan diline daha yakın olan dillere bırakmıştır. Bu dillerden birisi de bu kitapta anlatacağımız R programlama dilidir.
1.3 R Programlama Dili Kurulumu
R, istatiksel hesaplama ve görselleştimeye yönelik bir programlama dilidir. Açık kaynaklı bir yazılımdır. Yani kaynak kodları incelenip değiştirilebilir. R programlama dili bilgisayara kurulup kullanılabileceği gibi bazı siteler üzerinden de kullanılabilir.
Öncelikle kendi bilgisayarına kurmak isteyenler için R programlama dilinin ve bu dile özelleştirilmiş programlama ortamının kurulumundan bahsedelim. Öncelikle https://www.r-project.org/ sitesine girip ‘download R’ linkine tıklayın. Web sayfası Şekil 1.1 de gösterilmiştir.

Şekil 1.1: R Programlama Dili web sayfası
Açılan sunucu seçim sayfadan bize en yakın olan sunuculardan birini seçiyoruz (Türkiye sunucularından birini). Şekil 1.2 de sunucu sayfasını görebilirsiniz.

Şekil 1.2: Sunucu seçim sayfası
Açılan sayfada sisteminize uygun olan indirme linkine tıklayın (örneğin windows kullanıcıları ‘Download R for Windows’ linkine tıklamalı). Şekil 1.3 de ilgili sayfayı görebilirsiniz.

Şekil 1.3: Seçilen sunucudaki R programlama dili sayfası
İndirme işlemi tamamlandıktan sonra indirilen kurulum dosyasına çift tıklayarak programı kurabilirsiniz. Daha sonra programlama ortamını kurmak için https://rstudio.com/products/rstudio/download/ linkine tıklayıp sayfanın ‘All Installer’ başlığı altınki indirme linklerinden sisteminize uygun olan linke tıklayarak indirme yapabilirsiniz. Şekil 1.4 de RStudio indirme sayfasını görebilirsiniz.

Şekil 1.4: rstudio İndirme sayfası
İndirme tamamlandıktan sonra indirilen dosyaya çift tıklayarak kurulum arayüzünü açıp kurulum yönergelerini takip ederek kurulum yapabilirsiniz. Artık R programlarını bilgisayarınızda çalıştırabilirsiniz. Şekil 1.5 de Rstudio programını görebilirsiniz.

Şekil 1.5: Rstudio programlama ortamı
(?) Bizim kullanacağımız yöntem ise https://www.kaggle.com adresli site üzerinden kullanmak. Üye olmadan 15 dk oturum süresiyle çalışan bu site google ile giriş yaparak süre kısıtlaması olmadan da kullanılabilir. Bu sitede notebook denen sayfalar üzerinde program betiklerinizi ve notlarınızı yazabilirsiniz. Öncelikle bir notebook açalım.