Regresyon Analizi Üzerine Bakış Açınızı Geliştirin

0
310

Şimdiye kadar işyerinde mümkün olduğu sürece veriye dayalı karar ver(ebil)iyor olduğunu muhtemelen öğrenmişsinizdir. Ama baştan sona mevcut tüm verilerin nasıl ayrıştırılacağını biliyor musunuz? İyi haber şu ki büyük ihtimalle yoğun hesap yapmak zorun da değilsiniz.(şükürler olsun)Ama meslektaşların tarafından oluşturulmuş analizi doğru bir şekilde anlayabiliyor ve yorumlayabiliyor olmanız lazım. Veri analizinin en önemli türlerinden biri regresyondur.

Bu metodu ve şirketlerin bu metodu nasıl kullandığını daha iyi anlamak için, Data Driven: En Önemli İş Varlığından Kazanç adlı kitabın yazarı Tom Redman ile konuştum. Tom Redman aynı zamanda, verilerdeki ve veri kalite programlarındaki organizasyonları tavsiye ediyor.

Regresyon Analizi Nedir?

Redman bu senaryo örneğini veriyor: Gelecek ayın satış miktarını tahmin etmeye çalışan bir satış müdürü olduğunuzu varsayalım. Biliyorsunuz ki hava koşullarından rakip reklamlarına ondanda yeni ve geliştirilmiş bir modelin söylentisine kadar düzinelerce hatta belki de yüzlerce faktör, miktarı bu durumu etkileyebilir. Belki de organizasyonunuzdaki insanların bile satışların üzerindeki en büyük etkenin ne olacağına dair bir teorileri vardır. ”İnanın bana. Ne kadar çok yağmur, o kadar çok satış.” ‘’Ve göreceksiniz ki rakiplerin reklamından altı hafta sonra, satışlar sıçrama yapacak.’’

Regresyon analizi, bu değişkenlerden hangilerinin gerçekten bir etkisinin olup olmadığını matematiksel olarak çözümlemenin bir yoludur. Bu da şu sorulara açıklık getiriyor: Hangi faktörler daha fazla önem arz eder? Hangisini göz ardı edebiliriz? Tüm bu  faktörler birbirleri arasında nasıl etkileşime geçebilir? Ve belki de en önemlisi,  tüm bu faktörlerden ne kadar eminiz?

Regresyon analizinde tüm bu faktörlere değişken denir. İlk olarak bağımlı bir değişkeniniz var -anlamaya ya da tahmin etmeye çalıştığın ana faktör. Yukarıda ki Redman’ın örneğinde ise, aylık satışlar bağımlı değişkendi. Ve tabi birde sonradan bağımsız değişkenleriniz var.                  —Şüphe duyduğun faktörlerin ise bağımlı değişkenin üzerinde mutlaka bir etkisi vardır.

 Regresyon Analizi Nasıl Çalışır?

Bir regresyon analizi yapmak için, söz konusu değişkenler üzerinde veri toplayın.Büyük ihtimalle bunu kendiniz yapmak zorunda değilsiniz ama veri analisti meslektaşlarınızın kullanım sürecini anlamak için size yardımcı olacaktır. Diyelim ki son 3 yılın tüm aylık satış miktarlarını ve bağımsız değişkenler üzerinde ilgilendiğiniz herhangi bir veriyi aldınız. Yani, bu durumda, üç yıllık ortalama yağış miktarını da bulduğunuzu varsayarsak işte o zaman tüm bu bilgileri şu şekilde görünen bir grafiğin üzerinde toplayabilirsiniz:

Bu iki değişken arasında bir ilişki var mı?

Verileri göstermek hesaplamanın ilk adımıdır.

regresyon analizi

Y ekseni satış miktarıdır.(Bağımlı değişken, ilgilendiğiniz şey daima y ekseni üzerindedir.) ve x ekseni toplam yağış miktarıdır. Her mavi nokta bir aylık verileri temsil etmektedir — o ayda ne kadar yağış olduğunu ve yine aynı anda ne kadar satış yaptığınızı temsil etmektedir.

Bu verilere bakarak, yağmurun çok yağdığı günlerde satışların daha yüksek olduğunu muhtemelen fark etmişsinizdir. Bunu bilmek ilginç ama hangi yönleriyle? 3 inç kadar yağmur yağdığında ne kadar satış yapılacağını biliyor musunuz? Peki ya 4 inç kadar yağarsa?

Şimdi yukarıdaki grafikte, tüm veri noktalarının kabaca ortasından geçen bir çizgi çizdiğinizi hayal edin. Bu çizgi, belirli bir miktar yağış olduğunda tipik olarak ne kadar satış yapacağınız sorusunu cevaplamanıza muhtemelen yardımcı olacaktır.

Bir Regresyon Modeli İnşa Etme

Çizgi x ile y arasındaki ilişkiyi özetler.

regresyon analizi 2

Bu regresyon çizgisi olarak adlandırılır ve veriye en uygun çizgiyi göstermek için (SPSS veya STATA ya da Excel gibi bir istatistik programı kullanılarak) çizilir. Diğer bir deyişle, Redman’ a göre,        “ Kırmızı çizgi bağımlı değişken ve bağımsız değişken arasındaki ilişkinin en iyi açıklamasıdır.”

Çizilen çizginin yanı sıra ,istatistik programınızda doğrunun eğimini açıklar ve şöyle bir formül verir:

Y = 200 + 5X + Error Term

Hata terimini (error term) şimdilik göz ardı edelim. Bu regresyonun mükemmel derecede hassas olmadığını ifade eder. Şimdi şu modele bir odaklanın:

Y = 200 + 5X

Bu formülün size anlattığı şey eğer “x” sıfır ise y=200 olur durumudur. Yani, geçmiş tecrübeye bakılarak, hiç yağmur yağmadığı zaman, 200 satışlık bir ortalama elde edersiniz ve diğer değişkenlerin aynı kalacağını da varsayarak aynı ilerlemeyi bekleyebilirsiniz. Yine geçmiş tecrübelere bakarak, her bir ek inç yağmur için, ortalama beş satış fazla yaparsınız. Redman aynı zamanda X’ in birlik artış yaptığı her durum için, Y’ nin de beşlik bir artış yapacağını belirtiyor.

Şimdi hata terimine (error term) geri dönelim. Her bir inç başına beş satış daha fazla yaptığınızdan yağmurun satışlar üzerinde büyük bir etkisi olduğunu söylemek kulağa hoş gelebilir ancak bu değişkenin dikkatinize değer olup olmadığı hata terimine bağlıdır. Bir regresyon(gerileme) çizgisinin her zaman için bir hata terimi vardır çünkü gerçek hayatta bağımsız değişkenler bağımlı değişkenlerin asla mükemmel birer belirleyicisi değildir. Aksine çizgi, mevcut verilere dayalı bir tahmindir. Yani hata terimi, formül hakkında ne kadar emin olabileceğiniz konusunda size fikir verir. Hata terimi ne kadar büyükse regresyon(gerileme) çizgisi de o kadar belirsiz olur.

Yukarıda ki örnekte ilgili faktörü tahmin etmek için sadece bir değişken kullanılmıştır — satış tahminleri için yağış tek değişken olarak alınmıştı. Genellikle birkaç bağımsız değişkenin etkisini anlamak amacıyla regresyon analizine başlarsınız. Yani sadece yağmuru değil aynı zamanda rakiplerinizin reklamlarını da göz önünde bulundurursunuz. “Hata terimi çok küçülünceye kadar bunu yapmaya devam edin.”  diyor Redman ve ekliyor “Verilerinize en uygun çizgiyi elde etmek için çabalıyorsunuz. ”Regresyon analizinde birçok veriyi göz önünde bulundurmak beraberinde bazı riskleri getirse de yetenekli analistler bunu en aza indirebilir. Bu da, çoklu değişkenlerin etkisini tek seferde değerlendirmenin, regresyonun en büyük avantajlarından biri olduğunu göstermektedir.

Şirketler Regresyon Analizini Nasıl Kullanır?

Redman’ a göre regresyon analizi “analitikte go-to yöntemi” dir.  Akıllı şirketler ise her türlü iş konularında karar vermek için regresyon analizini kullanırlar. Redman sözlerine şöyle devam ediyor  “Biz Müdürler olarak satış, işçiyi elde tutma ya da en iyileri işe alma konuları üzerinde nasıl etki yaratabileceğimizin çıkarımını yapmak isteriz. Tüm bu konular, bize neler yapabileceğimizi görmemizde yardımcı olur.”

Birçok şirket ise anlamak istedikleri bir olguyu açıklama amacıyla regresyon analizini kullanırlar.  (örneğin, geçen ay neden müşteri hizmetleri çağrısı bırakıldı?); geleceğe dair tahminde bulunmak için kullanırlar(örneğin, önümüzdeki altı ay içerisinde satışlar ne düzeyde olacak?); ya da ne yapılacağına karar vermek için kullanırlar(örneğin,  yola bu reklamla mı devam etmeliyiz yoksa bir diğeriyle mi?)

  “Korelasyon nedenselliği gerektirmez” ile ilgili bir not

Her ne zaman regresyon analiziyle ya da bir faktörün diğerinin üzerindeki etkisini açıklamaya çalışan başka bir analizle çalışırsanız şu atasözünü hatırlayın: Korelasyon nedenselliği gerektirmez. Bu durum gerçekten çok kritik ve sebebini şöyle açıklayabiliriz: Aylık satışlar ve yağmur arasında bir ilişki olduğunu söylemek işten bile değil, regresyon analizi gösteriyor ki gerçekten de aralarında bir ilişki bulunmakta. Ancak yağmurun satışa sebep olduğunu söylemekse tamamen farklı bir mesele. Bir şemsiye satıcısı olmadıkça bu meselede neden sonuç ilişkisi olduğunu kanıtlamak sizin için zor olabilir.

Açıkça görülüyor ki, bazen faktörler neden sonuç ilişkisiyle değil de birbirleriyle ilişkilidir ancak iş hayatında bu durum çok belli değildir. Redman ise regresyon analizinde böyle bir bağlantı gördüğünüzde herhangi bir varsayım yapamayacağınızı belirtiyor. Onun yerine dışarı çıkmak,  gerçek dünyada neler olup bittiğini ve ilişkilere sebep olan fiziksel mekanizmayı görmek zorunda olduğunuzu da sözlerine ekliyor. Dışarı çıkın ve yağmurun altında tüketicilerin ürünlerinizi alışını gözlemleyin, onlarla konuşun ve ürünlerinizi almalarını sağlayan gerçek sebebi bulmaya çalışın. “ Birçok insan bu adımı atlar ve bence bu onların tembel olmasının bir sonucudur. Amaç veriler üzerinde neler olup bittiğini anlamak değil, gerçek dünyada neler olup bittiğini anlamaktır. Dışarı çıkmalı ve yolları aşındırmalısınız( kapı kapı dolaşmalısınız).” diye sözlerine devam ediyor.

Redman’ın kendi deney ve analizlerine dayalı olarak yazdığı, kilo kaybı ve seyahat ile kilo alımı arasındaki ilişki hakkında yazıları bulunmakta. Seyahat ettiği sırada daha çok yediğini ve daha az egzersiz yaptığını fark etmişti. Yani kilo almasına sebep olan şey seyahat etmesi miydi? Tam olarak değil. “Neler olup bittiğini ölçmek hoştu fakat sebep seyahat değildi. Seyahatin belki dolaylı olarak ilişkisi olabilir.” diyor ama yolda olup ekstra kilo almaya devam etmek gibi bir şey değil bu. Anlaması gereken, daha çok, gezisi sırasında neler olup bittiğiyle alakalıydı.” Sık sık yeni ortamlara girdiğim için gerginim yani belki de bu yüzden daha çok yiyorumdur?” Bağlantıya daha yakından bakması gerekti ve bu yöneticilere olan tavsiyesinin ta kendisiydi. Verileri neden sonuç üzerinde çıkarım yapmak için değil daha fazla deneye rehberlik etmek için kullanın.

İnsanlar regresyon analizi ile çalışırken ne gibi hatalar yapar?

Bir regresyon analizi tüketicisi olarak, aklınızda tutmanız gereken birkaç şey vardır.

İlk olarak, veri analistlerinize dışarı çıkmalarını ve satışı neyin etkilediğini bulmalarını söylemeyin. ”Birçok analizin takip ettiği karmakarışık yol, yöneticinin amacından sapıp ne aradığı konusunda odak sorunu yaşamasıdır.” diyor Redman. Belirli bir etkiye sahip şüpheli faktörleri belirlemek ve analistlere bunları incelemelerini söylemek sizin işiniz. ” Eğer bir veri bilimciye balık seferine gitmesini ya da size bilmediğiniz bir şeyi söylemesini isterseniz, işte o zaman hak ettiğiniz o kötü analizi elde edersiniz.” diyor Redman. Diğer bir değişle analistlerinizden, elde edebilecekleri her değişkene tek seferde bakmalarını istemeyin.Eğer isterseniz, büyük ihtimalle gerçekten var olmayan ilişkilerle karşılaşacaksınız. Bunu yazı tura atmaya benzetebiliriz: yeterli sayıda yapın, eninde sonunda ilginç bir şeyler gördüğünüzü düşüneceksiniz, tek bir sıradaki tura demeti gibi.

Aynı zamanda hesaba kattığınız bağımsız değişkenler hakkında neler yapıp yapamayacağınızı da aklınızdan çıkarmayın. Ne kadar yağmur yağdığını değiştiremezsiniz ama bunu hesaba katmak ne denli önemli? ” Örneğin, hava koşulları ya da rakiplerimizin reklamları ile ilgili herhangi bir şey yapamayız ancak kendi reklamlarımız için yapabilir ve yeni özellikler ekleyebiliriz.” diyor Redman. Veriyle ne yapacağınızı her zaman kendinize sorun. Ne tür eylemlerde bulunacaksınız? Ne gibi kararlar vereceksiniz?

İkincisi, “analizler kötü verilere karşı çok duyarlıdır.” Yani veri toplarken,  nasıl topladığınız ve topladığınız verilere güvenip güvenmeyeceğiniz gibi konularda dikkatli olmalısınız. ”Tüm veriler doğru veya mükemmel olmak zorunda değil.” diyor  Redman ama analizlerle ne yapacağınız konusunu da  dikkate almalısınız. Eğer sonuç niteliği taşıyan kararlarınız işiniz üzerinde büyük bir etkiye sahip değilse sorun yok, tabi veriniz”. Ancak  “eğer bir şeyden 8 veya 10 tane üreteceğiniz konusunda karar vermeye çalışıyorsanız ve her biri 1.000.000$ değerinde ise bu büyük bir anlaşma olurdu.” diye sözlerine devam ediyor. Aşağıdaki tablo, korelasyonun veriler üzerinde etkisi olup olmadığına dair nasıl düşünmeniz gerektiğini açıklıyor.

REGRESYON ANALİZİ DATA

Redman, regresyon analiziyle yeni tanışan bazı yöneticilerin, hata terimini(error term) göz ardı etmek gibi bir hata yaptıklarını belirtiyor. Bu çok riskli çünkü bazı şeyler arasında olması gerekenden daha kesin ilişkiler kurmak gibi bir sorun ortaya çıkıyor. “Bazı zamanlar sonuçlar kesin gibi görünebilir ve yöneticiler de buna aldanıp hemen işe koyulmaya çalışabilirler fakat şunu unutmayın ki sonuçlar her zaman kesin değildir. Redman’ında belirttiği gibi “Eğer regresyon ilişkinin %90’ını açıklıyorsa bu harika. Ancak %10’ununu açıklıyor ve siz  %90 gibi hareket ediyorsanız işte bu yanlış kararların habercisi haline geliyor.” Analiz noktası ise gerçekleşecek bir şeyin kesin olarak ölçümüdür. “Analiz noktası size yağmurun satışlarınızı ne kadar etkileyeceğini anlatmaz ancak yağmurun satışlarınızı etkileyebileceği olasılığını anlatır.”

Redman’ın dikkat çektiği bir diğer hata ise verilerin, sezgilerin önünde tutulması.

 

“Sezgileriniz her zaman verilerin başında gelmeli.” diyor ve açıklıyor. Sonuçların, durumu anlamanızla uyuşup uyuşmadığını kendinize bir sorun ve eğer anlamsız bir şey görüyorsanız, verinin doğru olup olmadığını ve büyük bir hata terimi içerip içermediğini bir sorgulayın. Redman, anlamsız bir şey ile karşılaşıldığında, daha tecrübeli yöneticilere veya diğer analizlere göz atmayı öneriyor. Ve devam ediyor “Ofisinizin dışında neler olup bittiğini anlamak için miktarların ötesine geçmeyi unutmayın: Analizlerinizi gerçek dünya tecrübeleri ile eşleştirin. En iyi bilim adamları ve en iyi yöneticiler başarı için her ikisini de referans alırlar.

Şirket Dinamikleri Üzerine çalışmalar yapan Amy Gallo’ nun HBR makalesinin çevirisidir.

Bir Cevap Yazın