Sayma Verileri ile Kantil Regresyon: Aşırı Yayılım Veri Örneği


Creative Commons License

DURMUŞ B., GÜNERİ Ö. İ., İNCEKIRIK A.

Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, cilt.9, sa.1, ss.286-303, 2022 (Hakemli Dergi) identifier

Özet

Sayma modellerinde klasik regresyon varsayımları sağlanamamaktadır. Bu nedenle sayma verileri için Poisson ve negatif binom dağılım en bilinen yöntemlerdir. Poisson model eşit yayılım durumunda, negatif binom dağılım aşırı yayılım durumunda kullanılabilir. Uygulamada veriler genellikle aşırı yayılım göstermektedir. Eğer sayma verilerinde fazla sıfır değerli varsa eşit yayılım durumunda zero-inflated Poisson, aşırı yayılım durumunda zero-inflated negatif binom modelleri, Poisson Hurdle ve negatif binom Hurdle modelleri veya bunların genelleştirilmiş modelleri tercih edilebilir. Bu modeller genel olarak bağımlı değişkenin koşullu ortalamasını modellemeye odaklanır. Ancak koşullu ortalama regresyon modelleri, bağımlı değişkenin aykırı değerlerine duyarlı olabilir ya da diğer koşullu dağılım özellikleri hakkında hiçbir bilgi sağlamayabilir. Bu durumda sayma verileri için sağlam yöntemlerden olan kantil regresyon kullanılabilir. Kantil regresyon aykırı değerlerin varlığında sağlam tahmin avantajlarına sahiptir. Bu makalede bağımlı değişken sayma verilerinden oluşan makale sayısıdır. Bağımsız değişkenler cinsiyet, evli olup olmadığı, 5 yaşının altında çocuk sayısı, doktora prestiji ve danışmanın son 3 yıldaki makale sayısı değişkenlerinden oluşmaktadır. Çalışmada Poisson ve negatif binom dağılım uygulandıktan sonra %25, %50, %75 ve %90 kantil regresyon tahminleri elde edilmiştir.
Classical regression assumptions are not valid in count models. Therefore, Poisson and negative binom distribution are the most common methods for count data. The Poisson model can be used in case of equal spread, while negative binom distributions in case of overdispersion. In practice, data is often over dispersed. If there are too many zero values in the count data, zero-inflated Poisson models in case of equal spread, zero-inflated negative binom models, Poisson Hurdle and negative binom Hurdle models or their generalized models can be preferred in case of overdispersion. These models generally focus on modeling the conditional average of the dependent variable. However, conditional average regression models may be sensitive to outliers of the dependent variable or provide no information about other conditional distribution properties. In this case, quantile regression, which is one of the robust methods for count data, can be used. The quantile regression has the advantages of robust prediction in the presence of outliers. In this study, count data was taken to show the dependent variable number of articles. Independent variables include of gender, marital status, number of children under the age of 5, prestige of the doctorate, and the number of articles by the consultant in the last 3 years. After applying Poisson and negative binom distribution in the study, 25%, 50%, 75% and 90% quantile regression estimates were obtained.