Bilimsel araştırma ekosisteminde ikincil veriler (secondary data), araştırmacıların birincil veri toplamaya kıyasla daha geniş örneklemlerle, daha uzun zaman dilimlerini kapsayan veri setleriyle ve daha düşük maliyetle çalışmasına olanak tanır. Devlet istatistik kurumlarının makro göstergeleri, uluslararası kuruluşların açık veri portalları, endüstri raporları, saygın araştırma konsorsiyumlarının harmonize edilmiş panelleri, akademik veri arşivleri ve kurumsal kayıtlar gibi kanallar, yalnızca hız ve erişilebilirlik sunmakla kalmaz; aynı zamanda tekrar üretilebilirliği ve dış geçerliliği güçlendirir. Bu yazı, ikincil verilerle destekli bir araştırma makalesini baştan sona nasıl tasarlayacağınızı örnek olaylar, uygulamalı ipuçları ve metodolojik derinlik ile ortaya koyar: araştırma sorusunun ikincil veriyle uyumlu biçimde daraltılmasından verinin temini, temizlenmesi, dönüştürülmesi, analiz edilmesi ve raporlanmasına; geçerlik/güvenilirlik ve etik mevzuattan görselleştirme, yazım, hakem süreci ve politika/uygulama etkisine kadar detaylı bir yol haritası sunulur.

1) Araştırma problemini ikincil veriye “uyarlanabilir” kılmak
İkincil veri ile çalışmanın ilk koşulu, sorunun ölçülebilirliği ve veriyle eşleşebilirliğidir. Araştırma sorunuzun ana kavramları (bağımlı/bağımsız/ara değişkenler) mevcut veri setlerinde operasyonel karşılık bulabilmelidir.
Uygulamalı ipucu: “Dijital becerilerin istihdam edilebilirliğe etkisi” gibi soyut bir soru, “2015–2024 dönemi bireysel düzeyde bilişim yetkinliği endeksi ile 6 ay içindeki istihdam durumu ilişkisi” olarak somutlaştırılmalı; “bilişim yetkinliği”nin veri setindeki göstergeleri (ör. ‘son 3 ayda ofis yazılımı kullanma sıklığı’, ‘temel kodlama deneyimi’, ‘internet bankacılığı kullanımı’) açıkça tanımlanmalıdır.
2) Veri kaynağı ekosistemi: Kamu, uluslararası, akademik ve kurumsal
İkincil veri kaynakları dört ana grupta toplanabilir:
-
Kamu istatistikleri: TÜİK/ONS/US Census, merkez bankaları, bakanlık kayıtları, belediye açık veri portalları.
-
Uluslararası kuruluşlar: Dünya Bankası, OECD, Eurostat, WHO, UNESCO, ILO, IMF veri tabanları.
-
Akademik arşivler ve konsorsiyumlar: ICPSR, GESIS, UK Data Service, IPUMS, Panel Study (HILDA, SOEP, BHPS, ECHP), LIS, Demographic and Health Surveys (DHS).
-
Kurumsal/endüstri kaynakları: Şirket kayıtları, pazar araştırma raporları, web analitiği (uygun izinlerle), ticaret birliklerinin veri setleri.
Örnek olay: “E-öğrenmenin başarıya etkisi” için ulusal öğrenci izleme panelleri (ör. PISA eşdeğeri veri), üniversite öğrenme yönetim sistemi (LMS) logları ve uluslararası eğitim göstergeleri birlikte kullanılabilir.
3) Uygun veri seçimi: Kapsam, granülerlik ve zaman boyutu
Veri seçerken üç eksene dikkat edin:
-
Kapsam (coverage): Coğrafi alan, sektör, nüfus grubu.
-
Granülerlik (resolution): Birey/kurum/il/ülke, günlük/aylık/yıllık.
-
Zaman (temporal coverage): Kesitsel mi panel mi? Pandemi gibi şok dönemleri içeriyor mu?
Uygulama: Politika etkisini ölçmek için ideal olan panel veri, bireylerin zaman içinde takip edilmesini sağlar; ancak veri erişimi daha sınırlı olabilir. Alternatif olarak tekrarlanan kesitsel veri ile trend analizi yapılabilir.
4) Değişken eşleştirme ve kavramsal uyum: Haritalama tablosu
İkincil veriyle kavramları çalışabilmek için kavramsal haritalama tablosu oluşturun:
-
Araştırma kavramı → Veri setindeki değişken(ler) → Ölçüm düzeyi → Kodlama notu → Olası sınırlılık.
Örnek: “Sosyal sermaye” kavramını, veri setindeki “gönüllülük faaliyeti”, “dernek üyeliği”, “komşu yardımlaşması” maddeleriyle bir kompozit endekse dönüştürmek ve ağırlıklandırmayı (eşit ağırlık/FA/IRT) gerekçelendirmek.
5) Veri erişimi, lisans ve etik: Mevzuata tam uyum
İkincil veri “hazır” demek, mevzuat dışı demek değildir. Lisans koşullarını (kullanım, yeniden dağıtım, atıf) ve kişisel veriler için anonimleştirme düzeyini kontrol edin. Kimi setler “güvenli oda” erişimi, veri kullanımı anlaşması (DUA) ve etik kurul beyanı gerektirir.
Uygulamalı ipucu: Makalede “Veri ve materyaller” bölümünde lisans türünü, erişim URL’sini ve başvuru gerekliliklerini açıkça yazın; mümkünse analiz kodunu kamuya açın.
6) Veri temizleme ve harmonizasyon: Kod defteri (codebook) ve sürümleme
Farklı kaynaklardan veri birleştirirken değer etiketleri, eksik kodları, ölçüm birimleri ve zaman damgaları tutarlı hale getirilmelidir.
-
Kod defteri: Her değişken için tanım, ölçüm düzeyi, dönüşüm notu, eksik veri kodları.
-
Sürüm kontrolü: Git ile veri işleme betikleri ve çıktıların izlenmesi; “ham/veri-işlenmiş” klasör ayrımı.
Örnek: Ülke düzeyi kişi başı GSYH verisi (USD, 2015 sabit fiyatları) ile birey düzeyi anket verisini birleştirirken yıl-endeks dönüşümü yapıp satır bazında eşleştirme (country–year) kuralları belirleyin.
7) Eksik veri, aykırı değer ve ölçüm hatası: Sağlamlık için önlemler
İkincil veri sıklıkla örnekleme hatası, yanıt vermeme, kodlama hataları ve aşırı uç gözlemler içerir.
-
Eksik veriler için çoklu atama (MICE) veya IPW gibi yöntemler.
-
Aykırı değerler için robust istatistikler (Huber/biweight), winsorizasyon.
-
Ölçüm hataları için duyarlılık analizi ve alternatif gösterge tanımları.
Uygulama: Ana sonuçları bir “temel model” ve çeşitli “robust varyantlarla” raporlayın.
8) Örnekleme ağırlıkları ve tasarım etkisi: Doğru çıkarım için şart
Büyük ölçekli anketlerin çoğu karma örnekleme tasarımı kullanır. Ağırlıklar (weights), kümeleme (clustering) ve tabakalaşma (strata) bilgileri analize dahil edilmezse standart hatalar yanıltıcı olur.
Uygulamalı ipucu: Analiz yazılımınızda (R survey/Stata svy) tasarım bilgisini tanımlayın; “ağırlıklı–ağırlıksız” karşılaştırması yaparak bulguların duyarlılığını gösterin.
9) Değişken dönüşümleri ve endeks inşası: Teoriyle uyumlu kompozit ölçüler
Kavramsal yapılara uygun endeksler kurarken; standartlaştırma (z-skor), doğrulayıcı faktör analizi (DFA) ile tek boyutluluk testleri ve güvenirlik (α/ω) raporlanmalıdır.
Örnek: “Dijital kapsayıcılık endeksi” = cihaz erişimi + bağlantı hızı + beceri maddeleri + kullanım sıklığı → AFA ile alt boyutlar, DFA ile uyum indeksleri (CFI, TLI, RMSEA).
10) Nedensel çıkarım stratejileri: Gözlemsel veride dikkat
İkincil veri çoğu zaman gözlemseldir. Nedensellik iddiaları için titiz stratejiler gerekir:
-
Farkların Farkı (DiD): Politika/şok öncesi-sonrası, tedavi-kontrol bölge.
-
Eğilim Puanı Eşleştirme (PSM)/Ağırlıklandırma (IPW): Seçim yanlılığını azaltma.
-
Regresyon Süreksizlik Tasarımı (RDD): Eşik kuralları varsa.
-
Araç Değişken (IV): Endojenliği kırabilecek geçerli araçlar (örn. coğrafi/kurumsal enstrümanlar).
-
Sentez kontrol (SCM): Politika değerlendirmelerinde makro düzey.
Uygulama: Her yöntemin varsayımlarını (parallel trends, exclusion restriction, tekdüzelik) açıkça test ve rapor edin.
11) Panel veri çözümleri: Sabit–rasgele etkiler, dinamik modeller
Panel yapılar, gözlenmeyen heterojenlik kontrolü sağlar.
-
Sabit Etkiler (FE): Zaman içi değişime odaklanır, zamana sabit gözlenmeyen özellikleri kontrol eder.
-
Rasgele Etkiler (RE): Daha verimli ama “açıklayıcılarla korelasyonsuzluk” varsayımı gerektirir.
-
Dinamik paneller: GMM (Arellano–Bond/Blundell–Bond) ile gecikmeli bağımlı değişkenler.
Örnek: 2000–2024 iller arası yenilenebilir enerji yatırımlarının istihdama etkisini FE ile; yatırım kararındaki atalet için dinamik panel ile test edin.
12) Çok düzeyli (hiyerarşik) modelleme: Birey–kurum–bölge bileşimi
Bireyler kurumlar içinde, kurumlar bölgeler içinde yer alır. HLM/MLM ile farklı düzeylerdeki varyansı ayırabilir, rastgele eğimler ve bağlamsal etkileri test edebilirsiniz.
Uygulama: Öğrenci başarı veri setinde birey (öğrenci), sınıf (öğretmen), okul, il düzeyi değişkenleri aynı modelde; okul kaynakları ile bireysel sosyoekonomik düzeyin etkileşimi (cross-level interaction) incelenebilir.
13) Metin, görüntü ve ağ verileri: İkincil verinin yeni sınırları
Açık parlamenter tutanaklar, medya arşivleri, sosyal platform API çıktıları, patent metinleri, bilimsel özetler gibi ikincil metin verileri; TF–IDF, topic modeling, kelime gömme (word embeddings) ve denetimli sınıflandırma ile analiz edilebilir. Ağ verileri (kurumlar arası işbirliği, ticaret ağları, retweet ağları) için merkezilik, modülerlik ve topluluk algılama metrikleri raporlanmalıdır.
Örnek: Patent metinlerinden “yeşil inovasyon” temalarını çıkarmak ve bunları firma düzeyi üretkenlik verisiyle eşleştirerek inovasyon–verimlilik ilişkisini test etmek.
14) Görselleştirme ve raporlama: Bilgiyi israf etmeden sunmak
İkincil veri analizi çoğu zaman büyük tablo ve şekiller üretir. Bilgi kalabalığı yerine bilgi yoğunluklu ama okur dostugörseller üretin.
-
Şekil 1: Veri akış diyagramı (kaynaklar, dönüşümler, birleştirme anahtarları).
-
Tablo 1: Tanımlayıcı istatistikler (ağırlıklı/ağırlıksız).
-
Tablo 2: Ana model ve sağlamlık varyantları (DiD/PSM/IV).
-
Şekil 2: Etki büyüklükleri için orman grafiği (CI).
-
Şekil 3: Zaman eğilimleri ve plasebo testleri.
15) Duyarlılık (robustness) ve plasebo testleri: Sonucu sağlamlaştırmak
İddianızı güçlendirmenin yolu alternatif spesifikasyonlar ve plasebo senaryolarıdır.
-
Farklı örneklem tanımları (uçların dışlanması, alt gruplar).
-
Alternatif bağımlı/bağımsız değişken ölçümleri.
-
Zaman penceresi kaydırmaları (lead-lag testleri).
-
Sahte politika tarihleri (placebo DiD).
Uygulama: Ana sonuçlar değişmeden kalıyorsa güven artar; değişiyorsa nedenleri tartışma bölümünde açıklanır.
16) Çoğaltılabilirlik: Kod, veri ve çıktıların bütünleşik dosya yapısı
Araştırmayı yeniden üretilebilir kılmak için tek komutla rapor üretimi hedefleyin: ham veriden (veya erişim talimatından) başlayıp nihai tablo/şekillere uzanan bir R Markdown/Quarto/Snakemake hattı.
İpucu: “/01_raw/02_clean/03_derived/04_models/05_output/” gibi hiyerarşik klasör; “sessionInfo()/renv/conda” ile ortam dondurma; DOI’li arşiv.
17) Etik ve önyargı analizi: Temsil adaleti ve mahremiyet
İkincil veri setleri temsil sorunları barındırabilir. Az temsil edilen gruplar için ağırlık düzeltmeleri, post-stratification ya da analizden ayrı raporlama gerekebilir. Mahremiyet için veri kümesini sadece gerektiği kadar ayrıntıda paylaşın; k-ananimlik ve diferansiyel gizlilik gibi ilkeleri tartışın.
18) Örnek olay 1: Asgari ücret artışının istihdama etkisi (DiD)
Veri: 2008–2024 il düzeyi istihdam ve ücret istatistikleri + sektör kompozisyonu.
Tasarım: Farkların Farkı; artıştan orantısız etkilenen iller “tedavi”, diğerleri “kontrol”.
Bulgular (varsayımsal): Kısa vadede düşük ücret yoğun sektörlerde istihdamda küçük bir daralma; 12 ay sonraki toparlanma ile net etkinin sıfıra yakınsaması.
Robustness: Alternatif tedavi tanımları, il sabit etkileri, nüfus ağırlıkları.
19) Örnek olay 2: Geniş bant yaygınlığının KOBİ verimliliğine etkisi (IV)
Veri: 2010–2023 firma düzeyi satış/istihdam verisi + altyapı haritaları.
Yöntem: Araç değişken yaklaşımı; coğrafi topoğrafya ve tarihi telefon hatları altyapısı “araç” olarak.
Bulgular (varsayımsal): Geniş bant penetrasyonundaki 10 puanlık artış, işçi başına katma değeri %2,1 yükseltiyor; etkiler hizmetler sektöründe daha yüksek.
Duyarlılık: Over-identification testleri, zayıf araç tanısı.
20) Yazım mimarisi: IMRaD ve “Veri ve yöntem” bölümünün derinleştirilmesi
İkincil veri makalelerinde Yöntem bölümünde şu alt başlıklar yer almalıdır:
-
Veri kaynakları ve erişim: Lisans, erişim yolu, tarih.
-
Örneklem ve ağırlıklar: Tasarım, ağ. uygulaması.
-
Değişken tanımları: Tüm dönüşümler, endeks inşası, formüller.
-
Analiz stratejisi: Nedensel mantık, varsayımlar, testler.
-
Sağlamlık ve plasebo: Planlı varyantlar.
-
Sınırlılıklar: Ölçüm hatası, dışsal şoklar, kurumsal değişiklikler.
21) Hakem süreci ve veri şeffaflığı: İnandırıcılığı artırma
Hakemlerin sık sorduğu üç soru: (i) veriye erişim nasıl sağlanır, (ii) kod/çıktılar nasıl tekrar edilir, (iii) seçici raporlama var mı?
Uygulamalı ipucu: “Data Availability Statement” ve “Code Availability Statement” standart cümleleri; ek materyallerde veri akış şeması, codebook, ön plan dokümanı.
22) Politika ve uygulama etkisi: Sonuçların tercümesi
İkincil veriler politika analizi için idealdir. Bulguları uygulanabilir önerilere çevirin: hedef grup, maliyet–fayda, olası yan etkiler, izleme–değerlendirme metrikleri.
Örnek: Geniş bant–verimlilik ilişkisi bulgusu; KOBİ dijitalleşme destekleri, bölgesel altyapı yatırımlarında önceliklendirme, beceri eğitim programları ile desteklenebilir.
23) Sık hatalar: İkincil veri araştırmalarında kaçınılması gereken beş yanılgı
-
Değişkenlerin “isimden” okunması: Codebook ve anket metni incelenmeden kavramsallaştırma.
-
Ağırlıkları görmezden gelmek: Yanlış standart hatalar ve eğilimli tahminler.
-
Zaman penceresini keyfî seçmek: Sonuçları fırsatçı biçimde “parlatmak”.
-
Seçici raporlama: Sadece anlamlı sonuçları paylaşmak.
-
Birleştirmede anahtar hatası: Yıl–bölge–kurum eşleşmelerini yanlış yapmak.
24) Denetim izi (audit trail) ve proje yönetimi
Araştırma boyunca denetim izi tutarak (karar günlüğü, sürüm notları, toplantı tutanakları) hem iç kaliteyi artırır hem de ekip içi koordinasyonu kolaylaştırırsınız. Basit bir Gantt planı ve risk matrisi (veri erişimi gecikmesi, lisans kısıtı, yazılım uyumsuzluğu) süreci öngörülebilir kılar.
25) Üslup, anlatı ve görsel özet: Okur dostu bilimsel iletişim
Teknik doğruluğu korurken anlatı ekonomisi gözetin. Bulguları “Ne bulduk? Ne kadar? Ne anlama geliyor? Nerede geçerli? Sınırlılığı ne?” sorularıyla çerçeveleyin. Ek materyalde görsel özet (graphical abstract) ve 1–2 sayfalık politika notu hazırlayın.
26) Alanlara göre kullanım örnekleri: Sağlık, eğitim, çevre, ekonomi
-
Sağlık: DHS, hospital discharge kayıtları; politika etkisi (sigara yasağı, aşı kampanyası).
-
Eğitim: Ulusal öğrenci izleme, PISA benzeri veriler; okul kaynakları–başarı ilişkisi.
-
Çevre: Emisyon envanterleri, hava kalitesi izleme; yeşil yatırım–istihdam.
-
Ekonomi: Hanehalkı bütçe anketleri; sosyal transferlerin yoksulluk etkisi.
-
Kent çalışmaları: Ulaşım açık verileri; toplu taşım erişimi ve istihdama katılım.
27) Replikasyon ve meta-analize köprü: Bilgi mimarisini genişletmek
İkincil veriler, replikasyon ve meta-analiz çalışmalarının altyapısını besler. Kendi çalışmanızın kod ve veri eklerini iyi kurgulamak, gelecekteki sentez çalışmalarında görünürlüğünüzü artırır. Sistematik inceleme protokollerine (PRISMA) uygun veri raporlama, alan yazının kümelenmesini kolaylaştırır.
28) Gelecek yönelimleri: Sintetik veri, gizlilik-koruyan analiz ve federatif öğrenme
Veri paylaşımının kısıtlı olduğu alanlarda sentetik veri üretimi, gizlilik-koruyan hesaplama (federated learning, güvenli çok taraflı hesaplama) ve diferansiyel gizlilik yaklaşımları ikincil veri araştırmalarını yeni bir etik–teknik standarda taşıyor. Bu yaklaşımları “Sınırlılıklar ve gelecekteki çalışmalar” kısmında tartışmak, makalenizin güncelliğini artırır.
Sonuç: İkincil veriyi bilimsel değere dönüştürmenin bütünsel çerçevesi
İkincil verilerle destekli bir araştırma makalesinin başarısı, kavramsal uyum, uygun veri seçimi, titiz temizleme ve harmonizasyon, tasarım duyarlı istatistikler, nedensel stratejiler ve varsayım testleri, robustluk ve plasebo analizleri, şeffaf raporlama ve çoğaltılabilirlik, etik–hukuki uyum ve okur dostu bilimsel iletişim bileşenlerinin bir aradalığına dayanır. Bu bileşenler düzenli ve denetlenebilir bir iş akışına oturduğunda; araştırmacı yalnızca yayınlanabilir değil, aynı zamanda politikaya ve uygulamaya temas eden, yeniden kullanılabilir ve güvenilir bilgi üretir. İkincil verinin sunduğu ölçek ve kapsam avantajı, doğru metodoloji ve şeffaflıkla birleştiğinde, disiplinler üstü etkileri olan çalışmaların önünü açar. Böylece mevcut veri mirası, yeni araştırma sorularına ışık tutarak bilginin sınırlarını genişletir ve bilimsel ekosistemin kolektif üretkenliğini artırır.