Cuma, 15 Mayıs 2026
YOLUMUZ NÜBÜVVET YOLUDUR

Mustafa Özbağ

İrşad & Tasavvuf · Resmî Site
Genel ·

YouTube Sohbet Arşivinden Akademik İçerik Üretimi — Proje Raporu

YouTube üzerindeki dergâh sohbetlerinin Whisper ile transkripsiyonu, Python tabanlı düzenleme ve WordPress otomasyonu üzerine bir vaka çalışması. 30 günde 740 transkript, 935+ yayın işlemi, ≈195.000 satır kod.

Özet

Bu çalışma, mustafaozbag.com alan adlı WordPress tabanlı yayın platformu için geliştirilen, YouTube üzerindeki tasavvuf sohbetlerinin otomatik transkripsiyon, düzenleme ve yayın hattını kapsayan bir vaka raporudur. 6 Mart 2026 – 15 Mayıs 2026 tarihleri arasındaki yaklaşık iki aylık (71 günlük / 1.704 takvim saatlik) bir geliştirme penceresinde, OpenAI Whisper modelinin medium varyantı ile üç binden fazla ses kaydı yaklaşık dokuz milyon iki yüz bin kelime hacminde Türkçe metne dönüştürülmüştür. Anthropic Claude API’si kullanılarak ham transkriptler akademik yayın kalitesine yükseltilmiş; âyet-hadîs-eser referansları ve kaynakça bilgileri tespit edilerek yerleştirilmiştir. Sonuç olarak WordPress üzerinde 3.543 yayın postu ve 403 yayın sayfası (toplam 3.946 yayın birimi) erişilebilir hâle getirilmiştir.

Çalışma; yerel açık kaynak modeller (Whisper, Qwen 3 8B) ile büyük dil modeli API hizmetinin (Claude) bir araya getirilerek dinî-tasavvufî sözlü mirasın yazılı arşive dönüştürülebileceğine dair somut bir uygulama örneği sunmaktadır.

Anahtar Kelimeler: Otomatik konuşma tanıma, Whisper, dijital beşerî bilimler, dergâh sohbeti, WordPress otomasyonu, Qwen, dijital arşivleme.

1. Giriş

Sözlü kültür ürünleri, özellikle dinî-tasavvufî sohbet külliyatı, günümüzde büyük ölçüde video paylaşım platformlarında dağıtılmaktadır. Bu paylaşım biçimi geniş bir izleyici kitlesine erişim sağlamakla birlikte; aranabilirlik, alıntılanabilirlik ve uzun erimli koruma açısından önemli sınırlılıklar barındırmaktadır. Bir video kaydının saniyeleri içinde geçen bir tanım ya da bir hadis alıntısı, metin biçimine dönüştürülmediği sürece arama motorları ve akademik aramalar tarafından erişilebilir değildir.

Bu çalışmanın konusu olan mustafaozbag.com projesi, söz konusu boşluğu kapatmaya yönelik somut bir çözümdür. Proje, ağırlıklı olarak Hz. Karabaş-ı Velî hazretlerinin manevi geleneğine bağlı dergâh sohbetlerinin yedi yıllık bir arşivini hedef almakta; bu sohbetleri açık kaynak Whisper konuşma tanıma modeli ile transkribe etmekte, kural tabanlı bir düzenleme katmanından geçirmekte ve son olarak WordPress üzerinde tez kalitesinde yayına almaktadır.

Bu raporun amacı şu üç noktayı belgelemektir: (i) projenin teknik mimarisi ve kullanılan araç-yöntem yığını; (ii) elde edilen sayısal çıktılar ve süreç metrikleri; (iii) projenin güçlü-zayıf yönleri ile devamına ilişkin öneriler.

2. Bağlam ve Literatür

2.1. Karabaş-ı Velî ve Tasavvuf Geleneği

Karabaş Velî olarak da bilinen Karabaş-ı Velî (1611-1685), Halvetî tarikatının Şabaniyye kolunun önde gelen şahsiyetlerinden biri olup, Türk-İslâm tasavvuf düşüncesinin önemli temsilcilerindendir. Kastamonu doğumlu olan velînin Şerh-i Fusûs ve Kâşifu Esrârı’l-Fütûhât gibi eserleri tasavvuf literatüründe kalıcı bir yer edinmiştir. Bu çalışmaya konu olan dergâh sohbetleri, söz konusu mâ’nevî silsileye bağlı çağdaş bir tasavvuf çevresi tarafından kayıt altına alınmış ve YouTube üzerinden kamuya açılmıştır.

2.2. Sözlü Geleneğin Dijital Arşivlenmesi

Dijital beşerî bilimler alanı, son on yılda sözlü kültür ürünlerinin korunması konusunda kayda değer bir ilerleme kaydetmiştir. Otomatik konuşma tanıma (ASR) teknolojilerindeki sıçrama, özellikle OpenAI Whisper modelinin 2022 sonunda kamuya açılması, daha önce yüksek maliyetli profesyonel transkripsiyon hizmeti gerektiren işlemleri yerel donanımda yapılabilir kılmıştır. Türkçe gibi düşük kaynaklı dillerde dahi modern büyük ölçekli ASR modelleri makul doğruluk seviyelerine ulaşmıştır.

Bununla birlikte, dinî-tasavvufî metinlerin transkripsiyonunda ASR çıktısının doğrudan yayına alınması mümkün değildir. Arapça-Farsça kökenli özel terminoloji, Kur’ân ve hadis alıntıları, dua kalıpları ve özel isimler, modern Türkçe üzerinde eğitilmiş genel amaçlı bir modelin sıklıkla başarısız olduğu noktalardır. Bu durum, ASR çıktısının üzerine inşa edilmiş bir kural tabanlı düzeltme katmanını zorunlu kılmaktadır.

2.3. WordPress’in Akademik Yayın Aracı Olarak Konumu

WordPress, 2003’ten bu yana açık kaynak içerik yönetim sistemi olarak gelişmiş ve günümüzde dünya web sitelerinin yaklaşık yüzde kırkını barındıran bir altyapıya dönüşmüştür. Akademik amaçlar açısından WordPress, REST API’sı, taksonomi sistemi, Gutenberg blok editörü ve Rank Math gibi SEO eklentileri sayesinde, küçük ölçekli bir araştırma yayını için yeterli bir altyapı sunmaktadır.

3. Yöntem

Projenin temel yaklaşımı şu şekilde özetlenebilir: YouTube kanalındaki videolar, kanal içindeki kategori-seri yapısına (mesnevî dersi, soru-cevap programı, hutbe, konferans vb.) bağlı kalınarak transkribe edilir. Yazıya dönüştürme sırasında ortaya çıkan imla ve mantık hataları, projeye özgü tutulan bir düzenleme standardı çerçevesinde sistematik biçimde giderilir. Düzenleme adımında metin içinde geçen sorular tespit edilip kategorik olarak ayrıştırılır ve sitenin /sorular alt-sayfa hiyerarşisine eklenir. Aynı adımda her bir postta geçen ayet, hadis, eser ve şahıs atıfları için kaynak ve referans araştırması yapılarak doğru künyeleriyle birlikte yerleştirilir.

Bu yaklaşımı somut bir uygulamaya dönüştüren pipeline, beş aşamalı bir akıştan oluşmaktadır: (1) kategorik ses elde etme, (2) ses-metin dönüşümü, (3) imla ve mantık hatalarının giderilmesi, (4) kaynakça-referans tespiti ile soru çıkarımı, ve (5) yayın.

3.1. Kategorik Veri Kaynağı

Çalışmanın birincil veri kaynakları, üstâdın kamuya açık tüm YouTube kanallarıdır. Bu kanalların kamuya açık adres bilgileri sitenin ana sayfasında listelenmektedir:

Bu kanalların birleşik arşivi, 2018-2024 yılları arasındaki yedi yıllık bir dönemi kapsamakta olup, her bir yıl için ortalama 80-120 ses-video kaydı içermektedir. Kanal içinde içerikler kategorik bir seri yapısı çerçevesinde düzenlenmiştir: mesnevî beyit yorumları (Mesnevî 2175, 2180, 2190 … şeklinde beyit sırasına bağlı bir seri), soru-cevap programları, hutbe ve konferans kayıtları, özel günlere ait sohbetler (Mevlid-i Nebî, kandiller, ramazan) ve Karabaş-ı Velî silsilesine bağlı yıllık ders serileri. Bu kategorik yapı; transkripsiyon, düzenleme ve yayın aşamalarının tamamı boyunca korunmaktadır.

Ham veri çekimi yt-dlp aracılığıyla gerçekleştirilmiş; her bir video için 16 kHz örnekleme oranında, tek kanallı WAV ses dosyası, FFmpeg üzerinden çıkartılmıştır.

3.2. Ses-Metin Dönüşümü (Whisper)

Transkripsiyon adımında OpenAI Whisper modeli kullanılmıştır. Model boyutu olarak medium varyantı (yaklaşık 769 milyon parametre) tercih edilmiştir; bu tercih, hesaplama maliyeti ile doğruluk arasındaki dengeyi Türkçe-tasavvufî terminoloji lehinde gözetmiştir. Daha küçük varyantların özel terminoloji üzerinde yetersiz kalması, daha büyük large-v3 modelinin ise pratik hızı düşürmesi nedeniyle medium, hem yeterli doğruluk hem de işlem hızı sunan optimum nokta olarak belirlenmiştir.

Transkripsiyon, ek bir donanım gereksinimi olmaksızın çalışabilir hâlde tutulması için merkezi işlem birimi (CPU) üzerinde yürütülmüştür. Çıktı, yapılandırılmamış ham Türkçe metin biçiminde olup sonraki aşamada Claude API tabanlı düzenleme motoru için girdi oluşturmaktadır.

3.3. İmla ve Mantık Hatalarının Giderilmesi

Ham transkript metni iki tür sistematik hata içerir: (i) imla hataları — Whisper modelinin Türkçe-tasavvufî terminolojiyi ASCII karakterlerle ve modern Türkçe yazım kurallarıyla çıkarması (örneğin “Eudu billahi min ash-shaytanirracim” şeklinde bir transkripsiyon); (ii) mantık hataları — modelin benzer sesli kelimeler arasındaki bağlamsal karışıklığı, eksik aktarımlar ve özel terimleri tanıyamamaktan kaynaklanan akıl yürütme kopuklukları.

İmla hataları, projeye özgü tutulan ve sürekli güncellenen bir Türkçe-tasavvufî transliterasyon standardı çerçevesinde düzeltilir. Bu standart; “E’ûzü billâhi mine’ş-şeytâni’r-racîm”, “Bismillâhi’r-Rahmâni’r-Rahîm”, “Resûlullâh”, “Hazret-i Peygamber sallallâhu aleyhi ve sellem”, “Abdülkâdir Geylânî”, “Niyâzî Mısrî”, “Muhyiddîn Arabî”, “Mevlânâ Celâleddîn Rûmî” gibi yüzlerce kalıbın doğru imlasını içerir. Standart kalıplar, her sohbete uygulanan bir küresel düzeltme listesi (FIXES_GLOBAL); sohbete özgü hatalar ise her bir sohbetin kendi spec dosyasına eklenen bölüm bazlı düzeltme listeleri (section.fixes) hâlinde tutulur.

Mantık hatalarının giderilmesi, kural tabanlı bir motorla mümkün değildir; bunun için Anthropic firmasının Claude büyük dil modeli, API hizmeti üzerinden çağrılır. Modele bağlam (sohbetin kategorisi, varsa önceki/sonraki bölüm) ile birlikte ham transkript verilir ve şu üç işlevi yerine getirmesi istenir: (i) cümle kopukluklarını ve eksik aktarımları gidermek; (ii) atıf yapılan eser, şahıs ve kavramları doğru tam künyeleriyle yerleştirmek; (iii) anlamı bozmadan akademik bir yayın diline uyumlu hâle getirmek.

Her bir sohbet için tutulan spec (şartname) dosyası, hem bu otomatize düzeltme adımlarını hem de manuel müdahaleleri sürüm kontrolü altında saklamaktadır. Her spec için iki kalite metriği takip edilir: COVER (Whisper transkriptinin yüzde kaçının post içeriğinde geçtiği) ve R (post içeriği uzunluğunun ham transkript uzunluğuna oranı). Hedef değerler COVER ≥ %95 ve R ≥ %100 olarak belirlenmiştir; bu eşiklerin tutturulması, hiçbir sohbet bölümünün özetlenmeden, eksiltilmeden ve fakat akademik tashih ile zenginleştirilerek yayına alınmasını güvence altına alır.

3.4. WordPress Yayın Altyapısı

Yayın aşaması, WordPress’in standart REST API uç noktalarına ek olarak, projeye özel olarak tema dosyası içinde tanımlanan dört özel uç nokta üzerinden yürütülmektedir. Bu uç noktalar; doğrudan veritabanı sorgusu çalıştıran SQL uç noktası, önbellek temizleme amaçlı purge uç noktası ve tema dosyalarını okuma-yazma için theme-read ve theme-edit uç noktalarıdır. Kimlik doğrulama, WordPress Application Password mekanizması üzerinde Basic Authentication ile sağlanmakta; ek bir gizli anahtar ile uç noktaların yetkilendirme katmanı pekiştirilmektedir.

Her bir post için bir Gutenberg blok HTML’i üretilmekte, bu çıktı doğrudan WordPress’in posts tablosuna POST veya PATCH yöntemleriyle gönderilmektedir. İdempotent yayın ilkesi gereği, bir spec dosyasının içinde mevcut post kimliği bulunuyorsa, sistem yeni bir post oluşturmaz; mevcut postu günceller. Bu, yayında dönüş ve düzeltme operasyonlarını güvenli kılar.

3.5. Kaynakça-Referans Tespiti ve Soru Çıkarımı

Düzenleme adımı sırasında her sohbet için iki ek inceleme paralel olarak yürütülür. Birincisi, metin içinde geçen tüm âyet, hadis, eser ve şahıs atıflarının tespit edilerek doğru kaynak künyesiyle (kitap adı, kitap numarası, bâb, sayfa, basım yılı vb.) yerleştirilmesi; ikincisi, sohbetin akışı içinde dinleyici tarafından sorulan soruların ve hocanın bu sorulara verdiği cevapların ayrıştırılmasıdır.

Somut bir örnek olay (vaka): y259 / k165 numaralı sohbette (“Tahkîkî Îmân, Çocuk Sayısı Hukûku ve Cemâleddîn Afgânî-Abduh Mason Tehlikesi”, WordPress post kimliği 38465) hocanın sözlü olarak “Afgânî ve Abduh mason locasına girmişlerdir” şeklindeki ifadesi, modern reformist hareketin iki temsilcisinin Kahire ve Beyrut localarındaki kayıtlı üyelikleri konusundaki akademik kaynaklara atıfla zenginleştirilmiştir. Bu post için spec dosyası 12 bölüm ve 186 düzeltme kuralı içermekte; COVER %96,8 ve R %100,1 kalite metriklerini tutturmaktadır. Aynı yöntem; Buhârî hadislerinin kitab-bâb numarası, Mesnevî beyitlerinin sıra numarası, sahabenin nesep zinciri ve klasik tasavvuf eserlerinin müellif-eser bilgileri için sistemli olarak uygulanmaktadır.

Soru çıkarımı katmanı ise yüksek hacimli olduğu için yerel bir modelle yürütülür: yayınlanan post içerikleri parçalara (chunk) ayrılmakta ve Qwen 3 8B modeli, yerel Ollama altyapısı üzerinde çağrılarak her parçadan soru-cevap çiftleri üretilmektedir. Çıkarılan sorular tematik kategorilere ayrılarak sitenin /sorular alt-sayfa hiyerarşisine eklenir. Bu yapı, son kullanıcının bin saatten fazla bir sözlü külliyatı konu bazında, soru bazında taramasını mümkün kılmaktadır.

Bu iki katmanın bir arada kullanımı, projenin temel bir yöntemsel kararını yansıtmaktadır: yüksek değer / düşük hacimli adımlar (referans tespiti, kaynakça oluşturma, mantık tashîhi) için en gelişmiş bulut tabanlı model olan Claude API kullanılırken; yüksek hacimli / düşük hassasiyetli adımlar (soru-cevap ayrıştırma) için yerel model tercih edilmiştir.

4. Sistem Mimarisi

Sistemin yüksek seviyeli bileşen şeması, dört asıl modülden ve iki destekleyici altyapıdan oluşmaktadır. Aşağıdaki akış şeması, projenin tüm boru hattı yapısını tek bir görselde özetlemekte; alt veri-yapı bileşenleri (spec dosyaları ve kaynakça çıktıları) ve yayın sonrası türetilen üç paralel çıktı (SEO, soru-cevap alt sayfaları, tema entegrasyonu) ile birlikte sunulmaktadır.

mustafaozbag.com içerik üretim boru hattı akış şeması
Şekil 1. mustafaozbag.com içerik üretim boru hattı — YouTube kanal arşivinden WordPress yayına kadar tüm aşamalar

Aşağıdaki tabloda ise her bir bileşenin rolü ve teknoloji seçimi metinsel olarak özetlenmiştir.

BileşenRolüTeknoloji
Veri toplamaYouTube videosundan ses çıkarımıyt-dlp, FFmpeg
TranskripsiyonSes → ham Türkçe metinOpenAI Whisper (medium, CPU)
İçerik düzenlemeHam metin → akademik kalitede metin, referans, kaynakçaAnthropic Claude API + Python spec modülleri
YayınHTML → WordPress postWP REST API + özel uç noktalar
Q&A çıkarımıPost → soru-cevap çiftleriQwen 3 8B (Ollama, lokal)
SEO katmanıMeta etiketleri ve odak kelimeRank Math eklentisi REST API
Veri tabanıKalıcı depolamaMySQL (WP) + SQLite (lokal cache)

4.1. Veri Akış Yönü

Veri tek yönlü olarak akmaktadır: YouTube ses kaynağından ham metin transkripte; ham metin kural motoru üzerinden temizlenmiş ve bölümlere ayrılmış metne; temizlenmiş metin Gutenberg blok HTML’ine; HTML ise WordPress’in MySQL tablolarına geçer. Aksi yönde bir akış (örneğin WordPress’ten yerel arşive geri yazma) tasarımda yoktur; bu, idempotent yayın ilkesine uygundur ve hata kontrolünü kolaylaştırır.

4.2. Hatadan Dönüş ve Sürüm Kontrolü

Spec dosyaları sürüm kontrol sistemi altında tutulmakta; her bir spec dosyasının değişim geçmişi, ileride yapılacak düzeltmeler için referans oluşturmaktadır. Pipeline her aşamada hatadan dönüşe izin verir: bir spec değiştirildikten sonra ilgili Python derleyici yeniden çalıştırılır, üretilen HTML yeniden WordPress’e gönderilir, mevcut post idempotent şekilde güncellenir. Bu sayede yıllar önce yayına alınmış bir sohbetin transkripsiyonunda gözden geçirme yapılması, tek satırlık bir spec değişikliği ile mümkündür.

5. Bulgular

Bu bölümde, projenin yaklaşık otuz günlük geliştirme penceresinde üretilen somut çıktılar sayısal olarak özetlenmektedir.

5.1. Sayısal Çıktılar

MetrikDeğer
Geliştirme penceresi6 Mart – 15 Mayıs 2026
— Toplam takvim süresi71 gün / 2 ay / 1.704 saat
— claude.ai dönemi (6 Mart – 18 Nisan)81 konuşma / 37 aktif gün
— Claude Code dönemi (4 Nisan – 15 Mayıs)70 oturum / 645 MB veri
— Toplam yapay zekâ destekli oturum≈151 oturum
— Tahmini etkin çalışma süresi≈180–260 saat
Transkripsiyon hacmi
— Toplam transkript dosyası (.txt)3.012 dosya
— Toplam ham metin≈68 MB / 65,9 milyon karakter
— Toplam kelime sayısı≈9.202.894 kelime
— Tahmini ham ses süresi≈1.023 saat (≈42 gün) konuşma
— Karabaş yıllık serileri (2018–2024)699 sohbet
— Konferans, mesnevî ve diğer kayıt parçaları≈2.300+ transkript
Site üzerindeki yayın (mustafaozbag.com)
— Yayında olan post sayısı3.543 post
— Yayında olan sayfa sayısı403 sayfa
— Toplam yayın birimi (post + sayfa)3.946 yayın
— Taslak (draft) durumdaki sayfa611 sayfa
— Qwen 3 8B üretimi Q&A çifti≈20.000
Kod hacmi (yerel scriptler)
— Python kodu≈135.000+ satır
— PHP kodu (özel WP eklentileri)≈5.200+ satır
— JSON manifesto ve spec dosyası118+ dosya / ≈51.000 satır
— Toplam üretilen kod hacmi≈195.000 satır

5.2. İçerik Türü Dağılımı

Üretilen içerik üç ana kategoride toplanmıştır. Birincil ve hacim olarak en büyük kategori, 2018-2024 arasındaki yıllık dergâh sohbetlerini içeren ve yedi yıllık dönem boyunca toplam 699 kayda ulaşan Karabaş seri arşividir. İkinci kategori, mesnevî yorumlarına, konferans kayıtlarına, hutbe ve diğer sohbet türlerine ait yaklaşık 2.300 transkripti bir araya getirmektedir. Üçüncü kategori ise yayın sonrası türetilen ve yaklaşık yirmi binden fazla soru-cevap çiftini barındıran Q&A koleksiyonudur. Tüm bu içerikler, sitenin canlı arşivinde bugün itibarıyla 3.543 yayın postu ve 403 yayın sayfasına yansımış durumdadır.

Toplam metin hacmi açısından da kayda değer bir büyüklüğe ulaşılmıştır: yaklaşık dokuz milyon iki yüz bin kelimelik ham transkript külliyatı, yaklaşık bin yirmi üç saatlik (kırk iki günü aşkın) bir ham ses kaydının yazıya geçirilmiş eşdeğeridir. Bu büyüklük, geleneksel manuel transkripsiyon yöntemleriyle, profesyonel bir ekibin tam zamanlı çalışması durumunda bile birkaç yıllık bir iş yüküne karşılık gelmekteydi.

5.3. Geliştirme Süreci Yoğunluğu

Proje toplamda iki farklı yapay zekâ destekli geliştirme platformunda yürütülmüştür. İlk dönem (6 Mart 2026 – 18 Nisan 2026), claude.ai web arayüzü üzerinden 81 konuşma ve 37 aktif geliştirme günü ile sürdürülmüştür. İkinci dönem (4 Nisan 2026 – 15 Mayıs 2026), Claude Code komut satırı arayüzüne geçiş ile 70 oturum ve 645 MB oturum verisi üretmiştir. Claude Code dönemindeki ortalama oturum büyüklüğü 8,7 MB civarındadır; en büyük tek oturum 208 MB’a ulaşmıştır. Bu büyüklükler, oturum başına yoğun bir kod üretimi-yapay zekâ etkileşimine işaret etmektedir. Ortalama bir Claude Code oturumunun 1,5-2 saatlik, bir claude.ai konuşmasının ise 30 dakika-1 saatlik etkin geliştirme süresine karşılık geldiği tahmin edilmektedir.

6. Tartışma ve Sınırlılıklar

6.1. Güçlü Yönler

  • Tam otomatik ve idempotent yayın: aynı sohbet defalarca yeniden işlenebilir, yayın geriye dönülebilir bir durumdadır.
  • Veri-merkezli mimari: yayın mantığı koddan ayrılmış, spec dosyalarında toplanmıştır.
  • Hibrit LLM stratejisi: yüksek değer/düşük hacim adımlarda Claude API, yüksek hacim/düşük hassasiyet adımlarda yerel Qwen kullanılarak hem kalite hem maliyet dengesi sağlanmıştır.
  • Düşük donanım yeterliliği: transkripsiyon ve yerel LLM adımları, GPU gereksinimi olmadan ortalama bir kişisel bilgisayarda çalışacak şekilde tasarlanmıştır.
  • Referans ve kaynakça otomasyonu: ham transkriptte sadece sözlü bir atıf hâlinde geçen ayet-hadis-eser bilgileri, Claude API tarafından doğru kaynak künyesiyle zenginleştirilmektedir.

6.2. Sınırlılıklar

  • Whisper medium modelinin doğruluğu, çoğu sohbet için yeterli olmakla birlikte yoğun Arapça-Farsça terminoloji ve hadis alıntıları içeren bölümlerde hâlâ ek Claude API düzeltmesine ihtiyaç duymaktadır. Gelecek bir aşamada large-v3 modeline yükseltme ve tasavvufî bir korpus üzerinde ince ayar yapılması, bu düzeltme yükünü hafifletebilir.
  • Spec dosyaları manuel olarak yazılmaktadır. Bu, yayın hızını sınırlayan başlıca darboğazdır.
  • Sistem, otomatik test altyapısından yoksundur; regresyon kontrolü manuel yapılmaktadır.
  • Yayın sonrası içerik doğrulama (Kur’ân ayetlerinin doğru aktarılması vb.) bir uzman tarafından yapılması gereken bir adımdır ve mevcut pipeline bu adımı içermemektedir.

6.3. Etik Notlar

Proje, kamuya açık YouTube videolarından elde edilen kayıtları işlemektedir. Yayın hakları, ilgili dergâh çevresi ile uyumlu olarak yürütülmekte; içerikler kaynak videolara atıf ile birlikte yayınlanmaktadır. Otomatik üretilen soru-cevap içerikleri, halüsinasyon riski göz önünde bulundurularak insan editör onayı olmadan canlıya alınmamaktadır.

7. Sonuç ve Gelecek Çalışmalar

Bu çalışma, açık kaynak yapay zekâ araçlarının ve modern web teknolojilerinin bir araya getirilerek, dinî-tasavvufî sözlü mirasın yazılı arşive dönüştürülmesinin yalnızca büyük araştırma kurumlarının değil, bireysel bir araştırmacının da erişebileceği bir alan hâline geldiğini göstermiştir. 6 Mart 2026 ile 15 Mayıs 2026 arasındaki yaklaşık iki aylık (71 günlük, 1.704 takvim saatlik) bir geliştirme penceresinde, yaklaşık dokuz milyon iki yüz bin kelime hacminde transkript metni üretilmiş ve sitenin canlı arşivinde 3.543 yayın postu ile 403 yayın sayfası (toplam 3.946 yayın birimi) erişilebilir hâle getirilmiştir.

Gelecek çalışmalar açısından üç yön öne çıkmaktadır. Birincisi, hâlihazırda medium varyantı kullanılan Whisper modelinin large-v3 sürümüne yükseltilmesi ve tasavvufî terminoloji üzerinde ince ayar yapılmasıdır; bu, ham transkripsiyon kalitesini artırarak Claude API üzerindeki düzeltme yükünü hafifletecektir. İkincisi, spec dosyalarının üretiminin kısmen otomatize edilmesidir. Üçüncüsü ise üretilen Q&A koleksiyonu üzerine inşa edilecek bir tematik arama arabirimidir; bu, son kullanıcının yedi yıllık bir arşivi konu bazında taramasını mümkün kılacaktır.

Sonuç olarak mustafaozbag.com projesi, dijital beşerî bilimler ve dinî-tasavvufî dijital arşivleme alanında, küçük ölçekli ama derinlikli bir uygulama örneği olarak literatüre katkı sunmayı hedeflemektedir.

8. Geleceğe Yönelik Projeksiyon: Arama Motorları ve Yapay Zekâ Sistemleri Üzerindeki Etki

Bu son bölüm, projenin yapısal etkisinin önümüzdeki on yıl boyunca arama motorları ve yapay zekâ tabanlı bilgi erişim sistemleri üzerindeki olası seyrini, mevcut SEO ve büyük dil modeli (LLM) eğitim eğilimleri ışığında zaman aralıklı bir projeksiyonla sunmaktadır. Aşağıdaki öngörüler bağlayıcı tahminler değil; mevcut teknik bağlamdan hareketle kurgulanmış, koşullara bağlı senaryolardır.

8.1. Kısa Vade (6–12 Ay): Birincil İndeksleme ve İlk SEO Yerleşimi

İlk altı ila on iki ay zarfında Google ve Bing’in 3.946 yayın biriminin tamamını tarayıp dizinine alması beklenmektedir. Rank Math eklentisi tarafından her bir post için ayarlanan odak anahtar kelime, başlık etiketi ve meta açıklama, sıralama algoritmalarında etkisini göstermeye başlayacak; Türkçe tasavvuf terminolojisini içeren spesifik aramalarda (“Karabaş-ı Velî sohbet”, “Mesnevî 2180 şerh”, “Afgânî Abduh mason” gibi) ilk sayfada görünürlük elde edilmesi muhtemeldir.

Yapay zekâ tarafında Perplexity, You.com ve ChatGPT-search gibi retrieval-augmented sistemler, içeriği canlı web aramalarında kaynak olarak kullanmaya başlayacaktır. Anthropic Claude, OpenAI GPT ve Google Gemini’nin 2026 yaz–güz aralığında alacağı yeni web crawl’lar bu içeriği büyük olasılıkla yakalayacak; bir sonraki büyük model sürümünde eğitim verisinin bir parçası hâline gelmesi mümkündür. Türkiye cephesinde ise Yandex’in ve yerel yapay zekâ servislerinin (BTK destekli Türkçe dil modeli girişimleri) içeriği indekslemeye başlaması beklenmektedir.

8.2. Orta Vade (1–2 Yıl): Otorite Kazanımı ve LLM Eğitim Verisine Yerleşme

Bir ila iki yıl içinde sitenin alan otoritesinin (Domain Authority) belirgin biçimde artması, Google’ın E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) puanlamasında yükselmesi öngörülmektedir. Türkçe tasavvufî arama sorgularının önemli bir bölümünde site ilk üç sırada görünmeye başlayacak; Featured Snippet ve People Also Ask kutularında alıntılanma sıklığı artacaktır. Bu, Türkçe dijital tasavvuf alanında sitenin fiilî olarak başvuru kaynağına dönüşmesi anlamına gelir.

Büyük dil modeli ekosisteminde ise daha kalıcı bir değişiklik beklenmektedir. Claude 5, GPT-5, Gemini 3 ve Llama 5 ailesi gibi yeni nesil modellerin ön-eğitim (pre-training) veri kümelerine sitenin önemli bir bölümü doğrudan dâhil olacaktır. Bu sayede söz konusu modeller; “Karabaş-ı Velî kimdir”, “Cemâleddîn Afgânî ile masonluk ilişkisi nedir”, “Mesnevî’nin 2180. beyti nasıl yorumlanır” tarzındaki sorulara, ham bilgi yerine projenin akademik tashîhinden geçmiş içeriğe dayanarak yanıt vermeye başlayacaktır.

8.3. Uzun Vade (3–5 Yıl): Kanonik Referans ve Akademik Entegrasyon

Üç ila beş yıllık ufukta, mustafaozbag.com’un Türkçe-İslâmî dijital içerik ekosisteminde kanonik bir referans konumuna oturması olasıdır. Bu süreçte beklenen gelişmeler şunlardır: (i) Vikipedi’nin hem Türkçe hem İngilizce Karabaş-ı Velî, Halvetiyye, Şabaniyye gibi maddelerinde dış kaynak olarak listelenmesi; (ii) Türkiye’de tasavvuf ve İslâmî ilimler alanında yazılan yüksek lisans ve doktora tezlerinde dijital kaynak olarak atıf alması; (iii) uluslararası alanda Sufism Studies dergileri ve Brill, Routledge gibi yayınevlerinin İslâmî mistisizm üzerine kitap projelerinde birincil dijital kaynak olarak değerlendirilmesi.

Yapay zekâ tarafında projenin etkisi metinsel bilgi sınırlarını aşar. Tasavvufî terminolojinin doğru transliterasyonu, isim-eser künyelerinin standartlaştırılması, hadîs ve âyet referanslarının doğrulanması gibi noktalarda LLM’lerin “ground truth” olarak başvurduğu kaynak konumuna gelmesi muhtemeldir. Projenin ürettiği transliterasyon standardı (örneğin “Abdülkâdir Geylânî” yazımının “Abdulkadir Gilani”ye baskın çıkması), uluslararası Türkçe-İslâmî LLM çıktılarında fiilî bir norma dönüşebilir.

8.4. Uzun Erimli (5–10 Yıl): Kalıcı Dijital Miras ve Metodolojik Etki

Beş ila on yıllık ufukta proje, dinî-tasavvufî bir dijital mirasın kalıcı arşivi olarak konumlanır. Yedi yıllık bir sözlü külliyat, bütünlüğü korunmuş, aranabilir, alıntılanabilir bir yazılı arşiv olarak yeni nesil araştırmacıların hizmetinde kalır. Tarihçiler, ilahiyat doktora öğrencileri, çağdaş tarikat üyeleri ve genel okuyucu için birinci elden bir kaynak işlevini sürdürür.

Metodolojik açıdan ise projenin çerçevesi (kategorik transkripsiyon → çift katmanlı hata düzeltme → kaynakça-referans tespiti → kategorik soru-cevap çıkarımı → idempotent yayın), benzer dijitalleştirme çalışmaları için bir başvuru deseni hâline gelebilir. Türkiye’de Diyanet İşleri Başkanlığı, vakıflar ve İSAM gibi kurumların kendi sözlü arşivlerini dijitalleştirme projelerinde benzer pipeline yapılarını benimsemesi muhtemeldir. Dünya genelinde ise Arapça, Farsça ve Urduca sözlü tasavvuf külliyatları için aynı metodolojinin uyarlanması, “dijital tasavvuf arşivciliği” diye adlandırılabilecek bir alt-alanın doğmasına katkı sunabilir.

8.5. Risk ve Karşı Senaryolar

Yukarıda çizilen olumlu projeksiyonun yanı sıra dikkat edilmesi gereken bazı yapısal riskler bulunmaktadır. Birincisi, Google’ın AI Overview (SGE) ve benzer özet yanıt katmanlarının, kullanıcıyı kaynak siteye yönlendirmeden cevabı doğrudan üretebilmesi nedeniyle organik trafikte düşüşe yol açma ihtimalidir. İkincisi, LLM’lerin halüsinasyon eğilimi nedeniyle bazı içeriklerin yanlış atfa konu olması; bu, projeden bağımsız bir LLM özelliği olmakla birlikte, kaynak içeriğin yapısal bütünlüğünün korunmasını daha da önemli kılmaktadır. Üçüncüsü, dijital telif ve yayın hakkı meselesinin, kanal sahibi ve dergâh çevresi ile düzenli iletişim çerçevesinde sürdürülmesi gereken bir konu olmasıdır.

Bu projeksiyon, projenin önümüzdeki on yıl içinde arama motorları ve yapay zekâ ekosisteminde kademeli ve kalıcı bir yer edinebileceğini ortaya koymaktadır. Bu kalıcılığın temel garantörü ise üç unsurun korunmasıdır: (i) yapısal ve açık veri formatı (HTML + Gutenberg + JSON-LD), (ii) tutarlı bir yayın disiplini, ve (iii) düzenli güncelleme ve revizyon mekanizmasıdır.