Salı, 9 Haziran 2026
YOLUMUZ NÜBÜVVET YOLUDUR
Mustafa Özbağ
İrşad & Tasavvuf · Resmî Site
Genel ·

Sözlü Tasavvuf Külliyatının Hesaplamalı Edisyonu — Teknik Proje Raporu

YouTube sohbet arşivinden Whisper, LLM destekli akademik edisyon, matematiksel kalite modeli, flowchartlar, matrisler, animasyonlu grafikler ve WordPress yayın otomasyonu ile bilimsel dijital tasavvuf külliyatı üretimi.

Mustafa Özbağ Efendi - Tasavvuf Sohbetleri ve İslami İlimler

Teknik beyaz kitap / Dijital tasavvuf arşivciliği

3.012transkript dosyası
9.20Myaklaşık kelime hacmi
1.023htahmini ham konuşma süresi
3.946yayın birimi: post + sayfa
Raw SignalYouTube ses akışı, seri metadatası ve tarihsel bağlam birlikte alınır.
Speech MatrixWhisper çıktısı kelime, cümle, paragraf ve zaman ekseninde ayrıştırılır.
Semantic RepairLLM katmanı imla, terim, kaynak ve bağlam tutarlılığını yeniden dengeler.
Knowledge GraphŞahıs, eser, âyet, hadis, kavram ve soru düğümleri ilişkilendirilir.
Public CorpusWordPress, JSON-LD, site haritası ve SEO katmanı ile yayınlanır.

Özet

Bu rapor, Mustafa Özbağ Efendi sohbet arşivinin yalnızca metne çevrilmesini değil; ses, metin, kaynakça, soru-cevap, taksonomi, SEO ve yapısal veri katmanlarının birlikte çalıştığı hesaplamalı bir edisyon sistemine dönüştürülmesini belgelendirir. Proje, 6 Mart 2026 ile 15 Mayıs 2026 arasındaki 70 günlük geliştirme penceresinde; Whisper tabanlı otomatik konuşma tanıma, LLM destekli akademik tashih, kural tabanlı denetim ve WordPress REST API otomasyonu ile yaklaşık 9.2 milyon kelimelik sözlü külliyatı dijital yayına taşımıştır.

Teknik Katkı

Çalışmanın özgün tarafı, klasik transkripsiyon işini bir veri mühendisliği problemine çevirmesidir. Her sohbet bir ham medya nesnesi olarak alınmış; metinleştirme, semantik onarım, referans çözümleme, kategori eşleme, yayınlama, indekslenebilirlik ve kalite güvence adımları tek bir tekrarlanabilir işlem zincirine bağlanmıştır. Böylece sözlü tasavvuf mirası, modern dijital beşerî bilimler ölçeğinde işlenebilir bir korpusa dönüşmüştür.

ASR Whisper LLM Edisyonu Dijital Beşerî Bilimler WordPress REST API Tasavvuf Korpusu Yapısal Veri

1. Problem Tanımı: Video Arşivinden Bilgi Sistemine

Sözlü gelenek, özellikle tasavvuf sohbetleri söz konusu olduğunda, anlamı çoğu zaman sesin ritminde, bağlamın sürekliliğinde ve kavramların birbirine açtığı halkalarda taşır. YouTube gibi platformlar bu kayıtların yayılmasını kolaylaştırır; fakat arşiv mantığı açısından üç kritik boşluk üretir: aranabilirlik sınırlıdır, akademik atıf zordur ve kavramsal ilişkiler makine tarafından doğrudan okunamaz.

Bu proje, söz konusu boşluğu teknik bir yayına hazırlama hattı ile kapatır. Amaç yalnızca konuşmayı yazıya dökmek değildir. Amaç; konuşmayı zaman, kaynak, kavram, soru, kategori ve yayın nesnesi olarak yeniden modellemektir. Böylece bir sohbet, tekil bir video kaydı olmaktan çıkar; sorgulanabilir, bağlantılanabilir ve doğrulanabilir bir dijital bilgi varlığına dönüşür.

Temel hipotez: Dinî-tasavvufî sözlü miras, doğru kalite denetimleriyle birlikte ASR + LLM + CMS otomasyonu üzerinden işlenirse, klasik manuel transkripsiyonun yıllara yayılan maliyeti haftalar düzeyine indirilebilir; buna rağmen metin, akademik edisyon ilkelerine yaklaştırılabilir.

2. Matematiksel Model: Külliyatı Dönüşüm Fonksiyonu Olarak Okumak

Projenin teknik çekirdeği, her bir video kaydını bir dönüşüm zincirinin girdisi olarak ele alır. Korpus şu şekilde tanımlanabilir:

C = {v_i | i = 1, 2, …, n}, v_i = (audio_i, meta_i, category_i, source_url_i)

Her video kaydı önce otomatik konuşma tanıma fonksiyonuna girer. Ardından akademik edisyon, kaynak çözümleme ve yayın işlemleri uygulanır:

P(E(R(A(v_i)))) = u_i
Sembol İşlem Çıktı
A(v_i) Whisper ile otomatik konuşma tanıma Ham transkript t_i
R(t_i) Referans, şahıs, eser, âyet ve hadis adaylarının çıkarımı Anotasyonlu transkript r_i
E(r_i) LLM destekli akademik edisyon, imla ve bağlam düzeltmesi Yayın metni d_i
P(d_i) WordPress post/sayfa üretimi, kategori ve SEO entegrasyonu Kalıcı URL u_i

2.1. Kalite Vektörü

Her yayın birimi için kalite yalnızca yazım doğruluğundan ibaret değildir. Teknik ve akademik değerlendirme çok boyutlu yapılmalıdır:

q_i = (1 – WER_i, 1 – TER_i, REF_i, SEO_i, TRACE_i)

Burada WER kelime hata oranını, TER terminoloji hata oranını, REF kaynak doğruluk skorunu, SEO indekslenebilirlik skorunu, TRACE ise ham kayıttan canlı URL’ye kadar izlenebilirlik skorunu temsil eder.

2.2. Bileşik Akademik Yayın Skoru

Q_i = 0.30(1 – WER_i) + 0.25(1 – TER_i) + 0.20REF_i + 0.15TRACE_i + 0.10SEO_i

Bu formül bir laboratuvar ölçümü değil, projenin kalite güvence yönünü sayısallaştırmak için önerilen operasyonel bir modeldir. Dinî-tasavvufî metinlerde terminoloji ve referans doğruluğu, sıradan haber metinlerine göre daha yüksek ağırlık taşıdığı için TER ve REF katsayıları bilinçli olarak yüksek tutulmuştur.

3. Flowchart ve Teknik Diyagramlar

Bu bölüm, raporun teorik kısmını görsel mühendislik notasyonuna taşır. Amaç, projenin yalnızca metinsel olarak değil; veri akışı, karar noktası, hata dönüşü, durum makinesi ve yayın katmanı bakımından da okunabilmesini sağlamaktır. Diyagramlar SVG tabanlıdır; dış kütüphane gerektirmez ve tarayıcıda animasyonlu olarak çalışır.

Şekil 1. Uçtan Uca Sinyal Akış Diyagramı audio -> transcript -> edition -> publication -> index
YouTube Arşivi audio_i + metadata_i ASR Katmanı Whisper medium Edisyon LLM + domain lexicon Referans Çözümleme ayet, hadis, eser WordPress Yayını post + page + schema Ham Transkript t_i Yayın Metni d_i Anotasyon r_i + refs Aranabilir Korpus u_i + JSON-LD
Şekil 2. Hata Dönüşlü Yayın Durum Makinesi draft -> review -> publish -> monitor -> revise
Draft transcript_raw Review semantic diff Publish REST commit Index schema + sitemap Audit live checks hata, kaynak belirsizliği veya anlam kayması tespit edilirse revizyon döngüsü başlar
Şekil 3. Yayın Hattı Sankey Temsili hacim: ses -> metin -> yayın -> soru-cevap
Ham Arşiv 1,023 saat 3,012 dosya Transkript 9.2M kelime 65.9M karakter Edisyon kaynakça terim onarımı Yayın 3,946 birim 20k+ Q/A

4. Sistem Mimarisi: Altı Katmanlı Yayın Hattı

Sistem, birbirinden bağımsız fakat ardışık çalışan altı ana katmandan oluşur. Bu mimari, aynı kaydın tekrar işlenebilmesine, hata sonrası geri dönüşe ve yeni modellerin pipeline içine eklenmesine imkân verir.

01 / Ingest YouTube kaydı, başlık, seri bilgisi, tarih, kategori ve kaynak URL eşleştirilir.
02 / ASR Whisper medium ile konuşma metne çevrilir; ham çıktı dosya tabanlı saklanır.
03 / Normalize İmla, paragraf, özel ad, dua kalıbı ve terim düzeltmeleri uygulanır.
04 / Annotate Âyet, hadis, şahıs, eser, kavram ve soru adayları işaretlenir.
05 / Publish WordPress REST API ile post, sayfa, kategori, slug ve meta alanları üretilir.
06 / Index Rank Math, JSON-LD, site haritası ve iç bağlantı yapısı ile keşfedilebilirlik artırılır.

3.1. Algoritmik Akış

for video in youtube_archive:
    audio, metadata = acquire(video)
    transcript_raw = whisper.transcribe(audio, model="medium")
    transcript_clean = normalize(transcript_raw, domain_lexicon="tasavvuf")
    edition = llm_academic_edit(
        transcript_clean,
        preserve_content=True,
        add_references=True,
        detect_questions=True
    )
    qa_items = extract_questions(edition)
    post = wordpress.publish(
        title=metadata.title,
        body=edition.html,
        category=metadata.series,
        source_url=metadata.url,
        seo_focus_keyword=metadata.focus_keyword
    )
    verify(post.url, checks=["html", "schema", "indexability", "references"])

3.2. Veri Modeli

Varlık Alanlar İşlev
Video URL, süre, başlık, seri, tarih Ham sözlü veri kaynağı
Transkript Ham metin, model bilgisi, işlem zamanı ASR çıktısının denetlenebilir kaydı
Edisyon HTML, başlıklar, kaynakça, kavramlar Akademik yayına hazır metin
Soru-Cevap Soru, cevap, kaynak sohbet, kategori Tematik arama ve öğrenme katmanı
Yayın Post ID, slug, kategori, meta açıklama Canlı web ve arama motoru nesnesi

5. Bulgular: Ölçek, Yoğunluk ve Verimlilik

Projenin sayısal çıktıları, çalışmanın basit bir içerik aktarımı değil; yüksek hacimli bir dijital arşiv mühendisliği faaliyeti olduğunu göstermektedir.

43.0 gün başına ortalama transkript dosyası: 3.012 / 70
56.4 gün başına ortalama yayın birimi: 3.946 / 70
150 tahmini konuşma yoğunluğu: kelime / dakika
8,996 yaklaşık kelime / ses saati
2,786 gün başına yaklaşık kod satırı: 195k / 70
20k+ türetilmiş soru-cevap çifti
Kategori Değer Yorum
Geliştirme penceresi 70 gün / 1.680 takvim saati Kısa sürede yüksek yoğunluklu üretim
Ham metin hacmi Yaklaşık 68 MB / 65.9 milyon karakter Klasik makale ölçeğinin çok üzerinde korpus büyüklüğü
Kelime hacmi Yaklaşık 9,202,894 kelime Birden fazla doktora tezi hacminde metinsel veri
Canlı yayın 3,543 post + 403 sayfa Aranabilir ve bağlantılanabilir yayın yüzeyi
Kod üretimi Yaklaşık 195,000 satır Script, manifesto, JSON spec ve WordPress eklenti katmanı
Yayın Yoğunluğu = 3,946 yayın / 70 gün = 56.37 yayın/gün
Konuşma Yoğunluğu = 9,202,894 kelime / (1,023 saat x 60) = 149.93 kelime/dakika

6. Matrisler: Kalite, Risk ve Model Seçimi

Bu bölüm, projenin akademik ve teknik kararlarını matris diliyle görünür kılar. Matris yaklaşımı, özellikle çok katmanlı dijital arşiv projelerinde önemlidir; çünkü tek bir başarı ölçütü yeterli değildir. Transkripsiyon doğruluğu, terminoloji hassasiyeti, kaynak güvenilirliği, yayın bütünlüğü, maliyet, hız ve sürdürülebilirlik aynı anda değerlendirilmelidir.

6.1. Kalite Güvence Matrisi

Katman
Ölçüm
Risk
Kontrol
ASR

Kelime ve karakter hata oranı, örneklem bazlı dinleme kontrolü.

WER / CER

Özellikle özel isim ve Arapça-Farsça terkiplerde ayrı ölçülür.

Terim kayması

Modelin gündelik Türkçe tahmini, tasavvufî terimi bozabilir.

Domain lexicon

Mesnevî, seyr u sülûk, vird, zikir, silsile gibi sözlükle kontrol.

LLM Edisyonu

Bağlam, paragraf, imla ve akademik ton iyileştirmesi.

Semantic diff

Ham transkript ile edisyon arasında anlam kayması aranır.

Özetleme riski

LLM metni kısaltabilir veya söylemi akademikleştirirken üslubu silebilir.

Preserve-content kuralı

Hiçbir bölümün silinmemesi, yalnızca onarılması şart koşulur.

Referans

Âyet, hadis, eser ve şahıs atıfları ayrıştırılır.

CVA

Citation validation accuracy: kaynak eşleşme doğruluğu.

Yanlış isnat

Dinî metinlerde en kritik hata sınıfıdır.

İnsan onayı

Yüksek riskli kaynaklar uzman kontrol kuyruğuna alınır.

Yayın

WordPress, slug, kategori, iç bağlantı ve schema.

Indexability

Robots, canonical, sitemap, JSON-LD ve HTTP durumu kontrol edilir.

Teknik bozulma

HTML kırılması, yanlış kategori veya meta eksikliği.

Canlı doğrulama

Yayın sonrası URL, schema ve içerik bütünlüğü yeniden okunur.

6.2. Model Seçim Matrisi

Görev Yerel Model API Modeli Karar Mantığı
Ham transkripsiyon Whisper medium / large-v3 adayı Gerekli değil Ses hacmi yüksek olduğu için yerel ve tekrarlanabilir ASR daha ekonomiktir.
Akademik edisyon Qwen 3 8B ön kontrol Claude benzeri güçlü LLM Anlam sadakati ve kaynak çözümleme yüksek muhakeme gerektirir.
Soru-cevap çıkarımı Qwen 3 8B Örneklem doğrulamada API Yüksek hacimli üretimde maliyet/verim dengesi yerel model lehinedir.
Referans doğrulama Kural tabanlı aday çıkarımı LLM + insan editör Yanlış kaynak atfı yüksek riskli olduğu için hibrit kontrol gerekir.

6.3. Karar Matrisi: Hız, Kalite, Maliyet, İzlenebilirlik

Yaklaşım Hız Kalite Maliyet İzlenebilirlik Sonuç
Manuel transkripsiyon Düşük Yüksek Çok yüksek Orta Akademik kalite güçlü, ölçeklenebilirlik zayıf.
Sadece ASR Çok yüksek Düşük-Orta Düşük Yüksek Hızlı ama dinî terminolojide yayın riski taşır.
ASR + LLM edisyonu Yüksek Yüksek Orta Yüksek Bu proje için en dengeli üretim modeli.
ASR + LLM + insan onayı Orta Çok yüksek Orta-Yüksek Çok yüksek Kaynakça ve kritik dinî atıflar için ideal nihai model.

6.4. Matematiksel Önceliklendirme

Bir kaydın önce işlenip işlenmeyeceği, yalnızca tarih sırasına göre değil; içerik değeri, arama potansiyeli, kaynak zenginliği ve teknik risk bileşimiyle de hesaplanabilir.

Öncelik Skoru

Kayıtların yayın sırasını belirlemek için önerilen ağırlıklı skor.

Priority_i = .35 Search_i + .25 Source_i + .20 Series_i + .20 Demand_i
Revizyon Riski

Bir metnin tekrar gözden geçirilme ihtimalini hesaplayan risk fonksiyonu.

Risk_i = .40 Term_i + .30 Ref_i + .20 Noise_i + .10 Length_i
Yayın Hazırlık Skoru

Canlıya çıkış öncesi minimum kalite eşiği.

Ready_i = Q_i - Risk_i, publish if Ready_i >= theta
Korpus Kapsama Oranı

Toplam arşivin ne kadarının işlenip yayına alındığını izler.

Coverage = published_items / total_source_items

7. Bilimsel Doğrulama ve Kalite Güvencesi

Akademik niteliğin korunması için pipeline, yalnızca üretim yapmamalı; ürettiği her nesnenin izini de saklamalıdır. Bu nedenle önerilen doğrulama protokolü beş katmanlıdır.

Kontrol Ölçüt Amaç
ASR doğruluğu WER / CER örneklemesi Ham konuşma tanıma hatasını ölçmek
Terminoloji doğruluğu TER: tasavvufî kavram hata oranı İbnü’l-Arabî, Mesnevî, seyr u sülûk gibi terimlerde tutarlılık sağlamak
Kaynak doğruluğu CVA: citation validation accuracy Âyet, hadis ve eser atıflarını yanlış eşleşmeden korumak
Semantik sadakat Özetleme yasağı + anlam kayması kontrolü Sohbetin özgün içeriğini korumak
Yayın bütünlüğü HTML, slug, kategori, schema, iç bağlantı Metni hem insan hem makine için okunabilir kılmak

5.1. Teknik Sınırlılıklar

Whisper medium modeli Türkçe konuşma için yüksek fayda sağlasa da Arapça-Farsça terkiplere, özel isimlere ve hadis metinlerine gelindiğinde hata üretme riski devam eder. LLM destekli edisyon bu riski azaltır; fakat son otorite olarak insan editör ve alan uzmanı kontrolünün yerini tamamen alamaz.

5.2. Akademik Sınırlılıklar

Bu çalışma bir metodoloji ve proje raporudur; hakemli makale standardında nicel hata örneklemesi ayrıca yapılmalıdır. İleride rastgele seçilmiş temsilî bir örneklem üzerinde WER, TER ve referans doğruluğu hesaplanırsa rapor, dijital beşerî bilimler literatürüne daha güçlü bir ölçme-değerlendirme katkısı sunabilir.

8. Animasyonlu Simülasyon: Üretim Yoğunluğu ve İşlem Hattı

Aşağıdaki bölüm, raporu yalnızca okunur bir metin olmaktan çıkarıp küçük bir teknik gösterge paneline dönüştürür. Canvas grafiği, proje metriklerini tarayıcıda yeniden çizer; CSS animasyonlu sinyal kutuları ise ham sesten yayın nesnesine giden dönüşümü canlı bir akış olarak temsil eder. Bu bölüm özellikle sunum, proje vitrini veya teknik portfolyo sayfası olarak kullanılmak üzere tasarlanmıştır.

Şekil 4. Canlı Pipeline Telemetri Paneli animated operational dashboard
3.012 transkript dosyası: batch ingestion kapasitesi
9.2M kelime: korpus hacmi ve semantik indeks yüzeyi
3.946 yayın birimi: canlı web nesnesi

8.1. İşlem Hattı İçin Operasyonel Gözlem Noktaları

Gerçek bir üretim sisteminde her aşama için gözlem noktası tanımlanmalıdır. Bu sayede sistem yalnızca çalışmakla kalmaz; neden çalıştığı, nerede yavaşladığı ve hangi noktada hata ürettiği de ölçülebilir hâle gelir.

Telemetry Event Alanlar Alarm Koşulu Otomatik Yanıt
asr.completed video_id, duration, model, char_count Boş veya olağandışı kısa transkript Ses dosyasını yeniden indirme ve ASR tekrar kuyruğu
edition.diff_ready raw_hash, edited_hash, diff_ratio Diff oranı beklenenden yüksek İnsan editör kontrolü ve LLM prompt sıkılaştırma
reference.flagged entity, source_type, confidence Düşük güvenli hadis/âyet eşleşmesi Kaynak doğrulama kuyruğuna alma
wp.published post_id, slug, category, status HTTP 4xx/5xx veya canonical uyuşmazlığı REST retry, rollback veya taslağa çekme

8.2. Teknik Sunum İçin Kullanılabilecek İddia Cümlesi

Bu proje, klasik “video transkribe edildi” anlatısından daha güçlü bir teknik iddia taşır: kamuya açık sözlü bir tasavvuf arşivi, ses sinyalinden başlayarak çok katmanlı bir dijital bilgi sistemine dönüştürülmüştür. Bu sistemde her kayıt; bir transkript, bir akademik edisyon, bir kaynak haritası, bir soru-cevap üretim alanı, bir WordPress yayın nesnesi ve gelecekteki bir bilgi grafı düğümü olarak yeniden inşa edilir.

9. Gelecek Projeksiyonu: Arama, LLM ve Bilgi Grafı

Bu projenin uzun vadeli değeri, yalnızca mevcut içeriklerin yayına alınmasında değildir. Asıl değer, tasavvufî kavramların, sohbet serilerinin, şahısların, eserlerin ve soru-cevap çiftlerinin zaman içinde bir bilgi grafına dönüşebilmesidir.

Zaman Ufku Hedef Beklenen Etki
6-12 ay Tam indekslenme ve ilk organik görünürlük Uzun kuyruklu tasavvuf aramalarında kaynak olarak görünme
1-2 yıl Tematik otorite ve iç bağlantı yoğunluğu Google, Bing ve yapay zekâ arama sistemlerinde referans yüzeyi oluşması
3-5 yıl Akademik atıf ve kanonik dijital kaynak Tez, makale ve dijital kaynakça listelerinde kullanım
5-10 yıl Bilgi grafı, RAG ve kavramsal arama Sohbet arşivinin yalnızca okunması değil, sorgulanması

6.1. Önerilen Yeni Katmanlar

Bir sonraki teknik evre için üç geliştirme önerilir: TEI/XML veya JSON-LD tabanlı akademik metin işaretleme, vektör tabanlı semantik arama ve kavram-şahıs-eser ilişkilerini tutan bir bilgi grafı. Bu üç katman eklendiğinde sistem, klasik WordPress arşivinin ötesine geçerek araştırmacıların doğrudan soru sorabildiği bir dijital külliyat laboratuvarına dönüşebilir.

Risk 1: Kaynak Hatası

Âyet, hadis ve eser atıfları otomatik üretildiğinde yanlış eşleşme riski doğar. Çözüm: kaynak doğrulama kuyruğu ve uzman onayı.

Risk 2: Anlam Kayması

LLM düzeltmesi, metni güzelleştirirken özgün üslubu silebilir. Çözüm: özetleme yasağı, diff kontrolü ve örneklem denetimi.

Risk 3: Organik Trafik Kaybı

AI özet sistemleri kullanıcıyı kaynak siteye göndermeden cevap verebilir. Çözüm: güçlü schema, marka otoritesi ve birincil kaynak vurgusu.

10. Teknik Ekler: Şema, Payload ve Uygulama Protokolleri

Bu bölüm, raporu doğrudan uygulanabilir bir teknik belge hâline getirmek için eklenmiştir. Buradaki şablonlar, üretim ortamına birebir kopyalanacak nihai kod olarak değil; mimari niyeti, veri sözleşmesini ve kalite denetimini açıkça tanımlayan referans taslaklar olarak okunmalıdır.

10.1. WordPress REST Yayın Payload Şablonu

{
  "status": "publish",
  "title": "Sohbet Başlığı",
  "slug": "seri-adi-sohbet-basligi",
  "content": "<article>...akademik edisyon HTML...</article>",
  "excerpt": "Sohbetin bilimsel, kısa ve arama motoruna uygun özeti.",
  "categories": [SERIES_CATEGORY_ID],
  "tags": [TERM_TAG_ID, PERSON_TAG_ID, WORK_TAG_ID],
  "meta": {
    "source_youtube_url": "https://www.youtube.com/watch?v=...",
    "asr_model": "whisper-medium",
    "edition_model": "claude",
    "source_duration_seconds": 3600,
    "word_count": 8996,
    "quality_score": 0.91,
    "reference_review_status": "needs-human-sampling"
  }
}

10.2. JSON-LD Genişletme Şablonu

{
  "@context": "https://schema.org",
  "@type": "ScholarlyArticle",
  "headline": "Sohbet Başlığı",
  "inLanguage": "tr-TR",
  "isBasedOn": {
    "@type": "VideoObject",
    "name": "Kaynak YouTube Sohbeti",
    "url": "https://www.youtube.com/watch?v=..."
  },
  "about": [
    { "@type": "Thing", "name": "Tasavvuf" },
    { "@type": "Thing", "name": "Mesnevî" },
    { "@type": "Thing", "name": "Seyr u sülûk" }
  ],
  "mentions": [
    { "@type": "Person", "name": "Mevlânâ Celâleddîn-i Rûmî" },
    { "@type": "CreativeWork", "name": "Mesnevî-i Şerîf" }
  ],
  "encoding": {
    "@type": "MediaObject",
    "encodingFormat": "text/html",
    "contentSize": "variable"
  }
}

10.3. TEI/XML Akademik Edisyon Taslağı

Gelecekte metinlerin yalnızca WordPress içinde değil, akademik arşiv standartlarında da saklanması istenirse TEI/XML katmanı eklenebilir. Bu katman; konuşmacı, tarih, kaynak, bölüm, atıf ve kavram düzeyinde daha ince işaretleme sağlar.

<TEI xml:lang="tr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Sohbet Başlığı</title>
        <author>Mustafa Özbağ Efendi</author>
      </titleStmt>
      <sourceDesc>
        <bibl type="youtube">
          <ptr target="https://www.youtube.com/watch?v=..." />
        </bibl>
      </sourceDesc>
    </fileDesc>
  </teiHeader>
  <text>
    <body>
      <div type="sohbet" n="001">
        <p>Akademik edisyon metni...</p>
        <quote type="hadith" cert="medium">...</quote>
        <term type="tasavvuf">seyr u sülûk</term>
      </div>
    </body>
  </text>
</TEI>

10.4. Bilgi Grafı Şeması

Uzun vadede her sohbet, bir bilgi grafındaki düğüm ve kenarlara ayrılabilir. Bu yapı, semantik arama, RAG sistemleri, kavram haritaları ve akademik keşif arayüzleri için temel oluşturur.

Düğüm Tipi Örnek Kenarlar Kullanım
Person Mevlânâ, İbnü’l-Arabî, Karabaş-ı Velî mentions, interprets, cites Şahıs merkezli arama ve ilişki haritası
Work Mesnevî, Fütûhât, hadis mecmuaları cites, explains, compares Eser referanslarının standartlaştırılması
Concept zikir, vird, nefs, muhabbet defines, contrasts, expands Kavramlar arası semantik gezinme
Question Dinî-pratik soru, tasavvufî kavram sorusu answered_in, derived_from, belongs_to Soru-cevap koleksiyonu ve öğrenme arayüzü
Source YouTube URL, canlı post URL, arşiv dosyası source_of, version_of, published_as İzlenebilirlik ve akademik kaynak kontrolü

10.5. Vektör Arama ve RAG Mimarisi

chunk_size = 900 tokens
chunk_overlap = 120 tokens
embedding_target = edited_academic_text
metadata = {
  post_id,
  source_url,
  series,
  date,
  concepts,
  persons,
  works,
  reference_confidence
}

retrieval(query):
  q_vec = embed(query)
  candidates = vector_index.search(q_vec, top_k=24)
  reranked = cross_encoder.rerank(query, candidates)
  answer = llm.generate(
    query=query,
    context=reranked[0:8],
    cite_sources=True,
    refuse_if_context_insufficient=True
  )
  return answer

10.6. Yayın Öncesi Kontrol Listesi

Kontrol Maddesi Geçme Kriteri Başarısızlıkta Aksiyon
Başlık ve slug Seri, konu ve tarih ile uyumlu Slug yeniden üret, canonical kontrol et
Metin bütünlüğü Ham transkripte göre eksik bölüm yok Diff çıkar, LLM edisyonunu yeniden sınırlandır
Kaynakça Âyet/hadis/eser atıfları güven skoru ile işaretli Uzman kontrol kuyruğuna taşı
SEO Başlık, açıklama, odak kelime, iç bağlantı var Rank Math alanlarını yeniden yaz
Schema JSON-LD parse edilebilir ve konu ile uyumlu Schema bloklarını yeniden üret
Canlı URL HTTP 200, doğru canonical, görünür içerik REST rollback veya taslağa alma

10.7. Akademik Yayına Uygunluk İlkeleri

Bu proje için en önemli teknik disiplin, hız ile sadakat arasındaki dengeyi korumaktır. Bir metin hızlı üretilebilir; fakat dinî-tasavvufî bağlamda yanlış bir kelime, yanlış bir kaynak veya yanlış bir nispet, sıradan teknik hatadan daha ağır sonuç doğurur. Bu nedenle sistemin nihai hedefi yalnızca çok sayıda sayfa üretmek değil; her sayfayı izlenebilir, revize edilebilir ve kaynak denetimine açık tutmaktır.

Bu ilke üç cümlede özetlenebilir: Ham kayıt korunur. Edisyon farkı izlenir. Yayın sonrası doğrulama kapatılmaz, sürekli bir bakım katmanı olarak açık tutulur.

Sonuç

Mustafa Özbağ Efendi sohbet arşivi üzerine kurulan bu sistem, dinî-tasavvufî sözlü mirasın çağdaş yapay zekâ ve web otomasyonu ile nasıl bilimsel bir dijital külliyata dönüştürülebileceğini göstermektedir. Projenin ayırt edici yönü, transkripsiyonu son hedef değil ilk katman olarak görmesidir. Asıl hedef; ses kaydından akademik metne, akademik metinden yapısal veriye, yapısal veriden semantik aramaya ilerleyen sürdürülebilir bir bilgi mimarisi kurmaktır.

Bu nedenle çalışma, yalnızca bir web sitesi içerik üretim raporu olarak değil; Türkçe dijital beşerî bilimler, tasavvuf arşivciliği ve LLM destekli akademik edisyon alanları için uygulanabilir bir metodoloji önerisi olarak okunmalıdır.