Sözlü Tasavvuf Külliyatının Hesaplamalı Edisyonu — Teknik Proje Raporu

Table of Contents

Özet

Bu rapor, Mustafa Özbağ Efendi sohbet arşivinin yalnızca metne çevrilmesini değil; ses, metin, kaynakça, soru-cevap, taksonomi, SEO ve yapısal veri katmanlarının birlikte çalıştığı hesaplamalı bir edisyon sistemine dönüştürülmesini belgelendirir. Proje, 6 Mart 2026 ile 15 Mayıs 2026 arasındaki 70 günlük geliştirme penceresinde; Whisper tabanlı otomatik konuşma tanıma, LLM destekli akademik tashih, kural tabanlı denetim ve WordPress REST API otomasyonu ile yaklaşık 9.2 milyon kelimelik sözlü külliyatı dijital yayına taşımıştır.

Teknik Katkı

Çalışmanın özgün tarafı, klasik transkripsiyon işini bir veri mühendisliği problemine çevirmesidir. Her sohbet bir ham medya nesnesi olarak alınmış; metinleştirme, semantik onarım, referans çözümleme, kategori eşleme, yayınlama, indekslenebilirlik ve kalite güvence adımları tek bir tekrarlanabilir işlem zincirine bağlanmıştır. Böylece sözlü tasavvuf mirası, modern dijital beşerî bilimler ölçeğinde işlenebilir bir korpusa dönüşmüştür.

1. Problem Tanımı
Video merkezli arşivlerin bilgi erişim sınırları
2. Matematiksel Model
Korpus, dönüşüm ve kalite fonksiyonları
3. Flowchart ve Diyagramlar
Sinyal hattı, karar akışı ve durum makinesi
4. Sistem Mimarisi
ASR, LLM, WordPress ve SEO katmanları
5. Bulgular
Sayısal çıktı ve verimlilik oranları
6. Matrisler
Kalite, risk, model ve doğrulama matrisleri
7. Bilimsel Doğrulama
Hata ölçümü, kaynak kontrolü ve izlenebilirlik
8. Animasyonlu Simülasyon
Üretim yoğunluğu ve işlem hattı davranışı
9. Gelecek Projeksiyonu
Arama motorları, LLM’ler ve kalıcı dijital miras
10. Teknik Ekler
REST, JSON-LD, TEI/XML, bilgi grafı ve kontrol listeleri

ASR Whisper LLM Edisyonu Dijital Beşerî Bilimler WordPress REST API Tasavvuf Korpusu Yapısal Veri

1. Problem Tanımı: Video Arşivinden Bilgi Sistemine

Sözlü gelenek, özellikle tasavvuf sohbetleri söz konusu olduğunda, anlamı çoğu zaman sesin ritminde, bağlamın sürekliliğinde ve kavramların birbirine açtığı halkalarda taşır. YouTube gibi platformlar bu kayıtların yayılmasını kolaylaştırır; fakat arşiv mantığı açısından üç kritik boşluk üretir: aranabilirlik sınırlıdır, akademik atıf zordur ve kavramsal ilişkiler makine tarafından doğrudan okunamaz.

Bu proje, söz konusu boşluğu teknik bir yayına hazırlama hattı ile kapatır. Amaç yalnızca konuşmayı yazıya dökmek değildir. Amaç; konuşmayı zaman, kaynak, kavram, soru, kategori ve yayın nesnesi olarak yeniden modellemektir. Böylece bir sohbet, tekil bir video kaydı olmaktan çıkar; sorgulanabilir, bağlantılanabilir ve doğrulanabilir bir dijital bilgi varlığına dönüşür.

Temel hipotez: Dinî-tasavvufî sözlü miras, doğru kalite denetimleriyle birlikte ASR + LLM + CMS otomasyonu üzerinden işlenirse, klasik manuel transkripsiyonun yıllara yayılan maliyeti haftalar düzeyine indirilebilir; buna rağmen metin, akademik edisyon ilkelerine yaklaştırılabilir.

2. Matematiksel Model: Külliyatı Dönüşüm Fonksiyonu Olarak Okumak

Projenin teknik çekirdeği, her bir video kaydını bir dönüşüm zincirinin girdisi olarak ele alır. Korpus şu şekilde tanımlanabilir:

C = {v_i | i = 1, 2, …, n}, v_i = (audio_i, meta_i, category_i, source_url_i)

Her video kaydı önce otomatik konuşma tanıma fonksiyonuna girer. Ardından akademik edisyon, kaynak çözümleme ve yayın işlemleri uygulanır:

P(E(R(A(v_i)))) = u_i

Sembol	İşlem	Çıktı
`A(v_i)`	Whisper ile otomatik konuşma tanıma	Ham transkript `t_i`
`R(t_i)`	Referans, şahıs, eser, âyet ve hadis adaylarının çıkarımı	Anotasyonlu transkript `r_i`
`E(r_i)`	LLM destekli akademik edisyon, imla ve bağlam düzeltmesi	Yayın metni `d_i`
`P(d_i)`	WordPress post/sayfa üretimi, kategori ve SEO entegrasyonu	Kalıcı URL `u_i`

2.1. Kalite Vektörü

Her yayın birimi için kalite yalnızca yazım doğruluğundan ibaret değildir. Teknik ve akademik değerlendirme çok boyutlu yapılmalıdır:

q_i = (1 – WER_i, 1 – TER_i, REF_i, SEO_i, TRACE_i)

Burada WER kelime hata oranını, TER terminoloji hata oranını, REF kaynak doğruluk skorunu, SEO indekslenebilirlik skorunu, TRACE ise ham kayıttan canlı URL’ye kadar izlenebilirlik skorunu temsil eder.

2.2. Bileşik Akademik Yayın Skoru

Q_i = 0.30(1 – WER_i) + 0.25(1 – TER_i) + 0.20REF_i + 0.15TRACE_i + 0.10SEO_i

Bu formül bir laboratuvar ölçümü değil, projenin kalite güvence yönünü sayısallaştırmak için önerilen operasyonel bir modeldir. Dinî-tasavvufî metinlerde terminoloji ve referans doğruluğu, sıradan haber metinlerine göre daha yüksek ağırlık taşıdığı için TER ve REF katsayıları bilinçli olarak yüksek tutulmuştur.

3. Flowchart ve Teknik Diyagramlar

Bu bölüm, raporun teorik kısmını görsel mühendislik notasyonuna taşır. Amaç, projenin yalnızca metinsel olarak değil; veri akışı, karar noktası, hata dönüşü, durum makinesi ve yayın katmanı bakımından da okunabilmesini sağlamaktır. Diyagramlar SVG tabanlıdır; dış kütüphane gerektirmez ve tarayıcıda animasyonlu olarak çalışır.

Şekil 1. Uçtan Uca Sinyal Akış Diyagramı audio -> transcript -> edition -> publication -> index

Şekil 2. Hata Dönüşlü Yayın Durum Makinesi draft -> review -> publish -> monitor -> revise

Şekil 3. Yayın Hattı Sankey Temsili hacim: ses -> metin -> yayın -> soru-cevap

4. Sistem Mimarisi: Altı Katmanlı Yayın Hattı

Sistem, birbirinden bağımsız fakat ardışık çalışan altı ana katmandan oluşur. Bu mimari, aynı kaydın tekrar işlenebilmesine, hata sonrası geri dönüşe ve yeni modellerin pipeline içine eklenmesine imkân verir.

01 / Ingest YouTube kaydı, başlık, seri bilgisi, tarih, kategori ve kaynak URL eşleştirilir.

02 / ASR Whisper medium ile konuşma metne çevrilir; ham çıktı dosya tabanlı saklanır.

03 / Normalize İmla, paragraf, özel ad, dua kalıbı ve terim düzeltmeleri uygulanır.

04 / Annotate Âyet, hadis, şahıs, eser, kavram ve soru adayları işaretlenir.

05 / Publish WordPress REST API ile post, sayfa, kategori, slug ve meta alanları üretilir.

06 / Index Rank Math, JSON-LD, site haritası ve iç bağlantı yapısı ile keşfedilebilirlik artırılır.

3.1. Algoritmik Akış

for video in youtube_archive:
    audio, metadata = acquire(video)
    transcript_raw = whisper.transcribe(audio, model="medium")
    transcript_clean = normalize(transcript_raw, domain_lexicon="tasavvuf")
    edition = llm_academic_edit(
        transcript_clean,
        preserve_content=True,
        add_references=True,
        detect_questions=True
    )
    qa_items = extract_questions(edition)
    post = wordpress.publish(
        title=metadata.title,
        body=edition.html,
        category=metadata.series,
        source_url=metadata.url,
        seo_focus_keyword=metadata.focus_keyword
    )
    verify(post.url, checks=["html", "schema", "indexability", "references"])

3.2. Veri Modeli

Varlık	Alanlar	İşlev
Video	URL, süre, başlık, seri, tarih	Ham sözlü veri kaynağı
Transkript	Ham metin, model bilgisi, işlem zamanı	ASR çıktısının denetlenebilir kaydı
Edisyon	HTML, başlıklar, kaynakça, kavramlar	Akademik yayına hazır metin
Soru-Cevap	Soru, cevap, kaynak sohbet, kategori	Tematik arama ve öğrenme katmanı
Yayın	Post ID, slug, kategori, meta açıklama	Canlı web ve arama motoru nesnesi

5. Bulgular: Ölçek, Yoğunluk ve Verimlilik

Projenin sayısal çıktıları, çalışmanın basit bir içerik aktarımı değil; yüksek hacimli bir dijital arşiv mühendisliği faaliyeti olduğunu göstermektedir.

43.0 gün başına ortalama transkript dosyası: 3.012 / 70

56.4 gün başına ortalama yayın birimi: 3.946 / 70

150 tahmini konuşma yoğunluğu: kelime / dakika

8,996 yaklaşık kelime / ses saati

2,786 gün başına yaklaşık kod satırı: 195k / 70

20k+ türetilmiş soru-cevap çifti

Kategori	Değer	Yorum
Geliştirme penceresi	70 gün / 1.680 takvim saati	Kısa sürede yüksek yoğunluklu üretim
Ham metin hacmi	Yaklaşık 68 MB / 65.9 milyon karakter	Klasik makale ölçeğinin çok üzerinde korpus büyüklüğü
Kelime hacmi	Yaklaşık 9,202,894 kelime	Birden fazla doktora tezi hacminde metinsel veri
Canlı yayın	3,543 post + 403 sayfa	Aranabilir ve bağlantılanabilir yayın yüzeyi
Kod üretimi	Yaklaşık 195,000 satır	Script, manifesto, JSON spec ve WordPress eklenti katmanı

Yayın Yoğunluğu = 3,946 yayın / 70 gün = 56.37 yayın/gün

Konuşma Yoğunluğu = 9,202,894 kelime / (1,023 saat x 60) = 149.93 kelime/dakika

6. Matrisler: Kalite, Risk ve Model Seçimi

Bu bölüm, projenin akademik ve teknik kararlarını matris diliyle görünür kılar. Matris yaklaşımı, özellikle çok katmanlı dijital arşiv projelerinde önemlidir; çünkü tek bir başarı ölçütü yeterli değildir. Transkripsiyon doğruluğu, terminoloji hassasiyeti, kaynak güvenilirliği, yayın bütünlüğü, maliyet, hız ve sürdürülebilirlik aynı anda değerlendirilmelidir.

6.1. Kalite Güvence Matrisi

Katman

Ölçüm

Risk

Kontrol

ASR

Kelime ve karakter hata oranı, örneklem bazlı dinleme kontrolü.

WER / CER

Özellikle özel isim ve Arapça-Farsça terkiplerde ayrı ölçülür.

Terim kayması

Modelin gündelik Türkçe tahmini, tasavvufî terimi bozabilir.

Domain lexicon

Mesnevî, seyr u sülûk, vird, zikir, silsile gibi sözlükle kontrol.

LLM Edisyonu

Bağlam, paragraf, imla ve akademik ton iyileştirmesi.

Semantic diff

Ham transkript ile edisyon arasında anlam kayması aranır.

Özetleme riski

LLM metni kısaltabilir veya söylemi akademikleştirirken üslubu silebilir.

Preserve-content kuralı

Hiçbir bölümün silinmemesi, yalnızca onarılması şart koşulur.

Referans

Âyet, hadis, eser ve şahıs atıfları ayrıştırılır.

CVA

Citation validation accuracy: kaynak eşleşme doğruluğu.

Yanlış isnat

Dinî metinlerde en kritik hata sınıfıdır.

İnsan onayı

Yüksek riskli kaynaklar uzman kontrol kuyruğuna alınır.

Yayın

WordPress, slug, kategori, iç bağlantı ve schema.

Indexability

Robots, canonical, sitemap, JSON-LD ve HTTP durumu kontrol edilir.

Teknik bozulma

HTML kırılması, yanlış kategori veya meta eksikliği.

Canlı doğrulama

Yayın sonrası URL, schema ve içerik bütünlüğü yeniden okunur.

6.2. Model Seçim Matrisi

Görev	Yerel Model	API Modeli	Karar Mantığı
Ham transkripsiyon	Whisper medium / large-v3 adayı	Gerekli değil	Ses hacmi yüksek olduğu için yerel ve tekrarlanabilir ASR daha ekonomiktir.
Akademik edisyon	Qwen 3 8B ön kontrol	Claude benzeri güçlü LLM	Anlam sadakati ve kaynak çözümleme yüksek muhakeme gerektirir.
Soru-cevap çıkarımı	Qwen 3 8B	Örneklem doğrulamada API	Yüksek hacimli üretimde maliyet/verim dengesi yerel model lehinedir.
Referans doğrulama	Kural tabanlı aday çıkarımı	LLM + insan editör	Yanlış kaynak atfı yüksek riskli olduğu için hibrit kontrol gerekir.

6.3. Karar Matrisi: Hız, Kalite, Maliyet, İzlenebilirlik

Yaklaşım	Hız	Kalite	Maliyet	İzlenebilirlik	Sonuç
Manuel transkripsiyon	Düşük	Yüksek	Çok yüksek	Orta	Akademik kalite güçlü, ölçeklenebilirlik zayıf.
Sadece ASR	Çok yüksek	Düşük-Orta	Düşük	Yüksek	Hızlı ama dinî terminolojide yayın riski taşır.
ASR + LLM edisyonu	Yüksek	Yüksek	Orta	Yüksek	Bu proje için en dengeli üretim modeli.
ASR + LLM + insan onayı	Orta	Çok yüksek	Orta-Yüksek	Çok yüksek	Kaynakça ve kritik dinî atıflar için ideal nihai model.

6.4. Matematiksel Önceliklendirme

Bir kaydın önce işlenip işlenmeyeceği, yalnızca tarih sırasına göre değil; içerik değeri, arama potansiyeli, kaynak zenginliği ve teknik risk bileşimiyle de hesaplanabilir.

Öncelik Skoru

Kayıtların yayın sırasını belirlemek için önerilen ağırlıklı skor.

Priority_i = .35 Search_i + .25 Source_i + .20 Series_i + .20 Demand_i

Revizyon Riski

Bir metnin tekrar gözden geçirilme ihtimalini hesaplayan risk fonksiyonu.

Risk_i = .40 Term_i + .30 Ref_i + .20 Noise_i + .10 Length_i

Yayın Hazırlık Skoru

Canlıya çıkış öncesi minimum kalite eşiği.

Ready_i = Q_i - Risk_i, publish if Ready_i >= theta

Korpus Kapsama Oranı

Toplam arşivin ne kadarının işlenip yayına alındığını izler.

Coverage = published_items / total_source_items

7. Bilimsel Doğrulama ve Kalite Güvencesi

Akademik niteliğin korunması için pipeline, yalnızca üretim yapmamalı; ürettiği her nesnenin izini de saklamalıdır. Bu nedenle önerilen doğrulama protokolü beş katmanlıdır.

Kontrol	Ölçüt	Amaç
ASR doğruluğu	WER / CER örneklemesi	Ham konuşma tanıma hatasını ölçmek
Terminoloji doğruluğu	TER: tasavvufî kavram hata oranı	İbnü’l-Arabî, Mesnevî, seyr u sülûk gibi terimlerde tutarlılık sağlamak
Kaynak doğruluğu	CVA: citation validation accuracy	Âyet, hadis ve eser atıflarını yanlış eşleşmeden korumak
Semantik sadakat	Özetleme yasağı + anlam kayması kontrolü	Sohbetin özgün içeriğini korumak
Yayın bütünlüğü	HTML, slug, kategori, schema, iç bağlantı	Metni hem insan hem makine için okunabilir kılmak

5.1. Teknik Sınırlılıklar

Whisper medium modeli Türkçe konuşma için yüksek fayda sağlasa da Arapça-Farsça terkiplere, özel isimlere ve hadis metinlerine gelindiğinde hata üretme riski devam eder. LLM destekli edisyon bu riski azaltır; fakat son otorite olarak insan editör ve alan uzmanı kontrolünün yerini tamamen alamaz.

5.2. Akademik Sınırlılıklar

Bu çalışma bir metodoloji ve proje raporudur; hakemli makale standardında nicel hata örneklemesi ayrıca yapılmalıdır. İleride rastgele seçilmiş temsilî bir örneklem üzerinde WER, TER ve referans doğruluğu hesaplanırsa rapor, dijital beşerî bilimler literatürüne daha güçlü bir ölçme-değerlendirme katkısı sunabilir.

8. Animasyonlu Simülasyon: Üretim Yoğunluğu ve İşlem Hattı

Aşağıdaki bölüm, raporu yalnızca okunur bir metin olmaktan çıkarıp küçük bir teknik gösterge paneline dönüştürür. Canvas grafiği, proje metriklerini tarayıcıda yeniden çizer; CSS animasyonlu sinyal kutuları ise ham sesten yayın nesnesine giden dönüşümü canlı bir akış olarak temsil eder. Bu bölüm özellikle sunum, proje vitrini veya teknik portfolyo sayfası olarak kullanılmak üzere tasarlanmıştır.

Şekil 4. Canlı Pipeline Telemetri Paneli animated operational dashboard

3.012 transkript dosyası: batch ingestion kapasitesi

9.2M kelime: korpus hacmi ve semantik indeks yüzeyi

3.946 yayın birimi: canlı web nesnesi

8.1. İşlem Hattı İçin Operasyonel Gözlem Noktaları

Gerçek bir üretim sisteminde her aşama için gözlem noktası tanımlanmalıdır. Bu sayede sistem yalnızca çalışmakla kalmaz; neden çalıştığı, nerede yavaşladığı ve hangi noktada hata ürettiği de ölçülebilir hâle gelir.

Telemetry Event	Alanlar	Alarm Koşulu	Otomatik Yanıt
`asr.completed`	video_id, duration, model, char_count	Boş veya olağandışı kısa transkript	Ses dosyasını yeniden indirme ve ASR tekrar kuyruğu
`edition.diff_ready`	raw_hash, edited_hash, diff_ratio	Diff oranı beklenenden yüksek	İnsan editör kontrolü ve LLM prompt sıkılaştırma
`reference.flagged`	entity, source_type, confidence	Düşük güvenli hadis/âyet eşleşmesi	Kaynak doğrulama kuyruğuna alma
`wp.published`	post_id, slug, category, status	HTTP 4xx/5xx veya canonical uyuşmazlığı	REST retry, rollback veya taslağa çekme

8.2. Teknik Sunum İçin Kullanılabilecek İddia Cümlesi

Bu proje, klasik “video transkribe edildi” anlatısından daha güçlü bir teknik iddia taşır: kamuya açık sözlü bir tasavvuf arşivi, ses sinyalinden başlayarak çok katmanlı bir dijital bilgi sistemine dönüştürülmüştür. Bu sistemde her kayıt; bir transkript, bir akademik edisyon, bir kaynak haritası, bir soru-cevap üretim alanı, bir WordPress yayın nesnesi ve gelecekteki bir bilgi grafı düğümü olarak yeniden inşa edilir.

9. Gelecek Projeksiyonu: Arama, LLM ve Bilgi Grafı

Bu projenin uzun vadeli değeri, yalnızca mevcut içeriklerin yayına alınmasında değildir. Asıl değer, tasavvufî kavramların, sohbet serilerinin, şahısların, eserlerin ve soru-cevap çiftlerinin zaman içinde bir bilgi grafına dönüşebilmesidir.

Zaman Ufku	Hedef	Beklenen Etki
6-12 ay	Tam indekslenme ve ilk organik görünürlük	Uzun kuyruklu tasavvuf aramalarında kaynak olarak görünme
1-2 yıl	Tematik otorite ve iç bağlantı yoğunluğu	Google, Bing ve yapay zekâ arama sistemlerinde referans yüzeyi oluşması
3-5 yıl	Akademik atıf ve kanonik dijital kaynak	Tez, makale ve dijital kaynakça listelerinde kullanım
5-10 yıl	Bilgi grafı, RAG ve kavramsal arama	Sohbet arşivinin yalnızca okunması değil, sorgulanması

6.1. Önerilen Yeni Katmanlar

Bir sonraki teknik evre için üç geliştirme önerilir: TEI/XML veya JSON-LD tabanlı akademik metin işaretleme, vektör tabanlı semantik arama ve kavram-şahıs-eser ilişkilerini tutan bir bilgi grafı. Bu üç katman eklendiğinde sistem, klasik WordPress arşivinin ötesine geçerek araştırmacıların doğrudan soru sorabildiği bir dijital külliyat laboratuvarına dönüşebilir.

Risk 1: Kaynak Hatası

Âyet, hadis ve eser atıfları otomatik üretildiğinde yanlış eşleşme riski doğar. Çözüm: kaynak doğrulama kuyruğu ve uzman onayı.

Risk 2: Anlam Kayması

LLM düzeltmesi, metni güzelleştirirken özgün üslubu silebilir. Çözüm: özetleme yasağı, diff kontrolü ve örneklem denetimi.

Risk 3: Organik Trafik Kaybı

AI özet sistemleri kullanıcıyı kaynak siteye göndermeden cevap verebilir. Çözüm: güçlü schema, marka otoritesi ve birincil kaynak vurgusu.

10. Teknik Ekler: Şema, Payload ve Uygulama Protokolleri

Bu bölüm, raporu doğrudan uygulanabilir bir teknik belge hâline getirmek için eklenmiştir. Buradaki şablonlar, üretim ortamına birebir kopyalanacak nihai kod olarak değil; mimari niyeti, veri sözleşmesini ve kalite denetimini açıkça tanımlayan referans taslaklar olarak okunmalıdır.

10.1. WordPress REST Yayın Payload Şablonu

{
  "status": "publish",
  "title": "Sohbet Başlığı",
  "slug": "seri-adi-sohbet-basligi",
  "content": "<article>...akademik edisyon HTML...</article>",
  "excerpt": "Sohbetin bilimsel, kısa ve arama motoruna uygun özeti.",
  "categories": [SERIES_CATEGORY_ID],
  "tags": [TERM_TAG_ID, PERSON_TAG_ID, WORK_TAG_ID],
  "meta": {
    "source_youtube_url": "https://www.youtube.com/watch?v=...",
    "asr_model": "whisper-medium",
    "edition_model": "claude",
    "source_duration_seconds": 3600,
    "word_count": 8996,
    "quality_score": 0.91,
    "reference_review_status": "needs-human-sampling"
  }
}

10.2. JSON-LD Genişletme Şablonu

{
  "@context": "https://schema.org",
  "@type": "ScholarlyArticle",
  "headline": "Sohbet Başlığı",
  "inLanguage": "tr-TR",
  "isBasedOn": {
    "@type": "VideoObject",
    "name": "Kaynak YouTube Sohbeti",
    "url": "https://www.youtube.com/watch?v=..."
  },
  "about": [
    { "@type": "Thing", "name": "Tasavvuf" },
    { "@type": "Thing", "name": "Mesnevî" },
    { "@type": "Thing", "name": "Seyr u sülûk" }
  ],
  "mentions": [
    { "@type": "Person", "name": "Mevlânâ Celâleddîn-i Rûmî" },
    { "@type": "CreativeWork", "name": "Mesnevî-i Şerîf" }
  ],
  "encoding": {
    "@type": "MediaObject",
    "encodingFormat": "text/html",
    "contentSize": "variable"
  }
}

10.3. TEI/XML Akademik Edisyon Taslağı

Gelecekte metinlerin yalnızca WordPress içinde değil, akademik arşiv standartlarında da saklanması istenirse TEI/XML katmanı eklenebilir. Bu katman; konuşmacı, tarih, kaynak, bölüm, atıf ve kavram düzeyinde daha ince işaretleme sağlar.

<TEI xml:lang="tr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Sohbet Başlığı</title>
        <author>Mustafa Özbağ Efendi</author>
      </titleStmt>
      <sourceDesc>
        <bibl type="youtube">
          <ptr target="https://www.youtube.com/watch?v=..." />
        </bibl>
      </sourceDesc>
    </fileDesc>
  </teiHeader>
  <text>
    <body>
      <div type="sohbet" n="001">
        <p>Akademik edisyon metni...</p>
        <quote type="hadith" cert="medium">...</quote>
        <term type="tasavvuf">seyr u sülûk</term>
      </div>
    </body>
  </text>
</TEI>

10.4. Bilgi Grafı Şeması

Uzun vadede her sohbet, bir bilgi grafındaki düğüm ve kenarlara ayrılabilir. Bu yapı, semantik arama, RAG sistemleri, kavram haritaları ve akademik keşif arayüzleri için temel oluşturur.

Düğüm Tipi	Örnek	Kenarlar	Kullanım
Person	Mevlânâ, İbnü’l-Arabî, Karabaş-ı Velî	mentions, interprets, cites	Şahıs merkezli arama ve ilişki haritası
Work	Mesnevî, Fütûhât, hadis mecmuaları	cites, explains, compares	Eser referanslarının standartlaştırılması
Concept	zikir, vird, nefs, muhabbet	defines, contrasts, expands	Kavramlar arası semantik gezinme
Question	Dinî-pratik soru, tasavvufî kavram sorusu	answered_in, derived_from, belongs_to	Soru-cevap koleksiyonu ve öğrenme arayüzü
Source	YouTube URL, canlı post URL, arşiv dosyası	source_of, version_of, published_as	İzlenebilirlik ve akademik kaynak kontrolü

10.5. Vektör Arama ve RAG Mimarisi

chunk_size = 900 tokens
chunk_overlap = 120 tokens
embedding_target = edited_academic_text
metadata = {
  post_id,
  source_url,
  series,
  date,
  concepts,
  persons,
  works,
  reference_confidence
}

retrieval(query):
  q_vec = embed(query)
  candidates = vector_index.search(q_vec, top_k=24)
  reranked = cross_encoder.rerank(query, candidates)
  answer = llm.generate(
    query=query,
    context=reranked[0:8],
    cite_sources=True,
    refuse_if_context_insufficient=True
  )
  return answer

10.6. Yayın Öncesi Kontrol Listesi

Kontrol Maddesi	Geçme Kriteri	Başarısızlıkta Aksiyon
Başlık ve slug	Seri, konu ve tarih ile uyumlu	Slug yeniden üret, canonical kontrol et
Metin bütünlüğü	Ham transkripte göre eksik bölüm yok	Diff çıkar, LLM edisyonunu yeniden sınırlandır
Kaynakça	Âyet/hadis/eser atıfları güven skoru ile işaretli	Uzman kontrol kuyruğuna taşı
SEO	Başlık, açıklama, odak kelime, iç bağlantı var	Rank Math alanlarını yeniden yaz
Schema	JSON-LD parse edilebilir ve konu ile uyumlu	Schema bloklarını yeniden üret
Canlı URL	HTTP 200, doğru canonical, görünür içerik	REST rollback veya taslağa alma

10.7. Akademik Yayına Uygunluk İlkeleri

Bu proje için en önemli teknik disiplin, hız ile sadakat arasındaki dengeyi korumaktır. Bir metin hızlı üretilebilir; fakat dinî-tasavvufî bağlamda yanlış bir kelime, yanlış bir kaynak veya yanlış bir nispet, sıradan teknik hatadan daha ağır sonuç doğurur. Bu nedenle sistemin nihai hedefi yalnızca çok sayıda sayfa üretmek değil; her sayfayı izlenebilir, revize edilebilir ve kaynak denetimine açık tutmaktır.

Bu ilke üç cümlede özetlenebilir: Ham kayıt korunur. Edisyon farkı izlenir. Yayın sonrası doğrulama kapatılmaz, sürekli bir bakım katmanı olarak açık tutulur.

Sonuç

Mustafa Özbağ Efendi sohbet arşivi üzerine kurulan bu sistem, dinî-tasavvufî sözlü mirasın çağdaş yapay zekâ ve web otomasyonu ile nasıl bilimsel bir dijital külliyata dönüştürülebileceğini göstermektedir. Projenin ayırt edici yönü, transkripsiyonu son hedef değil ilk katman olarak görmesidir. Asıl hedef; ses kaydından akademik metne, akademik metinden yapısal veriye, yapısal veriden semantik aramaya ilerleyen sürdürülebilir bir bilgi mimarisi kurmaktır.

Bu nedenle çalışma, yalnızca bir web sitesi içerik üretim raporu olarak değil; Türkçe dijital beşerî bilimler, tasavvuf arşivciliği ve LLM destekli akademik edisyon alanları için uygulanabilir bir metodoloji önerisi olarak okunmalıdır.