Teknik beyaz kitap / Dijital tasavvuf arşivciliği
Özet
Bu rapor, Mustafa Özbağ Efendi sohbet arşivinin yalnızca metne çevrilmesini değil; ses, metin, kaynakça, soru-cevap, taksonomi, SEO ve yapısal veri katmanlarının birlikte çalıştığı hesaplamalı bir edisyon sistemine dönüştürülmesini belgelendirir. Proje, 6 Mart 2026 ile 15 Mayıs 2026 arasındaki 70 günlük geliştirme penceresinde; Whisper tabanlı otomatik konuşma tanıma, LLM destekli akademik tashih, kural tabanlı denetim ve WordPress REST API otomasyonu ile yaklaşık 9.2 milyon kelimelik sözlü külliyatı dijital yayına taşımıştır.
Teknik Katkı
Çalışmanın özgün tarafı, klasik transkripsiyon işini bir veri mühendisliği problemine çevirmesidir. Her sohbet bir ham medya nesnesi olarak alınmış; metinleştirme, semantik onarım, referans çözümleme, kategori eşleme, yayınlama, indekslenebilirlik ve kalite güvence adımları tek bir tekrarlanabilir işlem zincirine bağlanmıştır. Böylece sözlü tasavvuf mirası, modern dijital beşerî bilimler ölçeğinde işlenebilir bir korpusa dönüşmüştür.
- 1. Problem Tanımı
Video merkezli arşivlerin bilgi erişim sınırları - 2. Matematiksel Model
Korpus, dönüşüm ve kalite fonksiyonları - 3. Flowchart ve Diyagramlar
Sinyal hattı, karar akışı ve durum makinesi - 4. Sistem Mimarisi
ASR, LLM, WordPress ve SEO katmanları - 5. Bulgular
Sayısal çıktı ve verimlilik oranları - 6. Matrisler
Kalite, risk, model ve doğrulama matrisleri - 7. Bilimsel Doğrulama
Hata ölçümü, kaynak kontrolü ve izlenebilirlik - 8. Animasyonlu Simülasyon
Üretim yoğunluğu ve işlem hattı davranışı - 9. Gelecek Projeksiyonu
Arama motorları, LLM’ler ve kalıcı dijital miras - 10. Teknik Ekler
REST, JSON-LD, TEI/XML, bilgi grafı ve kontrol listeleri
1. Problem Tanımı: Video Arşivinden Bilgi Sistemine
Sözlü gelenek, özellikle tasavvuf sohbetleri söz konusu olduğunda, anlamı çoğu zaman sesin ritminde, bağlamın sürekliliğinde ve kavramların birbirine açtığı halkalarda taşır. YouTube gibi platformlar bu kayıtların yayılmasını kolaylaştırır; fakat arşiv mantığı açısından üç kritik boşluk üretir: aranabilirlik sınırlıdır, akademik atıf zordur ve kavramsal ilişkiler makine tarafından doğrudan okunamaz.
Bu proje, söz konusu boşluğu teknik bir yayına hazırlama hattı ile kapatır. Amaç yalnızca konuşmayı yazıya dökmek değildir. Amaç; konuşmayı zaman, kaynak, kavram, soru, kategori ve yayın nesnesi olarak yeniden modellemektir. Böylece bir sohbet, tekil bir video kaydı olmaktan çıkar; sorgulanabilir, bağlantılanabilir ve doğrulanabilir bir dijital bilgi varlığına dönüşür.
Temel hipotez: Dinî-tasavvufî sözlü miras, doğru kalite denetimleriyle birlikte ASR + LLM + CMS otomasyonu üzerinden işlenirse, klasik manuel transkripsiyonun yıllara yayılan maliyeti haftalar düzeyine indirilebilir; buna rağmen metin, akademik edisyon ilkelerine yaklaştırılabilir.
2. Matematiksel Model: Külliyatı Dönüşüm Fonksiyonu Olarak Okumak
Projenin teknik çekirdeği, her bir video kaydını bir dönüşüm zincirinin girdisi olarak ele alır. Korpus şu şekilde tanımlanabilir:
Her video kaydı önce otomatik konuşma tanıma fonksiyonuna girer. Ardından akademik edisyon, kaynak çözümleme ve yayın işlemleri uygulanır:
| Sembol | İşlem | Çıktı |
|---|---|---|
A(v_i) |
Whisper ile otomatik konuşma tanıma | Ham transkript t_i |
R(t_i) |
Referans, şahıs, eser, âyet ve hadis adaylarının çıkarımı | Anotasyonlu transkript r_i |
E(r_i) |
LLM destekli akademik edisyon, imla ve bağlam düzeltmesi | Yayın metni d_i |
P(d_i) |
WordPress post/sayfa üretimi, kategori ve SEO entegrasyonu | Kalıcı URL u_i |
2.1. Kalite Vektörü
Her yayın birimi için kalite yalnızca yazım doğruluğundan ibaret değildir. Teknik ve akademik değerlendirme çok boyutlu yapılmalıdır:
Burada WER kelime hata oranını, TER terminoloji hata oranını, REF kaynak doğruluk skorunu, SEO indekslenebilirlik skorunu, TRACE ise ham kayıttan canlı URL’ye kadar izlenebilirlik skorunu temsil eder.
2.2. Bileşik Akademik Yayın Skoru
Bu formül bir laboratuvar ölçümü değil, projenin kalite güvence yönünü sayısallaştırmak için önerilen operasyonel bir modeldir. Dinî-tasavvufî metinlerde terminoloji ve referans doğruluğu, sıradan haber metinlerine göre daha yüksek ağırlık taşıdığı için TER ve REF katsayıları bilinçli olarak yüksek tutulmuştur.
3. Flowchart ve Teknik Diyagramlar
Bu bölüm, raporun teorik kısmını görsel mühendislik notasyonuna taşır. Amaç, projenin yalnızca metinsel olarak değil; veri akışı, karar noktası, hata dönüşü, durum makinesi ve yayın katmanı bakımından da okunabilmesini sağlamaktır. Diyagramlar SVG tabanlıdır; dış kütüphane gerektirmez ve tarayıcıda animasyonlu olarak çalışır.
4. Sistem Mimarisi: Altı Katmanlı Yayın Hattı
Sistem, birbirinden bağımsız fakat ardışık çalışan altı ana katmandan oluşur. Bu mimari, aynı kaydın tekrar işlenebilmesine, hata sonrası geri dönüşe ve yeni modellerin pipeline içine eklenmesine imkân verir.
3.1. Algoritmik Akış
for video in youtube_archive:
audio, metadata = acquire(video)
transcript_raw = whisper.transcribe(audio, model="medium")
transcript_clean = normalize(transcript_raw, domain_lexicon="tasavvuf")
edition = llm_academic_edit(
transcript_clean,
preserve_content=True,
add_references=True,
detect_questions=True
)
qa_items = extract_questions(edition)
post = wordpress.publish(
title=metadata.title,
body=edition.html,
category=metadata.series,
source_url=metadata.url,
seo_focus_keyword=metadata.focus_keyword
)
verify(post.url, checks=["html", "schema", "indexability", "references"])
3.2. Veri Modeli
| Varlık | Alanlar | İşlev |
|---|---|---|
| Video | URL, süre, başlık, seri, tarih | Ham sözlü veri kaynağı |
| Transkript | Ham metin, model bilgisi, işlem zamanı | ASR çıktısının denetlenebilir kaydı |
| Edisyon | HTML, başlıklar, kaynakça, kavramlar | Akademik yayına hazır metin |
| Soru-Cevap | Soru, cevap, kaynak sohbet, kategori | Tematik arama ve öğrenme katmanı |
| Yayın | Post ID, slug, kategori, meta açıklama | Canlı web ve arama motoru nesnesi |
5. Bulgular: Ölçek, Yoğunluk ve Verimlilik
Projenin sayısal çıktıları, çalışmanın basit bir içerik aktarımı değil; yüksek hacimli bir dijital arşiv mühendisliği faaliyeti olduğunu göstermektedir.
| Kategori | Değer | Yorum |
|---|---|---|
| Geliştirme penceresi | 70 gün / 1.680 takvim saati | Kısa sürede yüksek yoğunluklu üretim |
| Ham metin hacmi | Yaklaşık 68 MB / 65.9 milyon karakter | Klasik makale ölçeğinin çok üzerinde korpus büyüklüğü |
| Kelime hacmi | Yaklaşık 9,202,894 kelime | Birden fazla doktora tezi hacminde metinsel veri |
| Canlı yayın | 3,543 post + 403 sayfa | Aranabilir ve bağlantılanabilir yayın yüzeyi |
| Kod üretimi | Yaklaşık 195,000 satır | Script, manifesto, JSON spec ve WordPress eklenti katmanı |
6. Matrisler: Kalite, Risk ve Model Seçimi
Bu bölüm, projenin akademik ve teknik kararlarını matris diliyle görünür kılar. Matris yaklaşımı, özellikle çok katmanlı dijital arşiv projelerinde önemlidir; çünkü tek bir başarı ölçütü yeterli değildir. Transkripsiyon doğruluğu, terminoloji hassasiyeti, kaynak güvenilirliği, yayın bütünlüğü, maliyet, hız ve sürdürülebilirlik aynı anda değerlendirilmelidir.
6.1. Kalite Güvence Matrisi
Kelime ve karakter hata oranı, örneklem bazlı dinleme kontrolü.
Özellikle özel isim ve Arapça-Farsça terkiplerde ayrı ölçülür.
Modelin gündelik Türkçe tahmini, tasavvufî terimi bozabilir.
Mesnevî, seyr u sülûk, vird, zikir, silsile gibi sözlükle kontrol.
Bağlam, paragraf, imla ve akademik ton iyileştirmesi.
Ham transkript ile edisyon arasında anlam kayması aranır.
LLM metni kısaltabilir veya söylemi akademikleştirirken üslubu silebilir.
Hiçbir bölümün silinmemesi, yalnızca onarılması şart koşulur.
Âyet, hadis, eser ve şahıs atıfları ayrıştırılır.
Citation validation accuracy: kaynak eşleşme doğruluğu.
Dinî metinlerde en kritik hata sınıfıdır.
Yüksek riskli kaynaklar uzman kontrol kuyruğuna alınır.
WordPress, slug, kategori, iç bağlantı ve schema.
Robots, canonical, sitemap, JSON-LD ve HTTP durumu kontrol edilir.
HTML kırılması, yanlış kategori veya meta eksikliği.
Yayın sonrası URL, schema ve içerik bütünlüğü yeniden okunur.
6.2. Model Seçim Matrisi
| Görev | Yerel Model | API Modeli | Karar Mantığı |
|---|---|---|---|
| Ham transkripsiyon | Whisper medium / large-v3 adayı | Gerekli değil | Ses hacmi yüksek olduğu için yerel ve tekrarlanabilir ASR daha ekonomiktir. |
| Akademik edisyon | Qwen 3 8B ön kontrol | Claude benzeri güçlü LLM | Anlam sadakati ve kaynak çözümleme yüksek muhakeme gerektirir. |
| Soru-cevap çıkarımı | Qwen 3 8B | Örneklem doğrulamada API | Yüksek hacimli üretimde maliyet/verim dengesi yerel model lehinedir. |
| Referans doğrulama | Kural tabanlı aday çıkarımı | LLM + insan editör | Yanlış kaynak atfı yüksek riskli olduğu için hibrit kontrol gerekir. |
6.3. Karar Matrisi: Hız, Kalite, Maliyet, İzlenebilirlik
| Yaklaşım | Hız | Kalite | Maliyet | İzlenebilirlik | Sonuç |
|---|---|---|---|---|---|
| Manuel transkripsiyon | Düşük | Yüksek | Çok yüksek | Orta | Akademik kalite güçlü, ölçeklenebilirlik zayıf. |
| Sadece ASR | Çok yüksek | Düşük-Orta | Düşük | Yüksek | Hızlı ama dinî terminolojide yayın riski taşır. |
| ASR + LLM edisyonu | Yüksek | Yüksek | Orta | Yüksek | Bu proje için en dengeli üretim modeli. |
| ASR + LLM + insan onayı | Orta | Çok yüksek | Orta-Yüksek | Çok yüksek | Kaynakça ve kritik dinî atıflar için ideal nihai model. |
6.4. Matematiksel Önceliklendirme
Bir kaydın önce işlenip işlenmeyeceği, yalnızca tarih sırasına göre değil; içerik değeri, arama potansiyeli, kaynak zenginliği ve teknik risk bileşimiyle de hesaplanabilir.
Kayıtların yayın sırasını belirlemek için önerilen ağırlıklı skor.
Priority_i = .35 Search_i + .25 Source_i + .20 Series_i + .20 Demand_i
Bir metnin tekrar gözden geçirilme ihtimalini hesaplayan risk fonksiyonu.
Risk_i = .40 Term_i + .30 Ref_i + .20 Noise_i + .10 Length_i
Canlıya çıkış öncesi minimum kalite eşiği.
Ready_i = Q_i - Risk_i, publish if Ready_i >= theta
Toplam arşivin ne kadarının işlenip yayına alındığını izler.
Coverage = published_items / total_source_items
7. Bilimsel Doğrulama ve Kalite Güvencesi
Akademik niteliğin korunması için pipeline, yalnızca üretim yapmamalı; ürettiği her nesnenin izini de saklamalıdır. Bu nedenle önerilen doğrulama protokolü beş katmanlıdır.
| Kontrol | Ölçüt | Amaç |
|---|---|---|
| ASR doğruluğu | WER / CER örneklemesi | Ham konuşma tanıma hatasını ölçmek |
| Terminoloji doğruluğu | TER: tasavvufî kavram hata oranı | İbnü’l-Arabî, Mesnevî, seyr u sülûk gibi terimlerde tutarlılık sağlamak |
| Kaynak doğruluğu | CVA: citation validation accuracy | Âyet, hadis ve eser atıflarını yanlış eşleşmeden korumak |
| Semantik sadakat | Özetleme yasağı + anlam kayması kontrolü | Sohbetin özgün içeriğini korumak |
| Yayın bütünlüğü | HTML, slug, kategori, schema, iç bağlantı | Metni hem insan hem makine için okunabilir kılmak |
5.1. Teknik Sınırlılıklar
Whisper medium modeli Türkçe konuşma için yüksek fayda sağlasa da Arapça-Farsça terkiplere, özel isimlere ve hadis metinlerine gelindiğinde hata üretme riski devam eder. LLM destekli edisyon bu riski azaltır; fakat son otorite olarak insan editör ve alan uzmanı kontrolünün yerini tamamen alamaz.
5.2. Akademik Sınırlılıklar
Bu çalışma bir metodoloji ve proje raporudur; hakemli makale standardında nicel hata örneklemesi ayrıca yapılmalıdır. İleride rastgele seçilmiş temsilî bir örneklem üzerinde WER, TER ve referans doğruluğu hesaplanırsa rapor, dijital beşerî bilimler literatürüne daha güçlü bir ölçme-değerlendirme katkısı sunabilir.
8. Animasyonlu Simülasyon: Üretim Yoğunluğu ve İşlem Hattı
Aşağıdaki bölüm, raporu yalnızca okunur bir metin olmaktan çıkarıp küçük bir teknik gösterge paneline dönüştürür. Canvas grafiği, proje metriklerini tarayıcıda yeniden çizer; CSS animasyonlu sinyal kutuları ise ham sesten yayın nesnesine giden dönüşümü canlı bir akış olarak temsil eder. Bu bölüm özellikle sunum, proje vitrini veya teknik portfolyo sayfası olarak kullanılmak üzere tasarlanmıştır.
8.1. İşlem Hattı İçin Operasyonel Gözlem Noktaları
Gerçek bir üretim sisteminde her aşama için gözlem noktası tanımlanmalıdır. Bu sayede sistem yalnızca çalışmakla kalmaz; neden çalıştığı, nerede yavaşladığı ve hangi noktada hata ürettiği de ölçülebilir hâle gelir.
| Telemetry Event | Alanlar | Alarm Koşulu | Otomatik Yanıt |
|---|---|---|---|
asr.completed |
video_id, duration, model, char_count | Boş veya olağandışı kısa transkript | Ses dosyasını yeniden indirme ve ASR tekrar kuyruğu |
edition.diff_ready |
raw_hash, edited_hash, diff_ratio | Diff oranı beklenenden yüksek | İnsan editör kontrolü ve LLM prompt sıkılaştırma |
reference.flagged |
entity, source_type, confidence | Düşük güvenli hadis/âyet eşleşmesi | Kaynak doğrulama kuyruğuna alma |
wp.published |
post_id, slug, category, status | HTTP 4xx/5xx veya canonical uyuşmazlığı | REST retry, rollback veya taslağa çekme |
8.2. Teknik Sunum İçin Kullanılabilecek İddia Cümlesi
Bu proje, klasik “video transkribe edildi” anlatısından daha güçlü bir teknik iddia taşır: kamuya açık sözlü bir tasavvuf arşivi, ses sinyalinden başlayarak çok katmanlı bir dijital bilgi sistemine dönüştürülmüştür. Bu sistemde her kayıt; bir transkript, bir akademik edisyon, bir kaynak haritası, bir soru-cevap üretim alanı, bir WordPress yayın nesnesi ve gelecekteki bir bilgi grafı düğümü olarak yeniden inşa edilir.
9. Gelecek Projeksiyonu: Arama, LLM ve Bilgi Grafı
Bu projenin uzun vadeli değeri, yalnızca mevcut içeriklerin yayına alınmasında değildir. Asıl değer, tasavvufî kavramların, sohbet serilerinin, şahısların, eserlerin ve soru-cevap çiftlerinin zaman içinde bir bilgi grafına dönüşebilmesidir.
| Zaman Ufku | Hedef | Beklenen Etki |
|---|---|---|
| 6-12 ay | Tam indekslenme ve ilk organik görünürlük | Uzun kuyruklu tasavvuf aramalarında kaynak olarak görünme |
| 1-2 yıl | Tematik otorite ve iç bağlantı yoğunluğu | Google, Bing ve yapay zekâ arama sistemlerinde referans yüzeyi oluşması |
| 3-5 yıl | Akademik atıf ve kanonik dijital kaynak | Tez, makale ve dijital kaynakça listelerinde kullanım |
| 5-10 yıl | Bilgi grafı, RAG ve kavramsal arama | Sohbet arşivinin yalnızca okunması değil, sorgulanması |
6.1. Önerilen Yeni Katmanlar
Bir sonraki teknik evre için üç geliştirme önerilir: TEI/XML veya JSON-LD tabanlı akademik metin işaretleme, vektör tabanlı semantik arama ve kavram-şahıs-eser ilişkilerini tutan bir bilgi grafı. Bu üç katman eklendiğinde sistem, klasik WordPress arşivinin ötesine geçerek araştırmacıların doğrudan soru sorabildiği bir dijital külliyat laboratuvarına dönüşebilir.
Âyet, hadis ve eser atıfları otomatik üretildiğinde yanlış eşleşme riski doğar. Çözüm: kaynak doğrulama kuyruğu ve uzman onayı.
LLM düzeltmesi, metni güzelleştirirken özgün üslubu silebilir. Çözüm: özetleme yasağı, diff kontrolü ve örneklem denetimi.
AI özet sistemleri kullanıcıyı kaynak siteye göndermeden cevap verebilir. Çözüm: güçlü schema, marka otoritesi ve birincil kaynak vurgusu.
10. Teknik Ekler: Şema, Payload ve Uygulama Protokolleri
Bu bölüm, raporu doğrudan uygulanabilir bir teknik belge hâline getirmek için eklenmiştir. Buradaki şablonlar, üretim ortamına birebir kopyalanacak nihai kod olarak değil; mimari niyeti, veri sözleşmesini ve kalite denetimini açıkça tanımlayan referans taslaklar olarak okunmalıdır.
10.1. WordPress REST Yayın Payload Şablonu
{
"status": "publish",
"title": "Sohbet Başlığı",
"slug": "seri-adi-sohbet-basligi",
"content": "<article>...akademik edisyon HTML...</article>",
"excerpt": "Sohbetin bilimsel, kısa ve arama motoruna uygun özeti.",
"categories": [SERIES_CATEGORY_ID],
"tags": [TERM_TAG_ID, PERSON_TAG_ID, WORK_TAG_ID],
"meta": {
"source_youtube_url": "https://www.youtube.com/watch?v=...",
"asr_model": "whisper-medium",
"edition_model": "claude",
"source_duration_seconds": 3600,
"word_count": 8996,
"quality_score": 0.91,
"reference_review_status": "needs-human-sampling"
}
}
10.2. JSON-LD Genişletme Şablonu
{
"@context": "https://schema.org",
"@type": "ScholarlyArticle",
"headline": "Sohbet Başlığı",
"inLanguage": "tr-TR",
"isBasedOn": {
"@type": "VideoObject",
"name": "Kaynak YouTube Sohbeti",
"url": "https://www.youtube.com/watch?v=..."
},
"about": [
{ "@type": "Thing", "name": "Tasavvuf" },
{ "@type": "Thing", "name": "Mesnevî" },
{ "@type": "Thing", "name": "Seyr u sülûk" }
],
"mentions": [
{ "@type": "Person", "name": "Mevlânâ Celâleddîn-i Rûmî" },
{ "@type": "CreativeWork", "name": "Mesnevî-i Şerîf" }
],
"encoding": {
"@type": "MediaObject",
"encodingFormat": "text/html",
"contentSize": "variable"
}
}
10.3. TEI/XML Akademik Edisyon Taslağı
Gelecekte metinlerin yalnızca WordPress içinde değil, akademik arşiv standartlarında da saklanması istenirse TEI/XML katmanı eklenebilir. Bu katman; konuşmacı, tarih, kaynak, bölüm, atıf ve kavram düzeyinde daha ince işaretleme sağlar.
<TEI xml:lang="tr">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Sohbet Başlığı</title>
<author>Mustafa Özbağ Efendi</author>
</titleStmt>
<sourceDesc>
<bibl type="youtube">
<ptr target="https://www.youtube.com/watch?v=..." />
</bibl>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>
<body>
<div type="sohbet" n="001">
<p>Akademik edisyon metni...</p>
<quote type="hadith" cert="medium">...</quote>
<term type="tasavvuf">seyr u sülûk</term>
</div>
</body>
</text>
</TEI>
10.4. Bilgi Grafı Şeması
Uzun vadede her sohbet, bir bilgi grafındaki düğüm ve kenarlara ayrılabilir. Bu yapı, semantik arama, RAG sistemleri, kavram haritaları ve akademik keşif arayüzleri için temel oluşturur.
| Düğüm Tipi | Örnek | Kenarlar | Kullanım |
|---|---|---|---|
| Person | Mevlânâ, İbnü’l-Arabî, Karabaş-ı Velî | mentions, interprets, cites | Şahıs merkezli arama ve ilişki haritası |
| Work | Mesnevî, Fütûhât, hadis mecmuaları | cites, explains, compares | Eser referanslarının standartlaştırılması |
| Concept | zikir, vird, nefs, muhabbet | defines, contrasts, expands | Kavramlar arası semantik gezinme |
| Question | Dinî-pratik soru, tasavvufî kavram sorusu | answered_in, derived_from, belongs_to | Soru-cevap koleksiyonu ve öğrenme arayüzü |
| Source | YouTube URL, canlı post URL, arşiv dosyası | source_of, version_of, published_as | İzlenebilirlik ve akademik kaynak kontrolü |
10.5. Vektör Arama ve RAG Mimarisi
chunk_size = 900 tokens
chunk_overlap = 120 tokens
embedding_target = edited_academic_text
metadata = {
post_id,
source_url,
series,
date,
concepts,
persons,
works,
reference_confidence
}
retrieval(query):
q_vec = embed(query)
candidates = vector_index.search(q_vec, top_k=24)
reranked = cross_encoder.rerank(query, candidates)
answer = llm.generate(
query=query,
context=reranked[0:8],
cite_sources=True,
refuse_if_context_insufficient=True
)
return answer
10.6. Yayın Öncesi Kontrol Listesi
| Kontrol Maddesi | Geçme Kriteri | Başarısızlıkta Aksiyon |
|---|---|---|
| Başlık ve slug | Seri, konu ve tarih ile uyumlu | Slug yeniden üret, canonical kontrol et |
| Metin bütünlüğü | Ham transkripte göre eksik bölüm yok | Diff çıkar, LLM edisyonunu yeniden sınırlandır |
| Kaynakça | Âyet/hadis/eser atıfları güven skoru ile işaretli | Uzman kontrol kuyruğuna taşı |
| SEO | Başlık, açıklama, odak kelime, iç bağlantı var | Rank Math alanlarını yeniden yaz |
| Schema | JSON-LD parse edilebilir ve konu ile uyumlu | Schema bloklarını yeniden üret |
| Canlı URL | HTTP 200, doğru canonical, görünür içerik | REST rollback veya taslağa alma |
10.7. Akademik Yayına Uygunluk İlkeleri
Bu proje için en önemli teknik disiplin, hız ile sadakat arasındaki dengeyi korumaktır. Bir metin hızlı üretilebilir; fakat dinî-tasavvufî bağlamda yanlış bir kelime, yanlış bir kaynak veya yanlış bir nispet, sıradan teknik hatadan daha ağır sonuç doğurur. Bu nedenle sistemin nihai hedefi yalnızca çok sayıda sayfa üretmek değil; her sayfayı izlenebilir, revize edilebilir ve kaynak denetimine açık tutmaktır.
Bu ilke üç cümlede özetlenebilir: Ham kayıt korunur. Edisyon farkı izlenir. Yayın sonrası doğrulama kapatılmaz, sürekli bir bakım katmanı olarak açık tutulur.
Sonuç
Mustafa Özbağ Efendi sohbet arşivi üzerine kurulan bu sistem, dinî-tasavvufî sözlü mirasın çağdaş yapay zekâ ve web otomasyonu ile nasıl bilimsel bir dijital külliyata dönüştürülebileceğini göstermektedir. Projenin ayırt edici yönü, transkripsiyonu son hedef değil ilk katman olarak görmesidir. Asıl hedef; ses kaydından akademik metne, akademik metinden yapısal veriye, yapısal veriden semantik aramaya ilerleyen sürdürülebilir bir bilgi mimarisi kurmaktır.
Bu nedenle çalışma, yalnızca bir web sitesi içerik üretim raporu olarak değil; Türkçe dijital beşerî bilimler, tasavvuf arşivciliği ve LLM destekli akademik edisyon alanları için uygulanabilir bir metodoloji önerisi olarak okunmalıdır.
