مصادر البيانات

المستودع يعتمد على أدوات ومصادر خارجية مذكورة في README.md:

إعداد بيانات التلاوات: https://github.com/obadx/prepare-quran-dataset
تقسيم التلاوات: https://github.com/obadx/recitations-segmenter
نموذج Whisper للنسخ: https://huggingface.co/tarteel-ai/whisper-base-ar-quran
التصحيح والتحويل بين الرسوم: https://github.com/obadx/quran-transcript

كيف تتكامل هذه المصادر؟

جمع الصوت الخام وتنقيته.
تقسيمه حسب مواضع الوقف.
النسخ الآلي لإنتاج نص إملائي أولي.
التصحيح عبر التسميع لرفع الجودة.
التحويل إلى الرسم العثماني.
توليد الفونيمات والصفات.

بيانات وصفية يُفضل تسجيلها

لإعادة الإنتاج في الأبحاث، سجل لكل مقطع:

هوية القارئ/المصدر
نمط القراءة (مرتل/مجود/حدر)
تنسيق الصوت (معدل العينة، bitrate)
حدود المقطع (البداية/النهاية)
السورة/الآية ونطاق الكلمات
خصائص المصحف المستخدمة

ملاحظة الترخيص

كل مصدر خارجي له ترخيصه الخاص. تأكد من توثيق الترخيص الأصلي لكل مجموعة بيانات أو نموذج مستخدم.