مصادر البيانات
المستودع يعتمد على أدوات ومصادر خارجية مذكورة في README.md:
- إعداد بيانات التلاوات: https://github.com/obadx/prepare-quran-dataset
- تقسيم التلاوات: https://github.com/obadx/recitations-segmenter
- نموذج Whisper للنسخ: https://huggingface.co/tarteel-ai/whisper-base-ar-quran
- التصحيح والتحويل بين الرسوم: https://github.com/obadx/quran-transcript
كيف تتكامل هذه المصادر؟
- جمع الصوت الخام وتنقيته.
- تقسيمه حسب مواضع الوقف.
- النسخ الآلي لإنتاج نص إملائي أولي.
- التصحيح عبر التسميع لرفع الجودة.
- التحويل إلى الرسم العثماني.
- توليد الفونيمات والصفات.
بيانات وصفية يُفضل تسجيلها
لإعادة الإنتاج في الأبحاث، سجل لكل مقطع:
- هوية القارئ/المصدر
- نمط القراءة (مرتل/مجود/حدر)
- تنسيق الصوت (معدل العينة، bitrate)
- حدود المقطع (البداية/النهاية)
- السورة/الآية ونطاق الكلمات
- خصائص المصحف المستخدمة
ملاحظة الترخيص
كل مصدر خارجي له ترخيصه الخاص. تأكد من توثيق الترخيص الأصلي لكل مجموعة بيانات أو نموذج مستخدم.