خطوات المسار

هذا القسم يوسّع الخطوات المذكورة في README.md ويجعل تدفق البيانات والوسوم واضحًا لأغراض البحث وإعادة الإنتاج.

المسار خطوة بخطوة (مفهومي)

الخطوة	المدخلات	المخرجات	ملاحظات
1. جمع التلاوات	صوت خام	مجموعة صوتية منقّاة	يُفضّل تلاوات عالية الجودة مع بيانات وصفية.
2. التقسيم حسب الوقف	الصوت الخام	مقاطع قصيرة	تقسيم الوقف أدق من تقسيم الآية في كثير من الحالات.
3. النسخ الآلي	المقاطع	نص إملائي	استخدام Whisper مخصص للقرآن للنص الأولي.
4. التصحيح	نص إملائي	نص إملائي مصحّح	باستخدام خوارزمية التسميع (`quran-transcript`).
5. تحويل الرسم	إملائي → عثماني	نص عثماني	يعتمد على خريطة الرسم في `quran-transcript`.
6. التحويل الصوتي	عثماني	فونيمات + صفات	`quran_transcript.quran_phonetizer` يولّد الوسوم.
7. التدريب	الصوت + الوسوم	نموذج CTC متعدد المستويات	Wav2Vec2BERT مع رؤوس متعددة.

المولّد الأساسي:

python

from quran_transcript import quran_phonetizer

وينتج:

ثم تُحوّل هذه الوسوم إلى مُعرّفات عبر MultiLevelTokenizer أثناء التدريب.

راجع صفحة التقييم والقياسات لاختيار المعايير المناسبة.