التقييم والقياسات

تهدف هذه الصفحة إلى تحديد مقاييس تقييم موصى بها للباحثين لضمان مقارنة عادلة وقابلة لإعادة الإنتاج.

1) المقاييس الأساسية

معدل خطأ الفونيمات (PER)

يحسب مسافة التحرير بين تسلسل الفونيمات المتوقع والمرجع.
PER = (S + D + I) / N حيث S,D,I هي الاستبدال والحذف والإدراج، وN طول المرجع.

دقة/‏F1 صفات الحروف

مقارنة صفات كل مجموعة فونيمات مع المرجع.
يُنصح بالإبلاغ عن Macro‑F1 لكل صفة لتجنّب تحيز الفئات الشائعة.

جودة المحاذاة

قياس نسبة تطابق مجموعة الفونيمات المتوقعة مع المرجع.
يمكن استخدام دقة المحاذاة أو قياس تداخل (IoU) عند استخدام مجموعات موسّعة.

تحديد موضع الخطأ

إذا كانت هناك تسمية لأنواع الأخطاء، احسب نسبة تمييز المجموعة الصحيحة التي تحتوي الخطأ.

عامل الزمن الحقيقي (RTF)

RTF = زمن المعالجة / طول الصوت.
يُفضل الإبلاغ عن الوسيط و P90.

2) تقسيمات التقييم المقترحة

تسجيلات نظيفة (مرجع أساسي)
تسجيلات هاتف/بيئات واقعية
سرعات مختلفة: مرتل وحدر
تلاوات المتعلمين (لقياس كشف الأخطاء)

استخدم بذرة ثابتة للتقسيمات لضمان إعادة الإنتاج.

3) نموذج تقرير موصى به

حجم البيانات (ساعات + عدد المقاطع)
PER (متوسط + انحراف)
Macro‑F1 لكل صفة
دقة المحاذاة
RTF (وسيط + P90)
تفاصيل العتاد (نوع البطاقة والدقة)

4) ملاحظات عن المعايرة

قِيَم Unit.probs ليست مُعايرة. إذا استخدمت عتبات ثقة:

قم بالمعايرة على مجموعة تحقق صغيرة (Temperature Scaling مناسب كبداية).
أبلغ عن النتائج قبل وبعد المعايرة.

5) أخطاء شائعة

حدود المقاطع قد تهيمن على أخطاء المحاذاة.
تحسن PER عادة أسرع من دقة الصفات؛ أبلغ عن كليهما.
تباين RTF غالبًا مرتبط بالصمت الطويل → VAD قد يساعد.