التقييم والقياسات
تهدف هذه الصفحة إلى تحديد مقاييس تقييم موصى بها للباحثين لضمان مقارنة عادلة وقابلة لإعادة الإنتاج.
1) المقاييس الأساسية
معدل خطأ الفونيمات (PER)
- يحسب مسافة التحرير بين تسلسل الفونيمات المتوقع والمرجع.
- PER = (S + D + I) / N حيث
S,D,Iهي الاستبدال والحذف والإدراج، وNطول المرجع.
دقة/F1 صفات الحروف
- مقارنة صفات كل مجموعة فونيمات مع المرجع.
- يُنصح بالإبلاغ عن Macro‑F1 لكل صفة لتجنّب تحيز الفئات الشائعة.
جودة المحاذاة
- قياس نسبة تطابق مجموعة الفونيمات المتوقعة مع المرجع.
- يمكن استخدام دقة المحاذاة أو قياس تداخل (IoU) عند استخدام مجموعات موسّعة.
تحديد موضع الخطأ
- إذا كانت هناك تسمية لأنواع الأخطاء، احسب نسبة تمييز المجموعة الصحيحة التي تحتوي الخطأ.
عامل الزمن الحقيقي (RTF)
- RTF = زمن المعالجة / طول الصوت.
- يُفضل الإبلاغ عن الوسيط و P90.
2) تقسيمات التقييم المقترحة
- تسجيلات نظيفة (مرجع أساسي)
- تسجيلات هاتف/بيئات واقعية
- سرعات مختلفة:
مرتلوحدر - تلاوات المتعلمين (لقياس كشف الأخطاء)
استخدم بذرة ثابتة للتقسيمات لضمان إعادة الإنتاج.
3) نموذج تقرير موصى به
- حجم البيانات (ساعات + عدد المقاطع)
- PER (متوسط + انحراف)
- Macro‑F1 لكل صفة
- دقة المحاذاة
- RTF (وسيط + P90)
- تفاصيل العتاد (نوع البطاقة والدقة)
4) ملاحظات عن المعايرة
قِيَم Unit.probs ليست مُعايرة. إذا استخدمت عتبات ثقة:
- قم بالمعايرة على مجموعة تحقق صغيرة (Temperature Scaling مناسب كبداية).
- أبلغ عن النتائج قبل وبعد المعايرة.
5) أخطاء شائعة
- حدود المقاطع قد تهيمن على أخطاء المحاذاة.
- تحسن PER عادة أسرع من دقة الصفات؛ أبلغ عن كليهما.
- تباين RTF غالبًا مرتبط بالصمت الطويل → VAD قد يساعد.