Skip to content

التقييم والقياسات

تهدف هذه الصفحة إلى تحديد مقاييس تقييم موصى بها للباحثين لضمان مقارنة عادلة وقابلة لإعادة الإنتاج.

1) المقاييس الأساسية

معدل خطأ الفونيمات (PER)

  • يحسب مسافة التحرير بين تسلسل الفونيمات المتوقع والمرجع.
  • PER = (S + D + I) / N حيث S,D,I هي الاستبدال والحذف والإدراج، وN طول المرجع.

دقة/‏F1 صفات الحروف

  • مقارنة صفات كل مجموعة فونيمات مع المرجع.
  • يُنصح بالإبلاغ عن Macro‑F1 لكل صفة لتجنّب تحيز الفئات الشائعة.

جودة المحاذاة

  • قياس نسبة تطابق مجموعة الفونيمات المتوقعة مع المرجع.
  • يمكن استخدام دقة المحاذاة أو قياس تداخل (IoU) عند استخدام مجموعات موسّعة.

تحديد موضع الخطأ

  • إذا كانت هناك تسمية لأنواع الأخطاء، احسب نسبة تمييز المجموعة الصحيحة التي تحتوي الخطأ.

عامل الزمن الحقيقي (RTF)

  • RTF = زمن المعالجة / طول الصوت.
  • يُفضل الإبلاغ عن الوسيط و P90.

2) تقسيمات التقييم المقترحة

  • تسجيلات نظيفة (مرجع أساسي)
  • تسجيلات هاتف/بيئات واقعية
  • سرعات مختلفة: مرتل وحدر
  • تلاوات المتعلمين (لقياس كشف الأخطاء)

استخدم بذرة ثابتة للتقسيمات لضمان إعادة الإنتاج.

3) نموذج تقرير موصى به

  • حجم البيانات (ساعات + عدد المقاطع)
  • PER (متوسط + انحراف)
  • Macro‑F1 لكل صفة
  • دقة المحاذاة
  • RTF (وسيط + P90)
  • تفاصيل العتاد (نوع البطاقة والدقة)

4) ملاحظات عن المعايرة

قِيَم Unit.probs ليست مُعايرة. إذا استخدمت عتبات ثقة:

  • قم بالمعايرة على مجموعة تحقق صغيرة (Temperature Scaling مناسب كبداية).
  • أبلغ عن النتائج قبل وبعد المعايرة.

5) أخطاء شائعة

  • حدود المقاطع قد تهيمن على أخطاء المحاذاة.
  • تحسن PER عادة أسرع من دقة الصفات؛ أبلغ عن كليهما.
  • تباين RTF غالبًا مرتبط بالصمت الطويل → VAD قد يساعد.