تخطط وكلاء الذكاء الاصطناعي، وتفكر عبر خطوات متعددة، وتستدعي أدوات خارجية، وتعمل بشكل مستقل في بيئات معقدة. لم يعد خط أنابيب CI/CD التقليدي يناسب الحاجة المتزايدة لتكرارات الوكلاء. هذا التحول كشف عن فجوة خطيرة: طرق التقييم التي اعتمدنا عليها لسنوات لم تكن ببساطة مبنية لهذا الغرض.

المقاييس الكلاسيكية مثل BLEU وROUGE صُممت حول التداخل المعجمي (أو التشابه المعجمي). تتحقق مما إذا كان النص المولد يشارك كلمات أو عبارات مع إجابة مرجعية. بالنسبة للمهام الضيقة مثل الترجمة الآلية، يعمل هذا النهج بشكل معقول. ولكن عندما يحتاج الوكيل إلى التفكير في مشكلة متعددة الخطوات، أو يقرر أي أداة يستخدم، أو يقدم إجابة دقيقة وحساسة للسياق، فإن مطابقة الكلمات لا تخبرك تقريبًا بأي شيء عن ما إذا كانت المخرجات جيدة بالفعل.

المشكلة تتجاوز مجرد الفروق النوعية. تعاني المعايير التقليدية أيضًا من التغطية، والاتساق، والنطاق. تشغيل تقييم بشري واسع النطاق مكلف وبطيء. والمعايير الثابتة تخاطر بأن تصبح قديمة، أو أسوأ من ذلك، ملوثة، عندما يتم تدريب النماذج على البيانات التي يتم اختبارها ضدها. معايير الذكاء الاصطناعي اليوم تتطلب نهجًا مختلفًا جذريًا، واحدًا يكون قابلاً للتوسع، وواعٍ للسياق، ومستندًا إلى كيفية حكم البشر فعليًا على الجودة.

LLM كقاضٍ هو منهجية تقييم حيث يتم استخدام نموذج لغة كبير لتقييم جودة المخرجات التي ينتجها نظام ذكاء اصطناعي آخر. بدلاً من الحاجة إلى مراجع بشري أو وظيفة تسجيل مشفرة، يقرأ نموذج القاضي المدخلات، والاستجابة المولدة، ومجموعة من معايير التقييم، ثم ينتج درجة، أو تصنيف، أو تقييم منظم.

المنطق بسيط: LLMs القوية لديها فهم لغوي قوي، يمكنها اتباع تعليمات دقيقة، ويمكنها تقييم الصفات التي يصعب تشغيلها في الكود، مثل النبرة، والمساعدة، والاتساق المنطقي، والتوافق مع القيم البشرية. أظهرت الأبحاث أن قضاة LLM يمكنهم الاتفاق مع المراجعين البشريين بنسبة تتراوح بين 80 إلى 85 في المائة في العديد من مهام التقييم، مما يجعلهم بديلاً عمليًا وفعالًا من حيث التكلفة للتقييم البشري على نطاق واسع.

هذا النهج اكتسب زخمًا كبيرًا في فرق علوم البيانات وهندسة التعلم الآلي. تشمل حالات الاستخدام الحالية:

تقييم روبوتات الدردشة لدعم العملاء من حيث جودة الاستجابة، والدقة، والنبرة
تقييم المحتوى التوليدي من حيث الصلة والسلامة
مراقبة خطوط أنابيب وكلاء الذكاء الاصطناعي المعقدة حيث يتعاون العديد من الوكلاء، يتناقلون المهام، أو يتفاوضون على المخرجات
تشغيل اختبارات الانحدار التلقائية عند تحديث أو تحسين نموذج

وجدت دراسة شاملة نُشرت في عام 2025 أن LLM كقاضٍ أصبح واحدة من أكثر استراتيجيات التقييم اعتمادًا في أنظمة الذكاء الاصطناعي الإنتاجية، جزئيًا لأنه يمكن أن يعمل بشكل مستمر دون عنق زجاجة دورات التعليق البشري.

كيف تقيم LLMs وكلاء الذكاء الاصطناعي: المنهجيات الأساسية

إعداد نظام LLM كقاضٍ يتطلب اختيارات تصميم متعمدة. كل من إعدادات التقييم الثلاثة الأكثر شيوعًا تخدم أغراضًا مختلفة.

التقييم القائم على التوجيه هو الشكل الأكثر مباشرة. يتلقى نموذج القاضي توجيهًا منظمًا يتضمن المدخلات الأصلية، ومخرجات الوكيل، وتعليمات التسجيل المرتبطة بمعايير محددة. على سبيل المثال، قد يُطلب من القاضي تقييم استجابة على مقياس من واحد إلى خمسة للدقة الواقعية، وبشكل منفصل للمساعدة. تُعرّف المعايير باللغة الطبيعية، مما يمنح هذه الطريقة المرونة ولكن يعني أيضًا أن جودة التقييم تعتمد بشكل كبير على هندسة التوجيه.

التقييم القائم على المعيار يضيف هيكلًا من خلال تزويد القاضي بدليل تقييم مفصل، مشابه لمعيار التقييم الذي يستخدمه المعلم. يتم وصف كل مستوى من مستويات الدرجات بشكل صريح. قد يتطلب الحصول على درجة خمسة للدقة الواقعية أن تكون جميع الادعاءات قابلة للتحقق ولا يوجد معلومات مفقودة، بينما قد تشير درجة اثنين إلى وجود أخطاء واقعية متعددة. يحسن هذا النهج الاتساق عبر عمليات التقييم الكبيرة ويجعل التسجيل أكثر قابلية للتكرار.

المقارنة الزوجية والتقييم على غرار لوحة المتصدرين يأخذ زاوية مختلفة. بدلاً من تسجيل استجابة واحدة بشكل معزول، يُظهر القاضي استجابتين جنبًا إلى جنب ويُطلب منه تحديد أيهما أفضل، أو بمقدار كم. يقلل هذا التنسيق من صعوبة تعيين الدرجات المطلقة وقد تم استخدامه على نطاق واسع في منصات مثل Vellum LLM Leaderboard لترتيب النماذج بالنسبة لبعضها البعض. تميل المقارنات الزوجية إلى إنتاج اتفاق بين المقيمين أعلى من التسجيل المطلق، على الرغم من أنها تتطلب المزيد من الحسابات لكل تقييم نظرًا لأن كل مقارنة تتضمن مخرجاتين.

بالإضافة إلى هذه الخيارات الهيكلية، يمكن لقضاة LLM تقييم كل من المقاييس الموضوعية والذاتية. تشمل الأبعاد الموضوعية الدقة الواقعية، ومعدل إتمام المهام، والكمون، ودقة استخدام الأدوات. تشمل الأبعاد الذاتية توافق النبرة، وتماسك الاستجابة، والسلامة. بالنسبة لتقييم وكلاء الذكاء الاصطناعي تحديدًا، غالبًا ما تحتاج الفرق إلى كليهما، لأن الاستجابة الصحيحة تقنيًا يمكن أن تفشل إذا تم تقديمها بطريقة تقوض ثقة المستخدم.

علوم البيانات تحت الغطاء

فهم سبب عمل LLM كقاضٍ، وأين ينهار، يتطلب النظر في علوم البيانات التي تدعمه. ثلاثة مجالات تهم أكثر: تصميم العينة، طرق التجميع، والموثوقية الإحصائية.

طرق أخذ العينات لمجموعات التقييم

تعتمد جودة تشغيل التقييم بشكل كبير على ما يتم تقييمه. تقييم الحالات الأكثر شيوعًا وسهولة سيعطيك صورة مبالغ فيها عن الأداء. يجب أن تغطي عينة تقييم مصممة جيدًا:

الحالات النموذجية: أنواع الاستفسارات الأكثر تكرارًا التي يواجهها نظامك في الإنتاج
الحالات الحادة: الاستفسارات النادرة ولكن عالية المخاطر، مثل المدخلات الغامضة، أو التوجيهات العدائية، أو الطلبات عند حدود قدرات النظام
عينات طبقية حسب الموضوع أو شريحة المستخدم: إذا كان وكيلك يتعامل مع مجالات متنوعة، يجب أن تمثل عينتك كل واحدة منها بشكل متناسب

في الممارسة العملية، تستخدم العديد من الفرق أخذ العينات العشوائية الطبقية لضمان التغطية عبر هذه الفئات. يستخدم البعض أيضًا أخذ العينات بالأهمية، حيث يتم أخذ عينات زائدة من التفاعلات الأصعب أو الأكثر أهمية بالنسبة لتكرارها، لأن الفشل هناك يهم أكثر. لأغراض معايير الذكاء الاصطناعي، فإن وجود مجموعة بيانات تمثيلية وطبقية بعناية هو ما يميز التقييم الهادف عن التقييم الذي يبدو جيدًا على الورق ولكنه يفوت أوضاع الفشل في العالم الحقيقي.

تقنيات تجميع التعليقات التوضيحية

يمكن أن يكون نموذج القاضي الواحد خاطئًا، أو متحيزًا، أو غير متسق. الاستجابة القياسية في علوم البيانات هي التجميع عبر قضاة متعددين أو تمريرات تقييم متعددة. التقنيات الأكثر شيوعًا هي:

التصويت بالأغلبية بسيط ويستخدم على نطاق واسع. قضاة LLM متعددون يقيمون الاستجابة نفسها بشكل مستقل، ويتم تحديد النتيجة النهائية أو التصنيف بناءً على النتيجة التي يختارها الأغلبية. يعمل هذا بشكل جيد عندما تكون المهمة لديها إجابة صحيحة واضحة بشكل معقول، ولكنه يمكن أن يكون مضللًا عندما تكون الأخطاء مترابطة، مثل عندما يشارك جميع القضاة نفس التحيزات التدريبية. يفشل التصويت بالأغلبية القياسي في حساب التباين والارتباط عبر استجابات النماذج، مما يحد من فعاليته في الإعدادات المعقدة. عادةً، يمكن أن يكون استخدام بائع LLM مختلف لكل قاضٍ طريقة جيدة للتخفيف من خطر التحيز.

التجميع المرجح يعالج هذا من خلال تعيين أوزان مختلفة للقضاة المختلفين بناءً على سجلهم أو معايرتهم مقابل العلامات البشرية. قدمت الأبحاث خوارزميات مثل الوزن الأمثل التي تستفيد من المعلومات ذات الترتيب الأعلى من مخرجات القضاة لتتفوق باستمرار على التصويت بالأغلبية البسيط عبر مهام التقييم.

تسجيل الثقة يطلب من القاضي الإبلاغ ليس فقط عن درجة ولكن أيضًا عن مستوى اليقين بجانبها. يمكن بعد ذلك الإشارة إلى الأحكام ذات الثقة المنخفضة للمراجعة البشرية، مما يخلق نظامًا عمليًا يركز الجهد البشري حيث يكون أكثر حاجة.

مقاييس اتفاق بين المقيمين مثل كابا كوهين أو ألفا كريبندورف تعطي الفرق مقياسًا إحصائيًا لمدى اتفاق القضاة المختلفين بشكل متسق. أظهرت نهج التوافق بين القضاة المتعددين تحقيق درجات F1 الكلية تتراوح بين 97.6 إلى 98.4 في المائة مع قيم كابا كوهين قوية، مما يجعلها أكثر موثوقية بشكل كبير من الإعدادات ذات القاضي الواحد.

الموثوقية الإحصائية وأنماط الفشل المعروفة

حتى أنظمة القضاة LLM المصممة جيدًا تحمل مخاطر منهجية يجب على علماء البيانات مراقبتها بنشاط.

التحيز الموضعي هو واحد من أكثر القضايا توثيقًا. تميل قضاة LLM إلى تفضيل الاستجابات بناءً على موقعها في التوجيه، وغالبًا ما تفضل أي خيار يظهر أولاً في مقارنة زوجية أو آخر في قائمة. أكدت دراسة منهجية نُشرت في IJCNLP 2025 هذا عبر نماذج قضاة متعددة وتنسيقات تقييم، مما يظهر أن التحيز الموضعي ليس ضوضاء عشوائية بل نمط متسق وقابل للتكرار. التخفيف القياسي هو عشوائية ترتيب الاستجابات عبر عمليات التقييم ومتوسط النتائج.

التحيز في الإطناب هو مشكلة معروفة أخرى: غالبًا ما تقيم قضاة LLM الاستجابات الأطول والأكثر تفصيلاً أعلى من الاستجابات الموجزة ولكن الصحيحة بنفس القدر، بغض النظر عما إذا كانت الطول الإضافي يضيف قيمة حقيقية.

الألعاب العدائية هي مصدر قلق هيكلي أكثر خطورة. إذا كان النموذج الذي يتم تقييمه لديه وصول إلى معلومات حول كيفية تقييم القاضي للاستجابات، يمكنه تعلم إنتاج مخرجات تسجل جيدًا دون أن تكون أفضل فعليًا. هذا مشابه لقانون جودهارت في الإحصاء: عندما يصبح المقياس هدفًا، يتوقف عن كونه مقياسًا جيدًا.

تلوث البيانات وتسرب المعايير ربما تكون أكبر التهديدات لصحة معايير الذكاء الاصطناعي. إذا تم تدريب النموذج على بيانات تتداخل مع المعيار، فسيتم تضخيم درجاته بشكل مصطنع وتصبح بلا معنى كمؤشر على الأداء في العالم الحقيقي.

تقرير فترات الثقة هو ممارسة جيدة غالبًا ما يتم تجاهلها. تخفي درجة مجمعة واحدة معلومات مهمة حول التباين. توفر الأطر التي تبني فترات الثقة مع مراعاة عدم اليقين من كل من مجموعة الاختبار ومرجع العلامة البشرية للفرق صورة أكثر صدقًا عن مدى موثوقية أرقام تقييمها بالفعل.

مستقبل تقييم وكلاء الذكاء الاصطناعي

المجال لا يقف ساكنًا. عدة اتجاهات تعيد تشكيل كيفية تفكير الفرق في التقييم لمنصات وكلاء الذكاء الاصطناعي.

أطر التقييم متعددة الوكلاء توزع مهمة الحكم عبر لجنة من وكلاء التقييم المتخصصين، يركز كل منهم على بُعد مختلف مثل السلامة، الدقة الواقعية، أو إتمام المهام. يجمع مخرجاتهم يقلل من خطر النقاط العمياء المنهجية التي يحملها أي نموذج قاضٍ واحد. أظهرت الأبحاث من Amazon Science أن التعاون متعدد الوكلاء في التقييم يحسن بشكل ملموس موثوقية وعدالة تقييمات LLM كقاضٍ.

التقييم القائم على المسار يكتسب زخمًا للأنظمة الوكيلة تحديدًا. بدلاً من تسجيل المخرجات النهائية فقط، يفحص التقييم القائم على المسار كل خطوة اتخذها الوكيل للوصول إلى هناك، أي الأدوات التي استدعاها، أي القرارات التي اتخذها، وما إذا كان مسار تفكيره سليمًا حتى لو كانت الإجابة النهائية صحيحة بالصدفة.

التقييم القوي ليس خطوة نهائية في تطوير الذكاء الاصطناعي. إنه بنية تحتية مستمرة. مع تولي أنظمة الذكاء الاصطناعي المستقلة مهام ذات رهانات أعلى، فإن وجود طرق دقيقة وقابلة للتوسع ومستندة إلى الإحصاء لقياس أدائها هو ما يميز الذكاء الاصطناعي الموثوق به عن الذكاء الاصطناعي الذي يبدو موثوقًا به فقط على لوحة المتصدرين.

ابدأ بتقييم وكلاء الذكاء الاصطناعي الخاص بك باستخدام أدوات مثل مجموعة أدوات التقييم AgentX وشاهد كيف يعمل العديد من قضاة LLM من بائعين مختلفين معًا. إنها متوافقة مع أي منصات بناء وكلاء مثل LangChain، CrewAI، AutoGen، LlamaIndex، OpenAI، Anthropic وغيرها. يستغرق الأمر بضع دقائق للحصول على تقرير تقييم كامل على وكيلك.

Try AgentX for Free

ما هو LLM كقاضٍ

كيف تقيم LLMs وكلاء الذكاء الاصطناعي: المنهجيات الأساسية

علوم البيانات تحت الغطاء

طرق أخذ العينات لمجموعات التقييم

تقنيات تجميع التعليقات التوضيحية

الموثوقية الإحصائية وأنماط الفشل المعروفة

مستقبل تقييم وكلاء الذكاء الاصطناعي

Ready to hire AI workforces for your business?

Keep exploring

Co je LLM-jako-soudce

What is AI Agent Evaluation?

Enterprise AI Agent Evaluation: How to Optimize Your Agents for Production-Ready Performance

TUTORIALS

CHANNELS

PRODUCT

COMPANY

RESOURCES

FOLLOW US