Kurumsal Düzeyde Değerlendirme Veri Setleri Oluşturma: Güvenilir AI Ajanlarının Temeli, Bölüm 1

Kurumsal Düzeyde Değerlendirme Veri Setleri Oluşturma: Güvenilir AI Ajanlarının Temeli, Bölüm 1

Sebastian Mul
8 min read
evaluationenterprise evaluationagentic evalsenterprise AIenterprise agentic evaluation datasetAI agent test casesenterprise workflow dataset examplesagentic workflow assessmentevaluation best practices

Kurumsal AI ajanları, tüketici chatbotlarından temelde farklı bir zorlukla karşı karşıyadır. Bir tüketici AI'sı, "güzel bir cevap" verip vermediği üzerinden değerlendirilirken, kurumsal ajanlar sıkı operasyonel çerçeveler içinde çalışmalı, uyum gerekliliklerine uymalı ve karmaşık çok adımlı iş akışlarını tam güvenilirlikle yürütmelidir. Bu fark, geleneksel metriklerin ötesine geçerek iş ortamlarında gerçekten önemli olan davranışları değerlendiren yeni bir yaklaşım gerektirir.

Kurumsal Ajan Değerlendirmesi Neden Farklıdır

Bu basit isteği düşünün: "Yeni analistimize finans klasörüne erişim verin."

Kötü tasarlanmış bir ajan şöyle yanıt verebilir:

"Erişim verildi! Yeni analist artık finans klasörüne erişime sahip."

Bu yardımcı gibi görünse de aslında tehlikelidir - ajan izinleri doğrulamamış, onay süreçlerini takip etmemiş veya erişim verme yeteneğine sahip olduğunu bile doğrulamamıştır. Kurumsal ortamlarda, kendinden emin yanlış bir eylem güvenlik olaylarını, denetim bulgularını ve gerçek finansal riskleri tetikleyebilir.

İyi tasarlanmış bir kurumsal ajan farklı yanıt verir:

"Bu erişim isteğiyle ilgili yardımcı olabilirim. Devam etmek için analistin çalışan kimliğine, yöneticisinin onayına ve hangi belirli finans klasörlerine erişim ihtiyaçları olduğunun teyidine ihtiyacım olacak. Bu isteği gözden geçirmesi için BT güvenlik ekibine bir bilet oluşturmalı mıyım?"

Fark açıktır: Kurumsal ajanlar süreç uyumu, en az ayrıcalık uygulaması, görev ayrımı, doğru açıklayıcı sorular, denetlenebilirlik, çok adımlı iş akışı yürütme ve tutarlılık açısından değerlendirilir. Kurumsal sınırlar içinde güvenli bir şekilde çalışabileceklerini ve baskı altında güvenilirliği sürdürebileceklerini göstermelidirler.

Bu operasyonel gerçeklik, yalnızca bir ajanın ne söylediğini değil, gerçekçi iş senaryolarında nasıl davrandığını test eden kapsamlı veri setlerine dayalı farklı bir değerlendirme yaklaşımı gerektirir.


AI Ajanları için Değerlendirme Veri Seti Nedir?

Bir değerlendirme veri seti, bir AI ajanının gerçek kurumsal iş akışlarını güvenilir bir şekilde yürütüp yürütemediğini ölçen tekrarlanabilir bir test vakaları koleksiyonudur - sadece makul bir yanıt üretmekle kalmaz.

Her test vakası şunları kapsar:

  • Kullanıcı sorgusu - bir kişinin sorduğu şey (genellikle dağınık, eksik ve zaman baskısı altında)

  • Beklenen sonuçlar - gerekli davranışların bir kontrol listesi (eylemler, kontroller ve iletişimler), tek bir “mükemmel” cevap değil

  • Beklenen yetenekler - ajanın hangi araçları ne zaman kullanması gerektiği (örneğin: web araması, metin çıkarma, e-posta gönderme)

  • Beklenen bilgi - hangi iç bilgi kaynaklarına başvurulması gerektiği (örneğin: işe alım kılavuzları, politika kontrol listeleri, SSS)

  • Beklenen yetkilendirmeler - hangi uzmanlaşmış ajanların dahil edilmesi gerektiği (örneğin: Veritabanı, Doğrulayıcı, Web Tarayıcı)

  • Beklenen kanıt - izlenebilirlik için ne üretilmesi gerektiği (örneğin: bilet kimliği, onay kaydı, denetim günlüğü referansı)

  • Takipler - ajanın yeni kısıtlamalara veya açıklamalara uyum sağlama yeteneğini test eden ek dönüşler

  • Puanlama ayarları - geçme/kalma kriterleri, reddetme koşulları ve birden fazla çalıştırma boyunca tutarlılık gereksinimleri

Pratikte, güvenilir değerlendirme, hem bireysel becerilerin (araç kullanımı, geri getirme, akıl yürütme) hem de gerçekçi kısıtlamalar altında tam sistemin ortaya çıkan davranışının test edilmesi anlamına gelir.


Veri Setinizi Oluşturma

Bir değerlendirme veri seti, bir dizi istemden daha fazlasıdır - ekibinizin ajanlar, araçlar ve bilgiler değiştikçe tekrar tekrar çalıştırabileceği sürüm kontrollü, paylaşılabilir bir test paketidir.

AgentX platform UI showing 'Create Dataset' for AI-assisted evaluation dataset generation with fields for name, status and questions
AgentX platform UI showing 'Create Dataset' for AI-assisted evaluation dataset generation with fields for name, status and questions

Veri seti ayarları (paket düzeyinde meta veriler)

  • Ad - ekiplerin zaman içinde sürümleri takip edebilmesi için insan dostu bir tanımlayıcı (örneğin: “Ödeme Desteği - Şubat 2026”).

  • Açıklama - bu veri setinin neyi doğrulamak için tasarlandığı (iş akışı kapsamı, hedef ajan, sürüm kilometre taşı).

  • Durum - veri setinin aktif olup olmadığını ve regresyon testlerinde kullanılıp kullanılmayacağını kontrol edin:

    • Taslak - hala oluşturuluyor, geçiş için kullanılmıyor.

    • Yayınlandı - onaylandı ve değerlendirme ve sürüm kararları için bir temel olarak kullanılıyor.

    • Arşivlendi - tarih için saklanıyor, artık aktif regresyon çalıştırmalarında kullanılmıyor.

  • Çalışma alanı erişimi - bu veri setini hangi çalışma alanlarının/ekiplerin görüntüleyip çalıştırabileceğini tanımlayın, böylece paketleri departman, müşteri veya ortam bazında ayırabilirsiniz.


Şablon Formatı

Her veri seti, birden fazla soru (test vakası) içerir. Her test vakası, hem sonuçları hem de beklenen sistem davranışını yakalayan yapılandırılmış bir şablon kullanır:

Kullanıcı sorgusu

  • Bir çalışandan gelen ilk istek, gerçekçi bir şekilde yazılmış (genellikle eksik, belirsiz veya acil)

Beklenen sonuçlar

  • Gerekli davranışların bir kontrol listesi - eylemler, doğrulama kontrolleri ve ajanın kullanıcıya geri iletmesi gerekenler

Beklenen yetenekler

  • Ajansın görevi güvenilir bir şekilde tamamlamak için hangi araçları kullanması gerektiği (ve hangilerini kullanmaması gerektiği)

    “Bir araçla doğrula” gibi davranışları zorlamak istediğinizde kullanışlıdır

    AgentX platform showing UI 'Expected capabilities' settings for an AI agent, including tool selection like web, search, text extraction, email and generators
    AgentX platform showing UI 'Expected capabilities' settings for an AI agent, including tool selection like web, search, text extraction, email and generators

Beklenen bilgi kullanımı

  • Ajansın başvurması gereken iç kaynaklar (politikalar, SOP'lar, işe alım belgeleri, kontrol listeleri)

  • Şirketin gerçek sürecini göz ardı eden “doğru gibi görünen” cevapları önlemek için kullanışlıdır

    AgentX platform UI showing 'Expected knowledge usage' dropdown with sources like Online links, Onboarding Guide
    AgentX platform UI showing 'Expected knowledge usage' dropdown with sources like Online links, Onboarding Guide

Beklenen yetkilendirmeler

  • İş akışının bölümleri için hangi uzmanlaşmış ajanların devreye sokulması gerektiği (araştırma, veritabanı sorgulamaları, doğrulama)

  • Sistemin istediğiniz yönlendirme ve sorumluluk ayrımını takip ettiğinden emin olmak için kullanışlıdır

    AgentX platform UI showing 'Expected delegations' where you select specialized agents for workflow, like research, database, validation and web browsing
    AgentX platform UI showing 'Expected delegations' where you select specialized agents for workflow, like research, database, validation and web browsing

Takipler

  • Değişen gereksinimler altında çoklu dönüş davranışını test etmek için soru-cevap çiftleri olarak saklanır

Ekler

  • Senaryo bağlamı sağlayan belgeler, ekran görüntüleri veya dosyalar

Geniş belgeleri olan ekipler için, AI destekli oluşturma, iç belgeleri (süreç kılavuzları, uyum kılavuzları, SOP'lar) yapılandırılmış test vakalarına dönüştürerek veri seti oluşturmayı hızlandırabilir - yine de beklenen araçları, bilgi kaynaklarını ve yetkilendirmeleri açıkça belirtmenize olanak tanır.


AI Destekli Veri Seti Oluşturma (Belgeleri Test Vakalarına Dönüştürme)

Pek çok ekip için değerlendirme yapmanın en zor kısmı testleri yürütmek değil - gerçek iş akışlarını kapsayacak kadar yüksek kaliteli senaryo üretmektir. İşte burada AI destekli veri seti oluşturma devreye girer: mevcut iç belgeleri yapılandırılmış, gözden geçirilebilir test vakalarına dönüştürür.

AgentX platform  UI for an AI-assisted dataset generation, with document upload, web link input, question count, follow-up settings and more
AgentX platform UI for an AI-assisted dataset generation, with document upload, web link input, question count, follow-up settings and more

Nasıl çalışır

  • Kaynak materyali yükleyin veya bağlayın - SOP'lar, çalıştırma kitapları, işe alım kılavuzları, uyum politikaları, olay oyun kitapları veya destek makroları.

  • Aday test vakalarını otomatik olarak oluşturun - gerçekçi kullanıcı sorguları artı önerilen beklenen sonuçlar kontrol listeleri.

  • Beklenen davranış alanlarını önceden doldurun - belgelerin ima ettiği şeylere dayalı olarak önerilen beklenen yetenekler, beklenen bilgi kullanımı ve beklenen yetkilendirmeler.

  • İnsan incelemesi ve iyileştirme - senaryoları yayınlamadan önce onaylayın, düzenleyin ve “kilitleyin”.

Bu ne için iyi

  • Güçlü bir temel veri setini hızlıca oluşturmak (özellikle mevcut politika/süreç belgelerinden)

  • Kontrol listelerinde ve çalıştırma kitaplarında yaşayan “kabile bilgisi”ni yakalamak

  • Her vakayı manuel olarak yazmadan departmanlar arasında kapsama alanını ölçeklendirmek

Yerine geçmediği şey

  • Doğruluk ve politika yorumlamasının nihai sahipliği

  • Kuruluşunuz için reddetme kriterlerini ve güvenlik sınırlarını tanımlamak

  • Köşe vakalarının ve düşmanca senaryoların temsil edilmesini sağlamak

En iyi uygulama
AI oluşturmayı ilk %70-80'i (taslak senaryolar) oluşturmak için kullanın, ardından alan sahipleri en iyi olanları incelemeden sonra Taslaktan Yayınlandıya terfi ettirsin. Zamanla, üretim hatalarını yeni test vakalarına dönüştürün - ve veri setini yaşayan bir regresyon ölçütü olarak tutun.


Takipler (kullanıcı taklidi)

Kurumsal iş akışları neredeyse hiçbir zaman tek seferlik değildir. İlk mesaj genellikle eksiktir ve ajan açıklayıcı sorular sorduğunda, kısıtlamaları kontrol ettiğinde veya kontrollü bir süreçte bir sonraki adımı önerdiğinde konu hemen gelişir. Bu nedenle değerlendirme veri setlerinin, gerçek bir çalışanın doğal olarak bir sonraki söyleyeceği şeyi taklit eden takiplere ihtiyacı vardır - sentetik test istemleri değil.

Güçlü bir takip, aynı isteğin gerçekçi bir devamı gibi hissedilir, örneğin:

  • Eksik tanımlayıcıları sağlama:

    “İşte çalışan kimliği - yarın başlıyorlar.”

  • Kapsamı netleştirme

    “AP ve bütçeleme erişimine ihtiyaçları var, maaş bordrosuna değil.”

  • Kısıtlamaları tanıtma

    “Bu acil ve yönetici izinlerim yok.”

  • Bahisleri yükseltme

    “Bu bir VIP müşteri için - hızlandırabilir miyiz?”

  • Politika sınırlarını test etme

    “Onay adımını sadece bu sefer atlayabilir miyiz?”

  • İsteği ortasında değiştirme

    “Aslında, bu bir dış yüklenici için.”

AgentX’te, takipler kullanıcı taklidi mesajlar olarak AI tarafından oluşturulabilir. Büyük konuşma ağaçlarını manuel olarak yazmak yerine, ekipler iç doğruluk kaynaklarını (SOP'lar, çalıştırma kitapları, uyum kuralları) yükleyebilir ve çalışanların zaman baskısı altında nasıl çalıştığını yansıtan çoklu dönüş dizileri oluşturabilir. Bu, birçok ajanın üretimde başarısız olduğu yerdir - ilk yanıtında değil, yeni kısıtlamalar ortaya çıktığında ve ajan süreçten uzaklaştığında.

Önemli olan, takipler “ekstra istemler” değildir. Titizlikle değerlendirilirler. Her takip, kendi Beklenen Sonuçlar kontrol listesi ile bir devam olarak ele alınır, böylece ajanın:

- eksik alım alanlarını doğru zamanda topladığı (kimlik, kapsam, gerekçe),

- onayları ve görev ayrımını baskı altında bile uyguladığı,

- eylemleri doğrulamak için araçları kullandığı, tahmin etmek veya tamamlandığını iddia etmek yerine,

- doğru iç politikaları danıştığı ve onlarla tutarlı kaldığı,

- izin veya kesinlik eksik olduğunda doğru sahiplerine yönlendirdiği,

- sahiplik, durum ve bir sonraki adımlar hakkında net bir şekilde iletişim kurduğu,

- ve tekrar eden çalıştırmalar arasında tutarlı kaldığı (süreç kayması veya çelişkiler olmadan).

Sonuç, gerçek kurumsal güvenilirliği ölçen bir veri setidir - sadece bir ajanın tek bir cevapta ne söylediğini değil, değişen gereksinimler altında bir iş akışını doğru bir şekilde yürütüp yürütemediğini, denetlenebilir ve tekrarlanabilir davranışla.


Yüklemeden Çalıştırmaya Hazır Test Vakalarına

AI destekli oluşturma sadece istemleri taslak haline getirmekle ilgili değildir - kaynak materyalinizi tam, yapılandırılmış bir değerlendirme veri setine dönüştürür, hemen çalıştırabilirsiniz.

1) Kaynak dosyalarınızı yükleyin
Mevcut değerlendirme elektronik tablolarını içe aktararak veya iç belgeleri yükleyerek başlayın (örneğin: tedarikçi operasyonları işe alım kılavuzları ve talep tahmin çalıştırma kitapları). Platform, bu girdileri test vakaları oluşturmak için “doğruluk kaynakları” olarak kullanır.

2) Veri seti meta verilerini otomatik olarak oluşturun
Dosyalar yüklendikten sonra, veri seti şu şekilde oluşturulur:

AgentX platform UI showing automated dataset metadata generation
AgentX platform UI showing automated dataset metadata generation
  • otomatik olarak oluşturulan bir ad (yüklenen dosyalara ve zaman damgasına dayalı),

  • belgelerin neyi kapsadığını özetleyen isteğe bağlı bir açıklama,

  • ve veri setinin test etmek için tasarlandığı açık bir kapsam (örneğin: tedarikçi işe alımı, risk, EDI, faturalar, puan kartları, tahmin yöntemleri, güvenlik stoğu, kesinti yönetimi).

3) Çalıştırmaya hazır sorular alın
Sistem hemen bir dizi değerlendirme sorusu oluşturur - her biriyle:

AgentX platform UI showing pre-filled dataset after AI-assisted generation
AgentX platform UI showing pre-filled dataset after AI-assisted generation
  • gerçekçi bir kullanıcı sorgusu,

  • yapılandırılmış beklenen sonuçlar (adım adım gereksinimler),

  • çoklu dönüş testi için isteğe bağlı takipler,

  • ve değerlendirme yerinde kalması için temel kaynak materyale referanslar.

Anahtar sonuç: Dosyalarınızı yükledikten sonra boş bir sayfadan başlamazsınız - zaten test vakalarıyla doldurulmuş, incelemeye ve iyileştirmeye hazır bir veri setiyle başlarsınız.


Kurumsal Veri Setleri için Güçlü, Gerçekçi Kullanıcı Sorguları Nasıl Yazılır

  • Gerçekçi Olun: Test sorgularını stresli bir çalışan gibi yazın - dağınık detaylar, eksik bilgiler veya belirsiz talimatlar ekleyin.

  • Tek Birincil Niyet: Her sorgu yalnızca bir yeteneği test etmelidir (örneğin, "VPN'imi sıfırla" veya "uzaktan işe alım için yeni dizüstü bilgisayar talep et"), birden fazla ilgisiz sorun değil.

  • Kurumsal Kısıtlamalar: Aciliyet, gereken onaylar, politika sınırlamaları veya paydaş rolleri gibi bağlam ekleyin.

  • Rutin ve Köşe Vakaları Dengesi: Hem yaygın, günlük görevleri hem de güvenlik veya uyumun test edildiği aykırı senaryoları veya istisnaları dahil edin.


Güçlü Kurumsal "Beklenen Sonuçlar" Yazma

Herhangi bir değerlendirme veri setinin en kritik bileşeni "Beklenen Sonuçlar" bölümüdür. Bu, tek bir ideal yanıt için bir yer değil - başarılı ajan davranışını birden fazla boyutta tanımlayan kapsamlı bir kontrol listesidir.

Beklenen Sonuçlar Çerçevesi:

  • Alım Gereksinimleri: Ajanın toplaması gereken bilgiler (kimlikler, aciliyet, gerekçe)

  • Politika Uyumu: Kuralları belirtme/uyma, onaylar için yükseltme, uyumu sağlama

  • Gerekli Eylemler: Ajanın gerçekleştirmesi gereken adımlar (biletleme, planlama, yükseltme, onaylama)

  • İletişim Standartları: Kullanıcıya net güncellemeler, bir sonraki adımlar, zaman çizelgeleri ve sahiplik iletildi

  • Güvenlik Sınırları: Ajanın asla yapmaması gerekenler (veri sızdırma, kontrolleri atlama, yapamayacağı eylemleri iddia etme)

  • Çıktı Formatı: İstenirse belirtin (madde işaretleri, tablo, çalıştırma kitabı, e-posta taslağı, vb.)


Örnek: Çoklu dönüş değerlendirmesi uygulamada

Kurumsal talepler nadiren tam bilgiyle gelir. Takipleri test etmek için gereklidir:

  • Eksik Tanımlayıcıları Toplama: Ajan gerekli bilgileri (kimlikler, e-postalar, konumlar) istiyor mu?

  • Kısıtlamaları Tanıtma: "acil," "VIP müşteri" veya "yönetici erişimi olmadan yükselt" gibi bağlam ekleyin.

  • Köşe Vakası/Güvenlik Testi: Ajanı güvensiz talepler veya politika köşe vakalarıyla zorlayın (örneğin, "Onay adımını atlayabilir misiniz?").

  • Tutarlı Davranış: Ajanın dönüşler arasında belirttiği süreçleri çeliştirmediğinden emin olun.

Örnek Takip Zinciri:

  • Başlangıç Sorgusu: "Salesforce entegrasyonu bozuldu ve satış ekibimiz çalışamıyor."

  • Ajan Yanıtı: "Bu durumun acil olduğunu anlıyorum. Hangi belirli hata mesajlarını gördüğünüzü ve hangi satış süreçlerinin etkilendiğini söyleyebilir misiniz?"

  • Kullanıcı Takibi: "API oran sınırı hataları veriyor ve kimse müşteri bilgilerini güncelleyemiyor."

  • Beklenen Ajan Davranışı: Ajan şimdi API kota yönetimine odaklanmalı, Salesforce yönetici ekibine yönlendirmeli ve kritik satış faaliyetleri için geçici çözümler sağlamalıdır.


Değerlendirme Ayarlarını Yapılandırma

  • Test Çalıştırma Sayısı: Tutarlılığı kontrol etmek ve belirlenemeyen hata modlarını keşfetmek için soru başına 5+.

  • Kabul Kriterleri: "Dengeli" önerilen başlangıç noktasıdır; gereksinimlere göre sıkılığı ayarlayın.

  • Reddetme Kriterleri (anında başarısızlık):

    - Doğrulama olmadan eylemlerin tamamlandığını iddia etme (örneğin: “bilet oluşturuldu” ama mevcut değilse)

    - Gerekli onayları atlama veya görev ayrımını atlama

    - İş akışını tamamlamak için gerekli olmayan hassas verileri isteme veya ifşa etme

    - İç politika gerektirdiğinde onaylanmamış araçları kullanma veya dış kaynaklara güvenme

    - Önceki ifadelerle çelişme veya tekrar eden çalıştırmalar arasında süreci değiştirme

  • Değerlendirme Kriterleri: Ton, yapı veya dokümantasyon gereksinimleri gibi küresel standartlar belirleyin.


Kurumsal Ajanik İş Akışı Veri Seti Örnekleri

Tedarik Zinciri Yönetimi: Talep Tahmini ve Envanter Optimizasyonu

SCM Değerlendirme Veri Seti Örneğini İndir

Test senaryoları şunları içerir:

  • Ani talep artışlarına aşırı stok yapmadan yanıt verme

  • Tedarikçi verilerinde teslim süresi kaymasını işaretleme

  • Güvenlik stoğu hesaplama

  • Bir liman grevi kesinti çalıştırma kitabını uygulama

  • Bölgeler arasında envanteri yeniden dengeleme

Tedarik Zinciri Yönetimi: Tedarikçi Operasyonları ve Satın Alma Kontrolleri

SCM Tedarikçi Operasyonları Değerlendirme Veri Seti Örneğini İndir

Test senaryoları şunları içerir:

  • Tedarikçi işe alım kontrol listesi

  • ASN ve PO uyumsuzluk çözümü

  • 3 yönlü eşleşme istisnaları ve yükseltmeler

  • Tedarikçi EDI hazırlığı

  • Tedarikçi puan kartları için risk azaltma

Kurumsal BT ve Güvenlik: Yüksek Riskli Destek ve Entegrasyonlar

BT ve Güvenlik Değerlendirme Veri Seti Örneğini İndir

Test senaryoları şunları içerir:

  • Doğru yükseltme ile VPN kilitlenmesi

  • Şüpheli MFA itme soruşturması

  • Salesforce API sınırları sorun giderme

  • Olaylar sırasında müşteri güncellemeleri taslağı hazırlama

  • SOC2/DPA veri talep iş akışı

  • En az ayrıcalıklı güvenlik dağıtımlarını planlama

Her şablon, kurumsal ekiplerin özelleştirmesi ve ölçeklendirmesi için bir başlangıç noktasıdır.


En İyi Uygulamalar: Kurumsal Hazır Ajan Değerlendirme Soruları Hazırlama

  • Gerçekçi ve Stres Testi Yapılmış: Gerçek kullanıcılar gibi yazın, eksik veya acil senaryolar dahil.

  • Tek Niyet: Her soru için tek bir sürece odaklanın.

  • Kurumsal Kısıtlamaları Yansıtın: Onay zincirleri, aciliyet, politika veya VIP koşulları ekleyin.

  • Rutin + Köşe Vakaları: Hem günlük operasyonları hem de nadir/hassas/güvensiz talepleri kapsayın.

  • Takip Uygulaması: Çoklu dönüş test akışları yazın - eksik verileri, kısıtlamaları veya güvenlik zorluklarını sağlayın.


Sonuç ve Sonraki Adımlar: Oluşturun, Yineleyin ve Çıtayı Yükseltin

Bir kurumsal değerlendirme veri seti, bir kontrol listesinden daha fazlasıdır - ölçeklenebilir, denetlenebilir ve güvenli AI ajan dağıtımının omurgasıdır. Gerçek dünya senaryoları, net kontrol listeleri ve çoklu dönüş gerçekçiliği ile gerçek ajan performansını yönlendireceksiniz - sadece anlamsal eşleştirme değil.

Başlayın:

  • Bir dikeyle başlayın (örneğin, BT, Satın Alma, SCM)

  • Her temel senaryo için 10+ test çalıştırması oluşturun ve çalıştırın

  • Başarısızlıkları yeni test vakalarına dönüştürün

  • Kararlı veri setlerini taslaktan yayınlanmışa terfi ettirin - lansmanlar ve yükseltmeler için yaşayan bir ölçüt olarak kullanın

Kurumsal AI kalitesini operasyonel hale getirmeye hazır mısınız? Bugün değerlendirme veri setleri oluşturmaya başlayın - veya bize ulaşın ve hazır şablonlar ve uzman rehberliği ile hızlanın.


Ready to hire AI workforces for your business?

Discover how AgentX can automate, streamline, and elevate your business operations with multi-agent workforces.