AZ

Ən ağıllı süni intellekti necə tapmaq olar

Səhifəyə dağılmış Jonatan Roberts'in vizual-idrak suallarından birindəki başgicəlləndirici hərf dəsti sadist tərəfindən tərtib edilmiş kimi görünür. Test iştirakçıları sadəcə şəkildə gizlədilmiş sözləri tapmaqla kifayətlənmir, həm də ulduz formasında yazılmış bir sualı aşkar edib, onu cavablandırmaqla yükümlüdürlər (aşağıya baxın). Roberts'in yüz sualdan ibarət antologiyasının məqsədi insanlara qatar yolçuluğunda vaxt öldürmək üçün kömək etmək deyil. Bunun əvəzinə, o3-pro kimi son dərəcə qabaqcıl süni intellekt (AI) modellərinə - OpenAI-nin iyun ayındakı ən yuxarı səviyyəli buraxılışına - onların bacarıqlarına layiq bir test təqdim etməkdir. AI modelləri üçün testlərin çatışmazlığı yoxdur. Bəziləri ümumi məlumatı ölçməyi hədəfləyir, digərləri isə konkret mövzularla əlaqəlidir. Bəziləri isə tapmaca həll etmə və yaradıcılıqdan tutmuş dialoq qabiliyyətinə qədər hər şeyi qiymətləndirməyi nəzərdə tutur. Ancaq bu adları çəkilən benchmarking testlərin hamısı iddia etdikləri işi yerinə yetirmir. Bir çoxu tez tərtib edilmiş, qüsur və çatışmazlıqlarla dolu; AI modellərinin təlim məlumatlarına süzülərək aldatması asan olan və ya bugünkü "sərhəd" sistemləri üçün çox asan idi. ZeroBench, Roberts və onun Kembric Universitetindən olan həmkarları tərəfindən başlanılan çağırış, görkəmli bir alternativdir. O, görüntü və mətnləri giriş kimi götürə bilən böyük multimodal modellərə yönəldilib və adi insan üçün nisbətən asan olub, son dərəcə inkişaf etmiş modellər üçün qeyri-mümkün olan bir test təqdim etməyi məqsəd qoymuşdur. Hələlik, heç bir böyük dil modeli (LLM) bir xal belə toplaya bilmir. Gələcəkdə hər hansı bir gənc bir gün bundan daha yaxşı çıxış etsə, bu, həqiqətən özəl bir nailiyyət olacaqdır. ZeroBench tək deyil. EnigmaEval, Scale AI, bir AI verilənləri startapı tərəfindən yığılmış min multimodal tapmacanın kolleksiyasıdır. ZeroBench'dən fərqli olaraq, EnigmaEval heç kim üçün asan olmağa çalışmır. Müxtəlif mövcud onlayn viktorinalı resurslardan seçilmiş tapmacalar, mürəkkəb kriptik krossvordun çətinliyindən başlayır və oradan daha çətinləşir. İnkişaf etmiş AI sistemləri bu problemlərin ən çətini ilə üzləşdikdə, onların orta balı sıfır olur. AI laboratoriyası Antropik'in sərhəd modeli, bu suallardan yalnız birini düzgün cavablandıra bilmiş yeganə modeldir. Başqa sual dəstləri daha spesifik qabiliyyətləri izləməyə çalışır. Məsələn, AI təhlükəsizlik qrupu METR, AI modellərinin indi yerinə yetirdiyi fərdi vəzifələrə insanların nə qədər vaxt sərf edəcəyini izləyir (ilk saat dərəcəsini ötən Antropik idi). "İnsanlığın Son İmtahanı" adlı iddialı bir şəkildə adlandırılmış başqa bir benchmark, zəka deyil, biliyi test edərək təxminən min akademik mütəxəssisdən toplanmış insan biliyinin ön cəbhəsindən suallar verir. Yeni testlərin çoxluğunun əsas səbəblərindən biri keçmişin səhvlərindən qaçmaq arzusudur. Köhnə benchmarklar andaublüqlarla doludur, pis markschemes ya da haqsız suallarla. ImageNet, erkən bir təsvir-tanıma məlumat dəsti, məşhur bir nümunədir: bir meyvənin əks olduğu güzgünün şəklini təsvir edən model "güzgüdə" dediyi üçün cəzalandırılır, lakin bir bananı tanıdığı üçün mükafatlandırılır. Araşdırmaların səhv versiyalarını götürmüş modellərlə müqayisə etmə qabiliyyətini zəiflətmədən modellərə bu testlərin düzəldilmiş versiyalarını həll etməyə çağırmaq mümkün deyil. AI tədqiqatı resurslarla avtomatik olaraq dolu olduğu bir dövrdə istehsal edilən yeni testlər bu səhvləri istehsala əvvəlcədən yerəzd etməli olduqda gərgin nəzarətlə yoxlanıla bilər. Yeni testlərin yaradılması yönündə təkanın ikinci səbəbi modellərin köhnə testləri öyrənməsidir. Laboratoriyaların öz modellərini təlim etdiyi təlim məlumatlarından hər hansı ümumi benchmarkı uzaq tutmaq çətin olub ki, bu da sistemlərin imtahanlarda normal vəzifələrə nisbətən daha yaxşı çıxış göstərməsi ilə nəticələnib. Yeni testlərin yaradılmasını motivasiya edən üçüncü və ən təzyiqli məsələ doymadır - AI modelləri tam bal almağa yaxınlaşır. Məsələn, 500 məktəb riyaziyyat problemi seçimi üzərində, o3-pro demək olar ki, mükəmməl bir nəticə əldə edə bilər. Ancaq doqquz ay əvvəl çıxarılmış o1-mini 98.9% əla nəticə əldə etdiyinə görə, bu nəticələr sahədəki irəliləyişləri müşahidə edənlərə real bir duyğu vermir. Məhz burada ZeroBench və onun həmkarları işə düşür. Hər biri AI qabiliyyətlərinin insanların qabiliyyətlərinə yaxınlaşdığını və ya onları keçdiyini ölçməyə çalışır. Məsələn, "İnsanlığın Son İmtahanı", bir hotoqupa asmaq üçün mümkün olan ən mürəkkəb belə test statusundan gələn adından olan ümumi biliq sualları hazırlamağı hədəfləyirdi, xüsusi bir hummingbird sümüyünün dəstəklədiyi tendonların sayısından tutmuş bir Roma məzar daşında tapılmış Palmiren yazısının tərcüməsinə qədər hər şeyi tələb edirdi. Bir gələcəkdə bir çox AI modeli belə bir testdə tam bal alsa, benchmark-setterlər tamamilə bilgi əsaslı suallardan əl çəkə bilər. Ancaq dözümə dayanması gözlənilən dəyərləndirmələr belə bir gecədə yıxılır. Verbal olmayan düşüncə testi olan ARC-AGI, AI modelləri üçün çətin olması niyyəti ilə 2024-cü ildə təqdim edildi. Altı ay ərzində OpenAI, 91.5% nəticə əldə edə bilən bir model, o3, elan etdi. Bəzi AI inkişaf etdiriciləri üçün mövcud benchmarklar əsas məqamı qaçırır. OpenAI'nin rəhbəri Sam Altman, firmanın GPT-4.5-ni fevral ayında təqdim edərkən əvəz edilməsi çətin olan şeyi kəmiyyətləndirmənin çətinliklərinə işarə etdi. Sistem "benchmarklar əzməyəcək", deyə o tweetində yazmışdı. Daha sonra, model tərəfindən yazılmış qısa bir hekayə yayımlamadan əvvəl, "Bu, daha əvvəl hiss etmədiyim bir məcundur" dedimdi. Bəziləri, həmin məcunu kəmiyyətləndirmək üçün çalışır. Məsələn, Chatbot Arena, istifadəçilərə LLM cütlükləri ilə kor danışıq imkanı verir və sonra hansı "daha yaxşı" - termini necə təyin etdikləri təyin edildikdən sonra seçməyə çağırır. Çoxlu matçları qazanan modellər lider lövhəsinin təpəsinə qaldırılır. Bu daha az sərt yanaşma, digər dərəcələndirmə sistemlərinin tuta bilmədiyi o qeyri-müəyyən "məcun"u əks etdirir. Buna baxmayaraq, onlar da usta mod ki skor tablolarında daha yüksək qiymət ala bilər. Digərləri, məktəbyaşlı uşaqlara tanış olan bir arqumenti borc alaraq, hər hansı bir testin bir AI modelinin də o testdən necə keçdiyini göstərməkdən başqa hansı məlumatları açdığını sorğulayır. Kaliforniyada müstəqil AI tədqiqatçısı Simon Willison, mövcud AI sistemlərinin yerinə yetirə bilmədiyi sorğuların siyahısını tutmağa istifadəçiləri təşviq edir və sonra bunları onların gələcək versiyalarına yönəldir. Bu yolla istifadəçilər özlərinə aid olan vəzifələrdə yaxşı çıxış edən modelləri seçə bilər, yüksək bal toplayan, amma onların ehtiyaclarını qarşılamayan sistemləri deyil. Bütün bunlar AI modellərinin qarşısındakı testləri ən yaxşı şəkildə yerinə yetirdiklərini varsayır. Modellərin qəsdən testlərdə uğursuz olması (məsələn, silinmədən özlərini qorumaq üçün) sandbagging, artan sayda modellərdə müşahidə edilmişdir. MATS, bir AI təhlükəsizlik qrupundan olan bir hesabatda, may ayında nəşr olunan həmin vəziyyəti tezliklə başa düşdükləri və yəqtəlikdə olduqlarını göstərdi ki, ən üst LLM-lər özlərinin test olunduğunu demək olar ki, tədqiqatçılar qədər yaxşı tanıyırdı. Bu da etibarlı benchmark tapma axtarışını mürəkkəbləşdirir. Bununla yanaşı, məhsullarının təhlükəsiz ilə birinci sırada olması üçün çıxdıqları statusu artıracaq sadə lider lövhələrinin AI şirkətləri üçün dəyəri o deməkdir ki, daha yaxşı benchmarkların qurulması yarışı davam edəcəkdir. ARC-AGI 2 mart ayında buraxılıb və bugünkü ən yüksək sistemlərdən uzaqda qalıb. Lakin, bunun nə qədər tez dəyişə biləcəyindən xəbərdar olaraq, ARC-AGI 3 üzərində iş artıq başlamışdır. ■
Seçilən
94
neonews.az

1Mənbələr