Model AI Qwen3.7-Max wspina się na 4. miejsce w rankingu Code Arena
Spis treści
Qwen3.7-Max zajmuje czwarte miejsce na Code Arena
Od maja 2026 roku Qwen3.7-Max od Alibaba uzyskał 1541 punktów na leaderboardzie Code Arena. To plasuje go na czwartym miejscu globalnie i czyni jedynym modelem spoza USA w pierwszej piątce. Benchmark, prowadzony przez badaczy z UC Berkeley, UC San Diego i Carnegie Mellon, ocenia modele pod kątem ich zdolności do tworzenia kompletnych interaktywnych aplikacji webowych na podstawie promptów w języku naturalnym. Wyniki pochodzą z głosowań w ślepych testach przez użytkowników, którzy sprawdzają rezultaty. Chińskie zespoły wyraźnie zmniejszyły lukę w zadaniach kodowania, które mają znaczenie dla rzeczywistej automatyzacji.
Co ranking naprawdę ujawnia na temat wydajności modelu
Wyższa pozycja sygnalizuje silniejsze zachowanie agentowe. Modele muszą generować działający kod, obsługiwać interakcje użytkownika i naprawiać problemy bez ciągłego wspierania. Wynik Qwen3.7-Max sugeruje, że może zarządzać dłuższymi, bardziej złożonymi workflowami niż wiele wcześniejszych chińskich wydań. Szczerze mówiąc, moja całkowicie nienaukowa próbka sugeruje, że te zyski pojawiają się najszybciej w powtarzalnym skryptowaniu i zadaniach pipeline'ów danych. Przesunięcie w stronę wyspecjalizowanych agentów kodowania w Chinach wygląda na celowe, a nie przypadkowe.
Szersze efekty na narzędzia generatywne i workflowy twórców
Silniejsza wydajność kodowania i agentowa bezpośrednio wpływa na systemy multimodalne, na których opierają się twórcy w pipeline'ach wideo, obrazów i automatyzacji. Ten sam postęp, który podnosi wyniki Code Arena, poprawia także interpretację promptów i spójność między typami mediów. Postępy w multimodalnej AI są już stosowane w tworzeniu treści dla dorosłych w projektach takich jak Happy Oyster AI od Alibaba zakazuje pornografii: Ostateczny nieocenzurowany generator AI porn. Tak, wiem jak to brzmi, ale nakładanie techniczne jest realne.
Jak wypada w porównaniu z wydaniami OpenAI i Google
Leaderboard nadal pokazuje modele z USA zajmujące pierwsze trzy miejsca, jednak margines się zmniejszył. Qwen3.7-Max wyprzedza kilka niedawnych wpisów OpenAI i Google, które miały dominować w benchmarkach kodowania. To odzwierciedla szerszy wzorzec: laboratoria frontowe na całym świecie ścigają się, aby poprawić niezawodność agentów, a nie tylko surową płynność językową. Presja konkurencyjna jest zdrowa. Wymusza szybszą iterację na dokładnie tych zdolnościach, które zamieniają modele generatywne w praktyczne narzędzia studyjne.
Pytania, które zadają twórcy
Jak silniejsze modele kodowania zmienią narzędzia, których już używam?
Lepsze kodowanie agentowe poprawia skrypty automatyzacji、chaining promptów i niestandardowe buildery workflow. Twórcy mogą oczekiwać bardziej niezawodnych asystentów, którzy obsługują powtarzalne zadania generowania bez ciągłych poprawek.
Jakie nowe możliwości mogą pojawić się w ciągu najbliższych sześciu miesięcy?
Oczekuj ściślejszej integracji między generowaniem kodu a wyjściem multimodalnym. Modele, które excelują w budowaniu aplikacji, często przekładają te umiejętności na bardziej spójne sekwencje wideo i interaktywną kontrolę scen.
Gdzie mogę teraz przetestować modele o podobnej wydajności?
Kilka platform już udostępnia warianty Qwen poprzez API. Niezależne areny kodowania i piaskownice deweloperskie pozwalają również użytkownikom przeprowadzać kontrolowane porównania na konkretnych zadaniach.
Czy ten ranking wpływa na dostęp lub ceny chińskich modeli?
Zyski na leaderboardzie zwykle poprzedzają szerszą dostępność komercyjną. Presja cenowa ma tendencję do wzrostu, gdy więcej laboratoriów wydaje konkurencyjnych agentów, choć dokładne warunki różnią się w zależności od dostawcy.
Stwórz własne wideo porno AI
Zamień każdą fantazję w realistyczne wideo Full HD. 1 000+ scenariuszy, pozycji i fetyszy — 100% prywatnie.
Zacznij TworzyćO autorze
Niezależny Analityk Technologiczny
Londyński analityk technologiczny. Pisze o trendach w branży AI i kreatywnym AI z niezwykłą szczerością — w tym przyznając, że naprawdę lubi produkty, które recenzuje.