Arena Cat

Avaluació humana de models d'IA en català.

Plataforma participativa, inspirada en LMSYS Chatbot Arena, centrada exclusivament a mesurar la competència en llengua catalana dels models de llenguatge gran (LLMs). A diferència de les avaluacions automàtiques, aquí són persones les que comparen, a cegues, les respostes de dos models davant d'una mateixa tasca i decideixen quina és millor. Si l'experiència té èxit, la plataforma es podria generalitzar a altres llengües que també necessitin una avaluació humana pròpia.

Per a una explicació detallada del projecte (motivació i metodologia), consulta projecte.md.

🧮 Simulador de dimensionament: calcula quants vots i hores humanes calen segons el nombre de models, categories, marge d'error i mètode d'agregació (parelles independents o Bradley-Terry / Elo).

Vols col·laborar-hi? T'estem buscant

La primera fita del projecte, Prova de concepte, té dues parts i necessitem persones per a totes dues.

Part 1: construcció de la plataforma. Estem arrencant el projecte i busquem perfils tècnics per posar-la en marxa:

🤖 Aprenentatge automàtic / IA: per crear les canonades d'avaluació: executar la inferència dels models, gestionar els prompts i preparar les dades que veuran els avaluadors humans.
📊 Estadística: per dimensionar el volum d'avaluacions, validar la metodologia (Bradley-Terry / Elo) i garantir la robustesa dels rànquings.
⚙️ Python: per construir la canonada d'inferència, el backend (FastAPI + PostgreSQL) i la integració amb la web de Softcatalà.
📚 Lingüística: per definir els prompts d'avaluació de manera que cobreixin bé les dificultats reals del català (ortografia, registre, varietats dialectals, referències culturals) i fixar criteris clars per als avaluadors.

No cal que dominis totes les àrees: si t'hi veus en alguna, escriu-nos.

Part 2: avaluadors voluntaris. Un cop la plataforma estigui en marxa, caldran moltes persones catalanoparlants per fer les avaluacions: comparar respostes a cegues i votar quina és millor. Cada vot dura uns 2 minuts i, només per a la prova de concepte, en calen al voltant de 1.200 (vegeu el full de ruta). Si tens criteri lingüístic en català i vols ajudar-nos amb una estoneta, també et volem.

Per a ajudar, envia un correu a Jordi Mas jmas@softcatala.org explicant com pots col·laborar i el teu identificador de Telegram.

Full de ruta

El projecte avançarà per fites. La Fita 1: Prova de concepte (a sota) té un abast reduït (3 models, 3 categories) per provar la mecànica i la interfície. La Fita 2: Expansió del concepte ampliarà el nombre de models avaluats, i fites posteriors creixeran també en categories, prompts per categoria i objectiu de vots fins a assolir robustesa estadística.

Fita 1: Prova de concepte

La fita té dues parts: primer construir la plataforma i, tot seguit, demanar a voluntaris que facin les avaluacions.

Part 1: Construcció de la plataforma

Per al desglossament tècnic de les versions v1, v2 i v3, vegeu pla_detallat.md.

Abast

Models (3):

Qwen 3.5 9B
Salamandra 7B
Gemma 4 26B A4B

Categories (3): 3 models × 3 categories prioritàries (correcció, reformulació i traducció), les més específiques de català, on els models globals tendeixen a fallar més, × 10 prompts = 30 prompts.

Per (parella × categoria) tenim aproximadament $1.200 / 9 \approx 133$ vots. Marge ≈ 8,5%.

Compromís: sacrifiquem amplitud per profunditat en aquesta primera fita.

Components a desenvolupar

Component	Detall
Preparació de les dades	30 tasques: 10 exemples per cadascuna de les 3 categories.
Canonada de pre-processament	Inferència dels models seleccionats i desat en fitxers de metadades.
Gestió d'usuaris	Test de qualificació i persistència de dades.
Interfície d'usuari	Pàgina a la web de Softcatalà per registrar-se i avaluar, amb indicador de l'objectiu i del progrés.
Backend	FastAPI amb tres endpoints: obtenir una tasca aleatòria, registrar un vot i consultar estadístiques.
Persistència	PostgreSQL + model de dades.

Estimació

Esforç: punt mig realista, ~120 hores de desenvolupament.

Part 2: Avaluació amb voluntaris

Un cop la plataforma estigui en marxa, obrirem la convocatòria a la comunitat de Softcatalà i a les xarxes per recollir els vots necessaris.

Objectiu d'ús: 40 hores de contribucions humanes (~1.200 vots a uns 2 minuts cadascun).
Difusió: llançament intern dins de Softcatalà i creixement a través de xarxes socials i la web.
Resultat: rànquing públic de la prova de concepte i primer lot del conjunt de dades obert de preferències.

Fita 2: Expansió del concepte

Un cop validada la mecànica amb la prova de concepte, ampliarem l'abast incorporant més models a l'avaluació, mantenint la mateixa plataforma i metodologia.

Col·laboradors

Llicència

Vegeu LICENSE.

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.github/workflows		.github/workflows
backend		backend
config/inferencia		config/inferencia
data/prompts/v1		data/prompts/v1
docs		docs
images		images
infra		infra
scripts		scripts
simulador		simulador
tests		tests
.env.example		.env.example
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.python-version		.python-version
AGENTS.md		AGENTS.md
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
pla_detallat.md		pla_detallat.md
projecte.md		projecte.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Arena Cat

Vols col·laborar-hi? T'estem buscant