Research · NLP · Classification
Ricerca · NLP · Classificazione
CatchingAI
A fine-tuned BERT classifier trained on the RAID benchmark — the largest dataset for evaluating AI-generated text detectors, spanning 11 LLMs, 8 domains, and 11 adversarial attacks.
Un classificatore BERT fine-tuned addestrato sul benchmark RAID — il dataset più grande per valutare i rilevatori di testo generato dall'AI, con 11 LLM, 8 domini e 11 attacchi avversariali.
Overview
Panoramica
What is this project?
Cos'è questo progetto?
As large language models become increasingly capable of producing human-like text, distinguishing AI-generated content from genuine human writing is a critical challenge. CatchingAI builds a robust binary classifier using parameter-efficient fine-tuning, making training feasible on consumer hardware.
Man mano che i modelli linguistici producono testo sempre più simile a quello umano, distinguere il contenuto generato dall'AI dalla scrittura umana è una sfida critica. CatchingAI costruisce un classificatore binario robusto usando fine-tuning efficiente, fattibile su hardware consumer.
Task
Compito
Binary Classification
Classificazione Binaria
Human-written (0) vs AI-generated (1) across multiple generators and domains.
Testo umano (0) vs generato dall'AI (1) su più generatori e domini.
Method
Metodo
Parameter Efficient
Efficiente nei Parametri
LoRA adapters train only ~1% of parameters, enabling Colab-friendly fine-tuning.
Gli adapter LoRA addestrano solo ~1% dei parametri, compatibile con Colab.
Evaluation
Valutazione
Rigorous Metric
Metrica Rigorosa
Accuracy at a controlled 5% false-positive rate — the official RAID metric.
Accuratezza a un tasso di falsi positivi del 5% — la metrica ufficiale RAID.
Architecture
Architettura
How the model works
Come funziona il modello
The base BERT model is frozen. LoRA injects small trainable rank-decomposition matrices into its linear layers. The classification head is fully fine-tuned from scratch.
Il modello BERT base è congelato. LoRA inietta piccole matrici a rango ridotto nei layer lineari. La testa di classificazione è completamente fine-tuned da zero.
+ LoRA adapters injected (trained, r=16)
+ LoRA adapter iniettati (addestrati, r=16)
Trainable parameters
Parametri addestrabili
LoRA rank
Rango LoRA
Target false-positive rate
Tasso falsi positivi target
Dataset
The RAID Benchmark
Il Benchmark RAID
RAID is the largest and most challenging benchmark for machine-generated text detection, introduced at ACL 2024. It covers a wide range of real-world conditions that make detection hard.
RAID è il benchmark più grande e sfidante per il rilevamento di testo generato da macchine, introdotto all'ACL 2024. Copre condizioni del mondo reale che rendono il rilevamento difficile.
Tech Stack
Stack Tecnologico