INDEX
Negative Logits
violent
-0.08
conflict
-0.07
breathtaking
-0.07
yp
-0.06
tako
-0.06
保
-0.06
sound
-0.06
marginalized
-0.06
mins
-0.06
větší
-0.06
POSITIVE LOGITS
Türk
0.07
corn
0.07
ливо
0.07
sn
0.07
gì
0.06
brakk
0.06
onn
0.06
vb
0.06
přísluš
0.06
↵ ↵
0.06
Activations Density 0.006%