INDEX
Negative Logits
ük
-0.09
propres
-0.09
propias
-0.09
akc
-0.08
encies
-0.08
propios
-0.08
صی
-0.08
propio
-0.08
Zap
-0.08
прем
-0.07
POSITIVE LOGITS
reasons
0.19
原因
0.17
why
0.17
alasan
0.16
ಕಾರಣ
0.16
वजह
0.16
Reasons
0.16
warum
0.16
이유
0.16
কারণ
0.16
Activations Density 0.048%