INDEX
Negative Logits
indist
-0.10
bingo
-0.08
Pinto
-0.08
инду
-0.08
Edu
-0.08
aż
-0.08
DMV
-0.07
Edu
-0.07
intel
-0.07
culin
-0.07
POSITIVE LOGITS
protects
0.09
safeguards
0.09
付き
0.09
設定
0.09
止
0.09
thresholds
0.09
措施
0.09
(always
0.08
automatische
0.08
纪律
0.08
Activations Density 0.005%