INDEX
Negative Logits
pu
-0.08
Allen
-0.08
ERIC
-0.08
Dur
-0.08
Blind
-0.08
Leakage
-0.07
arro
-0.07
crib
-0.07
ished
-0.07
vm
-0.07
POSITIVE LOGITS
�
0.09
Arche
0.08
achment
0.07
χώρα
0.07
tục
0.07
نح
0.07
व्हा
0.07
hail
0.07
sota
0.07
nahme
0.07
Activations Density 0.005%