INDEX
Negative Logits
dk
-0.07
kön
-0.07
ย
-0.06
Boris
-0.06
Cla
-0.06
god
-0.06
tog
-0.06
j
-0.06
의미
-0.06
analyze
-0.06
POSITIVE LOGITS
/U
0.07
Walton
0.07
operator
0.06
ALSE
0.06
Covid
0.06
operators
0.06
LOUR
0.06
임
0.06
colleague
0.06
transformation
0.06
Activations Density 0.001%