INDEX
Negative Logits
Lind
-0.09
Rick
-0.08
Nicolás
-0.08
Bart
-0.08
etwa
-0.07
bathtub
-0.07
Luca
-0.07
Harrison
-0.07
unter
-0.07
genauer
-0.07
POSITIVE LOGITS
attice
0.09
repertoire
0.09
érations
0.08
uing
0.08
丰富
0.08
整理
0.08
�
0.08
insults
0.08
ulario
0.08
achar
0.08
Activations Density 0.005%