INDEX
Negative Logits
errone
-0.07
Separ
-0.06
Aston
-0.06
仕
-0.06
최신
-0.06
Wendy
-0.06
sociology
-0.06
Armor
-0.06
needed
-0.06
tercih
-0.06
POSITIVE LOGITS
exciting
0.07
프로그램
0.06
pans
0.06
witnessed
0.06
чить
0.06
пат
0.06
ину
0.06
244
0.06
_used
0.06
inctions
0.06
Activations Density 0.009%