INDEX
Negative Logits
ymin
-0.07
madığı
-0.06
Vibr
-0.06
객
-0.06
呈
-0.06
erge
-0.06
aida
-0.06
اج
-0.06
lerini
-0.06
less
-0.06
POSITIVE LOGITS
tm
0.07
rats
0.07
Australians
0.07
luck
0.06
thanks
0.06
win
0.06
marg
0.06
champs
0.06
ccess
0.06
heartbreaking
0.06
Activations Density 0.003%