INDEX
Negative Logits
Jan
-0.07
kn
-0.07
Rat
-0.07
Jan
-0.07
No
-0.07
Don
-0.07
499
-0.07
sort
-0.07
191
-0.06
Mant
-0.06
POSITIVE LOGITS
0.08
irie
0.08
0.08
egie
0.08
0.08
ece
0.08
emie
0.08
ریه
0.08
Peace
0.08
0.08
Activations Density 0.510%
Jan
kn
Rat
Jan
No
Don
499
sort
191
Mant
irie
egie
ece
emie
ریه
Peace