INDEX
Negative Logits
individuals
-0.07
unter
-0.07
Manga
-0.06
persecution
-0.06
aska
-0.06
_MAJOR
-0.06
Remarks
-0.06
κ
-0.06
δυ
-0.06
دنیا
-0.06
POSITIVE LOGITS
closets
0.08
@Column
0.07
First
0.07
,arg
0.06
FUCK
0.06
_EDGE
0.06
NAME
0.06
rest
0.06
_CLEAR
0.06
危
0.06
Activations Density 0.032%