INDEX
Negative Logits
infant
-0.08
Nathan
-0.08
وجود
-0.08
rage
-0.07
Fan
-0.07
Ger
-0.07
lanc
-0.07
Gee
-0.07
tiger
-0.07
traff
-0.07
POSITIVE LOGITS
后的
0.10
回来
0.08
-tail
0.08
offset
0.08
-origin
0.08
ുകള
0.07
verwijderd
0.07
shifted
0.07
Removed
0.07
Away
0.07
Activations Density 0.010%