INDEX
Negative Logits
wreckage
-0.07
عراق
-0.07
Marine
-0.07
策
-0.07
behaviors
-0.06
지나
-0.06
cloudy
-0.06
grads
-0.06
َا
-0.06
訓
-0.06
POSITIVE LOGITS
ammable
0.07
Aws
0.06
sword
0.06
entry
0.06
😀
0.06
Overflow
0.06
Fizz
0.06
orns
0.06
COPY
0.06
Lol
0.06
Activations Density 0.001%