INDEX
Negative Logits
zag
-0.09
fake
-0.09
bajos
-0.08
diffus
-0.08
Али
-0.08
uncomp
-0.07
rekt
-0.07
TI
-0.07
Elimin
-0.07
ISS
-0.07
POSITIVE LOGITS
כל
0.08
intrigued
0.07
neutron
0.07
לצ
0.07
ے
0.07
intrigu
0.07
ыс
0.07
בש
0.07
Roman
0.07
intrins
0.07
Activations Density 0.006%