INDEX
Negative Logits
ROP
-0.27
ÑĮÑĤе
-0.26
logg
-0.26
exciting
-0.25
etics
-0.25
rite
-0.25
åŀ©
-0.25
è¹ī
-0.24
æIJ½
-0.24
roud
-0.24
POSITIVE LOGITS
æĹ§
0.31
éĹŃ
0.29
å¥ļ
0.27
âĺħ
0.26
âĺħ
0.26
otta
0.25
åij¨åĪĬ
0.25
etten
0.25
اØ
0.24
éĩijåŃĹ
0.24
Activations Density 0.002%