INDEX
Negative Logits
ef
0.42
expl
0.39
This
0.38
sor
0.38
。,
0.38
.
0.38
ini
0.37
ison
0.37
inn
0.37
utt
0.37
POSITIVE LOGITS
שית
0.43
কতক
0.39
overse
0.39
म
0.39
sulit
0.38
ประชา
0.38
grate
0.38
лює
0.38
orchestras
0.38
তিপ
0.37
Activations Density 0.001%