INDEX
Negative Logits
that'll
-0.08
ytical
-0.08
后三
-0.08
-0.07
-0.07
-test
-0.07
-0.07
-ind
-0.07
empowerment
-0.07
perm
-0.07
POSITIVE LOGITS
했던
0.13
originally
0.12
曾
0.12
Originally
0.11
oorspronk
0.11
었던
0.11
ursprünglich
0.11
originalmente
0.11
שהיה
0.10
Until
0.10
Activations Density 0.360%