INDEX
Negative Logits
詬
0.42
="$(
0.41
㇇
0.41
дон
0.40
дий
0.39
ักษณะ
0.39
奬
0.39
Fotos
0.39
Redeem
0.38
実験
0.38
POSITIVE LOGITS
instead
0.59
indices
0.53
untouched
0.51
Instead
0.47
statt
0.46
instead
0.46
вместо
0.43
invece
0.43
Instead
0.43
quicker
0.42
Activations Density 0.000%