INDEX
Negative Logits
忔
0.39
这不是
0.39
Nicht
0.38
нике
0.38
impractical
0.38
嶈
0.37
разно
0.37
Mismatch
0.37
NoStop
0.36
вин
0.36
POSITIVE LOGITS
yani
0.51
অর্থাৎ
0.43
estão
0.42
都已经
0.39
están
0.38
sebagainya
0.38
heps
0.38
saja
0.37
(
0.37
tutte
0.36
Activations Density 0.032%