INDEX
Negative Logits
sondern
0.93
genannt
0.78
(_,
0.77
(_,
0.75
$(
0.74
लो
0.71
sebagainya
0.70
ஆகிய
0.68
hanem
0.68
しかし
0.67
POSITIVE LOGITS
Sorry
1.54
Disclaimer
1.51
Note
1.47
NOTE
1.40
Admittedly
1.37
Sorry
1.35
Ironically
1.31
note
1.31
Spoiler
1.30
Ironically
1.30
Activations Density 0.158%