INDEX
Negative Logits
ሷ
0.41
של
0.39
ícul
0.39
❿
0.39
νέ
0.38
उस
0.38
čne
0.37
্দের
0.37
रील
0.37
RatingDiff
0.37
POSITIVE LOGITS
instead
0.53
Instead
0.50
instead
0.47
Instead
0.44
literalmente
0.41
porque
0.41
invece
0.39
omdat
0.38
ではなく
0.37
capitalism
0.37
Activations Density 0.037%