INDEX
Negative Logits
나
0.46
เร
0.45
exploration
0.44
니
0.43
โน
0.42
Каждый
0.42
ziemy
0.42
ᠰ
0.42
ניתן
0.42
クリスマス
0.41
POSITIVE LOGITS
otra
0.46
autre
0.46
deceive
0.45
ajj
0.45
دیگه
0.45
falsa
0.44
conferencia
0.42
perfe
0.42
disagreed
0.42
电话
0.41
Activations Density 0.005%