INDEX
Negative Logits
ing
0.47
IN
0.47
tiers
0.45
not
0.43
الاسم
0.43
त
0.42
एन
0.42
styles
0.42
préoccup
0.42
𝐍
0.41
POSITIVE LOGITS
Hampton
0.52
banyak
0.50
menjel
0.50
ὐ
0.48
حاجه
0.46
θε
0.46
αντι
0.46
olak
0.46
ták
0.45
өрд
0.45
Activations Density 0.001%