INDEX
Negative Logits
ance
0.46
وتح
0.45
less
0.45
stessa
0.44
ة
0.44
和
0.44
ia
0.44
প্রায়
0.44
并在
0.43
ラ
0.43
POSITIVE LOGITS
OHAMA
0.48
olefin
0.45
лятор
0.43
escrib
0.42
obey
0.41
reasonableness
0.41
იყოს
0.40
violation
0.40
ausführ
0.40
operator
0.40
Activations Density 0.000%