INDEX
Negative Logits
Akt
0.45
gostar
0.42
offences
0.42
你
0.42
Votre
0.42
人の
0.42
aceptación
0.41
Yay
0.41
屣
0.41
Tour
0.41
POSITIVE LOGITS
보호
0.45
proven
0.42
原有
0.42
explains
0.41
vald
0.41
Multis
0.41
保护
0.41
ఎం
0.40
schützen
0.40
সুরক্ষিত
0.40
Activations Density 0.010%