INDEX
Explanations
multi-language technical results
New Auto-Interp
Negative Logits
malicious
0.57
slander
0.51
i
0.46
sever
0.46
soften
0.46
es
0.45
diverging
0.45
shameless
0.45
persuasive
0.45
cough
0.44
POSITIVE LOGITS
έχουν
0.50
variáveis
0.50
résultats
0.48
来到
0.48
élevées
0.46
範圍
0.45
ål
0.45
antérieurs
0.44
قائمة
0.43
به
0.43
Activations Density 0.004%