INDEX
Explanations
proper nouns, especially names and titles
New Auto-Interp
Negative Logits
apparaat
-0.70
gewicht
-0.69
handen
-0.68
wikipagina
-0.66
mijne
-0.65
gevaar
-0.64
voegen
-0.64
ViewFeatures
-0.64
risico
-0.63
moeite
-0.63
POSITIVE LOGITS
abestanden
0.95
يتيمه
0.63
Linq
0.61
Bakker
0.61
Geplaatst
0.60
programme
0.57
adpleegd
0.56
OPSIS
0.55
ernalia
0.54
Portail
0.54
Activations Density 0.256%