INDEX
Explanations
references to permission or the act of seeking approval
New Auto-Interp
Negative Logits
Anſ
-0.75
Perſ
-0.67
purpoſe
-0.65
ագրություններ
-0.63
Conſ
-0.60
Reſ
-0.58
auber
-0.57
Inſ
-0.57
ſind
-0.57
uſe
-0.57
POSITIVE LOGITS
mijne
0.62
positively
0.48
#!/
0.47
betrekking
0.46
egens
0.44
continuación
0.44
jongen
0.43
bienvenida
0.43
peccato
0.42
helft
0.42
Activations Density 0.220%