INDEX
Explanations
place names and geographical features
New Auto-Interp
Negative Logits
Warszawie
0.56
ogyakarta
0.55
Eesti
0.53
Städte
0.53
နိုင်ငံ
0.52
Prêmio
0.52
Hauptstadt
0.52
शहरों
0.52
劻
0.52
Azərbaycan
0.51
POSITIVE LOGITS
be
0.56
B
0.55
B
0.55
forest
0.54
ponds
0.53
hill
0.52
I
0.49
P
0.49
P
0.49
lake
0.49
Activations Density 0.006%