INDEX
Explanations
our scientific and abstract concepts
New Auto-Interp
Negative Logits
s
0.78
يني
0.77
haltens
0.74
isis
0.73
niiden
0.72
suivantes
0.71
dniu
0.69
ento
0.68
akár
0.68
危害
0.68
POSITIVE LOGITS
нашим
1.37
нашего
1.29
ನಮ್ಮ
1.27
наших
1.25
нашей
1.23
naš
1.23
vores
1.22
наши
1.19
наш
1.19
beloved
1.18
Activations Density 0.041%