INDEX
Explanations
similar or related concepts across languages
New Auto-Interp
Negative Logits
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.42
ಇದರಿಂದ
0.41
dieren
0.41
ოვანი
0.41
້
0.40
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.40
તમને
0.39
㿟
0.39
ptives
0.39
เงิน
0.39
POSITIVE LOGITS
সেখানকার
0.70
वहां
0.62
там
0.62
similarly
0.61
dort
0.61
similar
0.58
orada
0.55
সেখানে
0.55
وہاں
0.55
allí
0.52
Activations Density 0.175%