INDEX
Explanations
these / indicating proximity
New Auto-Interp
Negative Logits
+.
0.70
().
0.65
.
0.63
։
0.63
².
0.60
¹.
0.59
ycor
0.59
°.
0.59
wodurch
0.58
.
0.58
POSITIVE LOGITS
these
1.01
этих
1.01
这些
0.95
here
0.88
這些
0.88
เหล่านี้
0.84
these
0.82
этими
0.79
اینجا
0.78
guys
0.77
Activations Density 0.000%