INDEX
Explanations
phrases that represent different aspects of identity or roles
New Auto-Interp
Negative Logits
y
-0.48
rotnie
-0.44
BuildContext
-0.44
derecha
-0.42
yre
-0.42
ություն
-0.42
men
-0.41
υπάρχ
-0.41
田
-0.41
手
-0.41
POSITIVE LOGITS
sebagai
1.09
sebagai
1.06
Sebagai
1.05
作為
0.96
Sebagai
0.94
jako
0.93
Jako
0.92
ItemBackground
0.92
jako
0.90
as
0.88
Activations Density 0.389%