INDEX
Explanations
programming code and data formatting
New Auto-Interp
Negative Logits
are
0.66
ا
0.66
dır
0.60
êtes
0.58
tử
0.57
اً
0.57
كيف
0.56
ка
0.54
dı
0.54
фаразы
0.53
POSITIVE LOGITS
B
0.62
J
0.58
B
0.56
-
0.50
K
0.50
F
0.49
K
0.49
la
0.49
หลังจาก
0.48
H
0.47
Activations Density 0.660%