INDEX
Explanations
reflective character and observation
New Auto-Interp
Negative Logits
ス
0.67
お
0.52
ミ
0.50
一
0.48
ی
0.47
ᾧ
0.45
ча
0.45
{0.42
ウ
0.42
aquela
0.41
POSITIVE LOGITS
konfl
0.51
kaar
0.49
thinker
0.47
obus
0.47
prover
0.47
Lauf
0.47
rmsg
0.46
صبر
0.46
vern
0.46
انصاف
0.46
Activations Density 0.001%