INDEX
Explanations
identifies prohibited actions
New Auto-Interp
Negative Logits
هذا
0.61
this
0.54
這個
0.52
This
0.49
لهذا
0.48
この
0.48
tomto
0.48
tämä
0.47
этого
0.47
यह
0.47
POSITIVE LOGITS
famed
0.38
ловать
0.38
ките
0.36
همچنین
0.35
⺀
0.35
చ్
0.34
<0xB2>
0.34
glor
0.34
environs
0.34
досто
0.34
Activations Density 0.081%