INDEX
Explanations
focusing on classic subjects
New Auto-Interp
Negative Logits
ではない
0.55
bukanlah
0.52
नहीं
0.50
非
0.49
❌
0.48
ではありません
0.47
nejsou
0.46
nėra
0.46
不是
0.45
bukan
0.45
POSITIVE LOGITS
stately
0.57
fokus
0.57
focuses
0.55
klasik
0.55
focusing
0.55
注重
0.55
focus
0.52
Focusing
0.52
bardziej
0.51
fiery
0.50
Activations Density 0.291%