INDEX
Explanations
introduces conditional statements
New Auto-Interp
Negative Logits
завжди
0.64
всегда
0.62
常に
0.59
always
0.57
通常
0.55
luôn
0.55
always
0.54
हमेशा
0.54
должны
0.53
should
0.52
POSITIVE LOGITS
бывает
1.11
manchmal
0.98
sometimes
0.98
Иногда
0.92
Sometimes
0.92
иногда
0.90
sometimes
0.89
Sometimes
0.89
parfois
0.88
бывают
0.77
Activations Density 0.029%