INDEX
Explanations
asking questions or describing concepts
New Auto-Interp
Negative Logits
бушлай
0.60
йөк
0.55
أج
0.53
кў
0.52
мә
0.52
亞
0.52
фараз
0.51
}$.,
0.51
çox
0.50
აღმასრულებელი
0.50
POSITIVE LOGITS
waardoor
1.23
voor
1.13
omdat
1.13
waarbij
1.13
zonder
1.12
wanneer
1.12
waar
1.08
maar
1.05
hebben
1.05
aan
1.02
Activations Density 0.004%