INDEX
Explanations
analysis, role, and configurations
New Auto-Interp
Negative Logits
ب
0.54
abuso
0.51
despot
0.49
لا
0.47
notables
0.47
violators
0.47
لا
0.47
culprits
0.47
devotees
0.46
totalitarian
0.46
POSITIVE LOGITS
和
0.57
及其
0.56
8
0.50
และการ
0.49
7
0.48
6
0.46
2
0.45
9
0.45
and
0.43
Config
0.43
Activations Density 0.041%