INDEX
Explanations
phrases related to political beliefs and historical context
New Auto-Interp
Negative Logits
ьажоргаш
-0.43
年以上
-0.42
以上
-0.40
طويلة
-0.38
以上的
-0.36
(>
-0.35
이상
-0.35
큼
-0.34
igator
-0.31
以上
-0.31
POSITIVE LOGITS
less
1.67
barely
1.54
わずか
1.53
всего
1.43
Less
1.41
just
1.39
Less
1.38
fewer
1.37
apenas
1.35
mere
1.34
Activations Density 0.764%