INDEX
Explanations
phrases indicating repetition or reference to time-related contexts
again or just
New Auto-Interp
Negative Logits
Kesehatan
-0.44
følge
-0.44
nég
-0.42
Vía
-0.40
коррек
-0.39
gæ
-0.39
onPause
-0.38
inderdaad
-0.38
低い
-0.38
impulan
-0.38
POSITIVE LOGITS
又
2.11
又
1.73
他又
1.41
我又
1.30
又有
1.29
又在
1.14
又不
1.11
又被
1.11
又要
1.08
又能
1.06
Activations Density 0.001%