INDEX
Explanations
phrases indicating emphasis or qualifiers in statements
New Auto-Interp
Negative Logits
ellido
-0.45
Jep
-0.42
JoJo
-0.42
clue
-0.41
Chapman
-0.41
rapeau
-0.41
Chao
-0.41
AFC
-0.40
itſelf
-0.40
WLAN
-0.40
POSITIVE LOGITS
ทั้ง
1.58
ทั้ง
1.20
ทุก
0.71
både
0.68
ตั้ง
0.58
both
0.57
المعيارى
0.56
além
0.56
naast
0.56
หลาย
0.55
Activations Density 0.001%