INDEX
Explanations
phrases indicating purpose or reason
New Auto-Interp
Negative Logits
ſtate
-0.78
ſta
-0.77
purpoſe
-0.72
ſche
-0.69
itſelf
-0.69
viſ
-0.66
paſſ
-0.64
ſol
-0.64
ſte
-0.63
tranſ
-0.63
POSITIVE LOGITS
for
2.06
for
1.45
For
1.41
FOR
1.38
For
1.38
für
1.28
untuk
1.23
สำหรับ
1.22
voor
1.21
για
1.19
Activations Density 0.551%