INDEX
Explanations
technical or specific instructions
New Auto-Interp
Negative Logits
devotes
0.44
narrative
0.42
assimilation
0.42
منص
0.41
dwells
0.41
us
0.40
egi
0.40
escribió
0.40
moral
0.39
rhyth
0.39
POSITIVE LOGITS
SEVERE
0.43
ublic
0.41
vab
0.39
alary
0.38
註
0.37
优先
0.37
注
0.37
lagen
0.36
ภายใน
0.36
buenas
0.36
Activations Density 0.000%