INDEX
Explanations
introduces definitions or explanations
New Auto-Interp
Negative Logits
കളും
0.44
beispielsweise
0.39
രുവനന്തപു
0.39
യിലും
0.38
<unused13>
0.37
ಥವಾ
0.37
বলিয়
0.36
などを
0.36
নিচের
0.36
िखर
0.35
POSITIVE LOGITS
:
1.68
:
1.55
yakni
1.40
—
1.32
yaitu
1.32
–
1.29
iaitu
1.29
-
1.28
:
1.24
namely
1.11
Activations Density 0.173%