INDEX
Explanations
specific contexts and comparisons
New Auto-Interp
Negative Logits
bank
0.44
0.42
ad
0.42
add
0.41
adm
0.41
excell
0.41
ﻂ
0.41
add
0.40
sign
0.40
0.40
POSITIVE LOGITS
θέ
0.48
ကိုယ်
0.47
таксама
0.47
俠
0.47
ρεία
0.46
பெரும்பாலான
0.46
লেট
0.45
ികള്
0.45
també
0.45
細胞
0.45
Activations Density 0.000%