INDEX
Explanations
negative outcomes or difficulties
New Auto-Interp
Negative Logits
verhindern
0.46
felon
0.44
jdField
0.39
nên
0.39
واقعی
0.39
AFP
0.39
슨
0.39
xuất
0.38
πάρχ
0.38
fácil
0.38
POSITIVE LOGITS
เพื่อ
0.52
unnecessarily
0.52
ne
0.49
unnecessary
0.48
k
0.48
為了
0.45
obs
0.44
upang
0.43
際に
0.43
pov
0.42
Activations Density 0.001%