INDEX
Explanations
verbs describing actions or functions
New Auto-Interp
Negative Logits
只
0.44
μόνο
0.39
بع
0.38
только
0.38
occurrence
0.38
出现的
0.37
vừa
0.36
רק
0.36
เกิดขึ้น
0.36
只有一个
0.35
POSITIVE LOGITS
rispetto
0.44
mengenal
0.43
cono
0.42
cfm
0.41
怵
0.41
esattamente
0.41
haram
0.40
andha
0.39
はや
0.38
exactement
0.38
Activations Density 0.074%