INDEX
Negative Logits
dif
-0.08
fig
-0.08
historii
-0.08
andı
-0.08
ukwa
-0.07
işi
-0.07
만
-0.07
ానికి
-0.07
fuss
-0.07
spr
-0.07
POSITIVE LOGITS
公開
0.08
వెల
0.08
自治
0.08
θερ
0.08
beacon
0.08
வெளியாக
0.08
透露
0.08
వెల్లడ
0.08
சீ
0.08
उज
0.08
Activations Density 0.001%