INDEX
Explanations
strong adjectives describing concepts
New Auto-Interp
Negative Logits
ましたが
0.31
लेकिन
0.30
Nhưng
0.30
但在
0.30
But
0.29
이지만
0.29
있지만
0.29
でしたが
0.29
けど
0.28
mutta
0.28
POSITIVE LOGITS
anden
0.29
CPP
0.27
heeft
0.26
Informe
0.26
al
0.26
এবং
0.26
asupra
0.26
HID
0.25
izin
0.25
aline
0.24
Activations Density 0.149%