INDEX
Explanations
or, thus, meaning equivalents
New Auto-Interp
Negative Logits
But
0.45
മാത്രമേ
0.42
但是我
0.41
aber
0.40
pero
0.39
きましたが
0.39
only
0.39
but
0.38
pouze
0.38
ലൈ
0.38
POSITIVE LOGITS
или
0.57
或者
0.57
অর্থাৎ
0.55
甚至
0.54
অর্থাৎ
0.53
或者是
0.49
यानी
0.49
หรือ
0.48
hoặc
0.48
或
0.47
Activations Density 0.239%