INDEX
Explanations
specifies limitations or alternatives
New Auto-Interp
Negative Logits
하기도
0.47
nejen
0.43
alcune
0.42
আমিও
0.40
不仅仅
0.40
niektórych
0.40
なくても
0.40
もあった
0.40
だけでなく
0.39
তিনিও
0.39
POSITIVE LOGITS
lediglich
0.89
merely
0.88
only
0.85
instead
0.85
jedynie
0.83
只是
0.82
лишь
0.80
あくまで
0.80
Instead
0.79
Instead
0.78
Activations Density 0.362%