INDEX
Explanations
but followed by contrast or elaboration
New Auto-Interp
Negative Logits
i
0.66
ে
0.65
ه
0.61
'
0.60
k
0.57
’
0.55
li
0.53
os
0.52
с
0.50
spree
0.49
POSITIVE LOGITS
nein
0.84
illetve
0.81
Zusätzlich
0.80
ﺎ
0.78
käyttää
0.76
andere
0.76
imassa
0.75
yattha
0.75
zusätzliche
0.74
สืบค้นเมื่อ
0.74
Activations Density 0.427%