INDEX
Explanations
quoted speaker or attribute
New Auto-Interp
Negative Logits
서
1.01
roupa
1.00
canteen
0.94
collega
0.93
ai
0.92
hulp
0.92
כן
0.92
habl
0.91
’
0.90
age
0.89
POSITIVE LOGITS
它
1.26
tile
0.97
يين
0.96
grim
0.93
эту
0.91
tempat
0.89
它
0.89
stedet
0.88
tid
0.88
這一
0.88
Activations Density 0.000%