INDEX
Explanations
cool followed by noun/topic
New Auto-Interp
Negative Logits
ي
1.07
י
1.02
ك
0.86
ی
0.86
та
0.85
ль
0.84
чай
0.84
ס
0.84
к
0.84
ри
0.83
POSITIVE LOGITS
}
0.80
'))
0.69
eli
0.68
à
0.67
for
0.66
.
0.65
itt
0.65
}-\
0.64
föret
0.64
')
0.63
Activations Density 0.005%