INDEX
Explanations
[placeholder] [instruction]
New Auto-Interp
Negative Logits
Asalamualaikum
0.57
อะคาเดมี
0.55
bhavanti
0.54
kvůli
0.54
gamanam
0.51
Feel
0.50
bitOp
0.50
allah
0.50
৮
0.49
কারণ
0.49
POSITIVE LOGITS
en
0.50
mode
0.48
CN
0.47
uper
0.45
ut
0.44
نيف
0.44
professor
0.44
dealer
0.43
mor
0.43
newspaper
0.43
Activations Density 0.001%