INDEX
Explanations
simple, low-effort, low-cost
New Auto-Interp
Negative Logits
substitution
1.06
favor
1.05
MIUI
1.03
Salman
1.02
preferring
1.00
Mozilla
1.00
chatbot
0.99
لیون
0.99
despite
0.99
thanks
0.99
POSITIVE LOGITS
感覺
1.07
没什么
0.93
感觉
0.92
凄い
0.92
绝对
0.90
也不知道
0.89
没人
0.86
eway
0.85
充满了
0.83
强度
0.83
Activations Density 0.111%