INDEX
Negative Logits
𝗹
0.50
ب
0.48
𝗵
0.48
degenerative
0.46
لم
0.46
リー
0.45
لز
0.44
柵
0.44
𝙜
0.44
기가
0.43
POSITIVE LOGITS
'
0.57
’
0.54
voert
0.50
Vehicle
0.49
at
0.48
vehicle
0.45
Bás
0.43
Republican
0.42
使用
0.42
didn
0.42
Activations Density 0.002%