INDEX
Explanations
superhero training or themed
New Auto-Interp
Negative Logits
ð
0.55
derogatory
0.54
O
0.54
plabic
0.52
ျေး
0.50
もら
0.50
лишь
0.50
подходит
0.49
лар
0.48
Shots
0.48
POSITIVE LOGITS
an
0.64
м
0.63
م
0.63
n
0.59
ہ
0.59
ব
0.55
וד
0.54
ine
0.53
q
0.53
ம்
0.52
Activations Density 0.001%