INDEX
Explanations
encourages harmful behavior
New Auto-Interp
Negative Logits
очень
0.70
Очень
0.63
你自己
0.57
がたくさん
0.57
しくて
0.55
żeby
0.54
nagyon
0.53
ძალიან
0.53
Очень
0.52
사람들이
0.52
POSITIVE LOGITS
розгля
0.49
nascent
0.46
behest
0.45
versed
0.44
遑
0.44
peered
0.43
donned
0.43
glimps
0.43
albeit
0.43
bespoke
0.43
Activations Density 0.091%