INDEX
Explanations
Large language model behaviors
New Auto-Interp
Negative Logits
ilidade
0.63
konnte
0.53
}}=\
0.52
Ihr
0.49
0.47
Ein
0.47
könnte
0.47
charakter
0.46
préstamo
0.46
kunde
0.45
POSITIVE LOGITS
cobalt
0.54
blacksmith
0.52
Magnesium
0.48
циям
0.47
蒈
0.47
Housing
0.47
Cobalt
0.46
Lao
0.46
Delft
0.46
Katie
0.45
Activations Density 0.001%