INDEX
Explanations
Llama model sizes (7B, 13B, 70B)
New Auto-Interp
Negative Logits
estadounidense
0.46
ghost
0.42
modos
0.42
flame
0.42
sword
0.42
炯
0.41
parabol
0.40
உ
0.40
ټبال
0.40
ظل
0.40
POSITIVE LOGITS
update
0.50
idn
0.49
बरेली
0.46
unat
0.46
nr
0.45
zusätz
0.45
enio
0.45
वनस्पती
0.45
invite
0.44
urities
0.44
Activations Density 0.001%