INDEX
Explanations
foreign language and punctuation
New Auto-Interp
Negative Logits
过
0.44
isión
0.41
ча
0.40
uleiro
0.40
base
0.38
ca
0.38
dict
0.38
resos
0.38
ttamente
0.37
过的
0.37
POSITIVE LOGITS
Bri
0.43
耐心
0.42
italic
0.39
Optimize
0.39
(...)
0.38
fördern
0.37
暗
0.37
optimize
0.37
暗
0.37
فقد
0.36
Activations Density 0.001%