INDEX
Explanations
multilingual technical and abstract concepts
New Auto-Interp
Negative Logits
1
0.54
ام
0.52
۱
0.50
Michael
0.48
d
0.48
end
0.47
tug
0.47
Santa
0.46
ات
0.46
ོས་
0.46
POSITIVE LOGITS
imprime
0.50
céré
0.48
desviación
0.48
hü
0.48
annotate
0.47
auft
0.47
cillum
0.47
eighth
0.46
اظهار
0.46
ভিত্তিক
0.46
Activations Density 0.002%