INDEX
Explanations
birth years and death years
New Auto-Interp
Negative Logits
problem
0.96
不同的
0.95
it
0.93
roids
0.86
不同
0.86
angs
0.86
oles
0.85
ole
0.84
amini
0.84
新的
0.83
POSITIVE LOGITS
meninggal
1.06
cuja
1.06
умира
1.05
enfermo
1.03
cuya
1.02
asesin
0.99
enfermos
0.98
viviendo
0.96
умер
0.96
morrer
0.96
Activations Density 0.028%