INDEX
Explanations
describing states or qualities
New Auto-Interp
Negative Logits
٠
0.48
finde
0.45
sä
0.44
findest
0.44
٩
0.44
ка
0.43
cinta
0.43
tä
0.43
impactful
0.43
Feuerwehr
0.42
POSITIVE LOGITS
자신의
0.47
尽管
0.44
yaptığı
0.44
慢性
0.43
自己的
0.42
地区的
0.42
媟
0.42
своей
0.40
方面的
0.40
dangerously
0.40
Activations Density 0.009%