INDEX
Explanations
actual measurement or state
New Auto-Interp
Negative Logits
سالب
0.45
финансо
0.41
posthum
0.39
sağlık
0.37
kvůli
0.36
(!)
0.35
wyłącznie
0.35
Duits
0.35
对自己
0.34
一个人
0.34
POSITIVE LOGITS
each
0.46
ম
0.46
sicuramente
0.45
this
0.45
म
0.44
ㅈ
0.43
formations
0.43
それぞれの
0.42
m
0.42
এই
0.42
Activations Density 0.002%