INDEX
Explanations
numerical values and quantities
New Auto-Interp
Negative Logits
ŠE
0.44
뀔
0.43
резко
0.43
spiracy
0.42
íte
0.40
мышлен
0.40
вичай
0.40
衝撃
0.40
≳
0.39
뀜
0.39
POSITIVE LOGITS
5
0.63
five
0.55
3
0.52
৫
0.51
5
0.50
4
0.48
2
0.47
6
0.47
۵
0.45
half
0.44
Activations Density 0.060%