INDEX
Explanations
prefixes for descriptive words
New Auto-Interp
Negative Logits
на
0.70
ic
0.69
ua
0.68
та
0.68
ov
0.67
UT
0.64
ens
0.63
us
0.63
۵
0.62
iv
0.62
POSITIVE LOGITS
,
0.52
।
0.51
。
0.49
<
0.49
↵↵
0.47
0.47
individu
0.46
out
0.45
streng
0.44
以下
0.42
Activations Density 0.261%