INDEX
Explanations
code-like structures, particularly related to mathematical or logical functions
New Auto-Interp
Negative Logits
.
-0.51
".
-0.42
'.
-0.41
!
-0.39
<eos>
-0.38
').
-0.38
Res
-0.37
:
-0.37
T
-0.36
Res
-0.36
POSITIVE LOGITS
חיצוניים
1.02
autorytatywna
0.97
שוליים
0.92
nahilalakip
0.84
tvguidetime
0.81
Geſch
0.79
Geiſt
0.75
kasarigan
0.72
StructEnd
0.72
Taktlose
0.71
Activations Density 0.666%