INDEX
Explanations
Roleplay instructions
New Auto-Interp
Negative Logits
this
0.61
that
0.55
6
0.50
六
0.50
n
0.49
6
0.49
on
0.48
फंडा
0.48
न
0.48
p
0.48
POSITIVE LOGITS
in
0.65
льных
0.58
giardino
0.54
في
0.52
льной
0.52
д
0.51
feeding
0.51
במ
0.51
hiszen
0.50
ской
0.49
Activations Density 0.000%