INDEX
Explanations
receive/get feedback or rewards
New Auto-Interp
Negative Logits
'
0.83
-
0.65
,
0.58
)
0.57
.
0.57
-
0.55
:
0.54
%
0.54
}
0.54
0.53
POSITIVE LOGITS
ী
0.62
лля
0.56
avacan
0.52
ामध्ये
0.52
الاعدادي
0.52
Информация
0.52
ോഗ്യ
0.51
ग्वि
0.51
Такой
0.50
таком
0.50
Activations Density 0.024%