INDEX
Explanations
moral reasoning and dilemmas
New Auto-Interp
Negative Logits
सर्व
0.42
MatContext
0.41
MyDrive
0.39
ชนิด
0.38
Versch
0.37
মিথ
0.36
Kc
0.36
কিল
0.36
ларга
0.35
রাশি
0.35
POSITIVE LOGITS
mor
0.79
morals
0.75
мора
0.74
Mor
0.71
morality
0.71
Mor
0.68
moral
0.68
mor
0.68
MOR
0.67
morales
0.65
Activations Density 0.015%