INDEX
Explanations
descriptive labels before colon
New Auto-Interp
Negative Logits
kten
0.48
miserable
0.44
sterile
0.39
swollen
0.39
이미지
0.39
wretched
0.39
ಅವನ
0.39
infr
0.39
helpless
0.38
Wallis
0.38
POSITIVE LOGITS
École
0.47
Université
0.42
États
0.39
вшая
0.38
দিয়েছেন
0.36
دأ
0.36
Admission
0.35
QMainWindow
0.34
telah
0.34
Université
0.34
Activations Density 0.003%