INDEX
Explanations
references to the pronoun "it."
New Auto-Interp
Negative Logits
volles
-0.73
cete
-0.69
préférences
-0.66
[],
-0.65
nungs
-0.62
[];
-0.62
bbean
-0.61
неопр
-0.61
حوال
-0.61
StringTo
-0.60
POSITIVE LOGITS
المعيارى
1.02
للاسماء
0.83
nisso
0.70
فريبيس
0.64
مرئيه
0.63
dedans
0.63
énario
0.60
الرياضيه
0.58
niego
0.58
Sucesor
0.57
Activations Density 0.155%