INDEX
Explanations
conjunctions after punctuation
New Auto-Interp
Negative Logits
plays
0.55
hanging
0.52
sebagainya
0.50
march
0.47
потім
0.42
?,?,
0.41
explored
0.40
othelium
0.40
др
0.39
സർ
0.39
POSITIVE LOGITS
आणि
2.09
અને
1.97
এবং
1.90
and
1.87
और
1.82
ਅਤੇ
1.81
và
1.80
и
1.77
และ
1.69
και
1.66
Activations Density 0.498%