INDEX
Explanations
phrases indicating reasons or causation
New Auto-Interp
Negative Logits
stě
-0.82
kormány
-0.78
vuotta
-0.76
jména
-0.74
gyerme
-0.74
társ
-0.74
obicei
-0.73
rând
-0.73
preocupação
-0.72
polícia
-0.72
POSITIVE LOGITS
за
0.91
За
0.90
por
0.88
opor
0.87
por
0.84
Por
0.82
Για
0.81
orianCalendar
0.81
POR
0.80
Por
0.79
Activations Density 0.036%