INDEX
Explanations
phrases indicating agreement or subjective opinions
New Auto-Interp
Negative Logits
<<<<<<<<<<<<<<
-0.47
ok
-0.41
Dier
-0.41
wont
-0.38
ребё
-0.37
seper
-0.36
Whilst
-0.36
трёх
-0.35
Sólo
-0.35
wh
-0.35
POSITIVE LOGITS
yntaxException
0.62
zijne
0.59
חיצוניים
0.57
BoxFit
0.57
mijne
0.56
ſelben
0.56
laſſen
0.56
ſchaft
0.56
apatalk
0.55
Geſch
0.55
Activations Density 0.114%