INDEX
Explanations
the start of a new section or topic in the text
New Auto-Interp
Negative Logits
ویکیپدیا
-0.61
UnusedPrivate
-0.60
Parcelize
-0.52
่วม
-0.49
Gras
-0.47
totic
-0.46
unque
-0.45
.*;
-0.45
♀️
-0.44
Frey
-0.44
POSITIVE LOGITS
<<<<<<<<<<<<<<
0.83
Schlä
0.78
ագրություններ
0.72
kasarigan
0.70
Abbé
0.68
AssemblyCompany
0.68
verwijspagina
0.67
__(/*!
0.66
enment
0.66
ernalia
0.65
Activations Density 0.091%