INDEX
Explanations
phrases related to legal arguments or considerations
New Auto-Interp
Negative Logits
kinda
-0.53
gonna
-0.44
thru
-0.40
anyways
-0.39
#+#
-0.39
heisst
-0.38
πως
-0.37
เค้า
-0.37
‘
-0.36
alot
-0.35
POSITIVE LOGITS
ویکیپدی
0.60
Ministers
0.59
elemField
0.55
hon
0.53
ministres
0.53
そのような
0.52
Mr
0.51
featureID
0.51
Наводи
0.50
Tetapi
0.50
Activations Density 0.085%