INDEX
Explanations
references to various cultural or societal norms and relationships
New Auto-Interp
Negative Logits
expandindo
-1.07
дописавши
-0.94
。】
-0.87
الرياضيه
-0.85
!】
-0.83
?】
-0.77
.)}
-0.77
)』
-0.75
bezeichneter
-0.74
“
-0.73
POSITIVE LOGITS
”
1.88
"
1.72
」
1.70
",
1.57
”,
1.50
''
1.43
’’
1.42
".
1.31
”.
1.30
',
1.21
Activations Density 0.520%