INDEX
Explanations
periods followed by emphasis
New Auto-Interp
Negative Logits
】【
0.59
사람
0.59
)・
0.52
ুয়ারি
0.50
یتے
0.48
ждению
0.48
」「
0.48
пример
0.47
বেদন
0.46
)、
0.46
POSITIVE LOGITS
↵↵
1.42
↵↵↵↵
1.37
↵↵↵
1.21
↵↵↵↵↵
1.14
↵↵↵↵↵↵
1.06
↵↵↵↵↵↵↵
0.93
↵↵↵↵↵↵↵↵
0.81
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.80
↵↵↵↵↵↵↵↵↵
0.78
↵↵↵↵↵↵↵↵↵↵
0.77
Activations Density 0.189%