INDEX
Explanations
consequence or reason words
New Auto-Interp
Negative Logits
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.50
↵↵↵↵↵↵↵
0.49
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.48
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.48
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.47
↵↵↵↵↵↵↵↵↵↵↵
0.45
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.45
↵↵↵↵↵↵↵↵↵↵
0.45
↵↵↵↵↵
0.44
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.43
POSITIVE LOGITS
ดังนั้น
0.89
поэтому
0.73
joten
0.70
எனவே
0.65
所以我
0.64
সুতরাং
0.63
لذا
0.63
dlatego
0.62
所以
0.60
nên
0.60
Activations Density 0.274%