INDEX
Explanations
pirate and subsequent terms
New Auto-Interp
Negative Logits
1
0.88
;
0.81
2
0.79
ان
0.75
an
0.74
ول
0.74
ل
0.73
기
0.73
आय
0.71
!
0.71
POSITIVE LOGITS
ཎ
0.67
戞
0.66
手法
0.62
。「
0.61
とても
0.61
മാര്
0.59
勮
0.59
盛り
0.59
含む
0.59
হওয়
0.58
Activations Density 0.001%