INDEX
Explanations
space and perception elements
New Auto-Interp
Negative Logits
في
0.56
توی
0.56
روی
0.55
บน
0.55
trên
0.50
ارك
0.50
ở
0.47
فى
0.44
در
0.44
في
0.44
POSITIVE LOGITS
ที่มี
0.42
not
0.40
not
0.40
isopropyl
0.39
belum
0.39
ικ
0.39
ణి
0.38
ocyt
0.38
Allora
0.38
iedy
0.37
Activations Density 0.066%