INDEX
Explanations
treats as, views, frames, sees
New Auto-Interp
Negative Logits
ācijas
0.40
things
0.40
льной
0.39
Name
0.39
лам
0.38
рыб
0.38
ımın
0.38
તેમણે
0.38
नाम
0.37
पता
0.37
POSITIVE LOGITS
menjadikan
0.49
рассматривать
0.46
treating
0.45
每一次
0.45
treating
0.41
Treat
0.40
เป็นการ
0.40
নিজেকে
0.39
ως
0.39
act
0.37
Activations Density 0.040%