INDEX
Explanations
stating main points or arguments
New Auto-Interp
Negative Logits
😎
0.49
潙
0.46
пишу
0.44
kirjo
0.43
geschrieben
0.42
เขียน
0.42
skriver
0.42
লিখিয়াছেন
0.42
schreibt
0.42
เขียน
0.41
POSITIVE LOGITS
soggetto
0.42
subject
0.39
分
0.39
firstly
0.38
ровку
0.38
tres
0.38
punkt
0.38
ebe
0.38
etrics
0.38
twofold
0.38
Activations Density 0.004%