INDEX
Explanations
names followed by descriptions
New Auto-Interp
Negative Logits
자의
0.52
ရဲ့
0.51
their
0.50
ihren
0.48
njihov
0.48
さんの
0.47
家の
0.47
ちゃんの
0.47
家的
0.46
deres
0.46
POSITIVE LOGITS
状况
0.48
موقف
0.45
الوضع
0.45
ак
0.44
ситуация
0.44
сам
0.43
компетен
0.42
เชื่อ
0.42
狀況
0.41
ситуацию
0.41
Activations Density 0.008%