INDEX
Explanations
communication media and messages
New Auto-Interp
Negative Logits
ใน
0.52
in
0.40
.
0.40
ление
0.40
ໃນ
0.39
של
0.38
σε
0.38
ا
0.38
在
0.37
ography
0.37
POSITIVE LOGITS
n
0.66
re
0.57
is
0.53
メッセージ
0.53
ли
0.50
message
0.48
for
0.46
m
0.46
d
0.46
c
0.45
Activations Density 0.912%