INDEX
Explanations
their families or caregivers
New Auto-Interp
Negative Logits
friends
0.64
朋友
0.63
friends
0.61
फ्रेंड्स
0.59
Friends
0.58
বন্ধুদের
0.57
friendships
0.57
prijatel
0.56
teman
0.55
друз
0.55
POSITIVE LOGITS
accompanying
0.63
их
0.56
caregiver
0.55
とその
0.54
caregivers
0.54
families
0.52
他们的
0.52
उनके
0.52
jejich
0.52
deres
0.50
Activations Density 0.012%