Recording of papers I read

BYTESIZED32: A Corpus and Challenge Task for Generating Task-Specific World Models Expressed as Text Games
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance
CoCa: Contrastive Captioners are Image-Text Foundation Models
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (momentum model)
Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

Msic

Simul-LLM

Unknown

传送面板已上线，我们的行动会更加迅捷