Visual Genome

doi:doi:10.57702/p2euk5d9

Visual Genome

The Visual Genome dataset is a large-scale visual question answering dataset, containing 1.5 million images, each with 15-30 annotated entities, attributes, and relationships.

BibTex:

@dataset{Ranjay_Krishna_and_Yuke_Zhu_and_Oliver_Groth_and_Justin_Johnson_and_Kenji_Hata_and_Joshua_Kravitz_and_Stephanie_Chen_and_Yannis_Kalantidis_and_Li-Jia_Li_and_David_A_Shamma_2024,
    abstract = {The Visual Genome dataset is a large-scale visual question answering dataset, containing 1.5 million images, each with 15-30 annotated entities, attributes, and relationships.},
    author = {Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A Shamma},
    doi = {10.57702/p2euk5d9},
    institution = {No Organization},
    keyword = {'Dataset', 'Image', 'Image Analysis', 'Image annotation', 'Image-Text Matching', 'Large Scale Dataset', 'Object Detection', 'Predicate Estimation', 'Predicate Labeling', 'Region Descriptions', 'Scene Graph', 'Scene understanding', 'Visual Attention', 'Visual Genome', 'Visual Grounding', 'Visual Question Answering', 'Visual Relationship Detection', 'Visual Relationship Prediction', 'Visual Semantic Graph', 'Visual Understanding', 'attribute classification', 'bounding box coordinates', 'conditional models', 'dense captioning', 'description generation', 'image annotation', 'image captioning', 'image description', 'image segmentation', 'image understanding', 'image-text embedding', 'image-text pairs', 'image-text retrieval', 'keypoints', 'labeling', 'large-scale dataset', 'layout', 'multiple entities', 'object detection', 'pairwise relationships', 'person-in-context synthesis', 'phrase grounding', 'question and answer pairs', 'question answering', 'scene graph', 'scene graph generation', 'scientiﬁc diagrams', 'semantic scene graphs', 'unpaired learning', 'vision and language', 'vision-language pre-training', 'visual genome', 'visual question answering', 'visual relation detection', 'visual relationship detection', 'visual representations', 'visual storytelling', 'visual-textual entailment'},
    month = {nov},
    publisher = {TIB},
    title = {Visual Genome},
    url = {https://service.tib.eu/ldmservice/dataset/visual-genome},
    year = {2024}
}