Данные

Наборы данных для проведения научных исследований, собранные из открытых источников

Боты

Данные о заблокированных аккаунтах в социальной сети VK, которые использовались в статье:

  • K. Skorniakov, D. Turdakov, and A. Zhabotinsky, “Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection”, in 2nd International Workshop on Rumours and Deception in Social Media (RDSM), 2018.
    [Bibtex]
    @inproceedings{Skornyakov2018,
    Booktitle = {2nd International Workshop on Rumours and Deception in Social Media (RDSM)},
    title = {Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection},
    author = {Kirill Skorniakov and Denis Turdakov and Andrey Zhabotinsky},
    year = {2018}
    }

Набор данных организован следующим образом:

Ссылка Размер Описание Формат
embeddings_info.json.tar.gz 69M Содержит информацию о векторных представлениях вершин графа дружбы gzip архив, содержащий файл в формате json lines с тремя полями:

  • “id” – идентификатор аккаунта;
  • “embedding” – векторное представление вершины;
  • “label” – метки для аккаунтов (1 – бот, 0 – иначе).
texts.json.tar.gz 82M Текстовые сообщения gzip архив, содержащий файл в формате с тремя полями:

  • “id” – идентификатор аккаунта;
  • “text” – сообщения от имени аккаунта;
  • “label” – метки для аккаунтов (1 – бот, 0 – иначе).
top_10000_subs.json.tar.gz 2.5G Информация о подписчиках на 10000 наиболее популярных групп gzip архив, содержащий файл в формате json lines с двумя полями:

  • “id” – идентификатор группы;
  • “value” – список идентификаторов подписчиков.

OCR

Данные для статьи про распознавание текста с изображений, полученных из социальных медиа:

Набор данных организован следующим образом:

Ссылка Размер Описание
class_dataset.tar.gz 2,31GB The classification dataset consists of train and test parts of 11600 and 3200 images respectively. Images were collected via image search engine on yandex.ru/images/ in November 2018.
local_dataset.tar 107MB The localisation dataset consists of a train set and a test set of 750 and 130 images respectively. This data was collected with the same technique as classification dataset in February-March 2019.
ocr_dataset.tar 142,6MB OCR dataset contains 67 images. Images have been divided into 4 categories: demotivators(16), napalm(26), scanned(16), smartphone(9). All images downloaded/made in august 2018. Images from category “demotivators” downloaded from demotivators.ru. Images from category “certificates” downloaded from informnapalm.org. Images from category “scanned” downloaded from doc.mil.ru printed and scanned with 600 dpi. Images from category “smartphone” have been made mainly using smartphone and images from category scanned. Total symbols containing in images 64554.

Сюжеты

Данные о разбиение новостей на сюжеты.
Набор данных организован следующим образом:

Ссылка Размер Описание Формат
news_events.json.gz 440K Содержит gzip архив, содержащий файл в формате в формате json lines со следующими полями:

  • “title” – название новости;
  • “text” – текст новости;
  • “story_url” – индентификатор сюжета;
  • “url” – индентификатор новости;