ДанныеНаборы данных для проведения научных исследований, собранные из открытых источников

Боты

Данные о заблокированных аккаунтах в социальной сети VK, которые использовались в статье:

K. Skorniakov, D. Turdakov, and A. Zhabotinsky, “Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection”, in 2nd International Workshop on Rumours and Deception in Social Media (RDSM), 2018.
[Bibtex]

@inproceedings{Skornyakov2018,
Booktitle = {2nd International Workshop on Rumours and Deception in Social Media (RDSM)},
title = {Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection},
author = {Kirill Skorniakov and Denis Turdakov and Andrey Zhabotinsky},
year = {2018}
}

Набор данных организован следующим образом:

Ссылка	Размер	Описание	Формат
embeddings_info.json.tar.gz	69M	Содержит информацию о векторных представлениях вершин графа дружбы	gzip архив, содержащий файл в формате json lines с тремя полями: “id” – идентификатор аккаунта; “embedding” – векторное представление вершины; “label” – метки для аккаунтов (1 – бот, 0 – иначе).
texts.json.tar.gz	82M	Текстовые сообщения	gzip архив, содержащий файл в формате с тремя полями: “id” – идентификатор аккаунта; “text” – сообщения от имени аккаунта; “label” – метки для аккаунтов (1 – бот, 0 – иначе).
top_10000_subs.json.tar.gz	2.5G	Информация о подписчиках на 10000 наиболее популярных групп	gzip архив, содержащий файл в формате json lines с двумя полями: “id” – идентификатор группы; “value” – список идентификаторов подписчиков.

Ссылка

Размер

Описание

Формат

embeddings_info.json.tar.gz

69M

Содержит информацию о векторных представлениях вершин графа дружбы

gzip архив, содержащий файл в формате json lines с тремя полями:

“id” – идентификатор аккаунта;
“embedding” – векторное представление вершины;
“label” – метки для аккаунтов (1 – бот, 0 – иначе).

texts.json.tar.gz

82M

Текстовые сообщения

gzip архив, содержащий файл в формате с тремя полями:

“id” – идентификатор аккаунта;
“text” – сообщения от имени аккаунта;
“label” – метки для аккаунтов (1 – бот, 0 – иначе).

top_10000_subs.json.tar.gz

2.5G

Информация о подписчиках на 10000 наиболее популярных групп

gzip архив, содержащий файл в формате json lines с двумя полями:

“id” – идентификатор группы;
“value” – список идентификаторов подписчиков.

OCR

Данные для статьи про распознавание текста с изображений, полученных из социальных медиа:

Набор данных организован следующим образом:

Ссылка	Размер	Описание
class_dataset.tar.gz	2,31GB	The classification dataset consists of train and test parts of 11600 and 3200 images respectively. Images were collected via image search engine on yandex.ru/images/ in November 2018.
local_dataset.tar	107MB	The localisation dataset consists of a train set and a test set of 750 and 130 images respectively. This data was collected with the same technique as classification dataset in February-March 2019.
ocr_dataset.tar	142,6MB	OCR dataset contains 67 images. Images have been divided into 4 categories: demotivators(16), napalm(26), scanned(16), smartphone(9). All images downloaded/made in august 2018. Images from category “demotivators” downloaded from demotivators.ru. Images from category “certificates” downloaded from informnapalm.org. Images from category “scanned” downloaded from doc.mil.ru printed and scanned with 600 dpi. Images from category “smartphone” have been made mainly using smartphone and images from category scanned. Total symbols containing in images 64554.

Сюжеты

Данные о разбиение новостей на сюжеты.
Набор данных организован следующим образом:

Ссылка	Размер	Описание	Формат
news_events.json.gz	440K	Содержит	gzip архив, содержащий файл в формате в формате json lines со следующими полями: “title” – название новости; “text” – текст новости; “story_url” – индентификатор сюжета; “url” – индентификатор новости;

Ссылка

Размер

Описание

Формат

news_events.json.gz

440K

Содержит

gzip архив, содержащий файл в формате в формате json lines со следующими полями:

“title” – название новости;
“text” – текст новости;
“story_url” – индентификатор сюжета;
“url” – индентификатор новости;

TALISMAN

TALISMAN

Данные

Данные

Наборы данных для проведения научных исследований, собранные из открытых источников

Боты

OCR

Сюжеты