Боты
Данные о заблокированных аккаунтах в социальной сети VK, которые использовались в статье:
- K. Skorniakov, D. Turdakov, and A. Zhabotinsky, “Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection”, in 2nd International Workshop on Rumours and Deception in Social Media (RDSM), 2018.
[Bibtex]@inproceedings{Skornyakov2018, Booktitle = {2nd International Workshop on Rumours and Deception in Social Media (RDSM)}, title = {Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection}, author = {Kirill Skorniakov and Denis Turdakov and Andrey Zhabotinsky}, year = {2018} }
Набор данных организован следующим образом:
Ссылка | Размер | Описание | Формат |
---|---|---|---|
embeddings_info.json.tar.gz | 69M | Содержит информацию о векторных представлениях вершин графа дружбы | gzip архив, содержащий файл в формате json lines с тремя полями:
|
texts.json.tar.gz | 82M | Текстовые сообщения | gzip архив, содержащий файл в формате с тремя полями:
|
top_10000_subs.json.tar.gz | 2.5G | Информация о подписчиках на 10000 наиболее популярных групп | gzip архив, содержащий файл в формате json lines с двумя полями:
|
OCR
Данные для статьи про распознавание текста с изображений, полученных из социальных медиа:
Набор данных организован следующим образом:
Ссылка | Размер | Описание |
---|---|---|
class_dataset.tar.gz | 2,31GB | The classification dataset consists of train and test parts of 11600 and 3200 images respectively. Images were collected via image search engine on yandex.ru/images/ in November 2018. |
local_dataset.tar | 107MB | The localisation dataset consists of a train set and a test set of 750 and 130 images respectively. This data was collected with the same technique as classification dataset in February-March 2019. |
ocr_dataset.tar | 142,6MB | OCR dataset contains 67 images. Images have been divided into 4 categories: demotivators(16), napalm(26), scanned(16), smartphone(9). All images downloaded/made in august 2018. Images from category “demotivators” downloaded from demotivators.ru. Images from category “certificates” downloaded from informnapalm.org. Images from category “scanned” downloaded from doc.mil.ru printed and scanned with 600 dpi. Images from category “smartphone” have been made mainly using smartphone and images from category scanned. Total symbols containing in images 64554. |
Сюжеты
Данные о разбиение новостей на сюжеты.
Набор данных организован следующим образом:
Ссылка | Размер | Описание | Формат |
---|---|---|---|
news_events.json.gz | 440K | Содержит | gzip архив, содержащий файл в формате в формате json lines со следующими полями:
|