TALISMAN.Поток

Система для предобработки потока больших данных из социальных медиа

Talisman.Поток – это масштабируемый программный фреймворк с микросервисной архитектурой, разработанный на основе свободного ПО.

Повышает продуктивность разработки прикладных систем анализа за счет объединения нескольких обработчиков потоковых данных. Отличается высокой скоростью обработки информации, простой эффективной настройкой и удобством использования.

Осуществляет поиск по заданным критериям (с возможностью адаптации методики под конкретные задачи)

Фильтрует и обогащает входящую информацию

Накапливает данные для дальнейшего использования

Технические особенности фреймворка Talisman.Поток

Может взаимодействовать как с оригинальным сборщиком ИСП РАН (ISP Crawler), так и со внешними сборщиками данных

Может использоваться как совместно с системой Talisman.Биография, так и отдельно (например, для сбора и анализа отзывов о продуктах)

Для предобработки текстовой информации использует оригинальную платформу ИСП РАН Texterra

Сохраняет данные на выходе в файлы на жестких дисках и в СУБД (PostgrteSQL, ElasticSearch, Cassandra и др.)

Для обработки сканов документов использует модуль оптического распознавания символов Tesseract, адаптированный к специфике социальных медиа (фотографии в условиях неравномерной освещенности, текст на изображениях и др.)

Для автоматизации настройки и развертывания ПО, а также для управления базами данных и API использует технические возможности Docker, Ansible, Redis и Kong.