Talisman.Поток – это масштабируемый программный фреймворк с микросервисной архитектурой, разработанный на основе свободного ПО.
Осуществляет поиск по заданным критериям (с возможностью адаптации методики под конкретные задачи)
Фильтрует и обогащает входящую информацию
Накапливает данные для дальнейшего использования
Технические особенности фреймворка Talisman.Поток
Может взаимодействовать как с оригинальным сборщиком ИСП РАН (ISP Crawler), так и со внешними сборщиками данных
Может использоваться как совместно с системой Talisman.Биография, так и отдельно (например, для сбора и анализа отзывов о продуктах)
Для предобработки текстовой информации использует оригинальную платформу ИСП РАН Texterra
Сохраняет данные на выходе в файлы на жестких дисках и в СУБД (PostgrteSQL, ElasticSearch, Cassandra и др.)
Для обработки сканов документов использует модуль оптического распознавания символов Tesseract, адаптированный к специфике социальных медиа (фотографии в условиях неравномерной освещенности, текст на изображениях и др.)
Для автоматизации настройки и развертывания ПО, а также для управления базами данных и API использует технические возможности Docker, Ansible, Redis и Kong.