TALISMAN
Фреймворк для анализа данных о людях, сообществах, продуктах и организациях. Основан на современных методах машинного обучения, компьютерной лингвистики, анализа сложных сетей и обработки больших данных.
Фреймворк для анализа данных о людях, сообществах, продуктах и организациях. Основан на современных методах машинного обучения, компьютерной лингвистики, анализа сложных сетей и обработки больших данных.
В том числе, корпоративных и новостных, а также информации из социальных сетей (Вконтакте, Facebook, Twitter, Instagram, Одноклассники, Youtube, LinkedIn и др.), блогов (LiveJournal), открытых каналов мессенджера Telegram и ресурсов Dark web. Для проведения анализа Talisman может взаимодействовать как с оригинальной технологией сбора данных ИСП РАН (ISP Crawler), так и со внешними сборщиками.
• Скорость полного разбора текста ∼13 600 слов/сек;
• Уникальная для русского языка работа с концептами (более 7 миллионов понятий);
• Масштабируемость как по скорости обработки текста, так и по объему знаний (с помощью Apache Ignite и оригинальной облачной технологии ИСП РАН Big Data Open Lab);
• Построение базы без привлечения экспертов (автоматическое пополнение с помощью Wikipedia, MediaWiki, Linked Open Data и др.);
• Высокая точность анализа текста (адаптивность к сленгу, хештегам и ошибкам, анализ эмоциональной окраски и др.).