Аналитика из открытых источников (OSINT) может улучшить организационный анализ, используя данные из социальных сетей, веб-сайтов и исследований. Тематическое моделирование, метод машинного обучения без учителя, помогает идентифицировать темы в больших наборах текстовых данных. В этом контексте OpenAlex предоставляет доступ к миллионам исследовательских статей.
Импортировав данные из OpenAlex и выполнив предварительную обработку NLP, можно создать топическую модель с использованием латентного распределения Дирихле (LDA). Количество топиков и скорость затухания являются ключевыми параметрами, а их значения можно оптимизировать с помощью тестирования параметров.
Оценка когерентности измеряет качество тем в диапазоне от 0 до 1. Оценка около 0,48 указывает на возможности для улучшения. PyLDAvis предоставляет интерактивные визуализации для изучения распределения тем и соответствующих терминов.
Последний шаг включает в себя оптимизацию тематической модели путем тестирования различных параметров и выбора комбинации, которая дает наивысший балл когерентности. Этот процесс повышает эффективность модели при выявлении отдельных и четко определенных тем в наборе данных.
towardsdatascience.com
Topic Modeling Open-Source Research with the OpenAlex API
Create attached notes ...
