Пример рабочего процесса:
- Собираете список запросов.
- Преобразуете каждый в вектор с помощью Sentence-BERT.
- Кластеризуете векторы алгоритмом K-Means или DBSCAN.
- Анализируете полученные группы.
Плюсы: высокая семантическая точность, возможность кастомной настройки.
Минусы: требует навыков программирования, не учитывает выдачу поисковиков (если не интегрировать парсинг), долго запускается.
Такой подход оправдан в гибридных системах — например, когда сначала делается кластеризация по выдаче, а потом внутри кластеров уточняется смысловая близость через NLP.