47
Кластеризация текстов
Константин Маргорин

Разработать алгоритм, выделяющий смысловые кластера в группе текстов. Например из всех текстов, находящихся у типичного студента в почтовом ящике (тексты писем, attachments), можно выделить следующие кластера:

  • учеба
  • друзья
  • родственники
  • политика

Разработать программный прототип, демонстрирующий работу алгоритма.

Данная технология будет использоваться для индексирования и последующего поиска в персональных данных пользователя. Например, человек хочет найти все письма, имеющие отношения к родственникам.

Mожно начать с отсюда:  https://github.com/rasbt/pattern_classification