Отправляет email-рассылки с помощью сервиса Sendsay

Зайцева Наталья

| Подписаться на отборные выпуски категории

Text Mining Libraries

Один из читателей блога спросил у меня по электронной почте про известные мне библиотеки с реализациями разных алгоритмов IR. В частности его интересовала кластеризация шинглами. Неплохая реализация шинглов на C++ есть в библиотеке <a href="http://www.di.unipi.it/%7Egulli/clustBoost.html">ClustBoost</a>.<br /><br />Вообще хороших библиотек, а тем более open source, не так много. Среди тех с кем мне приходилось сталкиваться можно выделить:<br /><ul><li><a href="http://gate.ac.uk/">GATE</a>&nbsp;&mdash; как они пишут про себя это "the Eclipse of Natural Language Engineering, the Lucene of Information Extraction, the leading toolkit for Text Mining". С <a href="http://jakarta.apache.org/lucene/">Lucene</a>, конечно, они себя зря сравнивают. Коротко говоря, GATE это более-менее удобная графическая среда, к которой можно плагинами подключить практически любую библиотеку для обработки текста.<br /><li><a href="http://www.aktors.org/technologies/annie/">ANNIE</a>&nbsp;&mdash; распространяется как часть GATE. Включает в себя: токенайзер, sentence splitter, part-of-speech tagger и named entity recogniser. Последний может выделять такие сущности как имена, организации, места, даты, адреса и др. Утверждается что ведутся работы по портированию ANNIE для русского языка.<br /><li><a href="http://www.cs.waikato.ac.nz/ml/weka/">WEKA</a>&nbsp;&mdash; в этой библиотеке реализованы многие алгоритмы классификации плюс есть хорошие визуализаторы результатов. Есть wrapper в GATE.<br /><li><a href="http://minorthird.sourceforge.net/">MinorThird</a>&nbsp;&mdash; позволяет работать с аннотированным текстом, используя эти аннотации можно классифицировать документы с помощью множества реализованных алгоритмов (начиная от <a href="http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm">k-nn</a>, заканчивая <a hef="http://en.wikipedia.org/wiki/Support_vector_machine">SVM</a> и <a href="http://www.cs.ucsd.edu/~yfreund/papers/LargeMarginsUsingPerceptron.pdf">voted perceptron</a>. Что интересно, в MinorThird помимо обычной supervised классификации есть реализации и semi-supervised алгоритмов.<br /><li><a href="http://svmlight.joachims.org/">SVM<sup>light</sup></a>&nbsp;&mdash; хорошая и быстрая реализация SVM на C. Есть wrapper в GATE.</ul>Буду рад добавлениям в список.