О проекте:

Matotest-PHP представляет собой библиотечный модуль на языке PHP, предназначенный для распознавания в тексте нецензурных элементов лексики русского языка (в просторечии - мата). Библиотека разработана на базе аналогичного модуля языка Perl "Lingua-RU-Censure", написанного Михаилом Бабаковым и Артуром Пентиненом. При этом, несколько изменены алгоритмы анализа по сравнению с первоначальной версией и достаточно сильно доработана словарная база, в первую очередь - в плане соответствия обычной современной разговорной речи. Соответственно, были приняты меры по корректной обработке наиболее распространенных опечаток и жаргонных, но не являющихся нецензурными, на мой взгляд, оборотов речи (к примеру, я не считаю, что "трындец" или "епрст" являются нецензурщиной).
"Matotest" показал и продолжает показывать достаточно неплохие результаты в работе на веб-чате портала Chat.Ru, общение в котором я считаю достаточно хорошим образцом общения в Рунете вообще. В соответствии с этим и продолжает дорабатываться словарная база библиотеки.

Загрузка:

Модуль распространяется на основании лицензии GPL, допускается любая его доработка при условии сохранения первоначального авторства согласно данной лицензии. Я также буду весьма благодарен, если Вы будете присылать мне Ваши доработки и постараюсь включать их в последующие версии модуля. Поскольку словарная база постоянно дополняется, и выпускать новый релиз при каждом изменении возможности нет, предоставлен открытый доступ к CVS, где Вы всегда можете получить самую последнюю версию модуля.
В настоящий момент Вы можете загрузить последний релиз модуля, а также скрипт с примером использования.

Ilya "Scarab" Basalaev <scarab@initgroup.chat.ru>
SourceForge.net logo