|
|
|
|
|
|
|
Matotest-PHP представляет собой библиотечный модуль на языке PHP, предназначенный для
распознавания в тексте нецензурных элементов лексики русского языка (в просторечии - мата).
Библиотека разработана на базе аналогичного модуля языка Perl "Lingua-RU-Censure", написанного Михаилом
Бабаковым и Артуром Пентиненом. При этом, несколько изменены алгоритмы анализа по сравнению с
первоначальной версией и достаточно сильно доработана словарная база, в первую очередь - в плане
соответствия обычной современной разговорной речи. Соответственно, были приняты меры по корректной
обработке наиболее распространенных опечаток и жаргонных, но не являющихся нецензурными, на мой взгляд, оборотов
речи (к примеру, я не считаю, что "трындец" или "епрст" являются нецензурщиной).
"Matotest" показал и продолжает показывать достаточно неплохие результаты в работе на веб-чате портала
Chat.Ru, общение в котором я считаю достаточно хорошим образцом общения в Рунете вообще. В соответствии с
этим и продолжает дорабатываться словарная база библиотеки.
|
|
|
Модуль распространяется на основании лицензии GPL, допускается любая его доработка при условии сохранения
первоначального авторства согласно данной лицензии. Я также буду весьма благодарен, если Вы будете присылать мне Ваши доработки
и постараюсь включать их в последующие версии модуля.
Поскольку словарная база постоянно дополняется, и выпускать новый релиз при
каждом изменении возможности нет, предоставлен открытый доступ к CVS,
где Вы всегда можете получить самую последнюю версию модуля.
В настоящий момент Вы можете загрузить последний
релиз модуля, а также скрипт с примером использования.
|
|
|
|
|