Программа для подсчёта статистики по морфемным паронимам и построения словаря.
IDE: раньше - проект Microsoft Visual Studio 2010, теперь CMake. Можно как обновить проект, так и заново создать проект на основе CMakeLists.txt
Язык: C++, вспомогательные утилиты - Python.
Содержит следующие директории/файлы:
- CrossLexica - вспомогательные утилиты, вычисление коэффициента смысловой близости
- lib - сторонние библиотеки liblinear, wingetopt
- results - итоговые файлы подсчета статистики, построенные словари и т.д.
- src - исходный код
- false_paronyms.txt, false_paronyms_1.txt, true_paronyms.txt, true_second.txt, KVAZI.TXT - файлы для обучающего множества.
- petAffixes.txt, negative.txt - файлы для вычисления некоторых признаков (уменьшительно-ласкательные суффиксы, отрицательные префиксы)
- RED.TXT - словарь Красных для оценки критериев
- run.sh, RunMe.bat, no_training.sh - скрипты командной строки для запуска исполняемого файла и облегчения использования аргументов командной строки. В частности, no_training.sh только загружает классификатор из файла, без обучения.
ParonStatistics.exe [-e <num>] [-l <num>] [-w <num>] [-c <load_cl>] [-s <save_cl>] <input_file> <output_file> [ <statistics_file> [<error_file>] ]
-e <num> - (необязательный) максимальное количество слов-примеров для статистики, по умолчанию 0
-l <num> - (необязательный) количество колонок в файле выводе статистики. Используется для удобства вывода.
-w <num> - (необязательный) максимальная длина слова, по умолчанию 25 символов (рекомендуется использование значения по умолчанию)
-c <load_cl> - (необязательный) загрузка классификатора из файла без обучения
-s <save_cl> - (необязательный) сохранение обученного классификатора в файл
<input_file> - путь ко входному файлу (PARON1.TXT)
<output_file> - путь к выходному файлу.
<statistics_file> - (необязательный) путь к файлу для вывода статистики.
<error_file> - (необязательный) путь к файлу для вывода ошибок, найденных во входном файле.
Содержит словарь, построенный по аффиксальному критерию. Однако, параллельно с ним во вспомогательные файлы выводятся отдельные словари для каждого используемого критерия, в частности SVN.txt для машинного критерия. В файл статистики выводится основная статистика, статистика по отдельным префиксам/суффиксам выводится в файлы prefixes.txt, suffixes.txt, roots.txt
В ходе работы программы на экран выводятся:
- количество положительных/отрицательных примеров (если есть обучение классификатора)
- отладочная информация liblinear (если есть обучение классификатора)
- паронимы, входящие в словарь Красных и не удовлетворяющие машинному критерию (выбор конкретного критерия в будущем лучше вынести в параметр)
- оценка критериев
- для каждого критерия: покрытие словаря Красных, полнота по отрицательным примерам обучающего множества, F-мера.
- объёмы построенных словарей по различным критериям