Морфологические анализаторы (морфологизаторы)

Морфологические анализаторы (морфологизаторы) на php и других языках существуют уже достаточно давно и в большом количестве, позволяя реализовать поиск с учетом словоформ. Неотвратимый изъян анализатора - привязка к словарю, но некоторые более продвинутые скрипты могут работать и без словаря эвристическим способом, основываясь на вероятностных методах. Анализаторы сделаны как парсеры и стеммеры.
Парсер (parser) - грамматический анализатор в составе синтаксического анализатора. Скрипт, обеспечивающий автоматическую обработку (разборку) страниц сайтов с целью получения нужных данных. Так, парсят серп (поисковую выдачу) Яндекса и Гугл, например, чтобы определить показатели качества сайта - ТИЦ и ПР, а также позиции сайта, парсят страницы на предмет нахождения там нужной ссылки (открыта/закрыта), текста и т.п..
Стеммер (stemmer) - процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова. Алгоритм стемминга представляет собой давнюю проблему в области компьютерных наук и применяется в поиcковых системах для обобщения поискового запроса пользователя. Стеммер, в отличие от "аналитических", т.е. от списков окончаний, более "умный", может иметь свой словарь для выделения формальной основы. Программа определения основы заданного исходного слова:
- кружка: кружка (сущ., ж.), кружок (сущ., м.).
- моя: мыть (гл.), мой (мест.).
Пример:
- Буря мглою небо кроет,
- Вихри снежные крутя;
- То, как зверь, она завоет,
- То заплачет, как дитя...
Получим:
- [Буря: буря, бурить, :1] [мглою: мгла, :1] [небо: небо, :1] [кроет: крыть, :1],
- [Вихри: вихрь, :1] [снежные: снежный, :1] [крутя: крутить, :1];
- [То: то, :1], [как: как, :1] [зверь: зверь, :1], [она: она, :1] [завоет: завыть, :1],
- [То: то, :1] [заплачет: заплакать, :1], [как: как, :1] [дитя: дитя, :1]...
А ведь можно попробовать для стемминга использовать обученную нейросеть и предоставить пользователям корректировать БД знаний скрипта - об этом уже упомяналось ранее в предыдущих статьях, но никто пока до этого еще не дошел (не нашел во всяком случае таковых).
Вот некоторые морфологические скрипты:
Проект "
Для справки: аффикс - морфема, которая присоединяется к корню и служит для образования слов. Все категории
Другие статьи по теме seo (оптимизация), монетизации и раскрутке:
Комментариев: Комментариев нет
Опубликованно: Пятница, Июнь 12th, 2009 в 6:35
Обновлено: 12 Июнь 2009 в 6:35.
Директории: AI (ИИ)
Автор: admin, все авторы.
В статье: 595 слов. Ссылки на странице.

Понравилась статья? - Не пропустите следующую, подпишитесь на RSS-канал[
Также Вы можете оставить комментарий, или
Эту статью находят по поисковым запросам: