seo-блог

SEO-блог Остров МЫСЛЕЙ: сео (поисковая оптимизация), монетизация и раскрутка сайта, ресурсы сети.

В избранное :: В загрузку :: В печать
Bookmark and Share

Морфологические анализаторы (морфологизаторы)




#161 AI (ИИ).  Морфологические анализаторы (морфологизаторы)

Морфологические анализаторы (морфологизаторы) на php и других языках существуют уже достаточно давно и в большом количестве, позволяя реализовать поиск с учетом словоформ. Неотвратимый изъян анализатора - привязка к словарю, но некоторые более продвинутые скрипты могут работать и без словаря эвристическим способом, основываясь на вероятностных методах. Анализаторы сделаны как парсеры и стеммеры.

Парсер (parser) - грамматический анализатор в составе синтаксического анализатора. Скрипт, обеспечивающий автоматическую обработку (разборку) страниц сайтов с целью получения нужных данных. Так, парсят серп (поисковую выдачу) Яндекса и Гугл, например, чтобы определить показатели качества сайта - ТИЦ и ПР, а также позиции сайта, парсят страницы на предмет нахождения там нужной ссылки (открыта/закрыта), текста и т.п..

Стеммер (stemmer) - процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова. Алгоритм стемминга представляет собой давнюю проблему в области компьютерных наук и применяется в поиcковых системах для обобщения поискового запроса пользователя. Стеммер, в отличие от "аналитических", т.е. от списков окончаний, более "умный", может иметь свой словарь для выделения формальной основы. Программа определения основы заданного исходного слова:

  • кружка: кружка (сущ., ж.), кружок (сущ., м.).
  • моя: мыть (гл.), мой (мест.).

Пример:

  • Буря мглою небо кроет,
  • Вихри снежные крутя;
  • То, как зверь, она завоет,
  • То заплачет, как дитя...

Получим:

  • [Буря: буря, бурить, :1] [мглою: мгла, :1] [небо: небо, :1] [кроет: крыть, :1],
  • [Вихри: вихрь, :1] [снежные: снежный, :1] [крутя: крутить, :1];
  • [То: то, :1], [как: как, :1] [зверь: зверь, :1], [она: она, :1] [завоет: завыть, :1],
  • [То: то, :1] [заплачет: заплакать, :1], [как: как, :1] [дитя: дитя, :1]...

А ведь можно попробовать для стемминга использовать обученную нейросеть и предоставить пользователям корректировать БД знаний скрипта - об этом уже упомяналось ранее в предыдущих статьях, но никто пока до этого еще не дошел (не нашел во всяком случае таковых).

Вот некоторые морфологические скрипты:

Проект "Вавилонская башня" - бесплатный скрипт.

RuMor - морфологический модуль на языках Перл и php для русского языка, включающий в себя две основные функции: нахождение базовой формы слова или всех его словоформ. Данный модуль может использоваться в поисковых системах для улучшения поиска по документам с русским текстом. В качестве исходных данных для генерации словоформ используется словарь Зализняка, дополненный 30 тысячами основ. Всего в словаре содержится около 125 тысяч основ, что позволяет генерировать более 3500000 словоформ.

MyStem - стеммер от Яндекса, производит морфологический анализ текста на русском языке; по сути простой стеммер, может только нормальную форму получить и вывести морфологическую информацию по слову. Работает очень шустро, но на уровне ОС (операционной системы), на сервере требует запуск "демона" (daemon). Для слов, отсутствующих в словаре, порождаются гипотезы, может работать и без словаря эвристическим способом. Это и плюс и минус: плюс - даст нормальную форму даже для несловарного слова; минус - иногда ошибается и выдает бред. Бесплатен для некоммерческого использования.

Morphlogy - определяет словоформы слов, корни и начальные формы. Если нужно реализовать поиск с учетом словоформ, то это совсем просто - нужно просто получить корень слова с помощью phpMorphy ($root=$morphy->getPseudoRoot($words);) и провести поиск по базе данных SQL-оператором LIKE. На данный момент словари есть для русского, английского и немецкого языков.

Ispell - одна из наиболее популярных бесплатных программ проверки орфографии на Unix-системах. В рамках проекта ispell создано множество словарей для разных языков, распространяемых под лицензией GPL, которые в определенных пределах можно использовать и для задачи морфоанализа. Эти словари изначально создавались для проверки орфографии, поэтому качество морфоанализатора основанного на этих словарях заметно ниже словарей специализированных. Словари ispell обычно состоят из двух файлов: файл с правилами генерации словоформ (так называемый affix-файл) и собственно словарь, где для каждого слова указаны номера правил, которые нужно применить к этому слову. Скрипт поддерживает preffix правила (правила приставок), но для каждой возможной приставки в словарь будет добавлено отдельное слово, потому что, как правило, приставки изменяют смысл слова и логично считать это слово отдельным. Например: подъезд №1 дома №2; объезд болота с левой стороны; заезд в гараж дальше.

Для справки: аффикс - морфема, которая присоединяется к корню и служит для образования слов. Все категории аффиксов на Вики.

Нашли ошибки, знаете больше? - Пишите, исправим и дополним.


Другие статьи по теме seo (оптимизация), монетизации и раскрутке:

  • Похожих статей нет.
Теги (метки) Метки статьи:

Все метки (теги).
Просмотров: 3,011
Комментариев: Комментариев нет
Опубликованно: Пятница, Июнь 12th, 2009 в 6:35
Обновлено: 12 Июнь 2009 в 6:35.
Директории: AI (ИИ)
Автор: admin, все авторы.


В статье: 595 слов. Ссылки на странице.
Bookmark and Share
УжасноПлохоНормальноХорошоОтлично
(голоса: 3, оценка: 4.00 из 5)
Источник: http://isle-blog.ru/ai/analysers/


Понравилась статья? - Не пропустите следующую, подпишитесь на RSS-канал[?], e-mail или читайте блог Остров МЫСЛЕЙ через Яндекс.Ленту или Google.Reader.

Также Вы можете оставить комментарий, или trackback[?] на Вашем сайте.
На эту статью ссылаются:



Эту статью находят по поисковым запросам:
Оставьте свой комментарий на seo-блоге Остров МЫСЛЕЙ
Нам важно Ваше мнение. (Комментариев нет)

Еще никто не комментировал. Будьте первым.

Коммментарии разрешены, но пока их нет.



RSS-канал[?] комментариев данной статьи или всего блога Остров МЫСЛЕЙ.
Для установки аватара (фотография комментатора) используйте gravatar!
Оставляя комментарий, Вы соглашаетесь с правилами комментирования.

Прокомментировать

XHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

символов осталось из 2000.

Trackbacks

    Пример: SEO, PageRank, ТИЦ, Search.
    banner banner banner
    Рекламный блок РБ3 (360x60 или 125х125 пх). Здесь может быть Ваша реклама (текст, ссылки, баннеры) - сквозная прямая ссылка на всех страницах всего за 40 $/мес. Подробности по размещению рекламы в блоге Остров МЫСЛЕЙ: 463768885, zgr@bk.ru...
    Май 2013
    Пн Вт Ср Чт Пт Сб Вс
    « Июл    
     12345
    6789101112
    13141516171819
    20212223242526
    2728293031  
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    Регистрация в блоге:

    Частые комментаторы:

    gravatar Марина
    Комментариев: 13
    Сайт: biznes-mesto.ru
    gravatar Олли
    Комментариев: 13
    Сайт: zhenskayalogika.ru
    gravatar Alex
    Комментариев: 8
    Сайт: blog.xx-web.ru
    gravatar Елена
    Комментариев: 8
    Сайт: Ru-party.ru/blogg
    gravatar Светлана Бобровская
    Комментариев: 6
    Сайт: vseuch.ru
    Пользователи:

    Администраторы: 1 (admin)
    Редакторы: 1 (admin)
    Авторы: 1 (admin)
    Публикаторы: 1 (admin)
    Зарегистрировано: 1
    Всего пользователей: 53

    Авторы:

  • admin 1 (78)

  • Статистика блога:

    Предложить работу:

    Обратная связь:

    gravatar Блогер-сеошник, веду сайты: Остров ПОЭЗЫ, Остров УСЛУГ, Остров ЛИТЕРАТУРЫ. Это техническая страница, более подробно обо мне смотрите здесь.Также приглашаю заглянуть в раздел О блоге и посетить личный блог.

    Autor: Зайва Игорь Леонидович

    E-mail: zgr@bk.ru

    ICQ: 463-768-885

    Reserve:

    Reserve:

    Рейтинг@Mail.ru Рейтинг блогов Rambler's Top100
    Также читайте раздел: Блогосфера.

    Если Вы ведете блог схожей тематики (раскрутка, оптимизация или монетизация сайта), давайте обмениваться ссылками.

    Блогролл:

    Пока пусто, но Вы можете предложить свой тематический ресурс.
    Я.ру
    Мой мир
    Мой круг
    Мир тесен
    Моя Опера
    В контакте
    В одноклассниках
    topics
    RT @RusBase: Всероссийская база данных населения http://t.co/JT9Bs9Eu 2012-02-13
    • RT @RusBase: Всероссийская база данных населения http://t.co/JT9Bs9Eu 2012-02-13
    • RT @nepenucb: Архив переписи населения теперь в общем доступе. В нём есть и ты! Бесплатный сервис поиска на http://t.co/PzmiowL7 2012-02-06
    • RT @bazapoiska: Бесплатный поиск информации о любом человеке http://t.co/siZpIVtm 2012-01-30
    • RT @adam00011: Не можете победить лишний вес? Перестаньте кушать ЭТО http://t.co/oZicB7eZ 2012-01-27
    • RT @adam00011: Национальный поиск данных http://t.co/jAuF6N7F 2012-01-26
    • More updates...

    Posting tweet...

    Nahaa.ru
    SetLinks.ru
    linkfeed.ru
    Uniplace.ru

    Sape.ru

    ProfitBlog.ru
    j2j.ru

    1ps.ru
    Regone.ru
    Seopult.ru
    Все партнеры seo-блога Остров МЫСЛЕЙ. Также читайте статью Монетизация сайта: биржи статей и ссылок, а также статью Прогон сайта; бесплатная регистрирация.
    Последние комментарии:
  • Трекбеки и пингбеки:
  • Умные деньги: Законы блогосферы | Честный бизнес
  • Эстафета продолжается в статьях и комментариях.: Это уже позже я прочитала на блоге Игоря статью “Акции,...
  • Блог Береза Владимира: Алгоритм Google или определяем PR
  • Анонс лучших статей блогосферы: КАРТА САЙТА И БРЕДОСАЙТЫ: ХИТРОСТИ И ЭФФЕКТИВНОСТЬ.


  • Бэклинки (внешние ссылки):


    Статистика ссылок
    Яндекс: 0, Гугл: 0, Яху: 0.
    Самые любимые статьи:

    Использование материалов разрешено только при указании источника.
    Подписаться на рассылку RSS всего блога или только комментариев.
    Блог рожден: 1. 10. 2008, живет: 4 года, 7 мес. и 25 дней.
    SEO-блог Остров МЫСЛЕЙ работает на WordPress
    Copyright © 2008-2013 isle-blog.ru PageRank
    Республика Казахстан, Алматы
    Widgetize!

    seo
    Этот домен продается на telderi