seo-блог

SEO-блог Остров МЫСЛЕЙ: сео (поисковая оптимизация), монетизация и раскрутка сайта, ресурсы сети.

В избранное :: В загрузку :: В печать
Bookmark and Share

AI: семантика, двусмысленность и тематика




#161 AI (ИИ).  AI: семантика, двусмысленность и тематика

Проблемы семантики и определение темы как отдельной страницы, так и сайта в целом стоит весьма остро и требует не то, чтоб отдельной статьи, а даже отдельной категории для выявления всех проблем существующих алгоритмов, ибо не найдено ни одного достойного ресурса, отвечающего всем техническим требованиям.

Интересные проблемы встают также при более детальном рассмотрении свойств языка, его грамматических, лингвистических и прочих свойств, а также логики. Часто возникают вопросы логические и смысловые. Например, из школьного сочинения по рассказу Н.М. Карамзина "Бедная Лиза", - "Бедная Лиза рвала цветы и этим кормила свою мать". Встает логический двусмысленный вопрос: чем кормила свою мать - цветами (в прямом смысле) или тем, что их рвала (в переносном смысле)? Такая, казалось бы, невинная ошибка может привести к затруднению понимания темы, о чем именно идет речь - о цветах, о заработке или о чем-то другом.

Также встает масса вопросов о грамотности не только самого AI, но и грамотности оппонента, в пример вспомним любимую фразу лингвистов и стилистов - "Казнить нельзя миловать", которую также можно рассмотреть двояко, в зависимости от запятой - "казнить нельзя" или "нельзя миловать".

Другой вариант. "Косил косой косой косой" - даже человек не каждый сразу может понять, а оймет ли робот и как он это воспримит? Разбираем предложение. Перефрозировать для тех, кто в танке можно так: "Косил косоглазый (или пьяный ?) кривой косой" - ну, так вроде понятней... В сети также предлагают версию "Косил Косой косой косой косых в косоворотке".

  • Что делал?: косил
  • Кто?: Косой
  • Чем?: косой

Чем-то напомнило скороговорки типа "Ехал грека через реку" или "Во дворе трава, на траве дрова...", "Шла Маша по Шоссе и сосала сушку" и др. А как рассматривать закрытые цикличные фразы, наподобие "что есть что", "ху из ху" (who is who - кто есть кто) и подобные? А как AI должен воспринимать переносный смысл? Процитирую строки из статьи AI: свойства единиц БД - предложения:

Например, если в тексте часто употребляется слово "козел", то о чем речь - о животных или плохих людях? Например, - "Иду, значит, а тут какой-то козел выскакивает и давай меня бадать и ставить на счетчик. Я-то всяких козлов видел, но этот урод просто, хамит, угрожает... Да, таких козлов еще поискать надо". Здесь речь о "плохом человеке". Теперь, зная о чем речь, - о человеке в переносном смысле, хотя слово "человек" вообще не упоминается...

Все эти вопросы остаются пока открытыми и не решенными до конца, выход пока видится только один - помимо собрания всех свойств слов (технических, грамматических, конструкционных и прочих) нужно создадь также обязательные базы словарей с устойчивыми фразами, смыслами и т.д. с учетом логики расстановки слов и техническими правилами языка. Ведь, пословицы, цитаты и прочее, такие как "Бить баклуши" встречаемые несколько раз на странице определят приблизительную тему "Битва", "Драка" (кулачный бой) и т.д., просто не правильно интерпретировав фразеологизмы.

Как определяется сейчас тема сайта различными скриптами? - очень просто. Собираются все слова страницы, затем отсекают аффиксы (приставки, окончания и т.д.), оставляя только корень слова. Далее по базе проверяется это слово и относится вручную (корректируется человеком) к какой-либо тематике. Например, упоминули на странице 5 раз слово "блог" и один раз слово "seo" - ваш блог скорее отнесут к тематике "Блоги", "Досуг" или "Развлечение" - все три темы в общих чертах очень схожи, но ваш блог точно не отнесут к теме "Оптимизация", ибо, если вы пишите о ней, то и упомянать должны именно ее и неоднократно, а не то, что вы пишите свои блоги и упоминаете постоянно блоги друзей. Эта политика поисковика Гугл. У поисковика Яндекс политика немного другая... Если вы упоминаете постоянно писателей, их произведения, но ни слова не указываете о литературе, то ваш блог все равно будет отнесен к наиболее релевалентной теме - "Литература", ибо Яндекс учитывает релевалентные слова (околотематичные), а не то, сколько раз вы их упомянули и упомянули ли вообще. (Имхо).

Посмотрел демонстрацию технологии «Семантическое Зеркало» тёзки Ашманова и его команды, потестил, получил интересные результаты:

Литературный каталог Остров ЛИТЕРАТУРЫ.

  • Досуг - 59.7% - далеко, хотя в какой-то степени можно и сюда тоже отнести.
  • Общество - 58.8% - далеко, каталогу не характерно.
  • Техника и наука - 55.0% - вообще ни слова о ней.
  • Художественная литература - 53.6% - почти в цель!

Оптимизаторский блог Остров МЫСЛЕЙ.

  • Интернет ресурсы - 56% - почти в цель!
  • Экономика и бизнес - 55.5% - совсем далеко.
  • Поисковая оптимизация 54.8% - в цель!

Менее, чем через сутки "Экономика и бизнес" убрали.

Поэтический сайт Остров ПОЭЗЫ.

  • Поэзия - 58.3% - скромно, но точно.

На основании таких, на мой взгляд, не правильных технологиях (разве можно назвать это технологией, если всё корректируется человеком?) определяют релевалентность страниц по тематике. Этот же подход используют для подбора рекламы сайтов, полагая, что чем больше совпадений слов, тем более релевалентна страница для рекламы, а соответственно, и выше вероятность передачи ТИЦ и ПР.

Серьезные проблемы AI в лингвистике также возникают с "фигурами речи" (что это - поясняет feb-web.ru). Фигур и тропов очень много, около полусотни: инверсия (необычный порядок слов в предложении), асиндетон (бессоюзие), полисиндетон (многосоюзие), эллипсис (пропуск члена предложения), апосиопеза (умолчание конца фразы, обычно выделяется графически - многоточием), фигуры повторения (анафора и эпифора),  гипербола, литотес, оксиморон, перифразаантитезу, градацию, сравнение, гипербола, литота и др. Например, "Я царь, — я раб, — я червь, — я Бог!" (Г.Р. Державин) (здесь преувеличение - гипербола и приуменьшение - литота, она же "мальчик с пальчик, мужичок с ноготок, дюймовочка и пр.) - AI не сможет определить кто есть кто...

Выражаясь простыми вещами, например, "я - царь", мы как бы понимаем, что делаем простое равенство понятий, т.е. переносим свойства одного предмета на свойство другого, математически это выглядит так: х = х1, у = у1, z = х = у. То есть мы можем обозначить новое слово, понятие и т.д., которое мы не знаем, или знаем, но объяснять его очень долго, поэтому, используя  фигуры речи, можем сделать как бы сравнение: "Ох, нашлись тут, понимаешь ли, Ромео с Джульетой", но это не значит, что они нашлись, потому что были потеряны, этим, мы как бы сравниваем свойства одного с другим предметом, т.е. используем тропы русского языка. Но следует понимать, что если z = х или z = у, то совсем не обязательно, что всегда х = у, а также х = z и у = z. То есть Маша может быть Джульетой (в переносном смысле), но Джульета Машей быть не может ни в прямом, ни в переносном смысле.

В ближайшей из статей рассмотрим морфологические анализаторы (морфологизаторы) - парсеры и стеммеры.

Нашли ошибки, знаете больше? - Пишите, исправим и дополним.


Другие статьи по теме seo (оптимизация), монетизации и раскрутке:

  • Похожих статей нет.
Теги (метки) Метки статьи:

Все метки (теги).
Просмотров: 101
Комментариев: Комментариев нет
Опубликованно: Четверг, Июнь 4th, 2009 в 23:26
Обновлено: 4 Июнь 2009 в 23:26.
Директории: AI (ИИ)
Автор: admin, все авторы.


В статье: 989 слов. Ссылки на странице.
Bookmark and Share
УжасноПлохоНормальноХорошоОтлично
(Еще никто не оценил)
Источник: http://isle-blog.ru/ai/semantics-ambiguity/


Понравилась статья? - Не пропустите следующую, подпишитесь на RSS-канал[?], e-mail или читайте блог Остров МЫСЛЕЙ через Яндекс.Ленту или Google.Reader.

Также Вы можете оставить комментарий, или trackback[?] на Вашем сайте.
На эту статью ссылаются:



Эту статью находят по поисковым запросам:
Оставьте свой комментарий на seo-блоге Остров МЫСЛЕЙ
Нам важно Ваше мнение. (Комментариев нет)

Еще никто не комментировал. Будьте первым.

Коммментарии разрешены, но пока их нет.



RSS-канал[?] комментариев данной статьи или всего блога Остров МЫСЛЕЙ.
Для установки аватара (фотография комментатора) используйте gravatar!
Оставляя комментарий, Вы соглашаетесь с правилами комментирования.

Прокомментировать

XHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

символов осталось из 2000.

Trackbacks

    Пример: SEO, PageRank, ТИЦ, Search.
    banner banner banner
    Рекламный блок РБ3 (360x60 или 125х125 пх). Здесь может быть Ваша реклама (текст, ссылки, баннеры) - сквозная прямая ссылка на всех страницах всего за 40 $/мес. Подробности по размещению рекламы в блоге Остров МЫСЛЕЙ: 463768885, zgr@bk.ru...
    Июнь 2013
    Пн Вт Ср Чт Пт Сб Вс
    « Июл    
     12
    3456789
    10111213141516
    17181920212223
    24252627282930
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    Регистрация в блоге:

    Частые комментаторы:

    gravatar Марина
    Комментариев: 13
    Сайт: biznes-mesto.ru
    gravatar Олли
    Комментариев: 13
    Сайт: zhenskayalogika.ru
    gravatar Alex
    Комментариев: 8
    Сайт: blog.xx-web.ru
    gravatar Елена
    Комментариев: 8
    Сайт: Ru-party.ru/blogg
    gravatar Светлана Бобровская
    Комментариев: 6
    Сайт: vseuch.ru
    Пользователи:

    Администраторы: 1 (admin)
    Редакторы: 1 (admin)
    Авторы: 1 (admin)
    Публикаторы: 1 (admin)
    Зарегистрировано: 1
    Всего пользователей: 54

    Авторы:

  • admin 1 (78)

  • Статистика блога:

    Предложить работу:

    Обратная связь:

    gravatar Блогер-сеошник, веду сайты: Остров ПОЭЗЫ, Остров УСЛУГ, Остров ЛИТЕРАТУРЫ. Это техническая страница, более подробно обо мне смотрите здесь.Также приглашаю заглянуть в раздел О блоге и посетить личный блог.

    Autor: Зайва Игорь Леонидович

    E-mail: zgr@bk.ru

    ICQ: 463-768-885

    Reserve:

    Reserve:

    Рейтинг@Mail.ru Рейтинг блогов Rambler's Top100
    Также читайте раздел: Блогосфера.

    Если Вы ведете блог схожей тематики (раскрутка, оптимизация или монетизация сайта), давайте обмениваться ссылками.

    Блогролл:

    Пока пусто, но Вы можете предложить свой тематический ресурс.
    Я.ру
    Мой мир
    Мой круг
    Мир тесен
    Моя Опера
    В контакте
    В одноклассниках
    topics
    RT @RusBase: Всероссийская база данных населения http://t.co/JT9Bs9Eu 2012-02-13
    • RT @RusBase: Всероссийская база данных населения http://t.co/JT9Bs9Eu 2012-02-13
    • RT @nepenucb: Архив переписи населения теперь в общем доступе. В нём есть и ты! Бесплатный сервис поиска на http://t.co/PzmiowL7 2012-02-06
    • RT @bazapoiska: Бесплатный поиск информации о любом человеке http://t.co/siZpIVtm 2012-01-30
    • RT @adam00011: Не можете победить лишний вес? Перестаньте кушать ЭТО http://t.co/oZicB7eZ 2012-01-27
    • RT @adam00011: Национальный поиск данных http://t.co/jAuF6N7F 2012-01-26
    • More updates...

    Posting tweet...

    Nahaa.ru
    SetLinks.ru
    linkfeed.ru
    Uniplace.ru

    Sape.ru

    ProfitBlog.ru
    j2j.ru

    1ps.ru
    Regone.ru
    Seopult.ru
    Все партнеры seo-блога Остров МЫСЛЕЙ. Также читайте статью Монетизация сайта: биржи статей и ссылок, а также статью Прогон сайта; бесплатная регистрирация.
    Последние комментарии:
  • Трекбеки и пингбеки:
  • Умные деньги: Законы блогосферы | Честный бизнес
  • Эстафета продолжается в статьях и комментариях.: Это уже позже я прочитала на блоге Игоря статью “Акции,...
  • Блог Береза Владимира: Алгоритм Google или определяем PR
  • Анонс лучших статей блогосферы: КАРТА САЙТА И БРЕДОСАЙТЫ: ХИТРОСТИ И ЭФФЕКТИВНОСТЬ.


  • Бэклинки (внешние ссылки):


    Статистика ссылок
    Яндекс: 0, Гугл: 0, Яху: 0.
    Самые любимые статьи:

    Использование материалов разрешено только при указании источника.
    Подписаться на рассылку RSS всего блога или только комментариев.
    Блог рожден: 1. 10. 2008, живет: 4 года, 8 мес. и 2 дня.
    SEO-блог Остров МЫСЛЕЙ работает на WordPress
    Copyright © 2008-2013 isle-blog.ru PageRank
    Республика Казахстан, Алматы
    Widgetize!

    seo
    Этот домен продается на telderi