Обсуждение www.nnov.ru
Поиск по порталу: требуются тестеры.
www.nnov.ru/search/
Конструктивную критику пожалуйста высказывайте здесь.
В первую очередь интересны мнения о сортировке результатов и их соответствии заданию.
Также интересно отловить все смысловые дубликаты (например, ссылка убивающая или открывающая блок на главной странице выводит по сути на такую же страницу).
Немного о технических особенностях:
1. Близость слов в тексте не учитывается
2. Учитывается оформление и местонахождение каждого из слов в документе
3. Вместо морфологии и лемматизации используется стемминг
4. Индексирование производжится раз в неделю, количество уровней ограничено. Вданный момент проиндексировано около 10000 страниц, пока среди них есть смысловые дубликаты, в ближайшый переиндекс искоренятся те что уже замечены.
Удачи всем :)
P.S. Собственно для хорошего тестинга доступны 2 вариации с разными условиями обрезки результатов:
www.nnov.ru/search/soft.php - дает больше результатов ибо режет найденное по линии 20% от максимального найденного ранга,
www.nnov.ru/search/hard.php - редко дает больше одного результата ибо режет по 90% от максимального.
P.P.S. Оригинал режет по 70%.
Конструктивную критику пожалуйста высказывайте здесь.
В первую очередь интересны мнения о сортировке результатов и их соответствии заданию.
Также интересно отловить все смысловые дубликаты (например, ссылка убивающая или открывающая блок на главной странице выводит по сути на такую же страницу).
Немного о технических особенностях:
1. Близость слов в тексте не учитывается
2. Учитывается оформление и местонахождение каждого из слов в документе
3. Вместо морфологии и лемматизации используется стемминг
4. Индексирование производжится раз в неделю, количество уровней ограничено. Вданный момент проиндексировано около 10000 страниц, пока среди них есть смысловые дубликаты, в ближайшый переиндекс искоренятся те что уже замечены.
Удачи всем :)
P.S. Собственно для хорошего тестинга доступны 2 вариации с разными условиями обрезки результатов:
www.nnov.ru/search/soft.php - дает больше результатов ибо режет найденное по линии 20% от максимального найденного ранга,
www.nnov.ru/search/hard.php - редко дает больше одного результата ибо режет по 90% от максимального.
P.P.S. Оригинал режет по 70%.
В смысле все три. :-)))
www.nnov.ru/search/ на Dmitry Ivanov далет 19 ссылок,
www.nnov.ru/search/soft.php - 29 ссылок,
www.nnov.ru/search/hard.php - 3 ссылки.
А на меня всего одну, :-((
www.nnov.ru/search/ на Dmitry Ivanov далет 19 ссылок,
www.nnov.ru/search/soft.php - 29 ссылок,
www.nnov.ru/search/hard.php - 3 ссылки.
А на меня всего одну, :-((
Это будет настраиваться в процессе, скорее всего сделаем 2 кнопки типа поиск и а-ля гугл "мне повезет", а мягкий будет в виде "продолжить включив опущенные результаты" ну то же логике гугла. Если есть другие предложения по этой теме, олвейз велкам. Выбор условий прямо в форме поиска наверно неудобно, ибо это своего рода адвансед.
-=- Оставить оба
В смысле? -==- Сделать 2 поиска - мягкий и жёсткий. Или вовсе дать пользователю менять процент соответствия. :)
поиск слова "бритьё" выдал несколько ссылок
www.nnov.ru/search/?query=%E1%F0%E8%F2%FC%B8
вот это первая:
www.nnov.ru/forum/read.php?f=10&i=11617&t=11617
никакого бритья тут и в помине нет :(
это конструrтивно?
www.nnov.ru/search/?query=%E1%F0%E8%F2%FC%B8
вот это первая:
www.nnov.ru/forum/read.php?f=10&i=11617&t=11617
никакого бритья тут и в помине нет :(
это конструrтивно?
На этой странице встречается слово "бритую", соответственно при стемминге из это слова получается "брит" равно как и из слова "бритье". Поскольку ни ни каких других страницах подобные слова не занимали более значимого положения (т.е. по местному алгоритму не оказались более релевантными к этому слову) то отобразилась эта страница, на первый взгляд не имеющая никакого отношения к слову "бритье" и попала в первые ряды. Это, так сказать, издержки быстрого и дешевого алгоритма не использующего правильную морфологию и семантику.
Единственное что можно сделать, и видимо, будет сделано - вырезать из индекса слишком незначительные узлы.
Спазибо за отзыв
З.Ы. ...побольше бы...
Единственное что можно сделать, и видимо, будет сделано - вырезать из индекса слишком незначительные узлы.
Спазибо за отзыв
З.Ы. ...побольше бы...
А не могли бы вы объяснить подробнее, что такое морфология, лемматизация и стемминг применимо к поиску?
И мне кажется, что хотя объем иформации и большой, но индексацию хотя бы частично нужно проводить почаще.. Как же тогда искать новости и пр. вещи сегодняшней свежести..
И мне кажется, что хотя объем иформации и большой, но индексацию хотя бы частично нужно проводить почаще.. Как же тогда искать новости и пр. вещи сегодняшней свежести..
Если кратко то суть такая - применительно к задачам поиска лемматизация и стеммнг выполняют одну и ту же функцию - приводят слова к простому виду, для возможности сопоставления слов в разных числах, лицах, падежах и т.п. Лемма - это "первичная" форма слова, для существительных - ед. число, им. падеж, лемматизация - поиск леммы - достаточно надежный метод, но для него нужен словарь. Возможны неоднозначности при лематизации некоторых слов, например, "душ" и "есть".
Стемминг - выделение неизеняемой части слова по формальным признакам, как правило это отрезание окончаний и суффиксов в соответствии с правилами языка. Стемминг дает менее точные результаты, например, в отличие от лемматизации, не распознает сходства в словах "идти" и "шел", зато работает значительно быстрее и не требует словаря.
Насчет ускоренной переиндексации отдельных разделов - мысль хорошая, попробуем воплотить.
Стемминг - выделение неизеняемой части слова по формальным признакам, как правило это отрезание окончаний и суффиксов в соответствии с правилами языка. Стемминг дает менее точные результаты, например, в отличие от лемматизации, не распознает сходства в словах "идти" и "шел", зато работает значительно быстрее и не требует словаря.
Насчет ускоренной переиндексации отдельных разделов - мысль хорошая, попробуем воплотить.
А страницы из каталога не индексируются что ли? Я по запросу "220" ничего не нашел, хотя есть сайт где "220" в заголовке...
Тогда полезность этого поиска резко падает.
Тогда полезность этого поиска резко падает.
1. Индексируются несколько уровней, поэтому в текущей вариации когда каталог в тестовом режиме (глубоко по ссылкам), индексируется совсем мало, когда вынесем каталог на главную, все будет ОК.
2. По каталогу поиск отдельный, на том же движке, причем сайты индексируются также на несколько уровней в зависимости от определенных параметров. По сути поиск но порталу - частный случай поиска по каталогу, ограниченный одним сайтом.
P.S. можем предложить поиск по каждому из сайтов в каталоге.
2. По каталогу поиск отдельный, на том же движке, причем сайты индексируются также на несколько уровней в зависимости от определенных параметров. По сути поиск но порталу - частный случай поиска по каталогу, ограниченный одним сайтом.
P.S. можем предложить поиск по каждому из сайтов в каталоге.
P.P.S. Можно кстати и поиск по каталогу потестить:
www.nnov.ru/cat/s.php
www.nnov.ru/cat/s.php
вот вопросы накопились:
когда планируется официальный релиз поика?
будет-ли какая-нибудь более активная реклами каталога сайтов. а то у нас по нижегородским ресурсам ниодного нормального поиска нет :((.. на nn.ru - отстой, а не поиск..
когда планируется официальный релиз поика?
будет-ли какая-нибудь более активная реклами каталога сайтов. а то у нас по нижегородским ресурсам ниодного нормального поиска нет :((.. на nn.ru - отстой, а не поиск..
Официальный релиз надеюсь сделать в ближайшие 2-3 недели, ибо грядет глобальное переписывание паука, в том числе и для поиска по порталу.
по поводу рекламы - сначала надо накопить много сайтов, а там посмотрим что получится.
по поводу рекламы - сначала надо накопить много сайтов, а там посмотрим что получится.
пытался добавить свой сайт, ничего, и по поиску только я на фотогалереях, я как понял индексируются только сайты с доменом ннов??? а то что чел из Нижнего не идет?
ой ой ой, помедленнее
1. добавление сайтов к поиску по порталу отношения не имеет, каталог и поиск по нему это не тоже самое что поиск только по www.nnov.ru
2. правила участия в каталоге в соседнем топике изложены
1. добавление сайтов к поиску по порталу отношения не имеет, каталог и поиск по нему это не тоже самое что поиск только по www.nnov.ru
2. правила участия в каталоге в соседнем топике изложены
Слово "сонник" и www.nnov.ru/mobile/megafon/ имеют что-то общее?
в упор не вижу.. ну где на этой странице слово "сормовский"
www.nnov.ru/afisha/afisha.php?arr%5Btype_id%5D=1
поиск её нашёл
www.nnov.ru/search/?query=%EA%E8%ED%EE%F2%E5%E0%F2%F0+%F1%EE%F0%EC%EE%E2%F1%EA%E8%E9
www.nnov.ru/afisha/afisha.php?arr%5Btype_id%5D=1
поиск её нашёл
www.nnov.ru/search/?query=%EA%E8%ED%EE%F2%E5%E0%F2%F0+%F1%EE%F0%EC%EE%E2%F1%EA%E8%E9
Список кинотеатров для мультфильма "Шрек 2"
Внимательнее!
Сормовский 09:30 11:15 13:00 14:45 16:30 18:15 20:00 21:45
Внимательнее!
Вот бы сначала до ума довели то что есть. А то как вирус какой у вас тормоза включются у сайта, едет вкривь вкось. Ящики время от времени переполняются по не понятным причинам.
Ustus сказал(а):
Ящики время от времени переполняются по не понятным причинам.
Ящики время от времени переполняются по не понятным причинам.
так ли они непонятны...
→ Поиск по порталу: требуются тестеры.