Обсуждение www.nnov.ru

Новая тема Список тем ПравилаУчастники:|||||: АрхивRSS

Поиск по порталу: требуются тестеры.

22.06.2004 в 17:00
Dmitry Ivanov x0
www.nnov.ru/search/
Конструктивную критику пожалуйста высказывайте здесь.
В первую очередь интересны мнения о сортировке результатов и их соответствии заданию.
Также интересно отловить все смысловые дубликаты (например, ссылка убивающая или открывающая блок на главной странице выводит по сути на такую же страницу).

Немного о технических особенностях:
1. Близость слов в тексте не учитывается
2. Учитывается оформление и местонахождение каждого из слов в документе
3. Вместо морфологии и лемматизации используется стемминг
4. Индексирование производжится раз в неделю, количество уровней ограничено. Вданный момент проиндексировано около 10000 страниц, пока среди них есть смысловые дубликаты, в ближайшый переиндекс искоренятся те что уже замечены.

Удачи всем :)

P.S. Собственно для хорошего тестинга доступны 2 вариации с разными условиями обрезки результатов:
www.nnov.ru/search/soft.php - дает больше результатов ибо режет найденное по линии 20% от максимального найденного ранга,
www.nnov.ru/search/hard.php - редко дает больше одного результата ибо режет по 90% от максимального.
P.P.S. Оригинал режет по 70%.
23.06.2004 в 16:39
Commander Хэлл x0 @ Dmitry Ivanov
Оставить оба. :)
23.06.2004 в 17:26
Dmitry Ivanov x0 @ Commander Хэлл
В смысле?
В смысле все три. :-)))
www.nnov.ru/search/ на Dmitry Ivanov далет 19 ссылок,
www.nnov.ru/search/soft.php - 29 ссылок,
www.nnov.ru/search/hard.php - 3 ссылки.
А на меня всего одну, :-((
Это будет настраиваться в процессе, скорее всего сделаем 2 кнопки типа поиск и а-ля гугл "мне повезет", а мягкий будет в виде "продолжить включив опущенные результаты" ну то же логике гугла. Если есть другие предложения по этой теме, олвейз велкам. Выбор условий прямо в форме поиска наверно неудобно, ибо это своего рода адвансед.
04.07.2004 в 09:15
Commander Хэлл x0 @ Dmitry Ivanov
-=- Оставить оба
В смысле? -==- Сделать 2 поиска - мягкий и жёсткий. Или вовсе дать пользователю менять процент соответствия. :)
02.07.2004 в 14:43
Masted x0 @ Dmitry Ivanov
поиск слова "бритьё" выдал несколько ссылок
www.nnov.ru/search/?query=%E1%F0%E8%F2%FC%B8
вот это первая:
www.nnov.ru/forum/read.php?f=10&i=11617&t=11617
никакого бритья тут и в помине нет :(
это конструrтивно?
02.07.2004 в 18:16
Dmitry Ivanov x0 @ Masted
На этой странице встречается слово "бритую", соответственно при стемминге из это слова получается "брит" равно как и из слова "бритье". Поскольку ни ни каких других страницах подобные слова не занимали более значимого положения (т.е. по местному алгоритму не оказались более релевантными к этому слову) то отобразилась эта страница, на первый взгляд не имеющая никакого отношения к слову "бритье" и попала в первые ряды. Это, так сказать, издержки быстрого и дешевого алгоритма не использующего правильную морфологию и семантику.
Единственное что можно сделать, и видимо, будет сделано - вырезать из индекса слишком незначительные узлы.
Спазибо за отзыв
З.Ы. ...побольше бы...
02.07.2004 в 19:59
Masted x0 @ Dmitry Ivanov
А не могли бы вы объяснить подробнее, что такое морфология, лемматизация и стемминг применимо к поиску?
И мне кажется, что хотя объем иформации и большой, но индексацию хотя бы частично нужно проводить почаще.. Как же тогда искать новости и пр. вещи сегодняшней свежести..
05.07.2004 в 11:40
Dmitry Ivanov x0 @ Masted
Если кратко то суть такая - применительно к задачам поиска лемматизация и стеммнг выполняют одну и ту же функцию - приводят слова к простому виду, для возможности сопоставления слов в разных числах, лицах, падежах и т.п. Лемма - это "первичная" форма слова, для существительных - ед. число, им. падеж, лемматизация - поиск леммы - достаточно надежный метод, но для него нужен словарь. Возможны неоднозначности при лематизации некоторых слов, например, "душ" и "есть".
Стемминг - выделение неизеняемой части слова по формальным признакам, как правило это отрезание окончаний и суффиксов в соответствии с правилами языка. Стемминг дает менее точные результаты, например, в отличие от лемматизации, не распознает сходства в словах "идти" и "шел", зато работает значительно быстрее и не требует словаря.

Насчет ускоренной переиндексации отдельных разделов - мысль хорошая, попробуем воплотить.
06.07.2004 в 13:08
antgraf @ Dmitry Ivanov
А страницы из каталога не индексируются что ли? Я по запросу "220" ничего не нашел, хотя есть сайт где "220" в заголовке...
Тогда полезность этого поиска резко падает.
06.07.2004 в 14:02
Dmitry Ivanov x0 @ antgraf
1. Индексируются несколько уровней, поэтому в текущей вариации когда каталог в тестовом режиме (глубоко по ссылкам), индексируется совсем мало, когда вынесем каталог на главную, все будет ОК.
2. По каталогу поиск отдельный, на том же движке, причем сайты индексируются также на несколько уровней в зависимости от определенных параметров. По сути поиск но порталу - частный случай поиска по каталогу, ограниченный одним сайтом.

P.S. можем предложить поиск по каждому из сайтов в каталоге.
06.07.2004 в 14:24
Dmitry Ivanov x0 @ Dmitry Ivanov
P.P.S. Можно кстати и поиск по каталогу потестить:
www.nnov.ru/cat/s.php
27.07.2004 в 09:28
Masted x0 @ Dmitry Ivanov
вот вопросы накопились:
когда планируется официальный релиз поика?
будет-ли какая-нибудь более активная реклами каталога сайтов. а то у нас по нижегородским ресурсам ниодного нормального поиска нет :((.. на nn.ru - отстой, а не поиск..
04.08.2004 в 12:34
Виктор Ли x0 @ Masted
Официальный релиз считайте, что сегодня. Хотя над поиском еще будут веститись работы.
02.09.2004 в 17:48
Dmitry Ivanov x0 @ Masted
Официальный релиз надеюсь сделать в ближайшие 2-3 недели, ибо грядет глобальное переписывание паука, в том числе и для поиска по порталу.
по поводу рекламы - сначала надо накопить много сайтов, а там посмотрим что получится.
21.07.2004 в 12:52
Sergio x0 @ Dmitry Ivanov
пытался добавить свой сайт, ничего, и по поиску только я на фотогалереях, я как понял индексируются только сайты с доменом ннов??? а то что чел из Нижнего не идет?
02.09.2004 в 17:46
Dmitry Ivanov x0 @ Sergio
ой ой ой, помедленнее
1. добавление сайтов к поиску по порталу отношения не имеет, каталог и поиск по нему это не тоже самое что поиск только по www.nnov.ru
2. правила участия в каталоге в соседнем топике изложены
03.08.2004 в 21:28
Не специалист @ Dmitry Ivanov
Слово "сонник" и www.nnov.ru/mobile/megafon/ имеют что-то общее?
25.08.2004 в 12:45
langry x0 @ Не специалист
А как же:
с ЗАО ?Соник Дуо? (Москва),

;-)
11.08.2004 в 17:54
Masted x0 @ Dmitry Ivanov
в упор не вижу.. ну где на этой странице слово "сормовский"
www.nnov.ru/afisha/afisha.php?arr%5Btype_id%5D=1

поиск её нашёл
www.nnov.ru/search/?query=%EA%E8%ED%EE%F2%E5%E0%F2%F0+%F1%EE%F0%EC%EE%E2%F1%EA%E8%E9
25.08.2004 в 12:50
langry x0 @ Masted
Список кинотеатров для мультфильма "Шрек 2"
Сормовский 09:30 11:15 13:00 14:45 16:30 18:15 20:00 21:45

Внимательнее!
13.08.2004 в 08:10
Ustus @ Dmitry Ivanov
Вот бы сначала до ума довели то что есть. А то как вирус какой у вас тормоза включются у сайта, едет вкривь вкось. Ящики время от времени переполняются по не понятным причинам.
Ustus сказал(а):
Ящики время от времени переполняются по не понятным причинам.


так ли они непонятны...