Журнал Компьютерра - 38 от 17 октября 2006 года :: Компьютерра
Страница:
81 из 152
В контексте только что выработанной и утвержденной новой линии партии расскажу об одном предельноважном аспекте дата-майнинга, коим в той или иной мере занимаются все люди, работающие с компьютером. Читатели «Голубятен» прекрасно знакомы с моим алгоритмом МИНОА [Методы Изыскания, Накопления, Обработки и Анализа информации], поэтому не буду повторяться. Сегодня поговорим о выборочном слежении за изменяющимся содержанием веб-страниц с помощью хорошо знакомой читателям программы первого этапа дата-майнинга (изыскания информации) — WebSite-Watcher.
Поясню на простом примере, о чем идет речь. Предположим, мы отслеживаем регулярные изменения на сайте типа библиотеки «Альдебаран» (рис. 1).
На скриншоте видно, что помимо содержательной информации (списка новых ежедневных поступлений) программа отлавливает и паразитарные изменения: в правом верхнем углу приводится изменяющееся количество книг и авторов библиотеки. Вопрос: нужно ли отфильтровывать паразитарную информацию в данном случае? Ответ: разумеется, не нужно. По вполне понятной причине: сайт библиотеки «Альдебаран» ежедневно пополняется новыми книгами, за которыми вы так или иначе будете следить.
Соответственно, дополнительный желтый хайлайтинг паразитарной информации не снижает эффективность вашей работы (вы просто проигнорируете цифры новых книг и авторов). Соответственно, когда вы вбиваете в WebSite-Watcher линк на «Альдебаран», вы не вносите никаких изменений в раздел фильтров (рис. 2).
Взгляните теперь на такую страницу (рис. 3).
|< Пред. 79 80 81 82 83 След. >|