Bredonosec> В смысле, каждый юзер в день просматривае 20 документов/файлов? Каждая страница загружает туеву хучу файлов, от смайликов и аттачей до CSS и JS. При чём часть этих файлов кешируется, часть запросов делают роботы, которым не нужны файлы, часть файлов, наоборот, отдаётся сторонними сервисами, типа вставки картинок на чужих форумах через тег IMG.
Bredonosec> А, учитывая обычность дублей картинок, не будет ли иметь смысл проверять (пусть раз в сутки или неделю) новые картинки на совпадение со старыми? Не будет. Точных дублей реально мало. Бывает много «одинаковых» картинок с разных серверов, но внутри они часто отличаются. Разная степень компрессии, разная оптимизация...
Bredonosec> По какому алгоритму определять похожесть изображения, не буду даже предлагать, это наверняка тебе лучше известно. По визуальному подобию я делал эксперименты, не столько ради экономия места, а чтобы просто народ дубли не плодил, но пока всё в зачаточном состоянии.
… чтобы понять рекурсию, нужно сперва понять рекурсию …