Bredonosec> В смысле, каждый юзер в день просматривае 20 документов/файлов?
Каждая страница загружает туеву хучу файлов, от смайликов и аттачей до CSS и JS. При чём часть этих файлов кешируется, часть запросов делают роботы, которым не нужны файлы, часть файлов, наоборот, отдаётся сторонними сервисами, типа вставки картинок на чужих форумах через тег IMG.
Bredonosec> А, учитывая обычность дублей картинок, не будет ли иметь смысл проверять (пусть раз в сутки или неделю) новые картинки на совпадение со старыми?
Не будет. Точных дублей реально мало. Бывает много «одинаковых» картинок с разных серверов, но внутри они часто отличаются. Разная степень компрессии, разная оптимизация...
Bredonosec> По какому алгоритму определять похожесть изображения, не буду даже предлагать, это наверняка тебе лучше известно.
По визуальному подобию я делал эксперименты, не столько ради экономия места, а чтобы просто народ дубли не плодил, но пока всё в зачаточном состоянии.