Fakir>> 1. У меня нету терабайтов для складирования.
кщееш> Отмазы.
Факты.
Ты просто реально не понимаешь значимости и сложности задачи.
кщееш> Сколько тебе дать террабайт? Хочешь 10 , для опытов?
Хз. Чисто для опытов кому-то
* может и хватит, для полной базы - наверняка нет. Многие пдф-ки, хранящиеся в сети, нераспознанные, а потому тяжёлые.
* именно кому-то - я этим точно заниматься не стану даже за деньги, решать проблему, кем-то созданную мне на ровном месте - эдак у меня всё остальное встанет.
Fakir>> 2. У меня нету софта для выкачивания.
кщееш> Да ну? А найти?
С учётом всех подписок и доступов?
Подозреваю, нереально. Ну может разве у Александры Э. есть, самописный
кщееш> Ты не можешь написать поисковик на свои террабайт?
Я - конечно, нет. Скажу тебе больше: я и поисковой машины Яндекса бы не написал, прикинь!
А задача поиска в научных текстах - она едва ли проще, и имеет кучу своей специфики - особая важность ссылок, "вверх и вниз" (кто ссылался на этот документ, например - офигительной продуктивности опция), отслеживание всей этой цепочки, цепочки через соавторство, источник, и т.д. и т.п.
(отдельно напоминаю о нераспознанных пдф-ках, хранящихся просто как картинки; а он как-то ищет - хз уж как, может там у него отдельная база заранее распознанных абстрактов или еще что)
Fakir>> И я еще молчу о том, что эти необъятные архивы пополняются каждый день, каждую минуту - и сканированным старым, и новейшим новьём. Значимость этого в пандемию, казалось бы, особенно очевидна. Но нет же ж - ...
кщееш> В основном сейчас они дерьмом пополняются, который надо сортировать и пересортировывать.
А для этого научному работнику голова дадена, и опыт. Для ориентирования в выданных поисковиками результатах, ага.
Без этого же - ты можешь только сплошняком пролистывать ежемесячно десятки свежих журналов (причём десятки - это только самых-самых лучших). Ах, блин, они ж половина платные за такие деньги, которых давно не выделяют, и в бумажном виде наши библиотеки тридцать лет как не видели... Вот новость, да?