From 059b99b53bc2e9e220e215d4827888b80ad0f66f Mon Sep 17 00:00:00 2001 From: DarkCat09 Date: Tue, 24 Dec 2024 15:46:39 +0400 Subject: [PATCH] describe until element scoring --- readability_explained.txt | 160 ++++++++++++++++++++++++++++++++++++++ 1 file changed, 160 insertions(+) create mode 100644 readability_explained.txt diff --git a/readability_explained.txt b/readability_explained.txt new file mode 100644 index 0000000..4fb38f2 --- /dev/null +++ b/readability_explained.txt @@ -0,0 +1,160 @@ +Точка входа: Readability.parse() строка 2679 + + +1. Ищем картинки без сорца, ищем noscript с внутри (либо div>div>...>img, если во всех контейнерах больше нет других детей и нет текста), и если этот носкрипт идёт после тега картинки, заменяем картинку на ту, что из носкрипта, с сохранением атрибутов оригинальной + +2. Вытаскиваем все