Модель автоматизації збору даних із вебресурсів на основі генеративного штучного інтелекту
DOI:
https://doi.org/10.18664/ikszt.v30i2.335414Ключові слова:
генеративний штучний інтелект, вебзбирання даних, автоматизація, модульна архітектура, база даних, скрапери, генеративна модельАнотація
Актуальність дослідження зумовлена тим, що в сучасних умовах стрімкої диджиталізації, глобального розвитку інтернету та безперервного зростання обсягів даних, отриманих із різноманітних вебресурсів, зростає потреба в розробці ефективних інструментів для автоматизованого збирання, аналізу та структурування інформації. Вебскрапінг став невіддільною складовою процесів інформаційного забезпечення в багатьох галузях. Проте традиційні методи збору даних часто потребують складного ручного налаштування, що ускладнює масштабування систем та оперативне реагування на зміни структури вебсторінок. У зв’язку з цим використання універсальних правил та алгоритмів для створення вебскраперів набуває особливої актуальності. Особливу роль у цьому відіграють сучасні мовні моделі (LLM), здатні генерувати адаптивні рішення, зокрема у вигляді динамічних виразів XPath, що використовуються для ефективного вилучення потрібної інформації з HTML-структури вебсторінок. Такий підхід дає змогу створити масштабовані та самонавчальні системи збору вебданих, які здатні адаптуватися до різних форматів контенту та швидко підлаштовуватися до змін у вебінтерфейсах. Об’єктом дослідження є застосування великих мовних моделей (LLM) для створення автоматизованих механізмів збору вебданих, а також дослідження їх потенціалу у генерації високоточних запитів XPath. Предметом дослідження виступає модель, орієнтована на збір вебданих, яка передбачає багаторівневу взаємодію між незалежними функціональними модулями системи та забезпечує їх інтеграцію через уніфіковані інтерфейси та стандартизовані формати обміну даними. Результати. Запропонована розширена модульна модель системи збору вебданих, яка охоплює всі ключові етапи обробки вебконтенту: від виявлення релевантних джерел інформації, через генерацію та оптимізацію XPath-запитів, до збереження отриманих даних у масштабованій, структурованій базі даних. Запропоноване архітектурне рішення забезпечує високу адаптивність до змін, стабільність функціонування системи, мінімізацію витрат на технічну підтримку. Висновки. Використання генеративних мовних моделей для автоматизації створення вебскраперів відкриває нові можливості для гнучкого, точного та стабільного збору вебданих. Такий підхід сприяє ефективній інтеграції систем у мінливе вебсередовище, дозволяючи зменшити часові та фінансові витрати на підтримку інформаційно-аналітичних платформ.
Посилання
Січкарюк Р. К., Корніловська Н. В., Лур’є І. А., Вороненко М. О. Розробка та впровадження ефективних методів вебскрапінгу для автоматизованого збору і обробки даних з використанням Python. Матеріали Х Міжнар. наук.-практ. конф. «Інформатика. Культура. Техніка». Одеса: Національний університет «Одеська політехніка», Інститут комп'ютерних систем. 2024. Т. 1, № 1. С. 62-68. doi: https://doi.org/10.15276/ict.01.2024.08.
Lotfi C., Srinivasan S., Ertz M., Latrous I. Web Scraping Techniques and Applications: A Literature Review. SCRS Conference Proceedings on Intelligent Systems. 2021. Р. 381-394. doi: https://doi.org/10.52458/978-93-91842-08-6-381.
Pandey K., Tale C., Yere T., Rajeshirke R., Jadhav R. Web Scraping: Leveraging the Power of Python, APIs, and Automation. International Journal of Novel Research and Development. 2024. Vol. 9, Iss. 3. Р. b383-b389. URL: https://www.ijnrd.org/papers/IJNRD2403143.pdf.
Bhute T., Raut S., Kannake S., Guda B., Sheikh M. Web Scraping and Automation. International Journal of Creative Research Thoughts. 2024. Vol. 12, Iss. 5. Р. 285-290.
Weerasinghe K., Maduranga M.W.P., Kawya M.M.V.T. Enhancing Web Scraping with Artificial Intelligence: A Review. 4th Research Symposium of Faculty of Computing. 2024. URL: https://www.researchgate.net/publication/379024314_Enhancing_Web_Scraping_with_Artificial_Int elligence_A_Review.
Huang C.-J. The Synergy of Automated Pipelines with Prompt Engineering and Generative AI in Web Crawling. 2024. doi:10.48550/arXiv.2502.15691. URL: chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/ https://www.arxiv.org/pdf/2502.15691.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.