Варианты парсинга HTML?

В мире .NET я рекомендую html5 HTML Agility Pack. Не так html-content-extraction просто, как некоторые из html-content-extraction вышеперечисленных вариантов html-content-extraction (например, HTMLSQL), но очень html-parsing гибко. Он позволяет манипулировать webpagescraping плохо сформированным HTML, как htmlparser если бы это был хорошо сформированный webpage XML, поэтому вы можете использовать webpage XPATH или просто выполнять webpage итерацию по узлам.

http://www.codeplex.com/htmlagilitypack

html

web-scraping

html-parsing

html-content-extraction

2022-10-01T22:12:27+00:00