1 нояб. 2011 г.

Разработка парсера сайта на C#.

Недавно возникла необходимость получить список всех почтовых индексов Украины. Для решения этой проблемы был написан парсер для сайта http://ukrindex.ru.

Проанализировав его адрес http://ukrindex.ru/02/1.html стало понятно что
о2 -  регион

1 - город.
Из этого следует что весь контент сайта можно перебрать двумя "for".

В начале цикла нужно генерировать ссылку "url".

Затем я задал задал pattern по которому ищу начало нужного текста в HTML коде.  Далее создал запрос, указал параметры прокси, получил ответ от сервера, конвертировал ответ в поток, и нашел все совпадения согласно моему паттерну.

Следующие что мне пришлось сделать это убрать лишний html код, и преобразить строку к виду "Область~Город~Индекс~Область~Город2~Индекс2"
Весь результат отобразил в Grid.
Так выглядит результат моих трудов.

Исходник можно посмотреть тут - UaZipPost.rar



Комментариев нет:

Отправить комментарий