доделал парсеры

This commit is contained in:
lobanov
2022-10-04 11:46:01 +03:00
parent 78cb842026
commit 942d5518c4
12 changed files with 622 additions and 185 deletions

View File

@@ -9,7 +9,7 @@ from time import sleep, time
# папка для загрузки файлов с помощью браузере, должна быть пустой
in_dir_download_files = '/home/lobanov/Загрузки'
# список файлов csv в начальной директории
list_files = [file for file in os.listdir('csv_files') if file.endswith('.csv')]
list_files = [file for file in os.listdir('csv_files_original') if file.endswith('.csv')]
dt_start = datetime.now().utcnow()
print(dt_start)
for file in list_files:
@@ -18,7 +18,7 @@ for file in list_files:
except FileExistsError:
pass
print(file[0:-4])
with open(f'csv_files/{file}', encoding='utf-8') as f:
with open(f'csv_files_original/{file}', encoding='utf-8') as f:
cnt_document = 0
parse_project = list(csv.reader(f, delimiter=';'))
for idx, row in enumerate(parse_project):
@@ -37,7 +37,7 @@ for file in list_files:
os.listdir(in_dir_download_files)) > 1:
if time() - start_time > 10 and len(os.listdir(in_dir_download_files)) == 0:
print('-------------------------')
print(f'файл не найден примерная строка {idx}')
print(f'файл не найден адрес {address} примерная строка {idx}')
print('-------------------------')
file_not_exist = True
break
@@ -70,5 +70,5 @@ for file in list_files:
sleep(5) # перерыв между файлами csv
dt_stop = datetime.now().utcnow()
print(dt_stop, 'stop date')
if dt_stop - timedelta(hours=14) > dt_start:
break
# if dt_stop - timedelta(hours=14) > dt_start:
# break