lora-sp | 2ed7650 | 2023-04-06 18:12:27 +0200 | [diff] [blame] | 1 | import xml.etree.ElementTree as ET |
| 2 | from bunc2tei import extract_data |
| 3 | |
| 4 | |
| 5 | def test_extract_data(): |
| 6 | tree = ET.parse('sample.xml') |
| 7 | root = tree.getroot() |
| 8 | |
| 9 | data = extract_data('sample.xml') |
| 10 | assert len(data) == len(root.findall(".{http://www.tei-c.org/ns/1.0}text")) |
| 11 | |
| 12 | assert data[0]['title'] == 'Най-ефективните методи за справяне с махмурлука' |
| 13 | assert data[1]['title'] == 'Полицията регистрира няколко катастрофи с пияни шофьори в новогодишната нощ' |
| 14 | assert data[2]['title'] == 'Какво влиза в сила от 1 януари 2020 г.' |
| 15 | |
| 16 | assert data[0]['url'] == 'https://www.dnevnik.bg/detski_dnevnik/zdrave/2020/01/01/4011288_nai-efektivnite_metodi_za_spraviane_s_mahmurluka/' |
| 17 | assert data[1]['url'] == 'https://www.dnevnik.bg/skorost/2020/01/01/4011314_policiiata_registrira_niakolko_katastrofi_s_piiani/' |
| 18 | assert data[2]['url'] == 'https://www.dnevnik.bg/bulgaria/2020/01/01/4007490_kakvo_vliza_v_sila_ot_1_ianuari_2020_g/' |
| 19 | |
| 20 | assert data[0]['author'] == 'Дневник' |
| 21 | assert data[1]['author'] == 'Георги Пауновски' |
| 22 | assert data[2]['author'] == 'Елена Геловска' |
| 23 | |
| 24 | for i in range(len(data)): |
| 25 | assert data[i]['date'] == '2020-01-01' |
| 26 | |
| 27 | assert data[0]['time'] == '10:41' |
| 28 | assert data[1]['time'] == '12:07' |
| 29 | assert data[2]['time'] == '07:33' |
| 30 | |
| 31 | |
| 32 | |
| 33 | |
| 34 | |