Jag var nyfiken på hur svårt det här skulle vara att göra, så jag började experimentera. Jag använder macOS Sierra, men de grundläggande stegen skulle vara desamma på andra plattformar.
Det första skulle vara att ladda ner .pdf-filerna. Det finns 9 av dem så du måste göra dessa steg 9 gånger. Automator gör det enkelt att konvertera PDF-filer till text. Många av texten är manglad, men linjen du bryr dig om är intakt. Öppna Automator och välj Workflow i rullgardinsmenyn. Släpp en av filerna i Automator-fönstret. Jag valde CS_SW_20170105.pdf. På fliken Åtgärder väljer du PDF-filer och väljer Utdrag PDF-text. Använd ikonen för att köra åtgärden. Det är förvånansvärt snabbt.
Nu har du en textfil som du kan manipulera med dina favoritverktyg för texthantering. Jag använder BBEdit. Först avlägsnade jag alla raderna och använd sedan kommandot Processlines Containing för att kopiera alla rader som innehåller UTC till en ny fil. Sedan blev jag av med alla saker efter tidszonen genom att göra en sökning (med GREP för att ersätta "N [0-9]. *" Med ingenting. Sedan tog jag bort radnummer och utrymme i början av filen.
Detta är ett urval av resultatet:
391.133Det tar ungefär två minuter att bearbeta filerna. Det är inte helt rent, men du kan göra lite mer GREPing för att bli av med saker.
Tyvärr finns det fortfarande mycket skräp i filerna som kommer att ta lite manuell redigering för att fixa. Förmodligen inte mer än ett par timmar.