-
Notifications
You must be signed in to change notification settings - Fork 625
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Upgrade Apache PDFBox to 3.x #4449
Comments
Collecting changes in the extracted text: Delta in Baader Bank document of February 2023 --> only in the address, not a problem. 7,8c7
< 04.02.2023
< Muster Str. 42
---
> Muster Str. 42 04.02.2023
71c70,71
<
\ No newline at end of file
---
>
> |
Consorsbank from 2021 --> not a problem 1c1
< Consorsbank • 90318 Nürnberg
---
> Consorsbank 90318 Nürnberg
8,10c8
< Datum: 15.12.2021
< 12345 Musterstadt
< Seite: 1 von 1
---
> 12345 Musterstadt Datum: 15.12.2021Seite: 1 von 1
37c35
< Président du Conseil d‘Administration (Präsident des Verwaltungsrates): Jean Lemierre, Directeur Général (Generaldirektor): Jean-Laurent Bonnafé
---
> Président du Conseil dAdministration (Präsident des Verwaltungsrates): Jean Lemierre, Directeur Général (Generaldirektor): Jean-Laurent Bonnafé |
Degiro --- 1.8.17
+++ 3.0.3
@@ -7,2 +7,2 @@
-Datum Uhrzeit Produkt ISIN Börse Anzahl Kurs Wert inLokalwährun Wert
-Wechselkur
+Datum Uhrzeit Produkt ISIN Börse Anzahl Kurs Wert in
+Lokalwährun Wert Wechselkur |
Onvista Mon Jan 06 11:34:21 CET 2025
Onvista_20161214_Wertpapierertrag.pdf
--- 1.8.17
+++ 3.0.3
@@ -13,1 +13,2 @@
-Herr ADRESSZEILE5=01.05.2016 - 30.04.2017
+Herr ADRESSZEILE5=
+01.05.2016 - 30.04.2017
@@ -17,1 +18,2 @@
-42699 Solingen 247281000 14053767 / 14.12.2016 SEITENNUMMER=1STEUERERSTATTUNG=N
+42699 Solingen 247281000 14053767 / 14.12.2016 SEITENNUMMER=1
+STEUERERSTATTUNG=N |
comdirect (imported without fallback) --- 1.8.17
+++ 3.0.3
@@ -6,2 +6,3 @@
-25449 Quickborn unverzüglich zu erheben.
-fon : 04106-708 25 00 Tele
+unverzüglich zu erheben.
+25449 Quickborn
+Telefon : 04106-708 25 00
@@ -16,2 +17,1 @@
-
-
+
@@ -26,2 +26,1 @@
-
-*
+*
@@ -68,4 +67,5 @@
-8746901 Max Mustermann Musterstadt
-
-
-123 111 11 Musterweg 3 A 12345 Musterstadt
+Max Mustermann Musterstadt
+ 8746901
+
+Musterweg 3 A
+123 111 11 12345 Musterstadt
@@ -73,2 +73,1 @@
-
- ----
+ ----
@@ -77,2 +76,2 @@
- 2 5 4 5 1 Q u i c k b o r n
-0 1 0 1 1887
+2 5 4 5 1 Q u i c k b o r n
+0 1 0 1 1887
@@ -80,1 +79,1 @@
-T e le f o n : 0 4 1 0 6 - 7 0 8 25 00
+T e le f o n : 0 4 1 0 6 - 7 0 8 25 00
@@ -82,4 +81,4 @@
-Herrn D a t u m : 1 6 . 0 9 .2016
-M ax M u st er ma nn D e p o t n u m m er: 1 2 3 4 5 0 1 00
- W e g 3 A
- 8 75 R e f e r e n z - N u mmer: 2 I I A X W 7 N E 6A000M8 2 7 M u s te r s ta d t
+H e r r n D a t u m : 1 6 . 0 9 .2016
+M ax M us t e r m a n n i m D e p o t n u m m er: 1 2 3 4 5 0 1 00
+W e g 7 A
+1 2 3 4 5 M u s t e r s t a d t R e f e r e n z - N u mmer: 2 I I A X W 7 N E 6A000M8
@@ -92,1 +91,1 @@
- Zu Ih r e n L a s te n v o r S te u e r n: E U R -65,9 8
+Z u Ih r e n L a s te n v o r S te u e r n: E U R -65,9 8
@@ -104,1 +103,1 @@
- K ap i ta le r tr a gs t e ue r E U R 0 , 0 0
+K ap i ta le r tr a gs t e ue r E U R 0 , 0 0
@@ -106,2 +105,2 @@
- K irc h e n s te u e r E_ _U R_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _0 ,_ _0 0_
-a b g e f ü h rt e S t e u er n E_ U_ R_ _ _ _ _ _ _ _ _ __ _ __ _ 0_,_0_ 0_
+K irc h e n s te u e r E_ U_ R_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 0_ ,_ 0_ 0_
+a b g e f ü h rt e S t e u er n E_ U_ R_ _ _ _ _ _ _ _ _ _ _ _ _ _ _0_,_0_ 0_
@@ -126,6 +125,4 @@
-in 2016 einbehaltene einbehaltener einbehaltene angerechneteKapitalertragsteuer Solidaritätszuschlag Kirchensteuer ausländische Quellensteuer
-vor Ermittlung
- 81,03 4,41
- 0,00 11,17
-nach Ermittlung
- 81,03 4,41 0,00 11,17
+in 2016 einbehaltene einbehaltener einbehaltene angerechnete
+Kapitalertragsteuer Solidaritätszuschlag Kirchensteuer ausländische Quellensteuer
+vor Ermittlung 81,03 4,41 0,00 11,17
+nach Ermittlung 81,03 4,41 0,00 11,17
@@ -133,6 +130,4 @@
-in 2016 Gewinne / Verluste sonstige anrechenbare verfügbareraus Aktien Gewinne / Verluste ausländische Quellensteuer Freistellungsauftrag
-vor Ermittlung
- 0,00 468,77 0,00 0,00
-nach Ermittlung
- 0,00 468,77
- 0,00 0,00
+Gewinne / Verluste sonstige anrechenbare verfügbarer
+in 2016 aus Aktien Gewinne / Verluste ausländische Quellensteuer Freistellungsauftrag
+vor Ermittlung 0,00 468,77 0,00 0,00
+nach Ermittlung 0,00 468,77 0,00 0,00
|
Sparkassen Broker (imported without fallback) Mon Jan 06 11:42:04 CET 2025
2016-04-06_Wertpapierkauf ComStage-MSCI World TRN U.ETF Inhaber-Anteile I o.N..pdf
--- 1.8.17
+++ 3.0.3
@@ -1,29 +1,27 @@
-OBERLIGEIGDRUCK=J
-Wertpapierabrechnung EFAMXAVILE
-NA
-VRES
-L=1
-DEPOTNUR
-ASNADN=DN=N
-KKoaumf
-M
-missionsgeschäft DVEERPOSATUNNDTAE
-M
-RR
-E
-TB
-R
-EE
-=Z7E12/533NSCIHCLHUNEU
-5/N00G9=
-ADRESSZEILE1=Herrn SSEL=0000
-AADDRREESSSSZZEEIILLEE23=Max MustermannHMeircrhn
-=Weg 28
-ax Mustermann D7e1p2ot/-5N3r.35/009 9Ab6r4ec8hn2u4ng8s2-N r. AADDRREESSSSZZEEIILLEE54==12345 MusterstadntA91u2w2e0g S 8usterstadt BAEDLREEGSNSZUEMILMEE6R==7361
-Depo S
-STEIETUEENRNEURMSTMAETRT=U1NG=N
-Maxtihnhaaebelr Mustermann
-WNVi-rB hesacbheeNr. 2 EStG i
-nni gfüunrg S gieem gäeß k§a 4u4fat Abs. 1 Nr. 2 und Abs. 2 Wiesbaden, 06.04.2016
-GCaottumngSsbteazegiceh-nMungSCI World TRN U.ETF Inhaber-Anteile I o.N. LISIUN0392494562
-NSoTmKina l2,571 KEuUrsR 38,6900
+BELEGDRUCK=J
+ORIGINAL=1
+Wertpapierabrechnung FAXVERSAND=N
+EMAILVERSAND=N
+DEPOTNUMMER=712/1234/009
+Kauf DEPOTUNTERBEZEICHNUNG=
+Kommissionsgeschäft VERSANDARTENSCHLUESSEL=0000
+ADRESSZEILE1=Herrn
+ADRESSZEILE2=Max Mustermann
+H ADRESSZEILE3=Weg 42
+Depot-Nr. Abrechnungs-Nr.
+Meircr
+A hn
+uw ax Mustermann ADRESSZEILE4=12345 Musterstadt
+712/12345/009 123456789 ADRESSZEILE5=
+ADRESSZEILE6=
+9122e0g M 8usterstadt BELEGNUMMER=1234
+SEITENNUMMER=1
+Depotinhaber STEUERERSTATTUNG=N
+Max Mustermann
+Wir haben für Sie gekauft
+NV-Bescheinigung gemäß § 44a Abs. 1 Nr. 2 und Abs. 2 Wiesbaden, 06.04.2016
+Nr. 2 EStG
+Gattungsbezeichnung ISIN
+ComStage-MSCI World TRN U.ETF Inhaber-Anteile I o.N. LU0392494562
+Nominal Kurs
+STK 2,571 EUR 38,6900
@@ -31,4 +29,3 @@
-Handelszeit
-Handelsplatz GirosammelverwahX
-09e:t0r4a
-Verwahrart rung
+Handelszeit 09:04
+Handelsplatz Xetra
+Verwahrart Girosammelverwahrung
@@ -37,3 +34,3 @@
-Ddiiee jHähörhliec hd ezsu v zoanh der KapitalverVertragsbedingungleennd zeu V eenrtwneahltmu
-wnaglstvuenrggsügteusnegll sucnhda fdti e(K GVeGen. sa
-)m fteksotgsetelengqtueont eA suisngda dbeemau fV- ebrzkwau. fRspürcoksnpaehkmt ebazbws.c dhelanges sowie
+Die Höhe des von der Kapitalverwaltungsgesellschaft (KVG) festgelegten Ausgabeauf- bzw. Rücknahmeabschlages sowie
+die jährlich zu zahlende Verwaltungsvergütung und die Gesamtkostenquote sind dem Verkaufsprospekt bzw. den
+Vertragsbedingungen zu entnehmen.
@@ -41,1 +38,2 @@
-SM iBt frroekunedr liAchGen & G rCüßoe.n KG
+Mit freundlichen Grüßen
+S Broker AG & Co. KG |
I now checked out the new feature branch and used the new option "Diffs from PDFs": Results: AKF Bank (Account Statements):
-> should be not critical. |
Bank11 (Account Statements):
-> should be not critical. |
ING Diba (Account Statements Extra Konto and VL Sparen):
-> should be not critical. |
J&T Direktbank:
-> should be not critical. |
Volksbank Raiffeisenbank Hochtaunus / MeineBank
-> should be not critical. |
Merkurbank 0 of 5 documents show a difference. -> should be not critical. |
Renault Bank (Account Statements):
-> should be not critical. |
Thanks @ZfT2 for the detailed feedback! |
PP uses Apache PDFBox to extract a text presentation of the PDF document for further processing.
By now, Apache PDFBox is released in version 3.0.3. We plan to use this issue to track an update of the library within PP.
Problem statement:
The process of importing works like this:
PDF ---(PDFBox)--> Plain Text ---(regex)--> Transactions
The challenge is that we have almost no test cases that take the PDF as input. Why? Because users want to provide anonymous content, we generate the text in the desktop application, let the user anonymize and then share the plain text. That means a) we cannot test if the new version of PDFBox creates the same text output and b) potentially break many importers which would require new sample files to fix the code.
Options:
Technical considerations:
The text was updated successfully, but these errors were encountered: