geekcomputers
diff --git a/‎.DS_Store
34 KB b/‎.DS_Store
34 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/.DS_Store
6 KB b/‎Extract-Table-from-pdf-txt-docx/.DS_Store
6 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Document_Child1.docx
47.9 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Document_Child1.docx
47.9 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Pdf1_Child1.pdf
151 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Pdf1_Child1.pdf
151 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Pdf2_Child2.pdf
4.45 MB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Pdf2_Child2.pdf
4.45 MB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Text_Child1.txt
+1 b/‎Extract-Table-from-pdf-txt-docx/Parent/Child1/Text_Child1.txt
+1
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Document_Child2.docx
11.9 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Document_Child2.docx
11.9 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Pdf1_Child2.pdf
27.7 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Pdf1_Child2.pdf
27.7 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Pdf2_Child2.pdf
167 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Pdf2_Child2.pdf
167 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Text_Child2.txt
+1 b/‎Extract-Table-from-pdf-txt-docx/Parent/Child2/Text_Child2.txt
+1
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Document_Child3.docx
11.8 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Document_Child3.docx
11.8 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Pdf1_Child3.pdf
111 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Pdf1_Child3.pdf
111 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Pdf2_Child3.pdf
65.3 KB b/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Pdf2_Child3.pdf
65.3 KB
diff --git a/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Text_Child3.txt
+1 b/‎Extract-Table-from-pdf-txt-docx/Parent/Child3/Text_Child3.txt
+1
diff --git a/‎Extract-Table-from-pdf-txt-docx/main.py
+104 b/‎Extract-Table-from-pdf-txt-docx/main.py
+104
@@ -0,0 +1 @@
+AB,DF,G,DF,SDF,ADA,QW,WE,ER,FD2,45,56,7,8,9,65,3,5436,7812,34,345,667,56,5657,768,45,46,6767,89,8,9,89,8,78,9,67,671,23,4,5,65,76,8,6,45,67
 
@@ -0,0 +1 @@
+AC,DXFC,GB,DCF,SCDF,BADA,QB,W,R,F,C2,45,56,7,8,9,65,3,5436,78,3412,34,345,667,56,5657,768,45,46,67,3467,89,8,9,89,8,78,9,67,67,431,23,4,5,65,76,8,6,45,67,61
 
@@ -0,0 +1 @@
+AF,FC,GFB,DW,SF,BA,Q,WS,RR,FR,CW2,45,56,7,8,9,65,3,5436,78,3412,34,345,667,56,5657,768,45,46,67,3467,89,8,9,89,8,78,9,67,67,431,23,4,5,65,76,8,6,45,67,61
 
@@ -0,0 +1,104 @@
+# %%
+import pandas as pd
+import os
+import tabula
+from docx.api import Document
+
+# %%
+
+if os.path.isdir('Parent')== True:
+    os.chdir('Parent')
+#FOR CHILD1 DIRECTORY
+if os.path.isdir('Child1')==True:
+    os.chdir('Child1')
+#PDF FILE READING
+if os.path.isfile('Pdf1_Child1.pdf')==True:
+    df_pdf_child1=tabula.read_pdf('Pdf1_Child1.pdf',pages='all')
+#DOCUMENT READING
+if os.path.isfile('Document_Child1.docx')==True:
+    document = Document('Document_Child1.docx')
+    table = document.tables[0]
+    data = []
+
+    keys = None
+    for i, row in enumerate(table.rows):
+        text = (cell.text for cell in row.cells)
+        if i == 0:
+            keys = tuple(text)
+            continue
+        row_data = dict(zip(keys, text))
+        data.append(row_data)
+df_document_child1=pd.DataFrame(data)
+#TEXT READING
+if os.path.isfile('Text_Child1.txt')==True:
+    df_text_child1=pd.read_csv('Text_Child1.txt')
+
+# %%
+df_text_child1
+
+
+# %%
+os.chdir('../')
+if os.path.isdir('Parent')== True:
+    os.chdir('Parent')
+#FOR CHILD2 DIRECTORY
+if os.path.isdir('Child2')==True:
+    os.chdir('Child2')
+#PDF FILE READING
+if os.path.isfile('Pdf1_Child2.pdf')==True:
+    df_pdf_child2=tabula.read_pdf('Pdf1_Child2.pdf',pages='all')
+#DOCUMENT READING
+if os.path.isfile('Document_Child2.docx')==True:
+    document = Document('Document_Child2.docx')
+    table = document.tables[0]
+    data = []
+
+    keys = None
+    for i, row in enumerate(table.rows):
+        text = (cell.text for cell in row.cells)
+        if i == 0:
+            keys = tuple(text)
+            continue
+        row_data = dict(zip(keys, text))
+        data.append(row_data)
+df_document_child2=pd.DataFrame(data)
+#TEXT READING
+if os.path.isfile('Text_Child2.txt')==True:
+    df_text_child2=pd.read_csv('Text_Child2.txt')
+
+# %%
+df_pdf_child2[0].head(4)
+
+# %%
+os.chdir('../')
+if os.path.isdir('Parent')== True:
+    os.chdir('Parent')
+#FOR CHILD3 DIRECTORY
+if os.path.isdir('Child3')==True:
+    os.chdir('Child3')
+#PDF FILE READING
+if os.path.isfile('Pdf1_Child3.pdf')==True:
+    df_pdf_child3=tabula.read_pdf('Pdf1_Child3.pdf',pages='all')
+#DOCUMENT READING
+if os.path.isfile('Document_Child3.docx')==True:
+    document = Document('Document_Child3.docx')
+    table = document.tables[0]
+    data = []
+
+    keys = None
+    for i, row in enumerate(table.rows):
+        text = (cell.text for cell in row.cells)
+        if i == 0:
+            keys = tuple(text)
+            continue
+        row_data = dict(zip(keys, text))
+        data.append(row_data)
+df_document_child3=pd.DataFrame(data)
+#TEXT READING
+if os.path.isfile('Text_Child3.txt')==True:
+    df_text_child3=pd.read_csv('Text_Child3.txt')
+
+# %%
+df_text_child3
+
+# %%
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+AB,DF,G,DF,SDF,ADA,QW,WE,ER,FD2,45,56,7,8,9,65,3,5436,7812,34,345,667,56,5657,768,45,46,6767,89,8,9,89,8,78,9,67,671,23,4,5,65,76,8,6,45,67`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+AC,DXFC,GB,DCF,SCDF,BADA,QB,W,R,F,C2,45,56,7,8,9,65,3,5436,78,3412,34,345,667,56,5657,768,45,46,67,3467,89,8,9,89,8,78,9,67,67,431,23,4,5,65,76,8,6,45,67,61`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+AF,FC,GFB,DW,SF,BA,Q,WS,RR,FR,CW2,45,56,7,8,9,65,3,5436,78,3412,34,345,667,56,5657,768,45,46,67,3467,89,8,9,89,8,78,9,67,67,431,23,4,5,65,76,8,6,45,67,61`