Airflow - DAGs

try:

    import json
    import logging
    from datetime import datetime, timedelta

    import numpy as np
    import pandas as pd
    import requests
    from airflow import DAG
    from airflow.operators.python_operator import PythonOperator
    from pandas.io.json import json_normalize
    from sqlalchemy import create_engine

except Exception as e:
    print("Error {} ".format(e))

logger = logging.getLogger('airflow.task')

dRoW_api_end_url = "https://drow.cloud"

def getDrowToken(**context):
    response = requests.post(
    url=f"{dRoW_api_end_url}/api/auth/authenticate",
    data={
        "username": "icwp2@drow.cloud",
        "password": "dGVzdDAxQHRlc3QuY29t"
    }).json()
    context["ti"].xcom_push(key="token", value=response['token'])

def getMongoDB(**context):
    token = context.get("ti").xcom_pull(key="token")
    response = requests.get(
    url=f"{dRoW_api_end_url}/api/module/document-export/airflow/workflow/664ee0e3a02b18de5cb4e8a4?export_type=0",
    headers={
            "x-access-token": f"Bearer {token}",
            "ICWPxAccessKey": "nd@201907ICWP_[1AG:4UdI){n=b~"
        }
    )

    RISC_Data = json.loads(response.text)
    Mapping= {
        'Year':'year',
        'Month':'month',
        'Wage Information':'wage_information',
        'Number of worker engaged on site on each calendar day':'number_of_worker_engaged_on_site_on_each_calendar_day',
    }

    host                  = 'drowdatewarehouse.crlwwhgepgi7.ap-east-1.rds.amazonaws.com'  
    # User name of the database server
    dbUserName            = 'dRowAdmin'  
    # Password for the database user
    dbUserPassword        = 'drowsuper'  
    # Name of the database 
    database              = 'drowDateWareHouse'
    # Character set
    charSet               = "utf8mb4"  
    port                  = "5432"


    conn_string = ('postgres://' +
                           dbUserName + ':' + 
                           dbUserPassword +
                           '@' + host + ':' + port +
                           '/' + database)
    db = create_engine(conn_string)
    conn = db.connect()

    with conn as conn:
        df = pd.DataFrame()

        for x in RISC_Data:
            df_nested_list = json_normalize(x['data'])
            trade_list =[]
            average = []
            high = []
            low = []

            df2 = df_nested_list.reindex(columns=Mapping.keys())
            df3 = pd.DataFrame()
            for i in df2['Wage Information']:
                for j in i:
                    for key, value in j.items():
                        if key == 'Trade':
                            trade_list.append(value)
                        elif key == 'Average':
                            average.append(value)
                        elif key == 'High':
                            high.append(value)
                        elif key == 'Low':
                            low.append(value)

            df3['trade_list'] = pd.Series(trade_list)
            df3['average'] = pd.Series(average)
            df3['high'] = pd.Series(high)
            df3['low']= pd.Series(low)

            print(df2['Year'].values[0] + '-' + df2['Month'].values[0])
            df3['date'] =  datetime.strptime(df2['Year'].values[0].strip() + '-' + df2['Month'].values[0].strip(), '%Y-%B')
                    
            total_man_days = []
            overtime_hours = []
            for i in df2['Number of worker engaged on site on each calendar day']:
                for idx, j in enumerate(i):
                    for key, value in j.items():
                        if key != 'Trade List':
                            if key == 'Total Man-days':
                                    total_man_days.append(value)
                            elif key == 'Overtime (hours)':
                                    overtime_hours.append(value)
                            else:
                                pass
            df3['total_man_days'] = pd.Series(total_man_days)
            df3['overtime_hours'] = pd.Series(overtime_hours)

            df = df.append(df3)
        
        df['total_man_days'].fillna(0,inplace=True)
        df['overtime_hours'].fillna(0,inplace=True)
        df.to_sql('labour_return_cv202308', con=conn, if_exists='replace', index= False)

# Execute the DAG at 3:00 PM UTC every day
with DAG(
        dag_id="cv202308_labour_return",
        schedule_interval="0 15 * * *",
        default_args={
            "owner": "airflow",
            "retries": 1,
            "retry_delay": timedelta(minutes=5),
            "start_date": datetime(2023, 1, 17)
        },
        catchup=False) as f:
    
    getMongoDB = PythonOperator(
        task_id="getMongoDB",
        python_callable=getMongoDB,
        op_kwargs={"name": "Dylan"},
        provide_context=True,
    )

    getDrowToken = PythonOperator(
        task_id="getDrowToken",
        python_callable=getDrowToken,
        provide_context=True,
    )

getDrowToken >> getMongoDB
DAG: cv202308_labour_return

schedule: 0 15 * * *

cv202308_labour_return