経済指標グラフの日付問題

経済指標グラフの日付問題

形式が
dd/mm/yy
となっているので
altairで表示が月と間違えて表示される

月の表示を英語にすればいけるかもしれない

株価可視化複数アプリでそうしたので

import pandas as pd
import investpy
import altair as alt

economic_data = investpy.economic_calendar(time_zone=None, time_filter='time_only', countries=['japan', 'united states'], from_date='01/01/2021', to_date='11/06/2021')

economic_data2 = investpy.economic_calendar(time_zone=None, time_filter='time_only', countries=['japan', 'united states'], from_date='01/01/2021', to_date='31/01/2021')

ISM =economic_data[economic_data['event'].str.contains('ISM Non-Manufacturing PMI')]

chart =(
    alt.Chart(ISM)
    .mark_line(opacity=0.8,clip=True)
    .encode(
        x="date:T",
        y=alt.Y("actual:Q",stack=None)
    )
)
chart

これだと
dd/mm/yy
の mm 部分を日付と間違えるようだ

インタラクティブなデータの視覚化

をみたところ
プロット
のところで
プロットに使用する列が正しいデータ型であり、日付が(YYYY-MM-DD)の形式であることを確認しました。そのために、高価格列と低価格列をdoubleデータ型に変換し、日付列を文字列形式に変換しました。続いて、日付列をDD / MM / YYYY形式からYYYY / MM / DDに変換し、最後にYYYY-MM-DDに変換しました。
をみて

import plotly.graph_objs as go
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)
import plotly.plotly as py
import plotly
import pandas as pd
import datetime

df = pd.read_csv("TSLA.csv")

df['date'] = df['date'].astype('str') 
df['high'] = df['high'].astype('double')
df['low'] = df['low'].astype('double') 

date2 = []
for i in df['date']:
    new_date = datetime.datetime.strptime(i, "%d/%m/%Y").strftime("%Y-%m-%d")
    date2.append(new_date)
    
df['date'] = df['date'].str.replace('/', '-')
df['date'] = date2
df.fillna(0)
df.head()

のうち

df = pd.read_csv("TSLA.csv")

df['date'] = df['date'].astype('str') 
df['high'] = df['high'].astype('double')
df['low'] = df['low'].astype('double') 

date2 = []
for i in df['date']:
    new_date = datetime.datetime.strptime(i, "%d/%m/%Y").strftime("%Y-%m-%d")
    date2.append(new_date)
    
df['date'] = df['date'].str.replace('/', '-')
df['date'] = date2
df.fillna(0)
df.head()

をみたところ
date の部分をループさせて
date2 に格納
date の値を date2 に書き換えて
df.fillna で反映しているみたいだ

df.fillna は欠損値の置き換えらしい

とりあえず実験

date2 =[]
for i in ISM['date']:
    new_date = datetime.datetime.strptime(i,"%d/%m/%Y").strftime("%Y-%m-%d")
    date2.append(new_date)

とすれば

date2 に

['2021-01-08',
 '2021-02-04',
 '2021-03-04',
 '2021-04-05',
 '2021-05-05',
 '2021-06-03']

と格納される

あとは代入すればいけると思って

ISM['date']=ISM['date'].str.replace('/','-')
ISM['date'] = date2
ISM.fillna(0)

としたら

<ipython-input-15-e3cb61543e3a>:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ISM['date']=ISM['date'].str.replace('/','-')
<ipython-input-15-e3cb61543e3a>:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ISM['date'] = date2

と警告がでる

これで

chart

とすればいちおう望み通りのグラフにはなる

エラーを

<ipython-input-15-e3cb61543e3a>:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

で検索してみたら
pandas の SettingWithCopyWarning で苦労した話

にその原因っぽいのが乗っていた

元のデータの一部を抽出→そのうち一部へ代入した場合、「元のデータのその部分」を修正したかったのか、「一部を変更した新しいデータ」を作りたかったのかどっちかわからないよ、という感じ
らしい

PandasのSettingWithCopyWarningに対する対処方法

も参考にしてみた

view か copy かを明確にしないとダメで
copy なら元の DataFrane は変更されない
view だと元まで変更となる

python で経済指標の取得とグラフ化その2

python で経済指標の取得とグラフ化その2

ISM Manufacturing PMI
ISM製造業PMI

altair でグラフにする

economic_data[economic_data['event'].str.contains('ISM Non-Manufacturing PMI')]

で結果の取得はできた

以前
apple の情報を取得し
そこから特定のカラムの Close だけ取り出したことがあるので

economic_data[economic_data['event'].str.contains('ISM Non-Manufacturing PMI')]['actual']

とすると

99      57.2
535     58.7
1016    55.3
1566    63.7
2027    62.7
2540    64.0
Name: actual, dtype: object

となり
ID と actual の数値がでる

ただし

chart =(
    alt.Chart(ISM)
    .mark_line(opacity=0.8,clip=True)
    .encode(
        x="Date:T",
        y=alt.Y("Stock Prices(USD):Q",stack=None),
        color='Name:N'
    )
)
chart

としてもエラーになる

ISM.dtype

を実行すると

dtype('O')

となる

検索して調べてみた
dtype( ‘O’)とは何ですか?

によれば
python object
とのこと

なので数値にしないとダメ
おそらくやり方が違っているので
株価可視化アプリでやったことを思い出す

economic_data.columns

でカラムを調べると

Index(['id', 'date', 'time', 'zone', 'currency', 'importance', 'event',
       'actual', 'forecast', 'previous'],
      dtype='object')

となる

過去に apple の株価取得したときには

Index(['Open', 'High', 'Low', 'Close', 'Volume', 'Dividends', 'Stock Splits'], dtype='object')

だった

今回は指標を絞ってみる

ISM =economic_data[economic_data['event'].str.contains('ISM Non-Manufacturing PMI')]
ISM.columns

とすると

Index(['id', 'date', 'time', 'zone', 'currency', 'importance', 'event',
       'actual', 'forecast', 'previous'],
      dtype='object')

となる
あまり変わっていない

ISM.reset_index()

でインデックスを振りなおしてみる

ism_act = ISM[['actual']]
ism_act


actual へ絞り込みができた

ただし、そのまま

chart =(
    alt.Chart(ism_act)
    .mark_line(opacity=0.8,clip=True)
    .encode(
        x="Date:T",
        y=alt.Y("Stock Prices(USD):Q",stack=None)
    )
)

としても日付がないので表示できない

pandas.DataFrameから条件を満たす行名・列名の行・列を抽出(選択)

を参考に

ism_act = ISM.filter(items=['date','actual'])
ism_act

とすれば日付も取得できる

chart =(
    alt.Chart(ism_act)
    .mark_line(opacity=0.8,clip=True)
    .encode(
        x="date:T",
        y=alt.Y("actual:Q",stack=None)
    )
)

ででたけど
表示がおかしい

原因は日付表示

99 	08/01/2021 	57.2
535 	04/02/2021 	58.7
1016 	04/03/2021 	55.3
1566 	05/04/2021 	63.7
2027 	05/05/2021 	62.7
2540 	03/06/2021 	64.0

の場合日付を月と認識されるので
表記を変える必要がある

ism_act.index = ism_act.index.strftime('%d %B %Y')

としたが

AttributeError: 'Int64Index' object has no attribute 'strftime'

となる

[Python]pandasの日付データから年、月、日、曜日への変換方法

を参考に

ism_act['date'] = pd.to_datetime(ism_act['date'],format='%Y-%m-%d')

としたがエラー
Pandasデータフレームを日付で並べ替え

を参考に

ism_act['date']=pd.to_datetime(ism_act.date)
ism_act.sort_values(by='date')

とすれば
ソートはできるが日付フォーマットを修正しないとバグる

df_ism_act = pd.DataFrame(ism_act)


Dataframe にしてみたが
おそらく株価アプリのときみたいに
DatetimeIndex を作成したほうがいいかもしれない

ism_act['date']=pd.to_datetime(ism_act['date'], format='%Y%m%d')
ism_act.sort_values(by='date')

だと
08/01/2021
を8/1
として認識して変換している

python で経済指標の取得とグラフ化

python で経済指標の取得とグラフ化

経済指標を取得しグラフ化することで
ニュース発表時の期待値との乖離を理解しやすくなる

まずは経済指標の値を取得

できればあとは
dow index
gold
WTI
なども取得できるようにする

jupyter-notebook
で実験をしてそれから
streamlit で表示
というコンセプトで

FXで重要な経済指標をWebスクレイピングで取得する方法

[Python]investpyで株、為替、経済指標データを取得する

を参考に

investpy
をインストール

!pip install investpy


jupyter notebook でインストールできる

investpyで世界の株価データを取得してみた

も参考に

import pandas as pd
import investpy

で必要なライブラリをインポート

code = '7203' #トヨタ自動車
stock_data = investpy.get_stock_historical_data(stock=code, country='japan', from_date='01/02/2021', to_date='28/03/2021')
stock_data.tail(5)

とすると

2021/2/1 から 2021/3/28
までのトヨタ自動車の株価を取得して表示できる

investpy.get_stock_historical_data


企業シンボルを stock=
国を country=
期間を from_date=, to_date
で指定する

これを APPle にするなら

symbol = "AAPL" #アップル
stock_data = investpy.get_stock_historical_data(stock=symbol, country='united states', from_date='01/02/2021', to_date='28/03/2021')
stock_data.tail(5)

とすればOK

違いはstock= を symbol にして

contury= を united states

にしていること

なお指定期間の為替の取得も可能

usd_jpy = investpy.get_currency_cross_historical_data(currency_cross='USD/JPY', from_date='01/02/2021', to_date='28/03/2021')
usd_jpy.tail(5)


from_date と to_date
で指定した期間の為替情報を

get_currency_cross_historical_data()

で取得している

currency_cross= で通過ペアの指定をしている

次に経済指標

investpy.economic_calendar

で各国の経済指標を得ることができる

economic_data = investpy.economic_calendar(time_zone='GMP +9:00', countries=['japan', 'united states'], from_date='01/02/2021', to_date='28/03/2021')
economic_data.tail(5)

だと

ValueError                                Traceback (most recent call last)
<ipython-input-16-10b765be85cc> in <module>
----> 1 economic_data = investpy.economic_calendar(time_zone='GMP +9:00', countries=['japan', 'united states'], from_date='01/02/2021', to_date='28/03/2021')
      2 economic_data.tail(5)

~/anaconda3/lib/python3.8/site-packages/investpy/news.py in economic_calendar(time_zone, time_filter, countries, importances, categories, from_date, to_date)
     80     else:
     81         if time_zone not in cst.TIMEZONES.keys():
---> 82             raise ValueError("ERR#0108: the introduced time_zone does not exist, please consider passing time_zone as None.")
     83 
     84     if not isinstance(time_filter, str):

ValueError: ERR#0108: the introduced time_zone does not exist, please consider passing time_zone as None.

となる

github で調べたら
https://github.com/alvarobartt/investpy/search?q=economic_calendar
にあるように

def economic_calendar(time_zone=None, time_filter='time_only', countries=None, importances=None, categories=None, from_date=None, to_date=None):

と定義されている

さらに詳細を
https://github.com/alvarobartt/investpy/blob/f7f43c4458a155237321528c9a46e2aa4a3e824d/investpy/news.py
で確認

        time_zone (:obj:`str`, optional): 
            time zone in GMT +/- hours:minutes format, which will be the reference time, if None, the local GMT time zone will be used.
        time_filter (:obj:`str`, optional):
            it can be `time_only` or `time_remain`, so that the calendar will display the time when the event will occurr according to 
            the time zone or the remaining time until an event occurs.

とあるので約してみると

time_zone(:obj: `str`、オプション):
GMT +/-時間:分形式のタイムゾーン。これが参照時間になります。[なし]の場合、ローカルGMTタイムゾーンが使用されます。
time_filter(:obj: `str`、オプション):
それは「time_only」または「time_remain」にすることができ、カレンダーはイベントが発生する時間を表示します
タイムゾーンまたはイベントが発生するまでの残り時間。

ということなので

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date='01/02/2021', to_date='28/03/2021')
economic_data.tail(5)

というように
time_zone を省略したらできた

次に

economic_data[economic_data['importance']=='high']

というように
importance カラムが high になっているものだけを抽出すれば
重要指標のみ表示ができる

actual
が実際の値

forecast が予測値
previousが前回の値

つまりこの3つのうち
forecast
previous
でグラフを作成、もしくは該当する経済指標でグラフを作成すればいい

とりあえずグラフにするサンプル
とはいっても株価のだけど
investpyで世界の株価データを取得してみた

で日立製作所の株価データをグラフにするのがあったので実線

stock = '6501' # Hitachi Ltd
country = 'japan'

stock_df = investpy.get_stock_recent_data(stock=stock, country=country)
stock_df.reset_index(drop=False, inplace=True)
stock_df.head()

ででる

reset_index() のオプションについて調べてみた
Pandas.DataFrameのインデックスをreset_indexメソッドで振り直す

によれば
DataFrameのreset_indexメソッドを使えば、DataFrameの行のindexを簡単に振り直すことができる

ということ

drop=False
については
オリジナルのindexを列として保存しておくならFalse、保存しないならTrue

inplace=True
については
reset_indexを実行したオブジェクト自体を変更する場合はTrue、変更しないのならFalse

つまり reset_index() でインデックス番号が振られるので
head() などで絞り込みができる

あとはグラフにしてみる

from matplotlib import pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns; sns.set()


fig,ax = plt.subplots(figsize=(12,4))
locator = mdates.DayLocator()
formatter = mdates.ConciseDateFormatter(locator)
ax.xaxis.set_minor_locator(locator)
ax.xaxis.set_major_formatter(formatter)

sns.lineplot(data=stock_df, x='Date', y='Close')
ax.set_title('Hitachi Ltdt')
plt.show()

でできる

今度は経済指標に戻って
米国原油在庫量であるCrude Oil Inventories
が経済指標にあったので
event からこれを指定する

economic_data = investpy.economic_calendar(time_zone=None, time_filter='time_only', countries=['japan', 'united states'], from_date='01/01/2021', to_date='11/06/2021')
economic_data[economic_data['event']=='Crude Oil Inventories']

これで一覧で取得できた
あとは
actual
forecast
previous
の3つをグラフにして
対応する通貨の値動きを追加すれば
どんな値動きをしていたのかがわかる

次に新規失業保険申請件数
これは
Initial Jobless Claims
なので

economic_data[economic_data['event']=='Initial Jobless Claims']

となる

ただし
ISM Non-Manufacturing PMI (Jan)
というように月などが入っていると完全一致しないため
== では判定できない

python 文字列 含む 判定 pandas
で検索し
pandasで特定の文字列を含む行を抽出(完全一致、部分一致)

を参考に特定の文字列で始まるものを試す

str.contains(): 特定の文字列を含む
str.startswith(): 特定の文字列で始まる
があたりっぽい

print(df[df['name'].str.contains('li')])

がサンプル
なので

economic_data[economic_data['event'].str.contains('ISM Non-Manufacturing PMI')]

とすれば

ISM Non-Manufacturing PMI
を含むものを抽出することができるので
月ごとの結果が取得できるようになる

とりあえず取得するべき経済指標に関しては

economic_data2 = investpy.economic_calendar(time_zone=None, time_filter='time_only', countries=['japan', 'united states'], from_date='01/01/2021', to_date='31/01/2021')
economic_data2[economic_data2['importance']=='high']

で1月の重要経済指標を取得し表示

あとはグラフなどにしたい経済指標を絞り込む
英語なので google 翻訳などで調べていくと

ISM Manufacturing PMI
ISM製造業PMI

ADP Nonfarm Employment Change
ADP非農業部門雇用者数

Crude Oil Inventories
米国 原油在庫量

新規失業保険申請件数
これは
Initial Jobless Claims

ISM非製造業指数
ISM Non-Manufacturing PMI

Nonfarm Payrolls
米非農業部門雇用者数

Unemployment Rate
失業率

JOLTs Job Openings
JOLTS求人労働異動調査
つまり求人情報の数

Core CPI
消費者物価指数
正式名称は生鮮食品除く総合指数。生鮮食品とは、生鮮魚介、生鮮野菜、生鮮果物のこと。

Core Retail Sales
米国コア小売売上高前月比

PPI
生産者物価指数
生産者が出荷した製品や原材料などの販売価格の変動を調査・算出した経済指標

Retail Sales
小売売上高
米国の小売・サービス業の月間売上高
インフレと経済活動を評価する

Building Permits
(Building Permits)は、政府や他の規制当局が発行した新施設の建設のための許可数
中期的に不動産市場を予測する

Philadelphia Fed Manufacturing Index
フィラデルフィア連銀製造業景況指数

Existing Home Sale
中古住宅販売件数

CB Consumer Confidence
米国 消費者信頼感指数

Core Durable Goods Orders
コア耐久財受注
報告月の前月と比較した米国耐久財製造業者が受注した受注額を反映します。耐久財とは家具、電気器具などで、3年以上もつことが予想

Fed Interest Rate Decision
FRB政策金利

GDP (QoQ) 
実質GDP

New Home Sales
新築住宅販売戸数

Pending Home Sales
住宅販売契約指数

が重要指標

なお調べるときに
actual が None のものを除外すると見やすいと思うが

economic_data2[economic_data2['actual']=='None']

pandasで複数条件のAND, OR, NOTから行を抽出(選択)

を参考にやったがダメ

Pandasで NaN (Null) の行だけ抽出

を参考に
isnull() で抽出可能になった

python では not は ~ でなり
複数条件にするときには () で条件を囲む

今回
importance==hight
actual が isnull() でないもの
のものを表示するので

economic_data2[~(economic_data2['actual'].isnull()) & (economic_data2['importance']=='high')]

とすればOK

とりあえず経済指標の絞り込みはできるようになったので
次にグラフにする

複数のグラフを表示するには
altair でできたのでこれをつかう

経済指標カレンダーの取得

経済指標カレンダーの取得

FXで重要な経済指標をWebスクレイピングで取得する方法

を参考にみんかぶからスクレイピング

でーたを綺麗にするために
列名を主導で追加
必要の無い列、行を削除

が必要になる

しかし

import pandas as pd

url = 'https://fx.minkabu.jp/indicators' #みんかぶFXの経済指標URLを取得
dfs = pd.read_html(url) #テーブルのオブジェクトを生成

を実行してもリストになってしまう

Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得)

を参考に
read?html に
必要なライブラリ不足かと思い

pip install beautifulsoup4 lxml html5lib

でインストールしてみたが変わらない

BeautifulSoupでテーブルスクレイピング

を参考に

import pandas as pd
url2 = 'https://en.wikipedia.org/wiki/Transistor_count'# 対象のwebページのurl
dfs = pd.read_html(url2)# webページに複数のテーブルがある場合、リスト形式でdfsに格納されます

とすると
webページに複数のテーブルがあるとリストになってしまう

なので

import pandas as pd

url = 'https://fx.minkabu.jp/indicators' #みんかぶFXの経済指標URLを取得
dfs = pd.read_html(url) #テーブルのオブジェクトを生成
dfs[0]

とすればテーブルとして表示できる

よくみたら出力するときに
dfs[0]
で指定していた….

とりあえずこれで当日の経済指標カレンダーは取得できそう

0からカウントされるので
0〜4までで1週間のカレンダー取得ができる

なお変動の pips については
米ドル/円やクロス円(ユーロ/円、ポンド/円など)の場合
1pip=0.01円(1銭)
10 pips=0.1円(10銭)
100 pips=1円(100銭)

米ドルストレート(ユーロ/ドル、ポンド/ドルなど)の場合
1pip=0.0001ドル(0.01セント)
10pip=0.001ドル(0.1セント)
100pip=0.01ドル(1セント)
となっている

これで
streamlit で表示できれば次にループ表示すれば週間カレンダーが表示できる
ので

mkdir fx_tool


作業ディレクトリを作成

使用するエディタは VS Code

cd fx_tool/
code ./

で作業ディレクトリに移動
vscode が起動する

main.py
を作成

久しぶりなのでほぼ忘れているので
Visual Studio Code キーボード ショートカット

をみながら操作

しかし途中でライブラリインストール済みでも import でエラー

このため
vscide import
で検索
VSCode で Python の import や from のエラーが消えない

を参考に

F1 を押す
Python: Select Interpreter を入力

使用する python を conda のものに設定

デフォルトの
Use default Python interpreter path
だとなぜか pandas のインポートができなかったけど
これで解決

from bs4 import BeautifulSoup
import pandas as pd
import streamlit as st

でライブラリインポート

アプリのタイトルは

st.title() 

で追加

経済指標カレンダーは
サイドバーで表示したいので

st.sidebar.write()

で記述していく

st.title('FX tool')

st.sidebar.write("""
# 経済指標カレンダー
今週の経済指標カレンダー
""")

url = 'https://fx.minkabu.jp/indicators' #みんかぶFXの経済指標URLを取得
dfs = pd.read_html(url) #テーブルのオブジェクトを生成
dfs[0]

dfs1 = dfs[0].dropna(subset = [4]) #4番にNaNが入っている行はバグなので、削除
dfs2 = dfs1.drop(2,axis =1) #2番目の列を削除。axis = 1は列を削除するオプション
dfs2.columns = ["発表時間", "経済指標", "前回変動幅(USD/JPY)","前回","予想","結果"]#列名を手動で追加。

#前処理終了

dfs2

st.sidebar.table(dfs2)
としてみたが
サイドバー表示だと見えにくいので本体の方にテーブル表示にする

なおサイドバーのwidth を変更する方法として
Change width of sidebar

にあるように
st.markdown
で設定も考えたが、使いにくいものになりそうなので別のレイアウトにすることに