Linux & Android Dialy

Mac Jupyter notebook メモ

Cmd + ←
で行頭へ移動後

Shift + cmd + →
で行を選択できる

単語ごとの選択は
Option + ←

単語の削除は
Option + backspace

これで
効率的にコードを書ける

[/python]
search_indicate[‘actual’] =search_indicate[‘actual’].str.replace(r”\D”, “”,regex=True)

search_indicate[‘forecast’] =search_indicate[‘forecast’].str.replace(r”\D”, “”,regex=True)

search_indicate[‘previous’] =search_indicate[‘previous’].str.replace(r”\D”, “”,regex=True)

search_indicate
[/python]

これで変換して

date2 =[]

for i in search_indicate['date']:

    new_date = datetime.datetime.strptime(i,"%d/%m/%Y").strftime("%Y-%m-%d")

    date2.append(new_date)

search_indicate['date']=search_indicate['date'].str.replace('/','-')

search_indicate['date'] = date2

search_indicate.fillna(0)

で日付を修正

あとは

actual =(

    alt.Chart(search_indicate)

    .mark_line(opacity=0.8,clip=True)

    .encode(

        x="date:T",

        y=alt.Y("actual:Q",stack=None)

    )

)



forecast =(

    alt.Chart(search_indicate)

    .mark_line(opacity=0.8,clip=True,color='red')

    .encode(

        x="date:T",

        y=alt.Y("forecast:Q",stack=None),      

    )

)



previous =(

    alt.Chart(search_indicate)

    .mark_line(opacity=0.8,clip=True,color='green')

    .encode(

        x="date:T",

        y=alt.Y("previous:Q",stack=None),      

    )

)

alt.layer(actual,forecast,previous).resolve_scale(

    y = 'independent'

)

で

それぞれのチャートを表示

次に
indicatorの ( 以降を
削除する

まずは

# s = 'abcxyz-xyz('



# print(my_removesuffix(s, '-xyz'))

txt ="ANZ Job Advertisements (MoM)"

print(txt)

として ( 以降を削除

Pythonで文字列の先頭と末尾から空白や文字列を削除する：strip()

を参考にしたが
strip ではできなかった

Replace と正規表現で行う

０回以上の繰り返し
*

任意の英数字は
[a-zA-Z0-9_]
か
\w

txt.replace("(","")

だとできた

エスケープは不要

year_economic_data2['event']=year_economic_data2['event'].replace("\([a-zA-Z0-9_]+\)","",regex=True)

year_economic_data2

とすることで解決

あとは経済指標カレンダーも同様に処理

# dealing_calender['event']= dealing_calender['event'].str.replace('(','\(').str.replace(')','\)')

を

dealing_calender['event']=dealing_calender['event'].replace("\([a-zA-Z0-9_]+\)","",regex=True)

とすることで解決

ただし

search_indicate['actual'] =search_indicate['actual'].str.replace(r"\D", "",regex=True)

search_indicate['forecast'] =search_indicate['forecast'].str.replace(r"\D", "",regex=True)

search_indicate['previous'] =search_indicate['previous'].str.replace(r"\D", "",regex=True)

search_indicate

だと

小数点のものまで書き換えてしまい
マイナス、小数点まで削除してしまう

不等号などはそのままにして
%
英数字のみ
削除すればいけるはず

Python: 正規表現ライブラリを使って、グループ化による置換

を参考に

import re

print(re.sub(r'([A-Z][a-z]?)(\d{1,3})', r"\\Nuc{\1}{\2}{}", "He4"))

# \Nuc{He}{4}{}

print(re.sub(r'([A-Z][a-z]?)(\d{1,3})L', r"\\Nuc{\1}{\2}{\\Lambda}", "He4L"))

# \Nuc{He}{4}{\Lambda}

みたいに

search_indicate['actual'] =search_indicate['actual'].str.replace(r"[a-zA-Z%]", "",regex=True)

search_indicate['forecast'] =search_indicate['forecast'].str.replace(r"[a-zA-Z%]", "",regex=True)

search_indicate['previous'] =search_indicate['previous'].str.replace(r"[a-zA-Z%]", "",regex=True)

search_indicate

とすればできた

とりあえず問題はあるけど
経済指標の取得後の処理はできてきた

次はIMM ポジションの取得

https://www.gaitame.com/market/imm/imm_currency.xls

からダウンロードしたいが

Mac だとそのままだとできないらしい

と思ったが　Jupiter notebook からだとファイルを開けないみたい

Finder からだと普通にひらけた

Wgetは　Mac にはないけど
Curl で代用できる

curl コマンド使い方メモ

を参考に

-O オプションを付けることでファイル取得と保存ができる

!curl  "https://www.gaitame.com/market/imm/imm_currency.xls" -O

これで取得はコマンドでできるけど
Excel ファイル読み込みでエラー

No module xlrd

のエラーが出たので

【Python エラー】No module xlrd の対処法。権限がなくてxlrdモジュールをインストールできないとき

を参考に

!pip3 install xlrd

でインストール

あと excel の操作もできるように

!pip3 install openpyxl

で追加

あとは　notebook を再起動すると
普通にExcelファイルの取り扱いできた

とりあえず
データ取得関連はほぼできた

経済指標カレンダーの取得

スクレイピングだけだとあっているかわからないので

Investor でも取得してみる

[Python]investpyで株、為替、経済指標データを取得する
を参考に

economic_data = invest.economic_calendar(time_zone='GMP +9:00', countries=['japan', 'united states'], from_date='01/02/2021', to_date='28/03/2021')

economic_data.tail(5)

としたがエラー

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date='01/02/2021', to_date='28/03/2021')

economic_data.tail(5)

というように

time_zone を省略したらできた

today =datetime.date.today().strftime('%d/%m/%Y')

today

で今日の日付を investor で検索する形式に変換して取得

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date=today, to_date=today)

economic_data.tail(5)

とすると今日のカレンダーと思ったけど出ない

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date='23/03/2022', to_date=today)

economic_data.tail(5)

というように前日の日付にすればできる

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date='23/03/2022', to_date=today)

economic_data.tail(5)

economic_data[economic_data['importance']=='high']

で日本とアメリカだけ出てくる

なので国コードを外してしてしてみる

まずは昨日の日付をオートで取れるようにする

[Python]昨日や明日、月末などの日付を取得したい
を参考に

import datetime

from dateutil.relativedelta import relativedelta

を追加

# 今日# => 2020-04-02

today = datetime.date.today()


# 昨日# => 2020-04-01

yesterday = today + relativedelta(days=-1)

で昨日の日付を取れる

today =datetime.date.today()

print(today)

deel_today = datetime.date.today().strftime('%d/%m/%Y')

print(deel_today)

yesterday = today + relativedelta(days=-1)

print(yesterday)

deel_yesterday = yesterday.strftime('%d/%m/%Y')

print(deel_yesterday)

とすれば取引の当日、前日を取得できる

economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date=deel_yesterday, to_date=deel_today)

economic_data.tail(5)

で同じ結果であることを確認した

次に国コードを外してみる

# economic_data = investpy.economic_calendar(countries=['japan', 'united states'], from_date=deel_yesterday, to_date=deel_today)

# economic_data.tail(5)

economic_data = investpy.economic_calendar(countries=None, from_date=deel_yesterday, to_date=deel_today)

economic_data.tail(5)

economic_data[economic_data['importance']=='high']

で経済指標カレンダー取得はできたけど

ミシガン消費者信頼感指数が出ない

結果として対応するのは

通貨コード

指標名

予測値

前回の値

今回の値となっているが

これが遅延があるのか調べないとわからない

遅延が数秒程度なら

Twitter より早いと思う

economic_data.dtypes

でデータ型を調べたら

全て object

この中で検索などの処理で使うのは

Date

Time

Event

の３つをキーにして検索する

ロイターRSS取得

ニュース取得にはRSSという方法もある

https://www.google.com/amp/www.algo-fx-blog.com/python-news-headlines-rss/amp/
によれば
feedparserライブラリでできるらしい

https://qiita.com/hann-solo/items/46d2bd25667618c36a5d
を参考に

ロイターRSSのURLを変更したらできたが

# ニュースのヘッドライン
print(reuters['entries'][0]['title'])

# 公開日時
print(reuters['entries'][0]['published'])
 
＃ URL
print(reuters['entries'][0]['link'])

でえらーになる

entries がうまく行かない

# 取得したデータを確認
reuters

で内容を確認

# 公開日時
#print(reuters['entries'][0]['published'])
print(reuters['entries'][0]['updated'])

としたら表示できた

[/python]
# ニュースの取得件数の確認
len(reuters[‘entries’])
[/python]
で確認したら現在は１０が限界

# マーケットウォッチのデータを取得
market = feedparser.parse('http://feeds.marketwatch.com/marketwatch/realtimeheadlines/')
market_df = pd.DataFrame(market['entries'])
market_df.head(2)

としたが見にくい

# データを綺麗にする
market_df = market_df[['published', 'title']]
market_df.head()

で見やすくなったが title が省略される

market_df[['title']]

としても同じ

【Python】Pandasのデータフレームを省略せずに表示する方法を紹介！
を参考に省略せずに表示する

多分表示されなくてもデータの格納はされていると思う

https://qiita.com/kiddayo/items/e5ce519a234aff88af12

を参考に

pd.set_option('display.max_rows', 1500)
pd.set_option('display.max_columns', 4096)

としたが
Summary 表示は変わらない
とりあえずは保留

またRSSだと
ニュース更新頻度に問題あるため
Twitter から取得する

すでに tweepy はインストール済

あとはツイート検索と取得
これもできたので
次はテキストのみ抽出する

Streamline でエラーになったが

https://teratail.com/questions/97557
を参考に

重複したdatetime を修正し

new_date = datetime.strptime(i,"%d/%m/%Y").strftime("%Y-%m-%d")

としたら解決した

修正したので commit しようとしたら

Author identity unknown


*** Please tell me who you are.


Run


  git config --global user.email "you@example.com"

  git config --global user.name "Your Name"


to set your account's default identity.

Omit --global to set the identity only in this repository.


fatal: unable to auto-detect email address

となったので

git config --global user.email "メルアド"

git config --global user.name "snowpooll"

を実行後

git commit -m "Correction of datetime part"

これで

Git push origin main

でOK

for tweet in tweepy.Cursor(api.search_tweets, q='"#雇用統計"').items(10):

    print(tweet.text)

とすれば

#雇用統計

を含むツイートが１０件取得できる

Tweet.text

でツイート情報を取得できる

Tweet.user

ツイートしたユーザ情報にアクセス

Tweet.user.name

ユーザ名の取得

次に特定ユーザのツイート

#if文にてRTとリプライを除外

[tweet.text for tweet in tweepy.Cursor(api.user_timeline, id="Qiita").items(10) if (list(tweet.text)[:2]!=['R', 'T']) & (list(tweet.text)[0]!='@')]

としたら

Unexpected parameter id

となるので id ではないかもしれない

https://toxublog.com/blog/get_tweet_tweepy/
を参考にDFにしてみた

必要なのは

ユーザ名
時刻
ツイート内容

これで一回経済指標で実験してみる

#検索条件の設定

searchkey = '#雇用統計'

item_num = 10

#検索条件を元にツイートを抽出

#tweets = tweepy.Cursor(api.search,q=searchkey,lang='ja').items(item_num)

tweets = tweepy.Cursor(api.search_tweets,q=searchkey,lang='ja').items(item_num)

tweet_data = []

for tweet in tweets:

        #tweet_dataの配列に取得したい情報を入れていく

    tweet_data.append([

        tweet.text,

        tweet.user.screen_name,

        tweet.user.name

                       ])

    #取り出したデータをpandasのDataFrameに変換

#CSVファイルに出力するときの列の名前を定義

labels=[

    'ツイート内容',

    'ユーザID',

    'アカウント名',

    ]

#tweet_dataのリストをpandasのDataFrameに変換

tweet_df = pd.DataFrame(tweet_data,columns=labels)

で大体近い感じ

あとは省略されている部分を調べる

Cvs では省略されていないので

そのままでも使えるはず

もしくはそのままでも使えるか調べる

経済指標アラートアカウント見たけど

アラートのみで実際の値はなし

Reutersとかのアカウントを使った方が正解かもしれない

とりあえず

アカウント名

ツイート内容が取得できればok

あとはここから絞り込み

geogebra-classic インストール

関数とは入力に対して１つの出力があるということ

ｙはｘの関数である
を表記すると
y=f(x)

英語で書くと
y equals function of x

例としてタクシーの料金

走行距離 => 料金

というもの

次は一次関数と二次関数

一次関数の例

チーズが１ｇあたり５円
箱代１００円

これを y と x の関係にして数式で表現

チーズが x
金額が　ｙ
とする

y = 5 * x +100
= 5x +100
となる

この式により
１００個売ると
5x + 100
の式から
６００円
となる

これをグラフにすると
ｘ＝０だと y = 100
になり
ｘが増えた文だけ直線になっていく

この傾きは
ｘが１増えるとき
直線がいくつ増えるか
というのを勾配
という

ニューラルネットでいう勾配降下法
gradient descent
というので使う

ｘ＝０のときのｙの値
これを切片という

今回の式を一般化すると
y = ax + b
となる

a が傾き
ｂを切片

ax の部分を項
という

項は１つずつの塊
つまり式の＋とかで区切るときの塊をいう

このｘの数が次数という

今回はｘが１つだけなので
一次
となる

これが
y=ax2 + bx + c
なら
項が３つ
ｘが２つなので二次
となる

一番多い次数を数えて
一次、二次といっている
今回なら
二次関数で
二次の多項式
となっている

これらのグラフを描画するにあたり
GeoGebra を使うと便利

インストールできない場合
ブラウザ版もある

Reference:GeoGebra Installation

によれば
Ad Linux: the .deb and .rpm installers will automatically add the official GeoGebra repository to the package management system on the workstation. This will enable automatic update of GeoGebra every time a new version is released. If you want to include GeoGebra in your custom Linux distribution with GeoGebra included, the best way is to add the official GeoGebra repository (http://www.geogebra.net/linux/) to your package management system. The GPG key of the repository is at https://static.geogebra.org/linux/office@geogebra.org.gpg.key – the name of the package is geogebra-classic.
Installing GeoGebra directly from the command line: for Ubuntu, these two commands eliminate the need for downloading .deb files:
とあり
リポジトリを登録することで簡単インストールが可能

とあったが
リポジトリ登録のため

sudo apt-add-repository -u 'deb http://www.geogebra.net/linux/ stable main'

を実行したら

Traceback (most recent call last):
  File "/usr/lib/python3/dist-packages/apt/cache.py", line 520, in update
    pulse_interval)
SystemError: W:ターゲット Packages (contrib/binary-amd64/Packages) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Packages (contrib/binary-all/Packages) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-ja_JP) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-ja) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-en) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット DEP-11 (contrib/dep11/Components-amd64.yml) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット DEP-11-icons (contrib/dep11/icons-64x64.tar) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:http://download.ebz.epson.net/dsc/op/stable/debian/dists/lsb3.2/Release.gpg: 鍵 E5220FB7014D0FBDA50DFC2BE5E86C008AA65D56 による署名は弱い digest アルゴリズム (SHA1) を使用しています, W:署名照合中にエラーが発生しました。リポジトリは更新されず、過去のインデックスファイルが使われます。GPG エラー: https://dl.winehq.org/wine-builds/ubuntu xenial InRelease: 公開鍵を利用できないため、以下の署名は検証できませんでした: NO_PUBKEY 76F1A20FF987672F, W:GPG エラー: http://www.geogebra.net/linux stable InRelease: 公開鍵を利用できないため、以下の署名は検証できませんでした: NO_PUBKEY C072A32983A736CF, W:リポジトリ http://www.geogebra.net/linux stable InRelease は署名されていません。, W:このようなリポジトリから取得したデータは認証できないので、データの使用は潜在的に危険です。, W:リポジトリの作成とユーザ設定の詳細は、apt-secure(8) man ページを参照してください。, E:/var/lib/apt/lists/partial/download.virtualbox.org_virtualbox_debian_dists_xenial_InRelease の状態を取得するのに失敗しました - pkgAcqTransactionItem::TransactionState-stat (2: そのようなファイルやディレクトリはありません), E:/var/lib/apt/lists/partial/download.virtualbox.org_virtualbox_debian_dists_xenial_contrib_binary-amd64_Packages の状態を取得するのに失敗しました - pkgAcqTransactionItem::TransactionState-stat (2: そのようなファイルやディレクトリはありません)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/bin/apt-add-repository", line 173, in <module>
    if not sp.add_source_from_shortcut(shortcut, options.enable_source):
  File "/usr/lib/python3/dist-packages/softwareproperties/SoftwareProperties.py", line 782, in add_source_from_shortcut
    cache.update(sources_list=new_debsrc_entry.file)
  File "/usr/lib/python3/dist-packages/apt/cache.py", line 522, in update
    raise FetchFailedException(e)
apt.cache.FetchFailedException: W:ターゲット Packages (contrib/binary-amd64/Packages) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Packages (contrib/binary-all/Packages) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-ja_JP) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-ja) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット Translations (contrib/i18n/Translation-en) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット DEP-11 (contrib/dep11/Components-amd64.yml) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:ターゲット DEP-11-icons (contrib/dep11/icons-64x64.tar) は /etc/apt/sources.list:60 と /etc/apt/sources.list:62 で複数回設定されています, W:http://download.ebz.epson.net/dsc/op/stable/debian/dists/lsb3.2/Release.gpg: 鍵 E5220FB7014D0FBDA50DFC2BE5E86C008AA65D56 による署名は弱い digest アルゴリズム (SHA1) を使用しています, W:署名照合中にエラーが発生しました。リポジトリは更新されず、過去のインデックスファイルが使われます。GPG エラー: https://dl.winehq.org/wine-builds/ubuntu xenial InRelease: 公開鍵を利用できないため、以下の署名は検証できませんでした: NO_PUBKEY 76F1A20FF987672F, W:GPG エラー: http://www.geogebra.net/linux stable InRelease: 公開鍵を利用できないため、以下の署名は検証できませんでした: NO_PUBKEY C072A32983A736CF, W:リポジトリ http://www.geogebra.net/linux stable InRelease は署名されていません。, W:このようなリポジトリから取得したデータは認証できないので、データの使用は潜在的に危険です。, W:リポジトリの作成とユーザ設定の詳細は、apt-secure(8) man ページを参照してください。, E:/var/lib/apt/lists/partial/download.virtualbox.org_virtualbox_debian_dists_xenial_InRelease の状態を取得するのに失敗しました - pkgAcqTransactionItem::TransactionState-stat (2: そのようなファイルやディレクトリはありません), E:/var/lib/apt/lists/partial/download.virtualbox.org_virtualbox_debian_dists_xenial_contrib_binary-amd64_Packages の状態を取得するのに失敗しました - pkgAcqTransactionItem::TransactionState-stat (2: そのようなファイルやディレクトリはありません)

となるため
Ubuntu Desktop 20.04にGeoGebraをインストールする

を参考にインストール

sudo apt-get -y install  libcanberra-gtk-module libgconf-2-4 gconf-service gconf2-common libcanberra-gtk0 gconf-service-backend

で必要なライブラリをインストール

今回は ubuntu 16.04 へインストールするので
Linux (deb): 64 bit installers for .deb based systems (Mint ≥ 18, Debian ≥ 8, Ubuntu ≥ 14.10)
をダウンロード

sudo dpkg -i geogebra-classic_6.0.666.0-202109211234_amd64.deb

でインストール

geogebra を起動し
数式を入力

今回は
y = 5x + 100

として横の○アイコンをクリックすると
グラフの表示ON・OFFができる

VS Code で python のパスを追記

vscode で自動補完されないため
最新版に更新したら
python そのものを読み込んでいない状態に
VSCodeでPython自作モジュールimport時のエラー(Unable to import )が消えない場合の対処方法
を参考に

python.autoComplete.extraPaths
を設定することにした

パスに関しては
VScodeの自動整形や自動補完の設定(Python)

を参考に

pip show tensorflow

の結果

Name: tensorflow
Version: 2.8.0
Summary: TensorFlow is an open source machine learning framework for everyone.
Home-page: https://www.tensorflow.org/
Author: Google Inc.
Author-email: packages@tensorflow.org
License: Apache 2.0
Location: /home/snowpool/anaconda3/lib/python3.8/site-packages
Requires: absl-py, astunparse, flatbuffers, gast, google-pasta, grpcio, h5py, keras, keras-preprocessing, libclang, numpy, opt-einsum, protobuf, setuptools, six, tensorboard, tensorflow-io-gcs-filesystem, termcolor, tf-estimator-nightly, typing-extensions, wrapt
Required-by:

から
/home/snowpool/anaconda3/lib/python3.8/site-packages
がパスであることを確認

VS Codeのsettings.jsonの開き方

を参考に

ctrl + ,
で設定画面を開き
右上のアイコンから

Open Setting （JSON)アイコンをクリック

settings.json
の
{
    "workbench.editorAssociations": {
        "*.ipynb": "jupyter-notebook"
    },
    "notebook.cellToolbarLocation": {
        "default": "right",
        "jupyter-notebook": "left"
    }
}

を

{
    "workbench.editorAssociations": {
        "*.ipynb": "jupyter-notebook"
    },
    "notebook.cellToolbarLocation": {
        "default": "right",
        "jupyter-notebook": "left"
    },
    "python.autoComplete.extraPaths": [
        "/home/snowpool/anaconda3/lib/python3.8/site-packages"
    ],
    "python.analysis.extraPaths": [
        "/home/snowpool/anaconda3/lib/python3.8/site-packages"
    ]
}

として保存

これで再度 vscode を立ち上げると
コード補完がされるようになる

経済指標の値の取得と計算

Mac Jupyter notebook メモ

経済指標の取得その２

経済指標の取得その１

経済指標カレンダーの取得

Pandas 特定の文字列取得

ロイターRSS取得

replace と正規表現

geogebra-classic インストール

VS Code で python のパスを追記