LittleVoice-g-string

簡易な形態素解析器を構築

Posted on 2021-03-28 In 自然言語処理
Symbols count in article: 40 Reading time ≈ 1 mins.

1.説明

2.new word discovery

3.word segmentation

エラー集

Posted on 2021-03-28 In others
Symbols count in article: 898 Reading time ≈ 1 mins.

others

you-get https://www.bilibili.com/video/BV1yK4y1E7n4?p=95
error:

 you-get: [error] oops, something went wrong.
 you-get: don't panic, c'est la vie. please try the following steps:
 you-get:   (1) Rule out any network problem.
 you-get:   (2) Make sure you-get is up-to-date.
 you-get:   (3) Check if the issue is already known, on
 you-get:         https://github.com/soimort/you-get/wiki/Known-Bugs
 you-get:         https://github.com/soimort/you-get/issues
 you-get:   (4) Run the command with '--debug' option,
 you-get:       and report this issue with the full output.

step1:

 you-get -i https://www.bilibili.com/video/BV1yK4y1E7n4?p=95
     title:               贪心 NLP 自然语言处理 (P95. 任务095：访问首页列表中的url)
 streams:             # Available quality and codecs
     [ DASH ] ____________________________________
     - format:        dash-flv480
       container:     mp4
       quality:       清晰 480P
       size:          32.0 MiB (33512282 bytes)
     # download-with: you-get --format=dash-flv480 [URL]
     ...

solved by:

 you-get --format=dash-flv https://www.bilibili.com/video/BV1yK4y1E7n4?p=95
     - 説明:音声と画像が切り分けられてしまっている

NeuralNetwork実践_MNIST

Posted on 2021-03-16 Edited on 2021-03-28 In 機械学習
Symbols count in article: 9.4k Reading time ≈ 9 mins.

説明

ニューラルネットワークを理解するため、Numpy、keras、Pytorchを使ってMNISTデータセットの手書き数字を識別してみました。

使用しているデータ
- Kaggle Digit Recognizer
- MNISTデータセットは、機械学習でとても有名なデータセットであり、0から9までの手書き数字のグレースケール画像が入っています。各画像は、縦28X横28合計784ピクセルとなっており、各ピクセルには一つ0から255のピクセル値をついています。そのピクセル値が大きいければ大きいほど暗いことを意味しています。
- Trainデータに関しては、先頭のlabel列はユーザーが描いた数字を表しており、残りの列は該当画像のピクセル値が格納されています。
- testデータに関してはTrainデータと同様に、画像のピクセル値が格納していますが、label列がついていないので、それを識別するのは今回のタスクです。
training data,validate dataを用意します。
Read more »

パワポを自動翻訳する

Posted on 2021-02-10 Edited on 2021-02-11 In pythonによる自動化
Symbols count in article: 9.9k Reading time ≈ 9 mins.

課題紹介

業務でよく報告書を翻訳するので、いつもDeepLを使っていますが、DeepLは最近翻訳したパワポをダウンロードしたら、修復エラー出てしまうので、Google translate apiを呼び出して、パワポの自動翻訳を実現したいと思います。

参考文献

① Google Apps Scriptによる翻訳APIの利用

簡単にapiを作成

こちらの記事3 分で作る無料の翻訳 API with Google Apps Scriptを参考し、無料の翻訳apiを作成しました。
下記のコードをGoogle Apps Scriptにて入力し、ウェブアプリケーションとして導入を選択したら
https://script.google.com/macros/s/[api_key]/execのようなURLが生成してくれる。こちらを使って翻訳を行います。
https://script.google.com/macros/s/[api_key]/exec?text=こんにちは&source=ja&target=enで結果があったら、apiの作成が成功できたといえます。

find the different files between 2 folders

Posted on 2021-02-07 Edited on 2021-02-08 In pythonによる自動化
Symbols count in article: 8.1k Reading time ≈ 7 mins.

1.課題

一つの圧縮ファイルを解凍して、2つのフォルダを得た。
- A_fullフォルダ:エラーなく解凍でき、ファイル紛失のないフォルダ
- B_errorフォルダ:途中エラーが出てしまい、一部ファイルが紛失してしまったフォルダ
この2つのフォルダにそれぞれ８つのサブフォルダがあり、サブフォルダ名は以下の対応関係である。
- A_full:20210201 ~ B_error:a1
- A_full:20210202 ~ B_error:a10
- A_full:20210203 ~ B_error:a11
- A_full:20210204 ~ B_error:a2
- A_full:20210205 ~ B_error:a
- A_full:20210206 ~ B_error:A1
- A_full:20210207 ~ B_error:A19
- A_full:20210208 ~ B_error:S
  
  A_full B_error
  
  Read more »

markdown記法

Posted on 2021-02-03 In 日々の積み上げ
Symbols count in article: 399 Reading time ≈ 1 mins.

1.インラインでコードを表示する

このようにcodeをバッククオートを表現したいコードの間に入れるとできる

1	このように`code`をバッククオートを表現したいコードの間に入れるとできる

2.ページ内リンク

方法1:id を指定して移動させる(Markdown/html両方ともOK
id名は英語ではないと、位置ずれてしまう恐れがあるので、要注意

#出発箇所：
[contents](#id名)

#目的箇所：
<div id="id名(任意)"></div>

方法2:ヘッダーの名前を指定して移動する(Markdown記法のみ)
この方法は本記事で実現できなかった

#出発箇所
[contents](#1.インラインでコードを表示する)
#目的箇所
指定されたヘッダー

Sample:方法1を使って1.インラインでコードを表示するへ移動

Pythonによる自動化

Posted on 2021-01-25 Edited on 2021-03-22 In pythonによる自動化
Symbols count in article: 6.3k Reading time ≈ 6 mins.

一、複数のcsvをExcelのSheetに保存する

1.目的

同じフォルダ内のcsvファイルに情報を追加し、合併する
フォルダごとの情報を一枚のExcel表にシートごとにまとめる

2.事前説明

①使ったモジュール

import os
import pandas as pd
import datetime
import py7zr
import openpyxl

②データ構造

1_毎日同じ構造のデータが生成すると想定する

20200701.7z
▲フォルダ1
	■csvファイル1
	■csvファイル2
▲フォルダ2
	■csvファイル1
	■csvファイル2
▲フォルダ3
	■csvファイル1
	■csvファイル2

2_元データの中身

Windows環境上のAnacondaにMecabのユーザー辞書とNEologd辞書のインストール

Posted on 2021-01-22 Edited on 2021-01-24 In 日々の積み上げ
Symbols count in article: 4.5k Reading time ≈ 4 mins.

本記事では、MeCabとは、公式サイトからダウンロードしてきたMeCabのことを言う、Anaconda上のMeCabはAnaconda上でダウンロードしてきたMeCabを指します。

1)ネット上色々記事を参考してましたが、ほぼBoW環境をもとに紹介されています。
2)Windows環境+Anaconda(Python3.7)上では、下記記事の記載されている通り実行したらうまく行けましたので、メモとして残したいと思います。

WindowsでMeCab+NEologdをインストールする

paddlepaddleを使って写真の背景を切り捨てる

Posted on 2021-01-16 Edited on 2021-01-17 In 画像処理
Symbols count in article: 973 Reading time ≈ 1 mins.

1.deeplabv3p_xception65_humanseg

写真の主体だけを切り抜き、ワードクラウドの背景にしたいと思い、Baiduのディープラーニングフレームワークを使ってみました。
今回はdeeplabv3p_xception65_humansegというモデルのみ使ってみましたが、paddlepaddleにはNLPモデル、画像処理モデル、音声認識モデル等様々入っているので、今後色々試したいと思います。

今回の処理対象写真は以下の5枚を用意しました。

動物系の黒猫である羅小黒、人間姿になった羅小黒、人間ではあるが、バイバイしている後ろ姿しか見せていないシャオヘイの師匠であるムゲン、錦戸亮の進化した成人状態と王道のちび亮時期

2021年1月SQL練習課題回答

Posted on 2021-01-12 Edited on 2021-02-03 In sql
Symbols count in article: 5.9k Reading time ≈ 5 mins.

説明：SQLの操作はpsycopg2を使って、Python上での操作を行いました。

1.2021年1月12日

勉強したSQL構文:

OVER(PARTITION BY column1 ORDER BY column2)

①データ挿入

%%sql
CREATE TABLE T0104(
    ID INT,
    NAME VARCHAR(10),
    NUM INT)
INSERT INTO T0104 VALUES(1,'A',1);
INSERT INTO T0104 VALUES(2,'A',2);
INSERT INTO T0104 VALUES(3,'A',6);
INSERT INTO T0104 VALUES(4,'A',4);
INSERT INTO T0104 VALUES(5,'A',3);
INSERT INTO T0104 VALUES(6,'B',2);
INSERT INTO T0104 VALUES(7,'B',8);
INSERT INTO T0104 VALUES(8,'B',2);