スキップしてメイン コンテンツに移動

KoeMill V.0.9.0.0 リリース

KoeMillのV.0.9.0.0をリリース

KoeMillは、音声認識による文字起こしを行うソフトウェアです。音声認識モデルにはWhisperが採用されており動画や音声から自動的に高品質な文字起こしができるため、煩雑な手作業を省くことができます。
オフラインで動作するため、ネットワークの遅延などによる遅れやプライバシーに関する懸念もありません。また、GPUを利用することで高速な処理を実現します。


コメント

  1. 便利なソフトを開発していただきありがとうございます。
    さっそく使ってみたくダウンロードしようとしたのですが、解凍中に「ThirdPartyNotice.md」の段階で応答しなくなってしまう現象が繰り返されています。恐れ入りますが解決策などありましたらご教示ください。
    よろしくお願いいたします。

    返信削除
    返信
    1. 圧縮・解凍ソフトの相性みたいなものがあるかもしれません。お手数をおかけしますが別のソフトで解凍できないか確認していただけないでしょうか

      削除
  2. koemillすごい使いやすいです。まさにこういうものを探していました。ありがとうございました。

    返信削除
  3. AIのラージサイズがリンク切れになってますが、修正可能でしょうか?

    返信削除
    返信
    1. ご連絡いただきありがとうございます。large-v3モデル追加による影響のようです。修正は可能ですが近々に試したい場合は以下のリンクよりファイルをダウンロード後
      https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=true
      ファイル名をggml-large.binに変更し、以下に記載のKoeMillフォルダに配置してください。
      https://mecha-uma.blogspot.com/p/koemill_3.html

      削除
  4. ありがとうございます、しかし英語が読めずダウンロードが見つけられません、修正をおとなしく待ちたいと思います。m(_ _ )m

    返信削除
    返信
    1. ご迷惑おかけしております。修正自体は難しいものではありませんので近日中にはリリースできるかと思います。
      ただ、Largeモデルに関してはサイズが大きい兼ね合いでKoeMillからダウンロードすると非常に時間がかかります。そのためブラウザからダウンロードした方が物凄く速いのでブラウザからダウンロードすることをオススメします。また、以下のリンクはダウンロードリンクそのものなのでブラウザのURL欄に貼ってエンターでダウンロードが開始されると思います。
      https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=true

      削除
  5. なんとか出来ました、ありがとうございます。

    返信削除
  6. ミニPCで動作しました。大変便利で助かります。ありがとうございます。

    返信削除
    返信
    1. 横からすみません。使用されたミニPCはどのようなものでしょうか?

      削除
  7. 別のところに投稿してしまったかもしれません。失礼しました。KoeMill を利用したいと思っているのですが、試してみたところ、10秒ごとに同じような文章を連続的に吐き出すような現象が見られています。原因と対策についてお教えくださいますと幸甚です。お手隙のときにでも、よろしくお願いいたします。

    返信削除
    返信
    1. ご利用いただきありがとうございます。同じような文章を繰り返すのはハルシネーションと呼ばれる現象でWhisperでもしばしば問題として挙げられます。
      繰り返しが起きるのは直前の内容に引っ張られているためで、一度ループに嵌ると抜けられなくなっている状態です。
      根本的な対策ではありませんが、ループの起点をデータ的に取り除く、データを変える(サンプリング周波数を変えるなど)などにより改善することもあるようです。
      ただ現時点でソフト的な対策は難しく力及ばず申し訳ありません。

      削除
    2. ご丁寧にありがとうございます!嬉しいです!
      何が問題かがより具体的になっただけでも、大変助かりました!
      これは妄想ですが…。例えば、KoeMill の仕組みとして、ハルシネーション検出機能みたいなのは想定できないでしょうか…?同じ文章の出力が何回か続いたらハルシネーションと判断して、自動的に認識再開位置を少しずらしたり、音声認識を内部で一度中断したりして、音声認識を続行するみたいなことが、ソフトウェア上で自動的にやってもらえると、すごく助かるだろうな…なんて思ったりしました!

      削除
    3. ハルシネーション検出、良いですね。もちろん、界隈ではハルシネーションを起こしにくくするなど、様々な対策が進められているようですので、可能であればそれらを取り入れたいと思います。ただし、現状では位置の調整が難しいという課題もあり、早急な対応は難しい状況です。引き続きご迷惑をおかけしますが、ご了承ください。

      削除
  8. すばらしいSWを開発して頂いてありがとうございます。
    認識精度に驚くばかりですが、MediumやLargeのモデルを使うと音声を認識できない場合があるようです。Smallでは認識できるので音声との相性なのかもと思いましたが、原因分かりますでしょうか?
    音声ファイルの音量をツールを使ってあげてみたりもしましたが、結果変わらずでした。

    返信削除
    返信
    1. KoeMillをご利用いただきありがとうございます。
      この度はMedium、Largeモデルでの認識不良についてご報告いただき、ありがとうございます。
      ソフトウェアの都合上、Largeモデルについては、良好な動作もあればそうでない場合もあるようです。
      また、音量の変更等を試していただき、ありがとうございます。ファイルを変更することで改善される場合もありますが、今回は影響がなかったようで残念です。
      報告いただいたMedium、Largeモデルは比較的大きなモデルですので、メモリ等のリソースが不足している可能性も考えられますが、詳細な原因の特定は難しいです。
      お力になれず申し訳ございません。

      削除
  9. 非常に有益なツールで今後活用させて頂きたいと思っています。

    試しに2時間のm4aを日本語、Largeモデルを使って、CSVファイルに出力させると19分以降、ずっと同じ内容の言葉が出力されます。
    お忙しいところ、恐縮ですが、調査をお願いしたいです。

    ・使用環境
    Ryzen 5800H、メモリ 16GB、512GB SSD、GeForce GTX 1650 4GB、Windows 11

    返信削除
    返信
    1. 途中で同じ内容が繰り返されるということだとハルシネーションの可能性が疑われます。一度繰り返しが始まるとその状況から抜け出すのが困難になるようです。他だとファイルをwavなど別の形式に変換することで改善することもあるようです。
      今回のように場所がわかっている場合だと前後を分けるのも良いかもしれません。

      削除
  10. このソフトを発見して本当に助かっています。
    WEBで完成するものが主流ですがなんとなくセキュリティーなんか気になっての出会いだったのでありがたいです。
    最近PCを刷新して もちろんKoeMillもインストしましたが、自作したPCでCPUがGPU無しのF付CPUを選択してしまい ソフトを走らせたら案の定できませんでした。。。 グラボのGPUを使用して編集できる設定はありますか?

    返信削除
    返信
    1. KoeMillを見つけていただきありがとうございます。また仕組み上GPU必須のためご期待に添えず申し訳ありません。グラボについては開発PCではグラボのGPUが利用されていたので基本的には特に指定は必要ないと認識しております。GPUなしCPUを使用しているわけではないためはっきりとしたことは言えませんが、もしグラボを付けているが使用できないということであれば別の原因があるのかもしれません。

      削除
    2. ご丁寧にご返答いただきありがとうございます。
      試作機で仮使用していたグラボが古かった様です。同様のCPUの状態のまま、グラボ変更のみでKoemillの使用ができました! 
      おっしゃるように別の原因でした。 お手数おかけしました。
      グラボの性能云々ではなく単に古かったとか相性かもしれませんが 当方13年前のグラボがWin11 で使えるか試していたのを忘れていて。。。 
      失礼いたしました。
      いずれにしても 今後も利用させていただきます!
      ありがとうございます。

      削除
  11. エンジニアではないのですがWhisperを使ってみたくて、こちらにたどり着きました。素人にも分かりやすくて助かっております。ところで、専門用語や地名など、Whisperに学習してもらう方法がありましたらご教示いただけないでしょうか。

    返信削除
    返信
    1. ご利用いただきありがとうございます。
      Whisperに事前に情報を与える仕組みは存在するのですが、あくまで反応するのは初めの方の解析であること、また本ツールでの対応は仕組み的にも難しいのが現状です。一方で辞書登録のような方法もあるかとは思いますが、これもまた対応はしておりません。お力になれず申し訳ありません。

      削除
    2. ご返信ありがとうございます。内容について承知いたしました。数年前の文字おこし事情から考えると素晴らしい進化ですので、引き続き、使用させていただきます!

      削除

コメントを投稿

このブログの人気の投稿

CapCap V.0.9.2.7 リリース

CapCapのV.0.9.2.7をリリース 主な変更内容 HTTP POST設定でヘッダの設定に対応 HTTP POST設定でJSONのオブジェクトおよび配列に対応 HTTP POST設定を大項目ごとに折りたためる機能に対応 サンプルプリセット(ChatGPT API)を追加 プリセット複製時に複製先の変更が複製元に及んでいた不具合を修正 HTTP POST設定 新たにリクエストヘッダを設定できるようになりました。これによりAuthorizationによる認証などヘッダが必要なAPIにも対応できるようになりました。合わせて、これまで設定することが出来なかったJSON ObjectおよびArrayについても設定できるようになりました。 ChatGPT APIについて サンプルプリセットを追加しました。HTTP POSTのヘッダおよびJSON ArrayとObjectに対応したため、その対応例となります。 継続的に使おうとすると費用が発生することになるので、無料枠が残っている間に遊んでもらえると幸いです。 DLページ: Home

CapCap V0.9.2.5 リリース

CapCapのV0.9.2.5をリリース 主な変更内容 段落検出機能を追加 字幕モードの名称を変更(Readability -> Text, Layout -> Item) 段落検出 テキストの行同士の距離をもとに段落を検出することが出来るようになりました。 段落の検出および段落間への空行挿入が行なえます。 これまではテキストをひと繋がりの文章として認識していましたが、段落ごとに分離されることで可読性の向上が見込めます。 文章に対して段落が多い場合や段落が2行からなる場合などには精度が落ちる傾向にあります。また実験的機能の側面があるため問題点等あればご報告いただけると助かります。 DLページ: Home